Илья Салтанов, Олег Новиков (sports.ru)

Post on 15-May-2015

3.213 Views

Category:

Internet

9 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Как мы построили дешевую инфраструктуру для анализа трафика

Sports.ru & Tribuna.com

О нас

Олег Новиков

ИльяСалтанов

Руководитель отдела аналитики,Аспирант кафедры «Кибернетики» ВШЭ

Директор по развитию,Ex-CTO Wikimart.ru, Sports.ru

Кто мы?

caйта sports.ruua.tribuna.comby.Tribuna.com

12 000 000 посетителей

400 000 000 хитов

мобильныхприложений

потоков в соцсетях

• Много разных источников данных

• Нужен интенсивный экспорт статистики• Нужны сырые данные• Нужны единые отчеты, система координат

и интерфейс• ПОТОМУ ЧТО МОЖЕМ!

Зачем?

Решение

Хранилище RedShiftСырые данные

– Кликстрим – Активность– Подписки + установки

Агрегаты– Сессии– По дням/неделям/месяцам– Профили пользователей

Как устроены сайты?Весь контент нанизан на теги:

– Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов»

Из тегов собираются: – Подсайты sports.ru/spartak– Мобильные приложения iPhone, Android «Спартак+»– Потоки в соцсетях twitter.com/fcspartaknews

Все посетители – clientID, все пользователи – userID

1 – Adhoc-анализ• SQL-интерфейс• Любые аналитические запросы OnDemand• Анализ сырых данных с точностью до

clientID• Без семплирования!

2 – Бизнес-анализПанели для всех отделов:

– Трафик– Пользовательская активность– Популярное #прямосейчас– Соцсети– Мобильные приложения– Инвентарь продаж– Редакционный процесс

3 – Регулярный обзорНедельный обзор деятельности всех отделов:

– Маркетинг– Продажи– Редакция– Продукт– Социальная редакция– Разработка– ИТ– Финансы– Кадры

4 – Почтовые рассылкиКомпейнинг подписчиков:

– По интересам (тегам)– По активности– По пользовательскому профилю

5 – Рекомендации• Единицы контента в конце текстов• Подписки на блоги• Часто используемые теги• Общие друзья• Общие интересы

6 – Поиск ботовПроблема:• Рейтинг контента (плюсы/минусы)• Карма пользователей• Ботнеты в экосистеме

Решение:• Простые эвристики над данными• Быстрый поиск коллизий

Расходы3 человеко-месяца разработки:

– Фронтенд счетчика piwik– Парсер кликстрима из логов nginx– Агрегирующие функции в Redshift– Экспорт/импорт данных– Визуализация Chart.io

РасходыЕжемесячно #прямосейчас:

$500 Chart.io 10 пользователей$180x4 ноды Amazon Redshift$300x2 фронтенд-сервера для логов----------------------

$1,820

Контакты«Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?»http://habrahabr.ru/company/sports_ru/Илья Салтанов https://facebook.com/isaltanovОлег Новиковhttps://facebook.com/oleg.novikov.5074

top related