Илья Салтанов, Олег Новиков (sports.ru)
TRANSCRIPT
Как мы построили дешевую инфраструктуру для анализа трафика
Sports.ru & Tribuna.com
О нас
Олег Новиков
ИльяСалтанов
Руководитель отдела аналитики,Аспирант кафедры «Кибернетики» ВШЭ
Директор по развитию,Ex-CTO Wikimart.ru, Sports.ru
Кто мы?
caйта sports.ruua.tribuna.comby.Tribuna.com
12 000 000 посетителей
400 000 000 хитов
мобильныхприложений
потоков в соцсетях
• Много разных источников данных
• Нужен интенсивный экспорт статистики• Нужны сырые данные• Нужны единые отчеты, система координат
и интерфейс• ПОТОМУ ЧТО МОЖЕМ!
Зачем?
Решение
Хранилище RedShiftСырые данные
– Кликстрим – Активность– Подписки + установки
Агрегаты– Сессии– По дням/неделям/месяцам– Профили пользователей
Как устроены сайты?Весь контент нанизан на теги:
– Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов»
Из тегов собираются: – Подсайты sports.ru/spartak– Мобильные приложения iPhone, Android «Спартак+»– Потоки в соцсетях twitter.com/fcspartaknews
Все посетители – clientID, все пользователи – userID
1 – Adhoc-анализ• SQL-интерфейс• Любые аналитические запросы OnDemand• Анализ сырых данных с точностью до
clientID• Без семплирования!
2 – Бизнес-анализПанели для всех отделов:
– Трафик– Пользовательская активность– Популярное #прямосейчас– Соцсети– Мобильные приложения– Инвентарь продаж– Редакционный процесс
3 – Регулярный обзорНедельный обзор деятельности всех отделов:
– Маркетинг– Продажи– Редакция– Продукт– Социальная редакция– Разработка– ИТ– Финансы– Кадры
4 – Почтовые рассылкиКомпейнинг подписчиков:
– По интересам (тегам)– По активности– По пользовательскому профилю
5 – Рекомендации• Единицы контента в конце текстов• Подписки на блоги• Часто используемые теги• Общие друзья• Общие интересы
6 – Поиск ботовПроблема:• Рейтинг контента (плюсы/минусы)• Карма пользователей• Ботнеты в экосистеме
Решение:• Простые эвристики над данными• Быстрый поиск коллизий
Расходы3 человеко-месяца разработки:
– Фронтенд счетчика piwik– Парсер кликстрима из логов nginx– Агрегирующие функции в Redshift– Экспорт/импорт данных– Визуализация Chart.io
РасходыЕжемесячно #прямосейчас:
$500 Chart.io 10 пользователей$180x4 ноды Amazon Redshift$300x2 фронтенд-сервера для логов----------------------
$1,820
Контакты«Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?»http://habrahabr.ru/company/sports_ru/Илья Салтанов https://facebook.com/isaltanovОлег Новиковhttps://facebook.com/oleg.novikov.5074