Эффективные Алгоритмы Поиска Подобных Объектов Для...
TRANSCRIPT
Задача: Look aLike
example.comпросмотрели >=2 страниц
Вся аудитория которую мы видим
Интересная аудитория, которую надо найти
5
Что такое для нас профиль?
8
Контекстная информация (где, откуда, с какого устройства)
offline данные
История поведения в интернете
Чистим данные1) Выкидываем профили с недостаточной статистикой2) И сайты, с которых идет больше всего и меньше всего трафика
11
Матричное представление профилейhosts/profiles index
kaggle.com 1 1 0 1
habrahabr.ru 2 0 1 0
machinelearning.ru 3 1 0 1
analyticsvidhya.com 4 0 1 0
13
Хэш-функции
index kaggle.com machinelearning.ru Minhash
(index + 1) mod 3
2 1 1
(2*index + 1) mod 3
0 1 0
15
index
kaggle.com 1
machinelearning.ru 3
Как выбрать количество хэш-функций?
18
Например, что бы посчитать с ошибкой не большей чем 0.1 нам нужно 100 хэш-функций, но уже 10000 с ошибкой не большей чем 0.01.
Как выбрать параметры хэш-функций?
a, b - случайные целые числа < max(x)c - простое число, чуть большее чем max(x), общее для всех
19
Этап выделения профилей для расчета растояний
band1 band2 band3 band4
- целевая аудитория (просмотрел на example.com >=2 страниц)
22
Интересный бэнд
УдаляемУдаляем
Что у нас есть?
Матрица A размерности MxN, где M >> N и 0 <= a <=1 и
кол-во ненулевых элементов в строке <= L << N
machinelearning.ru habrahabr.ru
1 4
8 1
7 9
30