Кластеризация bigdata на примере подарков в ОК, Артур...
DESCRIPTION
Доклад Артура Кадурина на HighLoad++ 2014.TRANSCRIPT
![Page 1: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/1.jpg)
Кластеризация
BigData на примере
подарков в ОКАртур Кадурин (Mail.ru)
![Page 2: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/2.jpg)
«Игрушечный» датасет
• 50.000.000 дарений
• 100.000 разных подарков
![Page 3: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/3.jpg)
Задачи?
• Ранжирование
• Тегирование
• Фильтрация
• Деньги же, ну?..
![Page 4: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/4.jpg)
Что такое дарение?
• Даритель: ID, интересы, друзья
• Подарок: ID, теги, картинка, цена
• Получатель: ID, интересы, друзья
• Timestamp: ID праздника, день
недели, время суток
![Page 5: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/5.jpg)
ПвП
![Page 6: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/6.jpg)
Кластеризация
процедура упорядочивания объектов
в сравнительно однородные группы
![Page 7: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/7.jpg)
K-Means
![Page 8: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/8.jpg)
Хьюстон, у нас проблема!
• Нет пространства
• Нет расстояний
• Вообще ничего нет
• Варианты?
![Page 9: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/9.jpg)
Основная мысль
Если пользователь подарил два подарка
значит они чем-то похожи
![Page 10: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/10.jpg)
Похожесть..?
𝐾(𝐴, 𝐵) =𝑛(𝐴 ∩ 𝐵)
𝑛(𝐴 ∪ 𝐵)=
𝑛(𝐴 ∩ 𝐵)
𝑛 𝐴 + 𝑛 𝐵 − 𝑛(𝐴 ∩ 𝐵)
количество общих пользователей
общее количество пользователей
![Page 11: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/11.jpg)
Коэффициент Жаккара
Размер имеет значение Треугольник наоборот
1 − 𝐾 𝐴, 𝐵 + 1 − 𝐾 𝐵, 𝐶 ≥ 1 − 𝐾 𝐴, 𝐶
1. Lipkus, Alan H (1999), A proof of the triangle inequality for the Tanimotodistance, J Math Chem
2. Levandowsky, Michael; Winter, David (1971), Distance between sets, Nature
![Page 12: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/12.jpg)
План
• Есть лог пар Пользователь-Подарок
• Для каждой пары подарков считаем
коэффициент Жаккара
• Кластеризуем
• ?????????
• PROFIT
![Page 13: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/13.jpg)
Считаем «похожесть»
![Page 14: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/14.jpg)
Граф и его матрица
A =
1 0,209 ⋯ 0,0010,209 1 ⋯ 0,035⋮ ⋮ ⋱ ⋮0,001 0,035 ⋯ 1
𝐵𝑖𝑗 =
𝑘
𝐴𝑖𝑘𝐴𝑘𝑗
(Γ𝑟𝐴)𝑖𝑗 = (𝐴𝑖𝑗)𝑟/
𝑘
(𝐴𝑘𝑗)𝑟
![Page 15: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/15.jpg)
А дальше картинки
![Page 16: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/16.jpg)
Цветы бывают разные
![Page 17: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/17.jpg)
Яйца и туфли
![Page 18: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/18.jpg)
С новым годом, доброе утро
![Page 19: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/19.jpg)
Женщины и дети
![Page 20: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/20.jpg)
Загнутая подпись
![Page 21: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/21.jpg)
Эксперименты
• Другие расстоянияпо визуальным признакам, с учетом интервала между дарениями,
с учетом соц.графа…
• Другая кластеризациясвоя реализация, шанс прохода, «выпихивание»…
• Другие данныедомены, запросы, товары, туристические направления…
![Page 22: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/22.jpg)
![Page 23: Кластеризация BigData на примере подарков в ОК, Артур Кадурин (Mail.ru Group)](https://reader034.vdocuments.site/reader034/viewer/2022042516/557ef43cd8b42ad17d8b4dce/html5/thumbnails/23.jpg)
Кластеризация
BigData на примере
подарков в ОКАртур Кадурин (Mail.ru)