когда тексты не только слова
TRANSCRIPT
![Page 1: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/1.jpg)
Алексей ТокарьРуководитель группы разработки в направлении медиасервисов
Когда тексты – не только слова
![Page 2: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/2.jpg)
2
Типы повседневных задач
Алгоритмические
ТехнологическиеИнфраструктурные
![Page 3: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/3.jpg)
3
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
![Page 4: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/4.jpg)
4
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
Задача:• разметить каждый фильм в среднем десятью
тегами
![Page 5: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/5.jpg)
5
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
Задача:• разметить каждый фильм в среднем десятью
тегами
Проблема:• вручную это займет год ежедневной работы
![Page 6: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/6.jpg)
Классификация
![Page 7: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/7.jpg)
7
Популярные способы классификации
• нейронные сети
![Page 8: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/8.jpg)
8
Популярные способы классификации
• нейронные сети• генетические алгоритмы
![Page 9: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/9.jpg)
9
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений
![Page 10: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/10.jpg)
10
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор
![Page 11: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/11.jpg)
11
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор
• кластеризация
![Page 12: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/12.jpg)
12
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель• Удобен, так как не требует эвристик в виде
черных списков• Эффективен при достаточной обученности• Отлично подходит для текстовых данных
![Page 13: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/13.jpg)
13
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение, при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях, отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях, если они к этому тегу не относятся
![Page 14: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/14.jpg)
14
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
![Page 15: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/15.jpg)
15
Наиболее значащие слова
мультик
Смотреть с детьмидетямбелкадочьпираты
Злодеизлодейхулиганыорангутангёж
Животныеживотныебелкаобезьяна
![Page 16: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/16.jpg)
16
![Page 17: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/17.jpg)
Предложенные роботом:• животные• дружба• смотреть с детьми• цирк• злодеи• проклятия• разные страны
Не предложены:• пираты• Земля• природные катаклизмы
Ледниковый период 4
![Page 18: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/18.jpg)
Предложенные роботом:• наши дни• романтика• расследования• любовь• Франция• смотреть с девушкой
Не предложены:• криминал• флирт
Девушка из Монако
![Page 19: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/19.jpg)
19
Результаты
• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации– робот ошибается на 1-2 тега
• Время работы всего несколько часов
![Page 20: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/20.jpg)
20
Что можно сделать в будущем
• Исключение редких слов• Удаление предлогов и местоимений• Отсечение слов, составляющих шум• Распараллеливание
![Page 21: когда тексты не только слова](https://reader036.vdocuments.site/reader036/viewer/2022062401/58f1985f1a28abc7168b45cb/html5/thumbnails/21.jpg)
Алексей Токарь
Руководитель группы разработки в направлении медиасервисов
Спасибо :)