Когда тексты —не только слова
DESCRIPTION
Разговор будет строиться вокруг наивного Байесовского классификатора. Как его можно использовать для извлечения из текстов косвенной информации (например, отзывов о фильмах) и для разметки видеоматериалов с помощью содержательных тегов, обозначающих время и место действия, жанр и т.д.TRANSCRIPT
![Page 1: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/1.jpg)
Алексей Токарь
Руководитель группы разработки в
направлении медиасервисов
Когда тексты – не только слова
![Page 2: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/2.jpg)
2
Типы повседневных задач
Алгоритмические
Технологические Инфраструктурные
![Page 3: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/3.jpg)
3
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
![Page 4: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/4.jpg)
4
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
![Page 5: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/5.jpg)
5
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы
![Page 6: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/6.jpg)
Классификация
![Page 7: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/7.jpg)
7
Популярные способы классификации
• нейронные сети
![Page 8: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/8.jpg)
8
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
![Page 9: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/9.jpg)
9
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
![Page 10: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/10.jpg)
10
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
![Page 11: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/11.jpg)
11
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
![Page 12: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/12.jpg)
12
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
• кластеризация
![Page 13: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/13.jpg)
13
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных
![Page 14: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/14.jpg)
14
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся
![Page 15: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/15.jpg)
15
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
![Page 16: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/16.jpg)
16
Наиболее значащие слова
мультик
Смотреть с детьми детям
белка
дочь
пираты
Злодеи злодей
хулиганы
орангутанг
ёж
Животные животные
белка
обезьяна
![Page 17: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/17.jpg)
17
![Page 18: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/18.jpg)
Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4
![Page 19: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/19.jpg)
Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако
![Page 20: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/20.jpg)
20
Результаты
• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации – робот ошибается на 1-2 тега
• Время работы всего несколько часов
![Page 21: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/21.jpg)
21
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание
![Page 22: Когда тексты —не только слова](https://reader034.vdocuments.site/reader034/viewer/2022052412/5594bf5a1a28ab93748b4601/html5/thumbnails/22.jpg)
Алексей Токарь
Руководитель группы разработки
в направлении медиасервисов
Спасибо :)