Машинное обучение в Яндексе
DESCRIPTION
Антон Шишкин на Я.Студенте в УрФУ 28 апреляTRANSCRIPT
Машинное обучение
Антон ШишкинЯндекс[email protected]
Что такое ML
● Подраздел ИИ– математическая статистика
– методы оптимизации
● На самом деле – построение модели данных
● Зачем– классификация, кластеризация, предсказание,
распознавание...
Строим модель
S кв.м. / цена h(x) = a*x + b57 4280
58 4100
60 5350
62 4550
64 6350
72 4680
72 5900
80 6295
84 5991
86 5100
91 7500
Функция ошибки
E (a)= 1
m∑0
m
(h (x i)− yi)2
E (a ,b)= 1m∑
0
m
(h(x i)− yi)2
Упростим
Расчет для а (b = 0)
a=a –α ddaE (a)
Расчет для a и b
a=a−α δδ aE (a ,b)
b=b−α δδbE (a ,b)
Что такое ML 2
Модель
Новые данные
Обучающаясяпрограмма
Примеры данных
Необходимые знания ● Матан● Статистика● Тервер● Линейная алгебра● Численные методы
Некоторые проблемы ML
Репрезентативная выборка данных
Выбор способа ML
● Классификация● Метод опорных векторов● Нейронная сеть● k ближайших соседей● Решающее дерево● Решающий лес
Переобучение
Некоторые примеры
Поиск полезных ископаемых
● Открытые месторождения● Геологоразведка
– минеральный состав
– сейсмологические данные
– что-то еще (я не настоящий геолог)
● Предсказываем наличие полезных ископаемых
Генетические исследования
● Большая ДНК (много разных генов)● Болезнь кодируется сочетанием генов● Не знаем какие гены● Как искать:
– генетические карты больных и здоровых
– кластеризуем по экспрессии генов
– нашли diff в кластерах - PROFIT
Почтовый спам
● Параметры письма– ключевые слова в тексте
– количество получателей
– Количество дубликатов письма
● Параметры отправителя– осмысленность адреса email
– массовость рассылок
– осмысленность писем
● Параметры сервера-отправителя– получаем от него только спам или что-то еще
Поиск бозона Хиггса
● Детекторы частиц● Детекторы излучений● Миллиарды событий● Петабайты данных● Найти редкие нетипичные события
Распознавание голоса
● Режем аудио на фреймы● Вероятность наличия фонемы в фрейме● Вероятность сочетания фонем● Вероятность сочетания слов● PROFIT
Коллаборативная фильтрация
● Гипотеза: схожие пользователи обладают схожими потребностями
● Строим модели пользователей (классифицируем) по логам
● Новый пользователь: классифицируем согласно модели
● Показываем предложение● PROFIT!
Поисковое ранжирование
● Поисковый запрос -> поисковый интент● Газиллион документов● Ссылочный граф● Интенты документов● Геопривязка пользователя и документа● Личные предпочтения пользователя● ML формула ранжирования -> PROFIT !
Новостная агрегация
● Много источников похожих новостей● Дата публикации новости● Тематика новости● Геопривязка новости (где происходят
события)● Персоны● Статистика по текстам новостей
Поиск девушки
● Сайт знакомств● Тысячи вопросов в анкете● Максимум можно ответить на 350● В чужой анкете видны ответы на те же
вопросы● Рейтинг совместимости рассчитывается из
ответов
Поиск девушки: решение
● Фейковые рандомно заполненные анкеты● Майним чужие анкеты● Кластеризуем анкеты по ответам● Выбираем интересные кластера● Модифицируем анкету для максимизации
рейтинга совместимости с интересными кластерами
● PROFIT!
Полезные ссылки● ML курс от Andrew Ng
https://class.coursera.org/ml-003/lecture● ШАД Яндекс
http://shad.yandex.ru/lectures/machine_learning.xml● machinelearning.ru● Соревнования
http://www.kaggle.com/competitions● http://www.gnu.org/software/octave/● http://scikit-learn.org/stable/● http://www.cs.waikato.ac.nz/ml/weka/
Спасибо!