Машинное обучение в Яндексе

Машинное обучение

Антон ШишкинЯндекс[email protected]

Что такое ML

● Подраздел ИИ– математическая статистика

– методы оптимизации

● На самом деле – построение модели данных

● Зачем– классификация, кластеризация, предсказание,

распознавание...

Строим модель

S кв.м. / цена h(x) = a*x + b57 4280

58 4100

60 5350

62 4550

64 6350

72 4680

72 5900

80 6295

84 5991

86 5100

91 7500

Функция ошибки

E (a)= 1

m∑0

m

(h (x i)− yi)2

E (a ,b)= 1m∑

0

m

(h(x i)− yi)2

Упростим

Расчет для а (b = 0)

a=a –α ddaE (a)

Расчет для a и b

a=a−α δδ aE (a ,b)

b=b−α δδbE (a ,b)

Что такое ML 2

Модель

Новые данные

Обучающаясяпрограмма

Примеры данных

Необходимые знания ● Матан● Статистика● Тервер● Линейная алгебра● Численные методы

Некоторые проблемы ML

Репрезентативная выборка данных

Выбор способа ML

● Классификация● Метод опорных векторов● Нейронная сеть● k ближайших соседей● Решающее дерево● Решающий лес

Переобучение

Некоторые примеры

Поиск полезных ископаемых

● Открытые месторождения● Геологоразведка

– минеральный состав

– сейсмологические данные

– что-то еще (я не настоящий геолог)

● Предсказываем наличие полезных ископаемых

Генетические исследования

● Большая ДНК (много разных генов)● Болезнь кодируется сочетанием генов● Не знаем какие гены● Как искать:

– генетические карты больных и здоровых

– кластеризуем по экспрессии генов

– нашли diff в кластерах - PROFIT

Почтовый спам

● Параметры письма– ключевые слова в тексте

– количество получателей

– Количество дубликатов письма

● Параметры отправителя– осмысленность адреса email

– массовость рассылок

– осмысленность писем

● Параметры сервера-отправителя– получаем от него только спам или что-то еще

Поиск бозона Хиггса

● Детекторы частиц● Детекторы излучений● Миллиарды событий● Петабайты данных● Найти редкие нетипичные события

Распознавание голоса

● Режем аудио на фреймы● Вероятность наличия фонемы в фрейме● Вероятность сочетания фонем● Вероятность сочетания слов● PROFIT

Коллаборативная фильтрация

● Гипотеза: схожие пользователи обладают схожими потребностями

● Строим модели пользователей (классифицируем) по логам

● Новый пользователь: классифицируем согласно модели

● Показываем предложение● PROFIT!

Поисковое ранжирование

● Поисковый запрос -> поисковый интент● Газиллион документов● Ссылочный граф● Интенты документов● Геопривязка пользователя и документа● Личные предпочтения пользователя● ML формула ранжирования -> PROFIT !

Новостная агрегация

● Много источников похожих новостей● Дата публикации новости● Тематика новости● Геопривязка новости (где происходят

события)● Персоны● Статистика по текстам новостей

Поиск девушки

● Сайт знакомств● Тысячи вопросов в анкете● Максимум можно ответить на 350● В чужой анкете видны ответы на те же

вопросы● Рейтинг совместимости рассчитывается из

ответов

Поиск девушки: решение

● Фейковые рандомно заполненные анкеты● Майним чужие анкеты● Кластеризуем анкеты по ответам● Выбираем интересные кластера● Модифицируем анкету для максимизации

рейтинга совместимости с интересными кластерами

● PROFIT!

Полезные ссылки● ML курс от Andrew Ng

https://class.coursera.org/ml-003/lecture● ШАД Яндекс

http://shad.yandex.ru/lectures/machine_learning.xml● machinelearning.ru● Соревнования

http://www.kaggle.com/competitions● http://www.gnu.org/software/octave/● http://scikit-learn.org/stable/● http://www.cs.waikato.ac.nz/ml/weka/

https://class.coursera.org/ml-003/lecture

http://shad.yandex.ru/lectures/machine_learning.xml

http://www.kaggle.com/competitions

http://www.gnu.org/software/octave/

http://scikit-learn.org/stable/

Спасибо!

Машинное обучение в Яндексе

Education