Перечитывая Лео Бреймана

23
Перечитывая Лео Бреймана Сергей А. Терехов, ООО «Алгоритмы и Технологии» МИФИ, Нейроинформатика - 2014

Upload: serge-terekhov

Post on 18-Jul-2015

399 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: Перечитывая Лео Бреймана

Перечитывая Лео БрейманаСергей А. Терехов, ООО «Алгоритмы и Технологии»

МИФИ, Нейроинформатика - 2014

Page 2: Перечитывая Лео Бреймана

Что в этой лекции?

▪ Leo Breiman – профессор, практик и изобретатель

▪ Из наследия – методология случайного леса (Random Forest)

▪ О фундаментальных проблемах в математической статистике: Leo Breiman. Statistical Modeling: The Two Cultures, 2001

▪ Дискуссия: D.R. Cox, Brad Efron, Bruce Hoadley, Emanuel Parzen

▪ Проекция на “здесь и сейчас”: нейроинформатика и наука о данных

Page 3: Перечитывая Лео Бреймана

Лео Брейман

▪ 1954 PhD, 7 лет научной работы UCLA.

▪ Консультирование прикладных проектов (по программам UNESCO, Агентства по окружающей среде EPA, военные разработки).

▪ 1980 – возврат в университет в Беркли, чтобы создать методологию и работающие инструменты для прикладных специалистов, работающих с данными.

▪ Технологии решающих деревьев, CART, Bagging, Random Forests для данных высокой размерности.

▪ Промышленные реализации алгоритмов, Salford Systems Leo Breiman, 1928 - 2005

Page 4: Перечитывая Лео Бреймана

Wald Lectures

▪ Три лекции для: 7th meeting of the Institute of Mathematical Statistics, held in Banff, Alberta, Canada (July 28 to July 31, 2002)

▪ Машинное Обучение [http://www.stat.berkeley.edu/~breiman/wald2002-1.pdf]

▪ Заглядывая Внутрь Черного Ящика [http://www.stat.berkeley.edu/~breiman/wald2002-2.pdf]

▪ Компьютерные Программы Для Масс [http://www.stat.berkeley.edu/~breiman/wald2002-3.pdf]

Page 5: Перечитывая Лео Бреймана

Случайный Лес - 1

▪ Базовые идеи

▪ Имеющийся набор данных – лишь один из представителей множества возможных выборок данного размера

▪ Все входные переменные должны иметь существенный шанс участвовать в классификации. Это повышает устойчивость к ошибкам и пропускам

▪ Комитеты моделей могут значительно уменьшить разброс (variance), без значимого роста смещения (bias). Для этого нужно повысить разнообразие членов комитета.

▪ Разные переменные могут по-разному работать в различных областях пространства, занятого данными. Универсальные коэффициенты регрессии на такое не способны.

▪ Результат: случайный комитет («лес») решающих деревьев с рандомизированными решениями в узлах. Random Forest (2001).

Page 6: Перечитывая Лео Бреймана

Случайный Лес - 2

▪ Суть алгоритма классификации

▪ Для набора данных размера N получить бутстрэп-выборку такого же размера.

▪ Для M входных переменных выбрать параметр m << M. Построить классифицирующее дерево с использованием Gini-индекса при выборе решающего правила в каждом узле. При этом наилучшее правило строится только среди подмножества их m переменных, выбранных случайно.

▪ Рост дерева продолжается до конца (примеры только одного класса в узле, либо невозможность уменьшить Gini).

▪ Построить комитет большинства (простое голосование) из большого числа деревьев.

Page 7: Перечитывая Лео Бреймана

Случайный Лес - 3

▪ Оценка ошибки обобщения путем классификации примеров, не использовавшихся при обучении данного дерева (out-of-bag, oob).

▪ Оценка значимости входов путем классификации oob примеров, в которых применена случайная перестановка значений данного входа.

▪ Вычисление окрестности для каждого примера (попарная схожесть примеров) из статистики одновременного попадания пар в общие листья деревьев.

▪ Обучение с пропусками в данных (по статистике примеров в узле, а также с учетом попарной схожести примеров).

▪ Обучение без меток (исходная выборка против выборки с независимыми перестановками для каждого входа)

▪ Поиск выбросов, кластеризация, корректирование меток, балансирование классов, детектор новизны, …

Leo: We use every

bit of the pig except

its squeal

Page 8: Перечитывая Лео Бреймана
Page 9: Перечитывая Лео Бреймана

Статистичеcкое моделирование:Две КультурыLeo Breiman. Statistical Modeling: The Two Cultures. Statistical Science, 2001, 16, 3, 199-231

Page 10: Перечитывая Лео Бреймана

Всё начинается с данных

Есть (X,Y) и чёрный ящик

▪ Прогноз Y для новых условий X

▪ Информация о том, как природа ассоциирует X и Y

Что нужно?

Природа

(Чёрный Ящик)XY

Page 11: Перечитывая Лео Бреймана

Чёрный Ящик и Две Культуры

Подход моделирования данных

▪ Черный ящик описывается явной моделью, порождающей данные

▪ Основная задача – оценить параметры этой модели из данных

▪ Инструментарий – многомерный Гаусс, обощенная линейная регрессия, тесты и невязки

▪ Классическая матстатистика

Алгоритмический подход

▪ Содержимое чёрного ящика остается неизвестным, он заменяется функцией выходов от входов

▪ Основная задача – имитация поведения черного ящика

▪ Инструментарий – деревья, ЭС, нечеткие алгоритмы, нейронные сети++, (кросс-)валидация

▪ Обучение машин, раскопка данных

Природа

(Чёрный Ящик)XY

Предполагаю, что находится в ящике,

но рискую ошибиться

Не знаю, что находится в ящике,

но умею ему подражать

𝑃 𝑦 𝑥 𝑦 = 𝑓(𝑥)

Page 12: Перечитывая Лео Бреймана

Проблемы моделирования данных

Фокус на модели данных:

▪ Может приводить к неадекватной теории и спорным научным заключениям в предметных областях

▪ Не позволяет исследовать более подходящие алгоритмические модели

▪ Сужает круг актуальных задач рамками доступных классических статистических методов

Flaw of Averages

Page 13: Перечитывая Лео Бреймана

Множество моделей

Проблемы

▪ Расёмон: множественность хороших моделей реальности

▪ Оккам: Конфликт между простотой и точностью

▪ Беллман: Размерность –проклятие или благо?

Rashomon

Расёмон, Куросава 1950)

Статистические тесты goodness-of-fit (R2…) не способны

выявить достоверные модели из множества

почти одинаково хороших кандидатов

Page 14: Перечитывая Лео Бреймана

Как Лео Брейман пришел к этим вопросам

Более 13 лет практики консультанта по проектам для EPA, ETA, military

▪ Прогноз уровня озона на следующий день

▪ Обнаружение присутсвия хлора в образцах (“отпечаткихлора”)

▪ Выявление галогена по данным масс-спектроскопии

▪ Прогнозирование класса корабля по данным радаров

▪ Тип подводной лодки по данным сонаров

▪ Идентичность ручного потока кода Морзе

▪ Оценка степени токсичности химсоединений

▪ Онлайн прогноз причин пробок на автострадах

▪ Причины задержех делопроизводства в судах

О чём в это время (80-е) писали научные журналы по матстатистике

▪ “Предположим, что данные порождены следующей моделью...”

▪ Делаются заключения о свойствах самих моделей, а не о природном механизме. Если модель не очень точна при описании данных, то выводы могут содержать серьёзные ошибки.

▪ Вера во всемогущество статистических моделей в прикладных областях почти религиозна

▪ Tukey (77) “вся ... регрессия полна интеллектуальных, статистических, вычислительных и субъективных трудностей”

Значительное расхождение университетской науки

с тем, что требует и чем занята практика

Page 15: Перечитывая Лео Бреймана

Полемика: Суть процесса решения задачи

Leo Breiman

▪ Фокус на поиск хорошего решения

▪ Нужно “пожить с данными” прежде чем приступать к моделированию

▪ Поиск подхода, который дает решение (модель данных, либо алгоритм)

▪ Основной критерий – точность прогноза на тестовых выборках

▪ Принципиальное использование компьютера

David Cox

▪ Одна из наших ошибок – упор на общность вне контекста приложения. Начать надо не с данных, а с вопроса (проблемы или гипотезы). Вероятностная модель может быть построена и без данных.

▪ Эмпирические прогнозы (из данных) – не единственная потребность. Стратегические прогнозы строятся в условиях, где нет данных. Являются ли более сложные алгоритмы, основанные на данных, более полезными?

▪ Основное направление – построение моделей с учетом прикладных запросов, анализ этих моделей МК методами.

▪ - Связь в с предыдущими работами и результатами- Четкое описание процесса генерации данных- Выбор понятных для прикладной области параметров- Точность должна быть адекватной. Точность не есть основа для выбора модели.

▪ Выбор модели, адекватной запросу – ключевой аспект

Мой вопрос: Что все-таки делать, если нет вероятностной модели порождения данных?

Page 16: Перечитывая Лео Бреймана

Комментарий Брэда Эфрона (Brad Efron)

Leo Breiman

▪ Модели случайного леса имеют высокую структурную сложность, однако специалисты в анализе экспрессии генов изначально готовы к такого рода усложнениям

▪ Анализ социологических данных, действительно, больше нуждается в объяснении, чем в прогнозах. Однако объяснение из не точной модели подвержено ошибкам

▪ Понятие важности переменной пока не имеет строгого теоритического определения. Практический критерий – влияние на точность.

Brad Efron

▪ XX столетие – “столетие несмещенности (оценок)”, вслед за Фишером. Но это требует большого отношения “сигнал шум”.Но появились новые задачи, где число переменных меньше числа примеров. Появляются новые алгоритмы, хороший знак.

▪ Проблема алгоритмов с большим числом свободных параметров – смещённость оценок (вносимых при регуляризации, удалении связей и др.). Для смещенных оценок нет хорошей теории.

▪ Эмпирика имеет две особенности- Новые методы всегда выглядят лучше старых- Сложные методы труднее критиковать, чем простые

▪ Прогноз не есть главная целью Требуется объяснение причинных связей.

▪ Основная задача науки – открывать черные ящики.

Кросс-валидация и проблема смещенности оценок!

Page 17: Перечитывая Лео Бреймана

Взгляд практика (Bruce Hoadley)▪ Подробный пример из практики Fair, Isaac по созданию алгоритма оценки риска кредитования

(методология INFORM)

▪ Разработана инженерами и специалистами в исследовании операций в 60-х, без использования базовых методов матстатистики (кроме бутстрэп-выборок).

▪ Данные: входы – параметры клиента из корпоративных баз или от кредитных бюро, выход – индикатор риска кредитования. Упрощенный вариант – 24 входа (месячные счета и платежи за год) – т.е. два временных ряда.

▪ Алгоритмическое решение – segmented scorecards (описание рядов сотнями функционалов, разделение клиентов на группы, обучаемые рейтинги признаков в каждой группе). Сложная уникальная технология, критерий качества – точность.

▪ Индустриальный стандарт в течение нескольких десятилетий! Сегодня для отбора признаков используется генетический алгоритм, сегментация клиентов также автоматизирована.

▪ Наблюдения и рекомендации:

▪ Добивайтесь равноценности входов (без доминирования отдельных признаков)

▪ Используйте благо, даваемое высокой размерностью (простота решения в расширенном пространстве)

▪ Используйте регуляризацию и ограничения при обучении (оптимизации)

▪ Игнорируйте большинство советов из учебников! Но тщательно проводите валидацию.

Page 18: Перечитывая Лео Бреймана

Emanuel Parzen и множественность культур

▪ Этическая цель: обещать клиенту, что ошибки, которые будут сделаны в исследовании для него, не будут похожи на ошибки, сделанные статистиками ранее.

▪ Прогноз/информация <=> Менеджмент/Наука. Менеджменту нужна практическая выгода, наука ищет истину.

▪ Проблемы: коррелированные факторы при регрессии, много-модальные распределения при классификации. Важен систематический путь: Проблема-План-Данные-Анализ-Выводы

▪ Множество культур в статистике.

▪ + Использование теории аппроксимации и численного анализа при аппроксимации данных + Использование понятийного аппарата вероятностей для описания данных (без предположения об их вероятностной природе)

▪ Одна из культур - философия Парзена – исчисление квантилей. Сжатое описание данных. http://stat.tamu.edu.

Срочно изучить исчисление квантилей и постановки основных задач на этом языке!

Page 19: Перечитывая Лео Бреймана

Итог по Лео Брейману

▪ …Многие из ведущих статистиков, с которыми я беседовал в последние несколько лет, имеют серьезные опасения по поводу жизнеспособности статистики, как отрасли. Это кажется странным, ведь мы живем в период, в котором, как никогда ранее, возникает огромное количество статистических задач и источников данных. Опасность состоит в том, что если определим границы нашей области исходя из знакомых инструментов и знакомых решенных задач, мы не сможем понять и воспользоваться новыми возможностями (2001).

А нейроинформатика жизнеспособна?

Page 20: Перечитывая Лео Бреймана

Наука о Данных (вчера-сегодня)

▪ Доклад: National Research Council. 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press

▪ MkKinsey: Не хватает от 140,000 до 190,000 специалистов в области анализа данных, и 1.5 млн менеджеров, способных принимать решения на основе данных

▪ Forbes: 4 триллиона (12 нулей) GB данных в 2013

▪ Нейроинформатикадолжна быть здесь, или ее постигнет участь классической статистики

▪ Dealing with highly distributed data sources,

▪ Tracking data provenance, from data generation through data preparation,

▪ Validating data,

▪ Coping with sampling biases and heterogeneity,

▪ Working with different data formats and structures,

▪ Developing algorithms that exploit parallel and distributed architectures,

▪ Ensuring data integrity,

▪ Ensuring data security,

▪ Enabling data discovery and integration,

▪ Enabling data sharing,

▪ Developing methods for visualizing massive data,

▪ Developing scalable and incremental algorithms, and

▪ Coping with the need for real-time analysis and decision-making.

Page 21: Перечитывая Лео Бреймана

Динамика потребности в специалистах Big Data

Статистика объявлений о найме от ведущих кадровых агентств (2010-2013)During September 2013, more than 88,000 “big data” jobs were available

online in the United States, a 13% year-over-year increase in demand.(according to WANTED Analytics™.)

По оценкам Microsoft,

специалистов в области IT в

России нужно в два раза больше,

чем есть сейчас. Если сегодня

посчитать всех айтишников от

программистов до ТОП -

менеджеров получится около

полутора миллионов человек. Для

развития технологической отрасли

нужно как минимум три миллиона (BusinessFM)

Page 22: Перечитывая Лео Бреймана

Смена поколений: вычислить или найти?

Молодое поколение 80-х

▪ Нейронные сети, решающие деревья, позже SVM. Матстатистика не входит в число активно используемых методов.

▪ Цель – точность прогноза

▪ Новые приложения: временные ряды и финансовые рынки, распознавание рукописного текста, речи, изображений.Статмоделей таких данных, конечно, нет.

▪ Большинство публикаций анализируют реальные данные

▪ Средний возраст на NIPS – 30 лет

Молодое поколение 10-х

▪ MapReduce, Hadoop, облачные вычисления, супер-параллельность, масштабирование “вширь”

▪ Большие данные, социальные сети

▪ Компьютер полноправный член интернет-сообщества, машины побеждают в соревнованиях по “интеллекту”. Компьютеров больше, чем людей.

▪ Новые приложения: маркетинг, продажи, сенсорные данные, геном, безопасность, адаптация в реальном мире

Получение ответа состоит в его поиске в сети (с аналитикой “на лету”),

а не в традиционном решении технической задачи

Page 23: Перечитывая Лео Бреймана

Смена задачи (парадигмы?)

▪ Классика: нейронная сеть путем ассоциаций ищет ответ в своей памяти.

▪ Надо сегодня и завтра: компьютерная система ищет ответ путем ассоциаций в огромной внешней “памяти”, включающей большие данные и реальный мир.

Как быстро формировать ассоциации запроса с “другим” пространством ответов?

Н.Г.Макаренко, 2013