Критерии выбора моделей в задачах таксонометрии и...
TRANSCRIPT
![Page 1: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/1.jpg)
Оценивание и выбор моделей
Максим Казанцевгруппа 7204
![Page 2: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/2.jpg)
• Задачи:– классификации,– регрессии,– прогнозирования.
• Вопросы:
– какие признаки использовать?– нужно ли преобразовывать исходные признаки?
– какую модель зависимости применить?
![Page 3: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/3.jpg)
Есть ответы — настраиваем параметры по обучающей выборке
![Page 4: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/4.jpg)
Проблема отбора признаков
• Бесполезные, дублирующие• Избыточные (шумовые)
![Page 5: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/5.jpg)
Проблема отбора признаков
• Переобучение
![Page 6: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/6.jpg)
Проблема отбора признаков
• Стоимость сбора информации
![Page 7: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/7.jpg)
Проблема отбора признаков
• Более простые и понятные модели• Повышение скорости выполнения алгоритмов
![Page 8: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/8.jpg)
Синтез признаков
Размерность N
Размерность M
M ≪ N
![Page 9: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/9.jpg)
Синтез признаков
Без потери информации
![Page 10: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/10.jpg)
Выбор модели
• Чаще всего — из нескольких моделей-претендентов
![Page 11: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/11.jpg)
Выбор структуры модели
• Структура — описание искомого алгоритма как суперпозиции элементарных функций
![Page 12: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/12.jpg)
Основные обозначения
X Y
Объекты Ответы
целеваязависимость
y*
a
алгоритм
Xm
![Page 13: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/13.jpg)
Основные обозначения
X Y
y*
a
Xm
Требуется построить алгоритм a, аппроксимирующий y* на всем множестве X
![Page 14: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/14.jpg)
Основные обозначения
• Q(a, X) — средняя ошибка алгоритма a на выборке X
![Page 15: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/15.jpg)
Основные обозначения
• Модель алгоритмов — семейство отображений А, из которых выбирается искомый алгоритм а
![Page 16: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/16.jpg)
Основные обозначения
• Метод обучения — μ: Xm ⟶ a
• Xm — произвольная обучающая выборка
• а — алгоритм из заданной модели алгоритмов А
![Page 17: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/17.jpg)
Основные обозначенияЗадача выбора метода
М
Искомый метод μ выдает алгоритмы с наилучшей обобщающей способностью
![Page 18: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/18.jpg)
Критерии выбора моделиВнутренний критерий (Qint)
• Характеризует качество метода μ по обучающей выборке Xm
• Нельзя использовать — поощряет переобучение
![Page 19: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/19.jpg)
Критерии выбора моделиВнешние критерии (Qext)
• Характеризует качество метода μ по данным, не исползовавшимся в процессе обучения
• А.Г. Ивахненко, метод группового учета аргументов (МГУА)
![Page 20: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/20.jpg)
Критерии выбора модели
Чем меньше значение критерия Q(μ),тем выше качество метода μ
![Page 21: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/21.jpg)
Критерии выбора моделиКритерий средней ошибки на контрольных данных
Xk
Контрольная частьXm
Обучающая часть
y* определена и на Xk
XL
![Page 22: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/22.jpg)
Критерии выбора моделиКритерий средней ошибки на контрольных данных
Xk
Контрольная частьXm
Обучающая часть
Qext(μ, XL) = Q( μ(Xm), Xk )
![Page 23: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/23.jpg)
Критерии выбора моделиКритерий скользящего контроля
Xk
Контрольная Xm
Обучающая
Результат не зависит от способа разбиения
N ×
![Page 24: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/24.jpg)
Критерии выбора моделиКритерий скользящего контроля
Xk
Контрольная Xm
Обучающая N × CV(μ, XL) =
Cross-Validation
![Page 25: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/25.jpg)
Критерии выбора моделиКритерий скользящего контроля
Xk
Контрольная Xm
Обучающая N ×
![Page 26: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/26.jpg)
Критерии выбора моделиКонтроль по отдельным объектам
xXL \ {x}N ×
Leave-One-Out CV
![Page 27: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/27.jpg)
Критерии выбора моделиКонтроль по отдельным объектам
Плюсы:
• каждый объект ровно один раз участвует в контроле,• длина обучающей выборки на единицу меньше длины полной выборки.
![Page 28: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/28.jpg)
Критерии выбора моделиКритерии непротиворечивости
Если модель алгоритмов А и метод обучения μ подобраны правильно, то настройка параметров модели должна приводить к одинаковым алгоритмам.
Qext(μ, XL) = r(α1, α2)
α — вектор параметров алгоритмов
![Page 29: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/29.jpg)
Критерии выбора моделиКритерии регуляризации
Идея: наложить ограничения на вектор параметров алгоритма α либо ввести штраф за выход α из допустимой области.
Qext(μ, XL) = Qint(μ, XL) + τ||α||
τ — параметр регуляризации
![Page 30: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/30.jpg)
Критерии выбора моделиКритерии регуляризации
В отличие от скользящего контроля, нет необходимости многократно обучаться.
Основная проблема — подбор параметра регуляризации.
![Page 31: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/31.jpg)
Критерии выбора моделиКритерии, основанные
на оценках обобщающей способности
Информационный критерий Акаике:
σ2 — оценка дисперсии величины[y*(x) - a*(x)], где a* — наилучший в рамках используемой модели алгоритм
![Page 32: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/32.jpg)
Критерии выбора моделиКритерии, основанные
на оценках обобщающей способности
Байесовский информационный критерий:
При m≥8 критерий BIC склонен сильнее штрафовать сложные модели, чем AIC.
![Page 33: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/33.jpg)
Критерии выбора моделиКритерии, основанные
на оценках обобщающей способности
Критерий BIC не только позволяет выбрать лучшую модель, но и дает оценку апостериорной вероятности каждой модели.
![Page 34: Критерии выбора моделей в задачах таксонометрии и прогнозирования](https://reader033.vdocuments.site/reader033/viewer/2022051400/55a4a7bf1a28ab0a0c8b4593/html5/thumbnails/34.jpg)
Критерии выбора моделиКритерии, основанные
на оценках обобщающей способности
Если выбор производился из Tмоделей A1, ..., AT, то вероятность pt, что данные Xm были порождены моделью At, определяется формулой Байеса: