смирнов data mining

22
Интеллектуальный анализ данных (Data Mining) Смирнов Михаил, гр.425 Москва, 2013

Upload: -

Post on 13-Dec-2014

409 views

Category:

Documents


3 download

DESCRIPTION

2013 осе

TRANSCRIPT

Page 1: смирнов Data mining

Интеллектуальный анализ данных (Data Mining)

Смирнов Михаил, гр.425

Москва, 2013

Page 2: смирнов Data mining

План доклада I. Характеристики направления

i. История развития ii. Области применения iii. Применяемые подходы iv. Достоинства и недостатки

II. Деревья решений в Data Mining I. Основные понятия II. Примеры III. Методы построения IV. Достоинства и недостатки

III. Метод «ближайшего соседа» I. Суть метода II. Преимущества и недостатки III. Реализации

2

Page 3: смирнов Data mining

3

Data Mining: Определения

• Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Gregory Piatetsky-Shapiro • Технология, которая предназначена для поиска в больших

объемах данных неочевидных, объективных и полезных на практике закономерностей.

Page 4: смирнов Data mining

Data Mining: Поиск закономерностей

Неочевидных – найденные закономерности не всегда обнаруживаются обычными методами обработки информации или даже опытными экспертами Объективных – найденные закономерности будут полностью соответствовать действительности, в отличие, например, от мнения экспертов (эксперты строят предположения, выдвигают гипотезы на основе своего опыта) Полезных – найденные закономерности имеют свое практическое значение

4

Page 5: смирнов Data mining

• Зарождение технологии – 1989год, семинар Григория Пятецкого-Шапиро. Основной вопрос: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных?

• 1993 г. - выход первой рассылки «Knowledge Discovery Nuggets»

• 1994 г. – создание первых сайтов по Data Mining

Data Mining

5

Page 6: смирнов Data mining

Data Mining: Предпосылки развития

Развитию технологии способствовало совершенствование: • аппаратного и программного обеспечения; • технологий хранения и записи данных; • алгоритмов обработки информации.

Немаловажную роль сыграл большой объем накопленной информации для обработки

6

Page 7: смирнов Data mining

Data mining: Области применения

Розничная торговля: • анализ покупательской корзины (Выявление товаров, которые покупатели стремятся приобретать вместе) • создание прогнозирующих моделей (Определение характера потребностей различных категорий клиентов с определенным поведением)

Банковское дело

• выявление мошенничества с кредитными карточками • прогнозирование изменений клиентуры

7

Page 8: смирнов Data mining

Телекоммуникации • анализ записей о подробных характеристиках вызовов (Создание новых услуг и тарифов)

Страхование

• анализ риска

Data mining: Пример применения

Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

8

Page 9: смирнов Data mining

Data Mining: Применяемые методы Математические:

• кластерный анализ, • метод ближайшего соседа, • метод k-ближайших соседей • логические методы;

Статистические : • Дескриптивный анализ (оценка как с качественной, так и с

количественной стороны) • Анализ связей (корреляционный и регрессионный анализ, факторный

анализ, дисперсионный анализ). • Многомерный статистический анализ. • Анализ временных рядов (динамические модели и

прогнозирование).

9

Page 10: смирнов Data mining

Data Mining: Методы искусственного интеллекта

• Методы искусственного интеллекта: • Искусственные нейронные сети (распознавание, кластеризация,

прогноз); • Эволюционное программирование • Генетические алгоритмы (оптимизация); • Ассоциативная память (поиск аналогов, прототипов); • Нечеткая логика; • Деревья решений; • Системы обработки экспертных знаний.

10

Page 11: смирнов Data mining

Преимущества и недостатки направления

Недостатки: • Data Mining не может заменить аналитика • Сложность подготовки данных • Большой процент ложных, недостоверных

или бессмысленных результатов • Высокая стоимость получения результатов

Преимущества:

• Использование методов Data Mining может предоставить ощутимые преимущества в конкурентной борьбе

11

Page 12: смирнов Data mining

• выделение типов предметных областей с соответствующими им эвристиками

• создание формальных языков и логических средств, с

помощью которых будет формализованы рассуждения

• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные

Перспективы развития направления

12

Page 13: смирнов Data mining

Деревья решений: История и основные понятия

• Возникновение - 50-е годы (Ховиленд и Хант (Hoveland, Hunt) )

• Другие названия метода: деревьями решающих правил деревьями классификации и регрессии

• Это способ представления правил в иерархической, последовательной структуре

13

Page 14: смирнов Data mining

Деревья решений: Пример 1

14

Дерево для принятия решения, стоит ли сегодня играть в гольф?

Page 15: смирнов Data mining

Деревья решений: Пример 2

15

Дерево для принятия решения, стоит ли лицу выдавать кредит?

Page 16: смирнов Data mining

Деревья решений: Процесс конструирования Основные этапы алгоритмов конструирования деревьев: • "построение" или "создание" дерева (tree building)

1. Выбираем очередной атрибут , помещаем его в корень. 2. Для всех его значений :

a. Оставляем из тестовых примеров только те, у которых значение атрибута равно (для категориальных данных) / находим значение параметра для расщепления (для числовых значений)

b. Рекурсивно строим дерево в этом потомке

Примеры алгоритмов для выбора атрибута: ID3,C4.5, CART,MARS

16

ФИО клиента возраст образование доход недвижимость вес пол

Иванов А.В. 30 Нет 30 есть 40 М

Петров П.М. 43 Высшее 200 нет 55 М

Сидорова И.Н.

30 Среднее 150 нет 70 Ж

Page 17: смирнов Data mining

Деревья решений: процесс сокращения

17

Точность распознавания рассчитывается как отношение объектов, правильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении Ошибка рассчитывается как отношение объектов, неправильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении

• "сокращение" дерева (tree pruning) Простейших метод регулирования — уменьшение ошибки ограничения

дерева. Начиная с листьев, каждый узел заменяется на самый популярный класс. Если точность предсказания не влияет, то изменение сохраняется.

Page 18: смирнов Data mining

Деревья решений: «Эффект горизонта»

Один из вопросов при построении — оптимальный размер конечного дерева.

Небольшое дерево может не охватить ту или иную важную информацию о выборочном пространстве. Тем не менее, трудно сказать, когда алгоритм должен остановиться, потому что невозможно спрогнозировать, добавление какого узла позволит значительно уменьшить ошибку.

Эта проблема известна как «эффект горизонта». Тем не менее, общая стратегия ограничения дерева

сохраняется: удаление узлов реализуется в случае, если они не дают дополнительной информации

18

Page 19: смирнов Data mining

Деревья решений: Преимущества и недостатки Преимущества:

• Интуитивность деревьев решений • Возможность извлекать правила из базы данных на

естественном языке • Не требует от пользователя выбора входных атрибутов • Точность моделей • Разработан ряд масштабируемых алгоритмов • Быстрый процесс обучения • Обработка пропущенных значений

19

Недостатки: • Проблема получения оптимального дерева решений (проблема не достаточно полного представления данных)

Page 20: смирнов Data mining

Метод "ближайшего соседа» Простейший метрический классификатор, основанный

на оценивании сходства объектов. Классифицируемый объект относится к тому классу,

которому принадлежат ближайшие к нему объекты обучающей выборки.

20 доход

возраст - - - - -

Page 21: смирнов Data mining

Метод «ближайшего соседа» : Преимущества и недостатки

Преимущества: • "самообучающаяся" технология • Целью поиска является не гарантированно верное

решение, а лучшее из возможных. Недостатки:

• Cложность выбора меры "близости" (метрики). • Высокая зависимость результатов классификации от

выбранной метрики. • Необходимость полного перебора обучающей выборки

при распознавании, следствие этого - вычислительная трудоемкость.

21

Page 22: смирнов Data mining

Программные продукты, использующие метод «ближайшего соседа»

Метод реализован в пакете WEKA Weka представляет собой набор средств визуализации и

алгоритмов для интеллектуального анализа данных и решения задач прогнозирования, вместе с графической пользовательской оболочкой для доступа к ним.

Weka позволяет выполнять: подготовка данных (preprocessing), отбор признаков кластеризация классификация регрессионный анализ визуализация результатов

22