смирнов data mining

Интеллектуальный анализ данных (Data Mining)

Смирнов Михаил, гр.425

Москва, 2013

План доклада I. Характеристики направления

i. История развития ii. Области применения iii. Применяемые подходы iv. Достоинства и недостатки

II. Деревья решений в Data Mining I. Основные понятия II. Примеры III. Методы построения IV. Достоинства и недостатки

III. Метод «ближайшего соседа» I. Суть метода II. Преимущества и недостатки III. Реализации

2

3

Data Mining: Определения

• Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Gregory Piatetsky-Shapiro • Технология, которая предназначена для поиска в больших

объемах данных неочевидных, объективных и полезных на практике закономерностей.

Data Mining: Поиск закономерностей

Неочевидных – найденные закономерности не всегда обнаруживаются обычными методами обработки информации или даже опытными экспертами Объективных – найденные закономерности будут полностью соответствовать действительности, в отличие, например, от мнения экспертов (эксперты строят предположения, выдвигают гипотезы на основе своего опыта) Полезных – найденные закономерности имеют свое практическое значение

4

• Зарождение технологии – 1989год, семинар Григория Пятецкого-Шапиро. Основной вопрос: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных?

• 1993 г. - выход первой рассылки «Knowledge Discovery Nuggets»

• 1994 г. – создание первых сайтов по Data Mining

Data Mining

5

Data Mining: Предпосылки развития

Развитию технологии способствовало совершенствование: • аппаратного и программного обеспечения; • технологий хранения и записи данных; • алгоритмов обработки информации.

Немаловажную роль сыграл большой объем накопленной информации для обработки

6

Data mining: Области применения

Розничная торговля: • анализ покупательской корзины (Выявление товаров, которые покупатели стремятся приобретать вместе) • создание прогнозирующих моделей (Определение характера потребностей различных категорий клиентов с определенным поведением)

Банковское дело

• выявление мошенничества с кредитными карточками • прогнозирование изменений клиентуры

7

Телекоммуникации • анализ записей о подробных характеристиках вызовов (Создание новых услуг и тарифов)

Страхование

• анализ риска

Data mining: Пример применения

Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

8

Data Mining: Применяемые методы Математические:

• кластерный анализ, • метод ближайшего соседа, • метод k-ближайших соседей • логические методы;

Статистические : • Дескриптивный анализ (оценка как с качественной, так и с

количественной стороны) • Анализ связей (корреляционный и регрессионный анализ, факторный

анализ, дисперсионный анализ). • Многомерный статистический анализ. • Анализ временных рядов (динамические модели и

прогнозирование).

9

Data Mining: Методы искусственного интеллекта

• Методы искусственного интеллекта: • Искусственные нейронные сети (распознавание, кластеризация,

прогноз); • Эволюционное программирование • Генетические алгоритмы (оптимизация); • Ассоциативная память (поиск аналогов, прототипов); • Нечеткая логика; • Деревья решений; • Системы обработки экспертных знаний.

10

Преимущества и недостатки направления

Недостатки: • Data Mining не может заменить аналитика • Сложность подготовки данных • Большой процент ложных, недостоверных

или бессмысленных результатов • Высокая стоимость получения результатов

Преимущества:

• Использование методов Data Mining может предоставить ощутимые преимущества в конкурентной борьбе

11

• выделение типов предметных областей с соответствующими им эвристиками

• создание формальных языков и логических средств, с

помощью которых будет формализованы рассуждения

• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные

Перспективы развития направления

12

Деревья решений: История и основные понятия

• Возникновение - 50-е годы (Ховиленд и Хант (Hoveland, Hunt) )

• Другие названия метода: деревьями решающих правил деревьями классификации и регрессии

• Это способ представления правил в иерархической, последовательной структуре

13

Деревья решений: Пример 1

14

Дерево для принятия решения, стоит ли сегодня играть в гольф?

Деревья решений: Пример 2

15

Дерево для принятия решения, стоит ли лицу выдавать кредит?

Деревья решений: Процесс конструирования Основные этапы алгоритмов конструирования деревьев: • "построение" или "создание" дерева (tree building)

1. Выбираем очередной атрибут , помещаем его в корень. 2. Для всех его значений :

a. Оставляем из тестовых примеров только те, у которых значение атрибута равно (для категориальных данных) / находим значение параметра для расщепления (для числовых значений)

b. Рекурсивно строим дерево в этом потомке

Примеры алгоритмов для выбора атрибута: ID3,C4.5, CART,MARS

16

ФИО клиента возраст образование доход недвижимость вес пол

Иванов А.В. 30 Нет 30 есть 40 М

Петров П.М. 43 Высшее 200 нет 55 М

Сидорова И.Н.

30 Среднее 150 нет 70 Ж

…

Деревья решений: процесс сокращения

17

Точность распознавания рассчитывается как отношение объектов, правильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении Ошибка рассчитывается как отношение объектов, неправильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении

• "сокращение" дерева (tree pruning) Простейших метод регулирования — уменьшение ошибки ограничения

дерева. Начиная с листьев, каждый узел заменяется на самый популярный класс. Если точность предсказания не влияет, то изменение сохраняется.

Деревья решений: «Эффект горизонта»

Один из вопросов при построении — оптимальный размер конечного дерева.

Небольшое дерево может не охватить ту или иную важную информацию о выборочном пространстве. Тем не менее, трудно сказать, когда алгоритм должен остановиться, потому что невозможно спрогнозировать, добавление какого узла позволит значительно уменьшить ошибку.

Эта проблема известна как «эффект горизонта». Тем не менее, общая стратегия ограничения дерева

сохраняется: удаление узлов реализуется в случае, если они не дают дополнительной информации

18

Деревья решений: Преимущества и недостатки Преимущества:

• Интуитивность деревьев решений • Возможность извлекать правила из базы данных на

естественном языке • Не требует от пользователя выбора входных атрибутов • Точность моделей • Разработан ряд масштабируемых алгоритмов • Быстрый процесс обучения • Обработка пропущенных значений

19

Недостатки: • Проблема получения оптимального дерева решений (проблема не достаточно полного представления данных)

Метод "ближайшего соседа» Простейший метрический классификатор, основанный

на оценивании сходства объектов. Классифицируемый объект относится к тому классу,

которому принадлежат ближайшие к нему объекты обучающей выборки.

20 доход

возраст - - - - -

Метод «ближайшего соседа» : Преимущества и недостатки

Преимущества: • "самообучающаяся" технология • Целью поиска является не гарантированно верное

решение, а лучшее из возможных. Недостатки:

• Cложность выбора меры "близости" (метрики). • Высокая зависимость результатов классификации от

выбранной метрики. • Необходимость полного перебора обучающей выборки

при распознавании, следствие этого - вычислительная трудоемкость.

21

Программные продукты, использующие метод «ближайшего соседа»

Метод реализован в пакете WEKA Weka представляет собой набор средств визуализации и

алгоритмов для интеллектуального анализа данных и решения задач прогнозирования, вместе с графической пользовательской оболочкой для доступа к ним.

Weka позволяет выполнять: подготовка данных (preprocessing), отбор признаков кластеризация классификация регрессионный анализ визуализация результатов

22

смирнов data mining

Documents