2011/09/16_data mining_lecture 1

35
Анализ данных: Введение Юля Киселёва Школа анализа данных

Upload: cs-center

Post on 15-Jun-2015

1.874 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 2011/09/16_Data Mining_Lecture 1

Анализ данных: Введение

Юля КиселёваШкола анализа данных

Page 2: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 2

Требования

• Коллоквиум (20%)• Применение теоретических знаний на практике: – анализа данных по теме проекта (25%) – подробный рассказ по статье или реализация

прототипа, описанного в статье (15%)

• Финальный экзамен (40%)

Page 3: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 3

Программа курса(1)

• Крупномасштабные файловые системы и Map Reduce.

• Нахождение похожих объектов. Использование задачи для поиска ближайших соседей. Метрики расстояний. Locality-Sensitive Functions.

• Mining Data Streams.• Ссылочное ранжирование. Page Rank.• Частотные объекты. Анализ «потребительской

корзины». A-Priori Algorithm.

Page 4: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 4

• Кластеризация. Иерархическая кластеризация.• Кластеризация. K-Means Basics. The CURE

Algorithm.• Spam detection• Реклама в интернете. Задачи интернет-рекламы.• Система рекомендаций. Модели системы

рекомендаций. Collaborative Filtering.

Программа курса(2)

Page 5: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 5

Зачем нужен анализ данных (data mining)? Индустрия

• Много данных, которые были собраны:– Веб-данные, электронная коммерция– Покупки в магазинах– Банки/кредитные карты (транзакции)

• Компьютеры дешевые и «могущественные»• Конкуренция

– Нужно лучше понимать данные дляпринятия решения

Page 6: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 6

• Данные коллекционируются и сохраняются в больших количествах (GB/hour) – Телескопы, сканирующие небесное пространство– Научная эмуляция производит терабайты данных

• Медицинские данные• Анализ данных помогает:– классификации данных– кластеризации данных– формулировании гипотезы

Зачем нужен анализа данных? Наука

Page 7: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 7

• Существуют «скрытые» знания в данных• Анализ, проведенный человеком, может занять

недели-месяцы-годы• Большинство данных вообще не анализируется

Анализ больших объемов данных: Мотивация

1995 1996 1997 1998 19990

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

Объемы данных

Попытки анализа данных

Page 8: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 8

• Много определений• Нетривиальное извлечение «скрытых» ранее

неизвестных и полезных знаний из данных• Анализ больших объемов данных, использующий

автоматические или полуавтоматические методы, с целью определить значимые паттерны

Что такое анализ данных?Что такое анализ данных?

Page 9: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 9

• Процесс автоматического или полуавтоматического анализа больших объемов данных, чтобы найти паттерны, которые:

Валидны: эксперименты можно повторить на новых данных с похожим результатом

Новые: не являются очевидными в рамках системыПолезные: полученные знания можно применить для

улучшения работыПонятные: человек может интерпретировать полученный

паттерн

Анализ данных

Page 10: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 10

• Одним из самых больших рисков анализа данных является тот факт, что результаты могут не иметь смысла

• Bonferroni’s principle: если вы рассмотрите больше интересных моделей, чем потенциально содержат ваши данные, то вы получите чепуху.

Непонятные ответы

Page 11: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 11

• Парапсихологи в 1950-х выдвинули гипотезу, что некоторые люди обладают экстра-ординарными способностями (ЭОС)

• Они провели эксперимент, в котором участники должны были угадать 10 скрытых карт – красные или синие

• Они обнаружили, что 1 из 1000 участников обладают ЭОС – они были способны угадать все 10 скрытых карт правильно

Rhine Paradox (1)

Page 12: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 12

• Далее они рассказали этим людям, что они они обладают ЭОС и попросили их пройти другой тест

• Но следующий эксперимент показал, что эти люди потеряли ЭОС

• Какой вывод они сделали?

• Группа парапсихологов решили, что не стоит говорить людям, что они обладают ЭОС; иначе они потеряют их

Rhine Paradox (2)

Page 13: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 13

• Банки: разрешения на кредит:– Предсказывать «хороших» клиентов, базируясь на истории старых

клиентов

• Targeting Marketing:– Предсказание реакции на ту или иную рекламу

• Fraud detection (определение мошенничество):– Телекоммуникации– Финансы– Отзывы на товары и продукты

Возможные приложения (1)

Page 14: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 14

• Медицина: оценка эффективности лечения– Анализ истории болезни пациента– Нахождения зависимости между болезнями

• Молекулярная:– Новые медикаменты

• Научные исследования:– Нахождение новых галактик!

• Анализ Веб данных

Возможные приложения (2)

Page 15: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 15

• АД – это пересечение машинного обучения, статистики, искусственного интеллекта, баз данных, визуализации:

* масштабируемость * алгоритмы * неоднородные данные

Откуда пришел анализ данных

Статистика Машинное обучение

Базы данных

Анализ данных

Page 16: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 16

• Предсказательные методы:используя, существующие переменные, предсказать не неизвестные или будущие значения других переменных

• Описательные методы:Нахождение паттернов, понятных человеку, которые описывают данные

Задачи анализа данных

Page 17: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 17

• Классификация• Кластеризация• Ассоциативные правила• Определение аномалий

Задачи, которые могут решаться в процессе анализа данных

Page 18: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 18

Пример кластеризации

Page 19: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 19

Классификация галактик

Ранняя

Средняя

Поздняя

Атрибуты:• Признаки картинки• Характеристики световых волн

Классы:• Стадия формирования

Page 20: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 20

• По предоставленной базе данных пользовательских предпочтений, определить «вкусы» новых пользователей

• Пример:– Определить фильмы, которые потенциально могут

быть интересны пользователю– Предсказать, СD/книги интересные пользователю

Collaborative Filtering

Page 21: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 21

• Определение значительных отклонений от нормального поведения

• Приложения:– Мошенничество с кредитными

картами– Атака сети

Определение аномалий

Page 22: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 22

• Супермаркет (customer basket):– Цель: Найти продукты, которые покупаются вместе

большим количеством покупателей– Способ: Проанализировать цепочку, которую покупает

пользователь и найти зависимость– Классическое правило:

• Если пользователь покупает подгузник и молоко, затем он покупает пиво

• Таким образом не удивляйтесь тому, что (в американских) магазинах пиво расположено недалеко от подгузников

Ассоциативные правила

Page 23: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 23

• Масштабируемость• Размерность• Сложные и неоднородные данные• Качество данных• Privacy Preservation

Сложности анализа данных

Page 24: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 24

1. Формулировка задачи 2. Выбор алгоритма для анализа и методов оценки3. Выбор обучающего и тестового множества4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод

13.04.2023 Введение в анализ данных 24

Построение эксперимента

Page 25: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 25

1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа (рассмотрели) и

методов оценки3. Выбор обучающего и тестового множества4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод (рассмотрели)

Построение эксперимента

Page 26: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 26

• Обучающее множество:на чем обучаемсяДля каких рассмотренных методов АД это особенно актуально?Какие свойствами должно обладать обучающее множество?

• Тестовое множество:на основе чего проверяем полученный результатКакие свойствами должно обладать тестовое множество?Важно: Данные всегда нужно смотреть глазами

Выбор обучающего и тестового множеств

Page 27: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 27

• В медицине:– Данные очень дорогие

• Для задач Информационного поиска есть готовые тестовые коллекции (английский – TREC, русский - РОМИП)

• Для анализа поисковых запросов есть открытие логи:– Проблема: последний лог отрыт в 2005 году

• Часто нужно составлять для каждой отдельной задачи вручную:– Amazon Mechanical Turk– Важно: достоверность

Выбор тестового множества

Page 28: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 28

Amazon Mechanical Turk

Page 29: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 29

1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов

оценки(рассмотрели)3. Выбор обучающего и тестового

множества(рассмотрели)4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод (рассмотрели)

13.04.2023 Введение в анализ данных 29

Построение эксперимента

Page 30: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 30

• Что такое признаки?• Признаки – это индивидуальная характеристика

объекта• Зависит от данных:– Картинки (цвет, текстура)– Текст (n-grams, контекст)

• Важно: во время остановиться

Выбор признаков (Feature selection)

Page 31: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 3113.04.2023 Введение в анализ данных 31

1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов оценки (рассмотрели)3. Выбор обучающего и тестового

множества(рассмотрели)4. Feature selection (Выбор признаков)

(рассмотрели)5. Оценка полученных результатов6. Вывод (рассмотрели)

13.04.2023 Введение в анализ данных 31

Построение эксперимента

Page 32: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 32

• Этот метод работает «хорошо» • Этот метод работает «плохо»

• Оценка должна быть численной:– Нужно сравниваться с конкурентами– При внесении изменений в метод понимать, как это

влияет на результат

Зачем нужна оценка

Это хорошая оценка?

Page 33: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 3313.04.2023 Введение в анализ данных 33

1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов

оценки и методов оценки (рассмотрели)3. Выбор обучающего и тестового

множества(рассмотрели)4. Feature selection (Выбор признаков)

(рассмотрели)5. Оценка полученных результатов (рассмотрели)6. Вывод (рассмотрели)

13.04.2023 Введение в анализ данных 33

Построение эксперимента

Page 34: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 34

• Рассмотрели требования к курсу• Познакомились с программой курса• Рассмотрели, что такое data mining (анализ

данных)• Рассмотрели задачи анализа данных• Познакомились и запомнили схему

построения эксперимента

Резюме

Page 35: 2011/09/16_Data Mining_Lecture 1

13.04.2023 Введение в анализ данных 35

Контакты

• Мой мейл [email protected]