Аналитика Больших Данныхdatascienceseries.com/assets/presentations/dss... ·...
TRANSCRIPT
1 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика Больших Данных
Использование унифицированной аналитической платформы Greenplum для аналитики Больших Данных Доктор наук, Риккардо Санти
2 EMC CONFIDENTIAL—INTERNAL USE ONLY
Содержание • Почему Greenplum делает возможной аналитику
Больших Данных: введение в унифицированную аналитическую платформу
• Меняем правила игры: решения и лаборатории • Наука о данных (Data Science): люди и процессы
в лабораториях Greenplum
3 EMC CONFIDENTIAL—INTERNAL USE ONLY
Сначала было хранилище данных
Данные из многих источников для поддержки процесса
принятия решений
Унаследованное корпоративное
хранилище данных (EDW)
4 EMC CONFIDENTIAL—INTERNAL USE ONLY
Появление MPP базы данных
Для новой аналитической среды потребовался новый
подход
Tools
5 EMC CONFIDENTIAL—INTERNAL USE ONLY
Теперь есть и Hadoop
Традиционные системы не предназначены для
хранения/обработки задач Web 2.0
6 EMC CONFIDENTIAL—INTERNAL USE ONLY
Новые модели бизнеса, основанные на использовании данных
290,000,000 Обновлений в день
250,000,000 Новых фотографий в
день
1,000,000,000 Запросов в день
4,000,000 Требований в день
2,800,000,000 Сделок в день
31,000,000,000 Событий в день
7 EMC CONFIDENTIAL—INTERNAL USE ONLY
Унифицированная аналитическая платформа Greenplum
8 EMC CONFIDENTIAL—INTERNAL USE ONLY
Унифицированная аналитическая платформа Greenplum
9 EMC CONFIDENTIAL—INTERNAL USE ONLY
Объединяет реляционную СУБД и Hadoop
Greenplum gNet
Data Access & Query Layer
GREENPLUM HD GREENPLUM DATABASE
Java/Perl/Python Command Line PigLatin HQL ODBC JDBC
ПАРАЛЛЕЛЬНЫЕ ЗАПРОСЫ
ПАРАЛЛЕЛЬНЫЙ ЭКСПОРТ/ИМПОРТ
SQL HDFS
10 EMC CONFIDENTIAL—INTERNAL USE ONLY
Greenplum Chorus: платформа продуктивной аналитики
• Взаимодействие посредством социальных сетей
• Возможности интеграции и расширения функциональности
• Свобода open source
Быстрая и гибкая разработка нового поколения приложений для всего спектра Больших Данных
11 EMC CONFIDENTIAL—INTERNAL USE ONLY
Традиционный аналитический процесс
1. Данные найдены
2. Доступ получен
3. Разобрались в данных
4. Перенос в «песочницу»
5. Анализ Наконец-то!
6. Модель внедрена
12 EMC CONFIDENTIAL—INTERNAL USE ONLY
Рабочие пространства
проектов
Анализ данных Публикация
Исследование данных
Взаимодействие
Быстрая аналитика
Быстрее и легче с Chorus
13 EMC CONFIDENTIAL—INTERNAL USE ONLY
Совместная аналитика
• Быстрые результаты, интеграция и сотрудничество в реальном времени
• Повышение прозрачности проектов
• Взаимодействие, обмен информацией между командами
15 EMC CONFIDENTIAL—INTERNAL USE ONLY
Как вы используете результаты аналитики?
Долго, дорого
Вариант 2: Самостоятельная
разработка
Для Больших Данных коробочного ПО нет
Вариант 1: «Коробочные»
приложения
16 EMC CONFIDENTIAL—INTERNAL USE ONLY
Меняем правила игры: решения и лаборатории
17 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика Больших Данных для коммунального хозяйства.
18 EMC CONFIDENTIAL—INTERNAL USE ONLY
Умная электросеть
Аналитика «умной электросети» для коммунального хозяйства
19 EMC CONFIDENTIAL—INTERNAL USE ONLY
Как нам предотвратить отключения электроэнергии?
Нужно знать, каким будет потребление электроэнергии завтра… и на следующей неделе… и в следующем месяце.
20 EMC CONFIDENTIAL—INTERNAL USE ONLY
Умная электросеть и EMC Greenplum
Сетевое межсоединение
... ...
... ... Мастер - серверы
Планирование запросов и координация
Сегментные серверы
Обработка запросов и хранение данных
Массово-параллельная архитектура без разделения ресурсов
Оборудование и ПО Silver Spring для «умных сетей».
21 EMC CONFIDENTIAL—INTERNAL USE ONLY
Анализ данных по энергопотреблению с помощью преобразования Фурье
Данные за 10 недель с 100.000 счётчиков, дискретность 5 секунд.
22 EMC CONFIDENTIAL—INTERNAL USE ONLY
Теперь мы можем предотвращать отключения … и многое другое!
Точные профили нагрузки позволяют предсказывать скачки в потреблении и планировать заранее – и предотвращать отключения
Мы можем кластеризовать потребителей по профилю нагрузки и использовать результаты для обнаружения отклонений
Обнаружение отклонений от нормы может использоваться для предупреждения воровства электроэнергии
Мы можем создавать
профили нагрузки распознавая
периодичность Обнаружение отклонений также может быть использовано для контроля растительности
23 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитическая лаборатория 600. Транспорт.
24 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитическая лаборатория 600. • Цель:
– Совместными усилиями построить решение для анализа Больших Данных
– Модель предсказания дорожной ситуации: • Analytics Lab 600: Сбор данных и загрузка + 6 недель работы аналитика
– Возможные дополнительные цели: анализ путей объезда, управление светофорами
• Требует дополнительного времени
• Аналитическая платформа дорожных служб: – GP 1000: Data Computing Appliance (оборудование и ПО), полезное
пространство 36ТБ (без учёта сжатия данных) – Дополнительное ПО: MADlib, R и Chorus – В будущем: Greenplum HD, VMWARE Gemfire
25 EMC CONFIDENTIAL—INTERNAL USE ONLY
Нужны ответы на эти вопросы: • Текущая дорожная ситуация
– Какие сущности релевантны для анализа? – Какова длина дорожной пробки? – Какова временная корреляция с другими данными?
• Данные – Каковы охват и точность данных из различных источников? – Как визуализирловать дорожные данные для анализа?
• Прогноз – Какова вероятность дорожной пробки на заданном
маршруте?
26 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитические лаборатории: цели • Преодолеть разрыв между объёмом
накопленных данных и возможностью их обработки
• Работоспособные, готовые к внедрению модели, использующие Большие Данные
• Продуктивное сотрудничество между участниками
• Обучение пользователей разработке инструментов и передовому опыту
• Стратегия развития аналитики
27 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика журнальных данных.
28 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика журнальных данных на производственных линиях
SQL Server 2008
ORACLE
Analysis Server
.NET Application
Microsoft SSIS ETL
29 EMC CONFIDENTIAL—INTERNAL USE ONLY
Microsoft ACCESS
LOG
Parsing program
Неструктурированные данные
Environmental Status at 05:57:30 CPU Temperature: Boot UProc: 86C below ProcHot Ap UProc: 84C below ProcHot Ap2 UProc: 85C below ProcHot Ap3 UProc: 83C below ProcHot DIMM Temperatures: DIMM 0: 15C DIMM 1: 15C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off CPU Temperature: Boot UProc: 7C (88C below ProcHot) Ap UProc: 8C (87C below ProcHot) DIMM Temperatures: DIMM 0: 17C DIMM 1: 16C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off MCH Temperature : 49 SLIC Temperature : 0 CPU Temperature : 0
General Enclosure Status: PSA0: Inserted PSB0: Inserted Peer: Inserted Storage Processor Status: Motherboard Battery Low: FALSE Manufacturing Mode: TRUE PSA 0 MCU Status Power-Supply Firmware Version: 1B Slot ID: 44 System Over Temperature Status: FALSE System Temperature Celcius: 11 System Over Temp Thresh Celcius: 41 PS Threshold fault_mask0: 0h PSA 0 MCU Power Status: Fault Status: NO FAULT DC present: FALSE AC fail: FALSE Other PS is faulted: FALSE key: f = faulted; ok = not faulted ------------------------------------ Power Status Details | V1 | V2 | ------------------------------------ Inactive | ok | ok | Disabled | ok | ok | SP Voltage not inserted | ok | ok | Over Current | ok | ok | Over Voltage | ok | ok | Under Voltage | ok | ok | | | | Voltage Level |0331|0332| Current Level |001C|001A| ------------------------------------
Аналитика журнальных данных на производственных линиях
30 EMC CONFIDENTIAL—INTERNAL USE ONLY
SQL Server 2008
ORACLE
Hadoop File
System
Greenplum
Analysis Server
Приложение .NET
M A P R U D E E C
M A D L I B Аналитическая программа
Расширения пользовательского
интерфейса
LOG
Аналитика журнальных данных на производственных линиях
31 EMC CONFIDENTIAL—INTERNAL USE ONLY
ОТВЕТ В БОЛЬШИХ ДАННЫХ. ПРАВИЛЬНЫЙ ЛИ ВОПРОС ВЫ ЗАДАЁТЕ?
DATA SCIENCE НАУКА О ДАННЫХ
32 EMC CONFIDENTIAL—INTERNAL USE ONLY
Проект по аналитике Больших Данных
ЭНТУЗИАЗМ
БОЛЬ POC Проверка концепции
Произво- дительность
Ценность
УНИ
ВЕРСИ
ТЕТЫ
Экспертный центр аналитики EMEA
EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк
LAB 1. Семинар 2. Анализ
осуществимости 3. Прототип
POBV
Затраты
33 EMC CONFIDENTIAL—INTERNAL USE ONLY
Кто это – исследователь данных? Source: EMC Study, “Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field,” December 5, 2011
BI – управление имеющимися данными и построение отчётов для мониторинга и управления процессами предприятия
Наука о данных применяет инструменты и алгоритмы глубокой аналитики для инноваций и новых продуктов, которые являются прямым результатом данных
34 EMC CONFIDENTIAL—INTERNAL USE ONLY
Ключевые качества в новой «экосистеме» Больших Данных
Что делают исследователи данных?
Технический талант
Аналитический ум
Эксперт в предметной
области
35 EMC CONFIDENTIAL—INTERNAL USE ONLY
Исследователь данных
Численный анализ
Техническая экспертиза
Критическое мышление
Коммуника- бельность
Любопытство, креативность
36 EMC CONFIDENTIAL—INTERNAL USE ONLY
Учебный курс и Сертификация
Совместно с Академическим Альянсом
EMC
Поддержка команд исследователей данных EMC и наука о данных (Data Science)
Практика
Штат учёных-экспертов
Сообщество
Инвестиции в развитие науки о
данных
37 EMC CONFIDENTIAL—INTERNAL USE ONLY
Проект по аналитике Больших Данных
ЭНТУЗИАЗМ Ценность
Университеты
Экспертный центр аналитики EMEA
EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк
LAB 1. Семинар 2. Анализ
осуществимости 3. Прототип
POBV Партнёры
38 EMC CONFIDENTIAL—INTERNAL USE ONLY
ВОПРОСЫ?
Риккардо Санти Data Science Team Greeemplum EMEA [email protected]
39 EMC CONFIDENTIAL—INTERNAL USE ONLY
THANK YOU