2015 06-16 круглый стол компетенции по большим данным

20
Большие данные Что у нас есть? Павловский Е.Н. директор по развитию ООО "Экспасофт"

Upload: evgeniy-pavlovskiy

Post on 12-Aug-2015

35 views

Category:

Education


0 download

TRANSCRIPT

Page 1: 2015 06-16 круглый стол компетенции по большим данным

Большие данныеЧто у нас есть?

Павловский Е.Н.директор по развитию ООО "Экспасофт"

Page 2: 2015 06-16 круглый стол компетенции по большим данным

2

План1. Определение феномена БД

2. Значение БД для разных отраслей

3. Субъекты подготовки специалистов (=центры компетенций) по БД

4. Проблемы в области БД

5. Направления развития

6. Образовательный задел НСО

Page 3: 2015 06-16 круглый стол компетенции по большим данным

3

Большие данные – это не только данные• Технологии получения, хранения, обработки, удаления данных

• Методы обработки и представления данных

• Проблема нехватки ресурсов для обработки

• Социальный феномен (качественный переход)

• Данные большого объёма, разнообразия, темпа роста,

• Большой потенциальной ценности

Page 4: 2015 06-16 круглый стол компетенции по большим данным

4

4V• Volume - объём данных

• Velocity - скорость создания и обработки данных

• Variety - разнообразие источников и форм хранения данных

• Value - ценность

Page 5: 2015 06-16 круглый стол компетенции по большим данным

5

"Большие данные – это новая нефть" (Clifford Lynch, Nature, 2008)• ЦОДы – это ресурсы:

• сбор данных, технологии хранения, облачные хостинги и т.п.

• Технологии "глубокой переработки":• Сами по себе данные не очень ценны, ценны закономерности

• Известные примеры применения (доказанная польза):• Влияние покупок пива на продажи памперсов• Рекомендованные покупки• Бизнес на кредитах людям с плохой кредитной историей• И т.п.

Page 6: 2015 06-16 круглый стол компетенции по большим данным

6Три составляющих успеха в "нефтяной отрасли"

ЦОДы

Кейсыприменен

ия

Технологии

обработки

Page 7: 2015 06-16 круглый стол компетенции по большим данным

7

Восстановление данных фракционного состава добываемой смесиДанные:

• 3 исходных параметра ($10k)

• 3 целевых параметра ($200k)

• 5 участков данных

• Частота измерений – раз в минуту

• Всего 66052 измерения

12мм 13мм 11мм 12мм 13мм

Page 8: 2015 06-16 круглый стол компетенции по большим данным

8Пример Amazon

Онлайн-магазин книг

Дополнительные продажи

Рекомендация покупки

Page 9: 2015 06-16 круглый стол компетенции по большим данным

9Персонализированный прогноз уровня сахара в крови на основе машинного обучения

Вставка рисунка

Табаков К.А., Экспасофт, бакалавр

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 1270

20

40

60

80

100

120

140

160

180

Предсказаные значения

Реальные значения

Page 10: 2015 06-16 круглый стол компетенции по большим данным

10

Изменение парадигм• Объектом деятельности является не программа и код, а гипотезы и данные

• Больше источников – выше достоверность

• Больше данных – выше точность

• Больше данных – ниже требования к качеству данных

• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)

• Неперемещаемость данных => параллелизм и вычисления по месту хранения

• Отказ от структурированности => технологии извлечения информации и знаний

Page 11: 2015 06-16 круглый стол компетенции по большим данным

Copyright © 2012 EMC Corporation. All Rights Reserved.

EMC2 PROVEN PROFESSIONAL

Data Analytics Lifecycle

11

Исследование

Внедрение

Планирование модели

Подготовка данных

Построение модели

Представление результатов

Do I have enough information to draft an analytic plan and share

for peer review?

Do I have enough

good quality data to start building the

model?

Do I have a good idea about the type

of model to try? Can I refine the analytic plan?

Is the model robust enough?

Have we failed for sure?

1

2

3

4

6

5

Page 12: 2015 06-16 круглый стол компетенции по большим данным

13

Субъекты подготовки специалистов• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ

• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ

• ИТ-компании: отдельные курсы или магистерские программы

• ИТ-компании создающие технологии обработки данных

• НСО-ГАУ "Центр" – межвузовская магистратура

• ГАУ "АРИС" – поддержка ИТ-кластера

• Специалисты

Page 13: 2015 06-16 круглый стол компетенции по большим данным

14Орг-формы

ИППК или ЦДО НГУГАУ «Центр» - межвуз. маг.КА Сухорукова

Компетенции

ЦЕРН

НейросетиФЭЧ

ИЯФ

Спутники

НейросетиВоенка

ИАЭ

FRiS, оптим. алг, онтологии, логикаРаспознавание

ИМ

Банки данных

CUDA, DNAБиоинформат

ика

ИЦиГ, УНИПРО,

НПС Архивы

Онтологии, логика

Информатика

ИСИ

СО РАН

ССКЦИнформатика

ИВТ, ИВМиМГ

СОРМ

Сбор, хранение

Безопасность

Сигнатек

?

Безопасность

Безопасность

СИБ

ИнициативыМагистерская программа

Аспирантура

Краткосрочные курсы

СХД 1 Pb

ХранениеКардиология, Радиология

НИИПК

?

ХранениеМедицина

НИИТО

FRiS, оптим. алг,

онтологии, логика,

управление BDA

Безопасность, медицина, финансы, сервера

Экспасофт

Приборы

?

Унискан, ТИОН

Игры

SlpunkИгры

Alawar

МТС

ТранзакцииТаргетинг

Eyeline

Банки

ТранзакцииФинансы

ЦФТ

?

Вычисления, хранение

ИЦКТ

Потребители

?

Обработка, образовани

еМедицина, биология, физика, ИТ, и др.

НГУ

Карты

Геопространство

Карты

DataEast

Page 14: 2015 06-16 круглый стол компетенции по большим данным

15

Проблемы в области Больших данных• Нет культуры обезличивания и передачи данных (ФЗ-152)

• Нет понимания возможной пользы от анализа данных

• Недостаточные компетенции в статистике

• "Мы закончили НГУ, сами разберёмся в теме"

• Отсутствие брокеров данных

• Проекты по анализу данных имеют высокий риск

• Недостаточно данных

Page 15: 2015 06-16 круглый стол компетенции по большим данным

16

Направления развития Больших данных в Новосибирске• На базе исследовательского потенциала:

• Обработка биологических, ФЭЧ, спутниковых данных• Новые алгоритмы анализа больших данных

• На базе технологических компаний:• Предоставление вычислительных ресурсов• Предоставление услуг по анализу• Услуги по хранению

• На базе доступа к данным• Исследования в телекоммуникациях, приборостроении, госбезопасности, банковском секторе

Page 16: 2015 06-16 круглый стол компетенции по большим данным

• самая широкая аудитория (школьники, разработчики, бакалавры)

• средство привлечения из онлайн в офлайнОнлайн-курсы

• вовлекаем в мобильность• Готовим для индустрии и для науки

Магистратура(10-20 чел/год)

• укрепление научных школАспирантура(5-10 чел/год)

• Повышение квалификации в области обработки больших данных

Дополнительное образование (20 – 100

чел/год)

Кадровое обеспечение(мощность в 2016)

Page 17: 2015 06-16 круглый стол компетенции по большим данным

18

Образовательный задел• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)

• Курсы повышения квалификации (Экспасофт в сотрудничестве)

• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA

• Сертифицированные курсы по CUDA

• Биоинформатика

Page 18: 2015 06-16 круглый стол компетенции по большим данным

19

Master program in Data science

Page 19: 2015 06-16 круглый стол компетенции по большим данным

20

Прикладные области• Биоинформатика

• Исследование экспрессии генов

• Приборостроение• Построение новых приборов на основе выявленных закономерностей (по сердцебиению данные о здоровье, о диете)

• Телекоммуникации• Новые услуги, таргетинг

• Персонализированная медицина• Персонализированные рекомендации

Page 20: 2015 06-16 круглый стол компетенции по большим данным

21

Литература• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press.