2015 06-16 круглый стол компетенции по большим данным
TRANSCRIPT
Большие данныеЧто у нас есть?
Павловский Е.Н.директор по развитию ООО "Экспасофт"
2
План1. Определение феномена БД
2. Значение БД для разных отраслей
3. Субъекты подготовки специалистов (=центры компетенций) по БД
4. Проблемы в области БД
5. Направления развития
6. Образовательный задел НСО
3
Большие данные – это не только данные• Технологии получения, хранения, обработки, удаления данных
• Методы обработки и представления данных
• Проблема нехватки ресурсов для обработки
• Социальный феномен (качественный переход)
• Данные большого объёма, разнообразия, темпа роста,
• Большой потенциальной ценности
4
4V• Volume - объём данных
• Velocity - скорость создания и обработки данных
• Variety - разнообразие источников и форм хранения данных
• Value - ценность
5
"Большие данные – это новая нефть" (Clifford Lynch, Nature, 2008)• ЦОДы – это ресурсы:
• сбор данных, технологии хранения, облачные хостинги и т.п.
• Технологии "глубокой переработки":• Сами по себе данные не очень ценны, ценны закономерности
• Известные примеры применения (доказанная польза):• Влияние покупок пива на продажи памперсов• Рекомендованные покупки• Бизнес на кредитах людям с плохой кредитной историей• И т.п.
6Три составляющих успеха в "нефтяной отрасли"
ЦОДы
Кейсыприменен
ия
Технологии
обработки
7
Восстановление данных фракционного состава добываемой смесиДанные:
• 3 исходных параметра ($10k)
• 3 целевых параметра ($200k)
• 5 участков данных
• Частота измерений – раз в минуту
• Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
8Пример Amazon
Онлайн-магазин книг
Дополнительные продажи
Рекомендация покупки
9Персонализированный прогноз уровня сахара в крови на основе машинного обучения
Вставка рисунка
Табаков К.А., Экспасофт, бакалавр
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 1270
20
40
60
80
100
120
140
160
180
Предсказаные значения
Реальные значения
10
Изменение парадигм• Объектом деятельности является не программа и код, а гипотезы и данные
• Больше источников – выше достоверность
• Больше данных – выше точность
• Больше данных – ниже требования к качеству данных
• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
• Неперемещаемость данных => параллелизм и вычисления по месту хранения
• Отказ от структурированности => технологии извлечения информации и знаний
Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC2 PROVEN PROFESSIONAL
Data Analytics Lifecycle
11
Исследование
Внедрение
Планирование модели
Подготовка данных
Построение модели
Представление результатов
Do I have enough information to draft an analytic plan and share
for peer review?
Do I have enough
good quality data to start building the
model?
Do I have a good idea about the type
of model to try? Can I refine the analytic plan?
Is the model robust enough?
Have we failed for sure?
1
2
3
4
6
5
13
Субъекты подготовки специалистов• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ
• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ
• ИТ-компании: отдельные курсы или магистерские программы
• ИТ-компании создающие технологии обработки данных
• НСО-ГАУ "Центр" – межвузовская магистратура
• ГАУ "АРИС" – поддержка ИТ-кластера
• Специалисты
14Орг-формы
ИППК или ЦДО НГУГАУ «Центр» - межвуз. маг.КА Сухорукова
Компетенции
ЦЕРН
НейросетиФЭЧ
ИЯФ
Спутники
НейросетиВоенка
ИАЭ
FRiS, оптим. алг, онтологии, логикаРаспознавание
ИМ
Банки данных
CUDA, DNAБиоинформат
ика
ИЦиГ, УНИПРО,
НПС Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦИнформатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
ИнициативыМагистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
ХранениеКардиология, Радиология
НИИПК
?
ХранениеМедицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность, медицина, финансы, сервера
Экспасофт
Приборы
?
Унискан, ТИОН
Игры
SlpunkИгры
Alawar
МТС
ТранзакцииТаргетинг
Eyeline
Банки
ТранзакцииФинансы
ЦФТ
?
Вычисления, хранение
ИЦКТ
Потребители
?
Обработка, образовани
еМедицина, биология, физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
15
Проблемы в области Больших данных• Нет культуры обезличивания и передачи данных (ФЗ-152)
• Нет понимания возможной пользы от анализа данных
• Недостаточные компетенции в статистике
• "Мы закончили НГУ, сами разберёмся в теме"
• Отсутствие брокеров данных
• Проекты по анализу данных имеют высокий риск
• Недостаточно данных
16
Направления развития Больших данных в Новосибирске• На базе исследовательского потенциала:
• Обработка биологических, ФЭЧ, спутниковых данных• Новые алгоритмы анализа больших данных
• На базе технологических компаний:• Предоставление вычислительных ресурсов• Предоставление услуг по анализу• Услуги по хранению
• На базе доступа к данным• Исследования в телекоммуникациях, приборостроении, госбезопасности, банковском секторе
• самая широкая аудитория (школьники, разработчики, бакалавры)
• средство привлечения из онлайн в офлайнОнлайн-курсы
• вовлекаем в мобильность• Готовим для индустрии и для науки
Магистратура(10-20 чел/год)
• укрепление научных школАспирантура(5-10 чел/год)
• Повышение квалификации в области обработки больших данных
Дополнительное образование (20 – 100
чел/год)
Кадровое обеспечение(мощность в 2016)
18
Образовательный задел• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)
• Курсы повышения квалификации (Экспасофт в сотрудничестве)
• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA
• Сертифицированные курсы по CUDA
• Биоинформатика
19
Master program in Data science
20
Прикладные области• Биоинформатика
• Исследование экспрессии генов
• Приборостроение• Построение новых приборов на основе выявленных закономерностей (по сердцебиению данные о здоровье, о диете)
• Телекоммуникации• Новые услуги, таргетинг
• Персонализированная медицина• Персонализированные рекомендации
21
Литература• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press.