ospconf. big data forum 2015
TRANSCRIPT
План доклада
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Safe Harbor
The information being provided today is for informational purposes only. The
development, release and timing of any Informatica product or functionality
described today remain at the sole discretion of Informatica and should not be
relied upon in making a purchasing decision. Statements made today are
based on currently available information, which is subject to change. Such
statements should not be relied upon as a representation, warranty
or commitment to deliver specific products or functionality in the future.
Большие Данные (Big Data)
4
Data Velocity
(Скорость)
Data Volume
(Объём)
Data Variety
(Разнообразие)
GB TB
В настоящее время обозначает
класс задач обработки данных,
которые не могут быть эффективно
решены с помощью традиционных
инструментов и подходов.
2008 г. - Редактор журнала Nature
Клиффорд Линч (Clifford Lynch)
впервые употребляет термин Big
Data.
(*) https://en.wikipedia.org/wiki/Big_data
2001 г. – Сотрудник Gartner Даг Лени
(Doug Laney) вводит понятие (3xV) в
оборот.
MB PB
Транзакционные БД и
приложения
Приложения в Облаке
Большие
Транзакционные
Данные
OLAP и ПАК для ХД
Большие
Данные
Взаимодействия
Соц. сети, Web Logs
Устройства,
сенсоры
Документы и эл. письмаVolume
Variety
Velocity
Инфраструктура Больших ДанныхНо как правило (~80%) – это Hadoop и NoSQL
Hadoop
Хранение и обработка
больших объёмов
данных
и частично- и
неструктурированных
данных
NoSQL
Быстро-меняющиеся
модели данных
Простота управления
Гибкая разработка
Высоконагруженные и
распределенные
приложения
Кластерные
платформы
Обработка Больших Данных
Стоимость масштабирования
Стоимость лицензий и
внедрения
5
Больших Данные – Ландшафт
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ож
ид
ани
я
…Время
2012
~5-10 лет
2013
Степень зрелости решений
Большие Данные
(*) Hype Cycle for Emerging Technologies, Gartner 2011-14
Многочисленные поставщики
инструментов и решений,
консолидация поставщиков
Первые успехи в
корпоративном секторе (и
первые неудачи)
Есть понимание, какие
задачи, какими технологиями
решать
Продукты и сервисы 2го
поколения
7
2014
«Котловина
разочарований»
2011
Возм
ож
ности
<5% потенциальных
пользователей
?
?
2015?
№ Задача 2013 % 2014 % 2015
1 Предсказание поведения клиента 45% 44% 46%
2 Поиск корреляций в разнородных данных
(интернет, гео-, транзакции и т.д.)52% 43% 48%
3 Предсказание продаж продуктов или услуг 34% 36% 40%
4 Предотвращение мошенничества и
управление финансовыми рисками28% 27% 32%
5 Анализ интернет-активности (clickstream) 11% 26% 24%
6 Выявление рисков ИТ безопасности 23% 25% 29%
7 Анализ активности в социальных сетях
для потребительского сегмента 18% 24% 29%
8 Анализ сенсорных данных, web-логов… 22% 23% 28%
9 На данный момент не рассматривается 15% 14% 12%
Решаемые задачи
Большие Данные: Выравнивание ожиданий
(*) По данным Analytics, BI, and Information Management Survey by Information Week 2014-15
1
1
9
2
15
2
6
1
1
8
2
5
4
5
2
4
5
5
2
Опасения и Риски
Большие Данные: Выравнивание ожиданий
• Экспертов не хватает, они дороги 50%• Инструменты:
• Нужных просто нет 19% (-1%)
• Те, что есть, - не совместимы 19%
• Сложны в освоении 19% (+1%)
Ресурсы
• Не очевидна экономическая
эффективность бизнес инициатив Больших
Данных 36% (+1%) Экономика$?
• Качество данных 25% (-1%)Качество
данных
(*)По данным 2015 Analytics, BI, and Information Management Survey by Information Week
• Доступность данных 14% (-3% **)Данные
недоступны
(**) По сравнению с данными за 2014 г.9
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ож
ид
ани
я
…Время
2012
~5-10 лет
2013
Мини-опрос
Большие Данные – начало «подъёма»
10
2014
«Котловина
разочарований»
2011
Возм
ож
ности
Пожалуйста, поднимите
руки, если ожидаете в:
?
«Типовые» Проекты Больших Данных Для эффективной поддержки бизнес-инициатив
ИТ-инициативы
Как организовать инфраструктуру
Больших Данных?
Оптимизация
инфраструктуры
(производительность,
стоимость владения,
масштабируемость)
Оптимизация
Корпоративного
Хранилища
Данных
Единое
пространство для
управления
данными
Озеро Данных
(Managed Data Lake)
11
Бизнес-инициативы
Управление
информацией о
клиенте: очистка,
согласование,
дедупликация
Клиентский MDM
для
Больших Данных
Обработка
событий в
реальном
времени, IoT,
загрузка КХД и
витрин
Потоковая аналитика
Больших Данных
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Оптимизация Корпоративного Хранилища Данных
Корпоративное Хранилище Данных
Корпоративные
Приложения
Операционные
Хранилища
Данных (ODS)
Транзакци-
онные
системы
Business Intelligence
Hadoop
Load
… Job 2Job 1
LoadExtract Transform
Job y
Job x
…
Запросы
13
Идентификация ненужных
или редко-используемых
данных и архивирование
в Hadoop со сжатием ILM 10-20% ожидаемое сокращение
общей стоимости владения по
итогам 1-го этапа внедрения
Снижение риска приостановки
ключевых бизнес-инициатив из-
за недостатка ресурсов КХД
Vibe Data
Stream
Big Data
Edition
Power-
Exchange
Единый семантический
уровень
Data
Services
Первоначальная загрузка данных в Hadoop/MPP
Оптимизация КХД
14
Исходнаясистема
Целевыесистемы
Графическая консоль
Прямая загрузка (вариант 1)
Генерация схемы
данных
Или промежуточные файлы (вариант 2)
https://community.informatica.com/solutions/informatica_fast_clone_trial
РСУБД
ПАК
Hadoop
Графический интерфейс
Гетерогенные среды
Автоматический параллелизм
Fast-
Clone
Почему с Informatica
Оптимизация КХД
15
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY;Hive-QL
Лёгкий старт – специфических знаний
(например Hadoop) не требуется,
библиотеки готовых трансформаций для
интеграции, качества данных, сотни
готовых коннекторов к источникам и
приёмникам данных
Скорость и масштабируемость –
логика выполняется в кластере
Простота сопровождения – визуальная
разработка, самодокументируемость,
управление релизами, метаданными
Защита инвестиций – на случай
изменения технологий в результате
эволюции Hadoop
MapReduce
UDF
Vibe – виртуальная машина данных. Её код
развёрнут прямо на узлах кластера Hadoop15
Типовые архитектуры и технологические партнёрства
Оптимизация КХД – с чего начать
• Интегрированное решение Capgemini, Informatica, Cloudera,
Appfluent
+ + +
• Решение Informatica и MapR
+
• Типовая архитектура от Informatica и HortonWorks
+
http://www.cloudera.com/content/cloudera/en/solutions/partner/Informatica.html
http://hortonworks.com/partner/informatica/
https://www.mapr.com/resources/informatica-and-mapr-data-warehouse-optimization
• Типовая архитектура
Informatica и Cloudera
+
• Собрать своё решение
…
16
• Рационализация технологического
ландшафта в части стоимости
владения, сложности интеграции и
простоты переиспользования
• Производительная, гибкая и
надёжная технологическая
платформа для финансовых
консультантов и клиентов
• Единая версия правды, высокое
качество, надёжность, доступность
и отслеживаемость данных
• Нехватка специалистов Hadoop
• Кластер Hadoop простаивал, т.к.
было только 2 разработчика,
которые умели на нём работать,
что приводило к задержкам с
разработкой
• Необходимость интеграции
Hadoop со сложным Логическим
Хранилищем Данных,
построенным на различных СУБД
• Эффективная команда
специалистов
• Кластер Hadoop загружен на 100%
• Лёгкая интеграция с остальными
частями Логического Хранилища
Данных (Teradata и т.д.)
• Доступность согласованной
информации на всех платформах
История Успеха
Оптимизация Хранилища Данных
• 1.8 млрд. долларов клиентских
активов в управлении
• 126 млрд. долларов депозитов
17,000 финансовых
консультантов в штате
• 6.6M клиентских счетов
Задача Проблема Решение
17
18
Техническая Архитектура
Оптимизация КХД Morgan Stanley
Производительность труда разработчиков Informatica до 5 раз выше.
Банк смог использовать имеющиеся в наличии команды разработчиков Informatica PowerCenter.
4 недели4 дня
Скорость работы
оказалась выше в 2 раза
Vs.
Разработчики
Hadoop
«вручную»
Разработчики Informatica
Производительность труда разработчиков
Оптимизация КХД Morgan Stanley
19
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Конвейер поставки данных для анализа при планировании
и реализации бизнес-инициатив
Озеро данных
Бизнес-
ценность
Большие
Данные
Бизнес-цели
Иссле-
дование
данных
Операцион
ализация
Формули-
рование
гипотез
Проверка
гипотез
Приорите-
зация
Исследователи
ДанныхАналитики РазработчикиБизнес-
пользователи
Захват и
хранение
Исследование,
управление
Распределение
управление ЖЦ
Цепочка поставок Больших Данных
Очистка и
обогащение
Системы управления данными и аналитики
Данные в исходном формате
Доступ для любых инструментов
исследования данных
21
Болото, Водохранилище, Лагуна, Песочница (?!)
Озеро данных
• Данные «как есть» в исходном формате
• Инструментарий быстрой загрузки,
• Интеграция, к-во данных в режиме самообслуживания
• Автоматическое определение доменов данных
• Документирование, профилирование
Эксперименты:
• Трансформация, комбинация данных
• Исследование данных
Управление данными (Data Governance)
• Использование в режиме самообслуживания
(публикация и подписка)
• Форматирование и трансформация данных
• Контроль доступа, маскирование
Болото
Пруд
Лагуна
22
23
Типовая Архитектура Informatica
Озеро Данных
Мобильные
приложения
9. Управление
данными (DG),
загрузку
метаданных СУБД,
BI, DI
3. Потоковая
загрузка
8. Исследование,
гармонизация и
проверка данных 4. Маскирование
конфиденциальных
данных
2. Репликация
Аналитика,
отчётность,
визуализация
11. Подписка на
наборы данных
Data
Integration
Hub
1. Пакетная
загрузка или
архивирование
Витрины
5. Обогащение
данных (НСИ,
MDM)
MDM
КХД
6. Поиск,
интеграция, очистка
и подготовка данных
7. Выгрузка в
КХД
Сенсоры,
Облачные среды
Документы и
эл.почта
Реляционные БД,
Мэйнфреймы
Социальные сети,
веб-журналы
10. Аналитика реального
времени, корреляция,
определение тенденций и т.д.
Аутсорсинг => Среды разработки и тестирования
Informatica Test Data Management
Атрибут Значение
Name Эдгар Кодд
SSN 556-12-5697
Account Number 1565-859-2565
Phone number 818-223-5755
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Атрибут Значение
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Не маскированные данныеМаскированные данные
Распрацоўшчык
Field Description
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Маскированные данныеDeveloper
Безопасные среды с
маскированными данными
Возможно только с
подмножеством данных
промышленной системы
http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/
24
Не пропустите!
Только сегодня в 16:15!
Доклад Сергея Сотниченко
«Tinkoff Data Lake:
В секции №1 «Большие Данные на службе бизнеса»
25
История успеха в России
Tinkoff Data Lake
мы знаем про
вас всё!»
Задача Проблема Решение
• Оборот >$5.5B
• 29 транзакций в секунду
• 200+ стран , 120+ валют
• 242M C2C, 459M B2B транзакций
• Технологическая платформа для
решения по кросс-канальной
оптимизации для ритейла, веб- и
мобильного бизнеса
• Управление клиентским опытом
• Снижение стоимости транзакции
• Противодействие мошенничеству
и отмыванию денег
• Аналитическая платформа для
исследования данных (машинное
обучение и т.д.)
• Обработка 29 транзакций в секунду
генерирует огромный объём
структурированных и
неструктурированных данных,
которые должны быть
интегрированы из различных
источников (унаследованные
системы, мобильные и онлайн
данные)
• Решение должно быть
рентабельным, масштабируемым по
скорости доступа, ёмкости и
вычислительной мощности
• Построена платформа обработки
данных на основе Hadoop
(Cloudera) и Informatica Big Data
Edition
• Решение по кросс-канальной
оптимизации внедрено в
промышленную эксплуатацию в
полном объёме, в соответствии с
требованиями заказчика
Озеро Данных
26
27
Техническая Архитектура
Озеро данных Western Union
28
Managed Data Lake Portal – Ранний анонс
Data Lake
Портал самообслуживания
MDL Portal
BI, Визуализация, Аналитика, Статистика
raw («болото») sandbox («пруд») refined («лагуна»)
RFID, Медицинские
мониторы, Облака
HL7, HIPAA, EDI
X12
OLTP, ERP, EMR,
Мэйнфрейм
Социальные сети,
веб-журналы
«Озеро данных»…
• Управление поставкой и использованием данных
• Трансформация «сырых данных» в достоверную и
надёжная информацию.
Захват,
сохранение
Очистка и
обогащение
Исследование,
организация
Предоставление,
управление
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Name DOB Address City State Zip
W. S. Harrison II PhD 1/33/1967 Medical Center,117/2A #17497 Jackson E. Hartford NY 16987
William Stuart Harison 1/3/1967 117- 2a Jacksen Rd. Easthartford CT 06987
William Stewart Harison 9/9/99 117 Jackson Road. Suite 2A Hartford East CT 06987
Doctor Bill Harisen jr 1/13/1967 117 Jacson Room 2a HartfordCT 6984
Harrisen William Doctor 2a Jackson Rd #174978 Hartford CT 06987-4573
Неверная
дата
«Грязный» адрес
Нет такого города!
Неверный
индекс
• Клиентский МДМ: поиск и соотнесение клиентов, пациентов,
граждан и т.д.
• Распознавание дублирующих записей
• Создание реестра идентификаторов и ссылок на данные в
системах-источниках
• Identity Resolution: поиск в репозитории
идентификационных данных сущности, возможных
совпадений, дублирующих записей, связей или аномалий
• Для разных стран и языков, с использование методов
нечёткой логики
IIR
Informatica МДМ-реестр, Identity Resolution
30
Самый главный вопрос:
«Один человек или разные
люди?»
Big Data Relationship Management
31
Когда производительности традиционного не хватает!
• Поддержка разнообразных типов данных,
включая внешние источники
• Быстрое добавление данных новых типов
• Мэтчинг и связывание записей в Hadoop
(поддерживаются дистрибутивы Cloudera и
Hortonworks )
• Мультикритериальный мэтчинг
• Поиск в реальном времени
• Хранение в Persisted in HBase
• Мэтчинг Informatica SSA-Name3
• Автоматическое формирование витрины в Hive
• REST-API, CLI, RCP интерфейсы
ИС
ТО
ЧН
ИК
ИХ
РА
НЕ
НЕ
НИ
Е
ДА
НН
ЫХ
ОБ
РА
БО
ТК
АД
ОС
ТА
ВК
А
ИН
ФО
РМ
АЦ
И
Реляционные СУБД,
МейнфреймыДокументы, email
Социальные медиа,
Веб-журналы
Сенсоры, облачные
среды
ИСТОЧНИКИ СТРУКТУРИРОВАННЫХ
ДАННЫХ
НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ
ЗА
ХВ
АТ
ХР
АН
ЕН
ИЕ
ОБ
РА
БО
ТК
АА
НА
ЛИ
ТИ
КА
BI, Отчёты,
Приложения
Витрины
данных
REST-
сервис
МЭТЧИНГДЕДУПЛИКАЦИЯ ПОИСК
МОДЕЛЬ ДАННЫХ
PK
TABLE
INDEX
TABLE
GROUP
TABLE
УПРАВЛЕНИЕ
СВЯЗЯМИ
Первоначаль-
ная загрузка
Инкременталь-
ная загрузкаEnablers
Data MiningОбработка
в реальном времени
Подготовка
данных
Визуализация и
аналитика
Архитектура MDM BDRM
• Формирование «золотой
записи» для контактов /клиентов и
домовладений для нужд
оптимизации маркетинговых
компаний, аналитики
планирования
• Консолидация базы контактов из
внутренних источников и внешних
поставщиков
• Доступность актуальных данных в
системах оптимизации
маркетинговых кампаний
• Реализация задачи в имевшемся
технологическом ландшафте
занимала месяцы, что было
неприемлемо для заказчика
• Единая платформа, единая система
идентификаторов для данных из
ранее разрозненных источников
• Быстрая загрузка, очистка и
стандартизация из новых
источников
• Быстрая загрузка больших объёмов
данных
• Производительная среда для
аналитиков Больших Данных
История Успеха
MDM для Больших Данных
•Страхование, пенсионные и
инвестиционные фонды
•Общий объём действующих
договоров страхования –
1,085 миллиарда долларов
Задача Проблема Решение
33
Transamerica Corporation
34
Результаты первого этапа внедрения
MDM для Больших Данных Transamerica
Данные от поставщиковИндивидуальные
предложения
750 миллионов записей, кластер Hadoop 6 узлов
Клиенты:
• Мэтчинг 17 часов 25 мин., загрузка в Hbase 18 часов 15 мин.
Домохозяйства:
• Мэтчинг 30 часов 33 мин., загрузка в Hbase 20 часов 3 мин.
«Решение задачи с помощью традиционного подхода и на базе нашего КХД
потребовало бы 12-18 месяцев, фактически первая фаза была закончена за 60
дней», John LoGiudice, вице-президент по маркетингу Трансамерика
Потенциальные
клиенты
Клиентские данные
CRM
Контакты
Обогащение
Данные от
партнёров
История
Требований
Веб-журналы
Po
we
r C
en
ter
Big
Data
Ed
itio
n
HDFS
Data
Qu
alit
y B
ig D
ata
Ed
itio
n
Ide
ntity
Reso
lution
HB
ase
Hive
Map
Reduce
Cleansed
Files
Individual Household
Ви
зуа
ли
зац
ия/о
тчё
ты
Пр
ед
икт
ивна
я А
нал
ити
ка
Data
me
er
Извлечение-преобразование-загрузка
Data Quality –Cleaning, Identity Resolution
MDM для Больших Данных TransamericaТехническая Архитектура
Informatica Big Data
Relationship Manager
IIR
BDRM
35
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Потоковая Аналитика
37
Захват и передача
данных в реальном
времени
Обработка сложных
событий Informatica RulePoint
Informatica Vibe Data StreamVDS
Преобразование
форматов Informatica B2B Data Transformation
Informatica Vibe Data Stream
Ши
на
Vib
e D
ata
Str
ea
m
Публ
ика
ци
я/П
од
пи
ска
Высокопроизводительная
инфраструктура
Гарантированная доставка
Публикация в Ultra Messaging
без брокера / промежуточного
сохранения.
Cloudera,
Pivotal,
Hortonworks,
MapR
Приёмники
Web-серверы,
Operations
Мониторинг,
rsyslog, SLF4J,...
Носимые устр-ва,
умные счётчики,
дискретные
данные.
Источники
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
Управление и
Мониторинг
Интернет Вещей,
ДатчикиVDS
Узел
Аналитика
Реального
Времени и
Обработка
Сложных
Событий
NoSQL Базы
Данных: HBASE,
Cassandara,
Riak, MongoDB
38
Informatica Vibe Data Stream
• Высокая производительность, работа в реальном времени
• Высокопроизводительное решение с гарантированной доставкой
• В разы (>10X) быстрее аналогичных решений (Kafka)
• Высокая доступность и отказоустойчивость
• Автоматизированное восстановление агентов и UM компонентов
• Простая конфигурация, развёртывание, администрирование и
мониторинг
• Единый интерфейс для настройки, развёртывания и мониторинга
• Автоматически генерируется конфигурация UM, агентов на источнике и приёмнике
• Экосистема источников и приёмников
• Поддержка источников, приёмников
• Поддержка продуктов Informatica PowerCenter и Complex Event Processing
• SDK для разработки агентов
• Эффективность – нет необходимости сохранять копии данных
• Нет необходимости сохранять данные на источнике, брокере или приёмнике
• Нет необходимости в распределенной файловой системе для отказоустойчивости
Content Shared Strictly Under NDA 39
Informatica B2B Data Transformation
WebSphere MQJMSMSMQSAP NetWeaver XI
JD Edwards Lotus NotesOracle E-BusinessPeopleSoft
OracleDB2 UDBDB2/400SQL ServerSybase
ADABASDatacomDB2IDMSIMS
Word, ExcelPDFStarOfficeWordPerfectEmail (POP, IMPA)HTTP
InformixTeradataNetezzaODBCJDBC
VSAMC-ISAMBinary Flat FilesTape Formats…
Web ServicesTIBCO webMethods
SAP NetWeaver SAP NetWeaver BI SASSiebel
Сообщения и веб-сервисы
Реляционные БД и плоские
файлы
Мейнфреймы и ЭВМ среднего
класса
Неструктурированные данные
Flat filesASCII reportsHTMLRPGANSILDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
SWIFT
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP HewittSAP By DesignOracle OnDemand
«Коробочные» приложения
Индустриальные стандарты
Стандарты на основе XML
SaaS/BPO
Социальные сети
FacebookTwitterLinkedIn
KapowDatasift
PivotalVerticaNetezza
TeradataAster
Массово-параллельные
ПАК
40
41
Обработка сложных событий в примерах
Informatica RulePoint
Превышен предельный
объём передаваемых
данных (5КБ/15сек.)
Кросс-доменное решение для
потоковой аналитики
Поддержка операторов потоковой
аналитики
Обращение к сайту из списка запрещенных
• Построение системы потоковой
аналитики реального времени для
решения задач управления качеством
оказываемых услуг и ограничения
доступа
• Имеющиеся прототипы на
открытых технологиях не
обеспечивали требования по
• Простоте настройки
• Масштабируемости
• Доступности
• Восстановлению после
сбоев
• Высокодоступное, масштабируемое
решение для захвата данных,
потоковой аналитики и
долговременного хранения данных в
Hadoop
• Возможность просто подключать
новые источники и приёмники
данных
История Успеха
Потоковая Аналитика
• Один из крупнейших
телекоммуникационных операторов
(GSM, 3G, проводной)
• 150 миллионов пользователей
• Другие услуги: Производство
смартфонов, предоставление ЦОД, ИТ-
аутсорсинг и т.д.
Задача Проблема Решение
42
Аналитические расчёты (пакет.)
Потоковая обработка
(реальное время)
Интеграция данных +
обмен данными B2B
Ultra Messaging
Агент
Vibe
DataStream
PowerExchange
Очередь
Machine
Generated
Data
Обработка
сложных событий
DWH / DM
Озеро
данных
Агент
Vibe
DataStream
Time Sliced Data
Event Feeds
Informatica
PowerCenter
BigData Edition
Network
Mobile Switching
Centre - MSC / MSS
Gateway PGW,
eNodeB
OLT / ONT / ACS
DPI / Probes
L4-L7 Optimizer
Customer Premises
Set Top Box
OSS
SQM
SEM
ACS
HP TeMIP
Ericsson
IPAM
Target Systems
Campaign Management
NPM
Billing
NRTRDE
Charging GW
Redbrick / REVASS
Customer Loyalty
ICA / CB
…
…
…
…
…
…
…
…
…
Архитектура заказчика
Аналитики реального времени
UM
BDE
Rule-
Point
44
Продукт
В расчёте на узел Суммарно
Событий/сек. МБ/сек. Событий/сек. МБ/сек.
Vibe Data
Stream 32,291.67 9.69 516,666.67 155.00
Flume 4,305.59 1.29 68,889.51 20.67
Per-Node
Aggregate
Flume
Vibe Data StreamТ.е. быстрее в ~7.5 раз
Результаты пилота. Сравнение Vibe Data Stream и Flume
Потоковая Аналитика
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
$0
$200,000,000
$400,000,000
$600,000,000
$800,000,000
$1,000,000,000
$1,200,000,000• Год основания: 1993
• Оборот за 2013 г. : 1,05 миллиардов
долларов США
• Средний рост прибыли в год
(CAGR): 17%
• Сотрудники: 3,080+
• Партнёры: 450+
• Крупнейшие SI, ISV, OEM,
консалтинговые компании, лидеры
рынка (SaaS, социальные сети)
• Клиенты: Over 5,000
• Клиенты в 82 странах
• Прямое присутствие в 28 странах
• 1е место в рейтинге Customer Loyalty
Rankings (7 лет подряд)
#1 независимый поставщик решений для управления данными
О Компании Informatica
46
Informatica – безоговорочный лидер среди поставщиков решенийОбеспечения Качества и Интеграции Данных по мнению ведущиханалитических агентств (Gartner, Forrester) на протяжении 10 лет.
О Компании Informatica.
47
Архивирование Данных
Качество ДанныхИнтеграция Данных Интеграция в Облачных Средах
Управление Мастер-ДаннымиМаскирование Данных
О Компании InformaticaОтзывы аналитиков
48
Управление Мастер-ДаннымиВиртуализация Данных
Потоковая Аналитика Больших Данных
Корпоративный ETL Интеграция в Облачных Средах
Управление Информацией о Продуктах Управление данными (DG)
О Компании InformaticaОтзывы аналитиков
49
• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры исследования и разработки по направлениям «Управление Мастер-Данными» и «Репликация Данных» и в Санкт-Петербурге и Казани
• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов
Компания Informatica В России и СНГ
50
51
ПРОБНЫЕ ВЕРСИИ
ГОТОВЫЕ РЕШЕНИЯ
Пробная версия Informatica Big Data Editionmarketplace.informatica.com/bigdata
ТРЕНИНГИ И
ВЕБИНАРЫ