ospconf. big data forum 2015

Типовые ИТ-архитектуры Больших ДанныхИлья Гершанов

[email protected]

mailto:[email protected]

План доклада

• Большие данные

• Оптимизация Корпоративного Хранилища Данных

• Озеро Данных (Managed Data Lake)

• Клиентский MDM для Больших Данных

• Потоковая аналитика Больших Данных

• О компании Informatica

Safe Harbor

The information being provided today is for informational purposes only. The

development, release and timing of any Informatica product or functionality

described today remain at the sole discretion of Informatica and should not be

relied upon in making a purchasing decision. Statements made today are

based on currently available information, which is subject to change. Such

statements should not be relied upon as a representation, warranty

or commitment to deliver specific products or functionality in the future.

Большие Данные (Big Data)

4

Data Velocity

(Скорость)

Data Volume

(Объём)

Data Variety

(Разнообразие)

GB TB

В настоящее время обозначает

класс задач обработки данных,

которые не могут быть эффективно

решены с помощью традиционных

инструментов и подходов.

2008 г. - Редактор журнала Nature

Клиффорд Линч (Clifford Lynch)

впервые употребляет термин Big

Data.

(*) https://en.wikipedia.org/wiki/Big_data

2001 г. – Сотрудник Gartner Даг Лени

(Doug Laney) вводит понятие (3xV) в

оборот.

MB PB

https://en.wikipedia.org/wiki/Big_data

Транзакционные БД и

приложения

Приложения в Облаке

Большие

Транзакционные

Данные

OLAP и ПАК для ХД

Большие

Данные

Взаимодействия

Соц. сети, Web Logs

Устройства,

сенсоры

Документы и эл. письмаVolume

Variety

Velocity

Инфраструктура Больших ДанныхНо как правило (~80%) – это Hadoop и NoSQL

Hadoop

Хранение и обработка

больших объёмов

данных

и частично- и

неструктурированных

данных

NoSQL

Быстро-меняющиеся

модели данных

Простота управления

Гибкая разработка

Высоконагруженные и

распределенные


Кластерные

платформы

Обработка Больших Данных

Стоимость масштабирования

Стоимость лицензий и

внедрения

5

http://www.workday.com/index.php

http://www.workday.com/index.php

http://www.greenplum.com/


Больших Данные – Ландшафт

«Пик Завышенных

Ожиданий»

«Плато

продуктивности»

Ож

ид

ани

я

…Время

2012

~5-10 лет

2013

Степень зрелости решений

Большие Данные

(*) Hype Cycle for Emerging Technologies, Gartner 2011-14

Многочисленные поставщики

инструментов и решений,

консолидация поставщиков

Первые успехи в

корпоративном секторе (и

первые неудачи)

Есть понимание, какие

задачи, какими технологиями

решать

Продукты и сервисы 2го

поколения

7

2014

«Котловина

разочарований»

2011

Возм

ож

ности

<5% потенциальных

пользователей

?

?

2015?

№ Задача 2013 % 2014 % 2015

1 Предсказание поведения клиента 45% 44% 46%

2 Поиск корреляций в разнородных данных

(интернет, гео-, транзакции и т.д.)52% 43% 48%

3 Предсказание продаж продуктов или услуг 34% 36% 40%

4 Предотвращение мошенничества и

управление финансовыми рисками28% 27% 32%

5 Анализ интернет-активности (clickstream) 11% 26% 24%

6 Выявление рисков ИТ безопасности 23% 25% 29%

7 Анализ активности в социальных сетях

для потребительского сегмента 18% 24% 29%

8 Анализ сенсорных данных, web-логов… 22% 23% 28%

9 На данный момент не рассматривается 15% 14% 12%

Решаемые задачи

Большие Данные: Выравнивание ожиданий

(*) По данным Analytics, BI, and Information Management Survey by Information Week 2014-15

1

1

9

2

15

2

6

1

1

8

2

5

4

5

2

4

5

5

2

Опасения и Риски

Большие Данные: Выравнивание ожиданий

• Экспертов не хватает, они дороги 50%• Инструменты:

• Нужных просто нет 19% (-1%)

• Те, что есть, - не совместимы 19%

• Сложны в освоении 19% (+1%)

Ресурсы

• Не очевидна экономическая

эффективность бизнес инициатив Больших

Данных 36% (+1%) Экономика$?

• Качество данных 25% (-1%)Качество

данных

(*)По данным 2015 Analytics, BI, and Information Management Survey by Information Week

• Доступность данных 14% (-3% **)Данные

недоступны

(**) По сравнению с данными за 2014 г.9

//commons.wikimedia.org/wiki/File:Znak_kachestva_2.svg?uselang=ru

//commons.wikimedia.org/wiki/File:Znak_kachestva_2.svg?uselang=ru

«Пик Завышенных

Ожиданий»

«Плато

продуктивности»

Ож

ид

ани

я

…Время

2012

~5-10 лет

2013

Мини-опрос

Большие Данные – начало «подъёма»

10

2014

«Котловина

разочарований»

2011

Возм

ож

ности

Пожалуйста, поднимите

руки, если ожидаете в:

?

«Типовые» Проекты Больших Данных Для эффективной поддержки бизнес-инициатив

ИТ-инициативы

Как организовать инфраструктуру

Больших Данных?

Оптимизация

инфраструктуры

(производительность,

стоимость владения,

масштабируемость)

Оптимизация

Корпоративного

Хранилища

Данных

Единое

пространство для

управления

данными

Озеро Данных

(Managed Data Lake)

11

Бизнес-инициативы

Управление

информацией о

клиенте: очистка,

согласование,

дедупликация

Клиентский MDM

для

Больших Данных

Обработка

событий в

реальном

времени, IoT,

загрузка КХД и

витрин

Потоковая аналитика

Больших Данных

Оптимизация Корпоративного Хранилища Данных

Корпоративное Хранилище Данных

Корпоративные

Приложения

Операционные

Хранилища

Данных (ODS)

Транзакци-

онные

системы

Business Intelligence

Hadoop

Load

… Job 2Job 1

LoadExtract Transform

Job y

Job x

…

Запросы

13

Идентификация ненужных

или редко-используемых

данных и архивирование

в Hadoop со сжатием ILM 10-20% ожидаемое сокращение

общей стоимости владения по

итогам 1-го этапа внедрения

Снижение риска приостановки

ключевых бизнес-инициатив из-

за недостатка ресурсов КХД

Vibe Data

Stream

Big Data

Edition

Power-

Exchange

Единый семантический

уровень

Data

Services

Первоначальная загрузка данных в Hadoop/MPP

Оптимизация КХД

14

Исходнаясистема

Целевыесистемы

Графическая консоль

Прямая загрузка (вариант 1)

Генерация схемы

данных

Или промежуточные файлы (вариант 2)

https://community.informatica.com/solutions/informatica_fast_clone_trial

РСУБД

ПАК

Hadoop

Графический интерфейс

Гетерогенные среды

Автоматический параллелизм

Fast-

Clone

https://community.informatica.com/solutions/informatica_fast_clone_trial

Почему с Informatica

Оптимизация КХД

15

SELECT

T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,

customer.C_NAME,

customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY

FROM

(

SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx

FROM lineitem

GROUP BY L_ORDERKEY

) T1

JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)

JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)

JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)

WHERE nation.N_NAME = 'UNITED STATES'

) T2

INSERT OVERWRITE TABLE TARGET1 SELECT *

INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,

count(ORDERKEY2) GROUP BY CUSTKEY;Hive-QL

Лёгкий старт – специфических знаний

(например Hadoop) не требуется,

библиотеки готовых трансформаций для

интеграции, качества данных, сотни

готовых коннекторов к источникам и

приёмникам данных

Скорость и масштабируемость –

логика выполняется в кластере

Простота сопровождения – визуальная

разработка, самодокументируемость,

управление релизами, метаданными

Защита инвестиций – на случай

изменения технологий в результате

эволюции Hadoop

MapReduce

UDF

Vibe – виртуальная машина данных. Её код

развёрнут прямо на узлах кластера Hadoop15

Типовые архитектуры и технологические партнёрства

Оптимизация КХД – с чего начать

• Интегрированное решение Capgemini, Informatica, Cloudera,

Appfluent

+ + +

• Решение Informatica и MapR

+

• Типовая архитектура от Informatica и HortonWorks

+

http://www.cloudera.com/content/cloudera/en/solutions/partner/Informatica.html

http://hortonworks.com/partner/informatica/

https://www.mapr.com/resources/informatica-and-mapr-data-warehouse-optimization

• Типовая архитектура

Informatica и Cloudera

+

• Собрать своё решение

…

16

http://www.google.com/imgres?imgurl=http://3.bp.blogspot.com/_aN1WwtpRi5c/TJeCAiUwz9I/AAAAAAAAAFE/CXmGPn0KOQA/s1600/NetezzaFullLogo.jpg&imgrefurl=http://selmark.blogspot.com/2010/09/ibm-to-acquire-netezza.html&usg=__GYYOaZU9yUgJ0cI5s1mHpA6FXGc=&h=356&w=1506&sz=60&hl=en&start=1&sig2=6u8-CxZ1v-tm_EgFabHOBQ&zoom=1&itbs=1&tbnid=Iw5k7cbxZGDkcM:&tbnh=35&tbnw=150&prev=/images?q=netezza&hl=en&gbv=2&tbs=isch:1&ei=pNZFTc3PM4S8sAOIsISHCg

http://www.google.com/imgres?imgurl=http://3.bp.blogspot.com/_aN1WwtpRi5c/TJeCAiUwz9I/AAAAAAAAAFE/CXmGPn0KOQA/s1600/NetezzaFullLogo.jpg&imgrefurl=http://selmark.blogspot.com/2010/09/ibm-to-acquire-netezza.html&usg=__GYYOaZU9yUgJ0cI5s1mHpA6FXGc=&h=356&w=1506&sz=60&hl=en&start=1&sig2=6u8-CxZ1v-tm_EgFabHOBQ&zoom=1&itbs=1&tbnid=Iw5k7cbxZGDkcM:&tbnh=35&tbnw=150&prev=/images?q=netezza&hl=en&gbv=2&tbs=isch:1&ei=pNZFTc3PM4S8sAOIsISHCg



http://www.greenplum.com/sites/default/wp/blog/wp-content/uploads/2013/02/PivotalHD_badge.png

http://www.greenplum.com/sites/default/wp/blog/wp-content/uploads/2013/02/PivotalHD_badge.png

• Рационализация технологического

ландшафта в части стоимости

владения, сложности интеграции и

простоты переиспользования

• Производительная, гибкая и

надёжная технологическая

платформа для финансовых

консультантов и клиентов

• Единая версия правды, высокое

качество, надёжность, доступность

и отслеживаемость данных

• Нехватка специалистов Hadoop

• Кластер Hadoop простаивал, т.к.

было только 2 разработчика,

которые умели на нём работать,

что приводило к задержкам с

разработкой

• Необходимость интеграции

Hadoop со сложным Логическим

Хранилищем Данных,

построенным на различных СУБД

• Эффективная команда

специалистов

• Кластер Hadoop загружен на 100%

• Лёгкая интеграция с остальными

частями Логического Хранилища

Данных (Teradata и т.д.)

• Доступность согласованной

информации на всех платформах

История Успеха

Оптимизация Хранилища Данных

• 1.8 млрд. долларов клиентских

активов в управлении

• 126 млрд. долларов депозитов

17,000 финансовых

консультантов в штате

• 6.6M клиентских счетов

Задача Проблема Решение

17

18

Техническая Архитектура

Оптимизация КХД Morgan Stanley

Производительность труда разработчиков Informatica до 5 раз выше.

Банк смог использовать имеющиеся в наличии команды разработчиков Informatica PowerCenter.

4 недели4 дня

Скорость работы

оказалась выше в 2 раза

Vs.

Разработчики

Hadoop

«вручную»

Разработчики Informatica

Производительность труда разработчиков

Оптимизация КХД Morgan Stanley

19

Конвейер поставки данных для анализа при планировании

и реализации бизнес-инициатив

Озеро данных

Бизнес-

ценность

Большие

Данные

Бизнес-цели

Иссле-

дование

данных

Операцион

ализация

Формули-

рование

гипотез

Проверка

гипотез

Приорите-

зация

Исследователи

ДанныхАналитики РазработчикиБизнес-

пользователи

Захват и

хранение

Исследование,

управление

Распределение

управление ЖЦ

Цепочка поставок Больших Данных

Очистка и

обогащение

Системы управления данными и аналитики

Данные в исходном формате

Доступ для любых инструментов

исследования данных

21

Болото, Водохранилище, Лагуна, Песочница (?!)

Озеро данных

• Данные «как есть» в исходном формате

• Инструментарий быстрой загрузки,

• Интеграция, к-во данных в режиме самообслуживания

• Автоматическое определение доменов данных

• Документирование, профилирование

Эксперименты:

• Трансформация, комбинация данных

• Исследование данных

Управление данными (Data Governance)

• Использование в режиме самообслуживания

(публикация и подписка)

• Форматирование и трансформация данных

• Контроль доступа, маскирование

Болото

Пруд

Лагуна

22

23

Типовая Архитектура Informatica


Мобильные


9. Управление

данными (DG),

загрузку

метаданных СУБД,

BI, DI

3. Потоковая

загрузка

8. Исследование,

гармонизация и

проверка данных 4. Маскирование

конфиденциальных

данных

2. Репликация

Аналитика,

отчётность,

визуализация

11. Подписка на

наборы данных

Data

Integration

Hub

1. Пакетная

загрузка или

архивирование

Витрины

5. Обогащение

данных (НСИ,

MDM)

MDM

КХД

6. Поиск,

интеграция, очистка

и подготовка данных

7. Выгрузка в

КХД

Сенсоры,

Облачные среды

Документы и

эл.почта

Реляционные БД,

Мэйнфреймы

Социальные сети,

веб-журналы

10. Аналитика реального

времени, корреляция,

определение тенденций и т.д.

Аутсорсинг => Среды разработки и тестирования

Informatica Test Data Management

Атрибут Значение

Name Эдгар Кодд

SSN 556-12-5697

Account Number 1565-859-2565

Phone number 818-223-5755

Product Ипотека 30 лет

Balance $560,000

Loan Amount $720,000

Атрибут Значение

Name Алёша Попович

SSN 556-36-9999




Balance $560,000


Не маскированные данныеМаскированные данные

Распрацоўшчык

Field Description

Name Алёша Попович

SSN 556-36-9999




Balance $560,000


Маскированные данныеDeveloper

Безопасные среды с

маскированными данными

Возможно только с

подмножеством данных

промышленной системы

http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/

24

http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/

Не пропустите!

Только сегодня в 16:15!

Доклад Сергея Сотниченко

«Tinkoff Data Lake:

В секции №1 «Большие Данные на службе бизнеса»

25

История успеха в России

Tinkoff Data Lake

мы знаем про

вас всё!»


• Оборот >$5.5B

• 29 транзакций в секунду

• 200+ стран , 120+ валют

• 242M C2C, 459M B2B транзакций

• Технологическая платформа для

решения по кросс-канальной

оптимизации для ритейла, веб- и

мобильного бизнеса

• Управление клиентским опытом

• Снижение стоимости транзакции

• Противодействие мошенничеству

и отмыванию денег

• Аналитическая платформа для

исследования данных (машинное

обучение и т.д.)

• Обработка 29 транзакций в секунду

генерирует огромный объём

структурированных и

неструктурированных данных,

которые должны быть

интегрированы из различных

источников (унаследованные

системы, мобильные и онлайн

данные)

• Решение должно быть

рентабельным, масштабируемым по

скорости доступа, ёмкости и

вычислительной мощности

• Построена платформа обработки

данных на основе Hadoop

(Cloudera) и Informatica Big Data

Edition

• Решение по кросс-канальной

оптимизации внедрено в

промышленную эксплуатацию в

полном объёме, в соответствии с

требованиями заказчика


26

https://www.youtube.com/watch?v=H-ELgWoRLog

https://www.youtube.com/watch?v=H-ELgWoRLog

27

Техническая Архитектура

Озеро данных Western Union

28

Managed Data Lake Portal – Ранний анонс

Data Lake

Портал самообслуживания

MDL Portal

BI, Визуализация, Аналитика, Статистика

raw («болото») sandbox («пруд») refined («лагуна»)

RFID, Медицинские

мониторы, Облака

HL7, HIPAA, EDI

X12

OLTP, ERP, EMR,

Мэйнфрейм

Социальные сети,

веб-журналы

«Озеро данных»…

• Управление поставкой и использованием данных

• Трансформация «сырых данных» в достоверную и

надёжная информацию.

Захват,

сохранение

Очистка и

обогащение

Исследование,

организация

Предоставление,

управление

Name DOB Address City State Zip

W. S. Harrison II PhD 1/33/1967 Medical Center,117/2A #17497 Jackson E. Hartford NY 16987

William Stuart Harison 1/3/1967 117- 2a Jacksen Rd. Easthartford CT 06987

William Stewart Harison 9/9/99 117 Jackson Road. Suite 2A Hartford East CT 06987

Doctor Bill Harisen jr 1/13/1967 117 Jacson Room 2a HartfordCT 6984

Harrisen William Doctor 2a Jackson Rd #174978 Hartford CT 06987-4573

Неверная

дата

«Грязный» адрес

Нет такого города!

Неверный

индекс

• Клиентский МДМ: поиск и соотнесение клиентов, пациентов,

граждан и т.д.

• Распознавание дублирующих записей

• Создание реестра идентификаторов и ссылок на данные в

системах-источниках

• Identity Resolution: поиск в репозитории

идентификационных данных сущности, возможных

совпадений, дублирующих записей, связей или аномалий

• Для разных стран и языков, с использование методов

нечёткой логики

IIR

Informatica МДМ-реестр, Identity Resolution

30

Самый главный вопрос:

«Один человек или разные

люди?»

Big Data Relationship Management

31

Когда производительности традиционного не хватает!

• Поддержка разнообразных типов данных,

включая внешние источники

• Быстрое добавление данных новых типов

• Мэтчинг и связывание записей в Hadoop

(поддерживаются дистрибутивы Cloudera и

Hortonworks )

• Мультикритериальный мэтчинг

• Поиск в реальном времени

• Хранение в Persisted in HBase

• Мэтчинг Informatica SSA-Name3

• Автоматическое формирование витрины в Hive

• REST-API, CLI, RCP интерфейсы

ИС

ТО

ЧН

ИК

ИХ

РА

НЕ

НЕ

НИ

Е

ДА

НН

ЫХ

ОБ

РА

БО

ТК

АД

ОС

ТА

ВК

А

ИН

ФО

РМ

АЦ

И

Реляционные СУБД,

МейнфреймыДокументы, email

Социальные медиа,

Веб-журналы

Сенсоры, облачные

среды

ИСТОЧНИКИ СТРУКТУРИРОВАННЫХ

ДАННЫХ

НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ

ЗА

ХВ

АТ

ХР

АН

ЕН

ИЕ

ОБ

РА

БО

ТК

АА

НА

ЛИ

ТИ

КА

BI, Отчёты,

Приложения

Витрины

данных

REST-

сервис

МЭТЧИНГДЕДУПЛИКАЦИЯ ПОИСК

МОДЕЛЬ ДАННЫХ

PK

TABLE

INDEX

TABLE

GROUP

TABLE

УПРАВЛЕНИЕ

СВЯЗЯМИ

Первоначаль-

ная загрузка

Инкременталь-

ная загрузкаEnablers

Data MiningОбработка

в реальном времени

Подготовка

данных

Визуализация и

аналитика

Архитектура MDM BDRM

• Формирование «золотой

записи» для контактов /клиентов и

домовладений для нужд

оптимизации маркетинговых

компаний, аналитики

планирования

• Консолидация базы контактов из

внутренних источников и внешних

поставщиков

• Доступность актуальных данных в

системах оптимизации

маркетинговых кампаний

• Реализация задачи в имевшемся

технологическом ландшафте

занимала месяцы, что было

неприемлемо для заказчика

• Единая платформа, единая система

идентификаторов для данных из

ранее разрозненных источников

• Быстрая загрузка, очистка и

стандартизация из новых

источников

• Быстрая загрузка больших объёмов

данных

• Производительная среда для

аналитиков Больших Данных


MDM для Больших Данных

•Страхование, пенсионные и

инвестиционные фонды

•Общий объём действующих

договоров страхования –

1,085 миллиарда долларов


33

Transamerica Corporation

34

Результаты первого этапа внедрения

MDM для Больших Данных Transamerica

Данные от поставщиковИндивидуальные

предложения

750 миллионов записей, кластер Hadoop 6 узлов

Клиенты:

• Мэтчинг 17 часов 25 мин., загрузка в Hbase 18 часов 15 мин.

Домохозяйства:

• Мэтчинг 30 часов 33 мин., загрузка в Hbase 20 часов 3 мин.

«Решение задачи с помощью традиционного подхода и на базе нашего КХД

потребовало бы 12-18 месяцев, фактически первая фаза была закончена за 60

дней», John LoGiudice, вице-президент по маркетингу Трансамерика

Потенциальные

клиенты

Клиентские данные

CRM

Контакты

Обогащение

Данные от

партнёров

История

Требований

Веб-журналы

Po

we

r C

en

ter

Big

Data

Ed

itio

n

HDFS

Data

Qu

alit

y B

ig D

ata

Ed

itio

n

Ide

ntity

Reso

lution

HB

ase

Hive

Map

Reduce

Cleansed

Files

Individual Household

Ви

зуа

ли

зац

ия/о

тчё

ты

Пр

ед

икт

ивна

я А

нал

ити

ка

Data

me

er

Извлечение-преобразование-загрузка

Data Quality –Cleaning, Identity Resolution

MDM для Больших Данных TransamericaТехническая Архитектура

Informatica Big Data

Relationship Manager

IIR

BDRM

35

Потоковая Аналитика

37

Захват и передача

данных в реальном

времени

Обработка сложных

событий Informatica RulePoint

Informatica Vibe Data StreamVDS

Преобразование

форматов Informatica B2B Data Transformation

Informatica Vibe Data Stream

Ши

на

Vib

e D

ata

Str

ea

m

Публ

ика

ци

я/П

од

пи

ска

Высокопроизводительная

инфраструктура

Гарантированная доставка

Публикация в Ultra Messaging

без брокера / промежуточного

сохранения.

Cloudera,

Pivotal,

Hortonworks,

MapR

Приёмники

Web-серверы,

Operations

Мониторинг,

rsyslog, SLF4J,...

Носимые устр-ва,

умные счётчики,

дискретные

данные.

Источники

VDS

Узел

VDS

Узел

VDS

Узел

VDS

Узел

VDS

Узел

Управление и

Мониторинг

Интернет Вещей,

ДатчикиVDS

Узел

Аналитика

Реального

Времени и

Обработка

Сложных

Событий

NoSQL Базы

Данных: HBASE,

Cassandara,

Riak, MongoDB

38

Informatica Vibe Data Stream

• Высокая производительность, работа в реальном времени

• Высокопроизводительное решение с гарантированной доставкой

• В разы (>10X) быстрее аналогичных решений (Kafka)

• Высокая доступность и отказоустойчивость

• Автоматизированное восстановление агентов и UM компонентов

• Простая конфигурация, развёртывание, администрирование и

мониторинг

• Единый интерфейс для настройки, развёртывания и мониторинга

• Автоматически генерируется конфигурация UM, агентов на источнике и приёмнике

• Экосистема источников и приёмников

• Поддержка источников, приёмников

• Поддержка продуктов Informatica PowerCenter и Complex Event Processing

• SDK для разработки агентов

• Эффективность – нет необходимости сохранять копии данных

• Нет необходимости сохранять данные на источнике, брокере или приёмнике

• Нет необходимости в распределенной файловой системе для отказоустойчивости

Content Shared Strictly Under NDA 39

Informatica B2B Data Transformation

WebSphere MQJMSMSMQSAP NetWeaver XI

JD Edwards Lotus NotesOracle E-BusinessPeopleSoft

OracleDB2 UDBDB2/400SQL ServerSybase

ADABASDatacomDB2IDMSIMS

Word, ExcelPDFStarOfficeWordPerfectEmail (POP, IMPA)HTTP

InformixTeradataNetezzaODBCJDBC

VSAMC-ISAMBinary Flat FilesTape Formats…

Web ServicesTIBCO webMethods

SAP NetWeaver SAP NetWeaver BI SASSiebel

Сообщения и веб-сервисы

Реляционные БД и плоские

файлы

Мейнфреймы и ЭВМ среднего

класса

Неструктурированные данные

Flat filesASCII reportsHTMLRPGANSILDAP

EDI–X12

EDI-Fact

RosettaNet

HL7

HIPAA

ebXML

HL7 v3.0

ACORD (AL3, XML)

XML

LegalXML

IFX

cXML

AST

FIX

SWIFT

Cargo IMP

MVR

Salesforce CRM

Force.com

RightNow

NetSuite

ADP HewittSAP By DesignOracle OnDemand

«Коробочные» приложения

Индустриальные стандарты

Стандарты на основе XML

SaaS/BPO

Социальные сети

FacebookTwitterLinkedIn

KapowDatasift

PivotalVerticaNetezza

TeradataAster

Массово-параллельные

ПАК

40

http://www.salesforce.com/

http://www.salesforce.com/

41

Обработка сложных событий в примерах

Informatica RulePoint

Превышен предельный

объём передаваемых

данных (5КБ/15сек.)

Кросс-доменное решение для

потоковой аналитики

Поддержка операторов потоковой

аналитики

Обращение к сайту из списка запрещенных

• Построение системы потоковой

аналитики реального времени для

решения задач управления качеством

оказываемых услуг и ограничения

доступа

• Имеющиеся прототипы на

открытых технологиях не

обеспечивали требования по

• Простоте настройки

• Масштабируемости

• Доступности

• Восстановлению после

сбоев

• Высокодоступное, масштабируемое

решение для захвата данных,

потоковой аналитики и

долговременного хранения данных в

Hadoop

• Возможность просто подключать

новые источники и приёмники

данных



• Один из крупнейших

телекоммуникационных операторов

(GSM, 3G, проводной)

• 150 миллионов пользователей

• Другие услуги: Производство

смартфонов, предоставление ЦОД, ИТ-

аутсорсинг и т.д.


42

Аналитические расчёты (пакет.)

Потоковая обработка

(реальное время)

Интеграция данных +

обмен данными B2B

Ultra Messaging

Агент

Vibe

DataStream

PowerExchange

Очередь

Machine

Generated

Data

Обработка

сложных событий

DWH / DM

Озеро

данных

Агент

Vibe

DataStream

Time Sliced Data

Event Feeds

Informatica

PowerCenter

BigData Edition

Network

Mobile Switching

Centre - MSC / MSS

Gateway PGW,

eNodeB

OLT / ONT / ACS

DPI / Probes

L4-L7 Optimizer

Customer Premises

Set Top Box

OSS

SQM

SEM

ACS

HP TeMIP

Ericsson

IPAM

Target Systems

Campaign Management

NPM

Billing

NRTRDE

Charging GW

Redbrick / REVASS

Customer Loyalty

ICA / CB

…

…

…

…

…

…

…

…

…

Архитектура заказчика

Аналитики реального времени

UM

BDE

Rule-

Point

44

Продукт

В расчёте на узел Суммарно

Событий/сек. МБ/сек. Событий/сек. МБ/сек.

Vibe Data

Stream 32,291.67 9.69 516,666.67 155.00

Flume 4,305.59 1.29 68,889.51 20.67

Per-Node

Aggregate

Flume

Vibe Data StreamТ.е. быстрее в ~7.5 раз

Результаты пилота. Сравнение Vibe Data Stream и Flume


$0

$200,000,000

$400,000,000

$600,000,000

$800,000,000

$1,000,000,000

$1,200,000,000• Год основания: 1993

• Оборот за 2013 г. : 1,05 миллиардов

долларов США

• Средний рост прибыли в год

(CAGR): 17%

• Сотрудники: 3,080+

• Партнёры: 450+

• Крупнейшие SI, ISV, OEM,

консалтинговые компании, лидеры

рынка (SaaS, социальные сети)

• Клиенты: Over 5,000

• Клиенты в 82 странах

• Прямое присутствие в 28 странах

• 1е место в рейтинге Customer Loyalty

Rankings (7 лет подряд)

#1 независимый поставщик решений для управления данными

О Компании Informatica

46

Informatica – безоговорочный лидер среди поставщиков решенийОбеспечения Качества и Интеграции Данных по мнению ведущиханалитических агентств (Gartner, Forrester) на протяжении 10 лет.

О Компании Informatica.

47

Архивирование Данных

Качество ДанныхИнтеграция Данных Интеграция в Облачных Средах

Управление Мастер-ДаннымиМаскирование Данных

О Компании InformaticaОтзывы аналитиков

48

Управление Мастер-ДаннымиВиртуализация Данных

Потоковая Аналитика Больших Данных

Корпоративный ETL Интеграция в Облачных Средах

Управление Информацией о Продуктах Управление данными (DG)

О Компании InformaticaОтзывы аналитиков

49

• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры исследования и разработки по направлениям «Управление Мастер-Данными» и «Репликация Данных» и в Санкт-Петербурге и Казани

• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов

Компания Informatica В России и СНГ

50

http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&frm=1&source=images&cd=&cad=rja&uact=8&ved=0CAQQjRw&url=http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC.png&ei=UccZU6btKIeShQeNl4CYCw&usg=AFQjCNHieUvie3kdOmVnpshBPEThiLHeAw&sig2=hLUmeQZd3_EDzVtE30bKZA&bvm=bv.62578216,d.ZG4

http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&frm=1&source=images&cd=&cad=rja&uact=8&ved=0CAQQjRw&url=http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC.png&ei=UccZU6btKIeShQeNl4CYCw&usg=AFQjCNHieUvie3kdOmVnpshBPEThiLHeAw&sig2=hLUmeQZd3_EDzVtE30bKZA&bvm=bv.62578216,d.ZG4

https://www.google.ru/imgres?imgurl&imgrefurl=http://toplogos.ru/logo-mvideo/&h=0&w=0&tbnid=Vyrbdjr3HMGraM&tbnh=150&tbnw=337&zoom=1&docid=riOtDYJAz7lP1M&ei=rMcZU9fyBfDd7Qbk3oGoDA&ved=0CAIQsCUoAA

https://www.google.ru/imgres?imgurl&imgrefurl=http://toplogos.ru/logo-mvideo/&h=0&w=0&tbnid=Vyrbdjr3HMGraM&tbnh=150&tbnw=337&zoom=1&docid=riOtDYJAz7lP1M&ei=rMcZU9fyBfDd7Qbk3oGoDA&ved=0CAIQsCUoAA

51

ПРОБНЫЕ ВЕРСИИ

ГОТОВЫЕ РЕШЕНИЯ

Пробная версия Informatica Big Data Editionmarketplace.informatica.com/bigdata

ТРЕНИНГИ И

ВЕБИНАРЫ

ospconf. big data forum 2015

Technology