Потоковая Аналитика данных с помощью oracle stream ... · event by...

34
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | Confidential – Oracle Internal/Restricted/Highly Restricted Потоковая Аналитика данных с помощью Oracle Stream Analytics 19 Моисеев Александр Ведущий консультант Oracle Modern Cloud Day 2019

Upload: others

Post on 20-May-2020

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Event info description goes here

Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | Confidential – Oracle Internal/Restricted/Highly Restricted

Потоковая Аналитика данных с помощью Oracle Stream Analytics 19

Моисеев АлександрВедущий консультантOracle

Modern Cloud Day 2019

Page 2: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Safe harbor statement

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions.

The development, release, timing, and pricing of any features or functionality described for Oracle’s products may change and remains at the sole discretion of Oracle Corporation.

2Confidential – © 2019 Oracle Internal/Restricted/Highly Restricted

Page 3: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Зачем нужна аналитика в режиме реального времени?

3

Подача заявления на кредит

Кредитныйспециалист

Рискменеджер

МенеджерСлужбы

безопастности

Кредитныйменеджер

~ 3-5 дней

Page 4: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Зачем нужна аналитика в режиме реального времени?

4

Кредитныйспециалист

Рискменеджер

МенеджерСлужбы

безопастности

Кредитныйменеджер

Кредитныйспециалист

Рискменеджер

МенеджерСлужбы

безопастности

Кредитныйменеджер

Кредитныйспециалист

Рискменеджер

МенеджерСлужбы

безопастности

Кредитныйменеджер

Page 5: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Зачем нужна аналитика в режиме реального времени?

5

= 3 дня

= 5 дней

= 1 день

Page 6: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Зачем нужна аналитика в режиме реального времени?

6

= 3 дня

= 5 дней

= 1 день

Page 7: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Зачем нужна аналитика в режиме реального времени?

7

= 1 день

Page 8: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Области применения

8

Транспортно-Логистический

Отслеживание грузов Управление автотранспортом Оповещение пассажиров

Финансовый сектор

Обнаружение мошенничества

Риск Менеджмент Анализ валютных

обменов Анализ цен на

сырьевые товары

Телекоммуникационный

Загрузка сети Видео аналитика Управление сетью

Производство

Умная инвентаризация Контроль качества Управление

производством/складом/зданием

Интеллектуальная разведка Управление персоналом Анализ бурения

Нефтегазовая отрасль

Городская инфраструктура Мониторинг Медицинских

устройств Безопасность

Медицина/Публичный сектор

Markdown optimization Динамическое ценообразование Персональные предложения Прогнозирование тенденций Нарушение корзины покупок Улучшение управления

магазинами

Ритейл

Page 9: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Пакетная обработка данных

9

Источники данных

Базы данных

Хранилище

ОтчетностьПакетный ETL

Заполнение хранилища

Традиционная аналитика

Decision Maker

РешениеЗаполнение БД

Действие

Page 10: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Потоковая обработка данных

10

Источники данных

ДействиеПотоковая Аналитика

Поток данных

Автоматическое принятие решения

Page 11: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

1111

Референсная архитектура Oracle для построения Озера

StagingSqoop

HDFS

Hive

Flume

Transformation

Discovery Sandbox/s

HBase

R

Streaming Analytics

ODI

OGG

OGG4BD

OGG4BD

OBDS

OBDS

ODS

Потоковая обработка данных

Пакетная обработка данныхOGG4BD

Page 12: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

12

Oracle GoldenGate for Big Data

ParameterFile

Adapter Properties JAR

Oracle GoldenGate for Big Data

Kafka

Hive

HDFS

HBASE

Flume

Capture Trail Files Network

Firewall

Cloud

Trail Files Native

Java

Replicat

JMS

Page 13: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

13

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

Store DatabaseЛоги

приложенийМетрики

Пользовательская активность

Бизнес приложения

Page 14: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

14

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

StoreDatabase

Логи приложений

Метрики Пользовательская активность

Бизнес приложения

Apache Kafka

Page 15: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

15

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

StoreDatabase

Логи приложений

Метрики Пользовательская активность

Бизнес приложения

Apache Kafka

Page 16: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

16

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

StoreDatabase

Логи приложений

Метрики Пользовательская активность

Бизнес приложения

Apache Kafka

Page 17: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

17

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

StoreDatabase

Логи приложений

Метрики Пользовательская активность

Бизнес приложения

Apache Kafka

Page 18: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

18

Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск

DatabaseKey/Value

StoreDatabase

Логи приложений

Метрики Пользовательская активность

Бизнес приложения

Apache Kafka

Oracle Stream Analytics (Spark Streaming)

Page 19: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Oracle Stream Analytics

19

Технология позволяющая пользователям

обрабатывать и анализировать

события в режиме реального времени,

используя сложные модели корреляции,

обогащения и машинного обучения.

Page 20: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

20

Oracle Stream Analytics: Use Cases

Корреляция событий

Event by Event процессинг, Сортировка, Фильтрация &

Агрегирование

Поиск Аномалий

Pattern Matching и Outlier Detection

Бизнес Правила

Automation of Business Decisions

Пространственная обработка

Аналитика по географическим границам

Forecasting, Event Scoring & Predictive Analytics

Машинное обучение

Скользящие окнаВременные окна

Визуализация потока иПостроение Операционных

Дашбордов

Информационные панели

Real-timeComplex Event

Processing

Stream Analytics

ML Models

Page 21: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

21

Golden Gate CDC или Txn Logs

Данные сенсоров

Social Media

Click Stream

Geo Location

Фильтрация

Агрегация

Трансформация

Корреляция/обогащение

Geo-fence

Запросы

Временные окна

Паттерны данных

Пространственныйанализ

Аномалии

Классификация

Кластеризация

Статистика

Регрессионая модель

Бизнес-правила

Политики

Условная логика

Нотификация/публикация

Вызов

Визуализация

Сохранение

Захват данных Предобработка Аналитика ипрогнозирование

Решение Действия

Впрыск Трансформация и корелляция Действия и уведомления

Real-time Data Pipeline

Page 22: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

22

OLTP Data Producers

Data ConsumersMulti-Structured Data Producers

SaaS & Apps Data ProducersOracle ADW

DataVisualization

Applications

Kafka or JMS

Contextual Data

ML Models

Oracle Stream Analytics (Spark Streaming)

GeoSpatialData

Time Series

Stream Patterns

Принцип работы OSA

Page 23: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Oracle Stream Analytics Архитектура

23

OSA Required Components

OSA Web Application(Embedded Jetty App Server)

ReferenceInput

Oracle DB

Coherence

Oracle DB or MySQL(Used for Metadata Store)

Apache Hadoop / Spark

Apache Kafka

Kafka

JMS

GoldenGate

File

StreamingInput

Kafka

JMS

Rest

StreamingOutput

AnalyticsOutput

Druid

File

Page 24: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Преимущества Oracle Stream Analytics

24

24

CQL

Интерактивный пользовательский

интерфейс

Набор встроенных шаблонов для

потоковой обработки

Предиктивная аналитика и Машинное обучение

Пространственный анализ

Интеграция с Oracle GoldenGate

Надежность, Cкорость и Масштабируемость

Page 25: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Интерактивный Пользовательский Интерфейс

25

Доступность для нетехнических пользователей

• Расширение возможностей аналитиков данных для улучшения данных без навыков кодирования

• Интуитивно понятное представление данных всегда показывает результаты преобразований в том виде, в котором они определены

• Фильтрация и корреляция потоков, применение правил, агрегирование, вычисление полей.

Расширяемость функций через Java

• Позволяет инженерам данных предоставлять пользовательские функции, которые будут использоваться всеми членами команды

Интегрированные визуализации

• Позволяет исследовать бизнес-данные в режиме реального времени с помощью различных таблиц, диаграмм и геопространственных карт

Page 26: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Богатый набор встроенных шаблонов для потоковой обработки

26

Упрощает доступ к сложным алгоритмам

• Простые в использовании модули с помощью конструктора

• Визуализации для обеспечения немедленной обратной связи

• Доступно для аналитиков данных

Обширная библиотека шаблонов

• Охватывает различные области, такие как обнаружение аномалий, корреляция потока, анализ тенденций, пространственные функции

• Обнаружение дубликатов, неупорядоченных и отсутствующих событий

• Функции для финансовых, статистических и журнальных аналитических операций

Page 27: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Пространственный анализ

27

Интерактивный пространственный дизайн и визуализация

• Позволяет показать данные о местоположении в реальном времени на картах по мере обработки событий

• Позволяет отслеживать отдельные объекты и выделять их в зависимости от различных условий. Например, красный за нарушения

Богатый набор геопространственных паттернов

• Позволяет соотносить несколько объектов через их пространственное взаимодействие

• Позволяет определить скорость и близость

• Получать адрес и информацию о городе из местоположения и наоборот через геокодирование

Масштабируемое определение площадей и геозон• Позволяет определить полигоны с помощью рисования границ

на карте

• Позволяет управлять большим количеством фигур с помощью пространственных типов в базе данных Oracle.

Page 28: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Предиктивная аналитика и машинное обучение

28

Скоринг в реальном времени и принятие решений

• Позволяет используйте модели машинного обучения для принятия бизнес-решений в режиме реального времени

• Позволяет предсказать будущие результаты, такие как сбои оборудования, поведение клиентов, мошенничество и нарушения безопасности

• Позвоялет повторно импортировать уточненные модели для улучшения прогнозов

Перенос Data Science в Production

• Позовляет импортировать модели, созданные специалистами по данным и инженерами в их собственной среде.

• Импорт моделей PMML для различных алгоритмов, таких как векторные машины, правила ассоциации, наивный байесовский классификатор, модели кластеризации, текстовые модели, деревья решений и различные модели регрессии.

• Позволяет скрыть сложность модели для использования аналитиками данных

Oracle R Enterprise

Notebooks(Jupyter,

Zeppelin, etc)

Page 29: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Интеграция с Oracle GoldenGate

29

Обработка и анализ живых данных

• Представляет возможность получить представление о бизнесе, анализируя реальные транзакции

• Преобразование и агрегирование событий для хранения в озере данных в режиме реального времени с использованием фильтров, объединений, правил, агрегаций, разбиений, объединений и других распространенных операций.

Мониторинг транзакций из Базы Данных

• Позволяет анализировать статистику текущей активности базы данных

• Позволяет выявлять «горячие» записи со многими изменениями, отслеживать конфиденциальные таблицы или записи на предмет активности и превышения пороговых значений.

• Позволяет выявить необычные или мошеннические действия, такие как записи, созданные и вскоре после удаления

Big Data Lakes

Business Process

Operational Dashboards

OLTP Database

GoldenGate Kafka - Oracle Enterprise Hub

Oracle Stream Analytics

OLTP Database

GoldenGate

Kafka - Oracle Enterprise Hub

Oracle Stream Analytics

Target Database

Streaming Analytics and ETL from DB Sources

Analyze and Monitor Replication

How does my data do right now?

Alert and Act on critical issues

Real-time BI

Page 30: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Надежность, Cкорость и Масштабируемость

30

Горизонтальная масштабируемость через кластеры Spark

• Высокая пропускная способность благодаря высокопараллельной обработке в памяти Spark

• Эффективная корреляция событий с использованием движка Oracle CQL

• Позволяет динамически масштабировать кластер, добавляя больше узлов

• Позволяет распределить несколько узлов веб-сервера с помощью балансировки нагрузки

Высокая доступность благодаря избыточности кластера

• Exactly once семантика запроса

• Восстановление сбойных рабочих узлов в кластере Spark без потери данных

Continuous Query Engine

Page 31: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

Druid Superset

31

• Позволяет отправлять обработанные данные в Druid

• Исследовать Druid based cube

• Более 30 визуализаций

– Sunburst

– Word Cloud

– Pie Chart

– Time Series (Line, Bar,Percent Change, Stacked)

– Bubble chart

– Streaming chart etc

Page 32: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

19.1 NEW FEATURES

32

• Improve Productivity

– Changing Stream

– Advanced Pipelines

• Разбиение pipeline на несколько веток

• Выходные данные могут потребляться источником для другого этапа конвейера

– Metadata Export/Import

• Export/Import of Slices, cubes and dashboards

• Export/Import of ML Models

• Export/Import of Custom Objects

• Export/Import of full catalog

– Простое & Автоматическое обновление репозитория с 18.1.0.1.1

Page 33: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

19.1 NEW FEATURES

33

• Новые компоненты

– Specified Window types

– IN function

– Table Chart

– Geofence Tile

– Coherence Reference with support to read POJO

• Готовность к развертыванию на Production уровне

– Security Enhancement: LDAP Support for Jetty

– High Availability: Web tier HA

• Улучшение доступности

• Поддержка новых версий - Oracle 19.1, MySQL 5.7, Spark 2.4, Hadoop 2.7, 2.8, Apache Kafka 2.x.

Page 34: Потоковая Аналитика данных с помощью Oracle Stream ... · Event by Event процессинг ... –Advanced Pipelines •Разбиение pipeline

•Thank you

34Confidential – © 2019 Oracle Internal/Restricted/Highly Restricted