Потоковая Аналитика данных с помощью oracle stream ... · event by...
TRANSCRIPT
Event info description goes here
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | Confidential – Oracle Internal/Restricted/Highly Restricted
Потоковая Аналитика данных с помощью Oracle Stream Analytics 19
Моисеев АлександрВедущий консультантOracle
Modern Cloud Day 2019
Safe harbor statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions.
The development, release, timing, and pricing of any features or functionality described for Oracle’s products may change and remains at the sole discretion of Oracle Corporation.
2Confidential – © 2019 Oracle Internal/Restricted/Highly Restricted
Зачем нужна аналитика в режиме реального времени?
3
Подача заявления на кредит
Кредитныйспециалист
Рискменеджер
МенеджерСлужбы
безопастности
Кредитныйменеджер
~ 3-5 дней
Зачем нужна аналитика в режиме реального времени?
4
Кредитныйспециалист
Рискменеджер
МенеджерСлужбы
безопастности
Кредитныйменеджер
Кредитныйспециалист
Рискменеджер
МенеджерСлужбы
безопастности
Кредитныйменеджер
Кредитныйспециалист
Рискменеджер
МенеджерСлужбы
безопастности
Кредитныйменеджер
Зачем нужна аналитика в режиме реального времени?
5
= 3 дня
= 5 дней
= 1 день
Зачем нужна аналитика в режиме реального времени?
6
= 3 дня
= 5 дней
= 1 день
Зачем нужна аналитика в режиме реального времени?
7
= 1 день
Области применения
8
Транспортно-Логистический
Отслеживание грузов Управление автотранспортом Оповещение пассажиров
Финансовый сектор
Обнаружение мошенничества
Риск Менеджмент Анализ валютных
обменов Анализ цен на
сырьевые товары
Телекоммуникационный
Загрузка сети Видео аналитика Управление сетью
Производство
Умная инвентаризация Контроль качества Управление
производством/складом/зданием
Интеллектуальная разведка Управление персоналом Анализ бурения
Нефтегазовая отрасль
Городская инфраструктура Мониторинг Медицинских
устройств Безопасность
Медицина/Публичный сектор
Markdown optimization Динамическое ценообразование Персональные предложения Прогнозирование тенденций Нарушение корзины покупок Улучшение управления
магазинами
Ритейл
Пакетная обработка данных
9
Источники данных
Базы данных
Хранилище
ОтчетностьПакетный ETL
Заполнение хранилища
Традиционная аналитика
Decision Maker
РешениеЗаполнение БД
Действие
Потоковая обработка данных
10
Источники данных
ДействиеПотоковая Аналитика
Поток данных
Автоматическое принятие решения
1111
Референсная архитектура Oracle для построения Озера
StagingSqoop
HDFS
Hive
Flume
Transformation
Discovery Sandbox/s
HBase
R
Streaming Analytics
ODI
OGG
OGG4BD
OGG4BD
OBDS
OBDS
ODS
Потоковая обработка данных
Пакетная обработка данныхOGG4BD
12
Oracle GoldenGate for Big Data
ParameterFile
Adapter Properties JAR
Oracle GoldenGate for Big Data
Kafka
Hive
HDFS
HBASE
Flume
Capture Trail Files Network
Firewall
Cloud
Trail Files Native
Java
Replicat
JMS
13
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
Store DatabaseЛоги
приложенийМетрики
Пользовательская активность
Бизнес приложения
14
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
StoreDatabase
Логи приложений
Метрики Пользовательская активность
Бизнес приложения
Apache Kafka
15
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
StoreDatabase
Логи приложений
Метрики Пользовательская активность
Бизнес приложения
Apache Kafka
16
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
StoreDatabase
Логи приложений
Метрики Пользовательская активность
Бизнес приложения
Apache Kafka
17
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
StoreDatabase
Логи приложений
Метрики Пользовательская активность
Бизнес приложения
Apache Kafka
18
Hadoop Хранилище Мониторинг Сервисы БезопастностьПоиск
DatabaseKey/Value
StoreDatabase
Логи приложений
Метрики Пользовательская активность
Бизнес приложения
Apache Kafka
Oracle Stream Analytics (Spark Streaming)
Oracle Stream Analytics
19
Технология позволяющая пользователям
обрабатывать и анализировать
события в режиме реального времени,
используя сложные модели корреляции,
обогащения и машинного обучения.
20
Oracle Stream Analytics: Use Cases
Корреляция событий
Event by Event процессинг, Сортировка, Фильтрация &
Агрегирование
Поиск Аномалий
Pattern Matching и Outlier Detection
Бизнес Правила
Automation of Business Decisions
Пространственная обработка
Аналитика по географическим границам
Forecasting, Event Scoring & Predictive Analytics
Машинное обучение
Скользящие окнаВременные окна
Визуализация потока иПостроение Операционных
Дашбордов
Информационные панели
Real-timeComplex Event
Processing
Stream Analytics
ML Models
21
Golden Gate CDC или Txn Logs
Данные сенсоров
Social Media
Click Stream
Geo Location
Фильтрация
Агрегация
Трансформация
Корреляция/обогащение
Geo-fence
Запросы
Временные окна
Паттерны данных
Пространственныйанализ
Аномалии
Классификация
Кластеризация
Статистика
Регрессионая модель
Бизнес-правила
Политики
Условная логика
Нотификация/публикация
Вызов
Визуализация
Сохранение
Захват данных Предобработка Аналитика ипрогнозирование
Решение Действия
Впрыск Трансформация и корелляция Действия и уведомления
Real-time Data Pipeline
22
OLTP Data Producers
Data ConsumersMulti-Structured Data Producers
SaaS & Apps Data ProducersOracle ADW
DataVisualization
Applications
Kafka or JMS
Contextual Data
ML Models
Oracle Stream Analytics (Spark Streaming)
GeoSpatialData
Time Series
Stream Patterns
Принцип работы OSA
Oracle Stream Analytics Архитектура
23
OSA Required Components
OSA Web Application(Embedded Jetty App Server)
ReferenceInput
Oracle DB
Coherence
Oracle DB or MySQL(Used for Metadata Store)
Apache Hadoop / Spark
Apache Kafka
Kafka
JMS
GoldenGate
File
StreamingInput
Kafka
JMS
Rest
StreamingOutput
AnalyticsOutput
Druid
File
Преимущества Oracle Stream Analytics
24
24
CQL
Интерактивный пользовательский
интерфейс
Набор встроенных шаблонов для
потоковой обработки
Предиктивная аналитика и Машинное обучение
Пространственный анализ
Интеграция с Oracle GoldenGate
Надежность, Cкорость и Масштабируемость
Интерактивный Пользовательский Интерфейс
25
Доступность для нетехнических пользователей
• Расширение возможностей аналитиков данных для улучшения данных без навыков кодирования
• Интуитивно понятное представление данных всегда показывает результаты преобразований в том виде, в котором они определены
• Фильтрация и корреляция потоков, применение правил, агрегирование, вычисление полей.
Расширяемость функций через Java
• Позволяет инженерам данных предоставлять пользовательские функции, которые будут использоваться всеми членами команды
Интегрированные визуализации
• Позволяет исследовать бизнес-данные в режиме реального времени с помощью различных таблиц, диаграмм и геопространственных карт
Богатый набор встроенных шаблонов для потоковой обработки
26
Упрощает доступ к сложным алгоритмам
• Простые в использовании модули с помощью конструктора
• Визуализации для обеспечения немедленной обратной связи
• Доступно для аналитиков данных
Обширная библиотека шаблонов
• Охватывает различные области, такие как обнаружение аномалий, корреляция потока, анализ тенденций, пространственные функции
• Обнаружение дубликатов, неупорядоченных и отсутствующих событий
• Функции для финансовых, статистических и журнальных аналитических операций
Пространственный анализ
27
Интерактивный пространственный дизайн и визуализация
• Позволяет показать данные о местоположении в реальном времени на картах по мере обработки событий
• Позволяет отслеживать отдельные объекты и выделять их в зависимости от различных условий. Например, красный за нарушения
Богатый набор геопространственных паттернов
• Позволяет соотносить несколько объектов через их пространственное взаимодействие
• Позволяет определить скорость и близость
• Получать адрес и информацию о городе из местоположения и наоборот через геокодирование
Масштабируемое определение площадей и геозон• Позволяет определить полигоны с помощью рисования границ
на карте
• Позволяет управлять большим количеством фигур с помощью пространственных типов в базе данных Oracle.
Предиктивная аналитика и машинное обучение
28
Скоринг в реальном времени и принятие решений
• Позволяет используйте модели машинного обучения для принятия бизнес-решений в режиме реального времени
• Позволяет предсказать будущие результаты, такие как сбои оборудования, поведение клиентов, мошенничество и нарушения безопасности
• Позвоялет повторно импортировать уточненные модели для улучшения прогнозов
Перенос Data Science в Production
• Позовляет импортировать модели, созданные специалистами по данным и инженерами в их собственной среде.
• Импорт моделей PMML для различных алгоритмов, таких как векторные машины, правила ассоциации, наивный байесовский классификатор, модели кластеризации, текстовые модели, деревья решений и различные модели регрессии.
• Позволяет скрыть сложность модели для использования аналитиками данных
Oracle R Enterprise
Notebooks(Jupyter,
Zeppelin, etc)
Интеграция с Oracle GoldenGate
29
Обработка и анализ живых данных
• Представляет возможность получить представление о бизнесе, анализируя реальные транзакции
• Преобразование и агрегирование событий для хранения в озере данных в режиме реального времени с использованием фильтров, объединений, правил, агрегаций, разбиений, объединений и других распространенных операций.
Мониторинг транзакций из Базы Данных
• Позволяет анализировать статистику текущей активности базы данных
• Позволяет выявлять «горячие» записи со многими изменениями, отслеживать конфиденциальные таблицы или записи на предмет активности и превышения пороговых значений.
• Позволяет выявить необычные или мошеннические действия, такие как записи, созданные и вскоре после удаления
Big Data Lakes
Business Process
Operational Dashboards
OLTP Database
GoldenGate Kafka - Oracle Enterprise Hub
Oracle Stream Analytics
OLTP Database
GoldenGate
Kafka - Oracle Enterprise Hub
Oracle Stream Analytics
Target Database
Streaming Analytics and ETL from DB Sources
Analyze and Monitor Replication
How does my data do right now?
Alert and Act on critical issues
Real-time BI
Надежность, Cкорость и Масштабируемость
30
Горизонтальная масштабируемость через кластеры Spark
• Высокая пропускная способность благодаря высокопараллельной обработке в памяти Spark
• Эффективная корреляция событий с использованием движка Oracle CQL
• Позволяет динамически масштабировать кластер, добавляя больше узлов
• Позволяет распределить несколько узлов веб-сервера с помощью балансировки нагрузки
Высокая доступность благодаря избыточности кластера
• Exactly once семантика запроса
• Восстановление сбойных рабочих узлов в кластере Spark без потери данных
Continuous Query Engine
Druid Superset
31
• Позволяет отправлять обработанные данные в Druid
• Исследовать Druid based cube
• Более 30 визуализаций
– Sunburst
– Word Cloud
– Pie Chart
– Time Series (Line, Bar,Percent Change, Stacked)
– Bubble chart
– Streaming chart etc
19.1 NEW FEATURES
32
• Improve Productivity
– Changing Stream
– Advanced Pipelines
• Разбиение pipeline на несколько веток
• Выходные данные могут потребляться источником для другого этапа конвейера
– Metadata Export/Import
• Export/Import of Slices, cubes and dashboards
• Export/Import of ML Models
• Export/Import of Custom Objects
• Export/Import of full catalog
– Простое & Автоматическое обновление репозитория с 18.1.0.1.1
19.1 NEW FEATURES
33
• Новые компоненты
– Specified Window types
– IN function
– Table Chart
– Geofence Tile
– Coherence Reference with support to read POJO
• Готовность к развертыванию на Production уровне
– Security Enhancement: LDAP Support for Jetty
– High Availability: Web tier HA
• Улучшение доступности
• Поддержка новых версий - Oracle 19.1, MySQL 5.7, Spark 2.4, Hadoop 2.7, 2.8, Apache Kafka 2.x.
•Thank you
34Confidential – © 2019 Oracle Internal/Restricted/Highly Restricted