Решения oracle для big data

60
Технологии Big Data от Oracle Oracle CIS

Upload: andrey-akulov

Post on 16-Apr-2017

663 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Решения Oracle для Big Data

Технологии Big Data от Oracle Oracle CIS

Page 2: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Safe Harbor Statement

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.

#StrataHadoop - Oracle Big Data Architecture

Page 3: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture

Oracle Data Architecture для Big Data

Warehouse Data Factory Reservoir

Data Streaming

Data Platform

Discovery Lab

Analytics

APIs

Enterprise Data

Other Data Sources

Data Streams

Business Data

Social/Log Data

Model First Analytics

• Отчеты и аналитика • Аналитика на всех

данных • Классический анализ

данных

Отчеты & Дашборды

Data First Analytics

• Визуальное

исследование данных

• Скрытые закономерности

Исследования

• Телеметрия • Индустриальные

сервисы • Internet of Things

Data Services

Execution

Innovation

Page 4: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Execution

Innovation

#StrataHadoop - Oracle Big Data Architecture

Продуктовая линейка Oracle для Big Data

Warehouse Factory Reservoir

Data Streaming

Data Platform

Discovery Lab

Analytics

APIs

Enterprise Data

Other Data Sources

Data Streams

Business Data

Social/Log Data

Model First Analytics

• Reporting-oriented • Often enterprise wide

in scope, cross LoB • “you know the

questions to ask”

Reports & Dashboards

Data First Analytics

• Data Exploration • Highly visual and/or

interactive • “you don’t know the

questions to ask”

Discovery

• Telematics • Industry Services • Internet of Things • Sentiment

Data Services

Real Time Decisions

Oracle Data Integration & Governance

Oracle Database & Big Data SQL

Oracle R

Oracle Big Data

Discovery

Oracle Business

Intelligence

Oracle Big Data

Discovery

Apache

Model First Analytics

• Отчеты и аналитика • Аналитика на всех

данных • Классический анализ

данных

Отчеты & Дашборды

Data First Analytics

• Визуальное

исследование данных

• Скрытые закономерности

Исследования

• Телеметрия • Индустриальные

сервисы • Internet of Things

Data Services

5536536

Oracle Event

processing

Oracle NoSQL

Apache

Page 5: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture

Интегрированные программно-аппаратные комлексы Oracle для Big Data

Data Streaming

Data Platform

Discovery Lab

Analytics

APIs

Enterprise Data

Other Data Sources

Data Streams

Business Data

Social/Log Data

Model First Analytics

• Reporting-oriented • Often enterprise wide

in scope, cross LoB • “you know the

questions to ask”

Reports & Dashboards

Data First Analytics

• Data Exploration • Highly visual and/or

interactive • “you don’t know the

questions to ask”

Discovery

• Telematics • Industry Services • Internet of Things • Sentiment

Data Services

APIs

Analytics Model First

Analytics

• Reporting-oriented • Often enterprise wide

in scope, cross LoB • “you know the

questions to ask”

Reports & Dashboards

Data First Analytics

• Data Exploration • Highly visual and/or

interactive • “you don’t know the

questions to ask”

Discovery

• Telematics • Industry Services • Internet of Things • Sentiment

Data Services

Model First Analytics

• Отчеты и аналитика • Аналитика на всех

данных • Классический анализ

данных

Отчеты & Дашборды

Data First Analytics

• Визуальное

исследование данных

• Скрытые закономерности

Исследования

• Телеметрия • Индустриальные

сервисы • Internet of Things

Data Services

Execution

Innovation

Page 6: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

BIG DATA APPLIANCE

#StrataHadoop - Oracle Big Data Architecture

Page 7: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

• Кластер из 18 узлов

– до 768GB на узел (по умолчанию 128GB) = 13824 GB RAM

– 36 ядер Intel на узле = 684ядер

– 12*8 = 96 TB дисков на узел = 1728 TB

• 40 Gb p/sec InfiniBand

• 10 Gb p/sec Ethernet

• Произвольная конфигурация от 1/3 до полной стойки

с шагом в 1 ноду

Oracle Big Data Appliance Машина для Hadoop и NoSQL DB

Page 8: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

• Oracle Linux

• Java Hotspot VM

• Cloudera Hadoop Distribution

Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools

• R Distribution

• Oracle NoSQL Database

• Oracle Big Data Connectors:

– Oracle R Connector for Hadoop

– Oracle SQL to HDFS Connector

– Oracle Loader for Hadoop

– Oracle XQuery for Hadoop

– Oracle Data Integrator Application Adapter for Hadoop

• Oracle Big Data SQL

Oracle Big Data Appliance Software

Page 9: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Что вам НЕ придется делать с Big Data Appliance (1/2)

• Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п.

• Заключать отдельный договор о поддержке с Cloudera

• Собирать кластер

• Настраивать сетевые коммутаторы

• Инсталлировать операционную систему на каждом узле и

• Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента

• Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!)

• Настраивать Java

Page 10: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Что вам НЕ придется делать с Big Data Appliance (2/2)

• Инсталлировать дополнительное ПО от Cloudera

• Тестировать работоспособность и производительность каждого узла кластера

• Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п.

• И просто следить за тем, что нужно что-то проапгрейдить

• Изучать как это все сделать без остановки и прерывания работы пользователей

• Заниматься дизайном перебалансировки кластера при его расширении

• И т.д. и т.п.

Page 11: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

ORACLE NOSQL DATABASE

#StrataHadoop - Oracle Big Data Architecture

Page 12: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Для каких задач может использоваться Oracle NoSQL Database? • Построение быстрых многопетабайтных распределенных

масштабируемых файловых хранилищ

– С возможностью обработки данных в кластере

• Построение систем, которые очень быстро накапливают огромное количество данных из многих источников

– Десятки миллионов записей в секунду

– Датчики, результаты испытаний, эксперименты

• Интеграция с системами обработки событий

– Накопление и обработка информации о событиях

• Интернет-проекты с многими тысячами пользователей

– Для обеспечения мгновенного доступа к профилям пользователя, продукта, информации о рекламной компании и т.д.

Storage Nodes Data Center A

Storage Nodes Data Center B

NoSQLDB Driver

Application

NoSQLDB Driver

Application

Page 13: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle NoSQL Database Распределенная, масштабируемая key-value база данных

• Простая модель данных

• Пара Key-value с подходом major+sub-key

• Операции read/insert/update/delete

• Поддержка ACID и BASE транзакций

• Масштабируемость

• Динамическое партиционирование и перераспределение

• Оптимизированный доступ к данным

• Высокая доступность

• Одна или более реплик

• Катастрофоустойчивость засчет разнесения реплик

• Устойчивость к отказу мастера

• Нет одной точки отказа

• Прозрачная балансировка нагрузки

• Чтение с мастера или реплики

• Драйвер знает о сетевой топологии и временах задержки

Storage Nodes Data Center A

Storage Nodes Data Center B

NoSQLDB Driver

Application

NoSQLDB Driver

Application

Page 14: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

ORACLE BIG DATA CONNECTORS

#StrataHadoop - Oracle Big Data Architecture

Page 15: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data Connectors

Data Load Oracle Loader for Hadoop

Data Access Oracle SQL Connector for HDFS

R Analytics Oracle R Advanced Analytics

on Hadoop

Data Integration Oracle Data Integrator

Application Adapters for Hadoop

XML/XQuery Oracle XQuery on Hadoop

XQuery R Client

Оптимизированы для использования с Hadoop: максимальный параллелизм и производительность Интеграция данных из hadoop и реляционной базы Анализ данных из Hadoop, используя привычные инструменты

Page 16: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Certified Hadoop and Database Versions

Database versions (on any operating system*)

10.2.0.5 and greater

11.2.0.3 and greater

12c

Hadoop versions Certified by

Apache Hadoop 2.x Oracle

CDH 4.x (Cloudera) Oracle

CDH 5.x (Cloudera) Oracle

HDP 1.3 (Hortonworks) Hortonworks

HDP 2.1 (Hortonworks) Hortonworks *Oracle SQL Connector for HDFS требуют

Hadoop клиента на стороне операционной системы DB

Page 17: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle SQL Connector для HDFS

OSCH

Hive Text

OSCH

OSCH

OSCH

External

Table

create table customer_address

( ca_customer_id number(10,0)

, ca_street_number char(10)

, ca_state char(2)

, ca_zip char(10))

organization external (

TYPE ORACLE_LOADER

DEFAULT DIRECTORY DEFAULT_DIR

ACCESS PARAMETERS

(…)

PREPROCESSOR “HDFS_BIN_PATH:hdfs_stream”)

LOCATION (‘addr1’, ‘addr2’, ‘addr3’))

• Используется механизм внешних таблиц Oracle

• Preprocessor директива используется для чтения данных из hdfs

• Параллельное чтение данных из hdfs

• Совместный доступ к данным из DB и hdfs

• Используются все возможности базы данных: сложные запросы, безопасность, аналитическая обработка и т.д.

Compressed

files

Page 18: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle SQL Connector для HDFS

• Специальная утилита генерирует определение для внешних таблиц Oracle

• Возможность работы с текстовыми файлами в hdfs, внешними и внутренними Hive таблицами над текстовыми файлами, данными в формате Data pump

• Использование партиций в Hive таблицах

• Возможность маппирования типов данных в случае использования Hive таблиц

• Производительность

– 15 TB/ч на Oracle Big Data Appliance и Oracle Exadata

– 5x – 20x быстрее в сравнении с конкурентными решениями

Oracle Confidential – Internal/Restricted/Highly Restricted

Page 19: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Загрузка из различных источников данных

Oracle Data Warehouse

SHUFFLE /SORT

SHUFFLE /SORT

REDUCE

REDUCE

REDUCE

MAP

MAP

MAP

MAP

MAP

MAP

REDUCE

REDUCE

ORACLE LOADER FOR HADOOP

Веблоги, парсинг с помощью регулярных выражений

Hive таблицы

Oracle NoSQL Database

JSON SerDe

Hive external tables

Hive external tables

HBase Storage Handler

• Препроцессниг данных в Hadoop

• Разнообразные форматы данных на входе

• Автоматическая балансировка нагрузки на нодах

• Загрузка данных в базу или генерация Data pump файлов

Page 20: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Weblog Data

Обработка с помощью регулярных выражений

Сырые логи

Отфильтрованные, структурированные данные

SHUFFLE /SORT

SHUFFLE

/SORT

REDUCE

REDUCE

REDUCE

MAP

MAP

MAP

MAP

MAP

MAP

REDUCE

REDUCE

Логи трансформируются на стороне Hadoop

Page 21: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle Loader for Hadoop

Высокая производительность загрузки данных в Oracle • Примеры производительности (на Oracle

Engineered Systems)

– 4.4 TB/hour end-to-end (load + Hadoop process)

– 12+ TB/hour load time

• Оптимально для использования на инженерных системах Oracle Big Data Appliance и Oracle Exadata: InfiniBand Connectivity

Page 22: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle Loader for Hadoop

Oracle Loader for Hadoop External table load

Page 23: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

ORACLE LOADER FOR HADOOP ORACLE DIRECT CONNECTOR FOR HDFS Oracle Loader for Hadoop Oracle SQL Connector for HDFS

Функциональ-нось

Загрузка Загрузка и запросы к данным в hadoop

Входные форматы данных

Различные типы входных данных: HBase, JSON files, Weblogs, файлы, произвольные форматы

Текстовые файлы (HDFS файлы, Hive таблицы)

Data Pump файлы:

Сгенерированные Oracle Loader for Hadoop из HBase, JSON , Weblogs, файлов и т.д.

Производитель-ность

Требуется время на препроцессинг в Hadoop. Быстрая загрузка, требует больше ресурсов со стороны базы данных

Роли Hadoop разработчики Разработчики Oracle

Page 24: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

ORACLE BIG DATA SQL

#StrataHadoop - Oracle Big Data Architecture

Page 25: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Данные живут в разных местах

SQL

Задачи: 1. Унификация метаданных, языка запросов и безопасности доступа 2. Оптимизация производительности доступа к данным

Page 26: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Hive Metastore

Oracle Confidential – Internal/Restricted/Highly Restricted 30

Hive Metastore

Hive Impala Spark Oracle Big Data SQL …

Table Definitions: movieapp_log_json movielog movieapp_log_avro

Page 27: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Унификация метаданных: публикация метаданных Hive в Oracle

31

CREATE TABLE movieapp_log_json

(click VARCHAR2(4000))

ORGANIZATION EXTERNAL

(TYPE ORACLE_HIVE

DEFAULT DIRECTORY DEFAULT_DIR

)

REJECT LIMIT UNLIMITED;

Big Data Appliance +

Hadoop/NoSQL

Exadata +

Oracle Database

Oracle Catalog

External Table

Hive metadata

External Table

Hive Metastore

Page 28: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

select last_name, state, movie, genre from movielog m, customer c where genre=‘comedy’ and c.custid = m.custid

1

На этапе парсинга определяется: • Где хранятся данные • Структура данных • Возможная степень параллелизма

1

2

Параллельное чтение с Big Data SQL Server: • Parallel unit: PQ Slaves & InputSplits • Фильтрация строк, отсечение ненужных столбцов

2

Hive Metastore

HDFS NameNode

3

Отфильтрованный результата • Только необходимые данные возвращаются в базу данных • Объединение с другими таблицами, постобработка • Применение правил безопасности

3

HDFS Data Node BDS Server

HDFS Data Node BDS Server

Исполнение запроса на Hadoop

Page 29: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data SQL

Copy to BDA

Big Data Appliance +

Cloudera Hadoop

HDFS Data Node

Exadata +

Oracle Database

External Table HDFS Data Node External Table

Hive access to Oracle Data Pump files

External Table

Big Data SQL

Copy .dmp files to BDA

create table customer_address

( ca_customer_id number(10,0)

, ca_street_number char(10)

, ca_state char(2)

, ca_zip char(10))

organization external (

TYPE ORACLE_DATAPUMP

DEFAULT DIRECTORY DEFAULT_DIR

LOCATION (‘customer_address.dmp')

) AS

SELECT <…> FROM <……> (can be any Oracle SQL

query)

Page 30: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

BIG DATA INTEGRATION

#StrataHadoop - Oracle Big Data Architecture

Page 31: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Staging

#StrataHadoop - Oracle Big Data Architecture

Lambda Architecture c Oracle Big Data Integration

Sqoop

HDFS

Hive

Flume

Cap

ture

Trai

l

Ro

ute

De

live

r

Pu

mp

Transformation

Data Streaming Kafka (MPP Pub/Sub)

Storm and Trident

Spark Streaming

HBase

Discovery Sandbox/s

R Oracle GoldenGate

Oracle Data Integrator

Oracle Data Governance

Oracle Data Enrichment

Model First Analytics

• Reporting-oriented • Often enterprise wide

in scope, cross LoB • “you know the

questions to ask”

Data First Analytics

• Data Exploration • Highly visual and/or

interactive • “you don’t know the

questions to ask”

• Telematics • Industry Services • Internet of Things • Sentiment

Reports & Dashboards

Discovery

Data Services

Page 32: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Transforms

MapReduce(Hive)

Loads Oracle

Loader for

Hadoop

Oracle Data

Integrator

Oracle Database

- использование HСatalog и Hive для процессинга данных; - генерация Pig процессов и обработки данных на Spark; - Возможность использования Oozie планировщиков; - операции с файлами в HDFS; - интеграция с реляционными базами через Big Data Connectors или Sqoop

Oracle Data Integrator для Big Data Интеграционные модули для работы в\с Hadoop

Page 33: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

ODI = Единый логический дизайн– много сценариев

37

• Используем нативные технологии для любых источников данных

– Локализация данных

– Оптимальная производительность, сокращаем сететвой трафик

• Отсутствие промежуточных узлов

– Сокращение инфраструктурных затрат и затрат на поддержку

• Декларативный дизайн

– Упрощенное внедрение

– Переиспользование разработких на различных технологиях

HCat

Agent

Transformation Engines

Runtime Environments

Future Tools

Future Runtime Engines

Logical Design

Oozie

Big

Data

SQL

Sqoop

OLH

OSCH

Hive

Spark

Pig

Data Access

Kafka

Storm

Future Languages

Any

SQL

Page 34: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Processing platform for in-memory execution

Library for executing in Python, Java, Scala, or other Languages

MOVV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/m.csv")

MOV_AP = MOVV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "moviename": p[1], "directorname": p[2]})

RATV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/r.csv")

RAT_AP = RATV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "movierating": int(p[1]), "reviewdate": p[2]})

FILTER = RAT_AP.filter(lambda data: data["movierating"] > 3)

MOV_APX = MOV_AP.keyBy(lambda data: data["movieid"])

RAT_APX = FILTER.keyBy(lambda data: data["movieid"])

JOIN = MOV_APX.join(RAT_APX)

(JOIN.map(lambda (m,(j1,j2)):(','.join(map(str, j1))) + ',' + (','.join(map(str, j2))) )).saveAsTextFile("hdfs://127.0.0.1/user/oracle/moviedata/output/goods.csv")

Generate

Python/Spark code

Spark

Page 35: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Procedural Programming Environment and Language

for Hadoop

Originally executing on Map-Reduce, but is

ported to Tez and Spark

daily = load 'NYSE_daily' as (exchange, symbol, date, open, close);

divs = load 'NYSE_dividends' as (exchange, symbol, date, dividends);

joined = join daily by symbol, divs by symbol;

filtered = filter joined by symbol matches 'CM.*';

store filtered into 'filtered' using HBaseStorage();

Pig

Page 36: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oozie

• Hadoop Workflow engine

– Used by 90% of enterprise Hadoop use cases

• Alternative to ODI Agent in Big Data environments

– Use Hadoop-native technology

– Deploy to Hadoop environments with no ODI footprint, no install necessary

– Use native Hadoop tools to manage processes and view logs

40

Page 37: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Business Value ODI: Высокая эффективность разработки при небольших затратах

Oracle Confidential, under Non-Disclosure 41

No ETL engine is required

Separation of Logical and

Physical design

Physical exec on SQL, Hive, Pig, or

Spark

Runtime exec in Oozie or via ODI

Java Agent

Rich set of pre-built operators

User defined functions

Page 38: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Load to Oracle

OLH/OSCH

#StrataHadoop - Oracle Big Data Architecture

Oracle Data Integration на Инженерных системах

Transform

ODI

Hive/HDFS

Federate Hive/HDFS to Oracle

Big Data SQL

Oracle DB OLTP

Load from Oracle

CopyToBDA

Hive/HDFS

OGG OGG

Hive/HDFS

SQOOP

Flume Kafka

Page 39: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Cap

ture

Trai

l

Ro

ute

Del

iver

Pu

mp

#StrataHadoop - Oracle Big Data Architecture

Oracle GoldenGate для Big Data

New DB/ HW/OS/APP

Zero Downtime Upgrades & Data Migration

Fully Active Distributed DB

High Availability & Disaster Recovery

Application Offloading

Query & Report Offloading

Big Data, DW & Marts

Real-time BI, Hadoop Data Staging, Data Ingestion

Event Driven Architecture, SOA/JMS, Coherence

Message Bus & Data Grid

Data Synchronization Across the Enterprise

Global Data Centers

Real-time Analytics & Massive Parallelization

Data Streaming

GoldenGate

Real-time Data Delivery

Page 40: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

HDFS Support • What is HDFS?

– HDFS is Hadoop’s distributed file system that can store data files of different structures

• OGG HDFS Functionality

– Writes to HDFS delimited file

– Different source tables write to same file

– Can include Timestamp and Operation Type: Insert/Update/Deletes

– Can roll files based on size

– Column names can be optionally included in data

Schema Table OpType Timestamp C1 Name

C1Data C2 Name

C2Data C3 Name

C3Data

Field Delimiter

… Sales, Customer, I, 2015-03-11_13-33-01.000, ID, 1234, FIRST, John, LAST, Doe

File: /ogg/gg_2015-03-11_13-33-01.000.txt

Line Delimiter

Path Prefix Suffix Timestamp

Page 41: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Hive Support • What is Hive?

– Hive is Hadoop’s SQL interface for querying data in HDFS.

• OGG Hive Functionality

– Writes to HDFS delimited file

– Different source table changes write to separate folders

– Can include Timestamp and Operation Type: Insert/Update/Deletes

– Can be used for non-Hive use cases

– Can roll files based on size

I, 1234, John, Doe, 2015-03-11_13-33-01.000

OpType Timestamp C1Data

C2Data C3Data

HDFS File: /ogg/sales/customer/customer_2015-03-11_13-33-01.000

Path Schema Timestamp Table

Field Delimiter Line Delimiter

Hive Table: customer

OP ID FIRST LAST TS

I 1234 John Doe 2015-03…

Page 42: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Flume Support • What is Flume?

– Flume is a streaming platform in Hadoop to ingest external sources, such as log files, apps, etc.

• OGG Flume Functionality

– Writes Flume event with delimited format body to Avro RPC Source

– Source Table and Schema name are passed in flume header

– Can use various flume channels and sinks, for example HDFSSink

I, 1234, John, Doe, 2015-03-11_13-33-01.000

OpType Timestamp C1Data

C2Data C3Data

Header:

Field Delimiter Line Delimiter

%{SCHEMA_NAME}: sales %{TABLE_NAME}: customer Body: Source

(Avro RPC) Channel

(Memory) Sink

(HDFS)

Flume

HDFS Table

Page 43: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

HBase Support • What is HBase?

– HBase is Hadoop’s Key-Value store

• OGG Hbase Functionality

– Writes to HBase tables

– Supports Insert, Update, Delete natively

– Column Family name can be configured

C1Data C2Data C3Data

Table Namespace: Sales Table: Customer

rowkey cf:ID cf:FIRST cf:LAST

1234 1234 John Doe

C1Name C2Name C3Name Column Family

Concatenated PKs

Page 44: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Example

ID Balance Level

Credit (RDBMS Table)

Hive Adapter

Pump Trail File

Capture

ID Bal Level Timestamp Op

ID Balance Level

Credit (Hive Table)

Credit_latest (Hive View)

• Table is replicated from Source DB to Hive

• Any source operations (Insert, Update, Delete) create a new row in Hive

• Hive View consolidates operations to have same data as source

• Oracle Data Integrator can also be used to periodically consolidate data in materialized table

ID Balance Level

Credit_merged(Hive Table)

ODI data movement

Hive View

Page 45: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Incremental Load with GoldenGate for Big Data

49

ID Balance Level

123 400 GOLD

345 50 SILVER

678 210 GOLD

ID Bal Level Timestamp Op

123 400 GOLD 2014-10-07 19:17:32 I

345 50 SILVER 2014-10-07 19:21:00 I

678 210 GOLD 2014-06-08 19:17:32 I

Credit (RDBMS Table) Credit (Hive Table)

Credit_Latest (Hive View)

GoldenGate

Advantages GoldenGate:

- Continuous replication in real-time - Less invasive to source DB - Does not need Timestamp - Supports deletes

981

0

BLACK

123 2014-10-08 1:36:57

D

U

2014-10-08 1:33:05

SILVER

450

345

981

0

BLACK

2014-10-08 1:30:19 I

450

123 400 GOLD

ID Bal Level

123 400 GOLD

345 50 SILVER

678 210 GOLD

981 0 BLACK

ID Bal Level

123 400 GOLD

345 450 SILVER

678 210 GOLD

981 0 BLACK

ID Bal Level

123 400 GOLD

345 450 SILVER

678 210 GOLD

981 0 BLACK

ID Bal Level

123 400 GOLD

345 50 SILVER

678 210 GOLD

Page 46: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Credit_Latest View for Hive

CREATE VIEW credit_latest AS SELECT t1.* FROM credit t1 JOIN (SELECT cust_id, Max(last_change) max_modified FROM credit GROUP BY cust_id) s ON t1.cust_id = s.cust_id AND t1.last_change = s.max_modified WHERE t1.op_type != 'D';

Oracle Confidential – Internal/Restricted/Highly Restricted 50

Only retrieve last record for each customer id.

Leave out records where the last entry has delete flag.

Page 47: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

BIG DATA GOVERNANCE

#StrataHadoop - Oracle Big Data Architecture

Page 48: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture

Управлять данными не просто, Hadoop Не исключение!

Data Governance

Metadata Management

Business Glossary

Data Profiling

Data Cleansing

Data Archiving

Data Privacy

PEOPLE

PROCESS TECHNOLOGY

…люди и процесс это первое, …инструменты и возможности, …Чудес не быват!

“…the overall impact of poor-quality data on the whole dataset remains the same. In addition, much of the data that organizations use in a big data context comes from outside, or is of unknown structure and origin. This means that the likelihood of data quality issues is even higher than before. So data quality is actually more important in the world of big data." - Ted Friedman, Gartner

http://www.gartner.com/newsroom/id/2854917

Page 49: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture

Операционная Подготовка данных для данных без схемы

Data Discovery & Visualization

Enterprise Reporting

Internet

Logs

Unstructured & Structured Data

90% of time is spent WRANGLING DATA

MONTHS of effort spent on each new

dataset

PROGRAMERS writing scripts or complex ETL

Enterprise ETL & Data Integration

Page 50: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Ценность Enterprise Metadata Management

Oracle Confidential – Internal/Restricted/Highly Restricted 54

Решает большое количество серьезных задач для различных бизнес-пользователей и Технических специалистов

Page 51: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential 55

Oracle Metadata Management Логическая архитектура

Page 52: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle : Наиболее открытый и гетерогенный

Oracle OpenWorld 2014 56

Hadoop HBase Hadoop Hive/Flume HP Enscribe HP NonStop HP Neoview Hypersonic SQL IBM DB2 i Series IBM DB2 UDB IBM DB2 z Series IBM Informix IBM Netezza JMS / MQ Microsoft Access Microsoft SQLServer MySQL Pivotal Greenplum PostgreSQL Salesforce.com SAP BW / BI SAP ERP / ECC SAS SQL/MP SQL/MX Sybase ASE Sybase IQ Teradata

Adaptive Altova Apache Hcatalog Apache Hive/HQL Borland CA ERwin Cloudera Impala COBOL Copybook DataStax Embarcadero EMC ProActivity GentleWare Google BigQuery Grandite Hadapt Hive Hortonworks Hive IBM Cognos IBM DB2 IBM DataStage IBM Discovery IBM Federation Server IBM Lotus Notes IBM Netezza IBM Rational Rose IBM Rational Architect Informatica Metadata Mgr. Informatica PowerCenter

CoSORT ISO SQL Standard (DDL) MapR Hadoop Hive MicroFocus Microsoft Access Microsoft Office Excel Microsoft Visio Microsoft SQL Server Microsoft SSIS Microsoft Visual Studio Microstrategy Magic Draw OMG CWM Standard OMG UML Standard Oracle BI Answers Oracle BI Enterprise Edition Oracle BI Server Oracle DAC Oracle Data Integrator Oracle Data Modeler Oracle Database Oracle Designer Oracle Hyperion Applications Oracle Hyperion Essbase Oracle Warehouse Builder Pivotal Greenplum PostgreSQL

QlikView SAP BO Crystal Reports SAP BO Designer SAP BO Desktop Intelligence SAP BO Repository SAP BO Data Integrator SAP BO Data Steward SAP Master Data Management SAP Sybase PowerDesigner SAP Sybase ASE Database SAS Data Integration Studio SAS BI Server SAS Information Map SAS Metadata Management SAS OLAP Server Select Sparx Architect Syncsort Tableau Talend Teradata Tigris Visible W3C DTD & XSD Schema

Операционная интеграция (Перемещение и трансформации) Сбор метаданных (Глоссарии, взаимосвязи, анализ влияния)) Oracle Database Oracle Exadata Oracle Big Data Appliance Oracle TimesTen Oracle OLAP Oracle Business Intelligence Oracle BI Applications Oracle E-Business Suite Oracle JD Edwards Enterprise One Oracle JD Edwards World Oracle Fusion Applications Oracle Governance Risk and Compliance Oracle Fusion AIA Oracle Retail Applications Oracle Agile BI / DW Oracle Agile PLM for Process Oracle iFlex FlexCUBE Oracle iFlex Mantas Oracle Hyperion Applications Oracle PeopleSoft Oracle Siebel CRM / OnDemand Oracle Communications Oracle WebLogic Server Oracle Coherence Data Grid Oracle SOA Suite Oracle Enterprise Service Bus

+ open APIs and standards based meta-model

Page 53: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

BIG DATA DISCOVERY

#StrataHadoop - Oracle Big Data Architecture

Page 54: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 58

Oracle Big Data Discovery. The Visual Face of Hadoop

Поиск Изучение Трансфор- мация

Исследование Совместная работа

Page 55: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Поиск релевантных данных

Oracle Confidential – Internal/Restricted/Highly Restricted 59

• Каталог наборов данных

• Поиск по каталогу и навигация на основе метаданных

• Пользовательские теги

• Информация о существующих проектах и наборах данных в них

Page 56: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Изучение для понимания потенциала данных

Oracle Confidential – Internal/Restricted/Highly Restricted 60

Статистическая информация о данных в зависимости от их типа:

‒ максимальные, минимальные, средние значения, квантили и т.д.; ‒ распределение по значениям, количество уникальных; ‒ качество данных: пустые значения; ‒ распределения с учетом фильтров;

Page 57: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Трансформация, подготовка данных

Oracle Confidential – Internal/Restricted/Highly Restricted 61

• Обширная библиотека транформационных функций

• Возможность написания собственных скриптов на Groovy

• Предварительный просмотр результатов, отмена, подтверждение и повторное выполнение трансформаций

• Тестирование на небольшом наборе данных в оперативной памяти, применение на полном наборе данных в Hadoop

Page 58: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Исследование и анализ данных

Oracle Confidential – Internal/Restricted/Highly Restricted 62

• Визуальная компонентная среда

• Уникальные поисковые возможности и фасетная навигация

• Объединение нескольких наборов данных для более глубокого анализа

Page 59: Решения Oracle для Big Data

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Стратегия Oracle в области Больших Данных и Аналитики • Безопасность, управляемость в

продуктивных системах – Использовать опубликованные в HDFS наборы

данных в Oracle DB используя Oracle Big Data SQL с необходимым уровнем безопасности данных

– Не требуется перемещение данных – Расширение уже сделанных инвестиций в ХД и

BI новыми возможностями Больших данных

• Эксперимент, прототип, исследование

– Быстро найти, изучить, трасформировать данные и исследовать их с помощью BDD

– Публикация результирующих

наборов данных в HDFS

– Построение прогнозных и майнинговых моделей с помощью Oracle R for Hadoop

• Доступно на инженерных системах

64

Oracle Big Data SQL

SQL join

Oracle BI Foundation

Suite

In-Memory Appliance

Exalytics

Традиционные источники

Data Warehouse

Oracle Advanced Analytics

Oracle Database

Exadata

Data Reservoir

Oracle Big Data

Discovery

Hadoop (HDFS)

Oracle R for

Hadoop

Новые источники

Big Data Appliance

Page 60: Решения Oracle для Big Data