Решения oracle для big data
TRANSCRIPT
Технологии Big Data от Oracle Oracle CIS
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Oracle Data Architecture для Big Data
Warehouse Data Factory Reservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise Data
Other Data Sources
Data Streams
Business Data
Social/Log Data
Model First Analytics
• Отчеты и аналитика • Аналитика на всех
данных • Классический анализ
данных
Отчеты & Дашборды
Data First Analytics
• Визуальное
исследование данных
• Скрытые закономерности
Исследования
• Телеметрия • Индустриальные
сервисы • Internet of Things
Data Services
Execution
Innovation
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Execution
Innovation
#StrataHadoop - Oracle Big Data Architecture
Продуктовая линейка Oracle для Big Data
Warehouse Factory Reservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise Data
Other Data Sources
Data Streams
Business Data
Social/Log Data
Model First Analytics
• Reporting-oriented • Often enterprise wide
in scope, cross LoB • “you know the
questions to ask”
Reports & Dashboards
Data First Analytics
• Data Exploration • Highly visual and/or
interactive • “you don’t know the
questions to ask”
Discovery
• Telematics • Industry Services • Internet of Things • Sentiment
Data Services
Real Time Decisions
Oracle Data Integration & Governance
Oracle Database & Big Data SQL
Oracle R
Oracle Big Data
Discovery
Oracle Business
Intelligence
Oracle Big Data
Discovery
Apache
Model First Analytics
• Отчеты и аналитика • Аналитика на всех
данных • Классический анализ
данных
Отчеты & Дашборды
Data First Analytics
• Визуальное
исследование данных
• Скрытые закономерности
Исследования
• Телеметрия • Индустриальные
сервисы • Internet of Things
Data Services
5536536
Oracle Event
processing
Oracle NoSQL
Apache
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Интегрированные программно-аппаратные комлексы Oracle для Big Data
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise Data
Other Data Sources
Data Streams
Business Data
Social/Log Data
Model First Analytics
• Reporting-oriented • Often enterprise wide
in scope, cross LoB • “you know the
questions to ask”
Reports & Dashboards
Data First Analytics
• Data Exploration • Highly visual and/or
interactive • “you don’t know the
questions to ask”
Discovery
• Telematics • Industry Services • Internet of Things • Sentiment
Data Services
APIs
Analytics Model First
Analytics
• Reporting-oriented • Often enterprise wide
in scope, cross LoB • “you know the
questions to ask”
Reports & Dashboards
Data First Analytics
• Data Exploration • Highly visual and/or
interactive • “you don’t know the
questions to ask”
Discovery
• Telematics • Industry Services • Internet of Things • Sentiment
Data Services
Model First Analytics
• Отчеты и аналитика • Аналитика на всех
данных • Классический анализ
данных
Отчеты & Дашборды
Data First Analytics
• Визуальное
исследование данных
• Скрытые закономерности
Исследования
• Телеметрия • Индустриальные
сервисы • Internet of Things
Data Services
Execution
Innovation
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA APPLIANCE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• Кластер из 18 узлов
– до 768GB на узел (по умолчанию 128GB) = 13824 GB RAM
– 36 ядер Intel на узле = 684ядер
– 12*8 = 96 TB дисков на узел = 1728 TB
• 40 Gb p/sec InfiniBand
• 10 Gb p/sec Ethernet
• Произвольная конфигурация от 1/3 до полной стойки
с шагом в 1 ноду
Oracle Big Data Appliance Машина для Hadoop и NoSQL DB
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• Oracle Linux
• Java Hotspot VM
• Cloudera Hadoop Distribution
Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools
• R Distribution
• Oracle NoSQL Database
• Oracle Big Data Connectors:
– Oracle R Connector for Hadoop
– Oracle SQL to HDFS Connector
– Oracle Loader for Hadoop
– Oracle XQuery for Hadoop
– Oracle Data Integrator Application Adapter for Hadoop
• Oracle Big Data SQL
Oracle Big Data Appliance Software
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента
• Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!)
• Настраивать Java
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого узла кластера
• Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы пользователей
• Заниматься дизайном перебалансировки кластера при его расширении
• И т.д. и т.п.
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE NOSQL DATABASE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Для каких задач может использоваться Oracle NoSQL Database? • Построение быстрых многопетабайтных распределенных
масштабируемых файловых хранилищ
– С возможностью обработки данных в кластере
• Построение систем, которые очень быстро накапливают огромное количество данных из многих источников
– Десятки миллионов записей в секунду
– Датчики, результаты испытаний, эксперименты
• Интеграция с системами обработки событий
– Накопление и обработка информации о событиях
• Интернет-проекты с многими тысячами пользователей
– Для обеспечения мгновенного доступа к профилям пользователя, продукта, информации о рекламной компании и т.д.
Storage Nodes Data Center A
Storage Nodes Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle NoSQL Database Распределенная, масштабируемая key-value база данных
• Простая модель данных
• Пара Key-value с подходом major+sub-key
• Операции read/insert/update/delete
• Поддержка ACID и BASE транзакций
• Масштабируемость
• Динамическое партиционирование и перераспределение
• Оптимизированный доступ к данным
• Высокая доступность
• Одна или более реплик
• Катастрофоустойчивость засчет разнесения реплик
• Устойчивость к отказу мастера
• Нет одной точки отказа
• Прозрачная балансировка нагрузки
• Чтение с мастера или реплики
• Драйвер знает о сетевой топологии и временах задержки
Storage Nodes Data Center A
Storage Nodes Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA CONNECTORS
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Connectors
Data Load Oracle Loader for Hadoop
Data Access Oracle SQL Connector for HDFS
R Analytics Oracle R Advanced Analytics
on Hadoop
Data Integration Oracle Data Integrator
Application Adapters for Hadoop
XML/XQuery Oracle XQuery on Hadoop
XQuery R Client
Оптимизированы для использования с Hadoop: максимальный параллелизм и производительность Интеграция данных из hadoop и реляционной базы Анализ данных из Hadoop, используя привычные инструменты
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Certified Hadoop and Database Versions
Database versions (on any operating system*)
10.2.0.5 and greater
11.2.0.3 and greater
12c
Hadoop versions Certified by
Apache Hadoop 2.x Oracle
CDH 4.x (Cloudera) Oracle
CDH 5.x (Cloudera) Oracle
HDP 1.3 (Hortonworks) Hortonworks
HDP 2.1 (Hortonworks) Hortonworks *Oracle SQL Connector for HDFS требуют
Hadoop клиента на стороне операционной системы DB
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
OSCH
Hive Text
OSCH
OSCH
OSCH
External
Table
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_LOADER
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS
(…)
PREPROCESSOR “HDFS_BIN_PATH:hdfs_stream”)
LOCATION (‘addr1’, ‘addr2’, ‘addr3’))
• Используется механизм внешних таблиц Oracle
• Preprocessor директива используется для чтения данных из hdfs
• Параллельное чтение данных из hdfs
• Совместный доступ к данным из DB и hdfs
• Используются все возможности базы данных: сложные запросы, безопасность, аналитическая обработка и т.д.
Compressed
files
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
• Специальная утилита генерирует определение для внешних таблиц Oracle
• Возможность работы с текстовыми файлами в hdfs, внешними и внутренними Hive таблицами над текстовыми файлами, данными в формате Data pump
• Использование партиций в Hive таблицах
• Возможность маппирования типов данных в случае использования Hive таблиц
• Производительность
– 15 TB/ч на Oracle Big Data Appliance и Oracle Exadata
– 5x – 20x быстрее в сравнении с конкурентными решениями
Oracle Confidential – Internal/Restricted/Highly Restricted
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Загрузка из различных источников данных
Oracle Data Warehouse
SHUFFLE /SORT
SHUFFLE /SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
ORACLE LOADER FOR HADOOP
Веблоги, парсинг с помощью регулярных выражений
Hive таблицы
Oracle NoSQL Database
JSON SerDe
Hive external tables
Hive external tables
HBase Storage Handler
• Препроцессниг данных в Hadoop
• Разнообразные форматы данных на входе
• Автоматическая балансировка нагрузки на нодах
• Загрузка данных в базу или генерация Data pump файлов
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Weblog Data
Обработка с помощью регулярных выражений
Сырые логи
Отфильтрованные, структурированные данные
SHUFFLE /SORT
SHUFFLE
/SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
Логи трансформируются на стороне Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Высокая производительность загрузки данных в Oracle • Примеры производительности (на Oracle
Engineered Systems)
– 4.4 TB/hour end-to-end (load + Hadoop process)
– 12+ TB/hour load time
• Оптимально для использования на инженерных системах Oracle Big Data Appliance и Oracle Exadata: InfiniBand Connectivity
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Oracle Loader for Hadoop External table load
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE LOADER FOR HADOOP ORACLE DIRECT CONNECTOR FOR HDFS Oracle Loader for Hadoop Oracle SQL Connector for HDFS
Функциональ-нось
Загрузка Загрузка и запросы к данным в hadoop
Входные форматы данных
Различные типы входных данных: HBase, JSON files, Weblogs, файлы, произвольные форматы
Текстовые файлы (HDFS файлы, Hive таблицы)
Data Pump файлы:
Сгенерированные Oracle Loader for Hadoop из HBase, JSON , Weblogs, файлов и т.д.
Производитель-ность
Требуется время на препроцессинг в Hadoop. Быстрая загрузка, требует больше ресурсов со стороны базы данных
Роли Hadoop разработчики Разработчики Oracle
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA SQL
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Данные живут в разных местах
SQL
Задачи: 1. Унификация метаданных, языка запросов и безопасности доступа 2. Оптимизация производительности доступа к данным
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Metastore
Oracle Confidential – Internal/Restricted/Highly Restricted 30
Hive Metastore
Hive Impala Spark Oracle Big Data SQL …
Table Definitions: movieapp_log_json movielog movieapp_log_avro
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Унификация метаданных: публикация метаданных Hive в Oracle
31
CREATE TABLE movieapp_log_json
(click VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
)
REJECT LIMIT UNLIMITED;
Big Data Appliance +
Hadoop/NoSQL
Exadata +
Oracle Database
Oracle Catalog
External Table
Hive metadata
External Table
Hive Metastore
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
select last_name, state, movie, genre from movielog m, customer c where genre=‘comedy’ and c.custid = m.custid
1
На этапе парсинга определяется: • Где хранятся данные • Структура данных • Возможная степень параллелизма
1
2
Параллельное чтение с Big Data SQL Server: • Parallel unit: PQ Slaves & InputSplits • Фильтрация строк, отсечение ненужных столбцов
2
Hive Metastore
HDFS NameNode
3
Отфильтрованный результата • Только необходимые данные возвращаются в базу данных • Объединение с другими таблицами, постобработка • Применение правил безопасности
3
HDFS Data Node BDS Server
HDFS Data Node BDS Server
Исполнение запроса на Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQL
Copy to BDA
Big Data Appliance +
Cloudera Hadoop
HDFS Data Node
Exadata +
Oracle Database
External Table HDFS Data Node External Table
Hive access to Oracle Data Pump files
External Table
Big Data SQL
Copy .dmp files to BDA
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_DATAPUMP
DEFAULT DIRECTORY DEFAULT_DIR
LOCATION (‘customer_address.dmp')
) AS
SELECT <…> FROM <……> (can be any Oracle SQL
query)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA INTEGRATION
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Staging
#StrataHadoop - Oracle Big Data Architecture
Lambda Architecture c Oracle Big Data Integration
Sqoop
HDFS
Hive
Flume
Cap
ture
Trai
l
Ro
ute
De
live
r
Pu
mp
Transformation
Data Streaming Kafka (MPP Pub/Sub)
Storm and Trident
Spark Streaming
HBase
Discovery Sandbox/s
R Oracle GoldenGate
Oracle Data Integrator
Oracle Data Governance
Oracle Data Enrichment
Model First Analytics
• Reporting-oriented • Often enterprise wide
in scope, cross LoB • “you know the
questions to ask”
Data First Analytics
• Data Exploration • Highly visual and/or
interactive • “you don’t know the
questions to ask”
• Telematics • Industry Services • Internet of Things • Sentiment
Reports & Dashboards
Discovery
Data Services
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Transforms
MapReduce(Hive)
Loads Oracle
Loader for
Hadoop
Oracle Data
Integrator
Oracle Database
- использование HСatalog и Hive для процессинга данных; - генерация Pig процессов и обработки данных на Spark; - Возможность использования Oozie планировщиков; - операции с файлами в HDFS; - интеграция с реляционными базами через Big Data Connectors или Sqoop
Oracle Data Integrator для Big Data Интеграционные модули для работы в\с Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ODI = Единый логический дизайн– много сценариев
37
• Используем нативные технологии для любых источников данных
– Локализация данных
– Оптимальная производительность, сокращаем сететвой трафик
• Отсутствие промежуточных узлов
– Сокращение инфраструктурных затрат и затрат на поддержку
• Декларативный дизайн
– Упрощенное внедрение
– Переиспользование разработких на различных технологиях
HCat
Agent
Transformation Engines
Runtime Environments
Future Tools
Future Runtime Engines
Logical Design
Oozie
Big
Data
SQL
Sqoop
OLH
OSCH
Hive
Spark
Pig
Data Access
Kafka
Storm
Future Languages
Any
SQL
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Processing platform for in-memory execution
Library for executing in Python, Java, Scala, or other Languages
MOVV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/m.csv")
MOV_AP = MOVV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "moviename": p[1], "directorname": p[2]})
RATV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/r.csv")
RAT_AP = RATV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "movierating": int(p[1]), "reviewdate": p[2]})
FILTER = RAT_AP.filter(lambda data: data["movierating"] > 3)
MOV_APX = MOV_AP.keyBy(lambda data: data["movieid"])
RAT_APX = FILTER.keyBy(lambda data: data["movieid"])
JOIN = MOV_APX.join(RAT_APX)
(JOIN.map(lambda (m,(j1,j2)):(','.join(map(str, j1))) + ',' + (','.join(map(str, j2))) )).saveAsTextFile("hdfs://127.0.0.1/user/oracle/moviedata/output/goods.csv")
Generate
Python/Spark code
Spark
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Procedural Programming Environment and Language
for Hadoop
Originally executing on Map-Reduce, but is
ported to Tez and Spark
daily = load 'NYSE_daily' as (exchange, symbol, date, open, close);
divs = load 'NYSE_dividends' as (exchange, symbol, date, dividends);
joined = join daily by symbol, divs by symbol;
filtered = filter joined by symbol matches 'CM.*';
store filtered into 'filtered' using HBaseStorage();
Pig
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oozie
• Hadoop Workflow engine
– Used by 90% of enterprise Hadoop use cases
• Alternative to ODI Agent in Big Data environments
– Use Hadoop-native technology
– Deploy to Hadoop environments with no ODI footprint, no install necessary
– Use native Hadoop tools to manage processes and view logs
40
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Business Value ODI: Высокая эффективность разработки при небольших затратах
Oracle Confidential, under Non-Disclosure 41
No ETL engine is required
Separation of Logical and
Physical design
Physical exec on SQL, Hive, Pig, or
Spark
Runtime exec in Oozie or via ODI
Java Agent
Rich set of pre-built operators
User defined functions
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Load to Oracle
OLH/OSCH
#StrataHadoop - Oracle Big Data Architecture
Oracle Data Integration на Инженерных системах
Transform
ODI
Hive/HDFS
Federate Hive/HDFS to Oracle
Big Data SQL
Oracle DB OLTP
Load from Oracle
CopyToBDA
Hive/HDFS
OGG OGG
Hive/HDFS
SQOOP
Flume Kafka
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Cap
ture
Trai
l
Ro
ute
Del
iver
Pu
mp
#StrataHadoop - Oracle Big Data Architecture
Oracle GoldenGate для Big Data
New DB/ HW/OS/APP
Zero Downtime Upgrades & Data Migration
Fully Active Distributed DB
High Availability & Disaster Recovery
Application Offloading
Query & Report Offloading
Big Data, DW & Marts
Real-time BI, Hadoop Data Staging, Data Ingestion
Event Driven Architecture, SOA/JMS, Coherence
Message Bus & Data Grid
Data Synchronization Across the Enterprise
Global Data Centers
Real-time Analytics & Massive Parallelization
Data Streaming
GoldenGate
Real-time Data Delivery
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HDFS Support • What is HDFS?
– HDFS is Hadoop’s distributed file system that can store data files of different structures
• OGG HDFS Functionality
– Writes to HDFS delimited file
– Different source tables write to same file
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can roll files based on size
– Column names can be optionally included in data
Schema Table OpType Timestamp C1 Name
C1Data C2 Name
C2Data C3 Name
C3Data
Field Delimiter
… Sales, Customer, I, 2015-03-11_13-33-01.000, ID, 1234, FIRST, John, LAST, Doe
File: /ogg/gg_2015-03-11_13-33-01.000.txt
Line Delimiter
Path Prefix Suffix Timestamp
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Support • What is Hive?
– Hive is Hadoop’s SQL interface for querying data in HDFS.
• OGG Hive Functionality
– Writes to HDFS delimited file
– Different source table changes write to separate folders
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can be used for non-Hive use cases
– Can roll files based on size
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType Timestamp C1Data
C2Data C3Data
HDFS File: /ogg/sales/customer/customer_2015-03-11_13-33-01.000
Path Schema Timestamp Table
Field Delimiter Line Delimiter
Hive Table: customer
OP ID FIRST LAST TS
I 1234 John Doe 2015-03…
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Flume Support • What is Flume?
– Flume is a streaming platform in Hadoop to ingest external sources, such as log files, apps, etc.
• OGG Flume Functionality
– Writes Flume event with delimited format body to Avro RPC Source
– Source Table and Schema name are passed in flume header
– Can use various flume channels and sinks, for example HDFSSink
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType Timestamp C1Data
C2Data C3Data
Header:
Field Delimiter Line Delimiter
%{SCHEMA_NAME}: sales %{TABLE_NAME}: customer Body: Source
(Avro RPC) Channel
(Memory) Sink
(HDFS)
Flume
HDFS Table
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HBase Support • What is HBase?
– HBase is Hadoop’s Key-Value store
• OGG Hbase Functionality
– Writes to HBase tables
– Supports Insert, Update, Delete natively
– Column Family name can be configured
C1Data C2Data C3Data
Table Namespace: Sales Table: Customer
rowkey cf:ID cf:FIRST cf:LAST
1234 1234 John Doe
C1Name C2Name C3Name Column Family
Concatenated PKs
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Example
ID Balance Level
Credit (RDBMS Table)
Hive Adapter
Pump Trail File
Capture
ID Bal Level Timestamp Op
ID Balance Level
Credit (Hive Table)
Credit_latest (Hive View)
• Table is replicated from Source DB to Hive
• Any source operations (Insert, Update, Delete) create a new row in Hive
• Hive View consolidates operations to have same data as source
• Oracle Data Integrator can also be used to periodically consolidate data in materialized table
ID Balance Level
Credit_merged(Hive Table)
ODI data movement
Hive View
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Incremental Load with GoldenGate for Big Data
49
ID Balance Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
ID Bal Level Timestamp Op
123 400 GOLD 2014-10-07 19:17:32 I
345 50 SILVER 2014-10-07 19:21:00 I
678 210 GOLD 2014-06-08 19:17:32 I
Credit (RDBMS Table) Credit (Hive Table)
Credit_Latest (Hive View)
GoldenGate
Advantages GoldenGate:
- Continuous replication in real-time - Less invasive to source DB - Does not need Timestamp - Supports deletes
981
0
BLACK
123 2014-10-08 1:36:57
D
U
2014-10-08 1:33:05
SILVER
450
345
981
0
BLACK
2014-10-08 1:30:19 I
450
123 400 GOLD
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Credit_Latest View for Hive
CREATE VIEW credit_latest AS SELECT t1.* FROM credit t1 JOIN (SELECT cust_id, Max(last_change) max_modified FROM credit GROUP BY cust_id) s ON t1.cust_id = s.cust_id AND t1.last_change = s.max_modified WHERE t1.op_type != 'D';
Oracle Confidential – Internal/Restricted/Highly Restricted 50
Only retrieve last record for each customer id.
Leave out records where the last entry has delete flag.
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA GOVERNANCE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Управлять данными не просто, Hadoop Не исключение!
Data Governance
Metadata Management
Business Glossary
Data Profiling
Data Cleansing
Data Archiving
Data Privacy
PEOPLE
PROCESS TECHNOLOGY
…люди и процесс это первое, …инструменты и возможности, …Чудес не быват!
“…the overall impact of poor-quality data on the whole dataset remains the same. In addition, much of the data that organizations use in a big data context comes from outside, or is of unknown structure and origin. This means that the likelihood of data quality issues is even higher than before. So data quality is actually more important in the world of big data." - Ted Friedman, Gartner
http://www.gartner.com/newsroom/id/2854917
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Операционная Подготовка данных для данных без схемы
Data Discovery & Visualization
Enterprise Reporting
Internet
Logs
Unstructured & Structured Data
90% of time is spent WRANGLING DATA
MONTHS of effort spent on each new
dataset
PROGRAMERS writing scripts or complex ETL
Enterprise ETL & Data Integration
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Ценность Enterprise Metadata Management
Oracle Confidential – Internal/Restricted/Highly Restricted 54
Решает большое количество серьезных задач для различных бизнес-пользователей и Технических специалистов
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential 55
Oracle Metadata Management Логическая архитектура
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle : Наиболее открытый и гетерогенный
Oracle OpenWorld 2014 56
Hadoop HBase Hadoop Hive/Flume HP Enscribe HP NonStop HP Neoview Hypersonic SQL IBM DB2 i Series IBM DB2 UDB IBM DB2 z Series IBM Informix IBM Netezza JMS / MQ Microsoft Access Microsoft SQLServer MySQL Pivotal Greenplum PostgreSQL Salesforce.com SAP BW / BI SAP ERP / ECC SAS SQL/MP SQL/MX Sybase ASE Sybase IQ Teradata
Adaptive Altova Apache Hcatalog Apache Hive/HQL Borland CA ERwin Cloudera Impala COBOL Copybook DataStax Embarcadero EMC ProActivity GentleWare Google BigQuery Grandite Hadapt Hive Hortonworks Hive IBM Cognos IBM DB2 IBM DataStage IBM Discovery IBM Federation Server IBM Lotus Notes IBM Netezza IBM Rational Rose IBM Rational Architect Informatica Metadata Mgr. Informatica PowerCenter
CoSORT ISO SQL Standard (DDL) MapR Hadoop Hive MicroFocus Microsoft Access Microsoft Office Excel Microsoft Visio Microsoft SQL Server Microsoft SSIS Microsoft Visual Studio Microstrategy Magic Draw OMG CWM Standard OMG UML Standard Oracle BI Answers Oracle BI Enterprise Edition Oracle BI Server Oracle DAC Oracle Data Integrator Oracle Data Modeler Oracle Database Oracle Designer Oracle Hyperion Applications Oracle Hyperion Essbase Oracle Warehouse Builder Pivotal Greenplum PostgreSQL
QlikView SAP BO Crystal Reports SAP BO Designer SAP BO Desktop Intelligence SAP BO Repository SAP BO Data Integrator SAP BO Data Steward SAP Master Data Management SAP Sybase PowerDesigner SAP Sybase ASE Database SAS Data Integration Studio SAS BI Server SAS Information Map SAS Metadata Management SAS OLAP Server Select Sparx Architect Syncsort Tableau Talend Teradata Tigris Visible W3C DTD & XSD Schema
Операционная интеграция (Перемещение и трансформации) Сбор метаданных (Глоссарии, взаимосвязи, анализ влияния)) Oracle Database Oracle Exadata Oracle Big Data Appliance Oracle TimesTen Oracle OLAP Oracle Business Intelligence Oracle BI Applications Oracle E-Business Suite Oracle JD Edwards Enterprise One Oracle JD Edwards World Oracle Fusion Applications Oracle Governance Risk and Compliance Oracle Fusion AIA Oracle Retail Applications Oracle Agile BI / DW Oracle Agile PLM for Process Oracle iFlex FlexCUBE Oracle iFlex Mantas Oracle Hyperion Applications Oracle PeopleSoft Oracle Siebel CRM / OnDemand Oracle Communications Oracle WebLogic Server Oracle Coherence Data Grid Oracle SOA Suite Oracle Enterprise Service Bus
+ open APIs and standards based meta-model
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA DISCOVERY
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 58
Oracle Big Data Discovery. The Visual Face of Hadoop
Поиск Изучение Трансфор- мация
Исследование Совместная работа
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Поиск релевантных данных
Oracle Confidential – Internal/Restricted/Highly Restricted 59
• Каталог наборов данных
• Поиск по каталогу и навигация на основе метаданных
• Пользовательские теги
• Информация о существующих проектах и наборах данных в них
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Изучение для понимания потенциала данных
Oracle Confidential – Internal/Restricted/Highly Restricted 60
Статистическая информация о данных в зависимости от их типа:
‒ максимальные, минимальные, средние значения, квантили и т.д.; ‒ распределение по значениям, количество уникальных; ‒ качество данных: пустые значения; ‒ распределения с учетом фильтров;
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Трансформация, подготовка данных
Oracle Confidential – Internal/Restricted/Highly Restricted 61
• Обширная библиотека транформационных функций
• Возможность написания собственных скриптов на Groovy
• Предварительный просмотр результатов, отмена, подтверждение и повторное выполнение трансформаций
• Тестирование на небольшом наборе данных в оперативной памяти, применение на полном наборе данных в Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Исследование и анализ данных
Oracle Confidential – Internal/Restricted/Highly Restricted 62
• Визуальная компонентная среда
• Уникальные поисковые возможности и фасетная навигация
• Объединение нескольких наборов данных для более глубокого анализа
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Стратегия Oracle в области Больших Данных и Аналитики • Безопасность, управляемость в
продуктивных системах – Использовать опубликованные в HDFS наборы
данных в Oracle DB используя Oracle Big Data SQL с необходимым уровнем безопасности данных
– Не требуется перемещение данных – Расширение уже сделанных инвестиций в ХД и
BI новыми возможностями Больших данных
• Эксперимент, прототип, исследование
– Быстро найти, изучить, трасформировать данные и исследовать их с помощью BDD
– Публикация результирующих
наборов данных в HDFS
– Построение прогнозных и майнинговых моделей с помощью Oracle R for Hadoop
• Доступно на инженерных системах
64
Oracle Big Data SQL
SQL join
Oracle BI Foundation
Suite
In-Memory Appliance
Exalytics
Традиционные источники
Data Warehouse
Oracle Advanced Analytics
Oracle Database
Exadata
Data Reservoir
Oracle Big Data
Discovery
Hadoop (HDFS)
Oracle R for
Hadoop
Новые источники
Big Data Appliance