[db tech showcase tokyo 2014] d36: 次世代分析基盤 "data lake"...

1 © Copyright 2014 Pivotal. All rights reserved. 1 © Copyright 2014 Pivotal. All rights reserved.

2014年11月13日 Pivotalジャパン株式会社

市村友寛宵　勇樹

次世代分析基盤 ”Data Lake” を支える Pivotalのインメモリ + SQL on Hadoopテクノロジー

2 © Copyright 2014 Pivotal. All rights reserved.

Pivotal 会社概要

CEO ポール・マリッツ

従業員数約2,000人

企業顧客 1,200社以上

出資企業 EMC連合とGE連携

2013年4月設立 (日本法人：7月)

エンタープライズ向けに3rdプラットフォームを実現するソフトウェアを開発・提供クラウド(PaaS)とビッグデータの基盤技術、及び次世代アプリ開発サービスが主軸


Pivotal’s Opportunity §  ビッグデータ

Pivotal HD, Pivotal Greenplum DB §  ファストデータ

Pivotal GemFire §  エンタープライズ PaaS

Pivotal CF §  アジャイル開発支援サービス

Pivotal Labs §  データサイエンティスト及び　　育成トレーニング

Pivotal Data Science Labs


ビッグデータ時代に求められる要素技術吨听吀ー

吵呉吐

データ量

分散型RDB GreenplumDB

PureData, Teradata, ExaData

Hadoop Pivotal HD

CDH, MapR, Horton

SQL on Hadoop HAWQ

Impala, Drill, Presto,..

RDB

Oracle, DB2, MSSQL Server MySQL, PostgreSQL

インメモリ GemFire/XD

TimesTen, SAP HANA


Pivotal Data Lake アーキテクチャ

アナリティックデータマート

SQL処理

オペレーショナルインテリジェンス

イン・メモリデータベース

ラン・タイムアプリケージョン

HDFS

データステージング

データ管理

Pivotal Data Lake

ストリームインジェスチョンストリーミング処理

Software-Defined Datacenter

New Data-fabrics ...ETC

イン・メモリグリッド

GemFire XD

GemFire XD

�  データ処理基盤の基盤要素となるHadoop(HDFS)にデータを蓄積

�  さまざまなデータ・要件に応じて処理エンジンを使い分ける


Pivotal Data Lake リファレンスアーキテクチャ 3. SQLにも対応した高い開発生産性

S Q L

セントラルDWH データマート

BI ビジネス

アナリティクス構造化データ

勘定系システム

情報系システム

周辺

システム

データウェアハウス

経営者管理者

業務部門

分析者・情報システム部門

ファストデータ

インメモリー・エンジンビジネス　　　

アプリケーション

非構造化データアクセスログメール・Web M2M 音声画像・映像 SNS

生データ

ETL 処理

Hadoop

データレイク


全ての事業部門をまたがったデータ分析基盤(Industrial Data Lake)をPivotal社のテクノロジーで実現

GEのイノベーション Industrial Internet

2014年8月15日日経産業新聞

25のエアライン

340万フライト

340TBデータ

2,000倍の分析速度向上

10分の1の費用削減

アプリ投入まで7日間


風力発電システムの最適化(米国）

Big Data

Fast Data 秒間あたり数千データポイントからの

データ投入

緊急停止チューニング & 最適化、

監視と制御

継続的なリアルタイム分析

保守作業の効率化課金


次世代ビックデータ基盤を支えるソフトウェア群

レギュラーパフォーマンス＆バッチ

分析

ハイパフォーマンス分析

HAWQ Pivotal Greenplum DB

Pivotal HD

リアルタイム分析 Pivotal GemFire XD Pivotal GemFire

Hadoop

超並列処理 RDB

インメモリー KVS


•  VMware上での最適化機能 HVE •  EMCのスケールアウトNAS 　 ”Isilon”との連携

•  Apache Hadoop2.2ベース •  商用製品としての追加機能

•  Command Center, HVE •  HAWQ, GemFireXD

•  オープンソースとの連携・統合 •  Spark, Parquet, GraphLab等

PivotalのHadoopディストリビューション

HDFS

HBase

Pig, Hive, Mahout

Map Reduce

Sqoop Flume

リソース管理 & ワークフロ

ー

YARN

ZooKeeper

Apache Pivotal HD 追加機能

Pivotal Command

Center 構成/デプロイ/

監視/管理 Hadoop バーチャライゼーション

(HVE)

Xtension フレームワーク

カタログサービス

オプティマイザ

(Orca)

ダイナミック・パイプライニング

ANSI SQL + アナリティクス

HAWQ アドバンスドデータベースサービス

•  標準SQL対応のDBエンジン •  HIVE比数十倍〜数百倍の高性能

高速なSQLエンジンの搭載

Spark ※1

Ambari ※2

Oozie

Spring

GraphLab, OpenMPI

※3

※1. Pivotal HDは Apache Spark と稼働することを認定する “Certified Spark Distribution”に登録されています。(2014/5) ※2. Pivotalは Apache Ambariの開発プロジェクトに参画することを表明しています。(2014/7) ※3. PivotalHD2.0 にてGraphLab, OpenMPI, Parquetはベータ提供されています。

Parquet ※3

MADlib

VM・EMCテクノロジーとの連携

•  ApacheベースのHadoopにエンタープライズ機能を追加・オープンと商用両方のメリットを享受 •  ANSI SQL準拠による高速SQLエンジンによる既存資産 (プログラムやスキル) の保護

Pivotal HD Data Lake プラットフォームのコアテクノロジー


データベースファイルシステム外部データストア

GemFire XD データグリッド

高いスループット低遅延優れたスケーラビリティ継続的な可用性信頼性の高いイベント通知機能 SQL(JDBC/ODBC) 並列処理

WAN 経由の分散

データを利用するエンタープライズアプリケーション

データの持続性

HDFS その他データストア

Pivotal GemFire XD 低遅延、スケールアウトを実現


GemFire XD - 低遅延、スケールアウトを実現


インメモリデータグリッドの概要


インメモリデータグリッドの基本的な概念

Handle thousands of concurrent connections

Synchronous replication for slow changing data

Replicated Region

Partition for large data or highly transactional data

Partitioned Region

Redundant copy

14

Low latency for thousands of

clients

•  分散型メモリ指向のデータストア •  キーバリュー/オブジェクト、SQLアクセス •  クエリー、インデックス、トランザクション対応

•  複数のストレージモデル •  メモリ上でのレプリケーション、パーティション •  クラスタ間での冗長データのコピー •  ディスクもしくはRDBMSへのデータ展開

•  アプリケーションロジックの並列化 •  複数の障害検知処理 •  動的なメンバーの追加 (elastic) •  ベンダーの差別化要素

•  SQL対応、WAN対応, イベント処理, etc


従来のRDBMSにおける課題

§  大量のI/O §  設計時の想定とのギャップ

•  ACIDにフォーカス •  ディスク同期のボトルネック

バッファは主にI/O向けに最適化

初めにLOGを書込む

次にデータ・ファイルに書込む


1,200+同時アクセス 70万+のスループット

GemFire XD/SQLFireのベンチマーク結果


RDBMSとの連携： DBSynchronizer • RDBMSとテーブル定義が同じ場合に有効

Flights FlightsR

Airlines Airlines

Flights FlightsR

FlightAvailability FlightAvailabilityR

FlightAvailability FlightAvailabilityR

java.sql.Connection conn = getConnection(); CallableStatement cs = conn.prepareCall(“CALL SYS.ADD_ASYNC_EVENT_LISTENER(?,?,?,?,?,?,?,?,?,?,?)”); cs.setString(1, “SG1”); cs.setString(2, “MyID”); cs.setString(3, “com.vmware.sqlfire.callbacks.DBSynchronizer”); cs.setString(11,“jdbc:oracle:thin:@localhost:1521:XE”); cs.execute();


データセンター間のデータ・レプリケーション GemFire

1

GemFire4 Gateway

GemFire3

New York Site

GemFire5 Standby Gateway

GemFire6

GemFire7

GemFire8 Gateway

Tokyo Site GemFire9 Gateway

GemFire 10 GemFire 11

London Site

Standby Gateway Paths

Primary Gateway Paths



"  グローバルなデータ配信 "  アクティブ-アクティブな DR 対策 "  標準機能として提供


‘Shared nothing persistence’なアーキテクチャの利点と課題

þ 追記のみのオペレーションログ þ 完全な並列処理 þ ディスクシークなし ¨ ログのスキャンにはクラスタセットの

再起動が必要 ¨ 大容量のボリュームに対しては調整が

必要

MemoryTables

Append only Operation logs

OS Buffers

LOG Compressor

Record1

Record2

Record3

Record1

Record2

Record3

MemoryTables

Append only Operation logs

OS Buffers

LOG Compressor

Record1

Record2

Record3

Record1

Record2

Record3

インメモリデータグリッドである GemFireにおいても課題が存在


•  成熟しつつあり、適用範囲も拡大 •  汎用サーバでも大規模なデータセットを取り扱いが可能 •  障害への柔軟な対応 •  シンプルな一貫性モデル

Hadoop HDFS

Hadoop core(HDFS) for scalable, parallel storage


Hadoop エコシステムが実現する利点

� 大規模なボリュームセット ( TB to PB)

� 高可用性, 圧縮機能

� 並列計算とデータ分析基盤としての成熟度とエコシステムの展開

� ストレージシステムにおいてもHDFS対応が普及

� 仮想化環境への対応も徐々に浸透


GemFire XD インメモリデータグリッドからの新たな展開


GemFire XD – リアルタイムデータ分析エンジン

SQLFire

Pivotal HD GemFire

クラスタリング、インメモリデータストア、HA, レプリケーション、WAN対応、イベント処

理、分散キュー…

SQL エンジン - オプティマイザ、インメモリ上のインデックス作成、分散トランザクション、RDBインテ

グレーション..

インストール、構成、管理の統合化、監視機能、Hadoopへの

最適化

+

インメモリ、さらには地理的に分散されたワーキングセット

過去データ、時系列データをHDFSに格納

SQL

Objects, JSON


HDD HDD HDD HDD HDD

HDFS

データノード

HDFS

データノード

HDFS

データノード

HDFS

データノード

HDFS

データノード

Map/Reduce, Hive, HBase GemFire XD PXF Plugin

GemFire XD クラスタ

Hadoop クラスタ

データベース

データセンター

GemFire XD アーキテクチャ概要 JDBC ODBC


SQL + IMDG(Objects) + HDFS メインメモリーをベースに低遅延で分散したビッグデータ向けのデータストア

実際に操作するデータのみ、メモリ上に展開

永続化、あるいはアーカイブデータはHDFSへ


SQL + IMDG(Objects) + HDFS

レプリケーション / パーティション

ストレージモデル:

- インメモリ - インメモリとローカルディスク - インメモリとHDFS


SQL + IMDG(Objects) + HDFS SQL Engine – OLTP、トランザクションにも対応

IMDG キャッシュ機能 - readThru, writeBehind, 等々


SQL + IMDG(Objects) + HDFS HDFSとの密な統合 – ストリーミング、R/Wアクセスデータ分析はインメモリではなくHDFSを利用　

– シーケンシャルなアクセス、もしくはインクリメンタルな処理を実現

データ投入の並列化により、リアルタイムに近い詳細な分析も可能


SQL + IMDG(Objects) + HDFS

MapReduceにおけるreduce処理にてインメモリへのデータ反映

リアルタイム処理と分析の間でのクローズドなループを実現


Table Partitioned Table

Redundant Partition

Partitioned Table

Redundant Partition

Partitioned Table

Redundant Partition

Replicated Table Replicated Table Replicated Table

Colocated Partition Colocated Partition Colocated Partition

CREATE TABLE FLIGHTS ( FLIGHT_ID CHAR(6) NOT NULL , SEGMENT_NUMBER INTEGER NOT NULL , ….. PARTITION BY COLUMN (FLIGHT_ID) PERSISTENT HDFSSTORE RWStore;

CREATE HDFSSTORE RWStore NAMENODE hdfs://PHD1:8020 DIR /indexed-tables BATCHSIZE 10 BATCHTIMEINTERVAL 2000 QUEUEPERSISTENT true;

GemFire XDにおけるデータ管理


レイテンシの観点でみた適用範囲

マシンによる応答

インタラクティブレポートバッチ処理人間による

操作

Milliseconds Seconds Seconds, Minutes Minutes, Hours

Online/OLTP/Operational DBs Analytics, Data Warehousing PivotalHD HAWQ GemFire XD


Hadoop上でのリアルタイム処理における選択肢

Many more…. ほとんどがデータ分析に向いたインタラクティブなクエリ処理にフォーカス


GemFire XD + Pivotal HD

GemFire XD HAWQ

HDFS

PXF

データモデル更新 Map-Reduce

I/P & O/P Formatter

Shared Data - HFiles

PCC

データモデル更新

Online Apps Analytic Apps

Sensor Data / Feeds

分析データの取り込みリアルタイム/セミ・リアルタイムでのデータ投入

分析データの処理

高度なデータ分析リアルタイムデータの投入リアルタイム分析

リアルタイム+ビックデータによるData Lakeアーキテクチャの実現


PaaSにおけるサービスとしての提供

�  Pivotal CF上に展開されるアプリケーションに対してGemFireXDをサービスとして提供

–  Pivotal CF: オープンソースPaaSであるCloud Foundryの商用ディストリビューション

�  独自のサービスとしても追加可能 –  Service Brokerの実装 –  ユーザ定義サービス

Pivotal GemFire XD for Pivotal CF


エンタープライズ向け SQL on Hadoopエンジン


要点

1.  HAWQとは何か？

2.  HAWQは速い

3.  HAWQはSQL互換


バッチ処理

http://www.anishsneh.com/2014/07/hadoop-mapreduce-api.html


アドホッククエリ Ø  SELECT id, name, address FROM foo LIMIT 100; Ø  SELECT a, b, count(c) FROM bar GROUP BY a, b; …


Hive :SQL に似たHiveQLでMapReduceを実行

対話式に大量データを処理が可能に

Hadoop向けクエリ言語 Hive


� 小規模なクエリを実行するにも時間がかかる –  MapReduceを使用しており、毎回JavaVMの起動-終了処理を実行する為

� BIツール等で動かない場合が多い –  SQLの完全互換では無い為

Hive の問題点


Hiveよりも速く、SQL互換で、 Hadoop上で動くエンジンが必要

SQL on Hadoop


�  エンタープライズ向けクエリエンジン �  HDFS上に高速データベースエンジン

HAWQを搭載 –  ビッグデータに対する

高速クエリ処理 –  標準SQL準拠 –  統計解析関数 MADlib に対応

HDFS Pig MapReduce

PivotalHD

SQL on Hadoop “HAWQ” HAdoop With Query


User intelligence 4.2 198

Sales analysis 8.7 161

Click analysis 2.0 415

Data exploration 2.7 1,285

BI drill down 2.8 1,815

47X

19X

208X

476X

648X

HAWQは速い

単位：秒

User intelligence 4.2 37

Sales analysis 8.7 596

Click analysis 2.0 50

Data exploration 2.7 55

BI drill down 2.8 59

単位：秒

9X

69X

25X

20X

21X


HAWQ/Impala比較性能検証 (業界標準指標TPC-DSを使用)

参考URL: Orca: A Modular Query Optimizer Architecture for Big Data http://www.gopivotal.com/sites/default/files/SIGMODMay2014HAWQAdvantages.pdf 参考URL: [2014/6/25] Pivotal HAWQ Benchmark Demonstrates Up To 21x Faster Performance on Hadoop Queries Than SQL-like Solutions http://blog.gopivotal.com/pivotal/products/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions

※. TPC-DSとは業界標準の性能指標を定義する業界団体 TPC (Transaction Processing Performance Council) が提供する情報系システムのための公式な性能指標です。2012年から提供されている TPC-DS では、流通業における典型的なデータモデルを再現しており、25テーブル、429カラムに対して様々なクエリを実行します。

サポートクエリ数比較

100%

100%

(母数111クエリ)

(母数111クエリ)

非サポートクエリ

非サポートクエリもしくは処理中に

異常終了したクエリ完了したクエリ Impalaと比較して平均6倍の高速

28% HAWQ処理時間を１とした場合の

Impala処理時間

※. 検証では PHD1.1/HAWQ1.1 と CDH4.4/Impala 1.1.1.を使用しました。

18%

サポートかつ完了したクエリ数比較

性能

比


データ処理フロー比較

プラン作成

クエリ実行

クエリの投入

結果の返信

ルールベースのオプティマイザ •  テーブルデータの内容に関わらずクエ

リによって実行プランを作成 •  MapReduceスクリプトを作成

MapReduce処理 •  Javaプロセスの起動・停止

中間データのディスク処理 •  逐次ディスクIOの発生

コストベースオプティマイザ Orca •  テーブルデータの内容(データ量、カー

ディナリティ等)を踏まえ最適な実行プラ

ンを作成

Cプロセス処理 •  常駐プロセスによる即時処理

中間データのオンメモリ処理 •  パイプライン処理によるオンメモリの高

速処理 •  ディスクIOを排除


クエリオプティマイザが実現する高速データ処理

�  コストベースのオプティマイザが最

適な実行プランを選択 –  DB処理(スキャン、ジョイン、ソート、集

計等)に対してコストを算出

–  セグメント間通信(“モーション”)もオプ

ティマイザが指示

�  ダイナミックパイプライン処理 –  中間データのオンメモリ処理

PHYSICAL EXECUTION PLAN FROM SQL

Gather Motion 4:1(Slice 3)

Sort

HashAggregate

HashJoin

Redistribute Motion 4:4(Slice 1)

HashJoin

Hash Hash

HashJoin

Hash

Broadcast Motion 4:4(Slice 2)

Seq Scan on motion

Seq Scan on customer

Seq Scan on lineitem

Seq Scan on orders

MapReduceを介さずデータをパイプライン処理


最新クエリオプティマイザ Orcaによる圧倒的性能向上

� ジョインオーダーリング –  インタコネクトへの大規模データ転送を防ぐテーブル結合順序を選定

� 相関サブクエリ処理 –  反復的サブクエリ処理を回避

� 動的パーティション排除スキャン –  クエリ処理中の中間データにあわせてスキャン対象パーティションを動

的に選定・排除

従来クエリオプティマイザ比平均５倍の性能向上を実現


ジョインオーダリングの例

A B

join

各ノードにデータを分配

A (100万件、

ユーザidで分散)

B (100万件、

明細idで分散)

各ノードにデータを分配

join

ユーザID毎に集計したい場合

どちらがよいか？

or


分散キーの件数をヒストグラム化 Aのノード毎のユーザid数

Bのノード毎のユーザid数

A (ユーザidで分散)

B (明細idで分散)

テーブル情報から分析

テーブル情報から分析


ヒストグラムから実行時間の見積もり Aのノード毎のユーザid数

Bのノード毎のユーザid数

Aを固定してBのデータを各ノードに分配した場合の実行時間

Bを固定してAのデータを各ノードに分配した場合の実行時間


A B

join

A B

join

比較

こちらの方が時間がかからないので採用

分配分配


HAWQでは自動でジョインオーダリングを実施

A B

join

A B

join

比較

採用

分配分配


HAWQはSQL準拠

ハード/OS RDBMS BIツール

ハード/OS BIツール HDFS

SQL ‘92 ’93 2003 OLAP対応


HAWQを支える GreenplumDB 10年の実績 GreenplumDBの主要テクノロジーを HAWQ で採用

•  標準 SQL 対応

•  コストベースオプティマイザ

•  ダイナミックパイプライン処理

•  ローストア・カラムストア両方への対応

•  圧縮(QuickLZ, ZLIB, RLE)

•  分散格納

•  マルチレベルパーティショニング

•  パラレルーロード・アンロード

•  高速データ再分散

•  統計解析関数(MADlib)

•  SELECT

•  INSERT

•  JOIN

•  ビュー

•  外部表

•  リソースマネジメント

•  セキュリティ

•  認証

•  管理・監視

•  ODBC/JDBC対応


分散数値計算・機械学習ライブラリ MADlibを同梱

予測的モデリングライブラリ

線形システム解析 •  疎行列ソルバー •  密行列ソルバー

行列因子分解 •  特異値分解 (SVD) •  低ランク近似

一般化線形モデル •  線形回帰 •  ロジスティック回帰 •  多項ロジスティック回帰 •  コックス比例ハザード •  回帰分析 •  エラスティックネット型正規化 •  サンドイッチ推定

機械学習アルゴリズム •  主成分分析(PCA) •  アソシエーションルール分析 (アフィニティ分

析,マーケットバスケット分析) •  トピックモデリング (パラレルLDA) •  決定木 •  アンサンブル学習(ランダムフォレスト) •  サポートベクターマシン •  コンディショナルランダムフィールズ(CRF) •  クラスタリング (K平均法) •  クロスバリデーション

記述統計

スケッチベース推定 •  CountMinスケッチ •  Flajolet-Martinスケッチ •  最頻値スケッチ相関関係統計値サマリ

サポートモジュール

配列演算疎ベクトルランダムサンプリング

確率関数

Latest release: MADlib v1.6, URL: madlib.net


MADlibサポート機能の例 K-means 適用前

x

y

点の塊を大まかに3つに分割したい


MADlibサポート機能の例 K-means 適用後

x

y クラスタA クラスタB

クラスタC

点の塊から、3つのクラスタが均等にバラけるように、重心●を作成

各点は重心●に近いクラスタに所属


MADlibでのK-means実行例

> SELECT * FROM madlib.kmeanspp( 'km_sample', 'points', 3, 'madlib.squared_dist_norm2', 'madlib.avg', 20, 0.001 );

重心を求める例

centroids | {{13.24,2.59, … ,735},{13.856,…,1078},{14.255,…,1378.75}} …

madlibの関数

3つの重心の位置

出力

詳細：http://doc.madlib.net/latest/group__grp__kmeans.html

入力テーブル

分割数


マイクロアド様 Pivotal HD+HAWQ事例

Pivotal HD+HAWQによりSPSSの既存資産に一切手を加えることなく分析可能なデータの拡大を低コストで実現。お客様にとっての競争力の源泉であるデータ分析精度の向上に貢献

既存環境・ IBM PureData/SPSSの分析基盤を構築・分析要望の高度化により格納データ増大、PureData の容量枯渇・コストを抑えるためHadoop (Cloudera無償版)を併用課題・ SPSSのクエリがHadoop標準ツールHIVEでは　「通らない」「途中でエラーになる」「著しく遅い」ため　実用に堪えない

Pivotal HD + HAWQ導入結果・ SPSSのクエリが変更無しで100%利用可能

・ HIVEと比較して最大約70倍速い性能を記録・汎用IAサーバ6台で実装

少ない投資で広範囲なデータに対して今までで

きなかった分析を実施可能に

(BA) IBM

SPSS

(DWH) IBM PureData

(Hadoop) Pivotal


HAWQの結論

1.  HAWQはSQL on Hadoopの一つ HadoopでGreenplumのクエリエンジンを動くようにしたもの

2.  HAWQはHiveより数十~数百倍, Impalaより数倍速い

3.  HAWQはSQL互換なので、既存のツールから使いやすい


•  データ蓄積→分析→アプリケーションのサイクル

•  あらゆるデータをとらえるビッグデ

ータ基盤「データレイク」構想

ビッグデータ時代の企業変革を実現するPivotal


•  データ蓄積→分析→アプリケーションのサイクル

•  あらゆるデータをとらえるビッグデータ

基盤「データレイク」構想

ビッグデータ時代の企業変革を実現するPivotal


Pivotalの提供するコンサルティングサービス � ビッグデータ基盤を導入したい

–  けどログ転送などどうすれば・・

� データ分析・機械学習をしたい

・・・新たなビジネスモデル

データアナリティクス

アプリケーション

データサイエンスビッグデータ (DWH/Hadoop)

アジャイル開発

クラウド(PaaS)基盤オープンソース

ファストデータ (M2M/リアルタイム)

基幹システム連携

Pivotalジャパンにて導入サポート＆トレーニング実施

日本人のデータマイニングエンジニア及びデータサイエンティスト在籍

A NEW PLATFORM FOR A NEW ERA

[db tech showcase tokyo 2014] d36: 次世代分析基盤 "data lake"...

Technology