[db tech showcase tokyo 2015] d34:in-database...
TRANSCRIPT
Copyright © 2015 NTT DATA Corporation
2015/06/12株式会社NTTデータ
技術開発本部サービスイノベーションセンタデータウェアハウス/ビジネスインテリジェンス・ラボ®
In-Database Analyticsが実現する圧倒的なデータ分析パフォーマンス
1Copyright © 2015 NTT DATA Corporation
アジェンダ
1.NTTデータのビッグデータに対する取り組みについて
2.In-Database Analytics開発
3.スケールアップサーバ HP Superdome X でのベンチマークとデモ
3Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータビジネスの推進体制
R&D
システム開発
ソリューション提供
分析コンサルティング
技術開発本部 As COE of Business Intelligence in NTT DATA Group Evaluation of State-of-the-art Promotion of technical development and demonstration
お客様
NTTデータ数理システム Original Data Analysis Packages > 80 Data Scientists > 200 Analysis Use Cases
ビッグデータビジネス推進室 Cloud Based Solutions : BizXaaS BA Telco., Insurance, Banking, Retail, Manufacture…
NTTデータのビッグデータ活用=「ビジネスインテリジェンス」および「ビジネスアナリティクス」を
ベースとしたアプローチ
SVI
BDB
MSI
4Copyright © 2015 NTT DATA Corporation
業務の最適化
将来の予見
因果関係の発見
データ量の増大
データの多様化
データ取得の高頻度化
ビッグデータ
ビジネス
アナリティクス
要件 アーキテクチャ
Big Data基盤
Business Analytics基盤
分析テンプレート、分析AP
数理システム社 独自PKG群
NTTデータ独自のデータ分析技法
DWHアプライアンスHadoop
インメモリDB
1.NTTデータのビッグデータに対する取り組みについて
DWH/BI/BA/BDへの取り組み
DWH:データウェアハウス(Data Warehouse)/BI:ビジネスインテリジェンス(Business Intelligence)BA:ビジネスアナリティクス(Business Analytics)/BD:ビッグデータ(Big Data)
ビッグデータを対象にした分析技法・分析環境・基盤の整備を進め、ビジネスアナリティクスのサービス展開をサポート
5Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
4つのビジネスインテリジェンス
蓄積された膨大なデータから、隠れた関係性や規則性を発見例:顧客のスコアリング、リスクの計量化
発見型
ユーザ行動を理解し、一歩先回りして、気の利いたサービスや機能を提供例:レコメンド、不正検出
プロアクティブ型
新しい業務方式をデザインし、業務方式の変更に伴う効果を事前に試算例:SCM最適化、BPOに伴うリソース最適化
WHATーIF型
蓄積されたデータを様々な角度から集計・分析、見える化例:計画業務、経営管理、需給調整
集計分析型
代表的なBI
業務改革の領域
サービス革新の領域
これまでの案件実績から、独自に分類
6Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
異常検出型
予兆発見型
与信管理型
外れ値検出型
不正検出型
コンテクスト・アウェアネス型
マーチャンダイジング型
予測・制御型
リスク・シミュレーション型
収益シミュレーション型
リスクヘッジ型
最適化型
集計分析型BI
評価・要因分析型
プロセス・トレース型
7Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
異常検出型
予兆発見型
与信管理型
外れ値検出型
不正検出型
コンテクスト・アウェアネス型
マーチャンダイジング型
予測・制御型
リスク・シミュレーション型
収益シミュレーション型
リスクヘッジ型
最適化型
集計分析型BI
評価・要因分析型
プロセス・トレース型
目的に応じたシナリオを組込むことでビッグデータ活用を高度化する
8Copyright © 2015 NTT DATA Corporation
分析シナリオ類型 概要
① 予兆発見型 行動変化や状態変化の監視による予兆の発見
② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出
外れ値検出型 標準的な行動・状態の定義と逸脱の検出
③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算
リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算
リスク・ヘッジ型 業務のモデル化と最適化手法を用いた意思決定策の提示
最適化型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示
④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出
⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算
⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定
⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定
⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示
⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定
1.NTTデータのビッグデータに対する取り組みについて
【参考】BICLAVISシナリオ類型概要
9Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータのとらえ方
ヒト地球人口=70億人以上
モノIoTデバイス=300億以上(*)
センシング・データ ライフログ・データ
RFIDモノの運搬
各種センサ機器や構造体の状態
リモートセンシング環境、災害
HEMSエネルギー消費量履歴
SNSやブログ個人が発信する多様なデータ
EC商品探索プロセス
交通系ICカード電車の移動履歴
GPS車や人の位置
IB/ATM決済履歴
ヘルスケアデバイス健康状態
ビッグデータ
*2020年時点のGartner等による推定値
現実世界のデータ化
10Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータ活用への期待
10
社会
個人
限られた
社会リソースの
有効活用
変化の予兆を
察知して、
機先を制する
気の利いた知的なサービス
経験価値へのシフト
企業
低経済成長
少子高齢化
環境保護
グローバル競争激化
予測困難なマーケット
スマート端末の浸透
省電力社会
ソーシャルメディアの普及
ビッグデータは「社会」「企業」「個人」に貢献
的確な状況把握と迅速な意思決定が可能となり、経営メリットや競争優位性を左右する重要なテーマ
11Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
データ分析および技術の変遷
黎明期 ビッグデータ時代
分析トレンド
技術トレンド
分析ツールの登場(デスクトップ)
RDBMS+分析デスクトップツール
構造化データ非構造化データ
並列分散処理での大規模化(Hadoop)
CEP等でのリアルタイム化
RDBMS+分析サーバ
蓄積基盤と分析基盤の融合(In-Database Analytics)
コプロセッサへの処理オフロード
クラウド基盤の活用
単一データ
大規模化
リアルタイム化 大規模高速化
量的集約データ
量的個別データ質的データ
複雑な関係教師なしデータ
大規模化
統計解析多変量解析線型モデル
非線形モデル機械学習データマイニングテキストマイニング
並列処理集団学習
強化学習人工知能
自動化
12Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
変化する顧客ニーズ
見える化予測
(意思決定)
バッチ リアルタイム
SIベンダー(受託)
システム自身(自動学習)
従来 現在
分析目的
アルゴリズム/システムのブラッシュアップ主体
分析処理
全体傾向 個人単位分析対象
お客様のシステムへの期待の変化
14Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み(FY2014~)
データ活用AP
状況1(Volume:量の問題)
状況2(Variety:多様性の問題)
状況3(Velocity:速度の問題)
• 大量データをNWを介してDWHから分析処理に受け渡すのは非現実的
• 企業横断的な複合データで分析を行うため共通DB(統合DWH)が必要
• 発生し続けるデータを即座に分析する必要がある• ビジネススピードの速度に合わせて分析モデルを更新する必要がある
データ分析に関する要素技術は出そろってきている感はあるが、ビッグデータ分析プラットフォームは発展途上状態
DWH(データ蓄積基盤)
分析ツール(データ分析基盤)各種データ
15Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics概要
ステージング /正規化領域
分析モデル適用
分析モデル構築
エンドユーザ(ビジネスサイド)
データロード
分析者
変換
分析モデルデプロイ
DWH
各種データソース
サンプリング
従来のアプローチ
TypeA. すべての処理はDWH内で実施
分析モデル
SQL
ApplicationBuilding
TypeB. 主な処理はDWH内で実施し、小さな結果セットを分析ツールに受け渡す
(プッシュダウン / パススルー)
In-Database Analytics=DWHからのデータ抽出を行うことなく、高速に大量データに対するデータ分析の実現
16Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み目的
データガバナンスの
確立
分析モデルのポータビリティ向上
統合DWHにてデータ分析処理を実施することによる
Single Version Truthの実現
構築された分析モデル(数式)をスコアリングAP(Java、SQL等)に
組み替える手間を省く
大量のデータに対して統合蓄積基盤(DWH)内で高速にデータ分析処理を実現
目的To-Be(ビッグデータ対応)
分析スコアリングのパフォーマンス向上
分析チームの生産性向上
データのコピーを減らす
QCDの確保
データの移動を減らす
状況1(Volume)
課題
状況3(Velocity)
状況2(Variety)
ビッグデータに対する高速なデータ分析処理の実現=蓄積基盤(DWH)上での並列分散処理
17Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
NTTデータ版In-Database Analyticsのコンセプト
NTTデータ独自の分析方法論「BICLAVIS®」に対応したアルゴリズムの搭載→分析目的が明確になれば分析シナリオが決まり、分析アルゴリズムも定まる
NTTデータ数理システムのノウハウや資産を活かした短期・高品質の開発→分析精度の確保、大量データのハンドリング、計算量低減の工夫
0
Simulation
Engine
Statistics
Engine
Optimization
Engine
Analysis Scenario
Database
Analysis Procedure
Datafor Analysis
優位性
チャレンジ
マルチプラットフォーム対応 特定の製品の非依存 並列分散処理への対応
→多くの分析ツールはシングルスレッド処理 モデルの適用をリアルタイムに
→CEPへの分析モデル組み込み
ビッグデータ時代の分析処理(大量、高速)を実行するためのコアエンジン
18Copyright © 2015 NTT DATA Corporation
分析シナリオ類型 概要
① 予兆発見型 行動変化や状態変化の監視による予兆の発見
② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出
外れ値検出型 標準的な行動・状態の定義と逸脱の検出
③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算
リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算
リスク・ヘッジ型 業務のモデル化と最適化手法を用いた意思決定策の提示
最適化型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示
④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出
⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算
⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定
⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定
⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示
⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定
2.In-Database Analytics開発
【参考】BICLAVISシナリオ類型概要
19Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsに適合するアルゴリズムタイプ
1つの処理を細かなサブタスクに分割し並列処理できるアルゴリズム
1つの処理はそれ以上細分化は出来ないが、同様の処理を異なる入力データ・パラメータで同時に実行させ、出力結果をマージする
K-Meansetc.
Linear Regression Random Forest
etc.
処理速度向上 大量データ
処理
処理速度向上 分析精度向上
処理のタイプ アルゴリズム例 効果
20Copyright © 2015 NTT DATA Corporation
[需要予測] Linear
Regression ARIMA
etc.
[スコアリング] Random Forest Neural Network
etc.
[セグメント分割] K-Means Matrix
Decompositionetc.
2.In-Database Analytics開発
In-Database Analyticsに適合するBICLAVISシナリオ
④ターゲティング型
③予測・制御型
⑧コンテクスト・アウェアネス型
BICLAVISシナリオ
説明
ターゲット層発見の起点となるセグメント分割
ターゲット顧客発見のためのスコアリング
過去時系列から将来推移の予測
商品などのアイテムレコメンド
[レコメンデーション] Collaborative
Filtering Matrix
Decompositionetc.
赤字:FY2014実装
21Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics現状と今後の予定
TeradataHANA/IQOracle
In-Database Analytics Engine Core
I/F for Oracle
I/F for SAP
・・・
DW Platform
I/FUsing UDF
Random Forest
K-Means ・・・
ApplicationJava, C etc.
R, Python VMStudio・・・
Algorithms
開発スコープ
SQL Push Down
I/F for Teradata
Linear Regression
お客様とのPoCを通じて成長・発展させていく
22Copyright © 2015 NTT DATA Corporation
SQL処理パート
In-Database Analyticsは各RDBMSが備える、独自のユーザ定義関数を実装するための機能であるUDF(User Defined Function)を用いて、C/C++で実装
分析アルゴリズム処理はSQL処理パートとUDF処理パートに分けられる
UDF処理パート
分析モデル構築分析モデル構築前処理前処理
2.In-Database Analytics開発
In-Database Analytics実装方式
分析モデル構築前処理
学習データ
縦横変換等
分析モデル
分析モデル統合
Reduce
分析モデル構築
Mapサ
ンプリング
カテゴリ値→
数値
変換処理
学習データ情報
分析パラメータ
実行パラメータ
モデル構築
UD
F
入力
モデル構築
UD
F
出力
モデル構築S
P
入力
カテゴリ値→
数値
変換マップ作成
分析モデル
(一次)
23Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
リアルタイムデータ分析
DWH
CEPストリームデータ
モデル構築(バッチ処理)
モデル適用(リアルタイム処理)
モデル適用(バッチ処理)
AnalysisModel
ModelDeploy
DWH内で作成した分析モデルをCEPに適用することで、ストリームデータに対してリアルタイムに予測・スコアリングが可能となる
モデル構築(R等)
モデル適用(その他AP)
リアルタイム予測・スコアリング
データ分析におけるこれまでの課題
分析モデルの適用には別途アプリケーション化が必要→QCDの低下につながる
どの製品でも実現できていないため、個別開発が必要
分析モデルにPMML等のポータビリティを持たせる
25Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
HP Superdome Xとは
スケールアップに特化することで実現した大規模統合処理基盤
異次元の拡張性
標準のOSで稼動サーバーを分割しての使用が可能
高信頼性を実現
Xeon E7 v2 16CPU, 240コア
12TBメモリ
データベース
データ分析
運用・管理
完全に電気的に分離され、
障害の影響を他に及ぼさない
パーティションに分割すること
が可能。
標準のオペレーティングシステムをサポート
• Red Hat Enterprise Linux 6.5, 6.6, 7.1
• SUSE Linux Enterprise Server 11 SP3
• Windows Server 2012 R2
• VMWare vSphere 5.5Update 2
1点障害を極限まで減らした
ハイエンドUNIXサーバー譲りの高い信頼性
• 故障箇所のブート時自動切り離し
• クロック・ジェネレーターの冗長化
• DDDCによるメモリ保護
26Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマークの目的
スケールアップさせることでより効率的にHWリソースを活用し、データ分析をより高速に処理させることをねらう
スケールアウト構成
複数ノードをNWでつなぎ、データを転送する必要がある
これまでのスケールアップ構成
QPI(QuickPath Interconnect)では全CPU間での直接データ転送ができない
HP Superdome Xによる新しいスケールアップ構成
XNC2チップセットによる全CPUを高速かつワンホップで接続
XNC2チップセット
27Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマークシナリオ
スケールアップによるクラスタリング処理の性能向上を検証・評価
ベンチマークテーマ In-Database Analyticsを用いたクラスタリング分析(K-Means) 世界の全人口(72億人)情報を元にした分類を想定
検証データ 件数:100億件 属性:10個(性別、年齢、国籍、収入、etc.) クラスタ数:4
コア数パターン
1
2
3
60
120
240
パターン# CPUコア数
28Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【参考】K-Meansについて
一番近いクラスタ中心にデータ点を割り当てし、データを分類
1.ランダムにクラスタ数分、点(クラスタ中心)をプロットする
2.各点に対して一番近いクラスタ中心に割当てる(分類する)
3.分類されたクラスタ内で中心点を再計算
2-3を各クラスタ中心の座標が変わらなくなるまで繰り返す
29Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
アルゴリズム説明
MapReduceを用いた分散処理により、CPUリソースを効率的に利用可能
In-Database AnalyticsにおけるK-Meansは距離計算(Map)と中心の再計算(Reduce)により、全データを類似性の高いデータ群に分類する
分析モデル構築分析モデル構築分析モデル構築(UDF)
学習データ
分析モデル
分析モデル統合
Reduce
分析モデル構築
Mapモ
デル構築
UD
F
入力
モデル構築
UD
F
出力
分析モデル
(一次)
Map部:距離計算
学習データ
…
CPU
データ分割 計算結果出力
分析モデル(一次)
Reduce部:中心再計算分析モデル
CPU
計算結果集約
クラスタ中心出力
30Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク環境
HWHP Superdome X
Cell : 8(フル搭載)CPU : Intel® Xeon® プロセッサ E7-v2 ファミリー 計240coresメモリ : 12TBOS : Red Hat Linux Enterprise 6.6
HP MSA 2040Disk : SAS 900GB × 12本 (10krpm)FC : 16Gbps × 8本
SWRDBMS : SAP IQ 16.0 sp10β分析エンジン : NTT DATA In-Database Analytics 1.0β
nParは使用せずシングルパーティション構成=すべてのCPUコアを1つの分析処理に割り当てる
16Gbps×8
31Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
デモ環境
InternetVPN
秋葉原UDXCONFERENCE 6F
日本HP大島ソリューションセンター
HP Superdome X240 Core, 12TB RAMSAP IQ 16.0 SP10βNTT DATA In-Database Analytics 1.0β
32Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
デモシナリオ
ポイント Many Coreを用いたクラスタリング分析を実演 CPUリソースをフル活用し分析する様子をモニタリング
デモシナリオ ベンチマークと同様にヒト情報を対象にしたクラスタリング分析 データ
件数:13.5億(中国の人口相当) 説明変数:10個(性別、年齢、国籍、収入、etc.)
割当コア数:120 比較対象
分析ツール:R データ:1.2億(日本の人口相当) 割当コア数:120
リソースの有効活用状況および高速処理をご覧頂きます
33Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【再掲】ベンチマークシナリオ
スケールアップによるクラスタリング処理の性能向上を検証・評価
ベンチマークテーマ In-Database Analyticsを用いたクラスタリング分析(K-Means) 世界の全人口(72億人)情報を元にした分類を想定
検証データ 件数:100億件 属性:10個(性別、年齢、国籍、収入、etc.) クラスタ数:4
コア数パターン
1
2
3
60
120
240
パターン# CPUコア数
34Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -1-
240
4,000
3,757sec
(1h)
2,000 3,0000 1,000
1,016sec
(17min)
(処理時間:秒)
60
入力件数=100億件すべてNTTD In-Database Analyticsの結果
コア数ごとのK-Means検証結果
高速
120 2,586sec
(45min)
(コア数)
35Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -2-
HP Superdome XIntel Xeon E7 v2,
240Core
20,000
10,859sec
(3h1min)
10,000 15,0000 5,000
1,016sec
(17min)
(処理時間:秒)
Intel WhiteBoxIntel Xeon E5 v3,
28Core
入力件数=100億件すべてNTTD In-Database Analyticsの結果
K-Meansスケールアップ検証結果
高速
36Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
ベンチマーク結果 -3-
異次元のCPUリソースを1クエリ&シングルプロセスで100%活用したデータ分析処理を実現
CPU使用率(240コア、縦軸:使用率(%)、横軸:時間)
処理が終わったコアから順次開放
nParは使用せずシングルパーティション構成=OSは1つベースのDWHプロセス(IQプロセス)も1つ
実行クエリ(SQL)も1命令
37Copyright © 2015 NTT DATA Corporation
3.スケールアップサーバ HP Superdome X でのベンチマーク
【参考】ベンチマーク結果 -3-
大量のデータを従来の分析速度よりも高速に、“1サーバ”で分析することが可能
100万件 1,000万件 1億件 10億件 100億件
NTTD In-DB HP Superdome X 240Core
- - - -1,016
(17min)
NTTD In-DB ※ 16 23 177 1,400(23min)
10,859(3h1min)
R (OSS)※ 16 179 実行不可 実行不可 -
製品A※ 21 111 実行不可 実行不可 -
製品B※ 24 250 2,817 実行不可 -
製品C※ 20 111 1,259 21,600(6h)
-
他社分析製品との比較(単位:sec)
※Intel Xeon E5 v3 2.6GHz, 28Core, 64GB RAM
38Copyright © 2015 NTT DATA Corporation
まとめ
NTT DATA In-Database Analytics
蓄積された大量データに対するデータ分析を高速に実行するための分析技術 これまでのデータ分析では扱えなかったデータ量を処理することで新たな価値を創出 NTTデータ数理システムの信頼性の高い分析アルゴリズムを搭載 NTTデータのデータ分析方法論「BICLAVIS」をベースとしたアルゴリズムの選定
スケールアップへの回帰
単一ノードのため、複雑な機構や管理を必要としない 複雑なワークロードに対しても柔軟なリソース再配置が可能 潤沢なリソースを活用できるHP Superdome Xは
In-Database Analyticsとの相性がよい