[db tech showcase tokyo 2015] d34:in-database...

Copyright © 2015 NTT DATA Corporation

2015/06/12株式会社NTTデータ

技術開発本部サービスイノベーションセンタデータウェアハウス／ビジネスインテリジェンス・ラボ®

In-Database Analyticsが実現する圧倒的なデータ分析パフォーマンス

1Copyright © 2015 NTT DATA Corporation

アジェンダ

１．NTTデータのビッグデータに対する取り組みについて

２．In-Database Analytics開発

３．スケールアップサーバ HP Superdome X でのベンチマークとデモ



ビッグデータビジネスの推進体制

R&D

システム開発

ソリューション提供

分析コンサルティング

技術開発本部 As COE of Business Intelligence in NTT DATA Group Evaluation of State-of-the-art Promotion of technical development and demonstration

お客様

NTTデータ数理システム Original Data Analysis Packages > 80 Data Scientists > 200 Analysis Use Cases

ビッグデータビジネス推進室 Cloud Based Solutions : BizXaaS BA Telco., Insurance, Banking, Retail, Manufacture…

NTTデータのビッグデータ活用＝「ビジネスインテリジェンス」および「ビジネスアナリティクス」を

ベースとしたアプローチ

SVI

BDB

MSI


業務の最適化

将来の予見

因果関係の発見

データ量の増大

データの多様化

データ取得の高頻度化

ビッグデータ

ビジネス

アナリティクス

要件アーキテクチャ

Big Data基盤

Business Analytics基盤

分析テンプレート、分析AP

数理システム社独自ＰＫＧ群

ＮＴＴデータ独自のデータ分析技法

DWHアプライアンスHadoop

インメモリDB


DWH/BI/BA/BDへの取り組み

DWH：データウェアハウス（Data Warehouse）／BI：ビジネスインテリジェンス（Business Intelligence）BA：ビジネスアナリティクス（Business Analytics）／BD：ビッグデータ（Big Data）

ビッグデータを対象にした分析技法・分析環境・基盤の整備を進め、ビジネスアナリティクスのサービス展開をサポート



４つのビジネスインテリジェンス

蓄積された膨大なデータから、隠れた関係性や規則性を発見例：顧客のスコアリング、リスクの計量化

発見型

ユーザ行動を理解し、一歩先回りして、気の利いたサービスや機能を提供例：レコメンド、不正検出

プロアクティブ型

新しい業務方式をデザインし、業務方式の変更に伴う効果を事前に試算例：SCM最適化、BPOに伴うリソース最適化

ＷＨＡＴーＩＦ型

蓄積されたデータを様々な角度から集計・分析、見える化例：計画業務、経営管理、需給調整

集計分析型

代表的なＢＩ

業務改革の領域

サービス革新の領域

これまでの案件実績から、独自に分類


プロアクティブ型ＢＩＷＨＡＴ-ＩＦ型ＢＩ

発見型ＢＩ


4つのBIと情報分析・活用シナリオ

ターゲティング型

異常検出型

予兆発見型

与信管理型

外れ値検出型

不正検出型

コンテクスト・アウェアネス型

マーチャンダイジング型

予測・制御型

リスク・シミュレーション型

収益シミュレーション型

リスクヘッジ型

最適化型

集計分析型ＢＩ

評価・要因分析型

プロセス・トレース型


プロアクティブ型ＢＩＷＨＡＴ-ＩＦ型ＢＩ

発見型ＢＩ


4つのBIと情報分析・活用シナリオ

ターゲティング型

異常検出型

予兆発見型

与信管理型

外れ値検出型

不正検出型

コンテクスト・アウェアネス型

マーチャンダイジング型

予測・制御型

リスク・シミュレーション型

収益シミュレーション型

リスクヘッジ型

最適化型

集計分析型ＢＩ

評価・要因分析型

プロセス・トレース型

目的に応じたシナリオを組込むことでビッグデータ活用を高度化する


分析シナリオ類型概要

① 予兆発見型行動変化や状態変化の監視による予兆の発見

② 異常検出型不正検出型不正・異常の定義と合致／類似する行動・状態の検出

外れ値検出型標準的な行動・状態の定義と逸脱の検出

③ 予測・制御型収益ｼﾐｭﾚｰｼｮﾝ型業務改善による増収効果の試算

ﾘｽｸ･ｼﾐｭﾚｰｼｮﾝ型業務のモデル化と不確実要素によるリスクの試算

リスク・ヘッジ型業務のモデル化と最適化手法を用いた意思決定策の提示

最適化型業務のモデル化とリスク分散手法を用いたリスク低減策の提示

④ ターゲティング型見込み顧客など重点アプローチすべきターゲットの抽出

⑤ 与信管理型顧客・企業の滞納・倒産リスクの試算

⑥ 評価・要因分析型さまざまな対象の比較評価と改善要因の特定

⑦ マーチャンダイジング型さまざまな視点での売れ筋ランクの作成と品揃えの決定

⑧ コンテクスト・アウェアネス型行動履歴・嗜好の分析から一歩先回りしたサービスの提示

⑨ プロセス・トレース型成長・発展プロセスの抽出と促進・阻害の特定


【参考】BICLAVISシナリオ類型概要



ビッグデータのとらえ方

ヒト地球人口＝70億人以上

モノIoTデバイス＝300億以上（*）

センシング・データライフログ・データ

RFIDモノの運搬

各種センサ機器や構造体の状態

リモートセンシング環境、災害

HEMSエネルギー消費量履歴

SNSやブログ個人が発信する多様なデータ

EC商品探索プロセス

交通系ICカード電車の移動履歴

GPS車や人の位置

IB/ATM決済履歴

ヘルスケアデバイス健康状態

ビッグデータ

*2020年時点のGartner等による推定値

現実世界のデータ化



ビッグデータ活用への期待

10

社会

個人

限られた

社会リソースの

有効活用

変化の予兆を

察知して、

機先を制する

気の利いた知的なサービス

経験価値へのシフト

企業

低経済成長

少子高齢化

環境保護

グローバル競争激化

予測困難なマーケット

スマート端末の浸透

省電力社会

ソーシャルメディアの普及

ビッグデータは「社会」「企業」「個人」に貢献

的確な状況把握と迅速な意思決定が可能となり、経営メリットや競争優位性を左右する重要なテーマ



データ分析および技術の変遷

黎明期ビッグデータ時代

分析トレンド

技術トレンド

分析ツールの登場（デスクトップ）

RDBMS＋分析デスクトップツール

構造化データ非構造化データ

並列分散処理での大規模化（Hadoop）

CEP等でのリアルタイム化

RDBMS＋分析サーバ

蓄積基盤と分析基盤の融合(In-Database Analytics)

コプロセッサへの処理オフロード

クラウド基盤の活用

単一データ

大規模化

リアルタイム化大規模高速化

量的集約データ

量的個別データ質的データ

複雑な関係教師なしデータ

大規模化

統計解析多変量解析線型モデル

非線形モデル機械学習データマイニングテキストマイニング

並列処理集団学習

強化学習人工知能

自動化



変化する顧客ニーズ

見える化予測

（意思決定）

バッチリアルタイム

SIベンダー（受託）

システム自身（自動学習）

従来現在

分析目的

アルゴリズム/システムのブラッシュアップ主体

分析処理

全体傾向個人単位分析対象

お客様のシステムへの期待の変化



In-Database Analyticsへの取り組み（FY2014～）

データ活用AP

状況1（Volume：量の問題）

状況2（Variety：多様性の問題）

状況3（Velocity：速度の問題）

• 大量データをNWを介してDWHから分析処理に受け渡すのは非現実的

• 企業横断的な複合データで分析を行うため共通DB（統合DWH）が必要

• 発生し続けるデータを即座に分析する必要がある• ビジネススピードの速度に合わせて分析モデルを更新する必要がある

データ分析に関する要素技術は出そろってきている感はあるが、ビッグデータ分析プラットフォームは発展途上状態

DWH（データ蓄積基盤）

分析ツール（データ分析基盤）各種データ



In-Database Analytics概要

ステージング /正規化領域

分析モデル適用

分析モデル構築

エンドユーザ(ビジネスサイド)

データロード

分析者

変換

分析モデルデプロイ

DWH

各種データソース

サンプリング

従来のアプローチ

TypeA. すべての処理はDWH内で実施

分析モデル

SQL

ApplicationBuilding

TypeB. 主な処理はDWH内で実施し、小さな結果セットを分析ツールに受け渡す

(プッシュダウン / パススルー)

In-Database Analytics＝ＤＷＨからのデータ抽出を行うことなく、高速に大量データに対するデータ分析の実現



In-Database Analyticsへの取り組み目的

データガバナンスの

確立

分析モデルのポータビリティ向上

統合DWHにてデータ分析処理を実施することによる

Single Version Truthの実現

構築された分析モデル（数式）をスコアリングAP（Java、SQL等）に

組み替える手間を省く

大量のデータに対して統合蓄積基盤（DWH）内で高速にデータ分析処理を実現

目的To-Be（ビッグデータ対応）

分析スコアリングのパフォーマンス向上

分析チームの生産性向上

データのコピーを減らす

QCDの確保

データの移動を減らす

状況1（Volume）

課題

状況3（Velocity）

状況2（Variety）

ビッグデータに対する高速なデータ分析処理の実現＝蓄積基盤（DWH）上での並列分散処理



NTTデータ版In-Database Analyticsのコンセプト

NTTデータ独自の分析方法論「BICLAVIS®」に対応したアルゴリズムの搭載→分析目的が明確になれば分析シナリオが決まり、分析アルゴリズムも定まる

NTTデータ数理システムのノウハウや資産を活かした短期・高品質の開発→分析精度の確保、大量データのハンドリング、計算量低減の工夫

0

Simulation

Engine

Statistics

Engine

Optimization

Engine

Analysis Scenario

Database

Analysis Procedure

Datafor Analysis

優位性

チャレンジ

マルチプラットフォーム対応特定の製品の非依存並列分散処理への対応

→多くの分析ツールはシングルスレッド処理モデルの適用をリアルタイムに

→CEPへの分析モデル組み込み

ビッグデータ時代の分析処理（大量、高速）を実行するためのコアエンジン


分析シナリオ類型概要

① 予兆発見型行動変化や状態変化の監視による予兆の発見

② 異常検出型不正検出型不正・異常の定義と合致／類似する行動・状態の検出

外れ値検出型標準的な行動・状態の定義と逸脱の検出

③ 予測・制御型収益ｼﾐｭﾚｰｼｮﾝ型業務改善による増収効果の試算

ﾘｽｸ･ｼﾐｭﾚｰｼｮﾝ型業務のモデル化と不確実要素によるリスクの試算

リスク・ヘッジ型業務のモデル化と最適化手法を用いた意思決定策の提示

最適化型業務のモデル化とリスク分散手法を用いたリスク低減策の提示

④ ターゲティング型見込み顧客など重点アプローチすべきターゲットの抽出

⑤ 与信管理型顧客・企業の滞納・倒産リスクの試算

⑥ 評価・要因分析型さまざまな対象の比較評価と改善要因の特定

⑦ マーチャンダイジング型さまざまな視点での売れ筋ランクの作成と品揃えの決定

⑧ コンテクスト・アウェアネス型行動履歴・嗜好の分析から一歩先回りしたサービスの提示

⑨ プロセス・トレース型成長・発展プロセスの抽出と促進・阻害の特定


【参考】BICLAVISシナリオ類型概要



In-Database Analyticsに適合するアルゴリズムタイプ

１つの処理を細かなサブタスクに分割し並列処理できるアルゴリズム

１つの処理はそれ以上細分化は出来ないが、同様の処理を異なる入力データ・パラメータで同時に実行させ、出力結果をマージする

K-Meansetc.

Linear Regression Random Forest

etc.

処理速度向上大量データ

処理

処理速度向上分析精度向上

処理のタイプアルゴリズム例効果


[需要予測] Linear

Regression ARIMA

etc.

[スコアリング] Random Forest Neural Network

etc.

[セグメント分割] K-Means Matrix

Decompositionetc.


In-Database Analyticsに適合するBICLAVISシナリオ

④ターゲティング型

③予測・制御型

⑧コンテクスト・アウェアネス型

BICLAVISシナリオ

説明

ターゲット層発見の起点となるセグメント分割

ターゲット顧客発見のためのスコアリング

過去時系列から将来推移の予測

商品などのアイテムレコメンド

[レコメンデーション] Collaborative

Filtering Matrix

Decompositionetc.

赤字：FY2014実装



In-Database Analytics現状と今後の予定

TeradataHANA/IQOracle

In-Database Analytics Engine Core

I/F for Oracle

I/F for SAP

・・・

DW Platform

I/FUsing UDF

Random Forest

K-Means ・・・

ApplicationJava, C etc.

R, Python VMStudio・・・

Algorithms

開発スコープ

SQL Push Down

I/F for Teradata

Linear Regression

お客様とのPoCを通じて成長・発展させていく


SQL処理パート

In-Database Analyticsは各RDBMSが備える、独自のユーザ定義関数を実装するための機能であるUDF(User Defined Function)を用いて、C/C++で実装

分析アルゴリズム処理はSQL処理パートとUDF処理パートに分けられる

UDF処理パート

分析モデル構築分析モデル構築前処理前処理


In-Database Analytics実装方式

分析モデル構築前処理

学習データ

縦横変換等

分析モデル

分析モデル統合

Reduce


Mapサ

ンプリング

カテゴリ値→

数値

変換処理

学習データ情報

分析パラメータ

実行パラメータ

モデル構築

UD

F

入力

モデル構築

UD

F

出力

モデル構築S

P

入力

カテゴリ値→

数値

変換マップ作成

分析モデル

（一次）



リアルタイムデータ分析

DWH

CEPストリームデータ

モデル構築（バッチ処理）

モデル適用（リアルタイム処理）

モデル適用（バッチ処理）

AnalysisModel

ModelDeploy

DWH内で作成した分析モデルをCEPに適用することで、ストリームデータに対してリアルタイムに予測・スコアリングが可能となる

モデル構築（Ｒ等）

モデル適用（その他AP）

リアルタイム予測・スコアリング

データ分析におけるこれまでの課題

分析モデルの適用には別途アプリケーション化が必要→QCDの低下につながる

どの製品でも実現できていないため、個別開発が必要

分析モデルにPMML等のポータビリティを持たせる


３．スケールアップサーバ HP Superdome X でのベンチマーク



HP Superdome Xとは

スケールアップに特化することで実現した大規模統合処理基盤

異次元の拡張性

標準のOSで稼動サーバーを分割しての使用が可能

高信頼性を実現

Xeon E7 v2 16CPU, 240コア

12TBメモリ

データベース

データ分析

運用・管理

完全に電気的に分離され、

障害の影響を他に及ぼさない

パーティションに分割すること

が可能。

標準のオペレーティングシステムをサポート

• Red Hat Enterprise Linux 6.5, 6.6, 7.1

• SUSE Linux Enterprise Server 11 SP3

• Windows Server 2012 R2

• VMWare vSphere 5.5Update 2

1点障害を極限まで減らした

ハイエンドUNIXサーバー譲りの高い信頼性

• 故障箇所のブート時自動切り離し

• クロック・ジェネレーターの冗長化

• DDDCによるメモリ保護



ベンチマークの目的

スケールアップさせることでより効率的にHWリソースを活用し、データ分析をより高速に処理させることをねらう

スケールアウト構成

複数ノードをNWでつなぎ、データを転送する必要がある

これまでのスケールアップ構成

QPI(QuickPath Interconnect)では全CPU間での直接データ転送ができない

HP Superdome Xによる新しいスケールアップ構成

XNC2チップセットによる全CPUを高速かつワンホップで接続

XNC2チップセット

http://pr.nttdata.co.jp/brand/iconset/industry.html










































ベンチマークシナリオ

スケールアップによるクラスタリング処理の性能向上を検証・評価

ベンチマークテーマ In-Database Analyticsを用いたクラスタリング分析（K-Means）世界の全人口（72億人）情報を元にした分類を想定

検証データ件数：100億件属性：10個(性別、年齢、国籍、収入、etc.) クラスタ数：4

コア数パターン

1

2

3

60

120

240

パターン# CPUコア数



【参考】K-Meansについて

一番近いクラスタ中心にデータ点を割り当てし、データを分類

１．ランダムにクラスタ数分、点（クラスタ中心）をプロットする

２．各点に対して一番近いクラスタ中心に割当てる（分類する）

３．分類されたクラスタ内で中心点を再計算

２－３を各クラスタ中心の座標が変わらなくなるまで繰り返す



アルゴリズム説明

MapReduceを用いた分散処理により、CPUリソースを効率的に利用可能

In-Database AnalyticsにおけるK-Meansは距離計算（Map）と中心の再計算(Reduce)により、全データを類似性の高いデータ群に分類する

分析モデル構築分析モデル構築分析モデル構築（UDF）

学習データ

分析モデル

分析モデル統合

Reduce


Mapモ

デル構築

UD

F

入力

モデル構築

UD

F

出力

分析モデル

（一次）

Map部：距離計算

学習データ

…

CPU

データ分割計算結果出力

分析モデル（一次）

Reduce部：中心再計算分析モデル

CPU

計算結果集約

クラスタ中心出力









ベンチマーク環境

HWHP Superdome X

Cell ： 8（フル搭載）CPU ： Intel® Xeon® プロセッサ E7-v2 ファミリー計240coresメモリ： 12TBOS ： Red Hat Linux Enterprise 6.6

HP MSA 2040Disk ： SAS 900GB × 12本 (10krpm)FC ： 16Gbps × 8本

SWRDBMS ： SAP IQ 16.0 sp10β分析エンジン： NTT DATA In-Database Analytics 1.0β

nParは使用せずシングルパーティション構成＝すべてのCPUコアを1つの分析処理に割り当てる

16Gbps×8



デモ環境

InternetVPN

秋葉原UDXCONFERENCE 6F

日本HP大島ソリューションセンター

HP Superdome X240 Core, 12TB RAMSAP IQ 16.0 SP10βNTT DATA In-Database Analytics 1.0β



デモシナリオ

ポイント Many Coreを用いたクラスタリング分析を実演 CPUリソースをフル活用し分析する様子をモニタリング

デモシナリオベンチマークと同様にヒト情報を対象にしたクラスタリング分析データ

件数：1３.5億（中国の人口相当）説明変数：10個(性別、年齢、国籍、収入、etc.)

割当コア数：120 比較対象

分析ツール：R データ：1.2億（日本の人口相当）割当コア数：120

リソースの有効活用状況および高速処理をご覧頂きます



【再掲】ベンチマークシナリオ

スケールアップによるクラスタリング処理の性能向上を検証・評価

ベンチマークテーマ In-Database Analyticsを用いたクラスタリング分析（K-Means）世界の全人口（72億人）情報を元にした分類を想定

検証データ件数：100億件属性：10個(性別、年齢、国籍、収入、etc.) クラスタ数：4

コア数パターン

1

2

3

60

120

240

パターン# CPUコア数



ベンチマーク結果 -1-

240

4,000

3,757sec

(1h)

2,000 3,0000 1,000

1,016sec

(17min)

(処理時間：秒)

60

入力件数＝100億件すべてNTTD In-Database Analyticsの結果

コア数ごとのK-Means検証結果

高速

120 2,586sec

(45min)

(コア数)




HP Superdome XIntel Xeon E7 v2,

240Core

20,000

10,859sec

(3h1min)

10,000 15,0000 5,000

1,016sec

(17min)

(処理時間：秒)

Intel WhiteBoxIntel Xeon E5 v3,

28Core

入力件数＝100億件すべてNTTD In-Database Analyticsの結果

K-Meansスケールアップ検証結果

高速




異次元のCPUリソースを1クエリ＆シングルプロセスで100%活用したデータ分析処理を実現

CPU使用率（240コア、縦軸：使用率(%)、横軸：時間）

処理が終わったコアから順次開放

nParは使用せずシングルパーティション構成＝OSは1つベースのDWHプロセス（IQプロセス）も1つ

実行クエリ（SQL）も1命令



【参考】ベンチマーク結果 -3-

大量のデータを従来の分析速度よりも高速に、“１サーバ”で分析することが可能

100万件 1,000万件 1億件 10億件 100億件

NTTD In-DB HP Superdome X 240Core

- - - -1,016

(17min)

NTTD In-DB ※ 16 23 177 1,400(23min)

10,859(3h1min)

R (OSS)※ 16 179 実行不可実行不可 -

製品A※ 21 111 実行不可実行不可 -

製品B※ 24 250 2,817 実行不可 -

製品C※ 20 111 1,259 21,600(6h)

-

他社分析製品との比較（単位：sec）

※Intel Xeon E5 v3 2.6GHz, 28Core, 64GB RAM


まとめ

NTT DATA In-Database Analytics

蓄積された大量データに対するデータ分析を高速に実行するための分析技術これまでのデータ分析では扱えなかったデータ量を処理することで新たな価値を創出 NTTデータ数理システムの信頼性の高い分析アルゴリズムを搭載 NTTデータのデータ分析方法論「BICLAVIS」をベースとしたアルゴリズムの選定

スケールアップへの回帰

単一ノードのため、複雑な機構や管理を必要としない複雑なワークロードに対しても柔軟なリソース再配置が可能潤沢なリソースを活用できるHP Superdome Xは

In-Database Analyticsとの相性がよい



※資料中のその他の商品名、会社名、団体名は、各社の商標または登録商標です。

[db tech showcase tokyo 2015] d34:in-database...

Technology