hadoop内データに基づく簡単・高速モデリングの実現(cloudera world tokyo 2014...
DESCRIPTION
■Hadoop内データに基づく簡単・高速モデリングの実現 (Cloudera World Tokyo 2014 LT講演)TRANSCRIPT
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
インメモリ・ビジュアルモデリング製品SAS® Visual Statisticsのご紹介
SAS Institute Japan株式会社
Hadoop内データに基づく簡単・高速モデリングの実現
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
In-Memoryテクノロジーを活用し、大量データ・ビッグデータに対する分析モデルを簡単操作で、超高速に短期間で作成・評価し、モデルの精度を向上し、企業の競争力強化に貢献できる、ハイパフォーマンス・ビジュアルデータモデリング製品
全てのデータを一度に数秒で解析し、即座にモデルを生成し評価できる
SAS® Visual Statistics とは
EXPLORE AND
DISCOVERPREDICT AND
REFINE
DEPLOY AND
MONITOR
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
分析モデル開発・評価プロセスの課題
モデル構築のための限られたデータに対する探索
予め決めうちされた変数に基づくモデル開発
モデル構築のためのデータ探索に多大な時間を要する
モデルの精度向上は頭打ち状態
予め決めうちされたモデリング手法モデル生成に多大な
時間を要する
モデル開発の課題
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
• モデル作成/評価/スコアリングコード生成
分析モデル作成管理
• データロード/アンロード• セキュリティ設定
データクエリ作成
• 複数テーブル間結合• 分析用データ準備
SAS® LASR™ ANALYTIC SERVERインメモリー分析エンジン
SAS® Visual Statistics : コンポーネントハブ• 共通の入り口
• 全ての機能にアクセス
• 役割に基づくビュー
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
インメモリー分析エンジン
廉価なブレードサーバーで、コストパフォーマンス向上
ブレードサーバーを活用し、データ量増加に柔軟な拡張で対応
Server Tier / Mid TierBlade 1
Blade 5Blade 4Blade 3Blade 2
・・・
Memory Memory Memory Memory
データをHDFSに均等分散配置後、並列でメモリーへ高速ロード
各ノードで、大量データに対する分析処理を超高速並列実行
同時解析項目数など、制限の無いインメモリー分析エンジン
Data SourceERP CRM SCM SFA Web
・・・
Oracle(Exadata) DB2 SQL Server Teradata Netezza Flat_file
SAS®
LASR
ANALYTIC SERVER
HDFS HDFS HDFS HDFSHDFS HDFS HDFS HDFS
Distributed版分散イメージ図
Hadoop
高速モデリングでモデル精度を向上的を得た施策の実施が可能に!
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Asymmetric 並列高速ローディングSAS
®LASR
ANALYTIC SERVER
HDFS
HDFS
HDFS
HDFS
Hadoop Cluster
・・
EP
EP
EP
EP
SAS LASR Analytic Server
SAS Visual Analytics
Client
メモリー
・・
Root Node
Worker Node 1
Name Node
Data Node 1
Data Node 2
Data Node 3
Data Node n
Worker Node 2
Worker Node 3
Worker Node n
EP : SAS Embedded Processing
メモリー
メモリー
メモリー
LASR メモリー内へのデータロード時間
を短縮
Asymmetric=
Hadoopノード数とLASRノード数は不一致でもOK
*1
*2
*2:Cloudera, Hortonworksに対応Teradata, Pivotal, Oracle, SAP HANA 各クラスタにも対応
*1:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Hadoop と LASRの共存構成SAS
®LASR
ANALYTIC SERVER
HDFS
HDFS
HDFS
HDFS
Hadoop Cluster
・・
Name Node
Data Node 1
Data Node 2
Data Node 3
Data Node n
メモリー
SAS LASR Analytic Server
Root Node
Worker Node 1
Worker Node 2
Worker Node 3
Worker Node n
SAS Visual Analytics
Client
LASR メモリー内へのデータロード時間
を最小化
メモリー
メモリー
メモリー
Asymmetric=
Hadoopノード数とLASRノード数は不一致でもOK
*1
Cloudera, Hortonworksに対応*1:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS®
VISUAL
STATISTICSモデル構築
• 予測的(Predictive)手法
• 線形回帰分析
• ロジスティック回帰
• 一般化線形モデル
• ディシジョンツリー
• 記述的(Descriptive)手法
• クラスタリング
• グループ毎の変数影響度分析/モデル生成
• モデル自動更新
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS®
VISUAL
STATISTICSモデル評価とスコアコード生成
• リフト(適合度)チャート、ROCチャート、誤分類テーブルなどを
用いたモデル比較
• インタラクティブにリフト(適合度)を評価
• 予測値のカットオフをインタラクティブに定義
• スコアリング用の Base SAS コードを生成
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Hadoop内データの有効活用HADOOP + SAS VA
Hadoop導入済み 今後Hadoop導入検討中
大量データに基づくモデル開発を高速&ビジュア
ルに行いたい
ストレスの無いパフォーマンスで試行錯誤を繰り返し、モデルの精
度を高めたい
勘と経験に基づくモデル開発から脱却し、ビジネスに直結する成果を出し、競合優位性を強化したい
Hadoop Cluster SAS LASR Analytic Server
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com