hadoop内データに基づく簡単・高速モデリングの実現(cloudera world tokyo 2014...

11
Copyright © 2012, SAS Institute Inc. All rights reserved. インメモリ・ビジュアルモデリング製品 SAS ® Visual Statisticsのご紹介 SAS Institute Japan株式会社 Hadoop内データに基づく簡単・高速モデリングの実現

Upload: hadoop-conference-japan

Post on 04-Jul-2015

370 views

Category:

Technology


2 download

DESCRIPTION

■Hadoop内データに基づく簡単・高速モデリングの実現 (Cloudera World Tokyo 2014 LT講演)

TRANSCRIPT

Page 1: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

インメモリ・ビジュアルモデリング製品SAS® Visual Statisticsのご紹介

SAS Institute Japan株式会社

Hadoop内データに基づく簡単・高速モデリングの実現

Page 2: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

In-Memoryテクノロジーを活用し、大量データ・ビッグデータに対する分析モデルを簡単操作で、超高速に短期間で作成・評価し、モデルの精度を向上し、企業の競争力強化に貢献できる、ハイパフォーマンス・ビジュアルデータモデリング製品

全てのデータを一度に数秒で解析し、即座にモデルを生成し評価できる

SAS® Visual Statistics とは

EXPLORE AND

DISCOVERPREDICT AND

REFINE

DEPLOY AND

MONITOR

Page 3: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

分析モデル開発・評価プロセスの課題

モデル構築のための限られたデータに対する探索

予め決めうちされた変数に基づくモデル開発

モデル構築のためのデータ探索に多大な時間を要する

モデルの精度向上は頭打ち状態

予め決めうちされたモデリング手法モデル生成に多大な

時間を要する

モデル開発の課題

Page 4: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

• モデル作成/評価/スコアリングコード生成

分析モデル作成管理

• データロード/アンロード• セキュリティ設定

データクエリ作成

• 複数テーブル間結合• 分析用データ準備

SAS® LASR™ ANALYTIC SERVERインメモリー分析エンジン

SAS® Visual Statistics : コンポーネントハブ• 共通の入り口

• 全ての機能にアクセス

• 役割に基づくビュー

Page 5: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

インメモリー分析エンジン

廉価なブレードサーバーで、コストパフォーマンス向上

ブレードサーバーを活用し、データ量増加に柔軟な拡張で対応

Server Tier / Mid TierBlade 1

Blade 5Blade 4Blade 3Blade 2

・・・

Memory Memory Memory Memory

データをHDFSに均等分散配置後、並列でメモリーへ高速ロード

各ノードで、大量データに対する分析処理を超高速並列実行

同時解析項目数など、制限の無いインメモリー分析エンジン

Data SourceERP CRM SCM SFA Web

・・・

Oracle(Exadata) DB2 SQL Server Teradata Netezza Flat_file

SAS®

LASR

ANALYTIC SERVER

HDFS HDFS HDFS HDFSHDFS HDFS HDFS HDFS

Distributed版分散イメージ図

Hadoop

高速モデリングでモデル精度を向上的を得た施策の実施が可能に!

Page 6: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Asymmetric 並列高速ローディングSAS

®LASR

ANALYTIC SERVER

HDFS

HDFS

HDFS

HDFS

Hadoop Cluster

・・

EP

EP

EP

EP

SAS LASR Analytic Server

SAS Visual Analytics

Client

メモリー

・・

Root Node

Worker Node 1

Name Node

Data Node 1

Data Node 2

Data Node 3

Data Node n

Worker Node 2

Worker Node 3

Worker Node n

EP : SAS Embedded Processing

メモリー

メモリー

メモリー

LASR メモリー内へのデータロード時間

を短縮

Asymmetric=

Hadoopノード数とLASRノード数は不一致でもOK

*1

*2

*2:Cloudera, Hortonworksに対応Teradata, Pivotal, Oracle, SAP HANA 各クラスタにも対応

*1:

Page 7: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Hadoop と LASRの共存構成SAS

®LASR

ANALYTIC SERVER

HDFS

HDFS

HDFS

HDFS

Hadoop Cluster

・・

Name Node

Data Node 1

Data Node 2

Data Node 3

Data Node n

メモリー

SAS LASR Analytic Server

Root Node

Worker Node 1

Worker Node 2

Worker Node 3

Worker Node n

SAS Visual Analytics

Client

LASR メモリー内へのデータロード時間

を最小化

メモリー

メモリー

メモリー

Asymmetric=

Hadoopノード数とLASRノード数は不一致でもOK

*1

Cloudera, Hortonworksに対応*1:

Page 8: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS®

VISUAL

STATISTICSモデル構築

• 予測的(Predictive)手法

• 線形回帰分析

• ロジスティック回帰

• 一般化線形モデル

• ディシジョンツリー

• 記述的(Descriptive)手法

• クラスタリング

• グループ毎の変数影響度分析/モデル生成

• モデル自動更新

Page 9: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS®

VISUAL

STATISTICSモデル評価とスコアコード生成

• リフト(適合度)チャート、ROCチャート、誤分類テーブルなどを

用いたモデル比較

• インタラクティブにリフト(適合度)を評価

• 予測値のカットオフをインタラクティブに定義

• スコアリング用の Base SAS コードを生成

Page 10: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Hadoop内データの有効活用HADOOP + SAS VA

Hadoop導入済み 今後Hadoop導入検討中

大量データに基づくモデル開発を高速&ビジュア

ルに行いたい

ストレスの無いパフォーマンスで試行錯誤を繰り返し、モデルの精

度を高めたい

勘と経験に基づくモデル開発から脱却し、ビジネスに直結する成果を出し、競合優位性を強化したい

Hadoop Cluster SAS LASR Analytic Server

Page 11: Hadoop内データに基づく簡単・高速モデリングの実現(Cloudera World Tokyo 2014 LT講演)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com