20130612 ibm big_dataseminar_streams

44
リアルタイムデータ分析を実する ストリーム・コンピューティング術 〜「今」を分析するためには〜 Atsushi Tsuchiya ([email protected]) Technical Lead, Worldwide Big data Tiger team. Sales Div. Information Management Div. IBM Software Certified InfoSphere Streams Engineer & Subject Matter Expert

Upload: atsushi-tsuchiya

Post on 11-Jun-2015

1.530 views

Category:

Documents


1 download

DESCRIPTION

IBM ビッグデータセミナーの資料(2013年6月12日) お問い合わせ: [email protected]

TRANSCRIPT

Page 1: 20130612 ibm big_dataseminar_streams

リアルタイムデータ分析を実現するストリーム・コンピューティング技術〜「今」を分析するためには〜

Atsushi Tsuchiya ([email protected])Technical Lead, Worldwide Big data Tiger team.Sales Div. Information Management Div.IBM SoftwareCertified InfoSphere Streams Engineer & Subject Matter Expert

Page 2: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

現在さまざまなデータや実世界のイベントがやり取りされ、データ量が増加しています

【全世界のデータ量は増加傾向にある】9000

8000

7000

6000

5000

4000

3000

02010 2015

センサー&デバイス

ソーシャルメディア

VoIP(音声)

エンタープライズデータ

デー

タ量

(エ

クサ

バイ

ト)

(確実性)

(速度)

(多様性)

(量)

“量”だけではなく、データが持つさまざまな特性をとらえることも重要です

Page 3: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

IBMが考えるビッグデータ・プラットフォーム

Data inMotion

Data atRest

Data inMany Forms

Information Ingestion and Operational Information

Decision Management

BI and Predictive Analytics

Navigation and Discovery

IntelligenceAnalysis

Landing Area,Analytics Zoneand Archive� Raw Data� Structured Data� Text Analytics� Data Mining� Entity Analytics� Machine Learning

Real-timeAnalytics� Video/Audio� Network/Sensor� Entity Analytics� Predictive

Exploration,Integrated Warehouse, and Mart Zones

� Discovery� Deep Reflection� Operational� Predictive

� Stream Processing � Data Collection via

MQTT, MessagingSite

� Data Integration � Master Data

Streaming

Data Life Cycle Management

いつ、誰が、何を、何のためにデータを使おうとしているのか?ワークロードとコスト最適化に対応できることが、このIBMのビッグデータアーキテクチャの概念です。

Landing…

Archiving with ad hoc access Offline…

Active/Landing Data Movement

Archiving/Offline Data Movement

Page 4: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

ストリーム・コンピューティングとは様々な情報源からリアルタイムで流⼊する多種多様なデータを、

ディスク保存する前に分散並列処理・分析する「センス&レスポンス⇒プリペア&アクション」⼿法。

過去の事実の発⾒起きていることの把握

ストリーム・コンピューティング【今の出来事】

Nowcast

従来のデータ処理⼿法【過去の出来事】

■目的

静的な過去のデータを分析し、過去の事実を発⾒する

■目的

流⼊するデータをリアルタイム分析し、直近の事実を発⾒する

プリペア・ステージ

アクション

Page 5: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

データを”永久”に保持しない従来のデータ処理⼿法との違い:� 全データに対する処理を目的とせず、流れるデータをインメモリで

加工処理しデータ出⼒をする⼀連の流れを最も簡単にモデル化したデータ処理モデルを「ストリーム・コンピューティング」と呼ぶ。

記録データ

データ

定期的⼀括処理

処理結果

記録データ

処理要求 処理結果データ

中間データ

処理

データ

バッチ処理 OLTP処理 ストリーム処理

更新トランザクション

従来のデータ処理

※⼀定時間・区間のデータをメモリ上に保持します。

※全てのデータはHDDに永続化されていることが前提。

Page 6: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

情報処理における時間軸の変化過去に何が起きたのか?特⻑:テラバイト・レベルのデータ量; 課⾦履歴; 監査向けデータストレージ; ほとんどのケースではアーカイブされているオフライン・データ; オンラインからの集約、集計されたデータ

この(課⾦)ピリオドに何が起きたのか?特⻑:数百GBのデータ; 直近ピリオドのデータ; 情報の照会データ; ほとんどのケースでオンラインデータといくつかのロケーションやコンテキスト情報を含む

この週に何が起きたのか?特⻑:数百GBのデータ; ロケーション情報やコンテキスト; 全てオンラインデータ, 幾つかはインメモリ・データ、また直近の購買などのデータや履歴情報; 先週の状況データや、サポートデスクへの問い合わせデータ、課⾦状況、品質状況(クレーム)、工事情報など

今日、何が起きたのか?ギガバイトのデータ量;ロケーションやコンテキスト情報; 全てがオンラインで、ほとんどのデータがインメモリ上に集約。ロケーション情報やロケーション変更情報

この5分間に何が起きたのか?何が今起きたか?ギガバイト以下のデータ量; ロケーションやコンテキスト情報; 全てがオンライン、近々の集約されたデータはインメモリ処理、直近のヒストリもインメモリ処理(購買履歴); ロケーション情報やロケーション変更

この5秒間に何が起きたのか?今、現在進⾏形で何が起きているのか?メガバイトのデータ量; ロケーション、コンテキスト; 全てがインメモリ処理;ロケーション情報、ロケーション変更、使⽤しているサービス 、使⽤したサービス情報など

データの鮮度

Page 7: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

⼀般的な情報処理の時間軸

情報ソース(取込み)

アクションまでに所要する時間

WAREHOUSE

レポートアドホック・クエリ

データマート

ビジネスプロセッシング & イベント管理

オペレーショナルレポート

ダッシュボード 計画 スコアリング・カード

分析モデル & 情報

データ・インテグレーションオペレーショナル・データ・ストア(ODS)

意思決定アクション

Page 8: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

ストリーム処理の時間軸- アクションまでの実⾏時間短縮- より速く予測する

アクションまでの時間

情報ソース(取込み)

WAREHOUSE

レポート動的なクエリ

データ・インテグレーションオペレーショナル・データ・ストア(ODS)

データマート

ビジネスプロセッシング & イベント管理

オペレーショナルレポート

ダッシュボード 計画 スコアリング

分析モデル & 情報

分析モデル& リアルタイムな情報

様々なコンテンツ

意思決定アクション

Page 9: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

コスト最適化-CPUリソースの削減蓄積データ全体量に対してのCPUリソースは必要なく、連続的に処理を⾏い、サマリ表へ結果のみを書き出します。• 1億件のCDR(通話記録)を2時間で処理(140万件毎秒)• HS22 Bladeサーバ(2台)8コアx2, 2.5 GHz, 64 GB memory (総計16コア)• 平均CPU使⽤率: 75% - 平均メモリ使⽤率~ 6GB

740%効率化62% 削減

効果

5億500万CDR/hr

6800万CDR/hr

16コア (x86)42コア (P6)適応後適応前

ストリーム技術は、従来の方式と比べ圧倒的なROI/TCOを実現します。

出典:IOD 2011 las Vegas

※CDR = Call Detail Recordの略(通話記録)

※DBに対して⼀度しか実⾏しないバッチ・SQL処理は、積極的に前段のストリーム・プリプロセッサーにオフロードできる候補です。

データ分析基盤

Func1

Filtering

Filtering

Func2

Func3

Aggregator

Aggregator

Func4

Func5

Func6

Func8

Func9

Func7

《月次バッチ処理(ID毎の積算処理など)をDBに格納する前段でプリプロセッサーで処理。計算結果をDBへ格納。月締めのDBバッチ処理は、サマリ表へのバッチを⾏う》

Page 10: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

� あらゆるビジネス要求における即時性への対応「必要な時に必要な情報を」

� 断続的に発生するデータを分散並列処理� ディスクに蓄積せずに、インメモリ処理� 多種多様なデータを扱える柔軟性

IBM InfoSphere Streams

• “米国政府は 2003年から IBMリサーチと急進的な新しいアプローチについて協業しています。それは多様なタイプの動いているデータストリームにハイスピード、スケーラブルかつ複雑なデータ分析を⾏うものです。 プロジェクトが非常に成功しているので、別の政府機関でも将来の様々なプロジェクトでより⼤きな成功を収められるように、米国政府はさらに追加でこれを導⼊する予定です。“

- アメリカ合衆国政府

IBMワトソン研究所が発明したストリーム・コンピューティング

2002 2003 200620052004

2007 20102008 2009 2011

Page 11: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

11

データ収集基盤

データ分析基盤

Func1

Filtering

Filtering

Func2

Func3

AggregatorAggregator

Func4

Func5

Func6

Func8

Func9

Func7

• ⼤量データ:データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる• 複雑な分析:複数情報ソース、構造化・非構造化データ( 信号、ビデオ、音声)の関連付け、処理• 処理時間: リアルタイムなレスポンスが必要

• ⼤量データ:データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる• 複雑な分析:複数情報ソース、構造化・非構造化データ( 信号、ビデオ、音声)の関連付け、処理• 処理時間: リアルタイムなレスポンスが必要

スケーラブルな超高速処理実⾏環境

ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理(連続的に流⼊する)様々データに対して、リアルタイムで高速分析・処理をする。

ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理(連続的に流⼊する)様々データに対して、リアルタイムで高速分析・処理をする。

多様な情報ソース対応•業務処理の拡⼤に併せて、サーバー拡張可能•並列処理・直列処理を複数の筐体に拡⼤・分散可能

ニュース、気象情報、テキスト(日本語、英語)、画像(静⽌画・動画)、音声など、これまで扱えな

かった情報を相互に関連付けて解析可能

IBM InfoSphere Streams

Page 12: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

断続的に流れるデータの連続処理

センス & レスポンス

SOURCE

バンドル

DBアクセス

事前に定義されたオペレーター

ユーザ定義(C++/Java)

トランスポート:TCP/UDP/LLM/Infiniband

SINK

蓄積すること無く、連続的にデータを取り込み 連続的に処理・分析、

そしてアクションへ

リアルタイムな意思決定サポート

プリペア&アクション

SPSS/R

ファイルシステム:NFS/GPFS

分岐

IN-OUT:TCP/UDP/MQ/MQTT/HTTP(s)/DB/File

Page 13: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

リアルタイムモニタリングソリューション概要• 情報のリアルタイム可視化• Cognos BIとの組み合わせが可能• アラートの⾃動化• ドリルダウン、フィルタリングを

画面上から操作-データベースに蓄積されているデータに限る

Make decisions in-flight with integrated real time information to monitor the pulse of the business

データストア

Cognos 10 BI Report

Real-time Monitoring dashboard

Objects

データ収集

(MQTT)

DB2

MessagingSight

Database

Streams

Page 14: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

• データセンターにおける電⼒消費を集中モニタリング

• 障害回避、およびメンテナンス

技術構成要素:• ストリーミング分析

InfoSphere Streams• Hadoop 分散処理

InfoSphere BigInsights• ビジネスインテリジェンス(BI)

目的:ログ分析による• 電⼒料⾦の予測、電⼒消費の最適化• 変則的な利⽤の検知• プレゼンス情報よる電⼒消費管理・監

CISCO turns to IBM big data for

intelligent infrastructure management

データセンタ(ログ監視、解析)における事例

Page 15: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

1515

交通� インテリジェントな

交通管理・渋滞予測� ⾃動料⾦システム

製造� 故障監視、予測� M2Mセンサー� マイクロチップの

製造のプロセス管理

自然管理システム� PM2.5の飛散シミュレーション� ⽔資源の管理� 生態系監視� 風⼒発電システムなど

通信サービス� 通話記録処理、課⾦前処理� DPI・ネットワーク監視� ロケーション・ベースの

マーケティング

� 新生児⽤ICUのモニタリング� 伝染病の早期警告システム� リモート医療モニタリング・

システム� ⼼臓ペースメーカー

株式市場� アルゴリズム取引、指標計算、ルーティング計算� 天気が株価に及ぼす影響を分析� 待ち時間を最小化したうえで、市場データを分析

セキュリティ� 不正⾏為のリアルタイム検出� 顔認識による⾃動⼊館� ハッキングの検出

その他� シミュレーション(データ解析)� スマート・グリッド(メータ)� ソーシャルメディア分析� GPGPUによるHPC計算� DNAシーケンス解析� ⾼度な数理計算� ⾃動ビッドシステム(⼊札)� ETL

� 映像・音声・音波の分析・監視� サイバーセキュリティの検出� 重要施設の監視

警察、防衛、およびサイバー・セキュリティー

あらゆる領域での可能性と実績

医療とライフサイエンス

Page 16: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

• 言語• SPL(Streams Processing Language)

• 開発環境• StreamsStudio (Eclipse)

• WEB管理コンソール

ランタイム実⾏環境(Linux x64bit・Power7)

• TCP/UDP/LLM/ Infiniband• 最⼤125サーバまでの拡張性

• 標準ツールキット• 拡張ツールキット

• インターネット• DWH・DB• フィナンシャル• データ・マイニング• スコアリング(PMML)

②高い開発生産性〜ドラッグ&ドロップ

分散処理を隠蔽〜

③多彩な連携機能とツールキット

3つの構成要素

RuntimeRuntimeRuntimeRuntime

①圧倒的な高速実⾏環境

※製品には含まれない。SPSS

WebSphere

MQ/MQTT

Page 17: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

InfoSphere StreamsInfoSphere Streams

InfoSphere Streamsの概要

アダ

プタ

ーア

ダプ

ター

サービス品質ダッシュボードサービス品質

ダッシュボード

検知・アラート検知・アラート

リアルタイムな意思決定サポート 報告 / 分析報告 / 分析

地図・空間情報地図・空間情報

連携

イン

ター

フェ

イス

連携

イン

ター

フェ

イス

フィルタリングセンシング

スコアリング解析

ディープな分析へのブリッジ

センサーやイベント情報、アラート、各種状況データ

事前に定義されたオペレータ群

SOURCEオペレータ

ユーザ定義オペレータ

DBアクセス

SINKオペレータ

事前に定義されたオペレータ

③情報の連携

SPL言語:Streams専⽤言語。拡張性:データ処理に必要なロジックをC++/Javaで拡張することができます

①様々なデータインプットを、ス

ケーラブルな分散Streams基盤でリアルタイム処理することを可

能にします。

②ユーザ定義のロジックをJavaで実装することが可能なので、

既存資産を流用することができ

ます。

③DB、他のシステムへのインターフェイスによって、深い洞察

へ連携させることができます。

ソリューション概要ソリューション概要ソリューション概要ソリューション概要

ストリーム処理した結果をアプリケーション、

他のシステムへ

PMMLオペレータ

ファイルシステム: NFS / GPFS

マイニングツールキット

TCP/UDPInfiniband/LLM

②分散並列データ処理

➀情報のリアルタイム

処理

C O G N O SC O G N O S

統計解析(モデル化)

SPSS

RHELSuSE

CentOS

X86 64bit/POWER7 (仮想環境:VMware/Hypervisor)

Page 18: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

データマイニング・キットMining in Microseconds(製品に含まれます)

イメージと動画Image & Video (Open Source)

シンプルなテキスト分析⾼度なテキスト分析Simple & Advanced Text (一部製品に含まれます)(IBM Research/ Open Source UIMA)

Text(listen, verb), (radio, noun)

音声解析Acoustic(IBM Research/Open Source)

地理空間GeoSpatial(IBM Research)

予測分析Predictive(IBM Research)

応⽤数理モデルAdvanced Mathemetical Models(IBM Research)

統計モジュールStatistics(製品の含まれます)∑

populationtt asR ),(

• 基本的な処理ロジックに加えて、データマイニング・キット、そして応⽤数理解析まで幅広い分析ロジックを提供することが可能です。またIBMリサーチ部門による分析アシスト、協業なども可能です。

PMML分析モデルSPSSなどの統計解析より、モデル化したモジュールをPMMLとしてインポートすることが可能

多様な分析ロジックを実装することができます

Page 19: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

〜リアルタイムデータの観察〜

• 技術構成要素:ストリーミング分析 (リアルタイム)

InfoSphere Streamsデータストア(蓄積)、統計解析ソフトウェア(モデル化)

• 目的:– 生命を脅かす状況や、急変の兆

候を最⼤24時間早く検知

– 平均20名以上の異なるソースから、毎秒約1,000以上におよぶ測定値を監視実証開始時は、2名からスタート、臨床実験での最⼤監視数は120名、120万測定値/秒、これは約10億レコード/日

• ポイント:データストアに蓄積した膨⼤な量のデータに対して解析を⾏い、分析モデルを抽出し、そのパターン分析モデルをストリームに環流させることによって、リアルタイム分析、および、⻑期的なデータ蓄積からの分析モデルの抽出

オンタリオ工科⼤学医療(センサー)における事例

アラート(警告)

SPSS

Page 20: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

IBM InfoSphere Streams

S

レポジトリレポジトリ

IBM SPSS Collaboration & Deployment Services

モデル更新

R

変更通知

ファイルシステム

P

IBM SPSS Modeler Solution Publisher

インメモリ処理

必要なコンポーネント:- SPSS Modeler- SPSS Solution Publisher- SPSS Collaboration &

Deployment Services

蓄積デプロイ

流⼊するリアルタイムデータに対し、⾼度な分析が可能になります

蓄積されたデータから解析モデルを抽出し、スト

リームへ適応

PDCA

SPSSとの連携が可能(PDCAを回す)

SPSS

Page 21: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

• M2Mに代表されるセンシング507キロにおよぶ⼤規模河川-ハドソン川の観測。毎秒606⽴⽅メートルの淡⽔がニューヨークに流れています。

• ⽔質の基本的なパラメタ、空間的変動を観察するためのデータをセンシングしリアルタイムに送信:

– 数10か所のセンサーから数1000のデータを毎秒リアルタイムに分析(⽔温(移動平均値)、⽔質(化学物質検出)、生態系)。

IBM InfoSphere Streams

M2Mセンサ監視における事例

人が河川に与える影響を監視する

Page 22: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

アイルランドGalway湾の⽔質・危機管理• ガルウェイ湾における、⽔質管理・生態系へ

の影響把握� ⽔質監視、生態系監視モニター配備

• 津波予測をはじめとする、危機管理、商⽤情報などを、多くの業界への情報提供に利⽤

⾃然・⽔質(センサー)監視における事例

M2Mセンサ監視における事例

Page 23: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

� SmartBuoy(←⻩⾊いデバイス)から収集されたデータは、リアルタイムにStreamsによって、処理・分析され、⽔質監視モニター、生態系監視モニターのDashボードにリアルタイム表示。

IBM InfoSphere Streams

変化するデータをリアルタイム解析、可視化しアクションへ

Page 24: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

音声・音波データの解析も可能

音声音波データ処理分析基盤

• リアルタイム音波解析音波変換、ノイズ除去、照合

• 哺乳類の生態系調査数、距離

• ハイドロフォン (聴音器)⾼周波、中分解能(16bit)

変換

ノイズ除去 照合

記録

Page 25: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

セキュリティドアが開いている…

顔パス認証・⾃動⼊退出システム

映像データ処理分析基盤

変換

ノイズ除去 照合

記録

映像動画データの解析も可能

動画分析における事例

Page 26: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

駐⾞エリアの状況

894人のお客様が来店中

とある量販店での取り組みの例

顧客の導線把握

パーキング⾃動清算

Page 27: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

TAP

DirectorFor filter 監視 Scoring

RulesScoringRules Cognos RTMCognos RTM

Visualizer

システムモニタリング

DirectorFor Balance

コアネットワーク

TDW

①データトラフィック収集(TAPやルータレベル)

②Network/Internetフォレンジック(専⽤NWツールキットとの組み合わせ)

③アクション制御既存の定型的なDPIのみではなく、パケット(エラー、集計結果、トラフィック状況)のステータスに合わせて、ルータのポート閉塞など様ざまなアクション制御を実施することが可能になります。(※PureDataへの専⽤データローダーが付属しています)※このケースは、US・アジアでのセキュリティ関連

で実施したストリームスの利⽤⽤途に基づく。

インターネット

• 監視対象:SNSに代表されるメッセンジャーやアプリ系などの監視• アクション:障害発生時における通信トラフィックの制御など

InfoSphereStreams

アクション実施トラフィック制御

ポート開閉、ネットワーク閉塞など

サービスプロバイダー

ネットワークセキュリティでの活⽤セキュリティ監視における事例

Page 28: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

KPIs

KPIsKPIs

Channel 1Channel 2

KPIs

障害検知のアラート

リアルタイム統計

欧州ケーブルTV会社様の状態監視の例

STBSTBHome Network

Home Gateway

STBSTBSTBSTB

STBSTBSTBSTB

EncoderEncoder

Broadcast TV

CSPNetwork nodes

topology

STBSTBSTBSTB

STBSTB

Ip=233.136.0.127; MPEG error ratio=0.5; firmware version=V2.1;model=XXX;MAC-Address=000430123456;LinkChain=Node1-Node12-Node123-Node1234;Message=Statistic;PacketLoss=54

Ip=233.136.0.127; MPEG error ratio=0.5; firmware version=V2.1;model=XXX;MAC-Address=000430123456;LinkChain=Node1-Node12-Node123-Node1234;Message=Statistic;PacketLoss=54

DSLAM

Switchs, routers,

ネットワーク管理

ネットワーク管理

リアルタイム分析

ダッシュボード

ネットワーク

管理者-技

術本部

ヘルプデスク

CRM

マーケティング

InfoSphere Stream10 000 msg/s

■プロジェクト概要200万のSTBからのメッセージをリアルタイムに分析実施-ビデオ品質の低下が以下のどこから起因しているのかを判断

- ネットワークノード (switch/router)- セットトップボックスのファームウェア、ハードウェア- チャンネル・エンコーディング・エラー

Data in Motion Analysis

Page 29: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

Internet Scale Messaging Protocol Applicance

Internet Scale Messaging Protocol Applicance

Help Desk

CRM

Marketing

Analyse en temps-réel des données en

mouvement

BigInsights

Dashboard

とある欧州の⾃動⾞メーカーの例

Data Explorer

IBM MessageSight Streams

MQTT

Page 30: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

断続的に流れるデータの連続処理

センス & レスポンス

SOURCE

バンドル

DBアクセス

事前に定義されたオペレーター

ユーザ定義(C++/Java)

トランスポート:TCP/UDP/LLM/Infiniband

SINK

蓄積すること無く、連続的にデータを取り込み 連続的に処理・分析、

そしてアクションへ

リアルタイムな意思決定サポート

プリペア&アクション

SPSS/R

ファイルシステム:NFS/GPFS

分岐

IN-OUT:TCP/UDP/MQ/MQTT/HTTP(s)/DB/File

Streams

フィルタリング

⼊⼒タプル出⼒タプル

センサーなどから⼤量のデータを受け取るが、ある閾値を超えたデータだけに興味がある

Streams

ウィンドウ処理⼊⼒タプル 出⼒タプル

ストリームデータをある纏まりで⼀括処理を⾏う場合。例えば、移動平均値などを算出する場合に⽤いる。また、データをストリーム内部でインメモリ保持したい場合。

t(1) t(k)

Page 31: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

SPL(StreamProcessingLanguage)という専⽤スクリプトと併⽤して、C++/Java言語での実装が可能です。

ドラッグ&ドロップによる開発

SPL

Page 32: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

� パターンによるイベント・ストリーム内のイベントを検知• 容易に使える正規表現スタイルのユーザー定義の述語パターンとのマッチング

� Streams 内でのインテグレーションにより、⾼パフォーマンスかつリッチな分析を備えた CEP スタイルの処理

stream<MatchT> Matches = CEPMatch(Quotes) {parampattern : ". rise+ drop+ rise+ drop* deep";partitionBy : symbol;predicates : {rise = price>First(price) && price>=Last(price),drop = price>=First(price) && price<Last(price),deep = price<First(price) && price<Last(price) };

outputMatches : symbol=symbol, seqNum=First(seqNum),

count=Count(), maxPrice=Max(price);}

“M字型”(上がる、下がる、上がる、下がる)パターン検知のサンプル。

CEP Toolkit

Page 33: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

� 地理空間(Geospatial)データの⾼速分析および処理� 位置ベース・サービスを可能に

• スマーター・トランスポーテーション、GeoFencing (特定区域で処理をブロック、または処理をトリガー)

� 地理空間データ型• 例)ポイント、ライン・ストリング、ポリゴン

� 地理空間関数群• 例)地点間距離(distance)、地図ポイント→ライン・ストリング変

換(Map Point to Line String)、包含判定(isContained)、等

Geospatial Toolkit

Page 34: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

� パターンや異常を⾒つけ、将来の値をリアルタイムに予測� 時系列データを取り扱うための機能

• 生成(Generation) : 合成または抽出 (例: 音声抽出、波形生成プログラム)• 前処理 : 準備およびコンディショニング (例: リサンプリング、補間)• 分析 : 統計、関連付け、コリレーション、分解、変換• モデリング : 予測、回帰、トラッキング (例: ホルト・ウィンタース、

Holt-Winters, GAMLearner)

Time Series Toolkit - 時系列処理/分析

Page 35: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

回帰分析:対象とする変数(従属変数)に影響を与える変数(独⽴変数)を特定、その関連性を分析によりモデル化し、独⽴変数から従属変数を予測する→予測したい値を他のデータから予測する例:トランザクション流⼊量からCPU使⽤率を予測

(XXが増えたからYYが増えるor減る)

時系列分析:時間軸に沿って常に変化する変数の振る舞いからトレンド等のデータ変動の特徴を捉え、モデル化し、過去データから将来、その変数がとりうる値を予測する→予測したい値を過去のそのデータ自体から予測する例:気温の変動 等、法則性があるデータ

(昨日|先月|去年がXXだから、明日|来月|来年はこうなる)

Time Series(時系列分析)と回帰分析の違い

Page 36: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

たとえば?(回帰分析)例:トランザクション流⼊量からCPU使⽤率を予測

CPU Usage(MA) =0.01787 × Transactions + 6.8723

トランザクション流⼊数が1000の時、CPU使⽤率はおよそ24%と予測

Page 37: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

たとえば?(時系列分析)

観測されたデータからトレンド、季節性の変動などの成分を分析し、将来取りうる値の信頼区間を予測する。

Point Forecast Lo 95 Hi 95Jan 2012 9546.637 9399.259 9694.014Feb 2012 9625.154 9451.122 9799.186Mar 2012 9662.827 9479.344 9846.311Apr 2012 9709.953 9522.873 9897.033May 2012 9706.197 9517.717 9894.676Jun 2012 9659.079 9470.050 9848.108Jul 2012 9679.440 9490.195 9868.685Aug 2012 9687.297 9497.967 9876.628

Page 38: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

連続するデータをStreamsで時系列分析する理由・Time Seriesの対象は「時間に沿って変化するデータ」・Streams上で時系列分析を⾏う事により、予期された値からの

逸脱を即時検知する事が可能に。・時系列変化をリアルタイムに把握する事に価値がある分析ケース

に有効。

例)■株価データ・指数計算・ルーティング処理■M2M(センサー)データの処理■医療データ(患者の脈拍数、⼼拍数等)の傾向変化をアラート■映像・音声・音波のリアルタイム解析(コールセンタ、監視カメラ、人数把握)■交通情報の傾向変化を補足■シミュレーションの結果をニアリアルタイムに把握(終了してからではなく)■HPC領域の⾼度計算(例えば、GPGPUとの連結、MatLabのライブラリの実⾏)■システムステータス(メモリ/CPU使⽤率)の予期せぬ兆候を補足■パケット通信量、モニタリングなど

Page 39: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

株価トレンド/VWAP売買⾼加重平均価格の計算

応答時間表示グラフ

銘柄毎のVWAP表示

Eclipse開発環境と処理フロー表示

Page 40: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

Trade price: 取引価格Daily VWAP:その日の1日VWAP数値incremental VWAP:増減値trend strength: 取引トレンドの強さ(上向き下向きベクトル)

トレンドのベクトル取引価格

インクリメンタルVWAP

取引価格(USD)

取引時間

Page 41: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

ビッグデータを継続的に効果的に活⽤するためには、次の5つの重要な視点を基盤に盛り込む必要があります。

1.適応性:様々なビジネス要件の対応

2.最適化:ワークロードとコスト最適

3.統合性:複数システムの統合

4.拡張性:柔軟な拡張と運⽤容易性

5.堅牢性:⾼い可⽤性とセキュリティ

� サイロ化ではなく、統合基盤テキスト分析、統計解析、レポーティングなど

� 新しいことが試せる環境であること!

� ⼤量データも通常データも同時に処理できるすべてのデータを蓄積しなくてもよい!

� 要件に応じた機能とサイジングDWH/DB/Hadoop/Streams

柔軟なシステム資源の配分� 異なる非機能要件、プラットフォーム

� 統合的な運⽤管理

� 様々な処理要求に対するサービスレベルの確保

� 統合的で簡素化された運⽤データの圧縮、階層化等の効率的な保管

� ⾼い連続稼動性信頼性の⾼いデータ転送・加工データの漏洩、改ざんの防⽌

� セキュアなデータ管理

Page 42: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

Ibm.com/bds2

なぜ、来ていただきたいか?-BigSQL-BigSheets-GPFS-FPO・HA機能-AdaptiveMR/SymphonyMR-PureData System for Hadoopなどの最新情報を日本で初公開!

Page 43: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

• InfoSphere BigInsightsBigInsightsはHadoopを拡張する機能群とエンタープライズ向け連携機能群、そして活⽤を容易なツールを介して実装し、開発サイクルを短縮化できるソリューション・パッケージです。《非商⽤環境で無償、容量無制限のQuickStartエディションも登場》

Hadoop拡張レイヤー

Masterノード

SlaveノードCognos

BI*(バンドルバンドルバンドルバンドル)Hive(JDBC) / REST(http)

DataStage*(連携)

DB2*(連携)

R*(連携)

Streams*(バンドルバンドルバンドルバンドル)

Data Explorer*(バンドルバンドルバンドルバンドル)

MachineDataAnalytics*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)

SocialMediaAnalytics*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)

Nutch*(連携)Gnip

*(連携)

LZO圧縮(分割可能)

PureData*(連携)

DBデータ取り出し・送り出し

データ探索の可視化

BigSheets

アプリ・リンク

ワークフロー

FLEXスケジューラースケジューラースケジューラースケジューラー

連携レイヤー

Guardium*(連携)

スケールアウト

BigSQLによるSQL互換のインターフェイス

HA on HDFS/GPFS-FPO

AdaptiveMRSymphonyMR

(連携)

JAQL

JAQLによるより高度なM/Rスクリプティング

Web管理コンソール

Page 44: 20130612 ibm big_dataseminar_streams

© 2013 IBM Corporation

〜ストリーム・コンピューティング〜

ありがとうございました。

IBM Streams