iot時代のビッグデータ活と cloudera/ciscoの ...€¦ ·...
TRANSCRIPT
-
1 © Cloudera, Inc. All rights reserved.
Cloudera株式会社 2015年5月27日
IoT時代のビッグデータ活⽤用とCloudera/Ciscoの取り組み
Clouderaが提供するエンタープライズデータハブ
-
2 © Cloudera, Inc. All rights reserved.
⾃自⼰己紹介• 齋間秀雄(さいまひでお) • お客様、パートナー様担当 • 2014年年5⽉月にCloudera株式会社に⼊入社、以前はデータベース、 セキュリティ、仮想化ベンダーにて営業を担当• お客様がCloudera製品を活⽤用できるよう提案・議論論を⾏行行うのがメイン業務 • Email: [email protected] • Linkedin: Hideo Saima
-
3 © Cloudera, Inc. All rights reserved.
Cloudera会社概要設⽴立立 2008年年、以下4社出⾝身の社員により設⽴立立
従業員 870⼈人以上24x7サポート 北北⽶米・欧州・アジアのサポートセンターによるFollow-‐‑‒the-‐‑‒sunサポート、
プロアクティブサポート、DSE(顧客専属サポート)プロフェッショナル 世界中にワールドクラスのサービスデリバリーチームを抱えるサービスミッションクリティカル 数千社のエンタープライズカスタマーがClouderaを採⽤用
Fortune 50社のうち50%、Fortune 500社のうち65%トップの防衛・諜報機関でも採⽤用
最⼤大のエコシステム 1,600社以上がパートナープログラム「Cloudera Connect」に参加Cloudera University 世界中で 100,000 ⼈人以上がトレーニングを受講オープンソースリーダー Apache Hadoopエコシステムプロジェクトの創設者の多くがCloudera社
員であり、全てのプロジェクトで主要コントリビュータとなっている
-
4 © Cloudera, Inc. All rights reserved.
政府・軍
金融
通信
ヘルスケア・ ライフサイエンス
メディア
流通・消費財
エネルギー
あらゆる業界における成功事例
ConfidenIal
-
5 © Cloudera, Inc. All rights reserved.
⼀一つのプラットフォームで多くのワークロードに対応 ベストプラクティスと優れたパフォーマンスが、戦略略⽴立立案から ROI 確保までの時間を短縮
バッチ、インタラクティブ、リアルタイム1つのプラットフォームで最⾼高のパフォーマンスとユーザビリティを実現
• きめ細かい分析ワークフロー• より多くのデータにアクセス• 新たな⽅方法でデータを処理理• これまでとは異異なるユーザーの取り込み
セキュリティと運⽤用管理理
プロセス
取込みSqoop, Flume
変換MapReduce, Hive,
Pig, Spark
ディスカバー
分析データベースImpala
検索索Solr
モデル
機械学習SAS, R, Spark,
Mahout
サーブ
NoSQL データベースHBase
ストリーミングSpark Streaming
無制限のストレージ HDFS, HBase
YARN, Cloudera Manager,Cloudera Navigator
柔軟な導⼊入オンプレミスアプライアンスエンジニアド(⼯工業化製品) システム
パブリッククラウドプライベートクラウドハイブリッドクラウド
-
6 © Cloudera, Inc. All rights reserved.
すべてが揃うエコシステム完璧なビッグデータソリューションを実現
データシステム
アプリケーション
システムインテグレーション
インフラストラクチャー
1,600 以上のパートナーがこれまでの投資との互換性を保証、以前からのスキルの延⻑⾧長で、データから最⼤大の価値を引き出すことができます
定型処理理ツール
セキュリティと運⽤用管理理
無制限のストレージ
プロセス ディスカバー
モデル サーブ
エンタープライズデータハブ
-
7 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
Basel III の信頼評価調整を90%の証券に適用するには?終日、連日、あるいは事前評価はできるか?
直近60秒で経験した取引の遅延は何か?未来に何が起こると期待できるか?
輸送経路の最適化によるコストの最小化をしながら、市況に基づく原油売上の最大化を目指す方法は?
Risk PlaQorm Trading OperaIons Profit Management
-
8 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
顧客ニーズを予測し、経験をパーソナライズし、成約数を増やして離脱を回避する方法は?
クレジットスコアカードの調査、作成を短縮しつつ、より大きな、信用できるデータセットを用いて、新しい市場を開拓する方法は?
請求者が全ての条件を満たしているか、ブラックボックスのまま調査できるか?
Personalized Banking Credit Scoring Claims VeYng & AnalyIcs
-
9 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
ある顧客を失おうとしているか分かるか?それを回避する方法は?
どの顧客が、どのように我々のサービスに不正アクセスしているのか?
ネットワーク障害を、まだそれが発生していない顧客の回線で検知できるか?
360° view of Customer Audience AnalyIcs Network Management
-
10 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
売上を増加させるようなUIのリコメンド、レイアウト、コンテンツは?
属性モデルを比較したときに、どの提携先が最もビジネスに貢献しているか?
より多くのデータから、より速く、納税者のビューを生成するには?
Clickstream AnalyIcs, A/B
MulI-‐Channel Path Analysis Single view of Tax-‐payer
-
11 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
工場の生産効率を上げ、問題をより速く正確に突き止めるには?
記録された走行パターンに基づきメンテナンスを修正し、そのデータをR&Dにフィードバックするには?
採掘作業を最適化し、よりよいデータを引き出すには?
Manufacturing Quality PreventaIve Maintenance OperaIons OpImisaIon
-
12 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
最適なルート、速度、渋滞の可能性、危険度を今すぐ予測するには?
輸送経路を容量、需要、コストに基づいて最適化するには?
リアルタイムの気象データを数世紀にわたるデータに基づいて分析するには?
Connected Car LogisIcs Cost OpImisaIon ScienIfic Analysis
-
13 © Cloudera, Inc. All rights reserved.
Asking Bigger QuesIons with a Cloudera EDH
種、密度、土壌や気象が面積あたりの生産量へ与える影響は?
オントロジーベースの検索で、2,200万の論文から何がヒットするのか?
家系の病気データに基づき健康問題を回避する方法は?
Agriculture R&D ScienIfic Research Public Health AnalyIcs
-
14 © Cloudera, Inc. All rights reserved.
Cloudera のアプローチ Cloudera Enterprise
Enterprise Data Hub
Security and AdministraIon
Unlimited Storage
Process Discover Model Serve
Manager
Navigator
Director
CDH
Cloudera Services
IngesIon and ETL Pilot
DescripIve AnalyIcs Pilot
Cluster CerIficaIon & OperaIons
Pilot and or Proof of Concept
Cloudera Training
Administrator
CerIficaIon
Developer
Analyst
Cloudera Partners
-
15 © Cloudera, Inc. All rights reserved.
オープンソースへの多大な貢献 • 開発チームの2/3 がオープンソース担当者 • 20のHadoopエコシステムプロジェクトを立ち上げ
• 72 人のASF PMCメンバー• 98 人のASFコミッター
エンタープライズ向けの機能拡張に貢献 • システム管理 • セキュリティとガバナンス• クラウドプロビジョニング
コントリビューションを牽引する Services Training
Enterprise Partners
-
16 © Cloudera, Inc. All rights reserved.
最高のチーム Services Training
Enterprise Partners
1 知識 テクノロジーが今どこを向いていて、どういう計画を持っているのかを知っている 2 サポート オープンソースをフォークすることなしに、お客様の問題を素早く効率的に解決することが可
能
3 影響 お客様のビジネス上のニーズに反応あるいは予測し、ロードマップをドライブする
-
17 © Cloudera, Inc. All rights reserved.
業界をリードするサポート Enterprise Partners
Services Training
8.9 Clouderaの顧客満足度が業界のサポートのベンチマークとなる(10点満点) 95% の顧客がClouderaの技術サポートに価値を感じている
#1 技術問題の解決能力が一位であるということが、HadoopのためにClouderaを推奨する理由の一位である
-
18 © Cloudera, Inc. All rights reserved.
Global, in-‐region support Enterprise Partners
Services Training
-
19 © Cloudera, Inc. All rights reserved.
業界をリードするトレーニング Partners
Services
#1 カリキュラム 幅広い範囲で最先端の開発者向け、管理者向け、アナリスト向け、データサイエンティスト向けコース
#1 経験 2009年から数えて15,000人の生徒が受講し、5,000人のCloudera認定プロフェッショナルが誕生 #1 柔軟性 オンサイトあるいはパブリック、世界50都市で実施。eラーニングでの補足授業も実施
Training
Enterprise
-
20 © Cloudera, Inc. All rights reserved.
Cloudera と可視化/BI
• 主要ベンダーとのパートナー • 最適化されたコネクタとランタイム
• SAS (LASR VA/VS 用ランタイム、 Impala)
• PlaFora (Hive)• RevoluKon AnalyKcs (MR)• Qlikview (Impala)
• Microstrategy (Impala)• Cognos (Hive, Impala )
• Business Objects (Hive, Impala)
Services Training
Enterprise Partners
-
21 © Cloudera, Inc. All rights reserved.
• Clouderaは複数の形式でデプロイすることが可能 • オンプレミス 全ての主要ハードウェアベンダーによるリファレンスアーキテクチャ Cisco、HP、Dell
• アプライアンス Oracle は Cloudera を Big Data Appliance の一部として組み込んでいる
• クラウド パブリック・プライベート・PaaS クラウドを様々なパートナーがサポート: Amazon、MicrosoY、T-‐Systems、SoYLayer、Savvis(Centurylink)
Cloudera デプロイメントモデル Services Training
Enterprise Partners
-
x86サーバに加えた3つの特長
Cloudera & Ciscoビッグデータソリューション
導入の容易性を提供可能にするサーバ Cisco UCS(Unified Computing System) シリーズ
エンタープライズHadoopディストリビューション Cloudera Enterprise 2
Hadoop、サーバ、ネットワークを一元管理 1
FI(UCSM)では、これまでのサーバ管理の常識であるハードウェア固有の情報(MAC アドレス、WWN、NIC & HBA ファームウェア情報や BIOS 設定)をハードウェア から完全に 分離してソフトウェア情報として管理できます。 これにより、サーバ追加/変更時に、ソフトウェア情報を 交換ハードウェアに一括で割り当てることができます。
- Hadoop Clusterゼロタッチ展開 - オンデマンドクラスタサイジング - ステータス、ヘルスダッシュボード - クラスター全体の一元管理
Hadoop,サーバ ネットワークをボタン一つで容易に管理
世界が認めた エンタープライズHadoopディストリビューション
検証済みの リファレンス アーキテクチャ
1
2 3
Web ブラウザで 簡単アクセス
サービス プロファイル OSデバイス
サーバ パラメータ BIOS FW MAC WWN
サービス プロファイル OSデバイス
サーバ パラメータ BIOS FW MAC WWN
故障
移動
UCS Director Expressから一元的に、ラックサーバ, ネットワーク、Hadoopソフトを展開、管理できます。
UCS Director Express
UCS Manager
OS/ Hadoop
インストール
Hadoop Manager
アプリ モニター
ネッ
トワ
ーク
アップリンクトランク作成 VLAN作成
QoS 設定 セキュリティ設定
サー
バ BIOS設定 ベアメタル プロビジョニング サーバセットアップ
ネットワーク設定 OSインストール RAID 構成
Hado
op
3rdパーティパッケージ インストール Hadoopユーザ アカウント作成 Hadoopサービス展開管理
Hadoopクラスタ 各ノードの構成 Hadoopソフトのインストール
検証済みのリファレンスアーキテクチャ (CPA) 3
-
23 © Cloudera, Inc. All rights reserved.
業界をリードする プロフェッショナルサービス
#1 経験 最大の専門性を持ち、Hadoopコミッターを擁し、幅広いドメイン知識を持つ。 #1 パートナー 数十ものサービスパートナーをアジアに持ち、大規模SIerや日本の小規模専門企業を含む #1 コーチング 知識の共有とベストプラクティスの導入に特化した、特定領域の専門家を擁する
Partners
Training
Enterprise
Services
-
24 © Cloudera, Inc. All rights reserved.
⼤大量量のデータを保存する• HDFS -‐‑‒ 分散ストレージ• HBase -‐‑‒ NoSQL⼤大量量のデータを処理理する• MapReduce -‐‑‒ 分散バッチ処理理
• 大量のデータを扱う基盤として爆発的に普及
• しかし、多くの欠点があった• 低レイテンシの処理に対応できない
• MapReduceが適していない処理への最適化
• 新たなニーズへの対応 • 分析、検索、ストリーム処理、機械学習、etc.
Hadoopによるビッグデータ基盤 (2008〜~2012年年)Hadoop = バッチ処理理の時代
-
25 © Cloudera, Inc. All rights reserved.
⼤大量量のデータを保存する• HDFS -‐‑‒ 分散ストレージ• HBase -‐‑‒ NoSQL⼤大量量のデータを処理理する• MapReduce -‐‑‒ 分散バッチ処理理• Spark -‐‑‒ インメモリ分散処理理• Impala -‐‑‒ 分析SQL• Solr -‐‑‒ 全⽂文検索索エンジン• Spark Streaming -‐‑‒ ストリーム処理理
• 新しい分散アプリケーションが大幅に追加
• 大量のサーバのリソース管理の基盤YARNの導入により、分散アプリケーションの同時実行が可能に
Hadoopによるビッグデータ基盤 (2012年年〜~現在)Hadoop = 多様な分散アプリケーションの基盤の時代
-
26 © Cloudera, Inc. All rights reserved.
Hadoopに向いている処理理社内外の全データを蓄積する• IAサーバを追加するだけで簡単に容量量をスケール可能• 複数の社内システムに分散しているデータをHadoopに集約して保存• 取り込み時にデータの整形は不不要ETL/ELT処理理、分析・検索索、機械学習、ストリーム処理理、etc.• IAサーバを追加するだけで処理理能⼒力力をスケール可能。これにより、スモールスタートしつつ負荷の増⼤大に柔軟に対応可能
• 多様なデータは分散処理理で⾼高速に整形・集計• 1,000台あれば、1PBのデータ処理理も20分で実⾏行行可能
• SQLエンジンにより、⼤大規模なデータを⾼高速分析• 20台のサーバを使って、15TBのデータの集計を6秒で実⾏行行
• 全⽂文検索索エンジン、機械学習、ストリーム処理理など様々な処理理も対応済み
26
-
27 © Cloudera, Inc. All rights reserved.
Hadoopに向いている処理理 (続き)外部システムからのデータ投⼊入が簡単、しかも利利⽤用可能• スキーマを設計してから投⼊入を開始するのではなく、データを投⼊入してからスキーマ設計が可能
• データ投⼊入PJとデータ分析PJを⾮非同期に実施することが可能• 廃⽌止予定のシステム: データをアーカイブ化するのではなく、常にオンラインの状態を保ったまま保存可能
• 新システム: データを利利⽤用する別システムと調整を⾏行行う必要がなく、ただHadoopにデータを投⼊入すればいい。Hadoop側で⾏行行う作業はサーバの追加のみデータフォーマットの仕様変更更が簡単• データを⼀一切切変更更することなく、分析⽤用テーブルだけを追加・編集・削除が可能• データ投⼊入側のスキーマ変更更: フィールドの追加だけなら、データ利利⽤用側システムに影響を与えることはない。利利⽤用側はスキーマ変更更不不要のため、利利⽤用側との連携のための開発⼯工数を削減可能
• データ分析側のスキーマ変更更: 元データを⼀一切切変更更しないため、データ投⼊入側が追加の開発⼯工数を要することはない
27
-
28 © Cloudera, Inc. All rights reserved.
Hadoopにできないことファイルサーバではありません
• データの投⼊入・取り出しには数秒程度度のレイテンシが発⽣生します• データの更更新は不不向きです(更更新⽤用機能もありますが⾮非推奨)BIではありません
• ピボットテーブルやグラフ作成などの機能はありませんOLTP向けのRDBMSではありません
• トランザクションなど、RDBMSでは当たり前に存在する機能のいくつかはありません
スーパーコンピュータではありません• 科学計算などの⾮非常に⾼高度度な計算処理理には向いていません• ただし、処理理の⼀一部をHadoopで⾏行行うことで⾼高速化を図る研究が⾏行行われています
28
-
29 © Cloudera, Inc. All rights reserved.
Why Cloudera?
エンタープライズセキュリティ コンプライアンス要件に合致し、機密データの 漏洩リスクを減らします
データガバナンス コンプライアンスを可能にし、アナリストの 生産性を最大化
完全なマネジメント 最適なシステムの活用方法を提供し、 SLAを守り、オンプレミス・クラウドでの デプロイを最小限の労力で提供します
エンタープライズHadoopによる長期的なお客様の成功を提供します
þ オープンソースイノベーション Clouderaより優れたHadoopはありません。ClouderaはエンタープライズHadoopの開発をリードし、最高のサポート、トレーニング、サービスを提供します
þ 強力なエンタープライズツール ClouderaはオープンソースHadoopを拡張し、世界最大級の企業に必要な要件を満たしています
þ 記録追跡とエコシステム Clouderaは最も採用されているHadoopベンダーであり、データ分析プロジェクトを成功に導く方法を知っています。必要なツールや統合を提供するパートナーがその助けとなります
-
30 © Cloudera, Inc. All rights reserved.
QuesIons?