cloudera world tokyo 2014 ltセッション「マイクロソフトとhadoop」
DESCRIPTION
Cloudera World Tokyo 2014のライトニングトークセッション資料です。TRANSCRIPT
![Page 1: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/1.jpg)
マイクロソフトとHadoop
2014年11月6日
日本マイクロソフト株式会社
佐々木邦暢 (@ksasakims)
![Page 2: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/2.jpg)
2
佐々木と申します
(@ksasakims)
![Page 3: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/3.jpg)
3
担当の技術営業です
![Page 4: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/4.jpg)
4
今日はマイクロソフトの
Hadoop への取り組み
について話そうかと
![Page 5: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/5.jpg)
5
しかしその前に
![Page 6: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/6.jpg)
マイクロソフトの
内なるHadoop的なもの
2014年11月6日
日本マイクロソフト株式会社
佐々木邦暢 (@ksasakims)
![Page 7: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/7.jpg)
![Page 8: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/8.jpg)
8
Dryad って聞いたことありますよね
http://research.microsoft.com/en-us/projects/dryad
![Page 9: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/9.jpg)
9
Cosmos ってご存知でしょうか
http://research.microsoft.com/en-us/events/fs2011/helland_cosmos_big_data_and_big_challenges.pdf
PB クラスの分散ストレージ
計算ノード群(クラスタ)の
管理とジョブスケジューリング
Dryad ベースの分散並列処理
“SCOPE” という SQL 的な
クエリ言語(Dryad 上のジョブ
へコンパイルされる)
![Page 10: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/10.jpg)
10
Cosmos のアーキテクチャ
ここにDryad
Hive, Pig的な
クエリの仕組み
HDFS的な
分散ストレージ
![Page 11: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/11.jpg)
11
SCOPE
http://research.microsoft.com/en-us/um/people/jrzhou/pub/Scope.pdf
![Page 12: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/12.jpg)
12
AdCenter, Azure, Bing, Bing Maps, MSN, Xbox Live
and more!
2005年ぐらいから今に至るまで、大好評稼働中
社内には多くのCosmos ユーザー
![Page 13: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/13.jpg)
13
外部公開する?
![Page 14: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/14.jpg)
14http://www.publickey1.jp/blog/10/hadoopdryad.html
http://blogs.technet.com/b/windowshpc/archive/2011/05/20/dryad-becomes-linq-to-hpc.aspx
![Page 15: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/15.jpg)
15
しかし LINQ to HPC は開発中止
正式リリースの2週間前のことでした…
「これは LINQ to HPC
の最後のプレビューです。
正式版を出荷する計画は
ありません。
Windows 版 Hadoop
を提供するので。」
![Page 16: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/16.jpg)
![Page 17: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/17.jpg)
17
Microsoft Azure HDInsight Service
すぐに使えるクラウド上の Hadoop です
2013 年 10 月正式リリース済み
利用可能なリージョンは 11 箇所
日本では西日本リージョンで利用可能
OS
Windows Server 2012 R2
バージョンは以下の3種から選択可能
HDInsight-3.0
(HDP 2.0 / Hadoop 2.2)
HDInsight-3.1
(HDP 2.1 / Hadoop 2.4)
![Page 18: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/18.jpg)
18
HDInsight Service システム構成
データ ノードネーム ノード BLOB ストレージ
A4サイズ8 コア /ノード
A3サイズ4 コア /ノード
Microsoft Azure の PaaS 機能と BLOB ストレージを活用します
ネームノード、
データノードはどちらも
Worker ロールの
インスタンスです。
多数のノードを素早く
デプロイできます。
また、Microsoft Azure の
「BLOB ストレージ」を、
デフォルトのファイル
システムとして利用します。
もちろん HDFS も
利用可能です。
![Page 19: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/19.jpg)
19
Azure ストレージに関する論文
http://sigops.org/sosp/sosp11/current/2011-Cascais/printable/11-calder.pdf
![Page 20: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/20.jpg)
20
ファイル(BLOB)の構造
複製の仕組み
![Page 21: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/21.jpg)
21
NativeAzureFileSystem
BLOB を Hadoop のファイルシステムに
様々なファイルシステムを扱えるように、
Hadoop はファイルシステムの抽象化層を持っています。
マイクロソフトは NativeAzureFileSystem クラスを作成し、
Azure BLOB をサポートしました。
種類 URIスキーム
Javaの実装クラス(org.apache.Hadoop)
説明
Local file fs.LocalFileSystemローカルファイルシステム
HDFS hdfs hdfs.DistributedFileSystem HDFS
FTP ftp fs.ftp.FTPFileSystem FTP サイト用
S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用
AzureBLOB
wasb fs.azurenative.NativeAzureFileSystem Azure BLOB 用
![Page 22: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/22.jpg)
22
BLOB 対応の Parcel もあります
![Page 23: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/23.jpg)
23
HBase や Storm もサポート
こんなチュートリアルも出ています
![Page 24: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/24.jpg)
![Page 25: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/25.jpg)
25
実は
Dryad と
DryadLINQ
![Page 27: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/27.jpg)
27
HDInsight 上の
YARN アプリケーション
![Page 28: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/28.jpg)
28
![Page 29: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/29.jpg)
29
Naiad という新しい兄弟も
http://research.microsoft.com/en-us/projects/naiad/
Dryad 及び DryadLINQ が
スループット重視だとすれば、
Naiadはインメモリでの低遅延
処理を重視
こちらも、HDInsight
クラスタ上での実行が可能
![Page 30: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/30.jpg)
30
SOSP 2013 の論文
http://research.microsoft.com/pubs/201100/naiad_sosp2013.pdf
![Page 31: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/31.jpg)
31
Dryad と Naiad
向いている処理 成熟度
Dryad + DryadLINQスループット重視
バッチ処理に向く
歴史が長い分
安定している
Naiadレイテンシ重視
繰り返しの処理に向く
活発に開発中
API 変更頻繁
![Page 32: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/32.jpg)
![Page 33: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/33.jpg)
33
Cloudera さんとコラボ
![Page 34: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/34.jpg)
34
Azure Marketplace に Cloudera Enterprise
![Page 35: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/35.jpg)
35
最新の D14 インスタンスで Cloudera
![Page 36: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」](https://reader034.vdocuments.site/reader034/viewer/2022052602/559e1b271a28abd75b8b4664/html5/thumbnails/36.jpg)
+