cloudera world tokyo 2014 ltセッション「マイクロソフトとhadoop」

Post on 09-Jul-2015

381 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Cloudera World Tokyo 2014のライトニングトークセッション資料です。

TRANSCRIPT

マイクロソフトとHadoop

2014年11月6日

日本マイクロソフト株式会社

佐々木邦暢 (@ksasakims)

2

佐々木と申します

(@ksasakims)

3

担当の技術営業です

4

今日はマイクロソフトの

Hadoop への取り組み

について話そうかと

5

しかしその前に

マイクロソフトの

内なるHadoop的なもの

2014年11月6日

日本マイクロソフト株式会社

佐々木邦暢 (@ksasakims)

8

Dryad って聞いたことありますよね

http://research.microsoft.com/en-us/projects/dryad

9

Cosmos ってご存知でしょうか

http://research.microsoft.com/en-us/events/fs2011/helland_cosmos_big_data_and_big_challenges.pdf

PB クラスの分散ストレージ

計算ノード群(クラスタ)の

管理とジョブスケジューリング

Dryad ベースの分散並列処理

“SCOPE” という SQL 的な

クエリ言語(Dryad 上のジョブ

へコンパイルされる)

10

Cosmos のアーキテクチャ

ここにDryad

Hive, Pig的な

クエリの仕組み

HDFS的な

分散ストレージ

11

SCOPE

http://research.microsoft.com/en-us/um/people/jrzhou/pub/Scope.pdf

12

AdCenter, Azure, Bing, Bing Maps, MSN, Xbox Live

and more!

2005年ぐらいから今に至るまで、大好評稼働中

社内には多くのCosmos ユーザー

13

外部公開する?

14http://www.publickey1.jp/blog/10/hadoopdryad.html

http://blogs.technet.com/b/windowshpc/archive/2011/05/20/dryad-becomes-linq-to-hpc.aspx

15

しかし LINQ to HPC は開発中止

正式リリースの2週間前のことでした…

「これは LINQ to HPC

の最後のプレビューです。

正式版を出荷する計画は

ありません。

Windows 版 Hadoop

を提供するので。」

17

Microsoft Azure HDInsight Service

すぐに使えるクラウド上の Hadoop です

2013 年 10 月正式リリース済み

利用可能なリージョンは 11 箇所

日本では西日本リージョンで利用可能

OS

Windows Server 2012 R2

バージョンは以下の3種から選択可能

HDInsight-3.0

(HDP 2.0 / Hadoop 2.2)

HDInsight-3.1

(HDP 2.1 / Hadoop 2.4)

18

HDInsight Service システム構成

データ ノードネーム ノード BLOB ストレージ

A4サイズ8 コア /ノード

A3サイズ4 コア /ノード

Microsoft Azure の PaaS 機能と BLOB ストレージを活用します

ネームノード、

データノードはどちらも

Worker ロールの

インスタンスです。

多数のノードを素早く

デプロイできます。

また、Microsoft Azure の

「BLOB ストレージ」を、

デフォルトのファイル

システムとして利用します。

もちろん HDFS も

利用可能です。

19

Azure ストレージに関する論文

http://sigops.org/sosp/sosp11/current/2011-Cascais/printable/11-calder.pdf

20

ファイル(BLOB)の構造

複製の仕組み

21

NativeAzureFileSystem

BLOB を Hadoop のファイルシステムに

様々なファイルシステムを扱えるように、

Hadoop はファイルシステムの抽象化層を持っています。

マイクロソフトは NativeAzureFileSystem クラスを作成し、

Azure BLOB をサポートしました。

種類 URIスキーム

Javaの実装クラス(org.apache.Hadoop)

説明

Local file fs.LocalFileSystemローカルファイルシステム

HDFS hdfs hdfs.DistributedFileSystem HDFS

FTP ftp fs.ftp.FTPFileSystem FTP サイト用

S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用

AzureBLOB

wasb fs.azurenative.NativeAzureFileSystem Azure BLOB 用

22

BLOB 対応の Parcel もあります

23

HBase や Storm もサポート

こんなチュートリアルも出ています

25

実は

Dryad と

DryadLINQ

26

GitHub なう

https://github.com/MicrosoftResearch/Dryad

27

HDInsight 上の

YARN アプリケーション

28

29

Naiad という新しい兄弟も

http://research.microsoft.com/en-us/projects/naiad/

Dryad 及び DryadLINQ が

スループット重視だとすれば、

Naiadはインメモリでの低遅延

処理を重視

こちらも、HDInsight

クラスタ上での実行が可能

30

SOSP 2013 の論文

http://research.microsoft.com/pubs/201100/naiad_sosp2013.pdf

31

Dryad と Naiad

向いている処理 成熟度

Dryad + DryadLINQスループット重視

バッチ処理に向く

歴史が長い分

安定している

Naiadレイテンシ重視

繰り返しの処理に向く

活発に開発中

API 変更頻繁

33

Cloudera さんとコラボ

34

Azure Marketplace に Cloudera Enterprise

35

最新の D14 インスタンスで Cloudera

+

top related