emr with the maprは何がうれしいの cm re:growth

18
EMR with the MapR は はははははははは CM re:Growth Developers.IO Meetup 01 classmethod.jp 1 2013/12/10 能能 能 (@n3104)

Upload: -

Post on 28-May-2015

3.061 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EMR with the MapRは何がうれしいの CM re:Growth

EMR with the MapR はなにがうれしいの

CM re:GrowthDevelopers.IO Meetup 01

classmethod.jp 1

2013/12/10 能登 諭(@n3104)

Page 2: EMR with the MapRは何がうれしいの CM re:Growth

自己紹介• 氏名:能登 諭(のと さとし)• 得意分野: Hadoop• 好きな AWS サービス: EC2

classmethod.jp 2

Page 3: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 3

みなさん、 EMR 使ってますか?

Page 4: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 4

私は使ってないですw

(前職は CDH をオンプレで使ってました)

Page 5: EMR with the MapRは何がうれしいの CM re:Growth

EMR とは• http://aws.amazon.com/jp/elasticmapred

uce/• 正式名称は Amazon Elastic MapReduce 。• AWS が提供する Hadoop のディストリ

ビューション。• オンプレとの一番の違いは保守が不要な点。• 基本的に S3 に入出力ファイルを置くことに

なるため、– HDFS の障害を考慮しなくてよくなる。–容量制限を気にする必要がなくなる。

classmethod.jp 5

Page 6: EMR with the MapRは何がうれしいの CM re:Growth

そもそも Hadoop とは• http://hadoop.apache.org/• HDFS (分散ファイルシステム)と

MapReduce (分散処理系)をコアとするミドルウェア群。

• 中心は HDFS (分散ファイルシステム)。これがあるおかけで MapReduce で効率的に分散処理ができる。

classmethod.jp 6

Page 7: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 7

みなさん、 EMR with the MapRを使ってますか?

Page 8: EMR with the MapRは何がうれしいの CM re:Growth

MapR とは• MapR Technologies が提供する Hadoop の

ディストリビューション。• 一番の特徴はコアとなる HDFS を C++ で書

き直している点。これによって性能を向上させただけでなくスナップショットなど色々な機能を実装している(本家 Hadoop でもスナップショットなどの機能は最近実装されています)。

classmethod.jp 8

Page 9: EMR with the MapRは何がうれしいの CM re:Growth

EMR with the MapR とは• http://aws.amazon.com/jp/elasticmapred

uce/mapr/• MapR を EMR 上で利用できるオプション。• Amazon の EMR を利用する場合に比べて追

加で利用料金がかかる。

classmethod.jp 9

Page 10: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 10

MapR は追加料金がかかるけど、処理性能がよいなら

もしかして安くなる?

Page 11: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 11

ということで検証してみました。

Page 12: EMR with the MapRは何がうれしいの CM re:Growth

検証内容• Big Data Benchmark– https://amplab.cs.berkeley.edu/benchmark/

• EMR 上で m2.4xlarge を 5 台• EMR は以下の 2 つ– Amazon 2.4.2(Hadoop 1.0.3) latest–MapR M3 3.0.2

• テストケース– SequenceFile の Scale Factor5– a1, b1, c1 の 3 ケース

classmethod.jp 12

Page 13: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 13

検証結果

a1 a2 a3

Amazon 125 720 767

MapR 28 279 246

※ 単位は秒数です

Page 14: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 14

MapR はやい!!!( ゚д ゚ ) ポカーン

Page 15: EMR with the MapRは何がうれしいの CM re:Growth

MapR の追加コスト• http://aws.amazon.com/jp/elasticmapred

uce/mapr/• 東京リージョンで今回利用した m2.4xlarge

(Quadruple Extra Large) の場合。– EC2 Price : $2.02 per hour–M3 Price : $0.42 per hour

• 今回の場合は 5 台たてたので、 Amazon と比べると 1 台分高いが処理時間は半分以下!つまり、サーバー台数を半分にできる!!

classmethod.jp 15

Page 16: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 16

いちど MapR について試してはいかがでしょうか。

Page 17: EMR with the MapRは何がうれしいの CM re:Growth

classmethod.jp 17

ご静聴ありがとうございましたm(_ _)m

Page 18: EMR with the MapRは何がうれしいの CM re:Growth