tokyowebminig カジュアルなhadoop

[TokyoWebminig]

カジュアルなHadoop2013/03/23 @teruu

1

「カジュアル」

• MongoDB

• Pentaho ETL

• QlikView

• ドットインストール

• クチコミ係長（テキストマイニングWebサービス）

ドットインストール Amazon Web Services入門 (全17回)http://dotinstall.com/lessons/basic_aws

クチコミ＠係長株式会社ホットリンクhttp://www.hottolink.co.jp/kakaricho

私の考えるカジュアルな製品・サービス

2

「カジュアルなCRM」by 分析力をコアとする企業

3

カジュアルなHadoop

• カジュアルという価値

• 初心者向け「鉄板プロセス」を提案できないか

Amazon EMR & Hive （WebHive）

4

Hadoopサブプロジェクト（一部）Core

分散ファイルシステムと汎用的な I/O（シリアライズ，Java RPC，永続的データ構造）を提供するコンポーネントとインタフェースの集合

Avro高効率かつ多言語間 RPC のためのデータシリアライゼーションシステムと，永続的データストレージ

MapReduce分散データ処理モデルおよびコモディティマシンで構成される大規模クラスタ上の実行環境

HDFSコモディティマシンで構成される大規模クラスタ上の分散ファイルシステム

Pigデータフロー言語および超大規模データセットの調査実行環境．HDFS およびMapRe-duce クラスタ上で実行される

Hbase列指向の分散データベース．HBase は階層のストレージとしてHDFS を使用 h し，MapReduce を使ったバッチ型の演算処理と，一部を読み出すクエリ（ランダムリード）をともにサポートしている

ZooKeeper高可用性分散協調サービス．分散アプリケーションを構築するのに使われる分散ロックのような基礎的な機能要素を提供する

Hive分散データウェアハウス．HDFS に保管されたデータを管理し，SQL に基づくクエリ言語（実行時に MapReduce のジョブに変換される）を提供する

「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf

5

参考

Hadoopファーストガイド

著者：佐々木達也

6

Amazon ElasticMapReduce（EMR）アマゾン版Hadoop

• メリット

– 環境構築が不要

– 運用が不要

– 自動的に修正、バージョンアップ

• デメリット

– コスト（従量制）

– チューニングがしづらい

7

Hive

• 特徴

– SQL（HiveQL）が利用できる

→ 利用ユーザ拡大

– 直接Mapper、Reducerも利用可能

8

Amazon WebServices （AWS）&

Elastic MapReduce （EMR）

登録手順

9

AWSのトップページにアクセス

10

キャンペーンの紹介

11

アカウント作成

12

アカウント情報入力

13

クレジットカード情報入力

14

電話番号入力

15

暗証番号

16

電話がかかってくる

17

認証中

18

サービス一覧

19

EMRの利用開始

20

21

利用可能なサービス

サービス一覧

22

バケット（ディレクトリ）作成

23

バケット作成

24

バケット作成

25

バケットの中にフォルダ作成

26

EC2のインスタンスを起動

27

イメージ選択→Amazon Linux AMI

28

インスタンスタイプ選択→マイクロ

29

インスタンスタイプ一覧

30

インスタンス追加オプション

31

タグ付

33

キーペア作成

34

ファイアウォール設定

35

インスタンス起動

36

インスタンス起動中

37

インスタンス一覧

38

TeraTermで接続（ssh）

39

ID入力＋キー指定

41

sshで接続

42

パッケージをアップデート

43

EMR JobFlow作成

44

Job名入力、バージョン指定

45

入出力場所の指定

46

インスタンスタイプ指定

47

その他のオプション指定

48

Job作成

49

ブートストラップアクション指定

50

JobFlow作成完了

51

しばらく待つ → 利用可能に

52

Hiveについて

53

Hiveとは

• 2008年にFaceBookで開発され、Hadoopプロジェクトに寄贈される。

• Yahoo!で開発しているPigのライバルプロジェクト？

• 一言で表すとHadoop上で動作するデータウエアハウス。

• HiveQLというSQLのような言語でHDFSなどの分散ファイルシステム上のデータを操作できる。

• HiveQLの実行でMap/Reduce処理が完了する。

• 私見だが複雑なデータのMapReduceから特定のデータを抽出したい場合には便利かも。

Hadoopをより便利に使う！HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用

54

Hadoop & Hive の特徴

Hadoop & HiveDB

アプライアンス

RDB OLTP系

スループット

レイテンシー

高

高低

低

55

Hiveの設定

HiveQL構文(DDL)HiveQL構文(SQL)など、下記のブログ記事が参考になります

Hadoopをより便利に使う！HiveでのMapReduceまとめ - Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034

56

Hiveのデータ型

Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析（前編） | Opentone Labs.http://labs.opentone.co.jp/?p=1860 より引用 57

WebHiveについて

58

WebHive （githubで公開）

59リクルート社が開発・公開

WebHiveの画面

60

発表のまとめ

• 初心者向け「鉄板プロセス？」として、EMR＆Hive＆WebHiveの組合わせをご紹介

• 「カジュアル」と言いながら、進めてみるとなかなか一筋縄ではいかないことが明らかに

• 一方で、課題解決のためのポイントがおぼろげながら見えてきた

61

tokyowebminig カジュアルなhadoop

Technology