tokyowebminig カジュアルなhadoop
DESCRIPTION
第25回 TokyoWebmining 発表スライドTRANSCRIPT
[TokyoWebminig]
カジュアルなHadoop2013/03/23 @teruu
1
「カジュアル」
• MongoDB
• Pentaho ETL
• QlikView
• ドットインストール
• クチコミ係長(テキストマイニングWebサービス)
ドットインストール Amazon Web Services入門 (全17回)http://dotinstall.com/lessons/basic_aws
クチコミ@係長 株式会社ホットリンクhttp://www.hottolink.co.jp/kakaricho
私の考えるカジュアルな製品・サービス
2
「カジュアルなCRM」by 分析力をコアとする企業
3
カジュアルなHadoop
• カジュアルという価値
• 初心者向け「鉄板プロセス」を提案できないか
Amazon EMR & Hive (WebHive)
4
Hadoopサブプロジェクト(一部)Core
分散ファイルシステムと汎用的な I/O(シリアライズ,Java RPC,永続的データ構造)を提供するコンポーネントとインタフェースの集合
Avro高効率かつ多言語間 RPC のためのデータシリアライゼーションシステムと,永続的データストレージ
MapReduce分散データ処理モデルおよびコモディティマシンで構成される大規模クラスタ上の実行環境
HDFSコモディティマシンで構成される大規模クラスタ上の分散ファイルシステム
Pigデータフロー言語および超大規模データセットの調査実行環境.HDFS およびMapRe-duce クラスタ上で実行される
Hbase列指向の分散データベース.HBase は階層のストレージとしてHDFS を使用 h し,MapReduce を使ったバッチ型の演算処理と,一部を読み出すクエリ(ランダムリード)をともにサポートしている
ZooKeeper高可用性分散協調サービス.分散アプリケーションを構築するのに使われる分散ロックのような基礎的な機能要素を提供する
Hive分散データウェアハウス.HDFS に保管されたデータを管理し,SQL に基づくクエリ言語(実行時に MapReduce のジョブに変換される)を提供する
「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf
5
参考
Hadoopファーストガイド
著者:佐々木達也
6
Amazon ElasticMapReduce(EMR)アマゾン版Hadoop
• メリット
– 環境構築が不要
– 運用が不要
– 自動的に修正、バージョンアップ
• デメリット
– コスト(従量制)
– チューニングがしづらい
7
Hive
• 特徴
– SQL(HiveQL)が利用できる
→ 利用ユーザ拡大
– 直接Mapper、Reducerも利用可能
8
Amazon WebServices (AWS)&
Elastic MapReduce (EMR)
登録手順
9
AWSのトップページにアクセス
10
キャンペーンの紹介
11
アカウント作成
12
アカウント情報入力
13
クレジットカード情報入力
14
電話番号入力
15
暗証番号
16
電話がかかってくる
17
認証中
18
サービス一覧
19
EMRの利用開始
20
21
利用可能なサービス
サービス一覧
22
バケット(ディレクトリ)作成
23
バケット作成
24
バケット作成
25
バケットの中にフォルダ作成
26
EC2のインスタンスを起動
27
イメージ選択→Amazon Linux AMI
28
インスタンスタイプ選択→マイクロ
29
インスタンスタイプ一覧
30
インスタンス 追加オプション
31
32
タグ付
33
キーペア作成
34
ファイアウォール設定
35
インスタンス起動
36
インスタンス起動中
37
インスタンス一覧
38
TeraTermで接続(ssh)
39
40
ID入力+キー指定
41
sshで接続
42
パッケージをアップデート
43
EMR JobFlow作成
44
Job名入力、バージョン指定
45
入出力場所の指定
46
インスタンスタイプ指定
47
その他のオプション指定
48
Job作成
49
ブートストラップアクション指定
50
JobFlow作成完了
51
しばらく待つ → 利用可能に
52
Hiveについて
53
Hiveとは
• 2008年にFaceBookで開発され、Hadoopプロジェクトに寄贈される。
• Yahoo!で開発しているPigのライバルプロジェクト?
• 一言で表すとHadoop上で動作するデータウエアハウス。
• HiveQLというSQLのような言語でHDFSなどの分散ファイルシステム上のデータを操作できる。
• HiveQLの実行でMap/Reduce処理が完了する。
• 私見だが複雑なデータのMapReduceから特定のデータを抽出したい場合には便利かも。
Hadoopをより便利に使う!HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用
54
Hadoop & Hive の特徴
Hadoop & HiveDB
アプライアンス
RDB OLTP系
スループット
レイテンシー
高
高 低
低
55
Hiveの設定
HiveQL構文(DDL)HiveQL構文(SQL)など、下記のブログ記事が参考になります
Hadoopをより便利に使う!HiveでのMapReduceまとめ - Yuta.Kikuchiの日記http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034
56
Hiveのデータ型
Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析(前編) | Opentone Labs.http://labs.opentone.co.jp/?p=1860 より引用 57
WebHiveについて
58
WebHive (githubで公開)
59リクルート社が開発・公開
WebHiveの画面
60
発表のまとめ
• 初心者向け「鉄板プロセス?」として、EMR&Hive&WebHiveの組合わせをご紹介
• 「カジュアル」と言いながら、進めてみるとなかなか一筋縄ではいかないことが明らかに
• 一方で、課題解決のためのポイントがおぼろげながら見えてきた
61