re:growth athena
TRANSCRIPT
re:Invent新サービス Athena
千葉 淳クラスメソッド株式会社
2016 年 12 月 6 日
自己紹介
所属:クラスメソッド株式会社
仕事:ソリューションアーキテクト
好きな AWS: Lambda
名前:千葉 淳
Athenaとは?
Day1 キーノートで発表
データ分析の顧客課題データ分析の大量作業、大量な知識必要
出典: http://www.slideshare.net/AmazonWebServicesJapan/awswebinar-awsbig-data
Athena が解決ETL 、データロードが不要!S3 上データへ対話的 SQL クエ
リ複数フォーマット対応! (CSV/TSV/JSON/Apache log
等 ) 答え
Athena の特徴?サーバーレス ( 高可用性、運用が楽 )早い ( 並列実行、チューニング済み )コスト効率がよい ( スキャン $5/TB)ツール連携 (JDBC, QuickSight)
事例DataXu 社 180TB/ 日を可視化
画面解説
Athena の画面
クエリ実行画面
よく使うクエリの保存画面
ELB 用ログテーブル作成、 CloudFront ログテーブル作成のサンプル等用意
結果確認画面
データベース / テーブル作成画面
Athena におけるデータベース / テーブルデータベースは「テーブルの論理グループ」テーブルは、データの定義
所属するデータベースデータを保存している S3 の場所 ( ファイル / パス )データフォーマットカラムの定義パーティション
データベース / テーブルのポイントSQL でもテーブル作成 OKパーティショニング = 検索データを減らす
コスト削減パフォーマンスの向上
パーティショニング - Hive -
テーブル作成時に 指定
パーティショニング – Hive 以外 -
日付ごとにパーティションを追加する必要あり
JDBC で自動化を検討
まとめ
まとめS3 上のデータを SQL にて直接分析様々なフォーマット対応 (CSV/TSV/
JSON/Apache log 等 )サーバレスで高可用性、運用管理不要ツールと連携し可視化 (JDBC 、 QuickSight)
Appendix検証記事は Developers.IO( 現在 13 記事 )
おしまい