Download - Re dashで作るニコニコデータセット分析環境
re:dashで作るニコニコデータセット分析環境
芝尾幸一郎(Aiming)
芝尾 幸一郎(@shibacow)ソーシャルゲーム会社で、ユーザーの行動を分析しています。
個人で、ニコニコ動画のランキングサイト作ってます。
個人で、ニコニコ動画・Youtubeのデータを分析しています。
ニコニコ学会発表-Youtubeとニコニコ動画のランキングを比較してみた
http://goo.gl/hF7YE7
興味は、データ分析の分析基盤を作ること
剣と魔法のログレスMMOはそのうち高機能チャットと呼ばれる
ニコニコ動画 ランキングサイト http://nico-ran.jp/
ニコニコデータセット
NIIとニコニコ動画が提供している無料で使えるデータセット
● 2007-2012まで(そろそろ更新してほしい)● ビデオ情報 800万● タグ情報 4000万● コメント情報 23億
のデータを配布している(無料、誰でも使えます)。
世の中にデータは公開されているが、「面白い」データは少ない。
ex データセンターの話
このお話
オープンソースの可視化ツール re:dashを使って、ニコニコデータセットの分析環境を
作ってみたよというお話。
割とエンジニア向け。
つまり
場所:(誰でも)無料で使えます
http://nicodata2.link/
Googleのアカウントが必要(多分GmailでOK)。
大人数で使うのは今日が初めて。
優しく使ってね。
クエリーの実行
select count(*) from [nicodata_test.comment_data];
グラフを作る
SELECT STRFTIME_UTC_USEC(date, '%Y-%m') AS dt,count(*)FROM [nicodata_test.comment_data]GROUP BY dt ORDER BY dt DESC;
技術的なお話
以前のシステム
仕組み
shib(Node.js)
Hive(hadoop)
ニコニコデータ(HDFS)
AWS
不満
クエリーのレスポンスが遅い。
簡単にグラフ化できない
簡単に集計結果をダッシュボード化出来ない
土日しか開いていない
新しいシステム
仕組み
re:dash BigQuery ニコニコデータ(GCS)
Google CloudPlatform
利点
クエリーのレスポンスが早い
簡単に、クエリーを登録できる
簡単にダッシュボードを登録できる。
平日も開けられる
Googleの提供している超早い集計ツール
23億件が数秒で集計できる
BigQuery
仕組み
数千台にデータを分散させて、集計。思いついてもGoogle以外に真似できない。
re:dashオープンソースの可視化ソフトウェア
http://redash.io/
pythonで書かれている。
Google Compute Engine
AWS
にインスタンスが用意されており、立ち上げるだけ。
色々なグラフが作れる
使いにくい所
● UIがこなれていない
● ページを簡単にカスタマイズ出来ない
● 挙動がまだ不安定
● BigQueryは従量課金
出来たら良いな
● SMIDに動画サムネイルひも付け
● 作ったグラフに感想を付けられる仕組み
● 作ったグラフにいいね出来る仕組み
お約束
Aimingでは、ゲームデータアナリストを募集中です
http://aiming-inc.com/ja/jobs/career/other/game-data-analyst/
http://nicodata2.link/
従量課金なので、コスト高いなら、対処考え
る
要望、感想は@shibacowまで。
まずは試してみる