サクラインターネットdc石狩見学-ニコニコデータセット分析環境について

26
ニコニコデータ分析環境 芝尾幸一郎 @shibacow 131123日土曜日

Upload: shibao-kouichiro

Post on 19-Jul-2015

474 views

Category:

Entertainment & Humor


5 download

TRANSCRIPT

ニコニコデータ分析環境芝尾幸一郎 @shibacow

13年11月23日土曜日

芝尾幸一郎@shibacow

データ分析エンジニア

ソーシャルゲームの会社でデータ分析に従事

13年11月23日土曜日

13年11月23日土曜日

昔、ニコニコ動画作ってました。

13年11月23日土曜日

個人でサイト作ってます

ニコニコ動画勝手ランキングサイトhttp://nico-ran.jp/

13年11月23日土曜日

13年11月23日土曜日

13年11月23日土曜日

ON

13年11月23日土曜日

ON

13年11月23日土曜日

構成VPS 2GBプラン 1台(Apache Front)

WebApp

VPS SSD 4GBプラン 1台 (MySQL DB)

13年11月23日土曜日

構成VPS 2GBプラン 1台(Apache Front)

WebApp

VPS SSD 4GBプラン 1台 (MySQL DB)

VPS最高

13年11月23日土曜日

ニコニコデータ分析環境

13年11月23日土曜日

ニコニコデータセット公開ドワンゴ NII(国立情報学研究所)によるニコニコ動画データセット公開

動画情報 800万

タグ情報 4000万

コメント情報24億

若者文化の今を切り取る良質なデータセット

無料で公開

誰でもダウンロード可能

誰でも分析可能

13年11月23日土曜日

とはいえ

S3データ整形 HadoopFS

Hive取り込み

Jsonデータ取り出し

データ分析

初心者には荷が重い13年11月23日土曜日

みんながしたいのは

分析環境「構築」ではなく「分析」そのもの

13年11月23日土曜日

作った

13年11月23日土曜日

ニコニコ動画データビューアWeb経由で分析可能。

当然無料

アカウント登録不要

誰でもすぐにHive Queryを使って分析可能。

動画情報テーブルタグ情報テーブルコメント情報テーブルを用意簡単なQueryで分析可能

http://nicodata.info/13年11月23日土曜日

ON

13年11月23日土曜日

ON

13年11月23日土曜日

構成

Shib by tagomoris

Hive

Hadoop(AmazonEMR)

Amazon EC2

Web

Nodejs

m1.mediam x3 m1.small x2

13年11月23日土曜日

困ったお金がないので土日のみ運用

(m1.mediam x3 ,m1.small x2)

毎週立ち上げ、データロード出来れば、毎日運営したい

http://nicodata.info/

13年11月23日土曜日

サクラにお願い

安いAWS ElasticMapReduce

サービスを作って!!

13年11月23日土曜日

こんなことが分かります

select substr(from_unixtime(cdate),1,7),cat,count(*) from comment_density_with_cat where comment_string like "%8888888%" group by substr(from_unixtime(cdate),1,7),cat;

88888のカテゴリごとの伝播

13年11月23日土曜日

エンターテイメント

ゲーム

歌ってみた

ボカロ

13年11月23日土曜日

言葉(文化)の伝播最初はエンタメから後盛り上がらず。2011年に再燃ゲーム、歌ってみた、ボカロの順歌ってみた、踊ってみた等、やって見たに拍手。意外と政治に、888が多い(東方、アニメより上)アニメ、東方にあまり888はつかない。8888はニコ動の文化として定着若者文化の貴重な資料

13年11月23日土曜日

最後ニコ動コメントは若者文化の貴重な資料

手軽に分析できる環境を作りたい

さくらは安いAWS EMRの分析環境を作って!!

当面は、土日だけ開けてます。高いので。

http://nicodata.info/ をよろしく。

13年11月23日土曜日