サクラインターネットdc石狩見学-ニコニコデータセット分析環境について
TRANSCRIPT
ニコニコデータセット公開ドワンゴ NII(国立情報学研究所)によるニコニコ動画データセット公開
動画情報 800万
タグ情報 4000万
コメント情報24億
若者文化の今を切り取る良質なデータセット
無料で公開
誰でもダウンロード可能
誰でも分析可能
13年11月23日土曜日
ニコニコ動画データビューアWeb経由で分析可能。
当然無料
アカウント登録不要
誰でもすぐにHive Queryを使って分析可能。
動画情報テーブルタグ情報テーブルコメント情報テーブルを用意簡単なQueryで分析可能
http://nicodata.info/13年11月23日土曜日
構成
Shib by tagomoris
Hive
Hadoop(AmazonEMR)
Amazon EC2
Web
Nodejs
m1.mediam x3 m1.small x2
13年11月23日土曜日
困ったお金がないので土日のみ運用
(m1.mediam x3 ,m1.small x2)
毎週立ち上げ、データロード出来れば、毎日運営したい
http://nicodata.info/
13年11月23日土曜日
こんなことが分かります
select substr(from_unixtime(cdate),1,7),cat,count(*) from comment_density_with_cat where comment_string like "%8888888%" group by substr(from_unixtime(cdate),1,7),cat;
88888のカテゴリごとの伝播
13年11月23日土曜日
言葉(文化)の伝播最初はエンタメから後盛り上がらず。2011年に再燃ゲーム、歌ってみた、ボカロの順歌ってみた、踊ってみた等、やって見たに拍手。意外と政治に、888が多い(東方、アニメより上)アニメ、東方にあまり888はつかない。8888はニコ動の文化として定着若者文化の貴重な資料
13年11月23日土曜日
最後ニコ動コメントは若者文化の貴重な資料
手軽に分析できる環境を作りたい
さくらは安いAWS EMRの分析環境を作って!!
当面は、土日だけ開けてます。高いので。
http://nicodata.info/ をよろしく。
13年11月23日土曜日