ありらいおんさんのデータ本の作り方

24
あああああああああ ああああああああ myrmecoleon

Upload: myrmecoleon

Post on 24-Jul-2015

881 views

Category:

Documents


8 download

TRANSCRIPT

ありらいおんさんのデータ本の作り方

myrmecoleon

『ニコニコ動画統計データハンドブック 2013 』

2012 年 12 月末のコミックマーケット 83 で頒布

\500 ニコニコ動画の基本的な

データを整理して記述し,ニコニコ動画の現状を考察・活用する上の材料とすることが目的。 2009 年8 月よりシリーズを刊行開始。

過去の刊行履歴2009 年 8 月 ニコニコ動画統計データチートシート

12 月ニコニコ動画統計データハンドブック 暫定版2010 年 8 月 ニコニコ動画統計データハンドブック(夏)

12 月ニコニコ動画統計データハンドブック(冬)2011 年 2 月 ニコニコ動画統計データハンドブック2011

ニコニコ動画統計データハンドブック ニコつく出張版8 月 ニコニコ動画タグデータハンドブック12 月ニコニコ動画統計データハンドブック 2012

2012 年 8 月 コミケ・ pixiv ・ニコニコ動画12 月ニコニコ動画統計データハンドブック 2013

おもな内容 動画データの解説

投稿数・削除動画・動画のサイズ・長さ・ビットレート 再生数・コメント数・マイリスト登録数

うp主データの解説 うp主の数・全体のユーザー数 性別や年齢の分布・所在地・ジニ係数(偏りの分析)

タグデータの解説 カテゴリタグすべて 実況プレイ動画・ MikuMikuDance ・ UTAU ・音 MAD タグの順位なども

自分のデータ本の作り方

1. PHP でクローラを書いてニコニコ動画の非公開 API 等からデータ収集 ←ここを解説

2. MS Access の DB に入れて管理3. MS Access ・ Excel ・ R などを使ってデータ集

計,グラフなどを作成。4. Adobe InDesign でレイアウトして原稿作成。

収集しているデータ(メタデータ)

動画 動画 ID ・投稿日時・サイズ・長さ・再生数・コメント数・マ

イリスト登録数・投稿者のユーザー ID タグ

タグのついている動画 ID 投稿者

ユーザー ID ・プレミアム会員登録・性別・生年月日・所在地など

ほか

どうやってる収集する?

動画数 約 850 万。 連番では約 2000 万。 これだけの動画のメタデータをできるだけ短期

間で収集しないといけない。 現状のスナップショットを把握するため 今回は 10 日間の幅を目標とした

一番シンプルな方法 サムネ API

http://ext.nicovideo.jp/api/getthumbinfo/smxxx

動画について必要なすべての情報が得られる。

1 動画につき 1 アクセス必要。 ex. 現在 850 万動画… 1 秒 1

アクセスでおよそ 100 日必要。 動画 ID が分からないと使えな

い。 連番で 2000 万を超える。

10 日間ですべての動画を叩くのは非常に困難。

10 日で850 万の動画のデータをあつめるには?

複数の方法を組み合わせて効率的な収集の方法を考えるべき

収集したい動画メタデータを 固定したもの(変わらないもの) 変動するもの(変わるもの)

に分けて別個に収集する

動画メタデータの区分け 固定メタデータ……投稿時から変化しないもの

動画 ID 投稿日時 再生時間,動画のファイルサイズ 投稿者のユーザー ID

変動メタデータ……変化する可能性のあるもの 視聴の可否 再生数・コメント数・マイリスト登録数 タグ

固定メタデータ 投稿時から変わらないので収集時期はいつでもか

まわない → 事前の 1 ヶ月までにサムネ API で動画 ID を探索して

収集しておく。 過去の蓄積…前年分までのデータは収集済み。

→ 前回からの差分だけ収集すればいい。 → 実際にはもっとこまめに収集している。

直前 3 ヶ月分・ 100 万件ほどをチェックすればいい。 1 日あたりの投稿は数千~ 1 万件程度 1 回 / 秒でも日数 ×3 時間程度クローラをかければ収集

できる。

動画 ID の探索方法 動画の後ろの番号は連番

同一の番号はない(ことになってる)。 前の 2 文字は sm ・ nm ・ so の 3 種類。

過去にはいろいろあったが新規投稿はこれだけ。

番号ごとに sm→nm→so の順にサムネ API をチェックして使用を確認。 あわせて各固定メタデータも収集。

固定メタデータ収集のスケジュール

11 月上旬 10 月分まで投稿の動画 ID を探索 収集に要する時間はそれまでの調査状況による

11 月中旬 11 月分の動画 ID を探索。あわせて生存確認(後

述)で判明した調査漏れなどを確認。 11 月下旬~ 12 月 1 日

11 月末までに投稿された動画の動画 ID をすべて確認。

変動メタデータ 固定メタデータと違って更新する必要がある

動画 ID が判明していても 850 万回サムネ API を叩くのは困難

ほかの方法を組み合わせる タグ検索結果( RSS ) 公開投稿動画( RSS)抜けてるものはサムネ API で補完。

タグ検索 ニコニコ動画ではタグ検索の結果を RSS で取

得可能。 numbers=1 のオプションを付ければ再生数等も

動画の 8割はおもなタグのいずれかがつく カテゴリタグすべての動画の収集に 1週間程度。

1週間で大半の動画がチェックできる。

公開投稿動画 一部のユーザーのみ投稿動画リストを公開

同じく RSS で取得可能。 公開してるうp主は約 14% 動画数としては 3割ほど ダブりがないので短時間で効率よく収集できる

@nico_deleted

今回の調査とは別に,おもな動画が視聴可能かを Twitter-bot 用に毎日チェックしている @nico_deleted …… 削除動画チェック @niconicomillion …… 再生数チェック

対象はある時点で 3 万再生以上の動画 18 万件ほど

今回はこれのデータも利用した

その他 過去に検討した手法 公開マイリスト

同じく RSS で取得できる。 大量に集めると動画の重複が非常に多い 投稿者マイリストのみなど選別すれば効率的になる

しかしマイリストを変えるうp主も 毎回選別し直さないといけないのでめんどくさい。

ランキング 同じく RSS で取得できる。 特定の日時の再生数等が得られるので後からチェックしや

すい利点も。 しかし全て合わせても数千件で,量が少ない。 @nico_deleted のデータもあり,あまり意味がないので

使っていない。

変動メタデータの収集方法 タグ・投稿動画・サムネ

API ( +@nico_deleted )を併用 これにより効率的に生存確認と再生数等の変動メタ

データを収集

さらにもう一点の工夫 生存確認と再生数等の収集の 2段階でチェック

変動メタデータ収集のスケジュール 11 月上旬

1 回目のタグ・投稿動画チェック → 生存確認できなかった動画をサムネ API で確認 → 削除動画は確認,それ以外の動画 ID を再チェック用にリストアップ。

11 月中旬 非表示動画(視聴可に変わる可能性のある動画)を再チェック。

11 月下旬 2 回目のタグ・投稿動画チェック 並行して 1 回目のときに漏れてた動画 ID もサムネ API でチェック。 もちろん最終の動画 ID 探索時のデータも利用。 → 上記でデータの取れなかった動画をサムネ API でチェック。

12 月上旬 データ全体を確認しつつ最後の漏れをチェック。

以上により,今回は全動画約 850 万の変動メタデータを 11月 25 日~ 12 月 5 日の 10 日間で収集できた

まとめ 固定と変動にデータを分けて収集すると効率的 固定メタデータ

サムネ API で事前に収集しておく 直前分は投稿量と頻度を計算して適宜収集

変動メタデータ タグ検索 RSS ・投稿動画 RSS ・サムネ API を併用し

て収集 生存確認とデータ収集の 2段階に分ける

スケジュールを立てて収集すると便利

課題 「ゲーム」タグで収集漏れが発生していた

2008 年 7 月と 2010 年 7 月 動画数の非常に多いタグは時間がかかるため漏れが起こりやす

い。 これの回避のため,現状では「ゲーム - 実況プレイ動画 - 投稿者

コメント - プレイ動画 -ゆっくり実況プレイ …」のようにマイナスタグを組み合わせて動画数を減らした検索クエリを投げている。 しかしそれでも漏れが発生した。

タグ検索の仕様で前後から収集してるため,ちょうど間になった時期のデータが漏れたと思われる。 漏れが出ないようにクローリングの仕組みを改善する。

より短期間で「ゲーム」タグの検索結果を収集できる仕組みの検討も必要

課題 過去に収集した動画 ID に誤りがあった例などを 12

月上旬になって確認。 これがなければもう少し変動メタデータ収集期間を短縮で

きた。 誤り例は削除動画の削除理由のチェック時に判明。

今後はもっとこまめに削除動画の調査が必要か。

そもそも自分の手法は過去からの蓄積が必要。 誰でもできる手法ではない。 NII ・ドワンゴで進めているニコニコ動画データの公開に期待

自分でもできることとして,自分の収集したデータの限定提供をすることにした

ということで このあとのライトニングトーク登壇の方にはも

れなく今回収集した動画データを提供します! 是非是非ご参加ください。