2013.07.27 ニコニコデータ研究会 公開用

29
リアルで Real Twitter データ 〜ゆるふわ版〜 剛史 @tksakaki

Upload: takeshi-sakaki

Post on 20-Jul-2015

382 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 2013.07.27 ニコニコデータ研究会 公開用

リアルで Realな Twitterデータ〜ゆるふわ版〜

榊 剛史@tksakaki    

Page 2: 2013.07.27 ニコニコデータ研究会 公開用

軽く自己紹介

ソーシャルセンサを提唱した人(の部下)

Page 3: 2013.07.27 ニコニコデータ研究会 公開用

軽く自己紹介

ソーシャルセンサを提唱した人(の部下)

Twitter

ソーシャルセンサ

宮崎駿っぽい

(写真が)

Page 4: 2013.07.27 ニコニコデータ研究会 公開用

今日の目標

Twitterデータを定期クロールする楽しさを共有したい!!

Twitterデータを定期クロールする楽しさを共有したい!!

Page 5: 2013.07.27 ニコニコデータ研究会 公開用

Twitterにおける「今」と「どこ」の重要性 地震の発生と震源地を知る 天体現象を知る

ゲリラ豪雨 虹

朝の電車遅延情報

Twitterにおける「今」と「どこ」

リアルな世界で「今」「どこで」何かが起きているのが

分かる

Page 6: 2013.07.27 ニコニコデータ研究会 公開用

ブログブログ マイクロブログマイクロブログ

ユーザ ユーザ ユーザ ユーザ センサー センサーセンサー センサー

対象の観測

確率・統計処理 確率・統計処理

交通情報 気象・自然現象お祭り・イベント

観測値観測値

対象の観測

ソーシャルセンサの考え方

Page 7: 2013.07.27 ニコニコデータ研究会 公開用

今日紹介するデータ

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルリアルワールドでワールドでリアルリアルワールドでワールドで

RealtimeRealtime性の性の高い高い

RealtimeRealtime性の性の高い高い

けちって研究室のサーバで収集してるので、大学の停電にあわせて欠損が・・・・

Page 8: 2013.07.27 ニコニコデータ研究会 公開用

今日紹介するデータ

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルリアルワールドでワールドでリアルリアルワールドでワールドで

RealtimeRealtime性の性の高い高い

RealtimeRealtime性の性の高い高い

イベント系データイベント系データ

ユーザ系データユーザ系データ

Page 9: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

イベント系データイベント系データ

Page 10: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

イベント系データイベント系データ

Page 11: 2013.07.27 ニコニコデータ研究会 公開用

と、その前に

Page 12: 2013.07.27 ニコニコデータ研究会 公開用

収集しているデータ項目

Page 13: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

イベント系データイベント系データ

地震キーワード

地震 OR 揺れ

収集期間 2010年 10月〜 2012年 10月

ツイート数

約 1600万

サイズ 3.8GB

その他 機械学習でフィルタイング

天候キーワード

雨 OR 霧

収集期間 2010年 10月〜2012年 11月

ツイート数 約 3600万サイズ 6.5GB

その他 地名を別カラムに保存

Page 14: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

イベント系データイベント系データ

人物目撃キーワード

遭遇 OR 目撃 OR 見 掛け OR 見かけ OR

みかけ 収集期間 2010年 8月〜 2011年 6

月ツイート数 260万サイズ 640MB

その他 芸能人名をタグで囲んである

交通状況キーワード

渋滞 OR 交通規制OR 通行規制 OR 検問

収集期間 2010年 10月〜 2012年 11月

ツイート数

約 420万

サイズ 900MB

その他 地名を別カラムに保存

Page 15: 2013.07.27 ニコニコデータ研究会 公開用

地震速報システム  Toretter

Page 16: 2013.07.27 ニコニコデータ研究会 公開用

道路交通詳細情報 収集システム

Page 17: 2013.07.27 ニコニコデータ研究会 公開用

芸能人目撃情報システム Celeb PaparazziFinder

Page 18: 2013.07.27 ニコニコデータ研究会 公開用

その他応用

人間直観天気予報「雨が降りそう」「雨が止みそう」みたいなツイート集めて、天気予報ことわざ天気予報「ツバメが低く飛ぶと雨」「月に傘がかかると雨」みたいなことわざにある現象の発生を検知して天気予報

Page 19: 2013.07.27 ニコニコデータ研究会 公開用

今日紹介するデータ

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルで Realな Twitterデータセット

〜ゆるふわ版〜

リアルリアルワールドでワールドでリアルリアルワールドでワールドで

RealtimeRealtime性の性の高い高い

RealtimeRealtime性の性の高い高い

イベント系データイベント系データ

ユーザ系データユーザ系データ

Page 20: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

ユーザ系データユーザ系データ

Page 21: 2013.07.27 ニコニコデータ研究会 公開用

ユーザ系データユーザ系データ

データセットの説明

Page 22: 2013.07.27 ニコニコデータ研究会 公開用

データセットの説明

オリ合宿キーワー

ドオリ合宿

収集期間 2012年 4月ツイート数

4400

サイズ 778KB

学振キーワード

学振 OR DC1 OR DC2

収集期間 2011年 10月〜 11月ツイート数

5313

サイズ 1.8MB

ユーザ系データユーザ系データ

Page 23: 2013.07.27 ニコニコデータ研究会 公開用

おまけ説明 オリ合宿とは!!

東大生が入学直後に、先輩に連れられていくオリエーテーション合宿のことである!!

東大にしか無い言葉

東大生リスト、というえげつない(≒金のにおいがする)リストが作れてしまうか

も?

東大生リスト、というえげつない(≒金のにおいがする)リストが作れてしまうか

も?

Page 24: 2013.07.27 ニコニコデータ研究会 公開用

おまけ説明 学振とは!!

優秀な博士課程の学生に、月 20万円の給料をくれる制度である。学術振興会特別研究員の略。

倍率20%なので、非常に厳しい

将来偉くなる研究者リストが作れてしまうかも?

将来偉くなる研究者リストが作れてしまうかも?

Page 25: 2013.07.27 ニコニコデータ研究会 公開用

その他応用

雨男・雨女判定

外出時にいつも雨に遭遇しているユーザ群を推定

ご近所さんユーザ判定

自分の近所の人しか呟かないようなキーワードでクロールして、ご近所さんを推定

Page 26: 2013.07.27 ニコニコデータ研究会 公開用

まとめ

ユーザ系データユーザ系データ

イベント系データイベント系データ

現実に発生しているイベントについていろんな情報を取得できそう

現実に発生しているイベントについていろんな情報を取得できそう

ある特定の集団における流行やトレンド、趣味、思想が取得できるかも

ある特定の集団における流行やトレンド、趣味、思想が取得できるかも

Page 27: 2013.07.27 ニコニコデータ研究会 公開用

まとめ 問題点

Twitterはデータの 2次配布を禁止してるのでどうしたもんか・・・・・

野良リポジトリには置けないかも・・・・ Amazon EC2に DBでも立てて、希望者のユーザ作るのはグレー・・・・??

まあ、あとで考えます

Page 28: 2013.07.27 ニコニコデータ研究会 公開用

まとめ

とりあえず、みんなTwitterの定期クロールしようぜ!!

Page 29: 2013.07.27 ニコニコデータ研究会 公開用

おしまい

この顔にピンと来たら@tksakakiへ連絡を!