icde2012勉強会:social media

18
ICDE2012勉強会 Session 12: Social Media 筑波大 山口祐人(D112/06/01 ICDE2012勉強会 1

Upload: yuto-yamaguchi

Post on 22-Jul-2015

480 views

Category:

Technology


0 download

TRANSCRIPT

ICDE2012勉強会  Session  12:  Social  Media

筑波大 山口祐人(D1)

12/06/01 ICDE2012勉強会 1

Session  12:  Social  Media •  Community  Detec-on  with  Edge  Content  in  Social  Media  

Networks  –  Guo-­‐Jun  Qi  (University  of  Illinois  at  Urbana-­‐Champaign),  Charu  C.  

Aggarwal  (IBM  T.  J.  Watson  Research  Center),  and  Thomas  S.  Huang  (University  of  Illinois  at  Urbana-­‐Champaign)  

•  Cross  Domain  Search  by  Exploi-ng  Wikipedia  –  Chen  Liu,  Sai  Wu  (NaRonal  University  of  Singapore),  Shouxu  Jiang  

(Harbin  InsRtute  of  Technology),  and  Anthony  K.H.  Tung  (NaRonal  University  of  Singapore)  

•  Provenance-­‐based  Indexing  Support  in  Micro-­‐blog  PlaCorms    –  Junjie  Yao,  Bin  Cui,  Zijun  Xue,  and  Qingyun  Liu  (Peking  University)  

•  Learning  Stochas-c  Models  of  Informa-on  Flow  –  Luke  Dickens  (Imperial  College  London),  Ian  Molloy,  Jorge  Lobo,  Pau-­‐Chen  

Cheng  (IBM  T.  J.  Watson  Research  Center),  and  Alessandra  Russo  (Imperial  College  London)  

12/06/01 ICDE2012勉強会 2

Community  Detec-on  with  Edge  Content  in  Social  Media  Networks

12/06/01 ICDE2012勉強会 3

概要

•  Social  networkにおけるCommunity  detecRonに  Edge  contentを用いる  –  Edge  content:  ユーザ間に張られるエッジに付随するテキストなどのコンテンツ  (Email  networkならメールの内容など)  

•  人々は通常複数のコミュニティに属し、異なる内容のコミュニケーションをする  –  例)テニスサークルの仲間とはテニスについて、研究室の仲間とは研究について会話  

•  Edge  contentは人の多様な側面を上手く表す  –  ユーザプロファイルでは上手く表せない

12/06/01 ICDE2012勉強会 4

手法概要

1.  エッジのクラスタリング  – Edge-­‐induced  matrix  factoriza3onの提案  – ノードには複数の側面があるが、エッジには一つの意味合いしか無い  

2.  エッジの両端に属すノードは対応するクラスタに属す  – 複数のクラスタに属すことを許す

12/06/01 ICDE2012勉強会 5

Edge-­‐induced  Matrix  FactorizaRon •  接続行列Γを、エッジのlatent  featureを表すEとノードのlatent  featureを表すVに分解  – 分解の指標  

•  ET・VがΓをよく保存  •  Edge  contentが類似するエッジに対応する、Eの列ベクトルが類似  

•  目的関数を定義しそれを最小化  – 論文中で定義した目的関数は凸  – 高速な最小化手法を提案  

•  Eの列ベクトル(各エッジのfeatureベクトル)を用いてエッジのクラスタリング  

12/06/01 ICDE2012勉強会 6

12/06/01 ICDE2012勉強会 7

論文中から引用

実験

12/06/01 ICDE2012勉強会 8

論文中から引用

Cross  Domain  Search  by  Exploi-ng  Wikipedia

12/06/01 ICDE2012勉強会 9

概要

•  Cross  domain  searchを実現  –  クエリ:画像 à 出力:動画  –  クエリ:動画 à 出力:テキスト など  

•  Web2.0によるタグが利用できる  – 問題:表記ゆれなどの影響が大きい  – èタグを用いてリソースとWikipediaの記事(コンセプト)とを結びつけ、リソースをコンセプトベクターで表す  

•  新しいリソースとコンセプトを結びつける手法を提案  –  タグが一つも付いていないリソースを用いて検索可

12/06/01 ICDE2012勉強会 10

手法概要

•  既存の(DBにある)リソースをコンセプトベクターで表す  –  ノイズとなるようなタグを除去(Tag  selec3on)  –  タグと各コンセプトとの類似度を算出  –  対応するコンセプトとの類似度を次元とするコンセプトベクターを作成  

•  クエリをコンセプトベクターで表す  –  まだタグが付けられていないリソース  

•  いま撮った写真など  –  同じドメイン内の類似するリソース(Top-­‐K  Homogeneous  Resources)を持ってきて、そのコンセプトベクターを集約  

•  クエリのコンセプトベクターとDB内のりソースのコンセプトベクターとの類似度を算出、ランキング  –  いま撮った写真で、ネット上の口コミなども検索可

12/06/01 ICDE2012勉強会 11

実験

12/06/01 ICDE2012勉強会 12

画像から画像、画像から文書、文書から画像、文書から文書の検索を実験     ↓は画像から画像の例

論文中  から引用

Provenance-­‐based  Indexing  Support  in  Micro-­‐blog  PlaCorms  

12/06/01 ICDE2012勉強会 13

概要

•  ツイートは短い、ノイズ多い、リアルタイムに増える  – 一つだけ見ても話題を俯瞰できない  –  Provenance  discovery:  情報伝播のソース、伝播経路を明らかにする  

•  トピック、時間的に類似するツイートの集まり(bundle)としてインデックスする手法を提案  –  bundleは時間的な話題の伝搬を表す木構造  

•  ツイートは爆発的に増えるため、インデックスには非常にコストがかかる  – 効率的なインデックス手法を提案  

12/06/01 ICDE2012勉強会 14

12/06/01 ICDE2012勉強会 15

論文中から引用

手法概要

•  到着したツイートを、既にインデックスされているbundleのうち、最も類似するものに割り振る  –  類似するものがない場合、新しく作成  –  類似度は含まれるhashtagやURL、単語によって算出  

•  Bundleのインデックスはメモリ上に保つ  –  HashtagやURL、単語をキーとするインデックス  –  Index  maintenance è Next  Slide  

•  割り振られたツイートをbundle内の最も類似するツイートにつなげる  –  RTやmenRonではなくトピック、時間的に類似するもの  –  木構造を成す  

12/06/01 ICDE2012勉強会 16

Index  Maintenance •  メモリ上のbundleの数がしきい値を超えたらindex  maintenanceをする  

•  新しいツイートが割り振られそうにないbundleをメモリ上のインデックスから削除  – 小さいものは完全に消す  – 大きいものはディスクへ格納  

•  Bundleサイズがしきい値を超えたらインデックスから消してディスクへ  –  Bundle  limit  

12/06/01 ICDE2012勉強会 17

実験

12/06/01 ICDE2012勉強会 18