icde2012勉強会：social media

ICDE2012勉強会 Session 12: Social Media

筑波大　山口祐人（D1）

12/06/01 ICDE2012勉強会 1

Session 12: Social Media •  Community Detec-on with Edge Content in Social Media

Networks –  Guo-‐Jun Qi (University of Illinois at Urbana-‐Champaign), Charu C.

Aggarwal (IBM T. J. Watson Research Center), and Thomas S. Huang (University of Illinois at Urbana-‐Champaign)

•  Cross Domain Search by Exploi-ng Wikipedia –  Chen Liu, Sai Wu (NaRonal University of Singapore), Shouxu Jiang

(Harbin InsRtute of Technology), and Anthony K.H. Tung (NaRonal University of Singapore)

•  Provenance-‐based Indexing Support in Micro-‐blog PlaCorms –  Junjie Yao, Bin Cui, Zijun Xue, and Qingyun Liu (Peking University)

•  Learning Stochas-c Models of Informa-on Flow –  Luke Dickens (Imperial College London), Ian Molloy, Jorge Lobo, Pau-‐Chen

Cheng (IBM T. J. Watson Research Center), and Alessandra Russo (Imperial College London)

12/06/01 ICDE2012勉強会 2

Community Detec-on with Edge Content in Social Media Networks

12/06/01 ICDE2012勉強会 3

概要

•  Social networkにおけるCommunity detecRonに Edge contentを用いる –  Edge content: ユーザ間に張られるエッジに付随するテキストなどのコンテンツ（Email networkならメールの内容など）

•  人々は通常複数のコミュニティに属し、異なる内容のコミュニケーションをする –  例）テニスサークルの仲間とはテニスについて、研究室の仲間とは研究について会話

•  Edge contentは人の多様な側面を上手く表す –  ユーザプロファイルでは上手く表せない

12/06/01 ICDE2012勉強会 4

手法概要

1.  エッジのクラスタリング – Edge-‐induced matrix factoriza3onの提案 – ノードには複数の側面があるが、エッジには一つの意味合いしか無い

2.  エッジの両端に属すノードは対応するクラスタに属す – 複数のクラスタに属すことを許す

12/06/01 ICDE2012勉強会 5

Edge-‐induced Matrix FactorizaRon •  接続行列Γを、エッジのlatent featureを表すEとノードのlatent featureを表すVに分解 – 分解の指標

•  ET・VがΓをよく保存 •  Edge contentが類似するエッジに対応する、Eの列ベクトルが類似

•  目的関数を定義しそれを最小化 – 論文中で定義した目的関数は凸 – 高速な最小化手法を提案

•  Eの列ベクトル（各エッジのfeatureベクトル）を用いてエッジのクラスタリング

12/06/01 ICDE2012勉強会 6

例

12/06/01 ICDE2012勉強会 7

論文中から引用

実験

12/06/01 ICDE2012勉強会 8


Cross Domain Search by Exploi-ng Wikipedia

12/06/01 ICDE2012勉強会 9

概要

•  Cross domain searchを実現 –  クエリ：画像　à　出力：動画 –  クエリ：動画　à　出力：テキスト　など

•  Web2.0によるタグが利用できる – 問題：表記ゆれなどの影響が大きい – èタグを用いてリソースとWikipediaの記事（コンセプト）とを結びつけ、リソースをコンセプトベクターで表す

•  新しいリソースとコンセプトを結びつける手法を提案 –  タグが一つも付いていないリソースを用いて検索可

12/06/01 ICDE2012勉強会 10

手法概要

•  既存の（DBにある）リソースをコンセプトベクターで表す –  ノイズとなるようなタグを除去（Tag selec3on） –  タグと各コンセプトとの類似度を算出 –  対応するコンセプトとの類似度を次元とするコンセプトベクターを作成

•  クエリをコンセプトベクターで表す –  まだタグが付けられていないリソース

•  いま撮った写真など –  同じドメイン内の類似するリソース（Top-‐K Homogeneous Resources）を持ってきて、そのコンセプトベクターを集約

•  クエリのコンセプトベクターとDB内のりソースのコンセプトベクターとの類似度を算出、ランキング –  いま撮った写真で、ネット上の口コミなども検索可

12/06/01 ICDE2012勉強会 11

実験

12/06/01 ICDE2012勉強会 12

画像から画像、画像から文書、文書から画像、文書から文書の検索を実験　　　↓は画像から画像の例


Provenance-‐based Indexing Support in Micro-‐blog PlaCorms

12/06/01 ICDE2012勉強会 13

概要

•  ツイートは短い、ノイズ多い、リアルタイムに増える – 一つだけ見ても話題を俯瞰できない –  Provenance discovery: 情報伝播のソース、伝播経路を明らかにする

•  トピック、時間的に類似するツイートの集まり（bundle）としてインデックスする手法を提案 –  bundleは時間的な話題の伝搬を表す木構造

•  ツイートは爆発的に増えるため、インデックスには非常にコストがかかる – 効率的なインデックス手法を提案

12/06/01 ICDE2012勉強会 14

例

12/06/01 ICDE2012勉強会 15


手法概要

•  到着したツイートを、既にインデックスされているbundleのうち、最も類似するものに割り振る –  類似するものがない場合、新しく作成 –  類似度は含まれるhashtagやURL、単語によって算出

•  Bundleのインデックスはメモリ上に保つ –  HashtagやURL、単語をキーとするインデックス –  Index maintenance　è　Next Slide

•  割り振られたツイートをbundle内の最も類似するツイートにつなげる –  RTやmenRonではなくトピック、時間的に類似するもの –  木構造を成す

12/06/01 ICDE2012勉強会 16

Index Maintenance •  メモリ上のbundleの数がしきい値を超えたらindex maintenanceをする

•  新しいツイートが割り振られそうにないbundleをメモリ上のインデックスから削除 – 小さいものは完全に消す – 大きいものはディスクへ格納

•  Bundleサイズがしきい値を超えたらインデックスから消してディスクへ –  Bundle limit

12/06/01 ICDE2012勉強会 17

実験

12/06/01 ICDE2012勉強会 18