icde2012勉強会:social media
TRANSCRIPT
Session 12: Social Media • Community Detec-on with Edge Content in Social Media
Networks – Guo-‐Jun Qi (University of Illinois at Urbana-‐Champaign), Charu C.
Aggarwal (IBM T. J. Watson Research Center), and Thomas S. Huang (University of Illinois at Urbana-‐Champaign)
• Cross Domain Search by Exploi-ng Wikipedia – Chen Liu, Sai Wu (NaRonal University of Singapore), Shouxu Jiang
(Harbin InsRtute of Technology), and Anthony K.H. Tung (NaRonal University of Singapore)
• Provenance-‐based Indexing Support in Micro-‐blog PlaCorms – Junjie Yao, Bin Cui, Zijun Xue, and Qingyun Liu (Peking University)
• Learning Stochas-c Models of Informa-on Flow – Luke Dickens (Imperial College London), Ian Molloy, Jorge Lobo, Pau-‐Chen
Cheng (IBM T. J. Watson Research Center), and Alessandra Russo (Imperial College London)
12/06/01 ICDE2012勉強会 2
概要
• Social networkにおけるCommunity detecRonに Edge contentを用いる – Edge content: ユーザ間に張られるエッジに付随するテキストなどのコンテンツ (Email networkならメールの内容など)
• 人々は通常複数のコミュニティに属し、異なる内容のコミュニケーションをする – 例)テニスサークルの仲間とはテニスについて、研究室の仲間とは研究について会話
• Edge contentは人の多様な側面を上手く表す – ユーザプロファイルでは上手く表せない
12/06/01 ICDE2012勉強会 4
手法概要
1. エッジのクラスタリング – Edge-‐induced matrix factoriza3onの提案 – ノードには複数の側面があるが、エッジには一つの意味合いしか無い
2. エッジの両端に属すノードは対応するクラスタに属す – 複数のクラスタに属すことを許す
12/06/01 ICDE2012勉強会 5
Edge-‐induced Matrix FactorizaRon • 接続行列Γを、エッジのlatent featureを表すEとノードのlatent featureを表すVに分解 – 分解の指標
• ET・VがΓをよく保存 • Edge contentが類似するエッジに対応する、Eの列ベクトルが類似
• 目的関数を定義しそれを最小化 – 論文中で定義した目的関数は凸 – 高速な最小化手法を提案
• Eの列ベクトル(各エッジのfeatureベクトル)を用いてエッジのクラスタリング
12/06/01 ICDE2012勉強会 6
概要
• Cross domain searchを実現 – クエリ:画像 à 出力:動画 – クエリ:動画 à 出力:テキスト など
• Web2.0によるタグが利用できる – 問題:表記ゆれなどの影響が大きい – èタグを用いてリソースとWikipediaの記事(コンセプト)とを結びつけ、リソースをコンセプトベクターで表す
• 新しいリソースとコンセプトを結びつける手法を提案 – タグが一つも付いていないリソースを用いて検索可
12/06/01 ICDE2012勉強会 10
手法概要
• 既存の(DBにある)リソースをコンセプトベクターで表す – ノイズとなるようなタグを除去(Tag selec3on) – タグと各コンセプトとの類似度を算出 – 対応するコンセプトとの類似度を次元とするコンセプトベクターを作成
• クエリをコンセプトベクターで表す – まだタグが付けられていないリソース
• いま撮った写真など – 同じドメイン内の類似するリソース(Top-‐K Homogeneous Resources)を持ってきて、そのコンセプトベクターを集約
• クエリのコンセプトベクターとDB内のりソースのコンセプトベクターとの類似度を算出、ランキング – いま撮った写真で、ネット上の口コミなども検索可
12/06/01 ICDE2012勉強会 11
概要
• ツイートは短い、ノイズ多い、リアルタイムに増える – 一つだけ見ても話題を俯瞰できない – Provenance discovery: 情報伝播のソース、伝播経路を明らかにする
• トピック、時間的に類似するツイートの集まり(bundle)としてインデックスする手法を提案 – bundleは時間的な話題の伝搬を表す木構造
• ツイートは爆発的に増えるため、インデックスには非常にコストがかかる – 効率的なインデックス手法を提案
12/06/01 ICDE2012勉強会 14
手法概要
• 到着したツイートを、既にインデックスされているbundleのうち、最も類似するものに割り振る – 類似するものがない場合、新しく作成 – 類似度は含まれるhashtagやURL、単語によって算出
• Bundleのインデックスはメモリ上に保つ – HashtagやURL、単語をキーとするインデックス – Index maintenance è Next Slide
• 割り振られたツイートをbundle内の最も類似するツイートにつなげる – RTやmenRonではなくトピック、時間的に類似するもの – 木構造を成す
12/06/01 ICDE2012勉強会 16
Index Maintenance • メモリ上のbundleの数がしきい値を超えたらindex maintenanceをする
• 新しいツイートが割り振られそうにないbundleをメモリ上のインデックスから削除 – 小さいものは完全に消す – 大きいものはディスクへ格納
• Bundleサイズがしきい値を超えたらインデックスから消してディスクへ – Bundle limit
12/06/01 ICDE2012勉強会 17