Download - Web からの 研究者ネットワークの抽出と利用
Web からの研究者ネットワークの抽出と利用
情報技術研究部門 知的コンテンツグループ松尾 豊
発表の内容成果の概要研究内容の説明
「 Web からの研究者ネットワークの抽出」
今後の研究予定、目標
2002 年 4 月入所~ 2004.7 サイバーアシスト研究センター~現在 情報技術研究部門
建物内の位置履歴からのユーザモデリングの研究競争的資金:
• 総務省 戦略的情報通信研究開発推進制度( SCOPE-R )( H15 ~ 17 )研究代表者臨海副都心センターでの位置情報取得の実験など位置の履歴だけから、ユーザの属性をある程度推測することができる
• ユビキタス空間における情報提供で重要
Web からの研究者ネットワーク抽出の研究競争的資金
• 科研費基盤 B ( H17 ~ 19 )研究代表者• NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」
( H17 ~ 19 、代表:西村 拓一)で主要な研究分担者Web から研究者の協働関係を抽出する。 Polyphonet システム
研究成果概要:研究テーマ
研究成果の概要成果
論文:計 20 件(筆頭 9 件)の誌上発表、 40 件以上の国際会議での発表• 文書処理、 Web マイニング、ユーザモデリング、センサデータの解析等• 人工知能学会論文賞を受賞。 WWW2006 や AAAI-06 に採択。
特許出願: 7 件(筆頭 5 件)、 3 件のプレス発表、新聞報道は 10 件以上
産業との連携Web 系ビジネスと研究コミュニティをつなぐ橋渡し2003 年「 Blog 勉強会」第 1 回~ 3 回
• 70 人以上。アカデミックでは最も早い時期。多くの IT 技術者。2005 年「 Web が生み出す関係構造と社会ネットワーク分析ワークショップ」
• 日本初の SNS のワークショップ。プレスも含め 100 名以上が参加Polyphonet :
• 大阪市のロボットラボラトリーでの試験運用。• 産総研イノベーションズと連携し、各企業への技術移転を進めている。
海外との連携スタンフォード大学 CSLI (言語情報研究センター)2006 年 4 月からは、日本学術振興会の海外特別研究員として長期出張
Web からの研究者ネットワークの抽出と利用
Web からの研究者ネットワークの抽出と利用
「人」そして「人間関係」の重要性 ユビキタス環境 情報検索、セマンティックオーサリング、セマンティックウェブ:情報
の信頼性
「行為を決定するのは、行為者を取り囲む関係構造である.」 社会ネットワーク分析 人同士の社会的関係を記述することは困難
Web 上の情報から研究者のネットワークを抽出する。 情報が新しく、多様。今、まさに起こっている関係を捉えられる。 好むと好まざるに関わらず、情報が第三者によって記述される。
研究者ネットワークの抽出: POLYPHONET 研究者の協働関係ネットワーク 融合領域、産学官連携の重要性
研究者ネットワーク
運用実績 : POLYPHONET
人工知能学会全国大会 : JSAI2003,2004,2005UbiComp2005, WISS2005横浜トリエンナーレロボットラボラトリー(大阪市)予定 : AAMAS2006, JSAI2006
※ 実世界指向インタラクション G 、国立情報学研究所等と連携 POLYPHONET = POLYPHONY + NETWORK
研究者ネットワークの抽出Web マイニング
情報検索、自然言語処理、機械学習などの技術を組み合わせて、 Web上の情報を自動的に加工・処理し、有用な知識を抽出する。
処理の流れノード:研究者のリストを与える:名前+所属 (用意する情報はこれだけ)エッジ:全ての2人の間の関係の強さを測定エッジラベル:関係が強いと判断された2人の間の関係の種類を測定
• 共著• 研究室:同じ研究室や研究所に所属していた• プロジェクト:同じプロジェクトや委員会に所属していた• 発表:同じ研究会や全国大会で発表したその他:研究者の「研究キーワード」、2人の間の「関係キーワード」を抽出。研究者を研究分野に自動で分類する。
抽出の方法 例 )124 件
メンバーのリスト(名前、所属)は所与検索エンジン( Google )を使って、共起関係の強さを測る。
Jaccard 係数、相互情報量などさまざまな尺度があるが、閾値つき Overlap 係数を用いる。
例) “松尾豊 石塚満”:123件 強い“松尾豊 溝口理一郎”:11件 弱い“ 石塚満”:791件“ 溝口理一郎”:813件
検索された Webページから、ページの特徴量を抽出し関係を把握。
共著、 研究室、 プロジェクト、 発表 Simpson 係数は、関係の強さを的確に表す。 9割程度の適合率(再現率は2割~5割):アンケート調査
共起の指標
Frequency |X∩Y|Mutual Information log N|X∩Y| / |X||Y|Dice coefficient 2|X∩Y| / (|X|+|Y|)Jaccard coefficient |X∩Y| / |X∪Y|Simpson coefficient |X∩Y| / min(|X|,|Y|)Cosine |X∩Y| / (√|X||Y|)
We use threshold-based Simpson (overlap) coefficient.
otherwise
kBandkAifYX
YXyxrel
0
)(#)(#))(#),(min(#
)(#),(
H-axis: index, V-axis: probability of co-authorship
Simpson coefficient Frequency
Dice coefficientJaccard coefficient
同姓同名の問題“松尾豊”ではなく、“(松尾豊 AND 産業技術総合研究所)”いろいろなケース複数の所属名、過去の所属名:全部 OR でつなぐ所属名の略称など:機関の略称リストを用意
松尾豊 AND ( 産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京大 OR 東大)
例えば、“松尾豊”903件中256件が私。この拡張で、262件(適合率86%、再現率93%)となる
※ 日本人ではうまくいくが(必ずと言っていいほど、所属+姓名で書く)、英語名では工夫が必要。実は、表現形と実体を結び付ける奥深い問題。
関係の種類の判別“X and Y” で検索した上位5件のページを対象
属性リスト・2人の氏名の共起回数 ・ Simpson 係数が閾値以上か・ X の出現回数 ・ Y の出現回数・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語がタイトルに含まれるか・{メンバー、研究室、研究所、研究機関、チーム}のいずれかの語がタイトルに含まれるか・{ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム}のいずれかの語がタイトルにふくまれるか・・・・・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語が最初の5行に含まれるか・・・
ページの特徴属性(more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes, no)
判別ルールNumCo = more_than_one → 共著NumCo = more_than_one & GroFFive(F)=no → 研究室(Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室・・・・
関係のクラス: 共著、研究室、プロジェクト、発表
Polyphonet研究者ネットワーク抽出・検索システム Polyphonet
polyphony (多声音楽) + network研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録などができる。
学会等での運用JSAI2003-06 人間関係ネットワーク支援システムUbiComp05Polyphonet レスキュー版
• 神奈川県・レスキューテクノロジーソリューションデータベース
Polyphonet ロボット版• 大阪市・ロボットラボラトリー
Polyphonet 横浜トリエンナーレ版Polyphonet WISS2005
Polyphonet に関する研究成果基本的なアルゴリズム [Matsuo03, 松尾 05, Matsuo06]
検索エンジンの負荷を下げる [ 浅田 05]n^2 のクエリー数のオーダを n にする
研究者の分類をする [ 浅田 06]氏名がどのような語と共起するかで専門分野の分類を行う
研究者のキーワードを抽出する [ 森 05]氏名とよく共起する研究に関するキーワードを取得する
同姓同名の解決 [Bollegara06]対象となる人物を同定するクエリーを見つける
中心性の分析 [ 友部 05 、安田 04,05]得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる
研究者ネットワーク以外のネットワーク抽出 [ 金 06]企業間のネットワーク、アーティストネットワーク
IT・電機系等の企業
横浜トリエンナーレ 2005 のアーティスト
関連研究Semantic Web
MIT A. McCallum ら: Web や Email からの社会ネットワーク抽出アムステルダム Free 大 P. Mika ら: Web や FOAF からの社会ネットワーク抽出Maryland 大学 Tim Finin ら: FOAF ネットワークの収集・分析ドイツ Karlsruhe 大学 S. Staab ら: Web 上のテキストパターンを用いたエンティティ間のオントロジの抽出
自然言語処理Kilgariff ら: Web as corpus 。検索エンジンを用いた言語処理P. Turney ら:検索エンジンを用いた類義語。 TOEFL で普通の学生よりもよい結果
今後の研究: 技術的方向性Web からの高次情報のマイニング
一般の人の日々の活動まで Web に載るようになってきた• Blog 、掲示板、 SNS 、検索エンジンの進歩
知識:コミュニティ• 常識的な知識を抽出できる可能性:
– オントロジの自動獲得、世界知識の獲得、評判の抽出・・・• 量の変化が質の変化をもたらしている検索エンジンよりひとつ高次なレイヤー
• 欲しいのは、実世界の情報であって、必ずしも文書ではない。• 明に現れていない高次情報の抽出、価値の高い情報の提示
ネットワーク的視点 対象の関係性を、総体として捉える。俯瞰を得る。 構造のマイニング:企業間ネットワーク、語のネット
ワーク・・・
情報システムにおける社会性 コミュニティ、 SNS 、 blog 、ソーシャルタギング 人は他人との関係性の中で日常生活を送っている 社会性をどう情報システムに取り込み利用するか
今後の研究:目標日常生活の場面での情報支援
Web の情報を整理し、生活の各場面で有用な情報を提供:「社会性」• アノテーション・オーサリング等の技術との融合
ロボットやユビキタスといった実世界での情報支援
意思決定に必要な情報の収集・統合・整理価値の高い情報の提示:「ネットワーク的視点」情報の意味内容や情報の価値に関する研究
産業との連携Web は今後もさらに生活に密着し、情報技術において重要性を増すWeb 技術における連携
• アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー• これまでにも意識してきた第2種基礎研究を継続する。
ロボットやユビキタスの文脈で生きる、日本独自の Web 技術を目指す
おわり
検索エンジンに対する負荷普通にやると・・・氏名リストに n 個の氏名があるとすると,共起ページ数の検索に必要なクエリ数は nC2 個(ほぼO(n2) )
overlap 係数の分布0 約67%0から 0.2 約 98%
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
rese
arc
he
r p
air
s
overlap coefficient
ほとんどが弱い関係
着想
『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人がほとんど出現している.(そうでない人も含まれる)
⇒上位ページから共起を調べる名前の候補を出す
強い関係がなさそうな氏名のペアを除き、検索エンジンに与えるクエリの数を減らす.
提案手法
氏名「 X 」の検索結果
上位 k 件のページを取得
強い関係がありそうなペア⇒検索エンジンで調べる“X,Y”, “X,Z”,...
マッチング
氏名リストX, Y, Z,...Y
Z
k
結果 – クエリの数
•提案手法 : 19182 ・・・基本的にO(n)
•従来手法 : 126253 ・・・基本的にO(n2) 85%のクエリを削減.
ノード : JSAI2003 の参加者
ノード数 : 503
手法間の overlap 係数の相関
0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
ove
rla
p c
oe
ffic
ien
t b
y p
rop
ose
d m
eth
od
overlap coefficient by former method
Correlation of overlap coefficient between former method and proposed method
r = 0.931
提案手法では抽出できなかった関係
提案手法で抽出できた関係
Polyphonet で使われている技術
検索エンジンの負荷を下げる研究者の分類をする研究者のキーワードを抽出する
Web における語の共起
『名前 AND キーワード』で Web検索ある研究者の特定の研究テーマについてWeb を用いて調べたいとき…
• 石塚満 AND 仮説推論 → 203 件• 石塚満 AND ロボティクス → 49 件
研究トピックの推測石塚満氏はロボティクスよりも仮説推論の研究を行っている人ではないか?
• 実際,石塚満氏は仮説推論の研究に長年携わっているので,この推測は当たっている.
基本的な考え方Web 上で研究者名とよく共起 *する研究キーワード**は,研究者の研究トピックと関係が深い
*Web 上の共起 : 同一 Webページ上に出現すること
**研究キーワード : 『仮説推論』や『ロボティクス』のような研究トピックに関連する語.
例JSAI2004 ( 2004 年度の人工知能学会全国大会)の参加者 : 540人研究キーワード: JSAI2004 の論文のタイトルから抽出 : 188語
• 形態素解析システムによる『名詞』『未知語』• 出現回数が 3 回以上の n-gram
研究キーワード
例JSAI2004 ( 2004 年度の人工知能学会全国大会)の参加者 : 540人研究キーワード: JSAI2004 の論文のタイトルから抽出 : 188語
• 形態素解析システムによる『名詞』『未知語』• 出現回数が 3 回以上の n-gram
共起行列
keyword1 keyword2 ... マイニングname1
name2
:浅田洋平 6
研究者の氏名と研究キーワードの Web 上での共起を共起行列で表現
共起行列行 : 研究者名列 : 研究キーワード
分布の類似した行にあたる研究者は類似した研究を行っていると考えられる
χ2値による重みの計算期待値からの有意な偏りを出すために、 χ2 値を用いる.
ij
ijijij E
EO 222 )()(
期待値
期待値観測値
研究者のクラスタリング
||||),(
ba
ba
vv
vvbaSim
va,vb は研究者 a,b のベクトル
ベクトルの類似度 コサイン類似度
クラスタリング法一般的な最大距離法を用いる.比較的シンプルで,大きなクラスタができにくいという特徴を持つ.
抽出されたクラスタの具体例研究者 540人を 30 個のクラスタに分割
クラスタ 1: 神嶌敏弘,角田祐一,新村昭好,岡崎直観,倉田岳人,村田剛志,相原健郎,豊田正史,久保山哲二,藤村滋,仲尾由雄,藤澤瑞樹,橋本泰一, 池原悟,徳永健伸,荒木健治,奥村学,鈴木雅実,熊本忠彦,太田公子,徳久雅人,村上仁一,賀沢秀人,岩垣守彦,川野洋,藪内佳孝,峯松信明,嵯峨山茂樹,西本卓也,中沢正幸,新田恒雄,桐山伸也,駒谷和範,伊藤敏彦,桂田浩一,天野成昭,中川聖一,古塩貴行,池ヶ谷有希,鈴木夕紀子,野口靖浩,松本泰明,小玉智志
重みの大きな語 : 自然言語,音声,対話,言語,抽出,処理,クラスタリング,生成,検索システム,情報抽出
クラスタ 2: 中丸茂,伊東真紀子,諏訪正樹,青柳悦子,松本裕治,田中穂積
重みの大きな語 : 言語,自然言語,処理,解析,研究,システム,技術,抽出,情報,ため
クラスタ 10: 小出誠二,官上大輔,武田英明,和泉憲明,岩爪道昭,小路悠介,垂見晋也,來村徳信,古崎晃司,溝口理一郎,渡邉英一,池田満,酒井隆道,西原陽子,森田武史,見置孝昌,繁田佳宏,田中庸平,武内雅宇
重みの大きな語 : オントロジー,支援環境,知能,支援システム,学習支援,構築,エージェント,設計,支援,人工 セマンティック
Web
自然言語処理
自然言語や音声,対話処理など,広い意味で言語を扱う研究分野
Polyphonet で使われている技術
検索エンジンの負荷を下げる研究者の分類をする研究者のキーワードを抽出する
キーワード例
キーワード抽出研究者の具体的な研究テーマ、プロジェクト名、組織名、共同研究者名などを表すもの
分類が目的ではない
ホームページからキーワード抽出TF, TFIDF?1回、せいぜい2回
名前で検索得られた文書“群”に多く含まれる語を出すテキスト処理が大変
スコアリング
氏名とキーワード候補の関連度
キーワード候補とコンテクストワードの関連度
語の関連度を用いる• 研究者名とWeb上でよく共起する語 = 一緒に検索すると多くヒット
する語• “ 石塚満”のキーワードは、“仮説推論”“エージェント”“人工知能”・・・趣味に関する語や「 Web 」「ブログ」など一般的な語を除きたいので、「人工知能」との共起も考慮する
“ 石塚満” : 889 件 “高速推論” : 364件 “石塚満 and 高速推論” : 117 件
J(石塚満 , 高速推論 ) = 117/(889+364-117)
Jaccard 係数
評価
ある語(氏名など)を含む文書群をひとつにまとめたときに、Web全体をコーパスとしたTFIDFの検索エンジンを使った実装になっている。
⇒いろいろなもののキーワード抽出に使えます。
研究動向
同姓同名問題 (Bekkerman05, 佐藤 04 など )「松尾豊」で検索クラスタリング( Google を使った語の類似度を使う)その人の所属や研究分野との関連で、本人のクラスタを同定そのクラスタに特有の語をキーワードとして抽出以降は、「氏名+キーワード」で検索
表記ゆれ問題 (Sahami05 、他 )「 AI 」で検索し、 snippet を使ったキーワードベクトルと、「 artificial intelligence 」で検索し、 snippet を使ったキーワードベクトルが類似している:「 AI 」 = 「 artificial intelligence 」
Google を使った手法は当たり前になりつつある。Google-df はよく使われている。
研究者ネットワークの分析
ネットワーク分析1940年代から社会学の分野でさまざまな手法が提案されている。
分かることどんなクラスタがあるのかどんな人が中心的かネットワークの性質:スケールフリー?スモールワールド?時系列的な変化
• 2003年、2004年、2005年