acl2011読み会 exploiting web-derived selectional preference to improve statistical dependency...
DESCRIPTION
TRANSCRIPT
ACL2011読み会EXPLOITING WEB-DERIVED
SELECTIONAL PREFERENCE TO IMPROVE STATISTICAL DEPENDENCY
PARSING (1156)
GUANGYOU ZHOU, JUN ZHAO, KANG LIU, AND LI CAI
2011/09/03Yuya Unno (@unnonouno)
2011年9月3日土曜日
概要
•係り受けの選択選好 (selectional preference) をwebデータの頻度で表現しました
• Higher-order Eisnerをベースに、係り受けNグラムのPMI
を特徴量に入れました
•精度が上がったよ :-)
2011年9月3日土曜日
今更ですが係り受け解析とは
•単語や文節の「係り受け関係」を当てる問題
•「係り受け関係」が何なのかは永遠の謎
•極論すれば正解コーパスに与えられた上記の様な構造
2011年9月3日土曜日
選択選好とは?
•特定の動詞や名詞には係り安い動詞や名詞がある
•「…を食べる」には、食べ物が来やすい
•「父の高いワイン」と「値段の高いワイン」の構造の違いを瞬時に判断できるのは何故だろう?
• http://d.hatena.ne.jp/usata3/20070416/p2
2011年9月3日土曜日
アイデア:よく共起する単語間に選択選好性があるんでは?
•「父の高い」<「値段の高い」
•係り受けペア候補の2単語の共起しやすさを特徴に入れよう
•従来は単語とクラス間でやっていたけど、Webスケールのデータがあれば単語と単語でも大丈夫だよね!
2011年9月3日土曜日
共起具合はPMIで測ろう
•自己相互情報量 (Point-wise Mutual Information)
•2つの確率変数がどれくらい独立でないか
• PMI(x, y) = log (P(x, y) / P(x)P(y))
•偶然の共起でなければ高い値を持つ
•共起頻度さえわかれば推定できる
2011年9月3日土曜日
頻度のカウント方法は二種類
• Google V1 コーパス
• Webスケールの大規模コーパス
• Google API
•2つのキーワードを入れてググった時の頻度
2011年9月3日土曜日
3単語の場合も考える
•3単語もやってみる
• PMI(x, y, z) = log ( P(x, y, z) / P(x, y)P(y, z) )
• x, yとy, zのPMIということかな・・・
2011年9月3日土曜日
PP-ATACHEMENTもやってみる
•前置詞の前後の単語の選択選好も考えたい
• PMIIN(x, z) = P(x, IN, z) / P(x)
•もはやPMIではない・・・
•先の「3単語の場合」で測れる気がする・・・?
2011年9月3日土曜日
ベースは高階EISNERのLOG-
LINEARモデル
• Eisner法とは非交差係り受け解析の解法の一つ
• 係り受け部分構造のスコアの総和を最大化させる
• CKYアルゴリズムと密接な関係がある
• 詳しくは私のチュートリアルを参照
• http://www.slideshare.net/unnonouno/ss-5724050
• PMI特徴は他のバイナリ特徴とスケールを合わせるため、平均・分散で正規化する (PMI - μ) / σ
以降、図はいずれも原論文より
ρは「父の」→「ワイン」のような係り受け部分構造
2011年9月3日土曜日
特徴の有無で結果の比較
•いずれにしろ選択選好特徴を入れたほうが良い
• Google APIによるヒット数を使ったほうが若干よい
• dep1: 1階Eisner, dep2: 2階Eisner, +hits: Google API, +V1: Google V1 Corpus
2011年9月3日土曜日
最新の手法との比較
•最新の半教師ありには負ける
•教師なしデータを使わない手法には勝てる
2011年9月3日土曜日
データの違いはあまり影響がない
•ロイターとGigwordから作ったコーパス(NEWS)でも実験した
• Unigramの数のみに精度が依存
•データの種類に依存しないようだ
2011年9月3日土曜日
遠い係り受けの精度向上が大きい
•遠い係り受け精度がちゃんと上がっている
2011年9月3日土曜日
分野適応したい時もWEB
NGRAMを入れた方がよい•全くの分野外に良い影響を与えるか?
• Bioのデータで評価
•結果的に、分野外のデータの精度も上がることがわかった
2011年9月3日土曜日
所感
•同じようなことは以前考えて少し実験したがうまく行かなかった
•半教師ありを含め、ラベルなしデータを使ってスコアを上げる方向がしばらく続きそう
•一方で係り受けパスは自然でないこともあり、うまくいかないケースもありそう
2011年9月3日土曜日
まとめ
•係り受け解析の選択選好をWebデータの頻度で表現しました
•特徴に入れるときは係り受けパス上の隣接単語対のPMIを特徴量の値にして、普通に学習するだけ
•既存の手法と比べたとき、遠い係り受け、分野外のデータ、いずれも良好の結果
•最新の半教師ありには負ける
2011年9月3日土曜日