acl2011読み会 exploiting web-derived selectional preference to improve statistical dependency...

ACL2011読み会EXPLOITING WEB-DERIVED

SELECTIONAL PREFERENCE TO IMPROVE STATISTICAL DEPENDENCY

PARSING (1156)

GUANGYOU ZHOU, JUN ZHAO, KANG LIU, AND LI CAI

2011/09/03Yuya Unno (@unnonouno)

2011年9月3日土曜日

概要

•係り受けの選択選好 (selectional preference) をwebデータの頻度で表現しました

• Higher-order Eisnerをベースに、係り受けNグラムのPMI

を特徴量に入れました

•精度が上がったよ :-)


今更ですが係り受け解析とは

•単語や文節の「係り受け関係」を当てる問題

•「係り受け関係」が何なのかは永遠の謎

•極論すれば正解コーパスに与えられた上記の様な構造


選択選好とは？

•特定の動詞や名詞には係り安い動詞や名詞がある

•「…を食べる」には、食べ物が来やすい

•「父の高いワイン」と「値段の高いワイン」の構造の違いを瞬時に判断できるのは何故だろう？

• http://d.hatena.ne.jp/usata3/20070416/p2


http://d.hatena.ne.jp/usata3/20070416/p2

http://d.hatena.ne.jp/usata3/20070416/p2

アイデア：よく共起する単語間に選択選好性があるんでは？

•「父の高い」＜「値段の高い」

•係り受けペア候補の２単語の共起しやすさを特徴に入れよう

•従来は単語とクラス間でやっていたけど、Webスケールのデータがあれば単語と単語でも大丈夫だよね！


共起具合はPMIで測ろう

•自己相互情報量 (Point-wise Mutual Information)

•２つの確率変数がどれくらい独立でないか

• PMI(x, y) = log (P(x, y) / P(x)P(y))

•偶然の共起でなければ高い値を持つ

•共起頻度さえわかれば推定できる


頻度のカウント方法は二種類

• Google V1 コーパス

• Webスケールの大規模コーパス

• Google API

•２つのキーワードを入れてググった時の頻度


３単語の場合も考える

•３単語もやってみる

• PMI(x, y, z) = log ( P(x, y, z) / P(x, y)P(y, z) )

• x, yとy, zのPMIということかな・・・


PP-ATACHEMENTもやってみる

•前置詞の前後の単語の選択選好も考えたい

• PMIIN(x, z) = P(x, IN, z) / P(x)

•もはやPMIではない・・・

•先の「3単語の場合」で測れる気がする・・・？


ベースは高階EISNERのLOG-

LINEARモデル

• Eisner法とは非交差係り受け解析の解法の一つ

• 係り受け部分構造のスコアの総和を最大化させる

• CKYアルゴリズムと密接な関係がある

• 詳しくは私のチュートリアルを参照

• http://www.slideshare.net/unnonouno/ss-5724050

• PMI特徴は他のバイナリ特徴とスケールを合わせるため、平均・分散で正規化する (PMI - μ) / σ

以降、図はいずれも原論文より

ρは「父の」→「ワイン」のような係り受け部分構造


http://www.slideshare.net/unnonouno/ss-5724050

http://www.slideshare.net/unnonouno/ss-5724050

特徴の有無で結果の比較

•いずれにしろ選択選好特徴を入れたほうが良い

• Google APIによるヒット数を使ったほうが若干よい

• dep1: 1階Eisner, dep2: 2階Eisner, +hits: Google API, +V1: Google V1 Corpus


最新の手法との比較

•最新の半教師ありには負ける

•教師なしデータを使わない手法には勝てる


データの違いはあまり影響がない

•ロイターとGigwordから作ったコーパス(NEWS)でも実験した

• Unigramの数のみに精度が依存

•データの種類に依存しないようだ


遠い係り受けの精度向上が大きい

•遠い係り受け精度がちゃんと上がっている


分野適応したい時もWEB

NGRAMを入れた方がよい•全くの分野外に良い影響を与えるか？

• Bioのデータで評価

•結果的に、分野外のデータの精度も上がることがわかった


所感

•同じようなことは以前考えて少し実験したがうまく行かなかった

•半教師ありを含め、ラベルなしデータを使ってスコアを上げる方向がしばらく続きそう

•一方で係り受けパスは自然でないこともあり、うまくいかないケースもありそう


まとめ

•係り受け解析の選択選好をWebデータの頻度で表現しました

•特徴に入れるときは係り受けパス上の隣接単語対のPMIを特徴量の値にして、普通に学習するだけ

•既存の手法と比べたとき、遠い係り受け、分野外のデータ、いずれも良好の結果

•最新の半教師ありには負ける


acl2011読み会 exploiting web-derived selectional preference to improve statistical dependency...

Technology