a unified model for word sense representation and disambiguation

A Unified Model for Word Sense Representation and Disambiguation

EMNLP 2014 読み会

小町研究室B4 堺澤勇也

※スライド中の図表はすべて論文から引用しています

ほとんどの単語表現手法は各単語は単一の意味ベクトルを持つことを仮定している

これは語彙の曖昧性という問題を抱えている

WSRとWSD 両方のための結合モデルを提案する

動機：WSDとWSRはお互いに利益を与えることからきている

WSRの質が高い → 単語や意味について豊富な情報を捉え、結果WSDを助ける

WSDの質が高い → 意味表現を学習するためのコーパス曖昧性が解消され、より信頼性が高いものとなる

Abstract

うまく表現学習ができれば、そこに意味的・統語的情報を持たせることが出来る

それを、素性として広い分野で活用したい

単語をベクトル化する動機

多くの単語表現では各単語は一つのベクトルを所有することを仮定している

しかし、これは多義語などの問題にぶつかる

bank は「銀行」・「土手」など複数の意味を所有

するが、単一のベクトルでは複数の意味を表しきれない

単語ベクトル化の問題

多義語の各意味をベクトル化

これからの説明で出てくる変数R ：ラベルなしテキストW：テキストの語彙wsi：W中の単語wのWordnetの i番目の意味gloss(wsi)：wsiの語釈文vec(w)：単語w のベクトルvec(wsi)： I 番目の意味wsiのベクトル

WordNetを使用

1. Initializing word vectors and sense vectors

2. Performing word sense disambiguation

3. Learning sense vectors from relevant occurrences

モデル生成の3ステップ

Skip-garmを使用して単語ベクトルをトレーニング

よく見る対数確率式

よく見る sofrmaxの式

1.1 Initializing word vectors

inputoutput

語釈文中の類似単語を使用して意味を表すことで初期化する

banks1の語釈文： “sloping land (especially the slope beside a body of water))

they pulled the canoe up on the bank; he sat on the bank of the river and watched the currents”

類似単語候補：（単語, cos類似度） (sloping, 0.12), (land, 0.21), (slope, 0.17), (body, 0.01),

(water, 0.10), (pulled, 0.01), (canoe, 0.09), (sat, 0.06), (river, 0.43), (watch, -0.11), (currents, 0.01)

フィルタリング：閾値 δ = 0.05 cand(wsi) = {sloping, land, slope, water, canoe, sat, river}

cand(wsi) の単語ベクトルの平均が…意味ベクトル!! vec(banksi)

1.2 Initializing sense vectors

語釈文中の類似単語を使用して意味を表すことで初期化する

各単語wsiの為にWordNetの語釈文から類似単語候補をとってくる（既に閾値 δ = 0.00 でフィルタリング）

その後、cand(wsi) の単語ベクトルの平均を取り、初期化する

より形式的に

単語の意味は、すべての出現を単一単語ベクトルにマージするよりも、関連出現のみによってモデル化されることがWSDの結果から示されている

この考え方から、より多くの関連出現を手に入れるためにWSDを行う

2. Performing word sense disambiguation

トレーニングデータ中の文の内容語すべての曖昧性を解消する（all-words settings）タスクを行う

文 S は単語の系列（w1, w2, … , wn）であり、単語から意味へのマッピングM を識別する

M(i) ∈ SensesWN (wi)

SensesWN (wi)：単語wiのためのWN中のエンコードされた意味の集合

可能なマッピングは下の式で表されるがこれは数が膨大になるので計算出来ない

従って、下に示す簡単な二つのアルゴリズムを使用する

L2R（left to right）

S2C（simple to complex）

二つのアルゴリズムの違いは曖昧性を解く順序

L2R：左から右に解く（文を読む自然な順番）

S2C：曖昧性の少ない単語から優先して解く（それにより後の単語の曖昧性を解くことを助ける）

二つとも３つのステップをとって曖昧性を解消する

L2R と S2C

1. Context vector initialization

2. Ranking words

3. Word sense disambiguation

３つのステップ

これは意味ベクトルの初期化と似ている

文中のすべての内容語の単語ベクトルの平均をとる

1. Context vector initialization

L2Rはこの手順を踏まない（ステップ２つ？）

S2Cの為に、|SensesWN (wi) | の順番に基づいて単語をランクづけしておく

2. Ranking words

それぞれのアルゴリズムの優先順位に従って各単語の曖昧性を解消していく（内容語ではないものと意味が一つしかないものを除く）

２で作った意味ベクトルとコンテキストベクトルのcos類似度を計算し、類似度の最大値をとる意味ベクトルが持つ意味を曖昧性解消の正解として選択する（最大値とその次に大きい値のマージンが閾値 ε = 0.10 を超えている場合、それは信頼に値するものとする）

その後、コンテキストベクトル中の単語ベクトルの代わりにその意味ベクトルを使うようにアップデートする

これにより、他の単語の曖昧性を解消するためのより正確なコンテキストベクトルを得ることが出来る

3. Word sense disambiguation

WSDの結果を基に、Skip-gram のオブジェクトを修正し、意味ベクトルをトレーニングをする

今度のモデルは周辺単語だけでなく、それらの意味も予測する用に学習される

WSDの結果を、M(w1), M(w2), …, M(wn) とすると、いつもの式は以下のようになる

3. Learning sense vectors from relevant occurrences

ここを決めるために階層的 sofrmaxを使用

model

ある単語が得られたときに、その周辺の単語だけでなく、内容語の意味（図中の黒四角）も予測するように学習する

目的の意味ベクトル

Parameter Influence

各パラメーターで実験を行うことにより一番いいパラメーターを決定している

学習した sense vectors の例

多義語のひとつひとつにちゃんと意味が付与されたベクトルが与えられている

その単語に最も近いものを三つ示している

サブスクリプトはWordNetのインデックスに相当する

３つの実験

Contextual Word Similarity

Domain-Specific WSD

Coarse-grained WSD

実験

データセット： SCWS from (Huang et al., 2012) (2003の単語のペアの類似度が０〜１０の間でアノテーションされている)

実験設定： dataから得られた単語ペアの類似性を図る

計算式：

p(i | w, c) : 与えられたコンテキスト c 中の単語w が持つi番目の意味が持つ尤度を表す

d(vec(wsi), vec(w’si))：二つの単語ベクトルのcos類似度を計算する

Contextual Word Similarity

結果

評価：モデルで計算された類似度のスコアと人手のスコア間の順位相関係数を計算

(Collobert and Weston, 2008)’s language model

Huang’s model

-S：単語毎に一つの表現を使用-M：意味毎に一つの表現を使用AvgSim：各意味が均等になるように計算AvgSimC：コンテキスト c 中の意味によって単語の確率を割り当てて重み付けして計算

提案手法が一番精度が高いことが確認出来る

データセット：Wikipedia（トレーニング）

Koeling et al., 2005で公開されてるもの（テスト）

実験設定：ベースラインとしてMFS (most frequent Wordnet sense)

４つの手法と比較： Static PageRank (A- girre et al., 2009)

the k nearest neighbor algorithm (k-NN)

Degree (Navigli and Lapata, 2010)

Personalized PageRank (Agirre et al., 2009)

Domain-Specific WSD

結果

評価： recallを計算して各手法と比較

提案手法が一番精度が高いことが確認出来る

かなり差をつけているが、これはDegree は与えられたセンテンスやコンテキストが小さすぎて、意味グラフの構築が困難だったためであると考えられる

これは、提案手法が生成したベクトルによって短い文章などでも類似性がしっかり計算出来ていることを示す

データセット： Semeval-2007

実験設定：比較対象は Semeval-2007のこのtaskでベストなものと最新の手法なども合わせて比較

比較手法：

SUSSX-FR(Koel- ing and McCarthy, 2007) （教師なし）

NUS-PT (Chan et al., 2007) （教師あり）

SSI (Navigli and Ve- lardi, 2005)

Degree (Navigli and Lapata, 2010)

Coarse-grained WSD

結果

評価： F値で比較

必ずしも勝っている訳ではないが、それと同等程度の成果は出せている

L２R より S２C が常に勝っていることは、少ない意味を持つ単語の曖昧性解消の方が簡単であり、それにより他の意味の曖昧性解消を助けていることを示す

All words ではSSI の結果の次となっているが、提案手法はSSI のように意味の関係集合にたくさんの努力を必要としない

WSRとWSDのための統一モデルを提案した

実験では、提案モデルが既存の方法を上回る、もしくは匹敵する結果を示した

大量のラベルなしデータから学習しているので、他のタスクへの応用も考えられる

まとめ

a unified model for word sense representation and disambiguation

Science