acl読み会@2015 09-18

15
ACL読み会20150918 DomainSpecific Paraphrase Extrac5on Ellie Pavlick, Juri Ganitkevitch, Tsz Ping Chan, Xuchen Yao, Benjamin Van Durme, Chris CallisonBurch プレゼンテーション 関沢祐樹 2015/09/18 1

Upload: sekizawayuuki

Post on 12-Apr-2017

284 views

Category:

Education


1 download

TRANSCRIPT

Page 1: Acl読み会@2015 09-18

ACL読み会2015-­‐09-­‐18    

Domain-­‐Specific  Paraphrase  Extrac5on      

Ellie  Pavlick,  Juri  Ganitkevitch,  Tsz  Ping  Chan,  Xuchen  Yao,  

Benjamin  Van  Durme,  Chris  Callison-­‐Burch    

プレゼンテーション  関沢祐樹

2015/09/18 1

Page 2: Acl読み会@2015 09-18

概要

•  言い換えの正当性  •  言い換え適用先のテキストのドメインによる  

•  提案手法  •  二言語間のピボッティングによる言い換えを用い

訓練データを言い換え先のドメインに偏らせる  •  適合率ー再現率曲線の曲線下面積が  

ベースラインの10%だけ増加  

2015/09/18 2

Page 3: Acl読み会@2015 09-18

はじめに

•  言い換えが適切かどうかの判断は難しい  •  言い換え後の文法が正しいかどうか  •  単語の意味が正しいかどうか  

•  言い換えでのドメインの影響は不明  •  言い換えの信頼性はドメインにより異なるのでは?  •  特定のドメインでのみ言い換えできるものもある

2015/09/18 3

Page 4: Acl読み会@2015 09-18

言い換えの抽出

•  二言語間でのピボッティング  •  e1,  e2  :  英語のフレーズ  ,  f  :  他言語のフレーズ  •  e1  à  f,  e2  à  f  ならば,  e1  と  e2  は似た意味である  

•  e1,  e2  は言い換えペアであると言える  

•  言い換えらしさ  

•  様々な他言語、翻訳確率を使用  •  多義語で、頻度が少ないと確率が低くなる  

2015/09/18 4

Page 5: Acl読み会@2015 09-18

ドメイン特有のサンプル

•  2つの言語モデルからなる大きなコーパスの                  各文に重みを付与  

  一般ドメイン ターゲット分野テキストのサンプル    •  ドメイン特有らしさ  :    •  si  :  文  •  Htgt  :  ターゲットドメイン言語モデルでのクロスエントロピー  

•  Hgen  :  一般ドメイン言語モデルでのクロスエントロピー  •  σi  が小さいほど、ドメイン依存な文と言える  

 2015/09/18 5

Page 6: Acl読み会@2015 09-18

ドメイン特有の言い換え

•  ドメイン特有らしさの計算  – 単一言語の専門的ドメインのサンプルが必要  •  言い換え抽出ではなく、ターゲットドメイン言語の  nグラムモデルの訓練に使用する  

– σi  を計算し、より近い文のペア à  リストの先頭  

•  ソートの方法  1.  σi  の閾値を決め、残ったものをターゲットドメイン  2.  訓練サンプルの重みをσi  に比例したものにする  

2015/09/18 6

Page 7: Acl読み会@2015 09-18

実験設定

•  ターゲットドメイン  :  生物学(biology)  •  単一言語ドメインデータ  

•  GENIA  database  ,  生物学の教科書の序論  

•  一般ドメイン  :  Wikipediaのデータ  •  二言語間ドメインデータ  •  仏ー英、10億単語のパラレルコーパス  

•  言語モデル  :  5-­‐gram  

2015/09/18 7

Page 8: Acl読み会@2015 09-18

実験評価

•  評価指標  :  適合率と再現率  •  評価数  •  生物学ドメイン  :  15,000文、一般ドメイン  :  10,000文  

•  評価方法  :  言い換えが適切かどうかの2値評価  5人で評価し、多数決  ある文のフレーズに対して、  その言い換え候補のリストがある  

2015/09/18 8

Page 9: Acl読み会@2015 09-18

実験手法

•  ベースライン(General)  – パラレルコーパスそのまま使用  

目標ドメインに対する重み付けなし  •  サブサンプリング(M-­‐L,T=τ)  – パラレルコーパスをソート、上位τ語を使用  

•  M-­‐L  Change  Point    – σi  の正負が変化する部分を閾値(τ=20Mに相当)  

•  M-­‐L  Weighted    – 言い換えスコアをσi  に比例させる  

2015/09/18 9

Page 10: Acl読み会@2015 09-18

実験結果(biology)

10 2015/09/18

Page 11: Acl読み会@2015 09-18

実験結果(biology)

•  ベースラインよりも良くなっている  

•  再現率が減少  •  サブサンプリングで  

全単語は出現しない  •  τが大きい  à  再現率上昇  

11 2015/09/18

Page 12: Acl読み会@2015 09-18

生物ドメインと一般ドメインの合体

•  これまでの方法  :  テキストの一部分を使用  •  全部は考慮していない à  再現率に限界あり  

•  部分サンプリングしたモデルと一般ドメインをロジスティック回帰によって合体  •  p(e2|e1)  を見積もることができる  

2015/09/18 12

Page 13: Acl読み会@2015 09-18

生物ドメインと一般ドメインの合体

2015/09/18 13

Page 14: Acl読み会@2015 09-18

生物ドメインと一般ドメインの合体

2015/09/18 14

Page 15: Acl読み会@2015 09-18

おわりに

•  本研究が行ったこと  •  ドメイン依存の言い換え抽出  •  機械翻訳の方法で抽出  •  目標ドメインに近いものを使用  

•  実験結果  •  ベースラインと比較してP  –  R曲線下面積が10%向上

2015/09/18 15