language as a latent variable: discrete generative models for sentence compression (emnlp 2016)

DEEP LEARNING JP[DL Papers]

“Language as a Latent Variable: Discrete GenerativeModels for Sentence Compression”

Toru Fujino, Chen Lab

http://deeplearning.jp/

書誌情報

• Yishu Miao (Oxford), Phil Blunsom (Oxford & Deepmind)– Miaoさん: ICML, EMNLP, IJCAI, CIKMなど多数

• EMNLP (long) 2016

• 概要– VAEの潜在表現に入力の要約文をおいて半教師あり学習した

• 選んだ理由– 教師無しとか半教師有りとかの要約に興味があった.– VAEの潜在表現で要約とするアイデアが面白いと思った.

2

文(書)要約• 文書 (文) を重要な情報だけ残して短縮する問題

– 抽出型要約• 例) “I am a graduate student at the University of Tokyo.” -> “I am a student at the University.”

– 生成型要約• 例) “I am a graduate student at the University of Tokyo.” -> “I am a grad student at UT.”

• 最近の殆どの研究は教師ありのEncoder-Decoder– “Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond”,

Nallapati et al., CoNLL 2016

3

自然言語における潜在表現

• 言語生成– “Generating Sentences from a Continuous Space”, Bowman et al., 2015

– “Toward Controllable Generation of Text”, Hu et al., 2017

• 連続的な潜在変数が一般4

圧縮表現 = 要約• 言語の潜在表現を離散的な変数で表そうという試み• そのアプリケーションとして要約問題に適用

– 要約文は一般に入力文の圧縮された表現になっているから

5

入力文(x) 入力文(x)要約文(z)

提案手法

• 概要– 潜在変数に自然言語をおくことで教師なし学習 (半教師あり学習) で文要約– Gigawordコーパス (文要約の一般的なデータセット) で (当時の) SotAを出した.

• 貢献– 言語の潜在変数を離散変数で表す生成モデルを提案– 抽出型, 生成型どちらでも学習できるフレームワークを提案– 半教師あり学習の枠組みで (当時の) SotA

オリジナル文要約文

4

提案手法

• Auto-Encoding Sentence Compression (ASC)– 教師なし学習– VAEのzを抽出型の要約文として表現

• Forced Attention Sentence Compression (FSC)– 教師あり学習 (元文, 要約文)

7

要約文

入力文

要約文

入力文

ASC: 文の圧縮• Encoder: bidirectional LSTM

• Compressor: Pointer Network– 入力系列の単語から出力を選ぶ

– 語彙数を抑えることにより, 潜在変数𝑐 ∼ 𝑞$(𝑐|𝑠)のサンプリングの分散を抑える

• 通常の出力層: 語彙数 )

• Pointer Network: 入力系列の長さ|)|

8

ASC: 文の再生成• Compressor: LSTM

• Decoder: LSTM

– 出力層: アテンションのようなもの

9

ASC: 最適化• 目的関数: Lower bound + ハイパラlambda

– 𝑝 𝑐 : (圧縮文で?) 事前学習済みの言語モデル– 𝜆: 文の圧縮率をコントロールするパラメータ

• 大きいほど𝑝 𝑐 に近くなる (圧縮される). 実験では0.01

10

ASC:θの勾配の計算• サンプリングによって近似

11

ASC: 𝝓の勾配の計算• 目的関数を次のように書き直し

• Learning signal (報酬関数) を次のように設定

• 勾配

• 勾配の分散を抑えるためにBaselineを導入 (baselineも別に学習)

12

FSC: • Decoder (入力文の復元) がない. 教師あり• 出力層: 入力系列の単語と語彙全体の単語に対するprobability

– ステップjの隠れ層とアテンションベクトルの類似度を計算

– 類似度が高いなら𝛼.を重視, 低いなら𝛽.を重視

• 目的関数: 対数尤度13

(入力系列の単語) (語彙全体)

誤差関数まとめ

• ASC: 教師なし学習

• FSC: 教師あり学習

• ASC + FSC: 半教師あり学習

14

実験設定

• データセット– Gigaword: 文要約の標準的なコーパス

• 最適化– Adam with 学習率0.002– REINFORCEのサンプリングは1個

15

実験

• Extractive 要約– ASC, FSCともにPointer Network使用 (出力単語は入力系列に現れたもののみ)

– ASC (教師なし) を組み合わせることにより精度が向上した

16

実験

• Abstractive な要約– ASC のみ Pointer Network

– ASC (教師なし) を組み合わせることにより精度が向上した

17

実験

• 先行研究との比較

– 良くなった

18

実験

• 生成例

19

入力文

要約文

入力文

要約文

感想

• 自然言語を自然言語のままで圧縮させて潜在表現とするのは少し無理があるのではないかと思った

20

language as a latent variable: discrete generative models for sentence compression (emnlp 2016)

Technology