sequence-to-dependency neural machine translation

Sequence-to-Dependency Neural Machine TranslationShuangzhi Wu, Dongdong Zhang, Nan Yang, Mu Li, Ming Zhou

ACL 2017

※スライド中の図表は論文から引用されたもの

小町守

<[email protected]>

ACL2017 読み会@東工大すずかけ台キャンパス

2017/09/19

深層学習により機械翻訳の質が近年著しく向上しています

2https://research.googleblog.com/2016/09/a-neural-

network-for-machine.html

依存構造は単語予測の役に立つ

3

ターゲット言語の依存構造をNMT に入れるのは難しい RNN に依存構造木のような統語構造を入れるのはどのようにモデル化すればいいか？

1つのニューラルネットワークでターゲットの単語生成と統語構造の構築をするに当たって、どのようにすれば効率的か？

ターゲットの統語構造を考慮した文脈をどのように効率的に単語生成に活用するか？

4

Sequence-to-dependency NMT で依存構造を活用

エンコーダは普通のアテンションつきbidirectional RNN

デコーダは翻訳の単語生成と依存構造木を同時に解析するモデル

1つの RNN で単語生成（こちらは普通）

もう1つの RNN で arc-standard shift-reduce アルゴリズムによる依存構造解析

中英、日英翻訳で NMT/SMT ベースラインより統計的に有意な性能向上

5

入力: 𝑋 = 𝑥1, … , 𝑥𝑚

出力: 𝑌 = 𝑦1, … , 𝑦𝑛

入力の隠れベクトル:

𝐻 = ℎ1, … , ℎ𝑚

出力隠れ層: 𝑠𝑗

文脈: 𝑐𝑗

Eq. (3)-(5) はアテンションの計算

2017年現在ふつうの NMT(Sutskever et al., 2014; Bahdanau et al., 2015)

6

ふつうの arc-standard 依存構造解析 (Nivre, 2004)

スタック中の一番上の2つの単語: 𝑤0, 𝑤1

入力中の新しい単語: 𝑤

3つのアクション

7

Seq2dep NMT は依存構造木 T を shift-reduce の系列で表現

𝐴 = 𝑎1, … , 𝑎𝑙 ただし 𝑙 = 2n（n は X の長さ）※アテンションの a とは別

𝑎𝑗𝜖 SH, RR 𝑑 , LR(𝑑)

※ここではラベルつき依存構造

8

単語 RNN と依存構造解析 RNN を同時に用いて解析

アクションが shift のときだけ単語 RNN で生成

単語 RNN が EOS を出力し、かつスタックの中の全単語が reduce されたときに終了 9

SD-NMT モデル（点線は前の状態のコピー、灰色の箱は連結）

10

ターゲットの単語生成に係り受けの文脈を考慮する

左右の係関係にある単語をbigram 素性として考慮

利用できない場合は 0 ベクトルでパディング

隠れ状態 sの更新には Kは用いない

11

SD-NMTは単語生成RNNと依存構造解析RNNを同時に最適化

目的関数

デコーディングの時に使うスコア

12

中英・日英翻訳で実験

データ

中英: LDCから200万文対を訓練、NIST2003を開発、NIST2005, NIST2006, NIST2008, NIST2012

をテスト

日英: ASPECから100万文対を訓練、1,790文対を開発、1,812文対をテスト

ツール

依存構造は arc-eager 依存構想解析 (Zhang and

Nivre, 2011)

13

SD-NMT の実験設定

語彙サイズ: 30,000単語（両側）

未知語処理: unk置換と後処理 (Luong et al., 2015)

単語埋め込みとアクション埋め込み: 512次元

RNN の隠れ状態: 1024次元

初期化: 正規分布 (Glorot and Bengio, 2010)

最適化: SGD（学習率=1.0）と Adadelta

バッチサイズ: 96

ビームサイズ: 12（単語予測とアクション予測両方）14

ベースラインはどちらも著者らが実装したモデル SMT

階層的フレーズベースモデル (Chiang, 2005)

English Gigawordとターゲット側のコーパスで訓練した4-gram 言語モデル（Kneser-Ney スムージング）

NMT

RNNsearch (Bahdanau et al., 2015)

パラメータは SD-NMT と同じ

評価

中英: BLEU-4（Bootstrap resampling で有意差検定）

日英: BLEU+RIBES15

SD-NMT が SMT と NMT ベースラインよりも高性能

SD-NMT¥K は target bigram dependency を考慮しないモデル

太字はベースラインと比較して統計的有意（p<0.05）

16

SD-NMT の方が言語モデル性能も（最初は悪いが）高くなる

17

日英翻訳でもSD-NMTがベースラインより強い

Cromieres (2016) は先行研究の数字のコピペ

SD-NMT はアンサンブルしていないモデル

18

アクションのビームサイズを増やせば翻訳性能は上がる

19

RNNsearchは長距離の依存関係のある翻訳が苦手

20

機械翻訳の目的言語側の統語構造は扱いにくい

SMT では string-to-tree (Liu et al., 2006) や目的言語で依存構造を使う言語モデル (Shen et al.,

2008) が提案されていた→SMT では大体において tree-to-string の方が高性能だったが……

NMT では tree-to-sequence アテンション NMT

モデル (Eriguchi et al., 2016) が提案されていた→ソースと比べてターゲットの方が統語情報を入れにくい

21

まとめと今後の課題: string-to-dependency NMT

まとめ

単語生成と arc-standard な依存構造解析を同時に解析する string-to-dependency NMT

今後の課題

他の事前知識（意味）を NMT に統合

他の seq2seq タスク（文書要約）に適用

22

所感

シンプルな方法だが、依存構造解析を考慮したstring-to-dependency NMT モデルでいい感じ。

単語生成 RNN と依存構造解析 RNN は本当にちゃんと協調して動くのだろうか？

依存構想解析器の性格によって、統合可能かどうかが変わってくるのでは？

アンサンブルの仕方が実は自明ではない？

出力側があまり頑健ではなさそう

23

質疑応答①

Q: bigram embeddingsとは何をしていることに相当するのか？

A: bigram という名前が付いているが、普通の単語 N-gram のような bigram ではなく、依存構造解析の bigram を用いる。単語の共起を見ていることに相当する。実験結果を見ると、bigram embeddingsを用いなくても RNNsearchより向上しているが、上がり幅は SD-NMT より bigram embeddingsの方が大きい

24

質疑応答②

Q: 依存構造を考慮するようなモデルは長い文に効果がありそうだが、そのような議論は論文に書かれているのか？

A: 特にない。比較した方がいいと思う。ただ、「所感」に書いたように、自動でパラレルコーパスに依存構造を付与する依存構想解析器の性格によって性能が変わりそうだとは感じた。

25

参考文献①

Wu et al. Sequence-to-Dependency Neural

Machine Translation. ACL 2017.

Eriguchi et al. Tree-to-Sequence Attentional

Neural Machine Translation. ACL 2016.

Joakim Nivre. Incrementality in Deterministic

Dependency Parsing. Workshop on Incrementral

Parsing: Bringing Engineering and Cognition

Together. 2004.

Shen et al. A New String-to-Dependency

Machine Translation Algorithm with a Target

Dependency Language Model. ACL 2008. 26

参考文献②

Luong et al. Addressing the Rare Word Problem in

Neural Machine Translation. ACL 2015.

Zhang and Nivre. Transition-based Dependency

Parsing with Rich Non-local Features. ACL 2011.

David Chiang. A Hierarchical Phrase-based Model for

Statistical Machine Translation. ACL 2005.

Fabien Cromieres. Kyoto-NMT: A Neural Machine

Translation Implementation in Chainer. COLING 2016.

27