mind’s eye: a recurrent visual representation for image caption generation

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Xinlei Chen(*), C. Lawrence Zitnick(**)(*):Carnegie Mellon University

(**):Microsoft Research, Redmond

手島知昭 (@tomoaki_teshima)

結果

Recurrent NN とは？• 時系列データなどの「連続したデータ」を扱う

ためのニューラルネットワーク• 音声認識、機械翻訳、動画像認識

http://www.slideshare.net/takmin/show-andtell-takmin

入力

隠れ層

出力

…

…

…

Recurrent NN の課題• 展開すると、静的なネットワークで表せる

…

…

…

…

…

…

…

…

…

入力

隠れ層

出力

Long short term memory

• 過去情報を減衰せずに再利用する• これにより誤差が発

散・消失しない

http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm

本手法の LSTM に該当するもの

Paint a picture in your mind’s eye

提案手法の概要• 画像←→キャプションの双方向生成 / 推定が可

能• キャプション生成、もしくは画像クエリの研究は

あった• Joint Feature Space に投影する研究もあった

• 使われた単語を記憶する隠し層を追加

提案手法の NN の構成

提案手法の NN の構成

Mikolov[29]

word

隠れ層

Mikolov[32]Visual feature(constant)

LSTM の効果

本手法の LSTM に該当するもの

Visual feature

出現した単語を記憶しつつVisual Feature を再構築する

U の初期値は画像特徴量の事前分布にならう

画像からキャプション生成

入力画像の特徴量

キャプションから画像選択

文章の各 word

Language Model

• 3,000-20,000 words• 計算コストが爆発するので、各 word に class を

割り当てる• class は似た出現頻度の word をまとめることで

生成する• Maximum Entropy language model• preprocessing

Learning

• 逆伝播法• 数 word 分 unroll したもので学習する• 行をまたいだ場合、モデルをリセットする• Recurrent units の weight の学習はオンライン• Once per sentence batch update• Sigmoid で、単語には soft-max を使う

評価結果 (Sentence generation)

PASCALPPL BLEU METEOR

Midge[33] - 2.9 8.8Baby Talk[24] - 0.5 9.7Our Approach 25.3 9.8 16.0

Our Approach + FT 24.6 10.4 16.3Our Approach + VGG 23.8 12.0 17.6

Human - 20.1 25.0

評価結果 (Sentence generation)

PASCALPPL BLEU METEOR

Midge[33] - 2.9 8.8Baby Talk[24] - 0.5 9.7Our Approach 25.3 9.8 16.0

Our Approach + FT 24.6 10.4 16.3Our Approach + VGG 23.8 12.0 17.6

Human - 20.1 25.0

小さいほど ( ・∀・ ) ｲｲ !! 大きいほど ( ・∀・ ) ｲｲ !!

評価結果 (Sentence Generation)Flickr 8K Flickr 30K MS COCO Val MS COCO Test

PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BLEU METEOR CIDEr

RNN 17.5 4.5 10.3 23 6.3 10.7 16.9 4.7 9.8 - - -

RNN+IF 16.5 11.9 16.2 20.8 11.3 14.3 13.3 16.3 17.7 - - -

RNN+IF+FT 16 12 16.3 20.5 11.6 14.6 12.9 17 18 - - -

RNN+VGG 15.2 12.4 16.7 20 11.9 15 12.6 18.4 19.3 18 19.1 51.5

Our Approach 16.1 12.2 16.6 20 11.3 14.6 12.6 16.3 17.8 - - -Our Approach +

FT 15.8 12.4 16.7 19.5 11.6 14.7 12 16.8 18.1 16.5 18 44.8Our Approach +

VGG 15.1 13.1 16.9 19.1 12 15.2 11.6 18.8 19.6 18.4 19.5 53.1

Human - 20.6 25.5 - 18.9 22.9 - 19.2 24.1 21.7 25.2 85.4

RNN に画像特徴量 (IF) を入力RNN に画像特徴量 (IF) を入力し、学習時に逆伝播でさらにチューニ

ングIF(CNN) の代わりに VGG を画像特徴量として使用

評価結果 (3) Flickr 8KSentence Retrieval Image Retrieval

R@1 R@5 R@10 Med r R@1 R@5 R@10 Med rRandom Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500

SDT-RNN [38] 4.5 18 28.6 32 6.1 18.5 29 29DeViSE [12] 4.8 16.5 27.3 28 5.9 20.1 29.6 29DeepFE [20] 12.6 32.9 44 14 9.7 29.6 42.5 15

DeepFE+DECAF [20] 5.9 19.2 27.3 34 5.2 17.6 26.5 32RNN+VGG 8.9 25.7 38.7 20.5 6.5 17.3 28.4 25

Our Approach (T) 9.6 29.1 41.6 17 7 23.6 33.6 23Our Approach (T+I) 9.9 29.2 42.4 16 7.3 24.6 36 20

[16] 8.3 21.6 30.3 34 7.6 20.7 30.1 38RNN+VGG 7.7 23 37.2 21 6.8 24 33.9 23.5

Our Approach (T) 8.1 24.4 39.1 19 7.4 25 37.5 21Our Approach (T+I) 8.6 25.9 40.1 17 7.6 24.9 37.8 20

M-RNN [28] 14.5 37.2 48.5 11 11.5 31 42.4 15RNN+VGG 14.4 37.9 48.2 10 15.6 38.4 50.6 10

Our Approach (T) 15.2 39.8 49.3 8.5 16.4 40.9 54.8 9Our Approach (T+I) 15.4 40.6 50.1 8 17.3 42.5 57.4 7

評価結果 (4) Flickr 30KSentence Retrieval Image Retrieval

R@1 R@5 R@10 Med r R@1 R@5 R@10 Med rRandom Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500

SDT-RNN [38] 4.5 18.1 29.2 26 6.7 21.9 32.7 25DeViSE [12] 16.4 40.2 54.7 8 10.3 31.4 44.5 13DeepFE [20] 10.2 26.9 36.7 22 7.6 21.3 31.4 27

Our Approach (T) 11.3 30.1 43.2 16 8.2 24.7 37 22Our Approach (T+I) 11.9 32.9 45.1 14 8.4 25.7 36.8 21

[16] 18.4 40.2 50.9 10 12.6 31.2 41.5 16RNN+VGG 14.9 36.7 52.1 11 15.1 41.1 54.1 9

Our Approach (T) 15.8 42 57.4 9 17.7 44.9 57.2 7.5Our Approach (T+I) 16.6 42.5 58.9 8 18.5 45.7 58.1 7

生成結果

生成例（失敗含む）

まとめ• 画像からキャプション生成、もしくはクエリか

ら画像選択を 1 つの NN を使って実現した• 従来のクエリを行う NN は、文章と画像の特徴量を

同じ空間に投影するだけで、同じ NN から生成しているのとは違う

• 使用された単語を LSTM として常に入力することで、性能を向上させた

今後の展望• 以下の 2 つを同時に推定するのでなく順番に推

定すると性能が向上するかも知れない• 画像中に何が写ってるか (object)• Object の関係はどうなっているか

• 位置関係を表す words は不得意な傾向にある• 本当（？）

おまけ• 前回の皆川さんの発表 “ Show and Tell: A Newral

Image Caption Generator” との違い• RNN を使ってキャプション生成• 画像を NN にかけた結果を入力する• 評価実験に PASCAL VOC,Flicker8K,Flicker30K およ

び MSCOCO を使用• 生成されたキャプションの評価に

BLEU 、 METEOR 、 CIDER を使用

差分• 本手法はキャプション生成だけでなく、説明文

から画像特徴量を復元できる• 画像特徴量でなく文字の出現頻度を LSTM とし

て用いる

mind’s eye: a recurrent visual representation for image caption generation

Science