mind’s eye: a recurrent visual representation for image caption generation

26
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation Xinlei Chen(*), C. Lawrence Zitnick(**) (*):Carnegie Mellon University (**):Microsoft Research, Redmond 手手手手 (@tomoaki_teshima)

Upload: tomoaki0705

Post on 16-Aug-2015

586 views

Category:

Science


8 download

TRANSCRIPT

Page 1: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Xinlei Chen(*), C. Lawrence Zitnick(**)(*):Carnegie Mellon University

(**):Microsoft Research, Redmond

手島知昭 (@tomoaki_teshima)

Page 2: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

結果

Page 3: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Recurrent NN とは?• 時系列データなどの「連続したデータ」を扱う

ためのニューラルネットワーク• 音声認識、機械翻訳、動画像認識

http://www.slideshare.net/takmin/show-andtell-takmin

入力

隠れ層

出力

Page 4: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Recurrent NN の課題• 展開すると、静的なネットワークで表せる

入力

隠れ層

出力

Page 5: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Long short term memory

• 過去情報を減衰せずに再利用する• これにより誤差が発

散・消失しない

http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm

Page 6: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

本手法の LSTM に該当するもの

Paint a picture in your mind’s eye

Page 7: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

提案手法の概要• 画像←→キャプションの双方向生成 / 推定が可

能• キャプション生成、もしくは画像クエリの研究は

あった• Joint Feature Space に投影する研究もあった

• 使われた単語を記憶する隠し層を追加

Page 8: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

提案手法の NN の構成

Page 9: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

提案手法の NN の構成

Mikolov[29]

word

隠れ層

Mikolov[32]Visual feature(constant)

Page 10: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

LSTM の効果

Page 11: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

本手法の LSTM に該当するもの

Visual feature

出現した単語を記憶しつつVisual Feature を再構築する

U の初期値は画像特徴量の事前分布にならう

Page 12: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

画像からキャプション生成

入力画像の特徴量

Page 13: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

キャプションから画像選択

文章の各 word

Page 14: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Language Model

• 3,000-20,000 words• 計算コストが爆発するので、各 word に class を

割り当てる• class は似た出現頻度の word をまとめることで

生成する• Maximum Entropy language model• preprocessing

Page 15: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Learning

• 逆伝播法• 数 word 分 unroll したもので学習する• 行をまたいだ場合、モデルをリセットする• Recurrent units の weight の学習はオンライン• Once per sentence batch update• Sigmoid で、単語には soft-max を使う

Page 16: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

評価結果 (Sentence generation)

PASCALPPL BLEU METEOR

Midge[33] - 2.9 8.8Baby Talk[24] - 0.5 9.7Our Approach 25.3 9.8 16.0

Our Approach + FT 24.6 10.4 16.3Our Approach + VGG 23.8 12.0 17.6

Human - 20.1 25.0

Page 17: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

評価結果 (Sentence generation)

PASCALPPL BLEU METEOR

Midge[33] - 2.9 8.8Baby Talk[24] - 0.5 9.7Our Approach 25.3 9.8 16.0

Our Approach + FT 24.6 10.4 16.3Our Approach + VGG 23.8 12.0 17.6

Human - 20.1 25.0

小さいほど ( ・∀・ ) イイ !! 大きいほど ( ・∀・ ) イイ !!

Page 18: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

評価結果 (Sentence Generation)Flickr 8K Flickr 30K MS COCO Val MS COCO Test

PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BLEU METEOR CIDEr

RNN 17.5 4.5 10.3 23 6.3 10.7 16.9 4.7 9.8 - - -

RNN+IF 16.5 11.9 16.2 20.8 11.3 14.3 13.3 16.3 17.7 - - -

RNN+IF+FT 16 12 16.3 20.5 11.6 14.6 12.9 17 18 - - -

RNN+VGG 15.2 12.4 16.7 20 11.9 15 12.6 18.4 19.3 18 19.1 51.5

Our Approach 16.1 12.2 16.6 20 11.3 14.6 12.6 16.3 17.8 - - -Our Approach +

FT 15.8 12.4 16.7 19.5 11.6 14.7 12 16.8 18.1 16.5 18 44.8Our Approach +

VGG 15.1 13.1 16.9 19.1 12 15.2 11.6 18.8 19.6 18.4 19.5 53.1

Human - 20.6 25.5 - 18.9 22.9 - 19.2 24.1 21.7 25.2 85.4

RNN に画像特徴量 (IF) を入力RNN に画像特徴量 (IF) を入力し、学習時に逆伝播でさらにチューニ

ングIF(CNN) の代わりに VGG を画像特徴量として使用

Page 19: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

評価結果 (3) Flickr 8KSentence Retrieval Image Retrieval

R@1 R@5 R@10 Med r R@1 R@5 R@10 Med rRandom Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500

SDT-RNN [38] 4.5 18 28.6 32 6.1 18.5 29 29DeViSE [12] 4.8 16.5 27.3 28 5.9 20.1 29.6 29DeepFE [20] 12.6 32.9 44 14 9.7 29.6 42.5 15

DeepFE+DECAF [20] 5.9 19.2 27.3 34 5.2 17.6 26.5 32RNN+VGG 8.9 25.7 38.7 20.5 6.5 17.3 28.4 25

Our Approach (T) 9.6 29.1 41.6 17 7 23.6 33.6 23Our Approach (T+I) 9.9 29.2 42.4 16 7.3 24.6 36 20

[16] 8.3 21.6 30.3 34 7.6 20.7 30.1 38RNN+VGG 7.7 23 37.2 21 6.8 24 33.9 23.5

Our Approach (T) 8.1 24.4 39.1 19 7.4 25 37.5 21Our Approach (T+I) 8.6 25.9 40.1 17 7.6 24.9 37.8 20

M-RNN [28] 14.5 37.2 48.5 11 11.5 31 42.4 15RNN+VGG 14.4 37.9 48.2 10 15.6 38.4 50.6 10

Our Approach (T) 15.2 39.8 49.3 8.5 16.4 40.9 54.8 9Our Approach (T+I) 15.4 40.6 50.1 8 17.3 42.5 57.4 7

Page 20: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

評価結果 (4) Flickr 30KSentence Retrieval Image Retrieval

R@1 R@5 R@10 Med r R@1 R@5 R@10 Med rRandom Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500

SDT-RNN [38] 4.5 18.1 29.2 26 6.7 21.9 32.7 25DeViSE [12] 16.4 40.2 54.7 8 10.3 31.4 44.5 13DeepFE [20] 10.2 26.9 36.7 22 7.6 21.3 31.4 27

Our Approach (T) 11.3 30.1 43.2 16 8.2 24.7 37 22Our Approach (T+I) 11.9 32.9 45.1 14 8.4 25.7 36.8 21

[16] 18.4 40.2 50.9 10 12.6 31.2 41.5 16RNN+VGG 14.9 36.7 52.1 11 15.1 41.1 54.1 9

Our Approach (T) 15.8 42 57.4 9 17.7 44.9 57.2 7.5Our Approach (T+I) 16.6 42.5 58.9 8 18.5 45.7 58.1 7

Page 21: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

生成結果

Page 22: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

生成例(失敗含む)

Page 23: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

まとめ• 画像からキャプション生成、もしくはクエリか

ら画像選択を 1 つの NN を使って実現した• 従来のクエリを行う NN は、文章と画像の特徴量を

同じ空間に投影するだけで、同じ NN から生成しているのとは違う

• 使用された単語を LSTM として常に入力することで、性能を向上させた

Page 24: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

今後の展望• 以下の 2 つを同時に推定するのでなく順番に推

定すると性能が向上するかも知れない• 画像中に何が写ってるか (object)• Object の関係はどうなっているか

• 位置関係を表す words は不得意な傾向にある• 本当(?)

Page 25: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

おまけ• 前回の皆川さんの発表 “ Show and Tell: A Newral

Image Caption Generator” との違い• RNN を使ってキャプション生成• 画像を NN にかけた結果を入力する• 評価実験に PASCAL VOC,Flicker8K,Flicker30K およ

び MSCOCO を使用• 生成されたキャプションの評価に

BLEU 、 METEOR 、 CIDER を使用

Page 26: Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

差分• 本手法はキャプション生成だけでなく、説明文

から画像特徴量を復元できる• 画像特徴量でなく文字の出現頻度を LSTM とし

て用いる