[論文紹介] learning generative models with visual attention (nips2014)

18
2015/01/23 NIPS2014読み会 Learning Generative Models with Visual Attention by Yichuan Tang, Nitish Srivastava, Ruslan Salakhutdinov ヤフー株式会社 山本 浩司

Upload: koji-yamamoto

Post on 15-Jul-2015

2.411 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

2015/01/23

NIPS2014読み会Learning  Generative  Models  with  Visual  Attentionby  Yichuan  Tang,  Nitish  Srivastava,  Ruslan  Salakhutdinov

ヤフー株式会社

山本  浩司

Page 2: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P2 概要

•  特定の領域への注視(attention)のメカニズムを利用した画像の生成モデル

•  顔の位置が未知の大きな画像から顔の位置を特定

•  画像全体ではなく、顔だけをモデリング

Page 3: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P3 背景

•  画像を扱う生成モデル•  Restricted  Boltzmann  Machine,  Deep  Belief  Net[1],  等•  物体の一部が隠れているときに識別モデルより有利

•  問題点•  高解像度画像では計算量が大きく、スケールするのが難しい•  画像内のどこに物体があるかがわからない先行研究はラベル付きデータが必要

•  ラベルを得るのは高コスト• 膨大なラベルなしデータが使えない

Page 4: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P4 提案手法

•  大きな画像での顔の領域を推定•  顔の位置は未知•  画像内の顔に関係する領域を探す•  無関係な領域を無視できる

•  Gaussian  Deep  Belief  Net(GDBN)ラベル(顔の位置情報)なし画像のデータセットから顔の生成モデルを学習

•  ConvNet  (畳み込みネットワーク)顔を探す位置のパラメータを学習

Page 5: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P5 手法の全体像

•  GDBN:  大きな画像内で探す顔を生成・更新•  ConvNet:  顔にマッチする領域を探す探そうとする顔と、現在の注目領域から

GDBN

位置合わせパラメータ

位置合わせパラメータを更新

顔を更新

注目領域

注目領域(青枠)

•  注目領域は位置合わせパラメータで決まる

Page 6: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P6 ConvNet  (畳み込みネットワーク)

•  位置合わせ用パラメータの良い初期値の発見に使用(Approximate  inference)

•  入力:•  GDBNの生成した顔•  画像内の現在の注目領域

•  出力:•  新たな位置合わせパラメータ

GDBN

注目領域(72x72)

位置合わせパラメータ

顔画像(24x24)

Page 7: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P7 Approximate  inference

ConvNetで位置パラメータ          の良い初期値を発見

DBN

現在の注目領域

更新後のパラメータ

Page 8: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P8 Gaussian  Deep  Belief  Net(GDBN)

•  顔の生成モデル•  画像内で探す顔を生成•  位置合わせ用パラメータで注目領域(顔を探す位置)を決め、マッチする領域を探す

GDBN位置合わせパラメータ

注目領域

顔画像(24x24)

Page 9: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P9 Gaussian  Deep  Belief  Net(GDBN)

•  Gaussian  RBM[22]を2つ重ねたもの

可視層の分布がガウス分布平均が隠れ層からの活性で決まる

GDBN

Gaussian  RBM隠れ層

接続の重み

可視層

Page 10: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P10 推定

•  入力画像        に対し、      を計算したい•  顔v、位置合わせパラメータuの分布

•  事後分布が複雑で扱いづらいためギブスサンプリングで交互に変数を更新

•  位置パラメータuの初期値決定に、ConvNetによるapproximate  inferenceを実行

Page 11: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P11 推定の流れ

•  Step1(初期化):  位置合わせパラメータ        をランダムに初期化顔  は全データの平均顔

•  Step2(位置パラメータ更新):          と注目領域                  をConvNetの入力とし、新たな        を出力 (approximate  inference)   

•  Step3:  (顔の更新):GDBNのギブスサンプリング•  Step4:  新たな顔   と注目領域         で再度approximate  inference

 Approximate  inference Approximate  inference

ギブスサンプリング初期化

Page 12: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P12 ギブスサンプリング

•  顔画像    のサンプリング: 

DBNからの影響:注目領域からの影響:      画像に写った顔の影響を受ける

•  位置パラメータ        のサンプリング:

顔とマッチする領域の確率が高い

= −

Page 13: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P13 学習

•  モンテカルロベースのEMアルゴリズム•  E-step:ギブスサンプリング(前述)  事後分布から        ,          ,            ,      をサンプリング  

•  M-step:サンプルを学習データとしてGDBN、ConvNetのパラメータを更新

•  ConvNetはラベル(目と口の位置)付き画像でpretrainしておく

Page 14: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P14 実験

•  Caltechデータセットを使用•  最初の4ステップでapproximate  inferenceその後、ハミルトニアンモンテカルロ(HMC)[28]で位置パラメータ        を調整

•  黄枠が初期位置、ステップ経過につれて青枠で表示•  Approximate  inferenceがすばやく位置パラメータの良い初期値を発見できている

Page 15: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P15 顔位置推定精度

•  わずかなステップ数で精度が収束

•  最新のテンプレートマッチング  (OpenCV2.4.9)と比較しても遜色がなく、見るウインドウ数が少なくてすむ

Page 16: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P16 曖昧性があるときの推定

•  2つの画像を連結して実験•  初期位置が同じでも顔vの違いによって、注目領域の移動が変わる

Page 17: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

P17 まとめ

•  顔の位置が未知(ラベルなし)の大きな画像から顔を生成的に学習

•  ConvNetを利用し特定の顔を探索•  見るのが画像の一部のみ.  計算量を軽減

Page 18: [論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

情報開示先ラベルを入力してください

ありがとうございました