[論文紹介] learning generative models with visual attention (nips2014)

2015/01/23

NIPS2014読み会Learning Generative Models with Visual Attentionby Yichuan Tang, Nitish Srivastava, Ruslan Salakhutdinov

ヤフー株式会社

山本浩司

P2 概要

•  特定の領域への注視(attention)のメカニズムを利用した画像の生成モデル

•  顔の位置が未知の大きな画像から顔の位置を特定

•  画像全体ではなく、顔だけをモデリング

P3 背景

•  画像を扱う生成モデル•  Restricted Boltzmann Machine, Deep Belief Net[1], 等•  物体の一部が隠れているときに識別モデルより有利

•  問題点•  高解像度画像では計算量が大きく、スケールするのが難しい•  画像内のどこに物体があるかがわからない先行研究はラベル付きデータが必要

•  ラベルを得るのは高コスト• 膨大なラベルなしデータが使えない

P4 提案手法

•  大きな画像での顔の領域を推定•  顔の位置は未知•  画像内の顔に関係する領域を探す•  無関係な領域を無視できる

•  Gaussian Deep Belief Net(GDBN)ラベル(顔の位置情報)なし画像のデータセットから顔の生成モデルを学習

•  ConvNet (畳み込みネットワーク)顔を探す位置のパラメータを学習

P5 手法の全体像

•  GDBN: 大きな画像内で探す顔を生成・更新•  ConvNet: 顔にマッチする領域を探す探そうとする顔と、現在の注目領域から

顔

GDBN

位置合わせパラメータ

位置合わせパラメータを更新

顔を更新

注目領域

注目領域（青枠）

•  注目領域は位置合わせパラメータで決まる

P6 ConvNet (畳み込みネットワーク)

•  位置合わせ用パラメータの良い初期値の発見に使用(Approximate inference)

•  入力：•  GDBNの生成した顔•  画像内の現在の注目領域

•  出力：•  新たな位置合わせパラメータ

GDBN

注目領域(72x72)

位置合わせパラメータ

顔画像(24x24)

P7 Approximate inference

ConvNetで位置パラメータの良い初期値を発見

DBN

現在の注目領域

更新後のパラメータ

P8 Gaussian Deep Belief Net(GDBN)

•  顔の生成モデル•  画像内で探す顔を生成•  位置合わせ用パラメータで注目領域(顔を探す位置)を決め、マッチする領域を探す

GDBN位置合わせパラメータ

注目領域

顔画像(24x24)

P9 Gaussian Deep Belief Net(GDBN)

•  Gaussian RBM[22]を2つ重ねたもの

可視層の分布がガウス分布平均が隠れ層からの活性で決まる

GDBN

Gaussian RBM隠れ層

接続の重み

可視層

P10 推定

•  入力画像に対し、　　　　　　を計算したい•  顔v、位置合わせパラメータuの分布

•  事後分布が複雑で扱いづらいためギブスサンプリングで交互に変数を更新

•  位置パラメータuの初期値決定に、ConvNetによるapproximate inferenceを実行

P11 推定の流れ

•  Step1(初期化): 位置合わせパラメータをランダムに初期化顔　　は全データの平均顔

•  Step2(位置パラメータ更新): と注目領域をConvNetの入力とし、新たなを出力　(approximate inference)　　　

•  Step3: （顔の更新）:GDBNのギブスサンプリング•  Step4: 新たな顔　　　と注目領域　　　で再度approximate inference

Approximate inference Approximate inference

ギブスサンプリング初期化

P12 ギブスサンプリング

•  顔画像　　のサンプリング：　

DBNからの影響：注目領域からの影響：画像に写った顔の影響を受ける

•  位置パラメータのサンプリング：

顔とマッチする領域の確率が高い

= −

P13 学習

•  モンテカルロベースのEMアルゴリズム•  E-step:ギブスサンプリング(前述) 事後分布から , , ,　　をサンプリング　　

•  M-step:サンプルを学習データとしてGDBN、ConvNetのパラメータを更新

•  ConvNetはラベル（目と口の位置）付き画像でpretrainしておく

P14 実験

•  Caltechデータセットを使用•  最初の4ステップでapproximate inferenceその後、ハミルトニアンモンテカルロ(HMC)[28]で位置パラメータを調整

•  黄枠が初期位置、ステップ経過につれて青枠で表示•  Approximate inferenceがすばやく位置パラメータの良い初期値を発見できている

P15 顔位置推定精度

•  わずかなステップ数で精度が収束

•  最新のテンプレートマッチング (OpenCV2.4.9)と比較しても遜色がなく、見るウインドウ数が少なくてすむ

P16 曖昧性があるときの推定

•  2つの画像を連結して実験•  初期位置が同じでも顔vの違いによって、注目領域の移動が変わる

P17 まとめ

•  顔の位置が未知(ラベルなし)の大きな画像から顔を生成的に学習

•  ConvNetを利用し特定の顔を探索•  見るのが画像の一部のみ. 計算量を軽減

情報開示先ラベルを入力してください

ありがとうございました

[論文紹介] learning generative models with visual attention (nips2014)

Technology