論文紹介:ambient sound provides supervision for visual learning(cv勉強会eccv2016読み会)

29
論文紹介 Ambient Sound Provides Supervision for Visual Learning 2016/12/3 @CV勉強会 酒井 俊樹

Upload: toshiki-sakai

Post on 06-Jan-2017

395 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

論文紹介Ambient Sound Provides Supervision for

Visual Learning2016/12/3 @CV勉強会

酒井 俊樹

Page 2: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

自己紹介

名前:酒井 俊樹

所属:NTTドコモ サービスイノベーション部

仕事:画像認識API/サービスの研究開発

● 局所特徴量を用いた画像認識https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol23_1/vol23_1_004jp.pdf

● Deep Learningを用いた画像認識https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol24_1/vol24_1_007jp.pdf

● 画像認識APIhttps://dev.smt.docomo.ne.jp

本発表は個人で行うものであり、所属組織とは関係ありません。 2

Page 3: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

論文概要

Ambient Sound Provides Supervision for Visual Learning

● 著者:Andrew Owens et al.(MIT)

概要

● 画像データを収集する際の”教師ラベル作成”の手間を軽減したい

● 動画データに付いている音声情報を教師信号の代わりに利用○ 画像中のオブジェクトやシーンに反応するようなニューロンが学習された

○ 他の教師なし学習手法と同程度もしくは上の Performanceの学習が可能に

3

Page 4: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

画像認識におけるDeep Learning● Deep Learning

○ 2012年以降、画像認識分野で用いられる機械学習技術

○ 画像+教師ラベルを入力として画像分類、回帰、物体検出などのタスクを学習

○ 学習データから、タスク遂行のための特徴量抽出もデータから学習

○ ☹学習に多量のデータが必要

● Deep Learningベースの画像特徴量○ 学習したDeep Learningのネットワークの中間層の活性を画像特徴量として用いる事ができる

(http://deeplearning.net/tutorial/lenet.htmlより)

(A tutorial on deep learning at icml 2013より)4

Page 5: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

Unsupervised Learning Methods● 人手による教師データは、有用だが高コスト

→教師なし学習の手法が検討されてきた○ 教師データがなくても、Deep Learningネットワーク内部の「特徴量」は学習できる

● Self Supervision/ natural supervision○ 自然に得られる /付随して得られる信号を教師データとして、予測問題を学習し、

画像特徴量を得る

○ 例1)egomotion[1]

■ スマホのジャイロセンサー等で記録できる

カメラ自身の動きを、連続して撮影した

2枚の画像から予測

5

Page 6: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

Unsupervised Learning Methods● 例2)Patch base[4]

○ 画像から切り取ったパッチ間の

位置関係を予測する

6

● 例3)Tracking[35]○ 教師なしのトラッキング手法でビデオ内の

オブジェクトをトラッキング

○ 同じビデオ内のブジェクトと、

他のビデオから得られたオブジェクト

前者の方が距離が近くなるようにCNNを学習

Page 7: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

本論文のアイディア

● 音声情報をnatural supervisionの教師データとして用いる○ 画像が撮影された際の音声は、画像に関連する情報を持っている

■ 車の騒音→車がいることがわかる

■ 話し声→人がいっぱいいる場所 /カフェ

○ 画像から音声を予測する学習器は、内部的に

オブジェクトやシーンを構成する要素を学習していると考えられる

○ 画像のTransformationに対して、音声信号は独立している

■ 照明条件の変化や、カメラの角度などに影響を受けない

音声情報はYouTubeのビデオ等、動画データを集めれば、

自然に付いているもの

人の話し声→人がいる

波の音/風の音→海沿いの外

7

Page 8: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

目標

● 以下を示す

○ 画像を入力として音声信号の予測タスクで得られた

特徴量が、物体 /シーンの認識に有用であること

○ 学習された特徴量が、特に画像中の物体に

特異的に反応すること

■ シーン認識の学習をした networkのニューロンが、

object detectorになっていることを

先行研究が示している

8

特徴量として用いる

Page 9: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声x画像(動画)の先行研究

● 動画から、直接音声を予測する先行研究[30]○ ドラムスティックで叩いている映像から、叩く音を予測する

○ これは、視覚的に予測できる音だけを予測することに特化している

○ https://youtu.be/JpZUZ9ZDECE○

● 音源の定位

● 画像と音声の同期

9

Page 10: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号を利用する上での課題

● 視覚情報と音声情報はルーズにしか関係してない○ 画像上に写っていないものが音源の可能性がある

○ 画像と音声のタイミングを取ることが難しい

(音声信号のサンプルをhttp://www.ykw.elec.keio.ac.jp/suuri.htmlより)

?

10

Page 11: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

● Sound Textureを利用(McDermott and Simoncelli, 2011)○ 数秒間の音声の要約情報 (今回は3.75sec)

11

3つの特徴量

Page 12: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

1. バンドパスフィルタにかける○ バンドパスフィルタ

■ 特定の周波数帯の信号だけを取り出す filter○ 周波数帯の異なる32個のバンドパスフィルタを利用

○ ヒトの蝸牛管の受容体のレスポンスを模す

(https://ja.wikipedia.org/wiki/耳より)

12

(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/private/mcdermottCasa11.pdfより)

バンドパスフィルタ

Page 13: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

● Cochleagramが得られる

13

Page 14: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

2. 各フィルタの包絡線(envelope)を求める

○ 特定の周波数帯の信号だけを取り出す filter○ 振幅変調の逆を行うイメージ

○ ヒルベルト変換で求める

14(https://ja.wikipedia.org/wiki/振幅変調より)

振幅変調

(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/private/mcdermottCasa11.pdfより)

Page 15: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

15

Page 16: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

3. 以下の4つの特徴量を求め、結合

a. 各周波数チャネルのenvelopeごとに

もう一度バンドパスフィルタ

(modulation filter)をかける○ 包絡線の変調の周波数成分を取り出す

○ modulation filterは0.5to200Hzの間で

10個(logスケール上で均等な幅に )○ envelope数 x modulation filter数の出力

○ それぞれ二乗平均を取る

(modulation power)

16

Page 17: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

音声信号の特徴量化

3. 以下の4つの特徴量を求め、結合

b. 各周波数チャネルのenvelopeごとに平均と分散を計算

・marginal moment

・各周波数成分の強度と変化の大きさ

c. 各周波数チャネルごとにピアソンの相関係数を求める

・各周波数成分間の相関

d. 各envelopeの強度のmedianを取る→normを取る

17

Page 18: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

画像から音声を予測する

● 入力は「動画」ではなく「画像」

○ 学習した特徴量を、「画像」認識タスクに転用することを目指して

● 音声特徴量そのものを予測するのではなく、分類課題として学習○ 既存のオブジェクト分類やシーン分類のモデルと比較するため

18

● clustering audio features○ 音声情報でクラスタリング

→クラスタの番号を予測する分類

● Binary coding model○ 各sound特徴量を30の主成分に分解

○ 主成分の値を、binary codeに変換

○ 複数のカテゴリに属しているような状

(https://ja.wikipedia.org/wiki/主成分分析より)

Page 19: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

実験

● 学習データ○ 360,000 video from flickr dataset○ 各ビデオから10frameずつ取り出す→1.8M traing images

● Deep Learningのネットワーク○ Caffenet (AlexNetの変形)○ mini batch: 256

○ 320,000 iter

19

Page 20: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:conv層のニューロンの可視化

● conv5層の出力を元に、receptive fieldを可視化○ receptive field: 各ニューロンが画像上のどこに反応しているか

20

Page 21: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

21

Page 22: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

22

Page 23: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:conv層のニューロンの可視化

● conv5 layerの出力を元に、receptive fieldを可視化○ receptive field: 各ニューロンが画像上のどこに反応しているか

○ 利用した手法 : synthetic visualization■ 200,000枚の画像をテストセットして利用

■ 各neuronが最も反応する画像を 60枚ずつ抽出

■ 60枚中60%について、同じobjectに反応していたら、object detectorとする

○ 提案手法では91/256がobject detectorだった

23

Page 24: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:conv層のニューロンの可視化

● 各ニューロンが反応したオブジェクの名前をsun databaseを元につけてみる

24

シーンを認識する教師あり学習のタスクの方が、detectorは多く学習された

他の教師なし学習手法よりはdetectorが多く学習された

*は特異的な音を出すオブジェクト

Page 25: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:conv層のニューロンの可視化

● 実際にオブジェクトに関連する音声が入っている事を確認○ 各object detectorについて、

■ ニューロンが反応する動画、 30clipを視聴

■ そのニューロンがselectiveなオブジェクトの音がしているかを調べた

25

Page 26: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:学習した特徴量の利用

● 物体認識

○ データ:PASCAL VOC○ CNNのpool5, fc6, fc7を特徴量として利用

○ global max poolingも実施

(全conv layerについて、画像上の位置の同じ

ニューロンをmax poolingした特徴量) ○ 特徴量をLinear SVMにかけて予測

26

● シーン認識

○ データ:SUN397○ Soundのmodel間の差異は縮小

・教師あり>教師なし

・(Sound)binary > cluster > spect※spectは、画像撮影時の音声スペクトラムを直接学習した場合→特徴量化の効果が示せた

・(教師なし)sound>他の手法

Page 27: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

27

Page 28: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

結果:学習した特徴量の利用

● Fast R-CNNの事前学習に使ってみた○ 教師ありの手法が最も良かった

○ 教師なし学習の中では

■ Tracking(Motion)とは同程度の精度

■ Patch baseが最も良かった

● 音声ベースのクラスタと画像ベースのクラスタ、教師データとして

優れているのはどちらか(p.25の図中Texton-CNN)○ visual texton histogramsを使ってクラスタリング

○ 音声ベースの方がシーン認識精度、オブジェクト認識精度が上

■ 画像ベースの textonではlow lavelなlabelingしか学習できない?

■ 音声を使うと、visual transformationに関係ない教師信号になる

28

Page 29: 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

まとめと所感

● 画像と音声信号を元に、CNNを学習する方法を提案

● 動画データであれば、音声信号は多くの場合付いているという点で、

利用できる場面が多い

● やはり教師あり学習で行った特徴量表現とは差がある

29