22 deep visualization - cybernet · 1 deep...

1

Deep Visualization- ディープラーニングの

仕組みを探る可視化技術

2016.11.25

白山晋（しらやますすむ）

東京大学大学院

工学系研究科システム創成学専攻

E-mail: [email protected]

第22回ビジュアルカンファレンス

2

ディープラーニングはそれまでのニューラルネットワークの欠点を補う形で提案され，よく知られているように画像認識や音声認識などで高い性能が示されている．また，ニューラルネットワークが適用されてきた分野，領域，あるいは対象を中心として，ディープラーニングへの置き換えが進み，高精度化，効率化に寄与したという報告も多くなされている．しかし，得手不得手があることも明らかにされ，適切な教師データの取得・生成，（問題依存ではあるが）膨大な計算時間，パラメタ選択の難しさなどが指摘されている．中でも，「高い性能を示す理由が明らかでない」という点が問題になっている．「使ってみたらうまくいく．しかし，なぜ？」ということである．これに対して，ディープラーニングの仕組みを探る研究が，理論的に，また中味の詳細な分析によって行われている．後者の一つの方法がDeep Visualizationである．本講演では，はじめに，ディープラーニングによる画像認識の方法について説明し，いくつかの課題を示す．次に，Deep Visualizationによって，ディープラーニングの仕組みに関して，何がどこまで明らかにされつつあるかを紹介する．

概要

3

機械学習

・「統計的手法」，「進化計算」，「条件付け：報酬と罰」に基づく学習器

人工知能と異なる位置付けをする場合もある

・人工知能を実現するためのアルゴリズム全般機械学習 ⊆ 人工知能 or 機械学習 ≒ 人工知能

・「データの背後に潜む知識を自動的に発見する技術」：東大・杉山将

a) 教師付き学習b) 教師なし学習

c) 強化学習d) 転移学習組み合わせの研究も多い

回帰と分類

4

クラス分類

画像同士の比較，類似度・非類似度に基づく分類が基本．ただし，一般的には直接的な比較はせず，特徴量を用いる．

00.010.020.030.040.050.060.070.08

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 490

0.010.020.030.040.050.060.070.08

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49

(ex)輝度値のヒストグラム

Images from ImageNet (http://www.image-net.org)

画像特徴点を利用した同一（or 類似）画像の抽出 ※

※画像中のSIFT特徴点の直接的な対応付けでなく，特徴点（特徴量）の集まりを低次元の代表的な特徴ベクトルで表し，その特徴ベクトル間の類似度を求めることが多い

6

教師なし学習によるクラス分類

・クラスタリングの方法を用いる・クラスの数は前もって与えることが多いただし，情報量等で適した数が求められる場合もある

・ラベルやタグ付けは不要である．ただし，クラスのラベル付けは自動ではない

・用いる特徴量，クラスタリングの方法で結果は大きく変わる

C1 C2 C3 C4

教師付き学習によるクラス分類

・ラベルやタグ付けが必要である・用いる特徴量，学習の方法で結果は多少変わる

犬

犬

車

車

猫

猫

猫

人

人

人大熊猫

教師付きデータで学習

猫！学習器でクラス分類

8Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”

ILSVRC (Imagenet Large Scale Visual Recognition Challenge)

9

ImageNet http://www.image-net.org/

10

ImageNetプロジェクトフェイフェイ・リー（Fei-Fei Li）TEDから

・2007年にプリンストン大学カイ・リーと開始・10億枚近い画像をダウンロード・アマゾン・メカニカル・ターク（クラウドソーシング）・167カ国の５万人近い作業者が画像を整理しラベル付け

・2009年日常的な英語を使って 2万2千のカテゴリに分類1500万枚の画像のデータベースを完成(ex) ネコの画像は 6万2千点以上

11

ILSVRC Task 1（分類） 2012,2013

Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”

入力学習器

GiantPanda

SteelDrum

ScaleDog

0

8.0

1.00

出力

12

Output:ScaleT‐shirt

Steel drumDrumstickMud turtle

○ ×Output:ScaleT‐shirt

Giant pandaDrumstickMud turtle

分類結果


Task 2（分類と位置推定）, 2012～2015

Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis:what have we done, and where are we going?, ICCV2013”

○Folding chair

Persian cat

Loud speakerSteel

drumPicket fence

Output（正解）

×Folding chair

Persian cat

Loud speakerSteel

drumPicket fence

Output (分類OK，位置NG)

×Folding chair

Persian cat

Loud speaker

Picket fence

King penguin

Output (分類NG，位置OK)

Steel drum

14新エネルギー・産業技術総合開発機構，TSC Foresight Vol.8, 2015

15

ニューラルネットワーク

ねこ猫

・・・

・・・・・・・・・・・・・・・・・・

・・・ 15 70 120 180 ・・・

・・・ 50 10 20 200 ・・・

・・・ 150 100 5 60 ・・・

・・・・・・・・・・・・・・・・・・

・・・・・・・・・・・・・・・・・・

・・・

・・・

?

基本原理を知る

多クラス分類（教師付き）

・・・・・・・・・・・・・・・・・・

・・・ 60 50 30 65 ・・・

・・・ 150 120 20 12 ・・・

・・・ 200 150 120 55 ・・・

・・・・・・・・・・・・・・・・・・

・・・・・・・・・・・・・・・・・・

{ (x(1),d(1)) ,..., (x(n),d(n)),..., (x(N),d(N))}

人

猫

車

犬

0

0

01

)1(d

訓練データ

65305060

)1(x

{(x(2),d(2)), (x(3),d(3)) , (x(4),d(4)) , (x(5),d(5)) ,...}

Images from ImageNet (http://www.image-net.org)

直接入力

17

N

nn

nnIn

EE

ydwwwwE

1)(

2)()(210)( )(),...,,,(

i

nn

i

In

wyd

wwwwE

2)()(21)( )(),...,,(

ただし，多クラス分類の場合は交差エントロピー

min1

)(

N

nnEE

最急降下法

正解と出力から誤差関数（損失関数）を作り，最小化

18

11

x1

x2

)2(1s

)2(1y

)2(2s )2(

2y

)1(21w

)1(22w

)1(11w

)1(12w

)1(01w

)1(02w

)2(21w

)2(22w

)2(11w

)2(12w

)2(01w

)2(02w

)3(1s

)3(1y

)3(2s )3(

2y

誤差逆伝播 Rumelhart,D.E.,Hinton,G.E.,and Williams R.J. (1986)

)2(2s )2(

2y )3(1s

)3(1y E

)3(2s )3(

2y

)1(22w )2(

21w

)2(22w

19

誤差逆伝播 Rumelhart,D.E.,Hinton,G.E.,and Williams R.J. (1986)

順方向の伝播計算の後，

)('})({)( )(

1

)()()( Cj

K

k

Djk

Dk

Cj sfw

sE

sE

)()()( )( U

iCjC

ij

ysE

wE

)(Uiy

)(Cijw

)(Cjs

)(1

Cjs

)(1

Djkw

)(Djkw

)()( Dks

E

)(1)( D

ksE

)(

1C

jiw )(

1U

iy

重みを修正して誤差を最小化

min1

)(

N

nnEE

)()(

)1()()( C

ij

Cij

Cij w

Eww

21

（補足）

交差エントロピー（Kクラス分類）

N

n

K

knkn ydE

k1 1

);(log)( wxw

活性化関数

),0max()1log()( sesf s

ReLU (Rectified Linear Unit) [Nair,Hinton 2010]

11

x1

x2

xi

L=1 L=2 L=3

入力層中間層（隠れ層）出力層

)2(1s

)2(1y

)2(2s )2(

2y

)2(js )2(

jy)1(

ijw

)1(2iw

)1(1iw

)1(21w

)1(2 jw

)1(22w

)1(1 jw

)1(11w

)1(12w

)1(01w

)1(0 jw

)1(02w

)2(jkw

)2(2jw

)2(1jw

)2(21w

)2(2kw

)2(22w

)2(1kw

)2(11w

)2(12w

)2(01w

)2(0kw

)2(02w

)3(1s

)3(1y

)3(2s )3(

2y

)3(ks )3(

ky

M1=I M2=J

表記の簡素化

23

)( )()(

)1()1()1()(

LL

LLLL

f sybyWs

)( )()(

)1(

0

0

02

01)1(

2

1)1(

21

21

222212

112111)(

2

1

11

1

1

1

Lj

Lj

L

M

j

L

M

j

L

MMiMMM

jMijjj

Mi

MiL

M

j

sfy

w

w

ww

y

y

yy

wwww

wwww

wwwwwwww

s

s

ss

LLLLLLL

L

L

L

L

24

js jy

1s 1y

2Ms2My

・・・

・・・

js jy

1s 1y

3Ms3My

・・・

・・・

jx

1x

1Mx

・・・

・・・

L=1 L=2 L=3

W (1)

b (1)

W (2)

b (2)x y

L=1 L=2 L=3

W (1)

b (1)

W (2)

b (2)x(n)

y,

d(n)

M1 M2

M3

{(x(1),d(1)),..., (x(n),d(n)),...,(x(N),d(N))}

訓練データ

基本的な考え方は同じ・重みを変えて誤差関数を小さくする・そのために勾配法を使う

2626

猫 !

・・・・・・・・・・・・・・・・・・

・・・ 15 70 120 180 ・・・

・・・ 50 10 20 200 ・・・

・・・ 150 100 5 60 ・・・

・・・・・・・・・・・・・・・・・・

・・・・・・・・・・・・・・・・・・

L=1 L=2 L=3

W (1)

b (1)

W (2)

b (2)

M1 M2

M3M1=40000

人

猫

車

犬

0

1

00

y

200x200

学習後の予測

L=1 L=2 L=3

W (1)

b (1)

W (2)

b (2)x y

M1 M2

M3 M3

s(3)

猫

28

M1 M2

M3

)3(

)3(

bW

)2(

)2(

bW

)1(

)1(

bW

)1()(ny )2(

)(ny )1()(N

ny

MN

・・・

単純に多層にすればよいか

)(nx

x(n)

前処理

FC分類器

後処理分類器

y,

d(n)

適用対象に対してどのように設計するか

ネットワークの設計

30

http://free-designer.net

外側膝状体（がいそくしつじょうたい）

LGN(Lateral Geniculate Nucleus)

前頭葉

頭頂葉

側頭葉

後頭葉

視覚野

from Wikipedia

ねこ猫視床

視覚認知の機構を利用

前処理

31

V1

V2 V3

V4

V2V3LGN

網膜

V1第１次視覚野

光 -> 神経網膜 ->視神経 -> LGN -> V1 -> V2 -> …

光

理研報道発表資料2011-04-07（図1）

網膜

受容野

理研報道発表資料2011-04-07（図1）

視覚の特性を利用

光

CNN（Convolution Neural Network：畳み込みニューラルネットワーク）

視覚刺激への反応1

x

G(σ1)

G(σ2)

興奮性領域

抑制領域

),,(),,(),,(2

1),,(

111

22

2

22

yxGyxGyxDoG

eyxGyx

受容野の機構を模擬する

中心

周辺LoGDoG

yxGyxLoG

),,(

),,(2

視神経 -> LGN

34

異なるσの平滑化画像の差分（引き算）

－

1

1

入力画像 DoG画像

視覚刺激への反応1のモデル

Gabor filter※

LGN -> V1

}{),,( 2)sincos()2

)((

2

2

,

2

2

222

eeekyx yxik

yxk

k

※いくつかのものがある．ここでは，細井聖,瀧川えりな:顔画像による自動人種推定技術,OMRON TECHNICS Vol.44 No.1（通巻149号）2004

視覚刺激への反応2

方向

周波数

高低

[Hubel,Wiesel,1959]

視覚刺激への反応2のモデル

x(n)

前処理

FC分類器

後処理分類器

y,

d(n)

畳み込み層

フィルターを纏めたもの

畳み込み層（Conv）

640

480

(0,0)

(639,479)

ex. 640x480

xi,j

1

0

1

01,1

H

p

H

qpqqjpiij hxs

・・・

・・・

・・・

・・・

・・・

・・・

・・・

・・・

00h

10h

20h01h

11h

21h02h

12h

22h

H=3の場合

)( ijij sfy

39

中間層ユニット

畳み込み層（Conv）の例1

DoG

40

中間層ユニット

岡谷貴之：深層学習, 講談社, 2015, p.81から

畳み込み層（Conv）の例2

Gabor

41

プーリング層（Pool）

複雑型細胞のモデル

位置感度を若干低下させ，位置の変化に対して出力を一定にする

Pi,j

(i,j)

HpqPqpijij ysy

ij

),(max

最大プーリング(max pooling)

出力層ユニットは中間層ユニットのどれか一つでも活性化していると活性化する

出力層ユニット

42

最大プーリングの例

88 93 100 101

86 95 94 93

96 97 94 95

80 87 87 89

86 87 88 88 89 86 87 89 92 95 98 100 101 97 98 98

83 85 86 87 88 86 87 89 92 95 98 100 101 96 97 9781 83 85 86 87 89 90 91 93 94 96 97 98 93 94 9579 81 83 85 86 93 93 93 93 94 94 94 94 90 91 91

78 80 83 85 86 95 95 95 94 93 92 92 92 88 89 89

86 85 85 85 85 87 87 87 87 87 87 87 87 87 88 9077 77 78 78 78 89 89 89 89 89 89 89 89 89 90 9176 78 79 80 81 92 92 92 92 92 92 92 92 91 92 93

86 88 90 92 93 94 94 94 94 94 94 94 94 93 94 95

89 92 94 96 97 94 94 94 94 94 94 94 94 94 94 9582 84 85 87 87 92 92 92 92 92 92 92 92 93 93 9378 78 79 79 80 89 89 89 89 89 89 89 89 90 90 90

80 80 80 80 80 87 87 87 87 87 87 87 87 89 89 88

70 73 76 78 80 78 78 77 76 75 74 73 73 75 75 7666 68 70 71 72 69 70 70 70 70 70 71 71 76 77 7761 61 61 61 61 59 60 61 63 65 67 69 70 78 79 80

（H=4）

一部分

x(n)

y,

d(n)

44

W (1)

b (1)

W (2)

b (2)x

M1 M2

M3 M4

W (3)

b (3)

事前学習（プレトレーニング）収束性の向上・高速化

自己符号化器 (autoencoder)

x1

x2

xM )()( bWxxy fx

W,b

x(n)

x1

x2

xM

)()(

bWxxy

f

x

W,b bW ~,~

)~)(~(~)(ˆ

bbWxW

xx

ff符号化（encode）

復号化（decode）

x(n) x(n)

x̂

47

x(n)

M1 M2

)1(

)1(

~

~

b

W)1(

)1(

bW

M1

)(ˆ )(nxx

自己符号化器の繰り返し

min

)(ˆ

)~,~,,(

1

2

)()(

)1()1()1()1(

N

nnn

E

xxx

bWbW

48

x(n)

M1

)1(

)1(

bW

)1()(ny

M2

)( )1()(

)1()1()( bxWy nn f

49

M2

M3

M2

)(ˆ )1()(nyy

)2(

)2(

bW

)2(

)2(

~

~

b

W

min

)(ˆ

)~,~,,(

1

2)1()(

)1()(

)2()2()2()2(

N

nnn

E

yyy

bWbW

)1()(ny

50

M2

M3

)1()(ny

)2(

)2(

bW

)2()(ny

)( )2()1()(

)2()2()( byWy nn f

51

M3 M4

)3(

)3(

bW

※最急降下法がそうであるように，初期値がよいと収束は改善する．部分多様体構

造に分類しているとみなす考えもある．

M1 M2

M3 M4

)3(

)3(

bW

)2(

)2(

bW

)1(

)1(

bW

M4

)4(

)4(

bW

ファインチューニング（教師有り学習）

x(n)

y,

d(n)

ランダムに与える

{ (x(1),d(1)) ,..., (x(n),d(n)),..., (x(N),d(N))}

53

Output:ScaleT‐shirt

Steel drumDrumstickMud turtle

○ ×Output:ScaleT‐shirt

Giant pandaDrumstickMud turtle

分類結果


ILSVRC (Imagenet Large Scale Visual Recognition Challenge)

岡谷貴之：深層学習, 講談社, 2015, p.98

norm：正規化層（明るさ，コントラストの調整）fc：fully-connected層（ファインチューニング部に相当）

ILSVRC2012でのKrizhevskyらの畳み込みネットの構造

Krizhevsky,A.,Sutskever,I.,and Hinton,G.E.,NIPS,p.1106-1114,2012AlexNet

ディープラーニングを改めて概観すれば

人間の視覚系における認識までを模倣できる可能性は高い. 聴覚系にも同様の可能性がある

基本原理は単純前処理（フィルタ，つながり方など）が鍵に

x(n)y,

d(n)・・・

x(n)

y,

d(n)・・・

Deep Visualization

x(n)y,

d(n)Black Box ?

Deep VisualizationYosinski, J. et al: Understanding Neural Networks Through Deep Visualization, ICML DL Workshop paper, 2015

-> 学習機構の解明-> 未知の説明変数の抽出-> 同クラスの入力で活性化するニューロンを用いた類似性と非類似性の顕在化

-> 新たな映像の生成

フィルタ，および層間・層内のつながり方重み分布の意味付け入力，入出力に対する層間・層内の反応

58M1 M2

M3 M4

)3(

)3(

bW

)2(

)2(

bW

)1(

)1(

bW

)1()(ny )2(

)(ny )3()(ny

特徴量となりうるもの

未知の特徴量(説明変数）抽出の可能性

x(n)

x1

x2

xM x

W,b bW ~,~

x(n) x(n)

x̂

自己復号化器を例として

60

THE MNIST DATABASE of handwritten digitsY. LeCun, C. Cortes, C.J.C. Burges

x1

x2

xM x

W,b bW ~,~

28

28

M=784

)()( )1()(

)1()(

)1()( bxWxy nnn f

28x28 (= 784)

100

・・・

・・・

),...,,( )1(,784

)1(,2

)1(,1 jjj www

j

),...,,( )1(1,784

)1(1,2

)1(1,1 www)(,1 nx

)(,784 nx

)1()(,1 ny

)1()(, njy

)1()(,100 ny

),...,,( )1(100,784

)1(100,2

)1(100,1 www

62

)(784

2

1)1(

100,784100,100,2100,1

,784,,2,1

2,7842,2,22,1

1,7841,1,21,1)1(

)(100

2

1

n

j

i

jjijj

i

i

n

j

x

x

xx

wwww

wwww

wwwwwwww

s

s

ss

)(784

2

1)1(

100

2

1)1(

)(100

2

1

n

jj

n

j

x

x

xx

s

s

ss

w

w

ww

63

)1(W

28x28 (= 784)

100

・・・

・・・

)(,1ˆ nx

)(,784ˆ nx

)1()(,1 ny

)1()(, njy

)~)(~(~)(ˆ )1()1()(

)1()1()()( bbxWWxx nnn ff

)~,...,~,~( )1(784,1

)1(2,1

)1(1,1 www

)~,...,~,~( )1(784,

)1(2,

)1(1, jjj www

65

)1(~W

28x28 (= 784)

100

・・・

・・・

)1()(,

)1()(,

)()1(

)(,784)1(

,784)(,1)1(

,1)1(

)(,

njnj

nj

njnjnj

sy

xwxws

xw

)(,1 nx

)(,784 nx

)1()(, njy

)()( )1()(

)1()(

)1()( bxWxy nnn f

f (s) ～ max(0,s) ～ s（ReLU）

),...,,( )1(,784

)1(,2

)1(,1 jjj www

67

)(nx

)1(W

68

Deep Learning = Learning Hierarchical Representation

Feature visualization of convolutional net trained on ImageNet from [Zeiler & Fergus 2013]

？？？

69 )0,...,0,,,,,,0,...,0( )1(,2

)1(,1

)1(,

)1(,1

)1(,2 jjjjjjjjjj wwwww

Low-Level Feature（補足）

70

Yosinski, J. et al: Understanding Neural Networks Through Deep Visualization, ICML DL Workshop paper, 2015

71

drawNethttp://people.csail.mit.edu/torralba/research/drawCNN/drawNet.html

72

類似性と非類似性の顕在化

M1 M2

M3 M4

)3(

)3(

bW

)2(

)2(

bW

)1(

)1(

bW

)1()(ny )2(

)(ny )3()(ny

x(n1)

x(n2)

x(nK)

・・・

反応する部分を集約する

73

Nguyen, et al: Multifaceted Feature Visualization: Uncovering the Different Types of Features Learned By Each Neuron in Deep Neural Networks, arXiv:1602.03616, 2016

x(n)

y,

d(n)

特徴空間の抽出と利用

x(n) 前処理

FC分類器

後処理分類器

y,

d(n)

75

ディープラーニングの学習機構を理論的に解明するという研究はある．しかし，全般的には，未だにブラックボックスの状態といえる．

学習機構を知る上で，シナプス結合の重み分布，入力に対するニューロンの反応は重要な情報である．それを系統立てて示す方法として，Deep Visualizationが注目されている．

しかし，現状のものは直接的な可視化であり，特徴量（未知なる説明変数）の抽出という点で不十分である．

特徴空間に対する多変量データの可視化が重要になると考えられる．

22 deep visualization - cybernet · 1 deep...

Documents