22 deep visualization - cybernet · 1 deep...
TRANSCRIPT
1
Deep Visualization- ディープラーニングの
仕組みを探る可視化技術
2016.11.25
白山 晋(しらやま すすむ)
東京大学大学院
工学系研究科システム創成学専攻
E-mail: [email protected]
第22回ビジュアルカンファレンス
2
ディープラーニングはそれまでのニューラルネットワークの欠点を補う形で提案され,よく知られているように画像認識や音声認識などで高い性能が示されている.また,ニューラルネットワークが適用されてきた分野,領域,あるいは対象を中心として,ディープラーニングへの置き換えが進み,高精度化,効率化に寄与したという報告も多くなされている.しかし,得手不得手があることも明らかにされ,適切な教師データの取得・生成,(問題依存ではあるが)膨大な計算時間,パラメタ選択の難しさなどが指摘されている.中でも,「高い性能を示す理由が明らかでない」という点が問題になっている.「使ってみたらうまくいく.しかし,なぜ?」ということである.これに対して,ディープラーニングの仕組みを探る研究が,理論的に,また中味の詳細な分析によって行われている.後者の一つの方法がDeep Visualizationである.本講演では,はじめに,ディープラーニングによる画像認識の方法について説明し,いくつかの課題を示す.次に,Deep Visualizationによって,ディープラーニングの仕組みに関して,何がどこまで明らかにされつつあるかを紹介する.
概要
3
機械学習
・「統計的手法」,「進化計算」,「条件付け:報酬と罰」に基づく学習器
人工知能と異なる位置付けをする場合もある
・人工知能を実現するためのアルゴリズム全般機械学習 ⊆ 人工知能 or 機械学習 ≒ 人工知能
・「データの背後に潜む知識を自動的に発見する技術」: 東大・杉山将
a) 教師付き学習b) 教師なし学習
c) 強化学習d) 転移学習 組み合わせの研究も多い
回帰と分類
4
クラス分類
画像同士の比較,類似度・非類似度に基づく分類が基本.ただし,一般的には直接的な比較はせず,特徴量を用いる.
00.010.020.030.040.050.060.070.08
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 490
0.010.020.030.040.050.060.070.08
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
(ex)輝度値のヒストグラム
Images from ImageNet (http://www.image-net.org)
画像特徴点を利用した同一(or 類似)画像の抽出 ※
※画像中のSIFT特徴点の直接的な対応付けでなく,特徴点(特徴量)の集まりを低次元の代表的な特徴ベクトルで表し,その特徴ベクトル間の類似度を求めることが多い
6
教師なし学習によるクラス分類
・クラスタリングの方法を用いる・クラスの数は前もって与えることが多いただし,情報量等で適した数が求められる場合もある
・ラベルやタグ付けは不要である.ただし,クラスのラベル付けは自動ではない
・用いる特徴量,クラスタリングの方法で結果は大きく変わる
C1 C2 C3 C4
教師付き学習によるクラス分類
・ラベルやタグ付けが必要である・用いる特徴量,学習の方法で結果は多少変わる
犬
犬
車
車
猫
猫
猫
人
人
人 大熊猫
教師付きデータで学習
猫!学習器でクラス分類
8Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”
ILSVRC (Imagenet Large Scale Visual Recognition Challenge)
9
ImageNet http://www.image-net.org/
10
ImageNetプロジェクトフェイフェイ・リー(Fei-Fei Li)TEDから
・2007年にプリンストン大学カイ・リーと開始・10億枚近い画像をダウンロード・アマゾン・メカニカル・ターク(クラウドソーシング)・167カ国の5万人近い作業者が画像を整理しラベル付け
・2009年日常的な英語を使って 2万2千のカテゴリに分類1500万枚の画像の データベースを完成(ex) ネコの画像は 6万2千点以上
11
ILSVRC Task 1(分類) 2012,2013
Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”
入力学習器
GiantPanda
SteelDrum
ScaleDog
0
8.0
1.00
出力
12
Output:ScaleT‐shirt
Steel drumDrumstickMud turtle
○ ×Output:ScaleT‐shirt
Giant pandaDrumstickMud turtle
分類結果
Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”
Task 2(分類と位置推定), 2012~2015
Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis:what have we done, and where are we going?, ICCV2013”
○Folding chair
Persian cat
Loud speakerSteel
drumPicket fence
Output(正解)
×Folding chair
Persian cat
Loud speakerSteel
drumPicket fence
Output (分類OK,位置NG)
×Folding chair
Persian cat
Loud speaker
Picket fence
King penguin
Output (分類NG,位置OK)
Steel drum
14新エネルギー・産業技術総合開発機構,TSC Foresight Vol.8, 2015
15
ニューラルネットワーク
ねこ猫
・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ 15 70 120 180 ・・・
・・・ 50 10 20 200 ・・・
・・・ 150 100 5 60 ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・
・・・
?
基本原理を知る
多クラス分類(教師付き)
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ 60 50 30 65 ・・・
・・・ 150 120 20 12 ・・・
・・・ 200 150 120 55 ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
{ (x(1),d(1)) ,..., (x(n),d(n)),..., (x(N),d(N))}
人
猫
車
犬
0
0
01
)1(d
訓練データ
65305060
)1(x
{(x(2),d(2)), (x(3),d(3)) , (x(4),d(4)) , (x(5),d(5)) ,...}
Images from ImageNet (http://www.image-net.org)
直接入力
17
N
nn
nnIn
EE
ydwwwwE
1)(
2)()(210)( )(),...,,,(
i
nn
i
In
wyd
wwwwE
2)()(21)( )(),...,,(
ただし,多クラス分類の場合は交差エントロピー
min1
)(
N
nnEE
最急降下法
正解と出力から誤差関数(損失関数)を作り,最小化
18
11
x1
x2
)2(1s
)2(1y
)2(2s )2(
2y
)1(21w
)1(22w
)1(11w
)1(12w
)1(01w
)1(02w
)2(21w
)2(22w
)2(11w
)2(12w
)2(01w
)2(02w
)3(1s
)3(1y
)3(2s )3(
2y
誤差逆伝播 Rumelhart,D.E.,Hinton,G.E.,and Williams R.J. (1986)
)2(2s )2(
2y )3(1s
)3(1y E
)3(2s )3(
2y
)1(22w )2(
21w
)2(22w
19
誤差逆伝播 Rumelhart,D.E.,Hinton,G.E.,and Williams R.J. (1986)
順方向の伝播計算の後,
)('})({)( )(
1
)()()( Cj
K
k
Djk
Dk
Cj sfw
sE
sE
)()()( )( U
iCjC
ij
ysE
wE
)(Uiy
)(Cijw
)(Cjs
)(1
Cjs
)(1
Djkw
)(Djkw
)()( Dks
E
)(1)( D
ksE
)(
1C
jiw )(
1U
iy
重みを修正して誤差を最小化
min1
)(
N
nnEE
)()(
)1()()( C
ij
Cij
Cij w
Eww
21
(補足)
交差エントロピー(Kクラス分類)
N
n
K
knkn ydE
k1 1
);(log)( wxw
活性化関数
),0max()1log()( sesf s
ReLU (Rectified Linear Unit) [Nair,Hinton 2010]
11
x1
x2
xi
L=1 L=2 L=3
入力層 中間層(隠れ層) 出力層
)2(1s
)2(1y
)2(2s )2(
2y
)2(js )2(
jy)1(
ijw
)1(2iw
)1(1iw
)1(21w
)1(2 jw
)1(22w
)1(1 jw
)1(11w
)1(12w
)1(01w
)1(0 jw
)1(02w
)2(jkw
)2(2jw
)2(1jw
)2(21w
)2(2kw
)2(22w
)2(1kw
)2(11w
)2(12w
)2(01w
)2(0kw
)2(02w
)3(1s
)3(1y
)3(2s )3(
2y
)3(ks )3(
ky
M1=I M2=J
表記の簡素化
23
)( )()(
)1()1()1()(
LL
LLLL
f sybyWs
)( )()(
)1(
0
0
02
01)1(
2
1)1(
21
21
222212
112111)(
2
1
11
1
1
1
Lj
Lj
L
M
j
L
M
j
L
MMiMMM
jMijjj
Mi
MiL
M
j
sfy
w
w
ww
y
y
yy
wwww
wwww
wwwwwwww
s
s
ss
LLLLLLL
L
L
L
L
24
js jy
1s 1y
2Ms2My
・・・
・・・
js jy
1s 1y
3Ms3My
・・・
・・・
jx
1x
1Mx
・・・
・・・
L=1 L=2 L=3
W (1)
b (1)
W (2)
b (2)x y
L=1 L=2 L=3
W (1)
b (1)
W (2)
b (2)x(n)
y,
d(n)
M1 M2
M3
{(x(1),d(1)),..., (x(n),d(n)),...,(x(N),d(N))}
訓練データ
基本的な考え方は同じ・重みを変えて誤差関数を小さくする・そのために勾配法を使う
2626
猫 !
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ 15 70 120 180 ・・・
・・・ 50 10 20 200 ・・・
・・・ 150 100 5 60 ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
L=1 L=2 L=3
W (1)
b (1)
W (2)
b (2)
M1 M2
M3M1=40000
人
猫
車
犬
0
1
00
y
200x200
学習後の予測
L=1 L=2 L=3
W (1)
b (1)
W (2)
b (2)x y
M1 M2
M3 M3
s(3)
猫
28
M1 M2
M3
)3(
)3(
bW
)2(
)2(
bW
)1(
)1(
bW
)1()(ny )2(
)(ny )1()(N
ny
MN
・・・
単純に多層にすればよいか
)(nx
x(n)
前処理
FC分類器
後処理分類器
y,
d(n)
適用対象に対してどのように設計するか
ネットワークの設計
30
http://free-designer.net
外側膝状体(がいそくしつじょうたい)
LGN(Lateral Geniculate Nucleus)
前頭葉
頭頂葉
側頭葉
後頭葉
視覚野
from Wikipedia
ねこ猫視床
視覚認知の機構を利用
前処理
31
V1
V2 V3
V4
V2V3LGN
網膜
V1第1次視覚野
光 -> 神経網膜 ->視神経 -> LGN -> V1 -> V2 -> …
光
理研報道発表資料2011-04-07(図1)
網膜
受容野
理研報道発表資料2011-04-07(図1)
視覚の特性を利用
光
CNN(Convolution Neural Network:畳み込みニューラルネットワーク)
視覚刺激への反応1
x
G(σ1)
G(σ2)
興奮性領域
抑制領域
),,(),,(),,(2
1),,(
111
22
2
22
yxGyxGyxDoG
eyxGyx
受容野の機構を模擬する
中心
周辺LoGDoG
yxGyxLoG
),,(
),,(2
視神経 -> LGN
34
異なるσの平滑化画像の差分(引き算)
-
1
1
入力画像 DoG画像
視覚刺激への反応1のモデル
Gabor filter※
LGN -> V1
}{),,( 2)sincos()2
)((
2
2
,
2
2
222
eeekyx yxik
yxk
k
※いくつかのものがある.ここでは,細井聖,瀧川えりな:顔画像による自動人種推定技術,OMRON TECHNICS Vol.44 No.1(通巻149号)2004
視覚刺激への反応2
方向
周波数
高低
[Hubel,Wiesel,1959]
視覚刺激への反応2のモデル
x(n)
前処理
FC分類器
後処理分類器
y,
d(n)
畳み込み層
フィルターを纏めたもの
畳み込み層(Conv)
640
480
(0,0)
(639,479)
ex. 640x480
xi,j
1
0
1
01,1
H
p
H
qpqqjpiij hxs
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
00h
10h
20h01h
11h
21h02h
12h
22h
H=3の場合
)( ijij sfy
39
中間層ユニット
畳み込み層(Conv)の例1
DoG
40
中間層ユニット
岡谷貴之:深層学習, 講談社, 2015, p.81から
畳み込み層(Conv)の例2
Gabor
41
プーリング層(Pool)
複雑型細胞のモデル
位置感度を若干低下させ,位置の変化に対して出力を一定にする
Pi,j
(i,j)
HpqPqpijij ysy
ij
),(max
最大プーリング(max pooling)
出力層ユニットは中間層ユニットのどれか一つでも活性化していると活性化する
出力層ユニット
42
最大プーリングの例
88 93 100 101
86 95 94 93
96 97 94 95
80 87 87 89
86 87 88 88 89 86 87 89 92 95 98 100 101 97 98 98
83 85 86 87 88 86 87 89 92 95 98 100 101 96 97 9781 83 85 86 87 89 90 91 93 94 96 97 98 93 94 9579 81 83 85 86 93 93 93 93 94 94 94 94 90 91 91
78 80 83 85 86 95 95 95 94 93 92 92 92 88 89 89
86 85 85 85 85 87 87 87 87 87 87 87 87 87 88 9077 77 78 78 78 89 89 89 89 89 89 89 89 89 90 9176 78 79 80 81 92 92 92 92 92 92 92 92 91 92 93
86 88 90 92 93 94 94 94 94 94 94 94 94 93 94 95
89 92 94 96 97 94 94 94 94 94 94 94 94 94 94 9582 84 85 87 87 92 92 92 92 92 92 92 92 93 93 9378 78 79 79 80 89 89 89 89 89 89 89 89 90 90 90
80 80 80 80 80 87 87 87 87 87 87 87 87 89 89 88
70 73 76 78 80 78 78 77 76 75 74 73 73 75 75 7666 68 70 71 72 69 70 70 70 70 70 71 71 76 77 7761 61 61 61 61 59 60 61 63 65 67 69 70 78 79 80
(H=4)
一部分
x(n)
y,
d(n)
44
W (1)
b (1)
W (2)
b (2)x
M1 M2
M3 M4
W (3)
b (3)
事前学習(プレトレーニング) 収束性の向上・高速化
自己符号化器 (autoencoder)
x1
x2
xM )()( bWxxy fx
W,b
x(n)
x1
x2
xM
)()(
bWxxy
f
x
W,b bW ~,~
)~)(~(~)(ˆ
bbWxW
xx
ff符号化(encode)
復号化(decode)
x(n) x(n)
x̂
47
x(n)
M1 M2
)1(
)1(
~
~
b
W)1(
)1(
bW
M1
)(ˆ )(nxx
自己符号化器の繰り返し
min
)(ˆ
)~,~,,(
1
2
)()(
)1()1()1()1(
N
nnn
E
xxx
bWbW
48
x(n)
M1
)1(
)1(
bW
)1()(ny
M2
)( )1()(
)1()1()( bxWy nn f
49
M2
M3
M2
)(ˆ )1()(nyy
)2(
)2(
bW
)2(
)2(
~
~
b
W
min
)(ˆ
)~,~,,(
1
2)1()(
)1()(
)2()2()2()2(
N
nnn
E
yyy
bWbW
)1()(ny
50
M2
M3
)1()(ny
)2(
)2(
bW
)2()(ny
)( )2()1()(
)2()2()( byWy nn f
51
M3 M4
)3(
)3(
bW
※最急降下法がそうであるように,初期値がよいと収束は改善する.部分多様体構
造に分類しているとみなす考えもある.
M1 M2
M3 M4
)3(
)3(
bW
)2(
)2(
bW
)1(
)1(
bW
M4
)4(
)4(
bW
ファインチューニング(教師有り学習)
x(n)
y,
d(n)
ランダムに与える
{ (x(1),d(1)) ,..., (x(n),d(n)),..., (x(N),d(N))}
53
Output:ScaleT‐shirt
Steel drumDrumstickMud turtle
○ ×Output:ScaleT‐shirt
Giant pandaDrumstickMud turtle
分類結果
Figures from “Russakovsky,O., et al :Detecting avocados to zucchinis: what have we done, and where are we going?, ICCV2013”
ILSVRC (Imagenet Large Scale Visual Recognition Challenge)
岡谷貴之:深層学習, 講談社, 2015, p.98
norm:正規化層(明るさ,コントラストの調整)fc:fully-connected層(ファインチューニング部に相当)
ILSVRC2012でのKrizhevskyらの畳み込みネットの構造
Krizhevsky,A.,Sutskever,I.,and Hinton,G.E.,NIPS,p.1106-1114,2012AlexNet
ディープラーニングを改めて概観すれば
人間の視覚系における認識までを模倣できる可能性は高い. 聴覚系にも同様の可能性がある
基本原理は単純前処理(フィルタ,つながり方など)が鍵に
x(n)y,
d(n)・・・
x(n)
y,
d(n)・・・
Deep Visualization
x(n)y,
d(n)Black Box ?
Deep VisualizationYosinski, J. et al: Understanding Neural Networks Through Deep Visualization, ICML DL Workshop paper, 2015
-> 学習機構の解明-> 未知の説明変数の抽出-> 同クラスの入力で活性化するニューロンを用いた類似性と非類似性の顕在化
-> 新たな映像の生成
フィルタ,および層間・層内のつながり方重み分布の意味付け入力,入出力に対する層間・層内の反応
58M1 M2
M3 M4
)3(
)3(
bW
)2(
)2(
bW
)1(
)1(
bW
)1()(ny )2(
)(ny )3()(ny
特徴量となりうるもの
未知の特徴量(説明変数)抽出の可能性
x(n)
x1
x2
xM x
W,b bW ~,~
x(n) x(n)
x̂
自己復号化器を例として
60
THE MNIST DATABASE of handwritten digitsY. LeCun, C. Cortes, C.J.C. Burges
x1
x2
xM x
W,b bW ~,~
28
28
M=784
)()( )1()(
)1()(
)1()( bxWxy nnn f
28x28 (= 784)
100
・・・
・・・
),...,,( )1(,784
)1(,2
)1(,1 jjj www
j
),...,,( )1(1,784
)1(1,2
)1(1,1 www)(,1 nx
)(,784 nx
)1()(,1 ny
)1()(, njy
)1()(,100 ny
),...,,( )1(100,784
)1(100,2
)1(100,1 www
62
)(784
2
1)1(
100,784100,100,2100,1
,784,,2,1
2,7842,2,22,1
1,7841,1,21,1)1(
)(100
2
1
n
j
i
jjijj
i
i
n
j
x
x
xx
wwww
wwww
wwwwwwww
s
s
ss
)(784
2
1)1(
100
2
1)1(
)(100
2
1
n
jj
n
j
x
x
xx
s
s
ss
w
w
ww
63
)1(W
28x28 (= 784)
100
・・・
・・・
)(,1ˆ nx
)(,784ˆ nx
)1()(,1 ny
)1()(, njy
)~)(~(~)(ˆ )1()1()(
)1()1()()( bbxWWxx nnn ff
)~,...,~,~( )1(784,1
)1(2,1
)1(1,1 www
)~,...,~,~( )1(784,
)1(2,
)1(1, jjj www
65
)1(~W
28x28 (= 784)
100
・・・
・・・
)1()(,
)1()(,
)()1(
)(,784)1(
,784)(,1)1(
,1)1(
)(,
njnj
nj
njnjnj
sy
xwxws
xw
)(,1 nx
)(,784 nx
)1()(, njy
)()( )1()(
)1()(
)1()( bxWxy nnn f
f (s) ~ max(0,s) ~ s(ReLU)
),...,,( )1(,784
)1(,2
)1(,1 jjj www
67
)(nx
)1(W
68
Deep Learning = Learning Hierarchical Representation
Feature visualization of convolutional net trained on ImageNet from [Zeiler & Fergus 2013]
???
69 )0,...,0,,,,,,0,...,0( )1(,2
)1(,1
)1(,
)1(,1
)1(,2 jjjjjjjjjj wwwww
Low-Level Feature(補足)
70
Yosinski, J. et al: Understanding Neural Networks Through Deep Visualization, ICML DL Workshop paper, 2015
71
drawNethttp://people.csail.mit.edu/torralba/research/drawCNN/drawNet.html
72
類似性と非類似性の顕在化
M1 M2
M3 M4
)3(
)3(
bW
)2(
)2(
bW
)1(
)1(
bW
)1()(ny )2(
)(ny )3()(ny
x(n1)
x(n2)
x(nK)
・・・
反応する部分を集約する
73
Nguyen, et al: Multifaceted Feature Visualization: Uncovering the Different Types of Features Learned By Each Neuron in Deep Neural Networks, arXiv:1602.03616, 2016
x(n)
y,
d(n)
特徴空間の抽出と利用
x(n) 前処理
FC分類器
後処理分類器
y,
d(n)
75
ディープラーニングの学習機構を理論的に解明するという研究はある.しかし,全般的には,未だにブラックボックスの状態といえる.
学習機構を知る上で,シナプス結合の重み分布,入力に対するニューロンの反応は重要な情報である.それを系統立てて示す方法として,Deep Visualizationが注目されている.
しかし,現状のものは直接的な可視化であり,特徴量(未知なる説明変数)の抽出という点で不十分である.
特徴空間に対する多変量データの可視化が重要になると考えられる.