深層学習(deep learning)とベイズ的最適化(bayesian...
TRANSCRIPT
Deep Learningによる医用画像読影支援
佐藤一誠
東京大学 情報基盤センター/JST さきがけ
joint work with
牛丸太希, 小宮山純平 (東大 情理工) 中川裕志(東大 情報基盤センター)
野村行弘, 根本充貴, 花岡 昇平, 林 直人(東大病院) 1
数理助教の会2014.10.06
• 機械学習による医用画像読影支援
• Convolutional Neural Network(CNN)の利用
• ベイズ的最適化(Bayesian Optimization) によるCNNの自動チューニング
2
概要
3
• 画像診断の医師への負担の増加
– 1件1件の検査が時代の要求に合わせて複雑化
– 数百~数千枚/検査
–東大病院でのPACS受信画像枚数は4年で1.8倍に
• 病変の見落としの危険性
読影医の負担を軽減しサポートするシステムが必要
背景
潜在的ビッグデータ
4
機械学習による医用画像読影支援
撮影画像
機械学習による 病変検出
読影支援システム ※試験運用中の システム画面
5
特徴量抽出 医療画像 分類器
特徴量
検出
機械学習による医用画像読影支援
問題点: 特徴抽出には専門家の知識が必要 症例毎に病変の性質が異なる
病変例:大腿骨頚部骨折(CT)
病変例2:乳癌(石灰化、マンモグラフィ)
病変例3:胸部CT
充実性結節(肺腫瘤) すりガラス結節
9
特徴量抽出 医療画像 分類器
特徴量
検出
機械学習による医用画像読影支援
問題点: 特徴抽出には専門家の知識が必要 症例毎に病変の性質が異なる
10
特徴量抽出 医療画像 分類器
特徴量
検出
Deep Learning 特徴量も学習
(今回はConvolutional Neural Network)
Deep Learningによる医用画像読影支援
11
Convolutional Neural Network (CNN)
• Neocognitron [Fukushima, 1980] - 脳の視覚情報処理の仕組みに基づく
• LeNet-1,LeNet-5 [LeCun+,1989,1999] - Backpropagationによる学習
IBIS2014にレジェンドが!
12
IBIS2014 検索 http://ibisml.org/ibis2014
11.16-19@名古屋
当日参加もOK!
13
網膜 →外側膝状体 →大脳皮質一次視覚野(V1): 特定方向の線分に選択的に反応
→二次視覚野(V2): 2本の線分を組み合わせた形状に選択的に反応する
→四次視覚野(V4) →Inferior Temporal野(IT): 顔などの複雑な形状に選択的に反応する
脳の視覚情報処理の仕組み
From Clinical, Neuroscience,1995
複雑な形状
単純な形状
• 単純細胞(Simple cell, S-cell)
- 特定方向の線分に反応する方位選択性
• 複雑細胞(Complex cell, C-cell)
-線分の位置変動に不変な位置不変性
14
単純細胞・複雑細胞 Hubel & Wiesel,1968
15
Convolutional Neural Network (CNN)
• Neocognitron [Fukushima, 1980] - 脳の視覚情報処理の仕組みに基づく
• LeNet-1,LeNet-5 [LeCun+,1989,1999] - Backpropagationによる学習
大脳視覚野の単純細胞に類似した層と,複雑細胞に類似した層とを交互に階層的に配置した 多層神経回路
単純細胞⇔Convolution
複雑細胞⇔Pooling (Subsampling)
Convolution(畳み込み)
16 ),(),(),( )1(
),(
)()( vjuiyvuajiy t
vu
t
j
t
)1( ty
)(t
ja
1 2 0 7 1
5 3 8 0 6
3 1 7 4 9
1 5 2 2 1
3 8 1 0 1
0 0 0
0 1 0
0 0 0
3 8 0
1 7 4
5 2 2
1 0 0
0 0 0
0 0 1
8 6 9
7 5 9
4 1 8
・異なる複数の 畳み込み画像 ・多対多Mapping ・Overlapping可 境界条件分 サイズ減少
Convolution(畳み込み)
17
・異なる複数の 畳込み画像 ・多対多Mapping ・境界条件分 サイズ減少 ・Overlapping可
複数のFeature mapを畳み込むほうがより良いFeature mapを作れる
Pooling (まとめる)
18
e.g. 局所平均化
)(4
112,1212,22,122,2, jijijijiji xxxxy
・Non-overlapping ⇒e.g. サイズが1/2になる ・1対1Mapping ・平滑化(smoothing) or ぼかし(blurring) e.t.c.
19
Pooling (まとめる)
微小変位に対する不変性(Local shift invariant) ※入力画像の方も回転などの変更を加えた
コピーを大量に作る (生成型学習)
4✕4→1
20
Pooling(まとめる)
• Subsmpling:平均を取る
• Max-pooling:最大値を取る
lkPlk
ji xyji
,),(
,,
max
jiPlk
lk
ji
ji xP
y,),(
,
,
,||
1
※さらに非線形関数を適用するなど
21 From Fukushima : Neocognitron for handwritten digit recognition, Neurocomputing 51 (2003) 161 – 180
Neocognitron
convolution
subsampling
22 From Fukushima: Artificial vision by multi-layered neural networks: Neocognitron and its advances, Neural Networks 37 (2013) 103–119
Feature Extraction by Neocognitron
convolution
Feature (edge) extraction
23
1u
2u1a
2a・・・・・
Nu
v b
N
i
iiuabv 1
1 x
x
y
)( xy
inp
ut
output
00
0)(
x
xxx
Convolution cell of Neocognitron
activation
N
i
iuv1
2
uの正規化に相当
24
1u
2u1a
2a・・・・・
Nu
1 b
N
i
ii bua1
x
x
y
)tanh(xy
inp
ut
output
Convolution cell of LeNet
activation
微分が簡単
LeNetのアーキテクチャ例
From http://deeplearning.net/tutorial
CNNの問題点
ハイパーパラメータが多数存在
例えば・・・LeNet-5 for MNIST(手書き画像)の場合
- 構造:各層でのFeature Mapの枚数、サイズ e.t.c
- 学習:Learning rate, ミニバッチサイズ e.t.c
これらを自動的にTuningしたい
→Bayesian Optimization
27
ベイズ的最適化 Bayesian Optimization (BO)
Black-box関数の最適化(多峰性・評価が高コスト) →関数がわからないなら
事前分布を仮定して、関数の事後分布を基に最適化しよう
y=f(x) x y
• Bayesian Nonparametricsに基づく関数f(x)のモデリング 具体的には、関数f(x)のpriorとしてGaussian processを仮定
• 評価点(yi,f(xi))からposteriorを計算し、次の候補点xを生成
• 探索と活用のトレードオフ⇒acquisition functionの設計 (Confidence bound, Expected improvement, Mutual Information e.t.c)
Mockus, 1978
• 関数f : X→R上の確率分布 p(f)
• Mean function m(x), covariance function K(x,x’)
をパラメータとする
• 観測 は、平均m分散Kのn次元ガウス分布に従う
28
Gaussian Process
n
iixf 1)}({
))(),((~))(),...,(( :1:11 nnn xKxmNxfxf
),(),(
),(),(,
)(
)(~
)(
)(
2221
2111
2
1
2
1
xxKxxK
xxKxxK
xm
xmN
xf
xf
例えば、
29
Bayesian predictive distribution
))(),((
)})(,{|())(|(
)})(,{,|(
xxN
dfxfxfGPxfyp
xfxxyp
ii
ii
),0(~,)(
),(~
Nxfy
KmGPf
iiii
生成過程
ベイズ予測分布
解析的に求まる
30
Acquisition Functions
)(.min* xfyx
目的
)(.max1 xaxx
t
アルゴリズム
))()(()( xxxa
Confidence bound [Srinivas+,2010]
Expected improvement [Mockus,1978]
dfyxfGPxfyxa iibest }),{|())(,0max()(
探索と活用のトレードオフ
解析的に求まる
解析的に求まる
31
BOの動作例
)(.min* xfyx
)(xa
)(xf)(x
)(x
)(.max1 xaxx
t
目的
アルゴリズム
32
BOの動作例
)(xa
)(xf
)(x)(.min* xfy
x
)(.max1 xaxx
t
目的
アルゴリズム
)(x
33
BOの動作例
)(xa
)(xf
)(x)(.min* xfy
x
)(.max1 xaxx
t
目的
アルゴリズム
)(x
34
BO for Machine Learning
y=f(x) x y
• 機械学習の多くの手法はハイパーパラメータに依存する • Cross validationでチューニング
- 3パラメータ以上から厳しくなる - MLでは一般的に評価値とハイパーパラメータの関係は
Black-box →Bayesian optimizationによる実験の自動化
Snoek+, 2012
ハイパーパラメータ 評価値
Validation setの Accuracy, AUC等 目的や手法に依存
CNN+BOによる病変検出
ハイパーパラメータ
- 構造:各層でのFeature Mapの枚数、サイズ e.t.c
- 学習:Learning rate, ミニバッチサイズ e.t.c
BOにより、これらを自動的にTuning
ボクセルに 分解
医用画像は3D画像
病変 検知
36
脳動脈瘤病変抽出結果
AUC
Tuning回数
続きは IBIS2014 ディスカッショントラックで!
IBIS2014 検索 http://ibisml.org/ibis2014
CNN+BOは最強? ・実際には、BO自体に細かい工夫が必要
– Bayesian Nonparametricsで近年培われた(マニアックな?)MCMC技術
– カーネル設計が重要(設計師の時代また復活するかも?) – Acquisition functionの最適化は自明でない工夫が必要 – ハイパーパラメータ空間の正規化 e.t.c
皆が容易に使えることを目指して(BOのブラックボックス化) CNN, Autoencoder, 複数行列分解, Neural language model, word2vec, SVM ….e.t.c. のハイパーパラメータ自動チューニングをサポートしたBOツールを中川研で公開予定
37
まとめと今後の課題
38