深層学習(deep learning)とベイズ的最適化(bayesian...

Deep Learningによる医用画像読影支援

佐藤一誠

東京大学情報基盤センター／JST さきがけ

joint work with

牛丸太希, 小宮山純平 (東大情理工) 中川裕志（東大情報基盤センター）

野村行弘, 根本充貴, 花岡昇平, 林直人(東大病院) 1

数理助教の会2014.10.06

• 機械学習による医用画像読影支援

• Convolutional Neural Network(CNN)の利用

• ベイズ的最適化(Bayesian Optimization) によるCNNの自動チューニング

2

概要

3

• 画像診断の医師への負担の増加

– 1件1件の検査が時代の要求に合わせて複雑化

– 数百~数千枚/検査

–東大病院でのPACS受信画像枚数は4年で1.8倍に

• 病変の見落としの危険性

読影医の負担を軽減しサポートするシステムが必要

背景

潜在的ビッグデータ

4

機械学習による医用画像読影支援

撮影画像

機械学習による病変検出

読影支援システム ※試験運用中のシステム画面

5

特徴量抽出医療画像分類器

特徴量

検出


問題点：特徴抽出には専門家の知識が必要症例毎に病変の性質が異なる

病変例：大腿骨頚部骨折（CT）

病変例２：乳癌(石灰化、マンモグラフィ)

病変例３：胸部CT

充実性結節（肺腫瘤）すりガラス結節

9


特徴量

検出


問題点：特徴抽出には専門家の知識が必要症例毎に病変の性質が異なる

10


特徴量

検出

Deep Learning 特徴量も学習

（今回はConvolutional Neural Network）

Deep Learningによる医用画像読影支援

11

Convolutional Neural Network (CNN)

• Neocognitron [Fukushima, 1980] - 脳の視覚情報処理の仕組みに基づく

• LeNet-1,LeNet-5 [LeCun+,1989,1999] - Backpropagationによる学習

IBIS2014にレジェンドが！

12

IBIS2014 検索 http://ibisml.org/ibis2014

11.16-19@名古屋

当日参加もOK！

13

網膜 →外側膝状体 →大脳皮質一次視覚野（V1）：特定方向の線分に選択的に反応

→二次視覚野（V2）： 2本の線分を組み合わせた形状に選択的に反応する

→四次視覚野（V4） →Inferior Temporal野（IT）：顔などの複雑な形状に選択的に反応する

脳の視覚情報処理の仕組み

From Clinical, Neuroscience,1995

複雑な形状

単純な形状

• 単純細胞(Simple cell, S-cell)

- 特定方向の線分に反応する方位選択性

• 複雑細胞(Complex cell, C-cell)

-線分の位置変動に不変な位置不変性

14

単純細胞・複雑細胞 Hubel ＆ Wiesel,1968

15

Convolutional Neural Network (CNN)

• Neocognitron [Fukushima, 1980] - 脳の視覚情報処理の仕組みに基づく

• LeNet-1,LeNet-5 [LeCun+,1989,1999] - Backpropagationによる学習

大脳視覚野の単純細胞に類似した層と，複雑細胞に類似した層とを交互に階層的に配置した多層神経回路

単純細胞⇔Convolution

複雑細胞⇔Pooling (Subsampling)

Convolution（畳み込み）

16 ),(),(),( )1(

),(

)()( vjuiyvuajiy t

vu

t

j

t

)1( ty

)(t

ja

1 2 0 7 1

5 3 8 0 6

3 1 7 4 9

1 5 2 2 1

3 8 1 0 1

0 0 0

0 1 0

0 0 0

3 8 0

1 7 4

5 2 2

1 0 0

0 0 0

0 0 1

8 6 9

7 5 9

4 1 8

・異なる複数の畳み込み画像・多対多Mapping ・Overlapping可境界条件分サイズ減少

Convolution（畳み込み）

17

・異なる複数の畳込み画像・多対多Mapping ・境界条件分サイズ減少・Overlapping可

複数のFeature mapを畳み込むほうがより良いFeature mapを作れる

Pooling (まとめる)

18

e.g. 局所平均化

)(4

112,1212,22,122,2, jijijijiji xxxxy

・Non-overlapping ⇒e.g. サイズが1/2になる・１対１Mapping ・平滑化(smoothing) or ぼかし(blurring) e.t.c.

19

Pooling (まとめる)

微小変位に対する不変性(Local shift invariant) ※入力画像の方も回転などの変更を加えた

コピーを大量に作る（生成型学習）

4✕4→1

20

Pooling（まとめる）

• Subsmpling：平均を取る

• Max-pooling:最大値を取る

lkPlk

ji xyji

,),(

,,

max

jiPlk

lk

ji

ji xP

y,),(

,

,

,||

1

※さらに非線形関数を適用するなど

21 From Fukushima : Neocognitron for handwritten digit recognition, Neurocomputing 51 (2003) 161 – 180

Neocognitron

convolution

subsampling

22 From Fukushima: Artificial vision by multi-layered neural networks: Neocognitron and its advances, Neural Networks 37 (2013) 103–119

Feature Extraction by Neocognitron

convolution

Feature (edge) extraction

23

1u

2u1a

2a・・・・・

Nu

v b

N

i

iiuabv 1

1 x

x

y

)( xy

inp

ut

output

00

0)(

x

xxx

Convolution cell of Neocognitron

activation

N

i

iuv1

2

uの正規化に相当

24

1u

2u1a

2a・・・・・

Nu

1 b

N

i

ii bua1

x

x

y

)tanh(xy

inp

ut

output

Convolution cell of LeNet

activation

微分が簡単

LeNetのアーキテクチャ例

From http://deeplearning.net/tutorial

CNNの問題点

ハイパーパラメータが多数存在

例えば・・・LeNet-5 for MNIST（手書き画像）の場合

- 構造：各層でのFeature Mapの枚数、サイズ e.t.c

- 学習：Learning rate, ミニバッチサイズ e.t.c

これらを自動的にTuningしたい

→Bayesian Optimization

27

ベイズ的最適化 Bayesian Optimization (BO)

Black-box関数の最適化（多峰性・評価が高コスト） →関数がわからないなら

事前分布を仮定して、関数の事後分布を基に最適化しよう

y=f(x) x y

• Bayesian Nonparametricsに基づく関数f(x)のモデリング具体的には、関数f(x)のpriorとしてGaussian processを仮定

• 評価点(yi,f(xi))からposteriorを計算し、次の候補点xを生成

• 探索と活用のトレードオフ⇒acquisition functionの設計 (Confidence bound, Expected improvement, Mutual Information e.t.c)

Mockus, 1978

• 関数f : X→R上の確率分布 p(f)

• Mean function m(x), covariance function K(x,x’)

をパラメータとする

• 観測は、平均m分散Kのn次元ガウス分布に従う

28

Gaussian Process

n

iixf 1)}({

))(),((~))(),...,(( :1:11 nnn xKxmNxfxf

),(),(

),(),(,

)(

)(~

)(

)(

2221

2111

2

1

2

1

xxKxxK

xxKxxK

xm

xmN

xf

xf

例えば、

29

Bayesian predictive distribution

))(),((

)})(,{|())(|(

)})(,{,|(

xxN

dfxfxfGPxfyp

xfxxyp

ii

ii

),0(~,)(

),(~

Nxfy

KmGPf

iiii

生成過程

ベイズ予測分布

解析的に求まる

30

Acquisition Functions

)(.min* xfyx

目的

)(.max1 xaxx

t

アルゴリズム

))()(()( xxxa

Confidence bound [Srinivas+,2010]

Expected improvement [Mockus,1978]

dfyxfGPxfyxa iibest }),{|())(,0max()(

探索と活用のトレードオフ



31

BOの動作例

)(.min* xfyx

)(xa

)(xf)(x

)(x

)(.max1 xaxx

t

目的

アルゴリズム

32

BOの動作例

)(xa

)(xf

)(x)(.min* xfy

x

)(.max1 xaxx

t

目的

アルゴリズム

)(x

33

BOの動作例

)(xa

)(xf

)(x)(.min* xfy

x

)(.max1 xaxx

t

目的

アルゴリズム

)(x

34

BO for Machine Learning

y=f(x) x y

• 機械学習の多くの手法はハイパーパラメータに依存する • Cross validationでチューニング

- 3パラメータ以上から厳しくなる - MLでは一般的に評価値とハイパーパラメータの関係は

Black-box →Bayesian optimizationによる実験の自動化

Snoek+, 2012

ハイパーパラメータ評価値

Validation setの Accuracy, AUC等目的や手法に依存

CNN+BOによる病変検出

ハイパーパラメータ

- 構造：各層でのFeature Mapの枚数、サイズ e.t.c

- 学習：Learning rate, ミニバッチサイズ e.t.c

BOにより、これらを自動的にTuning

ボクセルに分解

医用画像は３D画像

病変検知

36

脳動脈瘤病変抽出結果

AUC

Tuning回数

続きは IBIS2014 ディスカッショントラックで！

IBIS2014 検索 http://ibisml.org/ibis2014

CNN+BOは最強？・実際には、BO自体に細かい工夫が必要

– Bayesian Nonparametricsで近年培われた（マニアックな？）MCMC技術

– カーネル設計が重要（設計師の時代また復活するかも？） – Acquisition functionの最適化は自明でない工夫が必要 – ハイパーパラメータ空間の正規化 e.t.c

皆が容易に使えることを目指して（BOのブラックボックス化） CNN, Autoencoder, 複数行列分解, Neural language model, word2vec, SVM ….e.t.c. のハイパーパラメータ自動チューニングをサポートしたBOツールを中川研で公開予定

37

まとめと今後の課題

深層学習(deep learning)とベイズ的最適化(bayesian...

Engineering