osztályozás képdiagnosztikánálhome.mit.bme.hu/~horvath/kd/2016osz/osztalyozas...
TRANSCRIPT
Osztályozás képdiagnosztikánál
Osztályozás • Elválasztó felület keresése
• Input-output leképezés ismert osztályú (tanító) pontok alapján
– Lineáris
– Paramétereiben lineáris, de nemlineáris
– Nemlineáris
1
, 1,2,...,P
i i iid d k
x
Célfüggvény, kritérium függvény, objektív függvény, kockázat
• Veszteség függvény (loss function, hibafüggvény) minimumkeresés
• négyzetes hiba, kereszt entrópia
• Kockázat
p(w,z) a paramétervektor és a megfigyelések együttes sűrűségfüggv.
• Tapasztalati kockázat (empirical risk)
• Egyéb objektív függvények (különbözőség, likelihood függvény, a posteriori sűrűségfüggvény)
2
1
1( ) ( , )
P
E i i
i
R d fP
w w x
, , ln , 1 ln 1 ,i i i i i iL d f d f d f x w x w x w
2 2
( , ( , )) ( , )i i i i i iL d f d f d y x w w x
wxwx
,,,
fdLERd
wzzwwzw
wz
ddpLR ),(),( )(
,
Az osztályozás minősítése • R (risk) és Remp (empirical risk) kapcsolata
• Egy függvénykészlet a VC-dimenziója (h), ha létezik h olyan mintapont,
melyeket a függvénykészlet elemeivel minden lehetséges módon be tu-dunk sorolni két osztály valamelyikébe (a h mintapontot minden lehetséges módon két színnel ki lehet színezni), de h+1 ilyen mintapont már nem létezik. A VC-dimenzió tehát az a maximális mintaszám, amit adott függvényosztály elemeivel hibátlanul particionálhatunk minden lehetséges módon. A VC-dimenzió egy függvényosztály komplexitásának egyfajta mértékeként is tekinthető.
)(
)(41
2
)()()(
h
RhRR
emp
emp
www
l
hlhh
)4/( ln)1)/2( (ln4)(
22min , 1,h R N
w
Lineáris bináris osztályozás
• Optimális vetítési irány keresése
• Objektív függvény: különbözőség maximuma
LDA Optimális vetítési irány keresése
LDA linear discriminant analysis: dimenzió redukció
LDA - KDA ( )C w
2
2 1 2 1 2 1 TT T
Bm m w m m m m w w S w
( )C w
Kritérium függvény maximumkeresési feldat
(1) ( 2)
2 2
1 2 1 1 2 2
1 2 1 2
T TT T
i i i i
i C i C
T T T T
W W W W W
s s x x
w x m m w w x m m w
w S w w S w w S S w w S w
B WS Sosztályok közötti osztályokon belüli
LDA optimális paraméter vektor
1
arg min arg minTT
W BB
T T
W
w w
w S S ww S ww
w S w w w
1
2 1 2 1
2 1 2 1
de
ezért
T
W B B
T
B
S S w w wS w w m m m m w
S w m m m m w
Rayleigh hányados
1
2 1 W
S m m w
Lineáris osztályozás
( ) ( ) ( )T
ER w d Xw d Xw
Analitikus megoldás Lineáris egyenletrenszer Mátrix invertálás Iteratív megoldás (gradiens módszer)
T
P
T
T
x
x
x
X2
1
dXXXdXw† TT 1
y Xw
A regularizació szerepe
Lineáris modell, négyzetes hiba, csak a mintapontok
† -1
LS ( )T T w X d X X I X d
.)()()1( kCμkk ww
Lineáris osztályozás Egyenletek száma (P) Ismeretlenek száma (N) P<N Alulhatározott: végtelen számú megoldás (az N-P számú szabad paraméter tetszőlegesen megválasztható) P=N Van egyértelmű megoldás. Ha a lineáris egyenletek (az X mátrix sorai) lineárisan függetlenek, a mártix teljes rangú. P>N Túlhatározott: Minden egyenletet kielégítő megoldás nem feltétlenül létezik. De LS értelemben lesz megoldás: Moore-Penrose inverz. Iteratív megoldásnál egy tartományon belül fog „kóvályogni” a megoldás.
Példák a túlhatározott esetre : kétdimenziós (N=2), és P>2 mellett.
Gradiens módszerek (elsőrendű módszerek)
Négyzetes hibafelület
.2ˆ
2
kkk
kkC x
w
22)( kkkdkkC T wxw
kkμkkCμkk xwww 2ˆ1
LMS algoritmus (-LMS)
-LMS
( )
1T
kk k k k
k k
w w x
x x
max
10
0 2
Gradiens módszerek (kapcsolatok)
( )
1T
kk k k k
k k
w w x
x x
Online módosítás Minták elővételi sorrendje nem közömbös. Batch módosítás
y Xw
( )
1T
k
kk k k
k k
w w x
x x
Kaczmarz iteráció
SART/SIRT
Másodrendű módszerek
0 0 0 0 01 2T TC C C
ww w w w w w H w w
kkkk xRww 121
)(2
1 1 wRww C
2
0
0 ,i j
i j
C
wH w
w w Hesse mátrix Autokorrelációs mátrix
Hibafelület négyzetes vagy a hibafelület Taylor soros közelítésével dolgozunk
Newton módszer
Az LMS/Newton algoritmus
TE xxR
.)()(1 1 kCkkk wwHww
Ha a négyzetes hiba várható értéke alapján keressük a minimumot
Másodrendű módszerek
1
1 ( ) ( ) .
k k k k C kw w H w I w
2
T
i j
yE y y
w w
wH w w
A H mátrixot közelítjük
.
a H mátrix az optimumhoz közeledve egyre inkább az első tagtól függ,
hiszen akkor általában mind , mind y(w) görbülete egyre kisebb, ezért felvethető
az alábbi közelítés.
A Levenberg-Marquardt eljárás (az első- és a másodrendű eljárás kombinálása)
T
E y yH w w
Konjugált Gradiens módszer
, . T
i j i jq Rq 01
0
0
.
N
j j
j
w w q
0
T
j
j T
j j
q p Rw
q Rq 1 ,k kk k w w q
1
0
0 , és ,
k
j j
j
k Nw w q w w
0 .T T
k kkq Rw q Rw 1
2
T
j
j T
j j
C j
q
q Rq
a kezdőpontban érvényes negatív gradiens adja a legelső irányt,
majd a következő irányok rendre az aktuális gradiens és a megelőző irány
lineáris kombinációjaként kerülnek kiszámításra:
0 0 Cq
1 1 , k k kC k q q 1
.
T
k
k T
k k
C k
Rq
q Rq
1 , k kC k C k Rq
1 1
1
T
k T
k
C k C k C k
C k C k
q
Olyan irányokat keresünk, hogy egy N-dimenziós keresési térben N lépés alatt garantált legyen a konvergencia (kvadratikus felületnél)
Itertatív eljárások konvergenciája
(a)
(b)
(c)
w
*
w
w
w 1
w 0
(0)
(1)
Példa konvergenciára négyzetes hibafelület esetén -"legmeredekebb lejtő" módszerrel a trajektória mentén (kis mellett) (a),
-"legmeredekebb lejtő" módszerrel nagyobb mellett (b);
- a konjugált gradiensek módszerével (c).
Logisztikus regresszió
( )a
1
2 1 W
S m m w
LDA Emlékeztető
Folytonos Gauss eloszlás mellett (ha az eges osztályokhoz tartozó feltételes sűrűségfüggvényeknél a kovariancia mátrix azonos)
• Likelihood arány teszt
Statisztikai döntés
Based on the Likelihood function = 1 1
2
( )( )
( )
p x Cx
p x C
C1
C2
=
1 2
2 1
( ) ( )( )
( ) ( )
p x C P Cx
p x C P C
C1
C2
= Bayes döntés = 𝑃(𝐶2
𝑃(𝐶1
1 12 22 2
2 21 11 1
( ) ( ) ( )( )
( ) ( ) ( )
p x C K K P Cx
p x C K K P C
C1
C2
=
A Bayes döntés költségértékekkel
12 22 2
21 11 1
( ) ( )
( ) ( )
K K P C
K K P C
• Maximum likelihood megoldás
Lineáris osztályozás
(1 )
1( | , ) (1 )i i
Ld d
i i i ii
p d y y
x w
( 1| , ) sgm( ) ( )T T
i ip d x w w x w x
( 0 | , ) 1 sgm( ) 1 ( )T T
i ip d x w w x w x
(1 ) (1 )( , ) ( ( )) (1 ( ) (1 )i i i id d d dT T
i i i i i ip d y y x w w x w x Egy mintára
Az összes (L) mintára
11
( ) ln (1 ) ln(1 )
LL
i i i i
ii
L d y d y
w Likelihood függvény Iteratív megoldás
Lineáris osztályozás
optimális
hipersík
2x
1x
r
x
px
,
0 ha 1
0 ha 1
T
i i
T
i i
b a d
b a d
w x
w x
( ) 1 1, 2, , T
i id b i Pw x
1
1, , ( ) 1
2
P
T T
i i i
i
L b d bw α w w w x
1
, ,0
P
i i i
i
L bd
w αw x
w
1
, ,0 0
P
i i
i
L bd
b
w α0i
1 1 1
1( )
2
P P P
T
i i j i j i j
i i j
Q d d α x x
1
0
P
i i
i
d 0i1,....,i P
1
sP
i i i
i
dw x1
( ) sign
PT
i i i
i
y d bx x x
p r
wx x
w
1r
w
Kernel gép (SVM)
Nemlineáris osztályozás
Paramétereiben lineáris osztályozó: nemlineáris transzformáció + lineáris osztályozó LS megoldás Kernel gép
T
i i
i
y w x w φ x
Nemlineáris transzformá
ció
Lineáris osztályozó
N M>N
x (x) y 1( )T Tw Φ Φ Φ d
( ( ) ) 1 1, 2, ,T
i id b i P w φ x
1 1 1
1( ) ( ) ( )
2
P P PT
i i j i j i j
i i j
Q d d
α φ x φ x1
( )i
P
i i
i
d
w x
( , ) ( ) ( )Τ
i iK x x x x 1
( ) sign ( , )
i
P
i i
i
y d K bx x x
Nemlineáris osztályozó • Nemparametrikus nemlineáris osztályozó
– NN nearest neighbour, k-NN
• Posterior becslése
• Nemmetrikus módszerek – Döntési fák
– CART
– Szabály alapú módszerek
– ...
n cimkézett minta x körül egy V térfogat (tartomány) k mintából ki darab i cimkéjű
m-edik osztályba sorolunk, ha
Nemlineáris osztályozás
• Nemlineáris kernel gépek (SVM) • Neuronhálók
• Klasszikus hálók • Deep hálók
Az MLP-től a mély hálókig (Deep Networks)
• Klasszikus NN (MLP)
• Open question: hány rejtett réteg?
MLP sok rejtett réteggel
• Egy rejtett réteg elegendő az univerzális approximációs tulajdonsághoz (...), de előnyös lehet ha több rejtett réteget használunk. – Összetettebb leképezés kevesebb neuronnal
– Különböző típusú rejtett rétegek is alkalmazhatók
• Hátrányok – BP tanítás lassú
– Túl sok szabad paraméter, túl nagy szabadságfok
– Számítási komplexitás nagy
Jellemzők kiválasztása • A jellemzők meghatározása, kiválasztása: az egyik legnehezebb
feladat • ROI kiválasztása: elváltozás kiemelő szűrők (IRIS filter, SBF, AFUM, illesztett
szűrők, stb.) • ROI jellemzői: Haralick features (textúra jellemzők), geometriai jellemzők
(kerület, terület, ezek aránya, ...), ROI-n belül képjellemzők (minimum, maximum, átlag, szórás, magasabb momentumok, medián, entrópia, ...) , gradiens jellemzők: Gauss deriváltak DoG, LoG,...
• Globális-lokális jellemzők dilemmája
• A jellemzőtér dimenziója: hány jellemző alapján osztályozzunk? • Dimenzió növelés, több megfigyelés- többdimenziós vektor: a dimenzió átka • Szekvenciális döntés (több mérés, ugyanarról az objektumról, multimodális
vizsgálat) • Occam borotvája • Dimenzió redukció, a releváns változók kiválasztása (PCA, NPCA, KPCA, PLS,...) • Dimenzió redukció regularizáció segítségével: regularizációs tag: l2 norma, l1
norma • Relevant vector machine (Bayes módszer a változók szelektálására) • ...
Jellemző kiválasztás • PCA
1 2, , ..., T
NT φ φ φy TxTi j ijφ φ 1 , vagyis T T T T I T T
1
N
i i
i
y
x φ
1
ˆM
i i
i
y M N
x
2
222
1 1 1
ˆN M N
i i i i i
i i i M
E E y y E y
x x φ φ
Ti iy φ x
2
1 1 1
N N NT T T T Ti i i i i i
i M i M i M
E E
xxφ x x φ φ xx φ φ R φ
2
1 1
ˆ 1 1N N
T T Ti i i i i i i i
i M i M
xxφ φ φ C φ φ φ
1
ˆ2 2
N
i i ii i M
xxC φ φ 0φ
i i ixxC φ φ
2
1 1 1
N N NT Ti i i i i i
i M i M i M
xxφ R φ φ φ
2
T
T T
E yf
w Rww
w w w wRayleigh hányados
Jellemző kiválasztás • KPCA
: , ( )N F Φ x X Φ xR 1
1 P T
j j
jP
C Φ x Φ x V CV 1
P
i i
i
V Φ x
T Tk k Φ x V Φ x CV
1 1 1
1P P PT T T
i k i i k j j i
i i jP
Φ x Φ x Φ x Φ x Φ x Φ x
, Tij i j i jK K x x Φ x Φ x 2P Kα K α P α Kα
1
k kT V V
, 1
, 1
1P
k k Ti ji j
i j
Pk k k kT
iji ji j
k kTk
K
Φ x Φ x
α Kα
α α
1 1
,P P
k kk T Ti ii i
i i
K
V Φ x Φ x Φ x x x
Sajátvektorok normalizálása A jellemzőtérbeli vektorok vetítése
Osztályozás fő lépései (különböző megközelítések)
Jellemző kiválasztás
• Dimenzió redukció a legfontosabb jellemzők meghatározására (PCA, KPCA)
• Dimenzió redukció a legrelevánsabb jellemzők meghatározására (PLS, érzékenység analízis)
• Ritka megoldás keresése (regularizáció, ...)
Tanítás
• MLP BP algorithm
– A telítődő nemlineáris aktivációs függvény hátrányai
• Szigmoid nemlinearitás, a derivált tart nullához ....
• Exponenciális függvények számítása
• Lassú és nagy számítási komplexitású algoritmus
• Lokális minimumba ragadás veszélye
– Hogyan módosítsuk a háló architektúráját a hátrányos kiküszöbölése vagy mérséklése céljából
• Módosítsuk az aktivációs függvényt
Aktivációs függvények
ReLU előnyei - Könnyű számítani - Nincs telítéses
szakasz - A derivált számítása
egyszerű - Univ approximation
képesség megmarad - Hatékony gradiens-
alapú tanítási algoritmusok léteznek
Az „új” MLP architektúra
Tanítás (BP)
Training algorithms • SGD
• Minibatch
• Különböző gradiens alapú algoritmusok
– Momentum (Nesterov momentum)
– AdaGrad, AdaDelta, RMSProp, Adam
Data set
• Increase the number of labelled data
• Artificially generated samples (augmentations)
– Shifting
– Rotating
– Flip vertically or horizontally
– ...
Jellemző kiválasztás
• Különböző típusú rétegek alkalmazása
• A lényegkiemelést maga a háló végzi
– Szűrés (konvolúció), sok konvolúciós réteg
– Dimenzió redukció, feature selection
Convolutional layer
convolution
Feature selection
Pooling layer
Dimension reduction
Fully connected layers
Normál
TBC
Tumor1
Tumor2
Nem azo- nosított elvált
A complex network
A complex network
Dropout
Complex neurons (to reduce free parameters )
Dropout
Autoencoders • Feature selection, dimension reduction
• (bottleneck layer)
An example
Transfer learning
Fix (pretained) Fix (pretained) Fix (pretained)
trainable
trainable
Implementation
Implementation
Models: GoogleNet: CNN model finetuned on the Extended Salient Object Subitizing dataset (~11K images) and synthetic images. This model significantly improves over our previous models. Recommended. AlexNet: CNN model finetuned on our initial Salient Object Subitizing dataset (~5500 images). The architecture is the same as the Caffe reference network. VGG16: CNN model finetuned on our initial Salient Object Subitizing dataset (~5500 images).
Many further details can be found in http://deeplearning.net/
Some figures of this slide set was obtained from: - Deep Learning NIPS’2015 Tutorial, Geoff Hinton, Yoshua Bengio & Yann LeCun - Introduction to Machine Learning CMU-10701 Deep Learning
Main types of suspicious areas
spikulált folt
Jóindulatú elváltozás
mikrokalcifikáció architekturális torzítás
malignant
cases
20.05.2004 IMTC 2004, Como, Italy
A képek (esetek) változatossága zsíremlő zsír-grandular sűrű grandular
Kép szegmentálás
Éldetektálás és textura alapú osztályozás
Matching
based on
segment
position
+
texture
parameters
Egy lehetséges út a mikrokalcifikációk detektálásra Image
reading
Texture analysis
Suspicious
segment?
yes no
Focusing
on suspicious
subsegment
yes no
Edge detection
yes
no
Image egment
selection
Reinforcement
Curvilinear
detection
Verification
yes
no
Removing of curvilinear
objects
True positive result
Fals positive
result
Kulcscsont és bordák árnyékának eltüntetése
Kulcscsont és bordák árnyékának eltüntetése
Kerekárnyék keresés
Kerekárnyék keresés
Kerekárnyék keresés
Kerekárnyék keresés
Kerekárnyék keresés
Kerekárnyék keresés
Összesített eredmények: FROC (Free-Response Receiver Operating Characteristic Curve)
example of the results of the steps of vessel feature extraction.