osztályozás képdiagnosztikánálhome.mit.bme.hu/~horvath/kd/2016osz/osztalyozas...

Osztályozás képdiagnosztikánál

Osztályozás • Elválasztó felület keresése

• Input-output leképezés ismert osztályú (tanító) pontok alapján

– Lineáris

– Paramétereiben lineáris, de nemlineáris

– Nemlineáris

1

, 1,2,...,P

i i iid d k

x

Célfüggvény, kritérium függvény, objektív függvény, kockázat

• Veszteség függvény (loss function, hibafüggvény) minimumkeresés

• négyzetes hiba, kereszt entrópia

• Kockázat

p(w,z) a paramétervektor és a megfigyelések együttes sűrűségfüggv.

• Tapasztalati kockázat (empirical risk)

• Egyéb objektív függvények (különbözőség, likelihood függvény, a posteriori sűrűségfüggvény)

2

1

1( ) ( , )

P

E i i

i

R d fP

w w x

, , ln , 1 ln 1 ,i i i i i iL d f d f d f x w x w x w

2 2

( , ( , )) ( , )i i i i i iL d f d f d y x w w x

wxwx

,,,

fdLERd

wzzwwzw

wz

ddpLR ),(),( )(

,

Az osztályozás minősítése • R (risk) és Remp (empirical risk) kapcsolata

• Egy függvénykészlet a VC-dimenziója (h), ha létezik h olyan mintapont,

melyeket a függvénykészlet elemeivel minden lehetséges módon be tu-dunk sorolni két osztály valamelyikébe (a h mintapontot minden lehetséges módon két színnel ki lehet színezni), de h+1 ilyen mintapont már nem létezik. A VC-dimenzió tehát az a maximális mintaszám, amit adott függvényosztály elemeivel hibátlanul particionálhatunk minden lehetséges módon. A VC-dimenzió egy függvényosztály komplexitásának egyfajta mértékeként is tekinthető.

)(

)(41

2

)()()(

h

RhRR

emp

emp

www

l

hlhh

)4/( ln)1)/2( (ln4)(

22min , 1,h R N

w

Lineáris bináris osztályozás

• Optimális vetítési irány keresése

• Objektív függvény: különbözőség maximuma

LDA Optimális vetítési irány keresése

LDA linear discriminant analysis: dimenzió redukció

LDA - KDA ( )C w

2

2 1 2 1 2 1 TT T

Bm m w m m m m w w S w

( )C w

Kritérium függvény maximumkeresési feldat

(1) ( 2)

2 2

1 2 1 1 2 2

1 2 1 2

T TT T

i i i i

i C i C

T T T T

W W W W W

s s x x

w x m m w w x m m w

w S w w S w w S S w w S w

B WS Sosztályok közötti osztályokon belüli

LDA optimális paraméter vektor

1

arg min arg minTT

W BB

T T

W

w w

w S S ww S ww

w S w w w

1

2 1 2 1

2 1 2 1

de

ezért

T

W B B

T

B

S S w w wS w w m m m m w

S w m m m m w

Rayleigh hányados

1

2 1 W

S m m w

Lineáris osztályozás

( ) ( ) ( )T

ER w d Xw d Xw

Analitikus megoldás Lineáris egyenletrenszer Mátrix invertálás Iteratív megoldás (gradiens módszer)

T

P

T

T

x

x

x

X2

1

dXXXdXw† TT 1

y Xw

A regularizació szerepe

Lineáris modell, négyzetes hiba, csak a mintapontok

† -1

LS ( )T T w X d X X I X d

.)()()1( kCμkk ww

Lineáris osztályozás Egyenletek száma (P) Ismeretlenek száma (N) P<N Alulhatározott: végtelen számú megoldás (az N-P számú szabad paraméter tetszőlegesen megválasztható) P=N Van egyértelmű megoldás. Ha a lineáris egyenletek (az X mátrix sorai) lineárisan függetlenek, a mártix teljes rangú. P>N Túlhatározott: Minden egyenletet kielégítő megoldás nem feltétlenül létezik. De LS értelemben lesz megoldás: Moore-Penrose inverz. Iteratív megoldásnál egy tartományon belül fog „kóvályogni” a megoldás.

Példák a túlhatározott esetre : kétdimenziós (N=2), és P>2 mellett.

Gradiens módszerek (elsőrendű módszerek)

Négyzetes hibafelület

.2ˆ

2

kkk

kkC x

w

22)( kkkdkkC T wxw

kkμkkCμkk xwww 2ˆ1

LMS algoritmus (-LMS)

-LMS

( )

1T

kk k k k

k k

w w x

x x

max

10

0 2

Gradiens módszerek (kapcsolatok)

( )

1T

kk k k k

k k

w w x

x x

Online módosítás Minták elővételi sorrendje nem közömbös. Batch módosítás

y Xw

( )

1T

k

kk k k

k k

w w x

x x

Kaczmarz iteráció

SART/SIRT

Másodrendű módszerek

0 0 0 0 01 2T TC C C

ww w w w w w H w w

kkkk xRww 121

)(2

1 1 wRww C

2

0

0 ,i j

i j

C

wH w

w w Hesse mátrix Autokorrelációs mátrix

Hibafelület négyzetes vagy a hibafelület Taylor soros közelítésével dolgozunk

Newton módszer

Az LMS/Newton algoritmus

TE xxR

.)()(1 1 kCkkk wwHww

Ha a négyzetes hiba várható értéke alapján keressük a minimumot

Másodrendű módszerek

1

1 ( ) ( ) .

k k k k C kw w H w I w

2

T

i j

yE y y

w w

wH w w

A H mátrixot közelítjük

.

a H mátrix az optimumhoz közeledve egyre inkább az első tagtól függ,

hiszen akkor általában mind , mind y(w) görbülete egyre kisebb, ezért felvethető

az alábbi közelítés.

A Levenberg-Marquardt eljárás (az első- és a másodrendű eljárás kombinálása)

T

E y yH w w

Konjugált Gradiens módszer

, . T

i j i jq Rq 01

0

0

.

N

j j

j

w w q

0

T

j

j T

j j

q p Rw

q Rq 1 ,k kk k w w q

1

0

0 , és ,

k

j j

j

k Nw w q w w

0 .T T

k kkq Rw q Rw 1

2

T

j

j T

j j

C j

q

q Rq

a kezdőpontban érvényes negatív gradiens adja a legelső irányt,

majd a következő irányok rendre az aktuális gradiens és a megelőző irány

lineáris kombinációjaként kerülnek kiszámításra:

0 0 Cq

1 1 , k k kC k q q 1

.

T

k

k T

k k

C k

Rq

q Rq

1 , k kC k C k Rq

1 1

1

T

k T

k

C k C k C k

C k C k

q

Olyan irányokat keresünk, hogy egy N-dimenziós keresési térben N lépés alatt garantált legyen a konvergencia (kvadratikus felületnél)

Itertatív eljárások konvergenciája

(a)

(b)

(c)

w

*

w

w

w 1

w 0

(0)

(1)

Példa konvergenciára négyzetes hibafelület esetén -"legmeredekebb lejtő" módszerrel a trajektória mentén (kis mellett) (a),

-"legmeredekebb lejtő" módszerrel nagyobb mellett (b);

- a konjugált gradiensek módszerével (c).

Logisztikus regresszió

( )a

1

2 1 W

S m m w

LDA Emlékeztető

Folytonos Gauss eloszlás mellett (ha az eges osztályokhoz tartozó feltételes sűrűségfüggvényeknél a kovariancia mátrix azonos)

• Likelihood arány teszt

Statisztikai döntés

Based on the Likelihood function = 1 1

2

( )( )

( )

p x Cx

p x C

C1

C2

=

1 2

2 1

( ) ( )( )

( ) ( )

p x C P Cx

p x C P C

C1

C2

= Bayes döntés = 𝑃(𝐶2

𝑃(𝐶1

1 12 22 2

2 21 11 1

( ) ( ) ( )( )

( ) ( ) ( )

p x C K K P Cx

p x C K K P C

C1

C2

=

A Bayes döntés költségértékekkel

12 22 2

21 11 1

( ) ( )

( ) ( )

K K P C

K K P C

• Maximum likelihood megoldás


(1 )

1( | , ) (1 )i i

Ld d

i i i ii

p d y y

x w

( 1| , ) sgm( ) ( )T T

i ip d x w w x w x

( 0 | , ) 1 sgm( ) 1 ( )T T

i ip d x w w x w x

(1 ) (1 )( , ) ( ( )) (1 ( ) (1 )i i i id d d dT T

i i i i i ip d y y x w w x w x Egy mintára

Az összes (L) mintára

11

( ) ln (1 ) ln(1 )

LL

i i i i

ii

L d y d y

w Likelihood függvény Iteratív megoldás


optimális

hipersík

2x

1x

r

x

px

,

0 ha 1

0 ha 1

T

i i

T

i i

b a d

b a d

w x

w x

( ) 1 1, 2, , T

i id b i Pw x

1

1, , ( ) 1

2

P

T T

i i i

i

L b d bw α w w w x

1

, ,0

P

i i i

i

L bd

w αw x

w

1

, ,0 0

P

i i

i

L bd

b

w α0i

1 1 1

1( )

2

P P P

T

i i j i j i j

i i j

Q d d α x x

1

0

P

i i

i

d 0i1,....,i P

1

sP

i i i

i

dw x1

( ) sign

PT

i i i

i

y d bx x x

p r

wx x

w

1r

w

Kernel gép (SVM)

Nemlineáris osztályozás

Paramétereiben lineáris osztályozó: nemlineáris transzformáció + lineáris osztályozó LS megoldás Kernel gép

T

i i

i

y w x w φ x

Nemlineáris transzformá

ció

Lineáris osztályozó

N M>N

x (x) y 1( )T Tw Φ Φ Φ d

( ( ) ) 1 1, 2, ,T

i id b i P w φ x

1 1 1

1( ) ( ) ( )

2

P P PT

i i j i j i j

i i j

Q d d

α φ x φ x1

( )i

P

i i

i

d

w x

( , ) ( ) ( )Τ

i iK x x x x 1

( ) sign ( , )

i

P

i i

i

y d K bx x x

Nemlineáris osztályozó • Nemparametrikus nemlineáris osztályozó

– NN nearest neighbour, k-NN

• Posterior becslése

• Nemmetrikus módszerek – Döntési fák

– CART

– Szabály alapú módszerek

– ...

n cimkézett minta x körül egy V térfogat (tartomány) k mintából ki darab i cimkéjű

m-edik osztályba sorolunk, ha

Nemlineáris osztályozás

• Nemlineáris kernel gépek (SVM) • Neuronhálók

• Klasszikus hálók • Deep hálók

Az MLP-től a mély hálókig (Deep Networks)

• Klasszikus NN (MLP)

• Open question: hány rejtett réteg?

MLP sok rejtett réteggel

• Egy rejtett réteg elegendő az univerzális approximációs tulajdonsághoz (...), de előnyös lehet ha több rejtett réteget használunk. – Összetettebb leképezés kevesebb neuronnal

– Különböző típusú rejtett rétegek is alkalmazhatók

• Hátrányok – BP tanítás lassú

– Túl sok szabad paraméter, túl nagy szabadságfok

– Számítási komplexitás nagy

Jellemzők kiválasztása • A jellemzők meghatározása, kiválasztása: az egyik legnehezebb

feladat • ROI kiválasztása: elváltozás kiemelő szűrők (IRIS filter, SBF, AFUM, illesztett

szűrők, stb.) • ROI jellemzői: Haralick features (textúra jellemzők), geometriai jellemzők

(kerület, terület, ezek aránya, ...), ROI-n belül képjellemzők (minimum, maximum, átlag, szórás, magasabb momentumok, medián, entrópia, ...) , gradiens jellemzők: Gauss deriváltak DoG, LoG,...

• Globális-lokális jellemzők dilemmája

• A jellemzőtér dimenziója: hány jellemző alapján osztályozzunk? • Dimenzió növelés, több megfigyelés- többdimenziós vektor: a dimenzió átka • Szekvenciális döntés (több mérés, ugyanarról az objektumról, multimodális

vizsgálat) • Occam borotvája • Dimenzió redukció, a releváns változók kiválasztása (PCA, NPCA, KPCA, PLS,...) • Dimenzió redukció regularizáció segítségével: regularizációs tag: l2 norma, l1

norma • Relevant vector machine (Bayes módszer a változók szelektálására) • ...

Jellemző kiválasztás • PCA

1 2, , ..., T

NT φ φ φy TxTi j ijφ φ 1 , vagyis T T T T I T T

1

N

i i

i

y

x φ

1

ˆM

i i

i

y M N

x

2

222

1 1 1

ˆN M N

i i i i i

i i i M

E E y y E y

x x φ φ

Ti iy φ x

2

1 1 1

N N NT T T T Ti i i i i i

i M i M i M

E E

xxφ x x φ φ xx φ φ R φ

2

1 1

ˆ 1 1N N

T T Ti i i i i i i i

i M i M

xxφ φ φ C φ φ φ

1

ˆ2 2

N

i i ii i M

xxC φ φ 0φ

i i ixxC φ φ

2

1 1 1

N N NT Ti i i i i i

i M i M i M

xxφ R φ φ φ

2

T

T T

E yf

w Rww

w w w wRayleigh hányados

Jellemző kiválasztás • KPCA

: , ( )N F Φ x X Φ xR 1

1 P T

j j

jP

C Φ x Φ x V CV 1

P

i i

i

V Φ x

T Tk k Φ x V Φ x CV

1 1 1

1P P PT T T

i k i i k j j i

i i jP

Φ x Φ x Φ x Φ x Φ x Φ x

, Tij i j i jK K x x Φ x Φ x 2P Kα K α P α Kα

1

k kT V V

, 1

, 1

1P

k k Ti ji j

i j

Pk k k kT

iji ji j

k kTk

K

Φ x Φ x

α Kα

α α

1 1

,P P

k kk T Ti ii i

i i

K

V Φ x Φ x Φ x x x

Sajátvektorok normalizálása A jellemzőtérbeli vektorok vetítése

Osztályozás fő lépései (különböző megközelítések)

Jellemző kiválasztás

• Dimenzió redukció a legfontosabb jellemzők meghatározására (PCA, KPCA)

• Dimenzió redukció a legrelevánsabb jellemzők meghatározására (PLS, érzékenység analízis)

• Ritka megoldás keresése (regularizáció, ...)

Tanítás

• MLP BP algorithm

– A telítődő nemlineáris aktivációs függvény hátrányai

• Szigmoid nemlinearitás, a derivált tart nullához ....

• Exponenciális függvények számítása

• Lassú és nagy számítási komplexitású algoritmus

• Lokális minimumba ragadás veszélye

– Hogyan módosítsuk a háló architektúráját a hátrányos kiküszöbölése vagy mérséklése céljából

• Módosítsuk az aktivációs függvényt

Aktivációs függvények

ReLU előnyei - Könnyű számítani - Nincs telítéses

szakasz - A derivált számítása

egyszerű - Univ approximation

képesség megmarad - Hatékony gradiens-

alapú tanítási algoritmusok léteznek

Az „új” MLP architektúra

Tanítás (BP)

Training algorithms • SGD

• Minibatch

• Különböző gradiens alapú algoritmusok

– Momentum (Nesterov momentum)

– AdaGrad, AdaDelta, RMSProp, Adam

Data set

• Increase the number of labelled data

• Artificially generated samples (augmentations)

– Shifting

– Rotating

– Flip vertically or horizontally

– ...

Jellemző kiválasztás

• Különböző típusú rétegek alkalmazása

• A lényegkiemelést maga a háló végzi

– Szűrés (konvolúció), sok konvolúciós réteg

– Dimenzió redukció, feature selection

Convolutional layer

convolution

Feature selection

Pooling layer

Dimension reduction

Fully connected layers

Normál

TBC

Tumor1

Tumor2

Nem azo- nosított elvált

A complex network

Dropout

Complex neurons (to reduce free parameters )

Dropout

Autoencoders • Feature selection, dimension reduction

• (bottleneck layer)

An example

Transfer learning

Fix (pretained) Fix (pretained) Fix (pretained)

trainable

trainable

Implementation

Implementation

Models: GoogleNet: CNN model finetuned on the Extended Salient Object Subitizing dataset (~11K images) and synthetic images. This model significantly improves over our previous models. Recommended. AlexNet: CNN model finetuned on our initial Salient Object Subitizing dataset (~5500 images). The architecture is the same as the Caffe reference network. VGG16: CNN model finetuned on our initial Salient Object Subitizing dataset (~5500 images).

Many further details can be found in http://deeplearning.net/

Some figures of this slide set was obtained from: - Deep Learning NIPS’2015 Tutorial, Geoff Hinton, Yoshua Bengio & Yann LeCun - Introduction to Machine Learning CMU-10701 Deep Learning

https://gist.github.com/jimmie33/7ea9f8ac0da259866b854460f4526034

https://gist.github.com/jimmie33/0585ed9428dc5222981f

https://gist.github.com/jimmie33/27c1c0a7736ba66c2395

http://deeplearning.net/

http://deeplearning.net/

Main types of suspicious areas

spikulált folt

Jóindulatú elváltozás

mikrokalcifikáció architekturális torzítás

malignant

cases

20.05.2004 IMTC 2004, Como, Italy

A képek (esetek) változatossága zsíremlő zsír-grandular sűrű grandular

Kép szegmentálás

Éldetektálás és textura alapú osztályozás

Matching

based on

segment

position

+

texture

parameters

Egy lehetséges út a mikrokalcifikációk detektálásra Image

reading

Texture analysis

Suspicious

segment?

yes no

Focusing

on suspicious

subsegment

yes no

Edge detection

yes

no

Image egment

selection

Reinforcement

Curvilinear

detection

Verification

yes

no

Removing of curvilinear

objects

True positive result

Fals positive

result

Kulcscsont és bordák árnyékának eltüntetése

Kerekárnyék keresés

Összesített eredmények: FROC (Free-Response Receiver Operating Characteristic Curve)

example of the results of the steps of vessel feature extraction.

osztályozás képdiagnosztikánálhome.mit.bme.hu/~horvath/kd/2016osz/osztalyozas...

Documents