neuronske mreže: radijalne mreže - ieee.hr · 2 pregled predavanja zuvod zcoverov teorem o...

1

Neuronske mreže:Radijalne mreže

Prof. dr. sc. Sven Lončarić

Fakultet elektrotehnike i rač[email protected]://ipg.zesoi.fer.hr

2

Pregled predavanjaUvodCoverov teorem o separabilnosti uzorakaProblem interpolacijeInterpolacija radijalnom mrežomGeneralizirane radijalne mrežeUčenje pod nadzorom kao loše postavljeni problem rekonstrukcije hiperploheTeorija regularizacijeRegularizacijske mrežeXOR problem

3

Pregled predavanjaUsporedba višeslojnih i radijalnih mrežaStrategije učenjaDiskusijaZadaci

4

UvodEngl. radial-basis function (RBF) networksKod višeslojnih mreža koje koriste BP algoritam učenje se interpretira kao problem optimizacije (minimizacije srednje kvadratne pogreške)Kod radijalnih mreža učenje se interpretira kao problem aproksimacije funkcije s više argumenataFunkcija koju treba aproksimirati je funkcija ulaz-izlaz definirana parovima za učenje

5

Struktura radijalne mrežeOsnovna RBF mreža ima tri sloja:

ulazni slojskriveni sloj koji ima drugačiju ulogu nego kod višeslojnih mrežaizlazni sloj

Transformacija od ulaznog sloja do skrivenog sloja je nelinearnaTransformacija od skrivenog sloja do izlaznog sloja je linearna

6

Struktura radijalne mreže

ulazni skriveni izlazni nelinearni linearni sloj sloj sloj

7

Coverov teoremKod upotrebe RBF mreža za probleme klasifikacije uzoraka problem se rješava nelinearnom transformacijom ulaznih uzoraka u prostor više dimenzije nego što je ulazni prostorMotivacija za ovaj postupak je Coverov teorem o separabilnosti uzoraka koji kaže:Veća je vjerojatnost da nelinearno transformirani vektori u višedimenzionalnom prostoru budu linearno separabilni nego u originalnom nižedimenzionalnom prostoru

8

Coverov teorem - interpretacijaIz materijala o perceptronu poznato nam je da je problem klasifikacije jednostavan kad su uzorci linearno separabilniInterpretacija radijalne mreže kao klasifikatora:

1. Skriveni sloj nelinearno transformira ulazne uzorke tako da klase postanu linearno separabilne

2. Izlazni sloj je linearan i kao takav može obaviti klasifikaciju dvaju linearno separabilnih klasa

9

Coverov teoremNeka je X = { x1, x2, …, xN } skup ulaznih uzoraka gdje svaki uzorak pripada jednoj od dviju klasa X+ i X-

Neka je ulazni vektor x p-dimenzionalanFormirajmo za svaki vektor x novi vektor:

Tada vektor ϕ(x) preslikava ulazne vektore u novi M-dimenzionalni prostorFunkcija ϕi(x) zove se skrivena funkcija jer ima ulogu sličnu skrivenom neuronu u višeslojnoj mreži

TM )](,),(),([)( 21 xxxx ϕϕϕ K=ϕ

10

Coverov teoremZa dvije klase ulaznih uzoraka X+ i X- kaže se da su ϕ-separabilne ako postoji M-dimenzionalni vektor wtakav da vrijedi:

Hiperravnina definirana jednadžbom

definira plohu razdvajanja u ϕ prostoru

−

+

∈<∈≥

XX

T

T

xxwxxw

,0)(,0)(

ϕϕ

0)( =xw ϕT

11

Coverov teoremInverzna slika ove hiperravnine definira graničnu plohu u ulaznom prostoru (prostoru ulaznih uzoraka):

{ }0)(: =xwx ϕT

12

Primjer: XOR problem0 XOR 0 = 01 XOR 1 = 00 XOR 1 = 1 1 XOR 0 = 1

(0,0) (1,0)

(0,1)(1,1)

x1

x2

13

Primjer: XOR problemDefinirajmo skrivene funkcije kao:

Ulazni vektori se preslikavaju u ϕ prostoru na slijedeći način

T

T

ee

]0,0[,)(]1,1[,)(

22

112

2

21

==ϕ

==ϕ−−

−−

txtx

tx

tx

14

Primjer: XOR problemVidi se da su ulazni uzorci u novom prostoru linearno separabilni i problem se može rješitilinearnim klasifikatorom kao što je perceptron(izlazni sloj radijalne mreže)

(0,0)(1,0) (0,1)

(1,1)ϕ2

granica

1

1

ϕ1

15

Problem interpolacijePretpostavimo da imamo mrežu s ulaznim, jednim skrivenim i izlaznim slojem s jednim neuronomNeka mreža realizira nelinearno preslikavanje od ulaza do skrivenog sloja i linearno preslikavanje od skrivenog do izlaznog slojaSveukupno mreža realizira preslikavanje

Ovo preslikavanje može se prikazati kao ploha

RRs p →:

1+⊂Γ pR

16

Problem interpolacijeTreniranje mreže može se onda shvatiti kao optimizacija aproksimacijske funkcije koja bi trebala biti što sličnija željenoj plohi Γ koja je određena pomoću parova za učenje ulaz-izlazFaza generalizacije je ekvivalentna interpolaciji između zadanih točaka ulaz-izlazOvo vodi na teoriju multivarijabilne interpolacije u okviru koje se problem interpolacije postavlja na sljedeći način

17

Problem interpolacijeUz dani skup od N točaka

i korespondentni skup od N realnih brojeva

treba naći funkciju

takvu da zadovoljava uvjet interpolacijeRRF p →:

{ }NiR pi ,,2,1| K=∈x

{ }NiRdi ,,2,1| K=∈

NidF ii ,,2,1,)( K==x

18

Interpolacija radijalnom mrežom

Radijalne mreže koriste interpolacijsku tehniku gdje funkcija F ima slijedeću formu:

gdje je

skup proizvoljnih (nelinearnih) funkcija koje se zovu radijalne funkcije (engl. radial-basis functions) Poznati uzorci xi se uzimaju kao centri radijalnih funkcija

( )∑=

−=N

iiiwF

1

)( xxx ϕ

( ){ }Nii ,,2,1| K=− xxϕ

19


Ako uvjet interpolacije izrazimo pomoću izraza za radijalne funkcije dobivamo:

gdje je

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

NNNNNN

N

N

d

dd

w

ww

MM

L

MMMM

L

L

2

1

2

1

21

22221

11211

ϕϕϕ

ϕϕϕϕϕϕ

Nijijji ,,2,1,),( K=−= xxϕϕ

20


Neka su d i w vektor željenog odziva i vektor težina:

Neka je Φ matrica dimenzija N×N s elementima ϕij:

Ova matrica zove se interpolacijska matricaRanije dobiveni sustav jednadžbi možemo pisati u obliku:

[ ][ ]TN

TN

wwwddd,,,,,,

21

21

K

K

==

wd

{ } Nijji ,,2,1,, K== ϕΦ

dΦw =

21


Pretpostavimo da su x1, …, xN različiti vektori.Promatrajmo klasu radijalnih funkcija koje imaju svojstvo da je pripadna interpolacijska matrica Φpozitivno definitnaPrimjeri ovakvih radijalnih funkcija (najćešćekorišteni) su:

0,0,)(

1)( 2/122 ≥>+

= rccr

rϕ

0,0,2

exp)( 2

2

≥>⎟⎟⎠

⎞⎜⎜⎝

⎛−= rrr σ

σϕ

22


Istraživanja su pokazala da izbor nelinearne funkcije nije kritičanBudući da je matrica Φ pozitivno definitna postoji inverzna matrica i nepoznati vektor težina možemo dobiti kao:

Iako danu jednadžbu teoretski uvijek možemo riješiti u praksi imamo poteškoća s nalaženjem inverznematrice ako je matrica Φ blizu singularnoj matriciOvaj problem se može riješiti uz pomoć teorije regularizacije

dΦw 1−=

23


i-ti neuron skrivenog sloja realizira funkciju ϕ(||x-xi||)Izlazni neuron računa linearnu kombinaciju svojih ulaza

ulazni skriveni izlazni sloj sloj sloj

w1

wN

F(x)

x1

xp

ϕ(||x-x1||)

ϕ(||x-xN||)

24

Generalizirana radijalna mrežaIz ranije izloženoga vidi se da za svaki ulazni uzorak xi trebamo jedan neuron u skrivenom slojuZa veliki broj ulaznih uzoraka to postaje problemU tom slučaju može se koristiti umjesto N samo M << N radijalnih funkcija

∑=

−=M

iiiwF

1)()( xxx ϕ

25

Generalizirana radijalna mrežaDobivena matrica Φ u ovom slučaju ima dimenzije N×M tako da inverzna matrica ne postojiTežine za ovaj slučaj možemo naći pomoću pseudoinverzne matrice od Φ

dΦΦΦdΦw TT 1)( −+ ==

26

ModifikacijeOsim da se koristi M<<N moguće su i druge modifikacije osnovne ideje radijalnih mreža:1. Centri radijalnih funkcija ne moraju biti određeni vrijednostima ulaznih vektora nego mogu imati i neke druge vrijednosti2. Ako se koriste npr. Gausove funkcije, svaka funkcija može imati različiti parametar širine σ3. Izlaznom neuronu se može dodati i pragSvi ovi nepoznati parametri se moraju onda odrediti u procesu učenja

27

Učenje kao inverzni problemUčenje se može shvatiti kao problem rekonstrukcije plohe koja je definirana skupom točaka koje mogu biti i jako razmaknuteGledajući na taj način učenje je inverzni problem (poznato je nekoliko parova točaka ulaz-izlaz, a treba odrediti funkciju F tj. cijelu plohu)Inverzni problem može biti dobro postavljen (engl. well-posed) i loše postavljen (engl. ill-posed)Pretpostavimo da imamo nepoznato preslikavanje

gdje je X domena, a Y kodomenaYXF →:

28

Dobro postavljen problemDefinicija: Problem rekonstrukcije funkcije F je dobro postavljen ako su zadovoljena slijedeća tri uvjeta:1. Egzistencija: za svaki ulaz x postoji izlaz y=F(x)2. Injektivnost: F(x)=F(t) ako i samo ako x=t3. Kontinuiranost:

gdje su ρx i ρy mjere za udaljenost između vektora

ερδρεδδε <⇒<=∃>∀ ))(),((),(|)(,0 txtx FFyx

29

Loše postavljen problemDefinicija: Problem rekonstrukcije funkcije F je loše postavljen onda i samo onda ako nije dobro postavljen

30

Učenje pod nadzoromUčenje pod nadzorom je loše postavljen problem rekonstrukcije željene plohe:1. Nema dovoljno informacija u primjerima za učenje tako da injektivnost ne vrijedi2. Zbog šuma i nepreciznosti ne vrijedi ni uvjet kontinuiranosti ni egzistencijeDa bi problem učenja postao dobro postavljen potrebno je imati neko dodatno a priori znanje o preslikavanju FTakvo znanje može biti sadržano u redundantnosti uzoraka za učenje

31

Teorija regularizacijeTikhonov, 1963Teorija regularizacije omogućuje nalaženje rješenja za loše postavljene inverzne problemeIdeja regularizacije je da stabilizira rješenje dodatnim funkcionalom koji sadrži u sebi a priori informaciju o preslikavanju F (npr. kontinuiranost)Na taj način se loše postavljeni problem pretvara u dobro postavljeni problemNepoznata funkcija F se određuje minimizacijom funkcije cijene E(F) koja se sastoji od dva člana

32

Teorija regularizacijeStandardni član pogreške mjeri pogrešku između željenog odziva i dobivenog odziva za neku funkciju F

Član za regularizaciju ovisi o geometrijskim svojstvima funkcije F

gdje je P linearni diferencijalni operator

∑=

−=N

iiis FdFE

1

2)]([21)( x

2

21)( FFEc P=

33

Rješenje problema Princip regularizacije je minimizirati funkciju definiranu izrazom

Za određeni izbor operatora P može se izračunati optimalna vrijednost funkcije F koja ima formu:

gdje funkcija G (. ; .) ovisi o izboru operatora P

)()()( FEFEFE cs λ+=

∑=

=N

iiiGwF

1);()( xxx

34

Rješenje problemaU slučaju da je operator P invarijantan na pomak funkcija G je radijalna funkcija:

∑=

−=N

iiiGwF

1

)()( xxx

35

Regularizacijske mrežeZaključak: Regularizacija problema interpolacije dovodi do radijalnih mreža kao rješenjaRadijalne mreže su arhitektura koja omogućuje rješenje interpolacijskog problema korištenjem teorije regularizacije

36

Radijalna mrežaSkriveni sloj daje vrijednosti funkcija G(||x - xi||) Izlazni sloj realizira linearnu kombinaciju

ulazni skriveni izlazni sloj sloj sloj

w1

wN

F(x)

x1

xp

37

Kao radijalnu funkciju koristimo:

gdje su centri t1=[1 1]T i t2=[0 0]T

Izlazni neuron ima i prag b da bi mreža mogla lakše naučiti željenu funkciju

( ) ( ) 2,1,exp 2 =−=− iG ii txtx

Primjer: XOR problem

38

Primjer: XOR problemStruktura RBF mreže prikazana je na slici:

w1

w2

+1 bx1

x2

y

39

Primjer: XOR problemOdnos ulaz-izlaz ima oblik:

Da bi mreža naučila zadane primjere za učenje treba vrijediti:

Neka je:

( ) bGwyi

ii +−= ∑=

2

1)( txx

4,3,2,1,)( == jdy jjx

( ) 2,1;4,3,2,1, ==−= ijGg ijji tx

40

Primjer: XOR problemTada dobivamo sustav jednadžbi u matričnoj formi: Gw=d gdje je:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

137,037,01113,0137,037,0113,01

1111

4241

3231

2221

1211

gggggggg

G

[ ]Tbww 21=w

[ ]T0101=d

41

Primjer: XOR problemOvaj sustav jednadžbi je predeterminiran jer ima više jednadžbi nego nepoznanicaZbog toga matrica G nije kvadratnaRješenje nalazimo pomoću pseudoinverzne matrice:

w = G+ d = (GT G)–1 GT

Rješenje je w = [2.28 2,28 –1,7]T

Prve dvije dobivene težine su jednake zbog simetrije problema

42

Usporedba RBF i višeslojnih mreža1. RBF mreža ima jedan skriveni sloj dok perceptron

može imati i više slojeva2. Svi neuroni perceptrona obično imaju isti model dok

su skriveni neuroni RBF mreže različiti i imaju drugu ulogu

3. Skriveni sloj RBF mreže je nelinearan, a izlazni linearan, kod perceptrona svi su neuroni nelinearni

4. Argument aktivacijske funkcije kod RBF mreže je udaljenost između ulaznog vektora i centra, a kod perceptrona argument aktivacijske funkcije je skalarni produkt ulaznog vektora i vektora težine.

43

Strategije učenjaPostoji više različitih strategija učenja kod radijalnih mreža

Neke od mogućih strategija su:

1. Fiksni centri koji su slučajno odabrani2. Samo-organizirani odabir centara3. Odabir centara pod nadzorom

44

Fiksni centri U ovom pristupu centri RBF funkcija postavljeni su na unaprijed određene lokacije ti

gdje je M broj centara, a d je maksimalna udaljenost izmedu centaraStandardna devijacija Gausovih funkcija jednaka je

( ) MidMG ii ,,2,1,exp 2

2 K=⎟⎠⎞

⎜⎝⎛ −−=− txtx

Md2

=σ

45

Fiksni centriOvakav odabir standardne devijacije garantira da Gausove funkcije neće biti niti preuske ni preširokeJedine nepoznanice koje se trebaju odrediti procesom učenja su težine wTežine se mogu odrediti pseudoinverznom metodom:

gdje je matrica G={gji} i

dGw +=

MiNjdMg ijji ,,1;,,1,exp

2

2 KK ==⎟⎠⎞

⎜⎝⎛ −−= tx

46

Samo-organizirani centriU ovom pristupu centri radijalnih funkcija se mogu pomicati na samoorganizirani načinSamoorganizacija omogućuje da se centri funkcija postave samo u područjima gdje ima puno ulaznih vektora

47

Samo-organizirani centriPoložaji centara mogu se računati algoritmom grupiranja s K srednjih vrijednostiIznosi težina w se računaju kroz proces učenja pod nadzoromZa učenje pod nadzorom može se koristiti LMS algoritamIzlazi skrivenih neurona služe kao ulazi za LMS algoritam učenja

48

Učenje pod nadzoromOvo je najopćenitiji slučaj gdje se svi slobodni parametri mreže određuju učenjem pod nadzorom (korekcijom pogreške)U ovom pristupu promatramo pogrešku mreže za sve parove ulaz-izlaz:

gdje je N broj parova za učenje, a ej signal pogreške

∑=

=N

jjeE

1

2

21

49

Učenje pod nadzoromPogreška ej definirana je kao:

gdje je:

a matrica A je pozitivno definitna matrica

( )∑=

−−=

−=M

iAijij

jjj

Gwd

Fde

1

)(

tx

x

AzzzzzAA

T== ,2

50

Učenje pod nadzoromU ovom pristupu slobodni parametri koje treba odrediti da bi se minimizirala pogreška su:

težine wi

centri radijalnih funkcija ti

matrica skalarnog produkta AIterativnom metodom najbržeg spusta izvode se korekcije gornjih parametara

51

Učenje pod nadzoromEksperimenti su pokazali da:1. Radijalna mreža s samo-organizirajućim centrima i učenjem izlaznih težina pod nadzorom ima lošija svojstva generalizacije od višeslojnog perceptrona2. Generalizirane RBF mreže gdje se svi parametri određuju učenjem pod nadzorom imaju bolja svojstva generalizacije

52

Primjene radijalnih mrežaObrada slikePrepoznavanje govoraAdaptivna ekvalizacijaMedicinska dijagnostikaLokalizacija izvora kod radaraAnaliza stohastičkih signala

53

ZadaciZadatak 7.3Težine w dobivene u primjeru za rješenje XOR problema predstavljaju samo jednu moguću realizacijuNaći alternativne vrijednosti težina w za rješenje XOR problema

neuronske mreže: radijalne mreže - ieee.hr · 2 pregled predavanja zuvod zcoverov teorem o...

Documents