odredivanje stupnjeva slobode pomo cu dubokog u cenja

6
Odre divanje stupnjeva slobode pomo´ cu dubokog uˇ cenja Matej Pavlovi´ c Mentor: Davor Horvati´ c Fiziˇ cki odsjek, Prirodoslovno-matematiˇ cki fakultet, Bijeniˇ cka 32, Zagreb Kako duboke neuronske mreˇ ze (DNN) izvlaˇ ce bitne znaˇ cajke iz slike je joˇ s uvijek nejasno, ali vje- ruje se da se izvlaˇ cenje znaˇ cajki odvija hijerarhijski. To dosta podsje´ ca na koncept renormalizacijske grupe (RG) iz statistiˇ cke fizike. Kako bi istraˇ zili povezanost RG i DNN primijenili smo ograniˇ cene Boltzmannove strojeve na 2D Isingov model kako bi generirali tok parametara (temperature) sus- tava. Pokazalo se da RBM koji je treniran na temperaturama od 0 do 6 K konvergira u sustav blizu kritiˇ cne temperature od TC =2.27 K, tj. TC se ponaˇ sa kao atraktor toka. I. UVOD Strojno uˇ cenje je podruˇ cje koje u zadnjih par godina dobiva sve ve´ cu i ve´ cu pozornost. Pokazalo se korisnim u podruˇ cjima preko raˇ cunalnog vida, obrade prirodnog je- zika, otkri´ ca novih lijekova pa sve do pobijede nad svjet- skim prvakom u igri Go. Neuronske mreˇ ze daju tako do- bre rezultate jer su u mogu´ cnosti kvalitetno izvu´ ci stup- njeve slobode sustava, a s dobrim stupnjevima slobode sustav se puno lakˇ se i kvalitetnije moˇ ze opisati. Presjek fizike i strojnog uˇ cenja nalazimo u ˇ cinjenici da se oba po- druˇ cja bave prouˇ cavanjem sloˇ zenih sustava s mnogo stup- njeva slobode. U ovom istrˇ zivanju primijenit ´ cemo alate strojnog uˇ cenja na poznate probleme iz fizike kako bi nam dali neki bolji uvid u sustav. Bavit ´ cemo se prouˇ cavanjem faznog prijelaza 2D Isingovog modela koriste´ ci neuronske mreˇ ze. Konkretno, prouˇ cavat ´ cemo ponaˇ sanje sustava za tok parametara u prostoru znaˇ cajki koje neuronska mreˇ za odredi da su relevantne. II. 2D ISINGOV MODEL [1][2] Isingov model je matematiˇ cki model feromagnetizma u statistiˇ ckoj fizici. 2D sustav modeliramo reˇ setkom N ×N na ˇ cijim se ˇ cvorovima nalaze spinovi koji mogu poprimiti vrijednost σ = {-1, 1}. Na stanje ˇ cvora utjeˇ cu stanja njegovih susjeda, a spinovi se rasporede tako da mini- miziraju energiju na danoj temperaturi. Hamiltonijan sustava (kada nema vanjskog magnetskog polja) dan je jednadˇ zbom: H(σ)= - X J ij σ i σ j , (1) gdje suma ide preko parova susjednih spinova, svaki par se broji jednom, J ij je jaˇ cina interakcije izme du dva su- sjedna ˇ cvora i i j . Particijska funkcija sustava na tempe- raturi T je dana izrazom: Z = X σ i e -H(σ i )/(kT ) , (2) gdje je k Boltzmannova konstanta, σ i oznaˇ cava jedno od stanja cijelokupnog sustava, a suma ide po svi mogu´ cim stanjima sustava. Vjerojatnost da se sustav na de u stanju σ S dana je jednadˇ zbom: P (σ S )= e -H(σ S )/(kT ) Z , (3) dobivena distribucija se naziva Boltzmannova distribu- cija. III. OGRANI ˇ CENI BOLTZMANNOV STROJ [3][4] Ograniˇ ceni Boltzmannovi strojevi (Restricted Boltz- mann Machine - RBM) su generativni stohastiˇ cki ener- getski modeli koji uˇ ce distribuciju ulaznih podataka. Najjednostavniji RBM se sastoji od jednog vidljivog i jednog skrivenog sloja (Slika 1 [5] ), mreˇ za nije usmjerena ˇ sto znaˇ ci da informacija moˇ ze i´ ci od vidljivog do skrive- nog sloja i obrnuto. Mreˇ za ima skup parametara λ = {a, w, b}, gdje je a vek- tor slobodnih parametra vidljivog sloja, b vektor slobod- nih parametra skrivenog, a w matrica teˇ zina koja pove- zuje skriveni i vidljivi sloj. Energetska funkcija [6] RBM-a je dana izrazom: E(v,h)= - X i a i v i - X j b j h j - X i,j v i w i,j h j (4) E(v,h)= -a T v - b T h - v T W h, (5) gdje je v vidljivi (ulazni) vektor, a h je skriveni vektor. Cilj RBM-a je nauˇ citi distribuciju p λ (vsto bliˇ zu stvarnoj distribuciji P (v). Potrebno je naglasiti da je ulazni i skriveni vektori su binariziran v i ,h i ∈{0, 1}. Skriveni vektor se raˇ cuna kao h(v)= S(v T W + b),S(x)= 1 1+ e -x (6) izlaz iz funkcije S je ograniˇ cen intervalom [0, 1] i pred- stavlja vjerojatnost da se dani ˇ cvor postavi na vrijed- nost 1 (upravo zbog toga se ovakvi modeli nazivaju sto- hastiˇ ckim).

Upload: others

Post on 02-Oct-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

Odredivanje stupnjeva slobode pomocu dubokog ucenja

Matej Pavlovic

Mentor: Davor HorvaticFizicki odsjek, Prirodoslovno-matematicki fakultet, Bijenicka 32, Zagreb

Kako duboke neuronske mreze (DNN) izvlace bitne znacajke iz slike je jos uvijek nejasno, ali vje-ruje se da se izvlacenje znacajki odvija hijerarhijski. To dosta podsjeca na koncept renormalizacijskegrupe (RG) iz statisticke fizike. Kako bi istrazili povezanost RG i DNN primijenili smo ograniceneBoltzmannove strojeve na 2D Isingov model kako bi generirali tok parametara (temperature) sus-tava. Pokazalo se da RBM koji je treniran na temperaturama od 0 do 6 K konvergira u sustav blizukriticne temperature od TC = 2.27 K, tj. TC se ponasa kao atraktor toka.

I. UVOD

Strojno ucenje je podrucje koje u zadnjih par godinadobiva sve vecu i vecu pozornost. Pokazalo se korisnim upodrucjima preko racunalnog vida, obrade prirodnog je-zika, otkrica novih lijekova pa sve do pobijede nad svjet-skim prvakom u igri Go. Neuronske mreze daju tako do-bre rezultate jer su u mogucnosti kvalitetno izvuci stup-njeve slobode sustava, a s dobrim stupnjevima slobodesustav se puno lakse i kvalitetnije moze opisati. Presjekfizike i strojnog ucenja nalazimo u cinjenici da se oba po-drucja bave proucavanjem slozenih sustava s mnogo stup-njeva slobode. U ovom istrzivanju primijenit cemo alatestrojnog ucenja na poznate probleme iz fizike kako bi namdali neki bolji uvid u sustav. Bavit cemo se proucavanjemfaznog prijelaza 2D Isingovog modela koristeci neuronskemreze. Konkretno, proucavat cemo ponasanje sustavaza tok parametara u prostoru znacajki koje neuronskamreza odredi da su relevantne.

II. 2D ISINGOV MODEL[1][2]

Isingov model je matematicki model feromagnetizma ustatistickoj fizici. 2D sustav modeliramo resetkom N×Nna cijim se cvorovima nalaze spinovi koji mogu poprimitivrijednost σ = {−1, 1}. Na stanje cvora utjecu stanjanjegovih susjeda, a spinovi se rasporede tako da mini-miziraju energiju na danoj temperaturi. Hamiltonijansustava (kada nema vanjskog magnetskog polja) dan jejednadzbom:

H(σ) = −∑

Jijσiσj , (1)

gdje suma ide preko parova susjednih spinova, svaki parse broji jednom, Jij je jacina interakcije izmedu dva su-sjedna cvora i i j. Particijska funkcija sustava na tempe-raturi T je dana izrazom:

Z =∑σi

e−H(σi)/(kT ), (2)

gdje je k Boltzmannova konstanta, σi oznacava jedno odstanja cijelokupnog sustava, a suma ide po svi mogucim

stanjima sustava. Vjerojatnost da se sustav nade u stanjuσS dana je jednadzbom:

P (σS) =e−H(σS)/(kT )

Z, (3)

dobivena distribucija se naziva Boltzmannova distribu-cija.

III. OGRANICENI BOLTZMANNOV STROJ[3][4]

Ograniceni Boltzmannovi strojevi (Restricted Boltz-mann Machine - RBM) su generativni stohasticki ener-getski modeli koji uce distribuciju ulaznih podataka.Najjednostavniji RBM se sastoji od jednog vidljivog ijednog skrivenog sloja (Slika 1[5]), mreza nije usmjerenasto znaci da informacija moze ici od vidljivog do skrive-nog sloja i obrnuto.Mreza ima skup parametara λ = {a,w, b}, gdje je a vek-tor slobodnih parametra vidljivog sloja, b vektor slobod-nih parametra skrivenog, a w matrica tezina koja pove-zuje skriveni i vidljivi sloj. Energetska funkcija[6] RBM-aje dana izrazom:

E(v, h) = −∑i

aivi −∑j

bjhj −∑i,j

viwi,jhj (4)

E(v, h) = −aT v − bTh− vTWh, (5)

gdje je v vidljivi (ulazni) vektor, a h je skriveni vektor.Cilj RBM-a je nauciti distribuciju pλ(v) sto blizu stvarnojdistribuciji P (v). Potrebno je naglasiti da je ulazni iskriveni vektori su binariziran vi, hi ∈ {0, 1}. Skrivenivektor se racuna kao

h(v) = S(vTW + b), S(x) =1

1 + e−x(6)

izlaz iz funkcije S je ogranicen intervalom [0, 1] i pred-stavlja vjerojatnost da se dani cvor postavi na vrijed-nost 1 (upravo zbog toga se ovakvi modeli nazivaju sto-hastickim).

Page 2: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

2

Vjerojatnost da se mreza poprimi stanje zadano s v i hje:

pλ(v, h) =e−E(v,h)∑

vi,hi∈stanje e−E(vi,hi)

(7)

gdje suma ide po svim mogucim stanjima vektora v i h.Takoder mozemo sumirati po svim stanjima vektora v(h)i dobiti vjerojatnost vektora h (v) neovisno o vektoruv(h), jednadzbe[7] (8) i (9).

pλ(v) = Trh(pλ(v, h)) (8)

pλ(h) = Trv(pλ(v, h)) (9)

Slika 1: Shematski prikaz RBM-a.

Minimiziranjem Kullback-Leibler divergencije (DKL)pronalazimo optimalne parametre λopt, DKL je metrikaslicnosti dvije distribucije.

DKL(P (v)||pλ(v)) =∑v

P (v) log(P (v)

pλ(v)) (10)

Parametri λ se treniraju metodom gradijentog spusta.Nakon treniranja za dani ulaz v dobiveni vektor h pred-stavlja latentne varijable, takoder mozemo iz vektora hgenerirati novi vektor v (stanje sustava) koji ce biti nestodrukciji od pocetnog.Kako bi mogli odrediti temperaturu dobivenog sustavaimplementirali smo neuronsku mrezu za mjerenje tem-perature. Ulaz u mrezu su spinovi sustava dok je izlazdistribucija vjerojatnosti za temperaturu. Mreza se sas-toji od jednog skrivenog sloja (Slika 2[5]) i trenirana je daminimizira unakrsnu entropiju izlaza i stvarne vrijednostitemperature. Temperatura je binarizirana u 25 binova.Parametri mreze su trenirani gradijentnim spustom kaoi kod RBM-a.

L = −M∑c=1

yci log(pci ) (11)

Jednadzba (11) je izraz za unakrsnu entropiju gdje jeM broj klasa (25 u nasem slucaju), a yci ∈ {0, 1} jeoznaka pripada li i-ti primjer klasi c, dok pci je predvidavjerojatnost da i i-ti primjer pripada klasi c.

Slika 2: Shematski prikaz modela za temperaturu, usvakom cvoru se nalazi aktivacijska funkcija.

IV. REZULTATI I ANALIZA

IV.1. Generiranje podataka

Podatke 2D Isingovog modela generiramo pomocuMonte-Carlo simulacije. Prvo generiramo 2D mrezu di-menzija L × L s nasumicnim vrijednostima σx,y = ±1,bitno je napomenuti da zahtijevamo periodicne rubneuvijete:

σL,y = σ0,y, σx,L = σx,0. (12)

Generiranje spinske konfiguracije sustava na temperaturiT vrsimo pomocu Monte-Carlo simulacije. Nakon gene-riranja pocetne mreze nasumicno odaberemo spin σx,y te

ga okrenemo s vjerojatnoscu[5]:

px,y =

{1, dEx,y < 0

e−dEx,y/kBT , dEx,y > 0(13)

gdje je dEx,y promjena energije sistema kada okrenemospin na poziciji x,y. Iz energije interakcije izmedu elek-trona mozemo izraziti dEx,y kao:

dEx,y = 2Jσx,y(σx+1,y+σx−1,y+σx,y+1 +σx,y−1). (14)

Bez gubitka opcenitosti mozemo postaviti konstanteJ i kB na 1.

Velicinu mreze smo postavili na L × L = 10 × 10, teMonte-Carlo postupak ponavljamo 100L2 = 10000 puta,tj. 10000 puta nasumicno odaberemo elektron te ga okre-nemo s vjerojatnoscu danom jednadzbom 13. Sustav ge-neriramo na temperaturama od 0 K do 6 K s inkremen-tom od 0.25 K, za svaku temperaturu izgeneriramo 1000

Page 3: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

3

Slika 3: 25 nasumicno izvucenih primjera iz skupa za treniranje, za svaku temperaturu prikazujemo jedan primjer.

puta, cijeli postupak ponovimo dva puta kako bi imaliskup za treniranje i skup za testiranje. Na slici 3 su pri-kazani primjeri izgeneriranih podataka.

IV.2. Temperaturni model

Model za odredivanje temperature iz spinske konfigu-racije sastoji se od neuronske mreze s jednim skrivenimslojem. Brojevi neurona u svakom sloju dani su re-dom ulazni sloj 100, skriveni sloj 64 i izlazni sloj 25.Ulazni broj neurona odreden je time sto nam je resetkadimenzija 10 × 10 koju ”rastegnemo” u vektor duljine100, dok je izlazni sloj odreden brojem temperatura kojesmo generirali. Aktivacijska funkcija u skrivenom sloju

je f(x) = tanh(x). Zbog prirode problema, spinovi mogubiti ±1 dok je domena tanh od -1 do 1, izabrana je takvaaktivacijska funkcija. Aktivacijska funkcija na izlaznomsloju je softmax:

f( ~X)i =exi∑i exi. (15)

Softmax nam vraca vjerojatnost za svaki ”bin”, sto namomogucava da promatramo distribuciju po temperaturi.Na Slici 4 je prikazana greska na skupu za treniranje i va-lidaciju ovisno o broju iteracija, da smo treniranje pustilijos iteracija model bi se prenaucio, greska na skupu zatreniranje bila bi znacajno manja nego na skupu za va-lidiranje. Slika 5 i 6 prikazuju temperature koja mrezamjeri na skupu podataka koji nije koristen za treniranja.

Page 4: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

4

Slika 4: Greska na skupu za ucenje i validaciju oovisnosti o broju iteracija kod modela za temperaturu.

Slika 5: Distribucije vjerojatnosti temperature zasustave na temperaturama 0, 2, 4 i 6 K.

Slika 6: Distribucije vjerojatnosti temperature zasustave na temperaturama 1, 3 i 5 K.

Mozemo primijetiti da model daje maksimum distribu-cije na temperaturi sustava. Maksimum nije uvijek ostarvrh ali s grafa mozemo ocitati o kojoj temperaturi se radi.

Ako pogledamo sliku 3 (primjer podataka) vidimo da zanpr. sustav na 0.75 K i 1.5K skoro pa i nema razlike (nadanom primjeru) pa je za ocekivati da ce ih model tezerazlikovati.

IV.3. Tok parametara

Nakon sto se istrenira RBM sa skrivenim slojem od 64neurona koristimo ga za generiranje sekvence distribucijesustava (tok temperature). Stohasticki dio unutar RBM-a nam garantira da se ne izgenerira isti sustav nego sustavkoji ima slicne latente varijable kao i pocetni. Krenemo

od nekog sustava v(0)i i generiramo sustave kao:

v(0)i → h

(1)i → v

(1)i → h

(2)i → v

(2)i → ... (16)

sto nam daje tok konfiguracije sustava, tj. kada koristimomodel za mjerenje temperature dobijemo tok distribucijetemperature sustava. Bitno je napomenuti da je sustavmapiran u 0 i 1 prije ulaska u RBM, tako da trebamo pa-ziti da izgenerirani sustav mapiramo u ±1 prije prolaskakroz temperaturni model.Promatramo tok temperature za razlicite pocetne uvjete,pocetni sustavi su oni iz skupa za validaciju tako da mrezese nikad nisu ucile na njima. Na slikama 7, 8 i 9 vidimoponasanje sustava kada su pocetne temperature 0, 2.5 i6 K. Grafovi pokazuju distribucije temperature sustavaovisno o iteraciji, na lijevoj slici je distribucija za malibroj iteracija, dok je na desnoj za veliki. Rezultati indi-ciraju da tok koji generiramo pomocu RBM-a konvergirau stabilnu kriticnu temperaturu TC , cak i nakon velikojbroj iteracija distribucija temperature ostane skoro paista.Kriticna temperaturu 2D Isingovog modela je 2.27 K, asustav nam je konvergirao u 2.25 K (najblizi bin kojiimamo). Takoder vidimo da sustav uvijek konvergira uTC neovisno o pocetnoj temperaturu sustava.

V. ZAKLJUCAK

Strojno ucenje i fizika imaju puno dodirnih tocaka, tese alati stojnog ucenja mogu iskoristiti kako bi bolje razu-mjeli fiziku. Upotrijebili smo ogranicene Boltzmannovestojeve kako bi dobili stupnjeve slobode Isingovog mo-dela.Prvo smo izgenerirali stanja 2D Isingovog modelapomocu Monte-Carlo simulacije. Koristili smo po 1000stanja za temperature od 0 K do 6 K, s korakom od 0.25K, jedan takav skup je bio za ucenje, a drugi za valida-ciju. Zatim smo natrenirali model za mjerenje tempera-ture sustava koji nam je vracao distribuciju po tempera-turama. Dva modela smo spojili tako da je RBM generi-rao stanja iz nekog pocetnog dok smo s drugim modelommjerili temperaturu dobivenog sustava.Dobili smo da generirani sustavi konvergiraju u sustav

Page 5: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

5

(a) (b)

Slika 7: Distribucija temperatura sustava nakon raznog broja iteracija toka. Pocetni sustav se nalazio na 0 K, akonacni se stabilizirao u blizini TC

(a) (b)

Slika 8: Distribucija temperatura sustava nakon raznog broja iteracija toka. Pocetni sustav se nalazio na 2.5 K, akonacni se stabilizirao u blizini TC

(a) (b)

Slika 9: Distribucija temperatura sustava nakon raznog broja iteracija toka. Pocetni sustav se nalazio na 6 K, akonacni se stabilizirao u blizini TC

koji ima temperaturu TC = 2.25 K, takoder smo poka-zali da temperatura pocetnog sustava nema utjecaj na

temperaturu konvergencije, tj. TC se ponasa kao atrak-tor toka RBM-a.

Page 6: Odredivanje stupnjeva slobode pomo cu dubokog u cenja

6

Ovakva metodologija mogla bi nam dati kriticnu tem-peraturu sustava koje ne mozemo teorijski odrediti, teproucavanje skrivenog vektora RBM-a nam sigurno mozedati jos korisnih informacija o sustavu.

LITERATURA

This is a sample text in blue.[1] Barry M. McCoy and Tai Tsun Wu, ”The Two-Dimensional Ising Model”. Harvard University Press,Cambridge Massachusetts (1973), ISBN 0-674-91440-6[2] Baxter, Rodney J., ”Exactly solved models in statis-tical mechanics”, London: Academic Press Inc. (1982),ISBN 978-0-12-083180-7

[3] G. E. Hinton and R. R. Salakhutdinov, “Reducing thedimensionality of data with neural networks,” Science313 (2006) 504.[4] G. E. Hinton, “A principal guide to training restrictedBoltzmann machines,” Neural networks: Tricks of theTrade, Springer (2012) pp.599-619.[5] Satoshi Iso at al. ”Scale-invariant Feature Extractionof Neural Network and Renormalization Group Flow”,In: ArXiv (Jan. 2018). arxiv: 1801.07172[6] LeCun, Yann at al. ”A Tutorial on Energy-BasedLearning” . In Predicting Structured Data. NeuralInformation Processing series. MIT Press (2006). ISBN978-0-26202617-8. [7] Luo Di, ”Machine Learning,Renormalization Group and Phase Transition”, (2017)