metody deep learning - wykład 5
TRANSCRIPT
Metody Deep LearningWykład 5
http://arxiv.org/pdf/1502.01852.pdf
Zaczynamy
Plan z tablicy
● przypomnienie RBMówo P(v, h), P(v|h), P(h|v)o uczenie - GDo CD-k
● teoria z Hugo● sparse● denoising● contractive● przykład: denoising + rekonstrukcja cyferek
● nieskierowany model probabilistyczny● dwie grupy binarnych zmiennych losowych
Restricted Boltzmann Machine
szmienne ukryte (hidden)
szmienne widoczne (visible)
RBM - joint probability● model z energią (model Boltzmanna)● zmienne o wartościach binarnych
Conditional independence - reminder
CI in RBM
inference
inference c.d
RBM learning- zaobserowany zbiór
danych
szukamy parametrów modelu tak aby było jak największe:
RBM learning c.d
- zaobserowany zbiór danych
W RBM każdy zaobserwowany wektor odpowiada zmiennym widocznym
do obliczenia nie bardzo
Wpierw łatwiejsza część gradientu
Contrastive Divergence
-Teoretycznie możemy rozważyć każde możliwe v
-Ilość możliwości jest rzędu
Contrastive Divergence c.d
jak wyznaczyć
- Ponieważ gradient będziemy liczyć wielokrotnie zamiast za każdym razem obliczać wartość przeciętną możemy wylosować v zaszyte w RBM’ie
Samplowanie Gibbsa
- Postępując tak wielokrotnie będziemy przybliżać się do minimalizacji
- Obserwację losową RBM’a nazywamy fantazją sieci
Cel - wylosować próbkę z rozkładu wielowymiarowego P(x, y)Sposób - generujemy x z rozkładu P(x | y) i y z rozkładu P(y | x)Algorytm:
Samplowanie Gibbsa
Kontynuuj aż rozkłady prawdopodobieństw będą stacjonarne
Samplowanie Gibbsa w RBM’ie
- Zacznij próbkowanie od przykładu treningowego
- wykonaj jedynie kilkanaście kroków- pomimo poważnej korelacji pomiędzy tak
otrzymaną fantazją a przykładem uczącym otrzymujemy zaskakująco dobry gradient
- Czasami wystarcza 1 krok!
Propozycja Hintona
Model uczymy metodąstochastycznego spadku gradientu
Uczenie