learning non supervisionato
DESCRIPTION
Learning Non Supervisionato. LNS-1. LEARNING NON SUPERVISIONATO. Non c’è insegnante Reti con Input e Output, Nessun Feedback dall’ambiente. La Rete deve scoprire Da Sola Caratteristiche, Regolarità, Correlazioni , etc. nei dati di input. (AUTO-ORGANIZZAZIONE). - PowerPoint PPT PresentationTRANSCRIPT
Learning Non Supervisionato
LEARNING NON SUPERVISIONATOLEARNING NON SUPERVISIONATO
Non c’è insegnante Reti con Input e Output,Nessun Feedback dall’ambiente
La Rete deve scoprire Da SolaCaratteristiche, Regolarità, Correlazioni, etc.nei dati di input. (AUTO-ORGANIZZAZIONE)
Durante il Learning i pesi varianoin accordo con una Regola Internaspecificata A Priori
LNS-1
LNS-2Cosa possono individuare tali reti? FAMILIARITA’
Quando un nuovo input è simile ai pattern visti in passato(ex: un output a valori continui)
ANALISI DELLE COMPONENTI PRINCIPALIestendendo il caso precedente a più unità porta ad una base lungo cui misurare la somiglianza a esempi precedenti CLUSTERINGUn set di output a valori binari può indicare a quale categoria appartiene un dato input
CODIFICAL’output può essere una versione codificata dell’input
FEATURE MAPPINGUn output con una data struttura geometrica (ex: una matrice) può mappare gli input in punti diversi della struttura, realizzando una mappa topografica dell’input Input simili Output vicini
LNS-3Quando utilizzare le Reti NON Supervisionate:
Quando il learning supervisionato non è possibile
Quando il learning supervisionato è troppo lento
In cascata ad una rete supervisionata
LNS-4LEARNING HEBBIANOLEARNING HEBBIANO
1940: Donald Hebb, studiando la comunicazione tra neuroni, verificò che l’eccitazione ripetuta di un neurone i da parte di un neurone j portava all’abbassamento della soglia di eccitazione del neurone i.
LA COMUNICAZIONE E’ FACILITATADALL’ECCITAZIONE RIPETUTA
j iwij
xj yi
Estensione ai sistemi neurali artificiali:Il peso della wij della connessione tra i neuroni i e j cresce al fluire di un segnale da j a i:
ijij yxw ijij yxw Regola di Hebb
LNS-51 StratoD Input1 Output Lineare
Dx
x
x 1
y
w1
w2
wD
x1
x2
xD
cos1
xwwxxwxwy TD
i
Tii
cos1
xwwxxwxwy TD
i
Tii
yx
yx
w
D
1
yx
yx
w
D
1
xwyGli Input più frequenti
avranno, a lungo termine, più influenza e produrranno un output maggiore.
wx
wx grande y
y = 0
L’ampiezza di y misura la somiglianza tra Input e Pesi
Durante il learning, i pesi sono esposti ai dati di Input e condensano l’informazione in essi contenuta nel loro valore
I PESI SONO LA MEMORIA A LUNGO TERMINE DELLA RETE
1 xw
LNS-6Per un singolo peso:
21 xwxwxwxyww oldoldoldoldnew 21 xwxwxwxyww oldoldoldoldnew
PROBLEMA: I pesi crescono senza limite ed il learning non si ferma mai
REGOLA DI OJA (versione stabile)
Vincolare la crescita dei pesi:1. Rinormalizzazione dei pesi dopo l’aggiornamento:
oppure
1'' www ii
iii wyxyw iii wyxyw Regola di Oja
2. Aggiungere un termine proporzionale a y2, nella formula di Hebb
LNS-7Hebb correlazione
Learning on-line nwnxnxnxnynw T nwnxnxnxnynw T
Learning batch 0ˆ01
wRwixixw xT
N
i
0ˆ01
wRwixixw xT
N
i
DDD
D
xx
xxExxE
xxExxE
RR
1
111
ˆ
DDD
D
xx
xxExxE
xxExxE
RR
1
111
ˆ Matrice di autocorrelazionedegli Input
Il learning Hebbiano aggiorna i pesi con una stima della funzione di autocorrelazione
LNS-8Hebb potenza
Nxx ,,1 Set di dati
N
ix
TN
i
TT wRwwxxwN
iyN
V1 1
2 11
N
ix
TN
i
TT wRwwxxwN
iyN
V1 1
2 11
potenza in uscita
ixixN
RR TN
ix
1
1 ixixN
RR TN
ix
1
1
definita positiva
wRwRRww
VV xxx
T 2
wRwRRww
VV xxx
T 2
La regola di Hebb muove i pesi nella direzione del gradiente, nel campo di potenza dei dati di Input
Divergenza (campo illimitato)
02 wRwwRV 02 wRwwRV
Es: D=2
w2w1
V
wRV
LNS-9
Legame Potenza - Varianza
Massima Potenza Massima Varianza
Varianza - Informazione
Esempio:
Nube di punti 2-D
Spazio a dimensione minore(Componente Principale)
E’ la direzione a maggiore varianza
LNS-10
Regola di Oja
Mantiene i pesi con norma unitaria
iii wyxyw
per piccolo
x i x i y n w nn n i' ( ) ( ) ( ) ( ) Input effettivo
LNS-11
w n w n y n x ni i i( ) ( ) ( ) ' ( ) 1
Posto:
Dimostrazione:
2
21
1
2
1
Onwnynxnynw
nxnynw
nxnynwnw
iii
D
ii
ii
Esempio: 2121 wwwxxx
• I pesi partono da piccoli valori random e vengono aggiornati secondo la regola di Oja:
1
;; 222111
w
wyxywwyxyw 1
;; 222111
w
wyxywwyxyw
L’output finale è la proiezione dell’input x nella direzione di w
È dovuto alla scelta di UNITA’ LINEARI
LNS-12
w0
w
x1
x2
w0
w
x1
x2
1w
LNS-13
a) Input a media zero < x > = 0
Output a media zero < y > = 0(qualunque sia la direzione di w)
MA la direzione di wOja fa sì che <| y |> sia massimo
b) Input a media diversa da zero
Output con media massima in corrispondenza di wOja
La direzione di wOja fa sì che <| y |> sia massimo
LNS-14
Significato di wOja
wwR wwR
R funzione di autocorrelazione scalare reale
w è un autovettore di R e l’autovalore massimo
x1
x2
a asse principale
Ojawa Ojawa
Ricapitolando:
La regola di Oja converge ad un vettore peso che ha le seguenti proprietà:
w ha la direzione dell’ autovettore di C con autovalore massimo
w ha la direzione che massimizza la <y2>
La forma quadratica, per w fissato è massimizzata quando w ha la direzione dell’autovettore massimo di C
LNS-15
1 w
wCwwxxwxwy TTTT 22
)varianzamax(max0 2 yxPer dati con
LNS-16
ANALISI DELLE COMPONENTI PRINCIPALI (PCA)ANALISI DELLE COMPONENTI PRINCIPALI (PCA)
La regola di Oja produce un vettore di pesi nella direzione in cui si trova la maggiore informazione sui dati di input
COMPONENTE PRINCIPALE
Come trovare altre direzioni che tengono conto il più possibile della varianza dei dati di Input?
Dx
Scopo Trovare un sistema di coordinate
ORTONORMALE
M vettori tra loro ortogonali
M vettori di lunghezza unitariaDM
che riduca la dimensione dei dati, massimando l’informazione contenuta
LNS-17Esempio
PCA
B
A
O
OAPRIMA
COMPONENTEPRINCIPALE
(AD ALTA VARIANZA)
OBSECONDA
COMPONENTEPRINCIPALE
(A BASSA VARIANZA)
La proiezione lungo OA consente di evidenziare i cluster
La prima componente principale si prende lungo la direzione a massima varianza;
La seconda lungo la direzione a massima varianza del sottospazio ortogonale alla prima;
La terza lungo …
LNS-18Procedura:
Dx
se TT yyconxQyx 0 TT yyconxQyx 0
Sia C la matrice di covarianza di x :TxxC
D
0
01
D
0
01 dove:
D 21 autovalori di C e
colonne di Q: autovettori corrispondenti
y vettore delle componenti principali di x
RCx 0 RCx 0 matrice di autocorrelazione
Scartando le combinazioni a piccola varianza:
MD
LNS-19Riassumendo:
Q
xQqxqxqxy T
D
TTT 21
j
D
jiqyyQx
1
M
Mj
M
jj
y
y
qqqyx 1
11
ˆ
M
Mj
M
jj
y
y
qqqyx 1
11
ˆ
LNS-20
PCA
Algoritmi basati sulla risoluzionedi equazioni matriciali
Reti Neurali RETI NEURALI PCA
x1x2
xD
w11
w21w31
w1D
w2D
wMD
y1
y2
yM
Rete Lineare
DMyx MD
Mixwy j
D
jiji ,1
1
LNS-21
i
kkkjjiij ywxyw
1
i
kkkjjiij ywxyw
1
Regola di Sanger
I componente principale
1111 ywxyw jjj (regola di Oja)
xj
w1j y1
i = 1
proiezione in uno spazio ortogonale alla I componente
xj
w2j y2
i = 2
II componente principale
222
221122
' ywxy
ywywxyw
jj
jjjj
11' ywxx jjj
i = 3 jw3
jj xx '
LNS-22
N.B. I pesi relativi alla II CP convergeranno solo dopo la convergenza dei pesi della I CP, e così via …
PCA è il miglior “feature extractor” LINEARE
1 COMPRESSIONE DATI
Non esiste un sistema lineare che fornisca migliori caratteristiche per la ricostruzione applicazione PCA per la compressione dei dati
T Ry
W W-1
x
al trasmettitore: compressione proiezione
x~
al ricevitore: decompressione
LNS-23
2 CLASSIFICAZIONE
x1 ricostruzione
x2 classificazione
2 CLASSI
Direzione principale
x2
1
2x1
Reti Competitive e di Kohonen
CK-1
LEARNING NON SUPERVISIONATO COMPETITIVOLEARNING NON SUPERVISIONATO COMPETITIVO
Scopo: clusterizzare i dati in ingressoCodificaCompressioneElaborazione di immaginiOttimizzazione combinatoria
y2
y1
x1 x2 x3 x4
Non sono robusteNon possono rappresentare una conoscenza gerarchica
Un Output per ogni categoria
•Feature Mapping (Kohonen)
Solo un’unità è attiva (vincitore)
CK-2SEMPLICE LEARNING COMPETITIVOSEMPLICE LEARNING COMPETITIVO
x = [x1 , . . . , xN] (0 , 1)y = [y1 , . . . , yN] (0 , 1)
. . .
. . .
x1x2 x3 xN
y1 yM
x
wi
wi • x
Ni
jijiji
www
xwxwh
111
1
:*
*
*
i
TTi
y
xwxwi
xwxww iii *1
IL VINCITORE E’ L’UNITA’ PIU’ VICINA ALL’INPUT
VINCITORE
CK-3IL LEARNINGIL LEARNING
w(t = 0) = random
jijji wxw **
*0
1*
iiy
y
i
i jijiji wxyw REGOLA INSTAR
wi newx
x-wi
wi
(x-wi)
Sposta wi* verso x p
Fa sì che l’unità i* abbia maggiore probabilità di vincere in
futuro per un Input simile a x
CK-4Esempio di CLUSTERING
pppp xxxx 321 P = 1, … , Nnumero di esempi
p1
p2 Input binari Input continui
1;321 iiiii wwwww
Stato iniziale
Stato finale
w i vettori prototipo - individuano dei punti nello spazio
Tassellazione di Voronoi
CK-5
1 solo strato partizioni convesse dello spazio degli input
N° di cluster da fissare a prioritroppi cluster cluster morti
input simili in cluster diversipochi cluster ogni unità rappresenta + di un cluster
Problema delle unità morte
COSCIENZA
ii
iii
bb
bhh
*
CK-6
Anche i neuroni vicini al vincitore possono essere attivi (bolla di attività)
Connessioni laterali funzione della distanza dal vincitore
wij
+ +
- -
i - j
distribuzionea cappellomessicano
E’ possibile un mappaggio topologico dallo spazio degli ingressi a quello delle uscite
COMPETIZIONE SOFTCOMPETIZIONE SOFT
CK-7
. . .
y1 yM-
-
+
+
x1x2
y2
y1
x1 x2
CK-8RETI DI KOHONENRETI DI KOHONEN
-Cappello messicano SENZA connessioni laterali
-Le relazioni di vicinato compaiono nel learning
-Output organizzato secondo una griglia
2-D
1- D 2 vicini
1
0 1
1
0 1Input2-D
Rete1-D
CK-9
y2
y1
x1 x2
…xD
vincitore* * xwxwi ii
ijjij wxiiw *,
*, ii ** iirrf ii
*1 ii
funzione di vicinato
Rete di Kohonen Rete elastica
x
wi
wi • x
wi - x
ALGORITMO DI LEARNINGALGORITMO DI LEARNING
CK-10
Scelta sperimentale del numero di neuroni
Conservazione della DENSITA’ dei dati di Input
(n) (n)
23
00
00
10101
1
n
KN
nn
N
nn
ijjij
rr
wxiiw
eii ii
*,
*,22
* 2
Vi(0)
Vi(t1)
Vi(t2)
Esempi
CK-11
CK-12
Applicazioni:
Controllo di motori Riconoscimento del parlato Ottimizzazione combinatoria Quantizzazione vettoriale (LBG algorithm)
Kohonen è un algoritmo ottimale per la quantizzazione vettoriale
LVQ Learning Vector Quantization
sbagliata classe
corretta classe
*
**
jij
jijji wx
wxw
sbagliata classe
corretta classe
*
**
jij
jijji wx
wxw