reti neurali ricorrenti

Reti Neurali Ricorrenti

RETI NEURALI RICORRENTI RR-1

TLFN focused

Elaborazione di informazione temporale

La memoria è portata dentro la rete

TLFN focused

TLFN distribuite

Reti ricorrenti

Semplice addestramento

Sono presenti connessioni ricorrenti tra neuroni diversi

SEMPLICI TOPOLOGIE RICORRENTISEMPLICI TOPOLOGIE RICORRENTI

Le TLFN focused sono Le TLFN focused sono mappatori universalimappatori universaliMAMApotrebbe essere necessaria una memoria di dimensione enormepotrebbe essere necessaria una memoria di dimensione enorme

RR-2

•Parametri di feedback fissi

•Non c’e ricorrenza I/O (gli output dello strato Context sono come input esterni

controllati dalla rete

11

Input

Context

JORDAN

Input

Context

ELMAN

RR-3ADATTARE IL PARAMETRO DI FEEDBACKADATTARE IL PARAMETRO DI FEEDBACK

+

y(n)x(n)

Z-1

1 controlla la profondità della memoria

Adattare 1 per minimizzare l’MSE

L’effetto di una variazione di si ripercuote

solo sul campione correntesolo sul campione corrente

L’effetto di una variazione di 1dura per dura per

sempresempre

BP

statica

La BP statica calcola i gradienti per ogni topologia ordinata, secondo una lista di dipendenze topologica che NON considera la dipendenza temporale tra le variabili.

RR-4

)()1()( 21 nxnyny

Effetto della ricorsione:

L’effetto di un cambiamento di dura persempre

+

y(n)x(n)

Z-1

1

11

2

11

nyny

ny

nxny

RR-5CRITERIO DI ERRORECRITERIO DI ERRORE

T

n

usciten

mm

T

nn nJJ

0

_

1

2

0

)( Criterio di performance in un intervallo di tempo (T campioni)

(analogo al batch mode)

Learning di traiettorie

usciten

mm nJ

_

1

2 )( Criterio di performance istantaneo

Learning di un punto fisso

SVOLGERESVOLGERE UNA RETE RICORRENTE NEL TEMPO UNA RETE RICORRENTE NEL TEMPORR-6

Rete ricorrente Mappaggio tempo-

spazio

Rete feedforward con coefficienti ripetuti

BP statica

Ad ogni istante viene creata una porzione della rete svolta e viene posta in cascata con la porzione precedente.

La rete opera per un tempo finito T campioni = T+1 porzioni

RR-7

+

y1(n)x(n)

Z-1 w1

+y2(n)

)()1()(

)()(

11

112

nxnyny

nywfny

0)0(1 y

Esempio

y1(0)=0

y2(0)=f(w1y1(0))

+

y2(0)=0

y1(0)=0

w1

RR-8

y1(0)=0

y2(0)

+

w1

+

w1

x(1)

y1(1)

y2(1)

+

w1

x(1)

y1(1)

y2(1)

+

w1

x(T)

y1(T)

y2(T)

•Rete feedforward

•T+1 input

•T+1 output

RR-9

Lista della dipendenze

L = w1, y1(0) , y2(0), y1(1) , y2(1), …, y1(T), y2(T)

•pesi

•variabili di stato ordinate secondo la topologia

Ora si può applicare la BackPropagation

RR-10

BACKPROPAGATION THROUGH TIME BACKPROPAGATION THROUGH TIME (BPTT)(BPTT)

Variabile di stato yh(k)

In questo caso h=1,2; k=0,…T

n dipendenze delle variabili a destra della variabile consideratajnella lista ordinata

d contributo diretto alla derivata

Gli altri contributi alla derivata sono indiretti (attraverso la topologia)

Compare il tempo e

l’informazione topologica)(

)(

)()()( ny

y

y

J

ny

J

ny

J

i

jd

n ij ii

d

i

RR-11

Derivando rispetto ai pesi w = (w1,)

Sommatoria estesa a tutti gli istanti e a tutti gli stati

)(

)(

)()()( ny

y

y

J

ny

J

ny

J

i

jd

n ij ii

d

i

w

ny

ny

J

w

J kd

n k k

)(

)(

RR-12

n Il calcolo del gradiente è ANTICIPATORIO

Un sistema anticipatorio risponde prima che l’input sia applicato;

NON E’ FISICAMENTE REALIZZABILE

Un sistema anticipatorio è IMPLEMENTABILE in sistemi digitali con memoria.

OsservazioniOsservazioni

VANTAGGIO

Nel calcolo del gradiente compaiono solo dipendenze DIRETTE di

yj() da yi(n)

RR-13

CALCOLO DEL GRADIENTECALCOLO DEL GRADIENTE

)()()( 22

nny

J

ny

J d

)(

)(

)()(

)1(

)1(0

)( 1

2

21

1

11 ny

ny

ny

J

ny

ny

ny

J

ny

J

Dipendenze dirette

Nel tempo e nella topologia

1221

))((')()1(

wnnetfny

J

ny

J

RR-14

)1()(

)(

)(

)())((')(

)(

)(

11

1

1

1221

2

21

nyny

Jny

ny

JJ

nynnetfny

J

w

ny

ny

J

w

J

n

d

n

n

d

n

RR-14

Backpropagation Through Time

la lista ordinata è invertita non solo nella topologia ma anche nel tempo

•Non è locale nel tempo: compare piu’ di un indice temporale nel gradiente

•Ha un alto costo computazionale

•Ha un’elevata occupazione di memoria

•E’ necessaria

se il segnale desiderato è noto solo alla fine della sequenza di learning

se sono presenti feedback.

REAL TIME RECURRENT LEARNING (RTRL) REAL TIME RECURRENT LEARNING (RTRL) RR-15

Calcolando il gradiente ad ogni time-step:

Dalla regola a catena applicata alla funzione costo

Njinyw

nw

J

n mm

ijm

ij

,,1,

sia: nyw

n mij

mij

la regola a catena otteniamo:

l

iijmljimm

mij nwnynnetfn '

m

mijm

ij

nnw

J

RR-15

Il RTRL è locale nel tempo

consente IMPLEMENTAZIONE ON LINE

Il RTRL non è locale nello spazio

compaiono le derivate rispetto a tutti i pesi

RR-16

+

y1(n)x(n)

Z-1 w

+y2(n)

)()1()(

)()(

11

112

nxnyny

nywfny

y2(n)=f( w1y1(n-1)+w1x(n) ) 1 uscita

w1 , , 2 pesi

f’<1

RR-

Rete costituita da N neuroni totalmente connessi; T campioni

N2 pesi

N3 gradienti a campione

O(N) operazioni/gradiente

O(N4) operazioni a campione

O(TN4) operazioni

O(N3) variabili da immagazzinare

E’ applicabile solo a reti piccole

RETI RICORRENTI RETI RICORRENTI

I modelli dinamici visti finora si generalizzano con le reti ricorrenti completamente interconnesse.Una possibile regola per implementare queste reti è quella di attribuire un ritardo a tutte le connessioni in retroazione

RETI DI HOPFIELDRETI DI HOPFIELD

Attratori della funzione energia

Non c'è addestramento!

reti neurali ricorrenti

Documents