red neuronal retropropagada resumen (back propagation)

Instituto Politécnico NacionalEscuela Superior de IngenieríaMecánica y Eléctrica Unidad

Culhuacán

Retro-propagación

Presentan:Agustín Ávila MarínCyntia Monserrat ...

26 de mayo de 2013

Asignatura: Redes NeuronalesAMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 1 / 17

Contenido

1 Retro-propagación

2 Redes retroalimentadas multicapa

3 Generalización de la regla delta

4 Tasa de aprendizaje y momento

5 Aprendizaje por patrones

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 2 / 17

Retro-propagación

Retro-propagación

Minsky y Papert (1969) demostraron que las redes de dos capaspueden tener muchas restricciones.Problema: ¿Cómo ajustar los pesos de las entradas hacia lasunidades ocultas?Rumelhart, Hinton & Williams presentaron una solución en 1986.

Werbos (1974).Parker (1985).Cun (1985).

Idea: Los errores de las capas ocultas son determinadosretro-propagando los errores de las unidades de la capa de salida.Retro-propagación puede ser considerado como una generalización dela regla delta para funciones de activación no lineal.


Redes retroalimentadas multicapa

Redes retroalimentadas multicapa (1/3)

Figura 1 : Una red multi-capa con l capas de unidades.



Redes retroalimentadas multicapa (2/3)

Las entradas Ni son alimentadas a la primer capa Nh,1 oculta de lared.No hay procesamiento en las unidades de entrada.La salida de las unidades ocultas es distribuida hacia las siguientesunidades ocultas Nh,2 hasta las últimas unidades ocultas.Entonces la salida de las últimas unidades ocultas es alimentada a lasunidades de salida.La Retro-propagación puede ser aplicada a redes con un númerocualquiera de capas ocultas.



Redes retroalimentadas multicapa (3/3)Teorema universal de aproximación

Teorema universal de aproximaciónSe ha demostrado que una capa oculta es suficiente para aproximarcualquier función con muchas discontinuidades finitas a una precisiónarbitraria (con funciones de activación no-lineales).

Hornik, Stinchcombe & White (1989).Funahashi (1989).Cybenko (1989).Hartman, Keeler & Kowalski (1990).


Generalización de la regla delta

Generalización de la regla delta (1/8)

Dado que no estamos utilizando funciones de activación lineales, se tieneque generalizar la regla delta al conjunto de funciones no-lineales. Entonces,con una función de activación diferenciable tenemos:

ypk = F (sp

k ) (1)

spk =

∑j

wjkypj + θk (2)




La función de actualización de los pesos para la generalización (como en laregla delta) se da por la ecuación siguiente:

∆pwjk = −γ ∂Ep

∂wjk(3)

En donde Ep es el error cuadrático medio:

Ep =12

No∑o=1

(dpo − yp

o )2 (4)




Podemos representar el error total como la sumatoria del error cuadrático:

E =∑

pEp (5)

El cambio en el error en función del cambio en la matriz de pesos, de laecuación 3, puede ser representado por la regla de la cadena con un producto;el cambio en el error en función del cambio en la unidad de entrada, porel cambio en la unidad de entrada en función del cambio en la matriz depesos.

∂Ep

∂wjk=∂Ep

∂spk

∂spk

∂wjk(6)




Si resolvemos para el segundo factor, tenemos:

∂spk

∂wjk= yp

j (7)

Las δ’s en retro-propagación quedarían representadas por:

δpk = −∂Ep

∂spk

(8)

De lo anterior resulta que la ecuación 3 puede ser escrita como:

∆pwjk = γδpk yp

j (9)

Esto resulta en un gradiente descendiente sobre la superficie de error.




Ahora solo resta descifrar que es lo que δpk debe ser para cada unidad k de

la red. Las δ’s se obtienen recursivamente, retropropagando las señales deerror hacia atrás. Así que para operar δp

k , por la regla de la cadena podemosseparar la ecuación 8 en dos factores, uno que refleje el cambio en el errorcomo función de la salida de la unidad y otro que refleje el cambio en lasalida de la unidad como función del cambio en las entradas.

δpk = −∂Ep

∂spk

= −∂Ep

∂ypk

∂ypk

∂spk

(10)




Si tomamos el segundo factor, tenemos:

∂ypk

∂spk

= F ′(spk ) (11)

El primer factor tiene dos casos a considerar: cuando el error que nos interesaes de una unidad de salida, y el error en las unidades ocultas. Para el erroren una unidad de salida:

∂Ep

∂ypo

= −(dpo − yp

o ) (12)

Es el mismo resultado que obtenemos con la regla delta estándar.




Sustituyendo la ecuación 11 y 12 en 10, nos queda:

δpo = (dp

o − ypo )F ′o(sp

o ) (13)

Ahora, para cualquier unidad oculta k = h, nosotros no conocemos cual esla contribución de esta unidad en el error de salida de la red. Sin embargo, lamedida del error puede ser escrita como una función de las entradas desde lasunidades ocultas hacia las unidades de salida; Ep = Ep(sp

1 , sp2 , s

p3 , . . . , s

pj , . . .).

Usamos la regla de la cadena para escribir:

∂E p

∂yph

=

No∑o=1

∂E p

∂spo

∂spo

∂yph=

No∑o=1

∂E p

∂spo

∂

∂yph

Nh∑j=1

wjoypj =

No∑o=1

∂E p

∂spo

who = −No∑

o=1

δpo who (14)




Entonces tenemos:

δph = F ′(sp

h )No∑

o=1δp

o who (15)

En resumen, necesitamos las ecuaciones 9, 13 y 15. A saber, la derivada dela función de activación para una sigmoidal yp = F (sp) es:

∂

∂sp F (sp) =∂

∂sp1

1 + e−sp = yp(1 − yp) (16)


Tasa de aprendizaje y momento

Tasa de aprendizaje y momento (1/2)

El procedimiento de aprendizaje requiere que el cambio en el peso seaproporcional a ∂Ep

∂w .Verdaderos gradientes descendentes requieren de pasos infinitesimales.La tasa de aprendizaje es γ.Para propósitos prácticos se procura una tasa de aprendizaje lo másgrande posible sin provocar oscilaciones.Para evitar oscilaciones con γ’s grandes, se hace la actualización depesos dependiente del cambio en el peso anterior, al agregar untérmino de momento.

∆wjk(t + 1) = γδpk yp

j + α∆wjk(t) (17)

Con una tasa de aprendizaje pequeña, el mínimo es alcanzadolentamente, mientras que para grandes tasas de aprendizaje éstejamás sera alcanzado debido a las oscilaciones, a menos que se leagregue el término del momento. Véase figura 2.


Tasa de aprendizaje y momento

Tasa de aprendizaje y momento (2/2)

Figura 2 : Descendencia en el espacio de pesos. a) para tasas de aprendizajepequeñas; b) para tasas de aprendizaje grandes; c) con una tasa de aprendizajegrande y el término del momento agregado.


Aprendizaje por patrones

Aprendizaje por patrones

Teóricamente, el algoritmo de retro-propagación realiza ladescendencia de gradiente con el error total, si y sólo si, los pesos sonajustados después de que el conjunto entero de patrones han sidopresentados a la red.Sin embargo, más comúnmente, la regla de aprendizaje es aplicada acada patrón por separado, i.e., para cada p se calcula Ep previo a lamodificación de pesos.Empíricamente se ha demostrado que ésto último es más rápido deconverger.Problema: Si se usa el mismo orden una y otra vez, la red seenfocará en los primeros patrones del conjunto.Solución: Se puede subsanar usando un método de entrenamientopermutado.


red neuronal retropropagada resumen (back propagation)

Documents