red neuronal retropropagada resumen (back propagation)

17
Instituto Politécnico Nacional Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacán Retro-propagación Presentan: Agustín Ávila Marín Cyntia Monserrat ... 26 de mayo de 2013 Asignatura: Redes Neuronales AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 1 / 17

Upload: augusto-marin

Post on 27-Dec-2015

29 views

Category:

Documents


3 download

DESCRIPTION

Resumen de las redes neuronales retro-propagadas. Presentación en PDF

TRANSCRIPT

Page 1: Red Neuronal Retropropagada Resumen (Back Propagation)

Instituto Politécnico NacionalEscuela Superior de IngenieríaMecánica y Eléctrica Unidad

Culhuacán

Retro-propagación

Presentan:Agustín Ávila MarínCyntia Monserrat ...

26 de mayo de 2013

Asignatura: Redes NeuronalesAMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 1 / 17

Page 2: Red Neuronal Retropropagada Resumen (Back Propagation)

Contenido

1 Retro-propagación

2 Redes retroalimentadas multicapa

3 Generalización de la regla delta

4 Tasa de aprendizaje y momento

5 Aprendizaje por patrones

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 2 / 17

Page 3: Red Neuronal Retropropagada Resumen (Back Propagation)

Retro-propagación

Retro-propagación

Minsky y Papert (1969) demostraron que las redes de dos capaspueden tener muchas restricciones.Problema: ¿Cómo ajustar los pesos de las entradas hacia lasunidades ocultas?Rumelhart, Hinton & Williams presentaron una solución en 1986.

Werbos (1974).Parker (1985).Cun (1985).

Idea: Los errores de las capas ocultas son determinadosretro-propagando los errores de las unidades de la capa de salida.Retro-propagación puede ser considerado como una generalización dela regla delta para funciones de activación no lineal.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 3 / 17

Page 4: Red Neuronal Retropropagada Resumen (Back Propagation)

Redes retroalimentadas multicapa

Redes retroalimentadas multicapa (1/3)

Figura 1 : Una red multi-capa con l capas de unidades.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 4 / 17

Page 5: Red Neuronal Retropropagada Resumen (Back Propagation)

Redes retroalimentadas multicapa

Redes retroalimentadas multicapa (2/3)

Las entradas Ni son alimentadas a la primer capa Nh,1 oculta de lared.No hay procesamiento en las unidades de entrada.La salida de las unidades ocultas es distribuida hacia las siguientesunidades ocultas Nh,2 hasta las últimas unidades ocultas.Entonces la salida de las últimas unidades ocultas es alimentada a lasunidades de salida.La Retro-propagación puede ser aplicada a redes con un númerocualquiera de capas ocultas.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 5 / 17

Page 6: Red Neuronal Retropropagada Resumen (Back Propagation)

Redes retroalimentadas multicapa

Redes retroalimentadas multicapa (3/3)Teorema universal de aproximación

Teorema universal de aproximaciónSe ha demostrado que una capa oculta es suficiente para aproximarcualquier función con muchas discontinuidades finitas a una precisiónarbitraria (con funciones de activación no-lineales).

Hornik, Stinchcombe & White (1989).Funahashi (1989).Cybenko (1989).Hartman, Keeler & Kowalski (1990).

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 6 / 17

Page 7: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (1/8)

Dado que no estamos utilizando funciones de activación lineales, se tieneque generalizar la regla delta al conjunto de funciones no-lineales. Entonces,con una función de activación diferenciable tenemos:

ypk = F (sp

k ) (1)

spk =

∑j

wjkypj + θk (2)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 7 / 17

Page 8: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (2/8)

La función de actualización de los pesos para la generalización (como en laregla delta) se da por la ecuación siguiente:

∆pwjk = −γ ∂Ep

∂wjk(3)

En donde Ep es el error cuadrático medio:

Ep =12

No∑o=1

(dpo − yp

o )2 (4)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 8 / 17

Page 9: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (3/8)

Podemos representar el error total como la sumatoria del error cuadrático:

E =∑

pEp (5)

El cambio en el error en función del cambio en la matriz de pesos, de laecuación 3, puede ser representado por la regla de la cadena con un producto;el cambio en el error en función del cambio en la unidad de entrada, porel cambio en la unidad de entrada en función del cambio en la matriz depesos.

∂Ep

∂wjk=∂Ep

∂spk

∂spk

∂wjk(6)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 9 / 17

Page 10: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (4/8)

Si resolvemos para el segundo factor, tenemos:

∂spk

∂wjk= yp

j (7)

Las δ’s en retro-propagación quedarían representadas por:

δpk = −∂Ep

∂spk

(8)

De lo anterior resulta que la ecuación 3 puede ser escrita como:

∆pwjk = γδpk yp

j (9)

Esto resulta en un gradiente descendiente sobre la superficie de error.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 10 / 17

Page 11: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (5/8)

Ahora solo resta descifrar que es lo que δpk debe ser para cada unidad k de

la red. Las δ’s se obtienen recursivamente, retropropagando las señales deerror hacia atrás. Así que para operar δp

k , por la regla de la cadena podemosseparar la ecuación 8 en dos factores, uno que refleje el cambio en el errorcomo función de la salida de la unidad y otro que refleje el cambio en lasalida de la unidad como función del cambio en las entradas.

δpk = −∂Ep

∂spk

= −∂Ep

∂ypk

∂ypk

∂spk

(10)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 11 / 17

Page 12: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (6/8)

Si tomamos el segundo factor, tenemos:

∂ypk

∂spk

= F ′(spk ) (11)

El primer factor tiene dos casos a considerar: cuando el error que nos interesaes de una unidad de salida, y el error en las unidades ocultas. Para el erroren una unidad de salida:

∂Ep

∂ypo

= −(dpo − yp

o ) (12)

Es el mismo resultado que obtenemos con la regla delta estándar.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 12 / 17

Page 13: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (7/8)

Sustituyendo la ecuación 11 y 12 en 10, nos queda:

δpo = (dp

o − ypo )F ′o(sp

o ) (13)

Ahora, para cualquier unidad oculta k = h, nosotros no conocemos cual esla contribución de esta unidad en el error de salida de la red. Sin embargo, lamedida del error puede ser escrita como una función de las entradas desde lasunidades ocultas hacia las unidades de salida; Ep = Ep(sp

1 , sp2 , s

p3 , . . . , s

pj , . . .).

Usamos la regla de la cadena para escribir:

∂E p

∂yph

=

No∑o=1

∂E p

∂spo

∂spo

∂yph=

No∑o=1

∂E p

∂spo

∂yph

Nh∑j=1

wjoypj =

No∑o=1

∂E p

∂spo

who = −No∑

o=1

δpo who (14)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 13 / 17

Page 14: Red Neuronal Retropropagada Resumen (Back Propagation)

Generalización de la regla delta

Generalización de la regla delta (8/8)

Entonces tenemos:

δph = F ′(sp

h )No∑

o=1δp

o who (15)

En resumen, necesitamos las ecuaciones 9, 13 y 15. A saber, la derivada dela función de activación para una sigmoidal yp = F (sp) es:

∂sp F (sp) =∂

∂sp1

1 + e−sp = yp(1 − yp) (16)

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 14 / 17

Page 15: Red Neuronal Retropropagada Resumen (Back Propagation)

Tasa de aprendizaje y momento

Tasa de aprendizaje y momento (1/2)

El procedimiento de aprendizaje requiere que el cambio en el peso seaproporcional a ∂Ep

∂w .Verdaderos gradientes descendentes requieren de pasos infinitesimales.La tasa de aprendizaje es γ.Para propósitos prácticos se procura una tasa de aprendizaje lo másgrande posible sin provocar oscilaciones.Para evitar oscilaciones con γ’s grandes, se hace la actualización depesos dependiente del cambio en el peso anterior, al agregar untérmino de momento.

∆wjk(t + 1) = γδpk yp

j + α∆wjk(t) (17)

Con una tasa de aprendizaje pequeña, el mínimo es alcanzadolentamente, mientras que para grandes tasas de aprendizaje éstejamás sera alcanzado debido a las oscilaciones, a menos que se leagregue el término del momento. Véase figura 2.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 15 / 17

Page 16: Red Neuronal Retropropagada Resumen (Back Propagation)

Tasa de aprendizaje y momento

Tasa de aprendizaje y momento (2/2)

Figura 2 : Descendencia en el espacio de pesos. a) para tasas de aprendizajepequeñas; b) para tasas de aprendizaje grandes; c) con una tasa de aprendizajegrande y el término del momento agregado.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 16 / 17

Page 17: Red Neuronal Retropropagada Resumen (Back Propagation)

Aprendizaje por patrones

Aprendizaje por patrones

Teóricamente, el algoritmo de retro-propagación realiza ladescendencia de gradiente con el error total, si y sólo si, los pesos sonajustados después de que el conjunto entero de patrones han sidopresentados a la red.Sin embargo, más comúnmente, la regla de aprendizaje es aplicada acada patrón por separado, i.e., para cada p se calcula Ep previo a lamodificación de pesos.Empíricamente se ha demostrado que ésto último es más rápido deconverger.Problema: Si se usa el mismo orden una y otra vez, la red seenfocará en los primeros patrones del conjunto.Solución: Se puede subsanar usando un método de entrenamientopermutado.

AMA, CM (IPN - ESIMEUC) Back-Propagation 26 de mayo de 2013 17 / 17