redes neuronales adaline

AGOSTO 2002 ESCOM I P N 1

Red AdalineRed Adaline

B. B. Widrow Widrow & M. Hoff& M. Hoff

(Adaptive Linear Element)


REDES ADALINE Y REDES ADALINE Y MADALINEMADALINE

Desarrolladas en 1960 por Bernie Desarrolladas en 1960 por Bernie

Widrow y Marcian Hoff en la Widrow y Marcian Hoff en la

Universidad de Stanford.Universidad de Stanford.

ADALINE: ADAptive LINear ElementADALINE: ADAptive LINear Element

ADALINE: Una única Neurona de Salida.ADALINE: Una única Neurona de Salida.

MADALINE: Varias Neuronas de Salida.MADALINE: Varias Neuronas de Salida.

MADALINE (Multiple ADALINE)MADALINE (Multiple ADALINE)


Bernard WidrowBernard Widrow

Professor Adaptive Systems. Widrow concentrates on adaptive signal processing, adaptive control systems, and adaptive neural networks. Adaptive systems have the ability to learn and improve their behavior through contact with their environments. Applications include signal processing, control systems, and pattern recognition. Sc.D. MIT 1956

Department of Electrical Engineering Durand Bldg., Rm. 139

723-4949

[email protected]


Marcian E. Marcian E. HoffHoff

Marcian E. Hoff was born in 1937 in Rochester N.Y. and graduated with a degree in Electrical Engineering from Rensselaer Polytechnic Institute in 1958. He received his Ph.D. from Stanford University in 1962 and stayed on as a research associate in computer area until 1968. Hoff joined Intel as Manager of Application Research in 1968, became an Intel fellow in 1980 and remained in this position until 1983. After a year at Atari, Marcian E. Hoff became a consultant with time for independent technical projects. Dr. M. E. Hoff is a recipient of the Stuart Ballantine award of the Franklin Institute, the Cledo Brunetti Award and holds an IEEE Centennial Medal. Dr. Hoff is a member of Sigma Xi and is an IEEE Fellow.


CaracterísticasCaracterísticas


Diferencias con Diferencias con el PERCEPTRONel PERCEPTRON

Algoritmo de aprendizaje: Regla del Mínimo Algoritmo de aprendizaje: Regla del Mínimo Error Cuadrado Medio (LMS), o regla Delta, o Error Cuadrado Medio (LMS), o regla Delta, o regla de Widrow-Hoffregla de Widrow-Hoff

Su función de transferencia es lineal, (pureline )Su función de transferencia es lineal, (pureline ) Procesamiento de información analógica, tanto Procesamiento de información analógica, tanto

de entrada como de salida, utilizando una de entrada como de salida, utilizando una función de Activación Lineal o Sigmoidal.función de Activación Lineal o Sigmoidal.

También puede resolver problemas linealmente También puede resolver problemas linealmente separables.separables.


Diferencias con Diferencias con el PERCEPTRON el PERCEPTRON

El algoritmo LMS minimiza el error El algoritmo LMS minimiza el error cuadrático medio y trata de mover la cuadrático medio y trata de mover la frontera de decisión tan lejos como sea frontera de decisión tan lejos como sea posible de los patrones de entrenamientoposible de los patrones de entrenamiento

La red ADALINE es menos sensible al La red ADALINE es menos sensible al ruido ruido

Las redes ADALINE y MADALINE tiene Las redes ADALINE y MADALINE tiene usos prácticos en el procesamiento de usos prácticos en el procesamiento de señales digitales.señales digitales.


ArquitecturaArquitectura


Arquitectura de Arquitectura de ADALINEADALINE

X0=1X1

W0

XN

X2

X3

W1

W2

W3

WN

S

s Salida Lineal

Salida binaria

y

Combinador Adaptativo Lineal

Conmutador Bipolar

s

y

-1

1


Arquitectura de Arquitectura de ADALINEADALINE

Formada por un elemento denominado: Formada por un elemento denominado:

Combinador Adaptativo Lineal (ALC).Combinador Adaptativo Lineal (ALC).

La salida lineal obtenida del ALC se La salida lineal obtenida del ALC se

aplica a un Conmutador Bipolar.aplica a un Conmutador Bipolar.

El Umbral de la F. de T. se representa a El Umbral de la F. de T. se representa a

través de una conexión ficticia de peso través de una conexión ficticia de peso

Wo (b)Wo (b)


Arquitectura Arquitectura de ADALINEde ADALINE

a purel in Wp b+ Wp b+= =


AplicacionesAplicaciones


Aplicaciones de Aplicaciones de ADALINEADALINE

Procesamiento de Señales.Procesamiento de Señales.• Filtros que eliminen el ruido en Filtros que eliminen el ruido en

señales portadoras de información.señales portadoras de información.• Filtros de ecualización adaptativos Filtros de ecualización adaptativos

en Módems de alta velocidad.en Módems de alta velocidad.• Cancelación del ruido materno de Cancelación del ruido materno de

grabaciones ECG del latido del feto grabaciones ECG del latido del feto humano.humano.


AplicacionesAplicaciones(continuación)(continuación)

• Eliminación de ecos en circuitos Eliminación de ecos en circuitos telefónicos.telefónicos.

• Canceladores adaptativos del eco Canceladores adaptativos del eco para el filtrado de señales en para el filtrado de señales en comunicaciones telefónicas de larga comunicaciones telefónicas de larga distancia y comunicaciones vía distancia y comunicaciones vía satélite.satélite.


Filtros Filtros AdaptativosAdaptativos

Tapped Delay Line Adaptive Filter

a k pure lin Wp b+ w1 i y k i– 1+ i 1=

R

b+= =


Ejem. : Cancelación Ejem. : Cancelación de Ruidode Ruido


Cancelación de ruido, Cancelación de ruido, Filtro AdaptativoFiltro Adaptativo


Algoritmo de Algoritmo de Aprendizaje Aprendizaje


Aprendizaje en la Aprendizaje en la Red ADALINERed ADALINE

•Aprendizaje OFF-LINE con Supervisión LMS

•LMS trata de minimizar una diferencia entre el valor obtenido y el deseado; como en el PERCEPTRON, sólo que ahora la salida considerada es la salida obtenida al aplicar una función de activación lineal.


Aprendizaje en ADALINEAprendizaje en ADALINE(continuación)(continuación)

El entrenamiento de la red consiste en El entrenamiento de la red consiste en adaptar los pesos a medida que se adaptar los pesos a medida que se vayan presentando los patrones de vayan presentando los patrones de entrenamiento y salidas deseadas para entrenamiento y salidas deseadas para cada uno de ellos.cada uno de ellos.

Para cada combinación E/S se realiza un Para cada combinación E/S se realiza un proceso automático de pequeños proceso automático de pequeños ajustes en los valores de los pesos hasta ajustes en los valores de los pesos hasta que se obtienen las salidas correctas.que se obtienen las salidas correctas.


Ecuaciones PrincipalesEcuaciones Principales

W k 1+ W k 2e k pTk +=

b k 1+ b k 2e k +=

En forma de Matriz:

0 1 max

R E ppT

12---p1p1

T 12---p2p2

T+==

es la velocidad de aprendizaje determinada por

Donde : max: es el eigenvalor más grande de la matriz Hessiana R


Algoritmo de Algoritmo de Aprendizaje Aprendizaje en ADALINEen ADALINE

1. Se aplica un patrón de entrada P.

2. Se obtiene la salida del ALC y se calcula la diferencia con respecto a la deseada (error).

3. Se actualizan los pesos.

4. Se repiten pasos 1 a 3 con todos los vectores de entrada.

5. Si el Error es un valor aceptable, detenerse, si no repetir algoritmo.


Consiste en hallar el vector de pesos W deseado, único, que deberá asociar cada vector de entrada con su correspondiente valor de salida correcto o deseado.La regla minimiza el error cuadrático medio definido como:

donde:es la función de error

RRR at

p

RRR p 1

22 1

Regla de Widrow-HoffRegla de Widrow-Hoff


La derivada de la suma del error cuadrático con respecto a un peso W(i,j) (de la entrada j a la neurona i) para un solo vector de entrada p y vector objetivo t, es:

)()(2)()(),()(),(),(

2

1

jpieibjpjiWitjiWjiW

sse R

j


La regla de Widrow-Hoff es La regla de Widrow-Hoff es implementada realizando cambios a los implementada realizando cambios a los pesos en la dirección opuesta en la que el pesos en la dirección opuesta en la que el error está incrementando y absorbiendo la error está incrementando y absorbiendo la constante -2 en constante -2 en lrlr..

En forma de matriz:En forma de matriz:

Transformando a la expresión del umbral Transformando a la expresión del umbral (considerando que en el umbral es un peso (considerando que en el umbral es un peso con entradas de 1):con entradas de 1):

)()(),( jpjelrjiW

TEplrW

Elrb


SuperficieSuperficie de Error de Error


a) ADALINE b) PERCEPTRÓN

Superficies de errorSuperficies de error


Esta función de error está definida en el espacio de pesos multidimensional para un conjunto de entradas, y la regla de Widrow-Hoff busca el punto de este espacio donde se encuentra el mínimo global.

Con función de activación lineal Con función de activación sigmoidal

Superficies de ErrorSuperficies de Error


Función de errorFunción de error..

|Para un ALC con solo |Para un ALC con solo dos pesos, la dos pesos, la superficie de error superficie de error es un paraboloide. es un paraboloide. Los pesos que Los pesos que minimizan el error minimizan el error se tienen en el fondo se tienen en el fondo de la superficie de la superficie paraboloidalparaboloidal


EjerciciosEjercicios


Ejemplo 1Ejemplo 1

p1

1–

11–

t1 1–= =

p2

1

11–

t2 1= =

R E ppT

12---p1p1

T 12---p2p2

T+==

R12---

1–

11–

1– 1 1–12---

1

11–

1 1 1–+1 0 0

0 1 1–0 1– 1

= =

1 1.0 2 0.0 3 2.0=== 1

max------------ 1

2.0------- 0.5==

Banana Manzana


Iteración Iteración UnoUno

a 0 W 0 p 0 W 0 p1 0 0 01–1

1–

0====

e 0 t 0 a 0 t1 a 0 1– 0 1–=–=–=–=

W 1 W 0 2e 0 pT 0 +=

W 1 0 0 0 2 0.2 1– 1–

11–

T

0.4 0.4– 0.4=+=

Banana


Iteración Iteración dosdos

Manzana

a 1 W 1 p 1 W 1 p2 0.4 0.4– 0.4

1

11–

0.4–====

e 1 t 1 a 1 t2 a 1 1 0.4– 1.4=–=–=–=

W 2 0.4 0.4– 0.4 2 0.2 1.4 1

1

1–

T

0.96 0.16 0.16–=+=


Iteración Iteración TresTres

a 2 W 2 p 2 W 2 p1 0.96 0.16 0.16–

1–

1

1–

0.64–====

e 2 t 2 a 2 t1 a 2 1– 0.64– 0.36–=–=–=–=

W 3 W 2 2 e 2 pT

2 + 1.1040 0.0160 0.0160–= =

W 1 0 0=


Simulación de Simulación de ADALINE en ADALINE en

Neural Network Neural Network Toolbox de Toolbox de

Matlab Matlab


Modelo de una neuronaModelo de una neurona lineal en MATLAB lineal en MATLAB

p(1)

p(2)

p(3)

p(R)

W(1,1)

W(1,R)

1

b

n a

a = purelin(w*p+b)

a = w*p+b

0

0

1

-1

a

a

b/w

b/wp

n

a = purelin(n)


ADALINE ADALINE NetworkNetwork

a purel in Wp b+ Wp b+= =

ai pure lin ni purelin wT

i p bi+ wT

i p bi+= = =

wi

wi 1

wi 2

wi R

=


[W,b]=initlin(P,T)[W,b]=initlin(P,T)

crea un conjunto de pesos y umbrales crea un conjunto de pesos y umbrales aleatorios iniciales positivos y aleatorios iniciales positivos y negativos para una red Adaline.negativos para una red Adaline.

Toma una matriz de de vectores de Toma una matriz de de vectores de entrada P, y de salida TS , regresando entrada P, y de salida TS , regresando los valores de W y b correspondientes los valores de W y b correspondientes a las dimensiones de la red.a las dimensiones de la red.


[W,b]=solvelin(P,T);[W,b]=solvelin(P,T);

W=solvelin(P,T);W=solvelin(P,T); Diseña redes Adaline Diseña redes Adaline

directamente si se conocen sus directamente si se conocen sus vectores de entrada y objetivo, vectores de entrada y objetivo, calculando los valores de los calculando los valores de los pesos y el bias sin necesidad pesos y el bias sin necesidad de entrenamiento.de entrenamiento.


[W,b,ep,tr]= [W,b,ep,tr]= trainwh(W,b,P,T,tp)trainwh(W,b,P,T,tp)

tp=[disp_freq max-tp=[disp_freq max-epoch err-goal lr]epoch err-goal lr]

Entrena una red Adaline, hasta Entrena una red Adaline, hasta alcanzar el minimo error alcanzar el minimo error eepecificado en sus parametros eepecificado en sus parametros iniciales.iniciales.


A=simulin(P,W,b)A=simulin(P,W,b)

Simula la red Adaline con los Simula la red Adaline con los parametros calculados en el parametros calculados en el entrenamiento y prueba cada uno entrenamiento y prueba cada uno de los patrones clasificandolos.de los patrones clasificandolos.


Entrenamiento Paso a Entrenamiento Paso a PasoPaso

A = simulin (P,W,b)E = T - A[dW,db] = learnwh (P,E,lr)W = W + dWb = b + dW


E = T - A;[ dW, db ] = learnwh( P, E, lr )

lr es la tasa de aprendizaje. Si es grande, el aprendizaje es rápido, pero si es demasiado grande, el aprendizaje es inestable y puede incrementarse el error. lr = maxlinlr( P ); % si se utiliza bias lr = maxlinlr( P, ‘bias’ ); %si no se utiliza bias

W = W + dW; b = b + db;


Ejemplo de Ejemplo de CodificaciónCodificación

P = [ 1 1; 1 -1 ];P = [ 1 1; 1 -1 ];T= [ 1 0];T= [ 1 0];[W,b] = initlin ( P,T )[W,b] = initlin ( P,T )[W,b] = solvelin ( P,T )[W,b] = solvelin ( P,T )plotpv ( P,T ) plotpv ( P,T ) plotpc ( W,b )plotpc ( W,b )


Dudas ??Dudas ????


Hasta la Hasta la próxima !!!próxima !!!

redes neuronales adaline

Education

los pesos en

adaline x

adaline procesamiento

deseado como en

red adaline aprendizaje

widrowhoff consiste

aprendizajeen adaline

madalinemultiple adaline