biologically inspired compung: neural computaon lecture 4dwcorne/teaching/annlecture4.pdf · •...

38
Biologically Inspired Compu4ng: Neural Computa4on Lecture 4 Patricia A. Vargas

Upload: haanh

Post on 10-Nov-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

BiologicallyInspiredCompu4ng:NeuralComputa4on

Lecture4

PatriciaA.Vargas

Page 2: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Lecture4

I.  Lecture3–RevisionII.  Ar4ficialNeuralNetworks(PartII)

I.  Mul4‐LayerPerceptronsI.  TheBack‐propaga4onAlgorithm

2

Page 3: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Ar4ficialNeuralNetworks

•  LearningParadigms

I.  SupervisedLearning

II.  UnsupervisedLearningIII.  ReinforcementLearning

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 31

1.3. Paradigmas de Aprendizagem

• A capacidade de “aprender” associada a uma rede neural é uma das mais

importantes qualidades destas estruturas.

• Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu

ambiente, alterando seu desempenho ao longo do tempo.

• Sendo assim, considera-se “aprendizado” o processo que adapta o comportamento

e conduz a uma melhoria de desempenho.

• No contexto de redes neurais artificiais, aprendizagem ou treinamento corresponde

ao processo de ajuste dos parâmetros livres da rede através de um mecanismo de

apresentação de estímulos ambientais, conhecidos como padrões (ou dados) de

entrada ou de treinamento:

estímulo ! adaptação ! novo comportamento da rede

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 32

• Nas RNAs mais simples e tradicionais, os parâmetros livres da rede correspondem

apenas aos pesos sinápticos. Toda a estrutura da rede, incluindo os tipos de

neurônios e suas funções de ativação, é pré-definida.

• O objetivo do aprendizado em redes neurais é a obtenção de um modelo implícito

do sistema em estudo, por ajuste dos parâmetros da rede.

• Dada uma rede neural artificial, seja w(t) um peso sináptico de um dado neurônio,

no instante de tempo t. O ajuste "w(t) é aplicado ao peso sináptico w(t) no instante

t, gerando o valor corrigido w(t+1), na forma:

w(t+1) = w(t) + "w(t)

• A obtenção de "w(t) pode ser feita de diversas formas. O tipo de aprendizado é

determinado pela técnica empregada no processo de ajuste dos pesos sinápticos

(parâmetros da rede neural).

Page 4: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Twomainformsoflearning

•  SupervisedLearning– Error‐correc4nglearning

 Perceptron–  deltarule

•  Mul4‐LayerPerceptron(MLP)–  Back‐propaga4on(generalizeddeltarule)

•  UnsupervisedLearning– HopfieldNeuralNetwork

Page 5: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Ar4ficialNeuralNetworks

5

•  FrankRosenblaU(1957)–  Perceptron

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 19

uk y

!

x1

x2

xm

f(uk)

wk1

wk2

wkm

+1

wk0 = b0

Junção somadora

Função de ativação

Saída

Pesos das conexões

Entr

adas

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 20

( )

!"

!#

$

"

<<

#

=

0p se 0

1p0 se

1p se 1

k

kk

k

k pf

u

uu

u

u com p constante e positivo.

0

0.2

0.4

0.6

0.8

1

a)

1/p0

b)

1/p0

p

0

Função semi-linear (a) e sua derivada em relação à entrada interna (b)

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 17

• A função de ativação é geralmente utilizada com dois propósitos: limitar a saída do

neurônio e introduzir não-linearidade no modelo.

• O limiar bk tem o papel de aumentar ou diminuir a influência do valor da entrada

líquida para a ativação do neurônio k.

o Por exemplo, no neurônio de McCulloch e Pitts, a saída será 1 para u ! ":

!"# !

==contrário caso0

! se1)(

uufy

onde u = x1 + x2.

• É possível substituir o limiar (threshold) " por um limiar (bias) que será

multiplicado por um valor constante de entrada igual a +1:

!"# !

==contrário caso0

0 se1)(

uufy

onde u = x1 + x2 # b (para b negativo).

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 18

• Note que a saída deste neurônio genérico é simplesmente um número, a presença

de potenciais de ação (disparos) discretos é ignorada. Entretanto, existem modelos

de neurônios, denominados spiking neurons, que utilizam disparos discretos.

• Matematicamente, a saída do neurônio k pode ser descrita por:

$$%

&''(

)+== *

=

k

m

j

jkjkk bxwfufy1

)(

• É possível simplificar a notação acima de forma a incluir o bias simplesmente

definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:

$$%

&''(

)== *

=

m

j

jkjkk xwfufy0

)(

• Existem vários tipos de função de ativação como, por exemplo, a função linear, a

função degrau, as funções sigmoidais, e as funções de base radial.

Synap4cWeights

SummingJunc4on

Ac4va4onFunc4on

Output

Inpu

tSignals

Page 6: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Perceptronalgorithminpseudo‐code

Start with random initial weights (e.g., uniform random in [-.3,.3])

Do { For All Patterns p { For All Output Nodes j { CalculateActivation(j)

Error_j = TargetValue_j_for_Pattern_p - Activation_j

For All Input Nodes i To Output Node j { DeltaWeight = LearningConstant * Error_j * Activation_i Weight = Weight + DeltaWeight } } } } Until "Error is sufficiently small" Or "Time-out"

Page 7: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Limita4onsofthePerceptron

•  Canonlyrepresentlinearseparableproblems…

Page 8: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

ExclusiveOR(XOR)

0 1

1

0.1 0.4

In Out 0 1 1 1 0 1 1 1 0 0 0 0

Page 9: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Error‐backpropaga4on?

•  Whatwasneeded,wasanalgorithmtotrainPerceptronswithmorethantwolayers

•  Preferablyalsoonethatusedcon4nuousac4va4onsandnon‐linearac4va4onrules

•  Suchanalgorithmwasdevelopedby– PaulWerbosin1974– DavidParkerin1982– LeCunin1984– Rumelhart,Hinton,andWilliamsin1986

Page 10: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Ar4ficialNeuralNetworksTheMul4‐LayerPerceptron(MLP)

‐  TheXORproblemissolvableifweaddanextra“layer”toaPerceptron

‐  MLPsbecomemoremanageable,mathema4callyandcomputa4onally,ifweformalisethemintoastandardstructure(ortopologyorarchitecture)…

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

Page 11: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheMul4‐LayerPerceptron(MLP)

‐EachnodeisconnectedtoEVERYnodeintheadjacentlayersandNOnodesinthesameoranyotherlayers

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida …

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

Page 12: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheMul4‐LayerPerceptron(MLP)

HowdoIrepresenttheweightsofaMLPinamatrixnota4on?

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida …

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

Page 13: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheMul4‐LayerPerceptron(MLP)

HowdoIrepresenttheMLPusingamatrixnota4on?IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 25

Camada de entrada

Camada de saída

Neurônio sensorial Neurônio de processamento

y1

y2

y3

yo

x0

x1

x2

xm

w10

w21

. .

. .

wom

• Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas

da entrada para a saída, ou seja, é apenas no sentido positivo.

!!!

"

#

$$$

%

&

=

omoo

m

www

www

!

"#""

!

10

11110

W

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 26

yi = f(wi.x) = f(!j wij.xj) , j = 1,…,m.

Note que a primeira coluna de W corresponde ao vetor de bias.

• Em forma matricial:

y = f(W.x),

onde W " #o$m, wi " #1$m, i = 1,…,o, x " #m$1, e y " #o$1.

Rede Feedforward de Múltiplas Camadas

• As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou

escondidas. Adicionando-se camadas intermediárias não-lineares é possível

aumentar a capacidade de processamento de uma rede feedforward.

• A saída de cada camada intermediária é utilizada como entrada para a próxima

camada.

• Em geral o algoritmo de treinamento para este tipo de rede envolve a

retropropagação do erro entre a saída da rede e uma saída desejada conhecida.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 25

Camada de entrada

Camada de saída

Neurônio sensorial Neurônio de processamento

y1

y2

y3

yo

x0

x1

x2

xm

w10

w21

. .

. .

wom

• Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas

da entrada para a saída, ou seja, é apenas no sentido positivo.

!!!

"

#

$$$

%

&

=

omoo

m

www

www

!

"#""

!

10

11110

W

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 26

yi = f(wi.x) = f(!j wij.xj) , j = 1,…,m.

Note que a primeira coluna de W corresponde ao vetor de bias.

• Em forma matricial:

y = f(W.x),

onde W " #o$m, wi " #1$m, i = 1,…,o, x " #m$1, e y " #o$1.

Rede Feedforward de Múltiplas Camadas

• As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou

escondidas. Adicionando-se camadas intermediárias não-lineares é possível

aumentar a capacidade de processamento de uma rede feedforward.

• A saída de cada camada intermediária é utilizada como entrada para a próxima

camada.

• Em geral o algoritmo de treinamento para este tipo de rede envolve a

retropropagação do erro entre a saída da rede e uma saída desejada conhecida.

BUTwehavemanylayers….

Page 14: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheMul4‐LayerPerceptron(MLP)

HowdoIrepresenttheMLPusingamatrixnota4on?IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 25

Camada de entrada

Camada de saída

Neurônio sensorial Neurônio de processamento

y1

y2

y3

yo

x0

x1

x2

xm

w10

w21

. .

. .

wom

• Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas

da entrada para a saída, ou seja, é apenas no sentido positivo.

!!!

"

#

$$$

%

&

=

omoo

m

www

www

!

"#""

!

10

11110

W

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 26

yi = f(wi.x) = f(!j wij.xj) , j = 1,…,m.

Note que a primeira coluna de W corresponde ao vetor de bias.

• Em forma matricial:

y = f(W.x),

onde W " #o$m, wi " #1$m, i = 1,…,o, x " #m$1, e y " #o$1.

Rede Feedforward de Múltiplas Camadas

• As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou

escondidas. Adicionando-se camadas intermediárias não-lineares é possível

aumentar a capacidade de processamento de uma rede feedforward.

• A saída de cada camada intermediária é utilizada como entrada para a próxima

camada.

• Em geral o algoritmo de treinamento para este tipo de rede envolve a

retropropagação do erro entre a saída da rede e uma saída desejada conhecida.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 25

Camada de entrada

Camada de saída

Neurônio sensorial Neurônio de processamento

y1

y2

y3

yo

x0

x1

x2

xm

w10

w21

. .

. .

wom

• Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas

da entrada para a saída, ou seja, é apenas no sentido positivo.

!!!

"

#

$$$

%

&

=

omoo

m

www

www

!

"#""

!

10

11110

W

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 26

yi = f(wi.x) = f(!j wij.xj) , j = 1,…,m.

Note que a primeira coluna de W corresponde ao vetor de bias.

• Em forma matricial:

y = f(W.x),

onde W " #o$m, wi " #1$m, i = 1,…,o, x " #m$1, e y " #o$1.

Rede Feedforward de Múltiplas Camadas

• As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou

escondidas. Adicionando-se camadas intermediárias não-lineares é possível

aumentar a capacidade de processamento de uma rede feedforward.

• A saída de cada camada intermediária é utilizada como entrada para a próxima

camada.

• Em geral o algoritmo de treinamento para este tipo de rede envolve a

retropropagação do erro entre a saída da rede e uma saída desejada conhecida.

Wkisthesynap4cweightmatrixoflayerk

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

Page 15: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

HowtotrainaMul4‐LayerPerceptron(MLP)?‐  Howdowefindtheweightsneededtoperformapar4cular

func4on?

‐  Theproblemliesindetermininganerroratthehiddennodes‐  Wehavenodesiredvalueatthehiddennodeswithwhichto

comparetheiractualoutputanddetermineanerror

‐  Wehaveadesiredoutputwhichcandeliveranerrorattheoutputnodesbuthowshouldthiserrorbedividedupamongstthehiddennodes?

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 27

… …

Camada de entrada Primeira

camada escondida

Camada de saída

Segunda camada

escondida

y1

y2

yo

x0

x1

x2

xm

• Seja Wk a matriz de pesos da camada k, contadas da esquerda para a direita.

• k

ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-

sináptico j na camada k.

• Em notação matricial, a saída da rede é dada por:

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 28

y = f3(W3 f2(W2 f1(W1x)))

• Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

fk ! "l#l, onde l é o número de neurônios na camada k.

• O que acontece se as funções de ativação das unidades intermediárias forem

lineares?

Redes Recorrentes

• O terceiro principal tipo de arquitetura de RNAs são as denominadas de redes

recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de

neurônios para outros neurônios da rede.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 37

• ej(t) = dj(t) ! yj(t) é o sinal de erro observado na saída do neurônio j no instante t.

Observe que, em ambiente ruidoso, ej(t) é uma variável aleatória.

• O processo de aprendizado supervisionado tem por objetivo corrigir este erro

observado (em todos os neurônios), e para tanto busca minimizar um critério

(função objetivo) baseado em ej(t), j=1,2,…,o, onde o é o número de neurônios de

saída da rede neural, de maneira que, para t suficientemente alto, yj(t), j=1,2,…,o,

estejam próximos de dj(t), j=1,2,…,o, no sentido estatístico.

ej(t)

"

One or more layers of hidden

neurons

Output neuron

j

dj(t) yj(t)

! +

x(t)

Multi-layer Feedforward Network

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 38

• Um critério muito utilizado é o de erro quadrático médio: !"

#$%

&= '

=

o

j

j teo

EJ1

2 )(1

.

• Um conceito que está implícito em toda esta análise é a hipótese de

estacionariedade dos processos aleatórios presentes.

• Além disso, para minimizar J é necessário conhecer as características estatísticas

do sistema.

• Uma aproximação para o critério é utilizar o valor instantâneo do erro quadrático

médio: '=

=#o

j

j keo

kJJ1

2 )(1

)(.

• Nesta fase do curso, vamos considerar que a minimização de J(t) é realizada

apenas em relação aos pesos sinápticos da rede neural. Mais adiante, serão

apresentados procedimentos para ajuste das funções de ativação dos neurônios e

da arquitetura da rede neural.

Page 16: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheBack‐Propaga4onAlgorithm

  In1986Rumelhart,HintonandWilliamsproposeda“GeneralisedDeltaRule”

  alsoknownasErrorBack‐Propaga4onorGradientDescentLearning

  Thisrule,asitsnameimplies,isanextensionoftheDeltaRuleor“Widrow‐HoffRule”

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 37

• ej(t) = dj(t) ! yj(t) é o sinal de erro observado na saída do neurônio j no instante t.

Observe que, em ambiente ruidoso, ej(t) é uma variável aleatória.

• O processo de aprendizado supervisionado tem por objetivo corrigir este erro

observado (em todos os neurônios), e para tanto busca minimizar um critério

(função objetivo) baseado em ej(t), j=1,2,…,o, onde o é o número de neurônios de

saída da rede neural, de maneira que, para t suficientemente alto, yj(t), j=1,2,…,o,

estejam próximos de dj(t), j=1,2,…,o, no sentido estatístico.

ej(t)

"

One or more layers of hidden

neurons

Output neuron

j

dj(t) yj(t)

! +

x(t)

Multi-layer Feedforward Network

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 38

• Um critério muito utilizado é o de erro quadrático médio: !"

#$%

&= '

=

o

j

j teo

EJ1

2 )(1

.

• Um conceito que está implícito em toda esta análise é a hipótese de

estacionariedade dos processos aleatórios presentes.

• Além disso, para minimizar J é necessário conhecer as características estatísticas

do sistema.

• Uma aproximação para o critério é utilizar o valor instantâneo do erro quadrático

médio: '=

=#o

j

j keo

kJJ1

2 )(1

)(.

• Nesta fase do curso, vamos considerar que a minimização de J(t) é realizada

apenas em relação aos pesos sinápticos da rede neural. Mais adiante, serão

apresentados procedimentos para ajuste das funções de ativação dos neurônios e

da arquitetura da rede neural.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 3

• O treinamento da rede MLP foi feito originalmente utilizando-se um algoritmo

denominado de retropropagação do erro, conhecido como backpropagation.

• Este algoritmo consiste basicamente de dois passos:

o Propagação positiva do sinal funcional: durante este processo todos os pesos da

rede são mantidos fixos; e

o Retropropagação do erro: durante este processo os pesos da rede são ajustados

tendo por base uma medida de erro por base.

• O sinal de erro é propagado em sentido oposto ao de propagação do sinal

funcional, por isso o nome de retro-propagação do erro.

• Uma rede MLP típica possui três características principais:

o Os neurônios das camadas intermediárias (e, eventualmente, os da camada de

saída) possuem uma função de ativação não-linear do tipo sigmoidal (e.g.

função logística ou tangente hiperbólica).

o A rede possui uma ou mais camadas intermediárias.

o A rede possui um alto grau de conectividade.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 4

Input layer

First hidden layer

Output layer Second hidden layer

y1

y2

yo

+1

x1

x2

x3

xm

+1 +1

… … Functional signal propagation

Error backpropagation

• A regra delta generalizada será utilizada para ajustar os pesos e limiares (bias) da

rede de forma a minimizar o erro entre a saída da rede e a saída desejada para

todos os padrões de treinamento.

Page 17: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheBack‐Propaga4onAlgorithm:1.  Feedinputsforwardthroughnetwork2.  Determineerroratoutputs3.  Feederrorbackwardstowardsinputs4.  Determineweightadjustments5.  RepeatfornextinputpaUern6.  Repeatun4lallerrorsacceptablysmall

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 3

• O treinamento da rede MLP foi feito originalmente utilizando-se um algoritmo

denominado de retropropagação do erro, conhecido como backpropagation.

• Este algoritmo consiste basicamente de dois passos:

o Propagação positiva do sinal funcional: durante este processo todos os pesos da

rede são mantidos fixos; e

o Retropropagação do erro: durante este processo os pesos da rede são ajustados

tendo por base uma medida de erro por base.

• O sinal de erro é propagado em sentido oposto ao de propagação do sinal

funcional, por isso o nome de retro-propagação do erro.

• Uma rede MLP típica possui três características principais:

o Os neurônios das camadas intermediárias (e, eventualmente, os da camada de

saída) possuem uma função de ativação não-linear do tipo sigmoidal (e.g.

função logística ou tangente hiperbólica).

o A rede possui uma ou mais camadas intermediárias.

o A rede possui um alto grau de conectividade.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 4

Input layer

First hidden layer

Output layer Second hidden layer

y1

y2

yo

+1

x1

x2

x3

xm

+1 +1

… … Functional signal propagation

Error backpropagation

• A regra delta generalizada será utilizada para ajustar os pesos e limiares (bias) da

rede de forma a minimizar o erro entre a saída da rede e a saída desejada para

todos os padrões de treinamento.

Page 18: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Thebackproptrick

•  Tofindtheerrorvalueforagivennodehinahiddenlayer,…

•  Simplytaketheweightedsumoftheerrorsofallnodesconnectedfromnodeh

•  i.e.,ofallnodesthathaveanincomingconnec4onfromnodeh:

δ1 δ2 δ3 δn

w1w2 w3 wn

δh = w1δ1 + w2δ2 + w3δ3 + … + wnδn Node h

This is backpropgation of errors

To-nodes of h

Page 19: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Characteris4csofbackpropaga4on

•  Anynumberoflayers•  Onlyfeedforward,nocycles(thoughamoregeneralversionsdoesallowthis)

•  Usecon4nuousnodes– Musthavedifferen4ableac4va4onrule– Typically,logis3c:S‐shapebetween0and1

•  Ini4alweightsarerandom

Page 20: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Thegradientdescentmakessensemathema4cally

•  Itdoesnotguaranteehighperformance

•  Itdoesnotpreventlocalminima

Error Surface

Momentum

• An attempt at avoiding local minima

• An additional term is added to the

delta rule which forces each weight

change to be partially dependent on

the previous change made to that

weight

• This can, of course, be dangerous

• A parameter called the momentum

term determines how much each

weight change depends on the

previous weight change -

where 0 <= ! <= 1

t, t+1 are successive

weight changes

( ) ( )two1tw ji

pp

i

p

jji

p !"+#$=+!

Page 21: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Logis4cfunc4on

•  S‐shapedbetween0and1•  Approachesalinearfunc4onaroundx=0

•  Itsrate‐of‐change(deriva4ve)foranodewithagivenac4va4onis:

ac4va4on×(1‐ac4va4on)

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 21

kk

k

pp

p

kee

efy

uu

u

u!

+=

+==

1

1

1)(

( ) 01 >!= kk

k

py

uuu"

"

0

0.2

0.4

0.6

0.8

1

-5 0 5

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

-5 0 5

a) b)

p=0.8

p=1.5

p=3

p=0.8

p=1.5

p=3

Função logística (a) e sua derivada em relação à entrada interna (b)

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 4: Projeto de Redes Neurais Artificiais 22

kk

kk

pp

pp

kkee

eepfy

uu

uu

uu!

!

+

!=== )tanh()(

( ) 01 2 >!= k

k

py

uu"

"

-1

-0.5

0

0.5

1

-5 0 5

0

0.5

1

1.5

2

2.5

-5 0 5

a) b)

p=1

p=0.6

p=2.2

p=0.6

p=1

p=2.2

Função tangente hiperbólica (a) e sua derivada em relação à entrada interna (b)

Page 22: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Backpropaga4onalgorithminrules

•  weightchange=somesmallconstant×error×inputac4va4on

•  Foranoutputnode,theerroris:error=(targetac4va4on‐outputac4va4on)×

outputac4va4on×(1‐outputac4va4on)

•  Forahiddennode,theerroris:error=weightedsumofto‐nodeerrors×hidden

ac4va4on×(1‐hiddenac4va4on)

Page 23: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Weightchangeandmomentum

•  backpropaga4onalgorithmolentakesalong4metolearn

•  So,thelearningruleisolenaugmentedwithasocalledmomentumterm

•  Thisconsistinaddingafrac4onoftheoldweightchange

•  Thelearningrulethenlookslike:weightchange=somesmallconstant×error×inputac4va4on+momentumconstant×oldweightchange

Page 24: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Backpropaga4oninequa4onsI

•  Ifjisanodeinanoutputlayer,theerrorδjis:δj=(tj‐aj)aj(aj‐1)

•  whereajistheac4va4onofnodej•  tjisitstargetac4va4onvalue,and•  δjitserrorvalue

Page 25: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Backpropaga4oninequa4onsII

•  Ifjisanodeinahiddenlayer,andifthereareknodes1,2,…,k,thatreceiveaconnec4onfromj,theerrorδjis:

•  δj=(w1jδ1+w2jδ1+…+wkjδk)aj(aj‐1)

•  wheretheweightsw1j,w2j,…,wkjbelongtotheconnec4onsfromhiddennodejtonodes1,2,…,k.

Page 26: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Backpropaga4oninequa4onsIII

•  Thebackpropaga4onlearningrule(appliedat4met)is:

Δwji(t)=µδjai+βΔwji(t‐1)

•  whereΔwji(t)isthechangeintheweightfromnodeitonodejat4met,

•  Thelearningconstantµistypicallychosenrathersmall(e.g.,0.05).

•  Themomentumtermβistypicallychosenaround0.5.

Page 27: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

NetTalk:Backpropaga4on’s‘killer‐app’

•  Text‐to‐speechconverter•  DevelopedbySejnowskiandRosenberg(1987)(Sejnowski&Rosenberg,1987“ParallelNetworksthatLearntoPronounceEnglishText”,ComplexSystems1,145‐168)

•  Connec4onism’sanswertoDECTalk•  LearnedtopronouncetextwithanerrorscorecomparabletoDECTalk

•  Wastrained,notprogrammed•  InputwasleUer‐in‐context,outputphoneme

Page 28: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

NetTalk:Backpropaga4on’s‘killer‐app’

•  ProjectforpronouncingEnglishtext:foreachcharacter,thenetworkshouldgivethecodeofthecorrespondingphoneme:– Astreamofwordsisgiventothenetwork,alongwiththephonemepronuncia4onofeachinsymbolicform

– Aspeechgenera4ondeviceisusedtoconvertthephonemestosound

•  Thesamecharacterispronounceddifferentlyindifferentcontexts:Head,Beach,Leech,Sketch

Page 29: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

NetTalk:Backpropaga4on’s‘killer‐app’

Page 30: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

NetTalk:Backpropaga4on’s‘killer‐app’

hUp://homepages.cae.wisc.edu/~ece539/data

Page 31: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheBack‐Propaga4onAlgorithm

  BatchLearning‐  sumtheweightupdatesforeachinputpaUernand

applythemaleracompletesetoftrainingpaUernshasbeenpresented(alerone“epochoftraining”)

‐  therefore,adjustmentstothesynap4cweightsaremadeonanepoch‐by‐epochbasis

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 3

• O treinamento da rede MLP foi feito originalmente utilizando-se um algoritmo

denominado de retropropagação do erro, conhecido como backpropagation.

• Este algoritmo consiste basicamente de dois passos:

o Propagação positiva do sinal funcional: durante este processo todos os pesos da

rede são mantidos fixos; e

o Retropropagação do erro: durante este processo os pesos da rede são ajustados

tendo por base uma medida de erro por base.

• O sinal de erro é propagado em sentido oposto ao de propagação do sinal

funcional, por isso o nome de retro-propagação do erro.

• Uma rede MLP típica possui três características principais:

o Os neurônios das camadas intermediárias (e, eventualmente, os da camada de

saída) possuem uma função de ativação não-linear do tipo sigmoidal (e.g.

função logística ou tangente hiperbólica).

o A rede possui uma ou mais camadas intermediárias.

o A rede possui um alto grau de conectividade.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 4

Input layer

First hidden layer

Output layer Second hidden layer

y1

y2

yo

+1

x1

x2

x3

xm

+1 +1

… … Functional signal propagation

Error backpropagation

• A regra delta generalizada será utilizada para ajustar os pesos e limiares (bias) da

rede de forma a minimizar o erro entre a saída da rede e a saída desejada para

todos os padrões de treinamento.

Page 32: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

TheBack‐Propaga4onAlgorithm

  On‐LineLearning‐  updateweightsaseachinputpaUernispresented

‐  therefore,adjustmentstothesynap4cweightsaremadeonanexample‐by‐examplebasis

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 3

• O treinamento da rede MLP foi feito originalmente utilizando-se um algoritmo

denominado de retropropagação do erro, conhecido como backpropagation.

• Este algoritmo consiste basicamente de dois passos:

o Propagação positiva do sinal funcional: durante este processo todos os pesos da

rede são mantidos fixos; e

o Retropropagação do erro: durante este processo os pesos da rede são ajustados

tendo por base uma medida de erro por base.

• O sinal de erro é propagado em sentido oposto ao de propagação do sinal

funcional, por isso o nome de retro-propagação do erro.

• Uma rede MLP típica possui três características principais:

o Os neurônios das camadas intermediárias (e, eventualmente, os da camada de

saída) possuem uma função de ativação não-linear do tipo sigmoidal (e.g.

função logística ou tangente hiperbólica).

o A rede possui uma ou mais camadas intermediárias.

o A rede possui um alto grau de conectividade.

IA353 – Profs. Fernando J. Von Zuben & Romis R. F. Attux

DCA/FEEC/Unicamp & DECOM/FEEC/Unicamp

Tópico 5: Perceptron de Múltiplas Camadas 4

Input layer

First hidden layer

Output layer Second hidden layer

y1

y2

yo

+1

x1

x2

x3

xm

+1 +1

… … Functional signal propagation

Error backpropagation

• A regra delta generalizada será utilizada para ajustar os pesos e limiares (bias) da

rede de forma a minimizar o erro entre a saída da rede e a saída desejada para

todos os padrões de treinamento.

Page 33: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Despiteitspopularitybackpropaga4onhassomedisadvantages

•  Learningisslow•  Newlearningwillrapidlyoverwriteoldrepresenta4ons,unlesstheseareinterleaved(i.e.,repeated)withthenewpaUerns

•  Thismakesithardtokeepnetworksup‐to‐datewithnewinforma4on(e.g.,dollarrate)

•  Thisalsomakesitveryimplausiblefromasapsychologicalmodelofhumanmemory

Page 34: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Goodpoints

•  Easytouse– Fewparameterstoset

– Algorithmiseasytoimplement

•  Canbeappliedtoawiderangeofdata•  Isverypopular•  Hascontributedgreatlytothe‘newconnec4onism’(secondwave)

Page 35: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Conclusion

•  Error‐correc4nglearninghasbeenveryimportantinthebriefhistoryofconnec4onism

•  Despiteitslimitedplausibilityasapsychologicalmodeloflearningandmemory,itisneverthelessusedwidely(alsoinpsychology)

Page 36: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Lecture4I.  Lecture3–RevisionII.  Ar4ficialNeuralNetworks(PartII)

I.  Mul4‐LayerPerceptronI.  TheBack‐propaga4onAlgorithm

36

Page 37: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Lecture4

37

Readinglist/Homework‐  TakealookatChapter4(“Mul4layerPerceptrons”)

fromthebook:

“NeuralNetworksandLearningMachines”(3rdEdi4on)bySimonO.Haykin(Nov28,2008)

‐  Answerques4ons17to20fromtheTutorialmaterial

Page 38: Biologically Inspired Compung: Neural Computaon Lecture 4dwcorne/Teaching/ANNlecture4.pdf · • Note que fk, k = 1,..., M (M = número de camadas da rede) é uma matriz quadrada

Lecture5What’snext?

Ar4ficialNeuralNetworks

(PartIII)

38