esquema unificado para a identificação de sistemas ... · teoria de controle adaptativo de...

Esquema Unificado para a Identificação de SistemasDinâmicos via RHONN

José Alfredo Ruiz Vargas e Elder Moreira Hemerly

Instituto Tecnológico de AeronáuticaDivisão de Engenharia Eletrônica

CTA-ITA-IEEE12228-900-São José dos [email protected], [email protected] .cta.br

Abstract: In this work is proposed an unified scheme for identification of nonlinear dynamicsystems via recursive high-order artificial neural networks (RHONN). It is shown that the lawsdeveloped in [1]-[3] are particular cases of the adaptation laws presented here. The Lyapunovstability theory and results already available from adaptive theory for linear systems are used forstablishing a stable learning a1gorithm which ensure parameter convergence under favorablecircumstances. In the sequence three variants of the proposed algorithm are analyzed for the casewhere there is a nonzero mismatch between the neural model and the unknown plant.Keywords: Artificial neural networks, Identification of dynamical systems, Lyapunov methods.

Resumo: Neste trabalho é proposto um esquema unificado para a identificação de sistemasdinâmicos via redes neurais artificiais recursivas de alta ordem (RHONN). É mostrado que as leis deadaptação desenvolvidas em [1]-[3] constituem casos particulares das leis de adaptação propostasaqui. Utilizando-se a teoria de estabilidade de Lyapunov e resultados já disponíveis na teoria decontrole adaptativo para sistemas lineares, é estabelecido um algoritmo de aprendizado estável quesob certas circunstâncias garante a convergência paramétrica. A seguir são investigadas trêsmodificações no algoritmo proposto considerando que o modelo neural não aproxima exatamente aplanta desconhecida.Palavras-chave: Redes neurais artificiais, Identificação de sistemas dinâmicos, Métodos deLyapunov.

1- IntroduçãoDiferentes arquiteturas de redes neurais artificiaisrecursivas têm sido amplamente usadas comoalternativas viáveis e de fácil aplicação para aidentificação e controle de sistemas dinâmicos queapresentam não-linearidades desconhecidas.

Vários algoritmos de aprendizado baseados emmetodologias de otimização paramétrica têm sidopropostos para estes esquemas de identificação viaredes neurais recursivas, e a este respeito eles sãoextensões' do algoritmo back-propagation [4]empregado em redes ·tipo feedforward [5].Exemplos de tais algoritmos de aprendizado são:recurrent back-propagation [6], back-propagation-through-time [7] e dynamic back-propagation [8].

Embora tais esquemas possam ter bomdesempenho em muitos casos, em geral eles nãoconstituem metodologias analíticas que possamgarantir a convergência e estabilidade do processode identificação. Recentemente, com um intuito decontornar este empecilho, têm aparecido naliteratura trabalhos que propõem o projeto e análisede algoritmos de aprendizado e estratégias de

394

controle baseados na teoria de estabilidade deLyapunov [1,2,9,10,11]. A principal vantagemdeste enfoque é que ele permite obter resultadosanalíticos sobre a estabilidade e convergênciaparamétrica

Neste trabalho, motivado pelos fatosanteriores, é proposto um algoritmo de aprendizadogenérico para redes neurais recursivas de alta ordem(RHüNN). Utilizando-se a teoria de estabilidade deLyapunov e adaptações de resultados disponíveis dateoria de controle adaptativo de sistemas lineares, éestabelecido um algoritmo de aprendizado quegarante a convergência do erro de estado para zeroem ausência de erro de reconstrução (diferençaentre o modelo neural e a planta desconhecida).Caso contrário, três modificações no algoritmooriginal de aprendizado são apresentadas, com afinalidade de garantir que tanto o erro de estadocomo o erro paramétrico permaneçam limitados. Émostrado que as leis de adaptação desenvolvidas em[I ]-[3] constituem casos particulares do esquemaapresentado neste trabalho.

(2.1)

(2.2)

f

Z(1k) = ITy?(k)(t),jeIk

=

da RHONN, onde

conforme indicado na Fig . 2.1.

z(IJJ lfi ]

lfl1 '\z(IlJ . +

:

z(IJ 0Fig . 2.1- Rede recursiva de alta ordem.

11.2- Planta DesconhecidaConsideraremos o problema 'de se identificar umsistema dinâmico não-linear, contínuo e invarianteno tempo representado por

ondet) E 9t n é o estado do sistema.

u(t) E 9tm é a entrada do sistema.

F: 9t"+m 9tn é um smooth vectorfield definidoem um conjunto compacto .Q c 9tn+m •

Objetivando garantir a existência e unicidadeda solução de (2.2) para qualquer condição inicialfinita, devemos admitir as seguintes hipóteses parao sistema a ser identificado:a) C.Q para todot em algum

intervalo de tempo J T = {t / O is T} onde

.Q é um subconjunto compacto de 9tn+m . Ointervalo de tempo Jr representa um períodode tempo no qual a aproximação é feita.

b) é contínua com respeito aos seus

argumentos e satisfaz a condição de Lipschitz,de forma que (2.2) tem uma única solução.Por outro lado, o problema de aproximação

consiste em se determinar se -existem vetores depesos, Oi' tal que provendo suficientes conexões dealta ordem na RHONN descrita por (2.1) esta podeaproximar o comportamento entrada-saída desistemas dinâmicos arbitrários da classerepresentada por (2.2).

"""'Em [1] é mostrado que se suficientes conexõesde alta ordem são feitas na RHüNN, então ela podeaproximar com qualquer grau de precisão sistemasdinâmicos não-lineares da classe representada por(2.2) .

Xi(t) = -aixi(t) +bi[±Wik IT y7J(k)(t)]k=l fEl!

= -aixi(t)+O;Zonde:ai > Oeb; são números reais.wik são os pesos da rede.

Oi = bi[WiJ Wi2'" Winrsão vetores de parâmetrosajustáveis da RHONN.L = 111 + fi : com 111 número de entradas daRHONN, e fi número de neurônios.{I1,I2 ... ,Id é uma coleção de L subconjuntos

não ordenados de {i,2, ... , L} .111 j (k) inteiros maiores ou iguais a zero.x, é o estado do i-ésimo neurônio.

u(t) = [U1(t) u2(t)...um(t)f é um vetor de entradasda RHONN.

y(t) =[Y1( t)" 'YIl(t) YIl+1(t)YIl+2(t) '''Ym+ll(t)f

= [s(x1(t)) ..'S(XIl (t)) s(u1(t)) s(uAt)).. s(um(t))r

11- Formulação do problemaUm re!>UIDO sobre RHONN é apresentado de início,de modo a explicitar o modelo neural empregado naparametrização da planta não-linear. A seguir,estabelecemos a classe de sistemas não- lineares queserão considerados para a identificação.

é o vetor de entradas para cada neurônio.

0.1- Rede Neural Recursiva de Alta Ordem(RHONN)Nesta topologia o estado de cada neurônio égovernado por uma equação diferencial da forma

S( ) é uma função monótona crescente ediferenciável da forma

1s(x)=,Li _/3x +r ,l+e

onde u , j3 são números reais positivos e r é umnúmero real. Esta função é comumente denominadafunção sigmoidal e é a mais empregada no âmbitodas redes neurais artificiais. Por exemplo, para,Li =13=1 e FO temos a função logística e para,Li =/3=2 e F -I resulta a função tangentehiperbólica.

Z =[z(11), z(12) "'z(Ir)f é um vetor que contémas interações de alta ordem entre entradas e estados

395

111- Algoritmo de AprendizadoConsiderando-se Apenas Incerteza

ParamétricaSupondo que o sistema dinâmico descrito por (2.2)pode ser exatamente reconstruido por uma RHONN,de (2.1) existem matrizes de pesos W e W11+ 1 demodo que o sistema (2.2) pode ser expresso por

e substituindo agora (3.4) em (3.7), e manipulando-a adequadamente, resulta

ri" = eT(ATR+RA)e+ (3.8)

+Z;;WTBT(R + RT}e+

T -T T( T)R+R e+

B=diag[b;] para j=1,2, ...,n, W* E nxn eWn*+1 E representam a escolha ótima de pesospara a RHONN.

Com base em (3.1), um preditor pode sernaturalmente escolhido como

(3.9)

n { ["-- ]}" [-T I -T ] 1 win+L.J Win: Win+l s;i=1 1Il+1

Definindo-seP=R+RT

e escolhendo-se Q de forma a satisfazer

(3.10)

sendo Q e R positiva definidas, conclui-se que(3.2)

A A A A

X = AX+BWZn +BWn+1Zn+1

onde

1 d I -T win j}+2 dt L.J Win :Win+l r"-ii=1 Wm+1

(3.13)

(3.11)

(3.14)

(3.12)

11

. Logo, igualando-se

1111

(v-1i":'" K-1i":'" )}+L.J W;n+l fi.21 Win+ 22 W;n+l1=1

K-1i"-- )}= L.J W;n 11 W;n + 12 Win+l +;=1

11

termo a termo, obtém-se

=;=1 j=1 [sx ] j=1

n { ["-- ]}"[- I - ] -1 win= - L.J Win I Win+l s;i=1 m+l

e o problema então se resume na obtenção das leisde adaptação para os pesos da rede a partir de(3.12) .

Expandindo-se ambos lados da equaçãoanterior tem-se

onde

seT - T-e PBWZn + e PBTt;.+IZn+l =

n

= -KbiZL {ejPij}j=1

onde Kb, = K;b;. A expressão (3.14) é uma lei deadaptação geral para os pesos da RHONN.

Os resultados anteriores podem ser sumariadospelo seguinte teorema:Teorema m.I:Considere o modelo RHONN em (2.1) cujos pesossão ajustados por (3.14). Então para j= I,2,...,n,

(3.6)

(3.4)

(3.7)

(3.3)

·v( ) T ne,win,win+l = e :.c<e+

I n ]I -T 1 Win+-"[w. I W· ----2 L.J mim r"- i -i=1 Win+1

sendo

resultandoé = Ae+ BWzn +BWn+1Zn+1

onde W , representam a estimação dasmatrizes desconhecidas We W1I+1 respectivamente.

O erro de estado é dado pore=X-l'{

w=w-w*fv,.+1 = w,,+1 - n:+l (3.5)

as matrizes de erro paramétrico da RHONN.Objetivando obter leis de adaptação estáveis

para os pesos da RHONN, consideramos a seguintefunção positiva definida

onde wi - é o vetor de erro paramétricoWin+1 lxI

da RHONN, R E é positiva definida e K;-I

E é positiva definida.Derivando-se (3.6) em relação ao tempo,

obtém-seri" = éTRe+eTRé+

396

1) X,wi eLoo ' eeLoonL]2) Um dI) = 0, Um = 0 r 0 = O- vetor

1-+00 t-40 C'O

Prova:1) Conforme mostrado, a lei de adaptação (3.14)implica (3.11), e portanto V(e,Wi) é ma funçãolimitada superiormente não crescente no tempo .Mais precisamente Os V(e,Wi) s V00' para algumV00 finito e maior que zero tal que UmV = V00 •

Portanto e, wi e Loo e de (3.3) conclui-se que

X e Loo 'Também de (3.11) tem-se

paramétrico Wi tem que convergir para zero. Parase afirmar isto, outra hipótese de persistência deexcitação [13] tem que ser imposta ao regressor Z.Com esta nova hipótese satisfeita podemos afirmarque o erro paramétrico converge para zero emausência de erros de reconstrução.

Comentário m.2:Os corolários Ill. I e m.2estabelecem que as leis deadaptação considerando-se apenas incertezaparamétrica apresentadas em [1] e [2] constituemcasos particulares da lei de adaptação generalizada(3.14) .

•

•

Prova: vide [12].

(3.14) advém Um = 0 .

IV-Algoritmos de Aprendizado Robustos aErros de Receastrução

O emprego da lei de adaptação (3.14) em presençade erros de reconstrução pode ocasionar grandesvalores para os pesos da rede e conseqüentementenos erros de estado. Objetivando remover esteempecilho, a lei de adaptação proposta na seção Illé modificada para que seja robusta a erros dereconstrução, sendo propostas três modificações:I) Na lei de adaptação (3.14) é adicionado um

termo de leakage -o-iKb;wi quando

Ilwill> Mi , com a finalidade de remover a açãointegral da lei de adaptação. Este termogarante que fora de região Ilwi 11 s M, o vetorde erro paramétrico decresce exponencialmen-te, independentemente da persistência de exci-tação do regressor. Esta modificação é conhe-cida como switching o-modification [13].

2) A constante . de projeto O; ao se usar o-modification na lei de adaptação proposta emI) é substituída pelo termo leil. Esta modifica-ção é conhecida como e-modification [14] .

3) A constante de projeto O; em 1) é substituídapor um termo leril dado por uma equaçãodinâmica. Esta modificação será referida comoa dynamic o-modification.As últimas ' duas modificações relaxam a

necessidade de se conhecer O"i e M; (cuja escolhanão é imediata), evitando surtos intempestivos(bursting phenomena) [15] que podem surgir noemprego da switching o-modification, e melhoram odesempenho do processo de identificação.

(3.15)00feTQedt =Vo - Voo <00o

J

que implica ([eTQedl}' < 00 . e couseqüente-

mente e(t) e L] .2) Derivando-se (3.11) em relação ao tempo, resulta

V(e,wi'Win+l) = _é TQe- eTQé (3.16)

Logo, usando o resultado I) e sabendo-se queZ" e Z"+1 são limitados, de (3.4) segue queé(t) e Loo , e conseqüentemente em (3.16) temos

V e Loo . Aplicando o lema de Barbalat [13], segue-se que Um e(t)= 0 , e usando este resultado em

Corolário m.i.Considere o esquema de identificação e a lei deadaptação apresentada em [I]. Então para i=I,2,...,n,1) e., Oi e L<>.-2) fim ei(t)=O

Corolário m.2:Considere o esquema de identificação e as leis deadaptação apresentadas em [2]. Então,1) X ,W,W;J+J eLoo ' e eLoo nL]. .2) Um e(t) = 0 , Um W(t) = 0 , Um Wn+At) = 0

Prova: vide [12].IV.I- Algoritmo de Aprendizado Usando a crModification

•Comentário m.I :O teorema Ill.I não implica que o vetor de erro

Teorema IV.I.I:Considere o sistema descrito por (2.2) e modelado

397

por uma RHONN. A seguinte lei de adaptarão paraos pesos da RHONN

IV.3 - Algoritmo de Aprendizado Usando aDynamic o-Modification

D

-KbjZL {PÜCj}j =lD

-Kb.Z" {p..e.} - cr.Kb.w. se 11"' ·11> M·I L.J 1J J I I I I 1

j =l

Teorema IV.3.I:Considere o sistema descrito por (2.2) e modeladopor urna RHONN, e a seguinte lei de adaptação paraos pesos da RHONN

garante que para i= 1,2, ...,n,1) e., Wi E L oo •2) Existem constantes /L, f.l tais que

f f

file( r)II2di Jif Ilv(r)II2dro o

(4.2)

11

= -KbiZL {Pijej } -luilKhiwij=l

ondeUi = -biai - Ciei

c2bi :2: i./ J14airii

(4.5)

(4.6)

(4.7)

•

(4.9)

(4.10)

Ui = -biU; - CA(}s, :2:-'-ai

onde

Comentário IV.I:A escolha dos elementos Pij da matriz P utilizadanas leis de adaptação propostas requer oconhecimento da matriz R. O cômputo da matriz Ré direto, sendo necessário para tal :fim resolver(3.10) considerando r;;>O para i= I ,2, ...,n. A matrizQ pertence a uma classe de matrizes que têm apropriedade de continuarem sendo positivasdefinidas após se multiplicar os elementos de suas

•

•

Corolário IV.3.I:Considere o sistema descrito por (2.2) e modeladopor uma RHONN, e a seguinte lei de adaptação paraos pesos da RHONN

õ,= -riZei -Iai Iriêi (4 .8)

e c., b i são constantes de projeto maiores que zero,r; é uma matri z positiva definida de dimensãolxI.

Então para i= I ,2, ...,n, e, '}Vi eai E Loo 'Prova: vide [12].

e c., b i , 'i; são constantes 'de projeto maiores quezero, 1/4 E(rJ,l) e Kb, = Kib, é uma matriz positivadefinida de dimensão LxI.

Então para i= I ,2, ...,n, ei, }Vi eai E Loo 'Prova: vide [12].

•

•

(4.3)

f ,

flle(r)112 d t À + JiJllv(r)112dto

e := [eI e: ... ell (

11

=-KbiZL {pije j } -ctleilKbiwij=l

Prova: vide

IV.2 - Algoritmo de Aprendizado Usando a erModification

Teorema IV.2.I:Considere o sistema descrito por (2.2) e modeladopor uma RHONN. A seguinte lei de adaptação paraos pesos da RHONN

garante que para i=I,2, .:.,n,

oonde V := [VI V2 . . . vllf eProva: vide [12]

garante que para i= I,2, ...,n,Prova: vide [12].

Corolário IV.I.I:Considere o esquema de identificação e a lei deadaptação robusta apresentada em [I]. Então parai=I,2, ...,n, /1) e, ,-Oi E Loo'2) Existem constantes /L, f.l tais que

Prova: vide [12]. •Corolário IV.2.I:Considere o sistema descrito por (2.2) e modeladopor uma RHONN. A seguinte lei de adaptação paraos pesos da RHONN

ê i = -Kb.Ze, - cileilKbiê i (4.4)

398

diagonais pnncipais por alguma constante deprojeto n l E(O,J) [12].

Comentário IV.2:Os corolários IV. 1.1 , IV.2.1 e V.3.1 estabelecemque as leis de adaptação robustas desenvolvidas em[1]- [3] constituem casos particulares das propostasna seção IV.

V-ConclusõesNeste trabalho, objetivando-se identificar sistemasnão-lineares via redes neurais artificiais,desenvolveu-se um novo algoritmo de aprendizadogenérico para topologias de redes neurais artificiaisrecursivas de alta ordem. O algoritmo garante aestabilidade do processo de identificação, mesmo napresença de erros de reconstrução, e duas de suasvariantes não requerem o conhecimento de umlimitante superior Mi, para a norma do vetor de

parâmetros desejado Ilwt 11 ·Foi mostrado analiticamente que as estratégias

de identificação em [1]-[3] podem ser consideradascomo casos particulares do esquema geral deidentificação proposto neste trabalho.

Um aspecto importante que convém ressaltarnos algoritmos desenvolvidos neste trabalho é que,ao contrário de [1], eles também podem seraplicados quando variáveis de estado não estejamdisponíveis para medições, desde que pelo menosuma das saídas medidas seja tal que a matriz detransferência entre ela e os parâmetros (pesos darede) seja dissipativa ou estritamente positiva real[12]. Esta peculiaridade, importante do ponto devista de aplicação, será reportada oportunamente.

AgradecimentosOs autores agradecem à CAPES-Coordenação deAperfeiçõamento de Pessoal de Ensino Superior eao CNPq, processo número 300158/95-5 pelo apoiofinanceiro.

Referências[1] KOSMATOPOULOS, E.B. ; · POLYCARPOU,

M.M. ; CHRISTODOULOU, M.A.; 10ANNOU,P.A. - High-Order Neural Networks Structuresfor ldentification of Dynamical Systems, IEEETransactions on Neural Networks, Vol. 6, No.2, p. 422-31, 1995.

[2] ROVITHAKlS, G.A. & CHRISTODOULOUM.A. - Adaptive Control of Unknown PlantsUsing Dynamical Neural Networks, IEEETransactions on Systems, Man and Cybernetics,Vol. 24, No. 3, p. 400-12, march 1994.

399

[3] RUlZ VARGAS, J.A. & HEMERLY E.M. - Leisde Adaptação Robustas para Identificação deSistemas Dinâmicos via RHONN, submetido aoIII Congresso Brasileiro de Redes NeuraisFlorianópolis/SC, 1997. '

[4] RUMELHART, D.; HINTON, D.; WILLIAMS,G. - Learning Internal Representations byError Propagation, MIT Press., Cambridge,Massachusetts., 1986.

[5] HUSH, D.R. & HORNE, B.G. - Progress inSupervised Neural Networks, IEEE SignalProcessing Magazine, p. 8-39,january 1993.

[6] PIMENDA, F.J. - Generalization of BackPropagation to Recurrent Networks, Phys. Rev.Leu., Vol. 59, No. 19, p. 2229-32, 1988.

[7] WERBOS, P.1. - Back- Propagation ThroughTime: What it does and how to do it,Proccedings IEEE, Vol. 78, p. 1550-60, 1990.

[8] NARENDRA, K.S. & PARTHASARATHYK. - Gradient Methods for the Optimization ofDynamical Systems Containing NeuralNetworks, IEEE Transactions on NeuralNetworks, Vol. 2, No. 1, p. 252-62, march1991.

[9] CHEN, F.C. & KHALIL, H.K. - AdaptiveControl of a Class of Nonlinear Discrete-TimeSystems Using Neural Networks, IEEETransactions on Automatic Control, Vol. 40,No. 5, p. 791-801, may 1995.

[10] SANNER, R.M. & SLOTINE, J.E. - GaussianNetworks for Direct Adaptive Control, IEEETransactions on Neural Networks, Vol. 3, No.6, p. 837-63, november 1992.

[11] POLYCARPOU, M.M. - Stable AdaptiveNeural Control Scheme for Nonlinear Systems,IEEE Transactions on Automatic Control, Vol.41, No. 3, p. 447-51, march 1996.

[12] RUlZ VARGAS, J.A. - Identificação de Siste-mas Dinâmicos via Redes Neurais ArtificiaisITA, Dissertação de Mestrado, São JoséCampos, São Paulo, 1997.

[13] SASTRY, S. & BODSON, M. -AdaptiveControI: Stability, Convergence, andRobustness, New Jersey, Prentice HallInc.,1989.

[14] NARENDRA, K.S. & ANNASWAMY, A.M.-A New Adaptive Law for Robust AdaptationWithout Persistent Excitation, IEEETransactions on Automatic Control, Vol. AC-32, No. 2, p. 134-45, february 1987.

[15] HSU, L. & COSTA, R.R. - BurstingPhenomena in Continuous-Time AdaptiveSystems with a cr-Modification, IEEETransactions 011 Automatic ControI, Vol. AC-32, No. 1, p. 84-6, 1985.

esquema unificado para a identificação de sistemas ... · teoria de controle adaptativo de...

Documents