controle otimo´ - aula 8 equac¸ao˜ de hamilton-jacobi · controle otimo´ - aula 8 equac¸ao˜...

Controle Otimo - Aula 8Equacao de Hamilton-Jacobi

Adriano A. G. Siqueira e Marco H. Terra

Departamento de Engenharia Eletrica

Universidade de Sao Paulo - Sao Carlos

Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.1/34

O problema de controle ótimo

Considere um sistema contínuo

x (t) = f (x (t) , u (t)) , 0 ≤ t ≤ T

com x (0) = x0 dado,

u (t) ∈ U, 0 ≤ t ≤ T

e um funcional custo associado da forma

h (x (T )) +∫ T

0g (x (t) , u (t)) dt

O problema de controle ótimo consiste em determinar uma lei decontrole (denominada lei de controle ótima) {u∗ (t) : t ∈ [0, T ]} queaplicada ao sistema, minimize o funcional custo.

Equação deHamilton-Jacobi-Bellman

Usando o princípio de otimalidade de Bellman, podemos determinaruma condição necessária em forma de equação diferencial parcial, quea solução ótima deve satisfazer.

• Equação de Hamilton-Jacobi-Bellman

O uso da princípio da otimalidade para derivar a equação deHamilton-Jacobi-Bellman é referido como Abordagem daProgramação Dinâmica

Aplicação da Programação Dinâmica na aproximação discreta doproblema de controle ótimo contínuo

Divisão do horizonte de tempo [0, T ] em N partes, usando o intervalode discretização

δ = TN

Denote: xk = x(kδ) e uk = u(kδ) k = 0, 1, ..., N

Aproximação da equação dinâmica contínua

xk+1 = xk + f(xk, uk)δ

Função custo

h (xN) +∑N−1

k=0 g (xk, uk) δ

J∗(t, x): custo ótimo no tempo t e estado x para o problema contínuo

J∗(t, x): custo ótimo no tempo t e estado x para a aproximação

discreta

Algoritmo da Programação Dinâmica

J∗(Nδ, x) = h(x)

J∗(kδ, x) = minu∈U [g(x, u)δ + J

∗((k + 1)δ, x + f(x, u)δ)]

k = 0, ..., N − 1

Assumindo que J∗

é diferenciável, vamos expandí-lo em série deTaylor de primeira ordem

J∗((k + 1)δ, x + f(x, u)δ)

= J∗(kδ, x) + ∇tJ

∗(kδ, x)δ + ∇xJ

∗(kδ, x)Tf(x, u)δ + o(δ)

∇t: derivada parcial com relação a t e ∇x: vetor coluna n-dimensionalde derivadas parciais com relação a x

Substituindo no algoritmo da PD

J∗(kδ, x) = minu∈U [g(x, u)δ + J

∗(kδ, x) + ∇tJ

∗(kδ, x)δ

+∇xJ∗(kδ, x)Tf(x, u)δ + o(δ)]

Cancelando J∗(kδ, x) dos dois lados, dividindo por δ, fazendo o limite

δ → 0 e assumindo

limk→∞,δ→0,kδ=tJ∗(kδ, x) = J

∗(t, x)

para todo t, x.

Temos:

0 = minu∈U [g(x, u) + ∇tJ∗(t, x) + ∇xJ

∗(t, x)T f(x, u)]

com condição limite J∗(T, x) = h(x).

Equação de Hamilton-Jacobi-Bellman

Proposição 2.1, p.93

Seja V (t, x) uma solução da equação de Hamilton-Jacobi-Bellman, ouseja, V é continuamente diferenciável em (t, x) e é tal que

0 = minu∈U [g(x, u) + ∇tV (t, x) + ∇xV (t, x)T f(x, u)]

com condição limite V (T, x) = h(x).

Suponha que µ∗ (t, x) resolve o problema de mínimo acima para todo(t, x)

Seja {x∗(t)|t ∈ [0, T ]} a trajetória de estados do sistema quando ocontrole u∗(t) = µ∗ (t, x∗(t)) é aplicado e a condição inicial é x(0).

Suponha que {u∗ (t) : t ∈ [0, T ]} seja admissível (contínua por partesem t e contida em U ).

Então V (t, x) é a única solução da equação de HJB e é igual à funçãoótima, ou seja,

V (t, x) = J∗ (t, x) ,∀ (t, x)

Além disso, a lei de controle {u∗ (t) : t ∈ [0, T ]} é ótima e a trajetóriade estados ótima é {x∗ (t) : t ∈ [0, T ]}.

Prova: Primeiramente, pela definição de u∗ e pela Eq. de HJB, noteque as trajetórias {x∗ (t) : t ∈ [0, T ]} e {u∗ (t) : t ∈ [0, T ]} são tais que

g (x∗ (t) , u∗ (t)) + ∇tV (t, x∗ (t))

+∇xV (t, x∗ (t))T f (x∗ (t) , u∗ (t)) = 0, ∀t ∈ [0, T ]

e para qualquer outra trajetória admissível {ua (t) : t ∈ [0, T ]} com acorrespondente trajetória {xa (t) : t ∈ [0, T ]} temos

ca (t) := g (xa (t) , ua (t)) + ∇tV (t, xa (t))

+∇xV (t, xa (t))T f (xa (t) , ua (t)) ≥ 0, ∀t ∈ [0, T ]

Como xa (t) e ua (t) satisfazem a equação do sistema

xa (t) = f (xa (t) , ua (t)) , xa (0) = x0,

pela regra da cadeia,

ca (t) = g (xa (t) , ua (t)) + ddt

(V (t, xa (t))) ≥ 0

sendo ddt

a derivada total com relação a t. Integrando em t de 0 a Tobtemos∫ T

0g (xa (t) , ua (t)) dt + V (T, xa (T )) − V (0, xa (0)) ≥ 0

Como a função V (t, x) satisfaz a condição terminal e como porhipótese xa (0) = x0, temos que para qualquer trajetória de controleadmisível vale

V (0, x0) ≤ h (xa (T )) +∫ T

0g (xa (t) , ua (t)) dt

Em particular, para a trajetória u∗(t) temos

V (0, x0) = h (x∗ (T )) +∫ T

0g (x∗ (t) , u∗ (t)) dt

≤ h (xa (T )) +∫ T

0g (xa (t) , ua (t)) dt

Ou seja, o custo para u∗(t) é V (0, x0) e não é maior que qualqueroutra política admissível ua(t).

Segue que u∗(t) é ótimo e

V (0, x0) = J∗(0, x0)

O procedimento anterior pode ser aplicado para qualquer tempo inicialt ∈ [0, T ] e qualquer estado inicial x, Então

V (t, x) = J∗(t, x), ∀t, x

Exemplo 2.1, p. 94

Considere o sistema escalar

x (t) = u (t) , t ∈ [0, T ]

com a restrição |u (t)| ≤ 1, para todo t ∈ [0, T ].

Deternine o u(t) ótimo que minimiza o custo

2x2 (T )

Exemplo 2.1, p. 94

Solução: A equação de HJB é

0 = min|u(t)|≤1[∇tV (t, x) + ∇xV (t, x)T u]

com condição final V (T, x) = 12x2.

Vamos inicialmente considerar uma interpretação intuitiva doproblema proposto.

A equação x (t) = u (t) nos diz que temos controle sobre a derivada dex, ou seja, podemos escolher a inclinação da curva x (t).

Exemplo 2.1, p. 94

O custo total 12x2 (T ) nos fornece a distância normalizada do ponto

final x (T ) em relação ao eixo horizontal.

Assim, o problema proposto consiste em determinar a melhorinclinação a cada instante de tal forma a minimizar a distância doponto final ao eixo horizontal, ou seja, fazer x(T ) o mais próximopossível de 0.

Uma candidata natural para estratégia ótima de ação a cada instante émover o estado para zero o mais rápido possível e caso atinja o zero,permanecer em zero.

Exemplo 2.1, p. 94

Assuma a política de controle candidata:

µc (t, x) = −sgn(x) =

1 se x < 0

0 se x = 0

−1 se x > 0

Vamos calcular a função custo associada à política de controlecandidata.

(i) Para x (t0) = 0 temos como política de controle candidata

{uc (t) = 0 para todo t ∈ [t0, T ]}

Assim, xc (t) = 0 para todo t ∈ [t0, T ], e J (t0, x0 = 0) = 0

Exemplo 2.1, p. 94

(ii) Para x (t0) = x0 > 0 temos

uc (t) = −1 para t em algum intervalo [t0, t1].

Como neste intervalo, x (t) = −1, temos

x (t1) = x (t0) −∫ t1

t01dt = x0 − t1 + t0

Note que a ação uc (t) = −1 deve permanecer até o instante t = t1,

enquanto valer x0 − t1 + t0 > 0

Exemplo 2.1, p. 94

Assim, para x0 ≥ T − t0, temos uc (t) = −1 em todo o intervalo[t0, T ].

Neste caso, x (T ) = x0 − (T − t0) e o custo associado é

J (t0, x0) = 12x2 (T ) = 1

2[x0 − (T − t0)]

Para x0 < T − t0, existe t1 = x0 + t0 < T para qual x (t1) = 0. Apartir deste instante fazemos uc (t) = 0 para todo t ∈ [t1, T ] e obtemosx (T ) = 0. Neste caso, o custo associado é J (t0, x0) = 0.

Resumindo temos: se x0 > 0 então

(1) J (t0, x0) =

{12[x0 − (T − t0)]

2 se x0 ≥ T − t0

0 se 0 ≤ x0 ≤ T − t0

Exemplo 2.1, p. 94

(iii) Para x (t0) = x0 < 0 temos

uc (t) = 1 para t em algum intervalo [t0, t2].

Como neste intervalo, x (t) = 1, temos

x (t2) = x (t0) +∫ t2

t01dt = x0 + t2 − t0

Note que a ação uc (t) = 1 deve permanecer até o instante t = t2,

enquanto valer x0 + t2 − t0 < 0

Exemplo 2.1, p. 94

Assim, para −x0 ≥ T − t0, temos uc (t) = 1 em todo o intervalo[t0, T ].

Neste caso, x (T ) = x0 + (T − t0) e o custo associado é

J (t0, x0) = 12x2 (T ) = 1

2[x0 + (T − t0)]

Para −x0 < T − t0, existe t2 = t0 − x0 < T para qual x (t2) = 0. Apartir deste instante fazemos uc (t) = 0 para todo t ∈ [t2, T ] e obtemosx (T ) = 0. Neste caso, o custo associado é J (t0, x0) = 0.

Resumindo temos: se x0 < 0 então

(2) J (t0, x0) =

{12[−x0 − (T − t0)]

2 se − x0 ≥ T − t0

0 se 0 ≤ −x0 ≤ T − t0

Exemplo 2.1, p. 94

De (1) e (2):

J (t0, x0) =

{12[|x0| − (T − t0)]

2 se |x0| ≥ T − t0

0 se 0 ≤ |x0| ≤ T − t0

Ou, considerando qualquer instante inicial t e qualquer estado inicial x

J (t, x) = 12[max{0, |x| − (T − t)}]2

que satisfaz a condição final J(T, x) = 12x2. Se esta função satisfaz a

Eq. de HJB, a lei de controle candidata é ótima

Exemplo 2.1, p. 94

Portanto, considere:

V (t, x) = J (t, x) = 12[max{0, |x| − (T − t)}]2

Temos:

∇tV (t, x) = max{0, |x| − (T − t)}

∇xV (t, x) = sgn(x).max{0, |x| − (T − t)}

lembrando que d/dx |x| = sgn(x)

Exemplo 2.1, p. 94

Substituindo na Equação de HJB

0 = min|u(t)|≤1[1 + sgn(x)u]max{0, |x| − (T − t)}

que é satisfeita para todo (t, x). Além do mais, o mínimo é alcançadopara u = −sgn(x), ou seja, a política candidata é ótima.

O problema Linear Quadrático

Considere o sistema linear

x (t) = Ax (t) + Bu (t)

e o custo total

xT (T )QT x (T ) +∫ T

0xT (t)Qx (t) + uT (t)Ru (t) dt

sendo as matrizes QT e Q simétricas semidefinidas positivas e a matriz

R simétrica definida positiva

Solução: Em termos do problema padrão temos as seguintesidentificações

f (x, u) = Ax + Bu

h (x) = xT QT x

g (x, u) = xT Qx + uT Ru

Então, a Equação de HJB fica

minu{xT Qx + uT Ru + ∇tV (t, x) + ∇xV (t, x)T (Ax + Bu)} = 0

com condição final V (T, x) = xT QT x

Como V (T, x) = xT QT x, é razoável assumir uma func’ ao Vcandidata da forma:

V (t, x) = xT K (t)x

sendo K (t) simétrica. Temos:

∇tV (t, x) = xT K(t)x

∇xV (t, x) = 2Kx

minu{xT Qx + uT Ru + ∇tV (t, x) + ∇xV (t, x)T (Ax + Bu)} = 0

minu{xT Qx + uT Ru + xT K(t)x + 2xT K(t)Ax + 2xT K(t)Bu} = 0

O mínimo é encontrado fazendo o gradiente com relação a u eigualando a zero:

2BT K(t)x + 2Ru = 0

Assim,

u = −R−1BT K(t)x

xT Qx + xT K(t)BR−1RR−1BT K(t)x + xT K(t)x + 2xT K(t)Ax

−2xT K(t)BR−1BT K(t)x = 0

xT Qx + xT K(t)x + xT K(t)Ax + xT AT K(t)x

−xT K(t)BR−1BT K(t)x = 0

xT(Q + K(t) + K(t)A + AT K(t) − K(t)BR−1BT K(t)

)x = 0

Equação de Riccati no tempo conítnuo

K(t) = −K(t)A − AT K(t) + K(t)BR−1BT K(t) − Q

Portanto, para que V (t, x) = xT K (t)x seja solução da Equação deHJB, K(t) deve satisfazer a Equação de Riccati.

De forma contrária, se K(t) é solução da Equação de Riccati, entãoV (t, x) = xT K (t)x é solução da Equação de HJB, e pela proposição2.1, o custo ótimo é

J∗ (t, x) = xT K (t)x

e a política ótima é

u∗ = −R−1BT K(t)x

Lista 3

Exercício 1: Considere o sistema

x1 (k) = αw (k + 1)

x2 (k) = −αw (k)

sendo {w (k), k ≥ 0} uma sequência de variáveis aleatórias (escalares)Gaussianas independentes, de média zero e de variância unitária.Considere as observações

y (k) = x2 (k) + v (k), k ≥ 0

sendo {v (k), k ≥ 0} uma sequência de variáveis aleatórias (escalares)Gaussianas independentes, de média zero e de variância unitária.Suponha ainda que w (i) e v (j) são não-correlacionados para todoi, j ≥ 0.

Lista 3

Determinar o seguinte valor esperado condicional:[x1 (k)

x2 (k)

]:= E{

[x1 (k)

x2 (k)

]| y (k) , ..., y (0)}

e a matriz de covariância do erro

Pk = E{

[x1 (k) − x1 (k)

x2 (k) − x2 (k)

][x1 (k) − x1 (k)

x2 (k) − x2 (k)

Dica: determinar a solução pelos primeiros princípios, sem sepreocupar em colocá-los de forma recursiva de Kalman.

Lista 3

Exercício 2: Considere o sistemaxk+1 = Axk + wk

zk = Cxk + vk para k = 0, 1, 2, ..., sendo

[0.9802 0.0196

0 0.9802

], C =

[1 −1

Faça um programa em MATLAB para estimar os estados para umadada condição inicial x0, utilizando o filtro de Kalman.Plote (pelo menos) os seguintes gráficos(i) os estados xk

(ii) as estimativas preditivas xk+1|k obtidas pelo filtro de Kalman(iii) as estimativas filtradas xk|k obtidas pelo filtro de Kalman(iv) as estimativas filtradas xk|k obtidas pelo filtro de Kalman emregime permanente(v) os erros de estimativa correspondentes aos itens (i)-(iv).

controle otimo´ - aula 8 equac¸ao˜ de hamilton-jacobi · controle otimo´ - aula 8 equac¸ao˜...

Documents

asmhba0001261 ouro escova otimo

apostila--- enxofre e Ácido sulfúrico otimo

gestão tributária - otimo

bombas otimo manual hidraulica basica

otimo fabio az

otimo material para calculo

trapézio e seus elementos otimo

equaçoes diferenciais e equaç˜ oes de diferenças˜

00 - maquinas de estado (otimo material)

como falar em público otimo

producao textual na educacao escolar 47 92 otimo

capítulo vi termodinâmica - otimo

artigo otimo

teoria do controle otimo capitulo 7 stamford (1)

nyc health + hospitals physician directory corporate ... ·...

otimo-educacao do acampo\

como ser um otimo aluno de idiomas

estruturas de mercados comparadas - otimo resumo

tecnicas para falar em publico[otimo ebook]

alças e puxadores de ziper pap otimo