controle otimo´ - aula 8 equac¸ao˜ de hamilton-jacobi · controle otimo´ - aula 8 equac¸ao˜...
Post on 25-Jul-2020
11 Views
Preview:
TRANSCRIPT
Controle Otimo - Aula 8Equacao de Hamilton-Jacobi
Adriano A. G. Siqueira e Marco H. Terra
Departamento de Engenharia Eletrica
Universidade de Sao Paulo - Sao Carlos
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.1/34
O problema de controle ótimo
Considere um sistema contínuo
x (t) = f (x (t) , u (t)) , 0 ≤ t ≤ T
com x (0) = x0 dado,
u (t) ∈ U, 0 ≤ t ≤ T
e um funcional custo associado da forma
h (x (T )) +∫ T
0g (x (t) , u (t)) dt
O problema de controle ótimo consiste em determinar uma lei decontrole (denominada lei de controle ótima) {u∗ (t) : t ∈ [0, T ]} queaplicada ao sistema, minimize o funcional custo.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.2/34
Equação deHamilton-Jacobi-Bellman
Usando o princípio de otimalidade de Bellman, podemos determinaruma condição necessária em forma de equação diferencial parcial, quea solução ótima deve satisfazer.
• Equação de Hamilton-Jacobi-Bellman
O uso da princípio da otimalidade para derivar a equação deHamilton-Jacobi-Bellman é referido como Abordagem daProgramação Dinâmica
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.3/34
Equação deHamilton-Jacobi-Bellman
Aplicação da Programação Dinâmica na aproximação discreta doproblema de controle ótimo contínuo
Divisão do horizonte de tempo [0, T ] em N partes, usando o intervalode discretização
δ = TN
Denote: xk = x(kδ) e uk = u(kδ) k = 0, 1, ..., N
Aproximação da equação dinâmica contínua
xk+1 = xk + f(xk, uk)δ
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.4/34
Equação deHamilton-Jacobi-Bellman
Função custo
h (xN) +∑N−1
k=0 g (xk, uk) δ
Sejam
J∗(t, x): custo ótimo no tempo t e estado x para o problema contínuo
J∗(t, x): custo ótimo no tempo t e estado x para a aproximação
discreta
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.5/34
Equação deHamilton-Jacobi-Bellman
Algoritmo da Programação Dinâmica
J∗(Nδ, x) = h(x)
J∗(kδ, x) = minu∈U [g(x, u)δ + J
∗((k + 1)δ, x + f(x, u)δ)]
k = 0, ..., N − 1
Assumindo que J∗
é diferenciável, vamos expandí-lo em série deTaylor de primeira ordem
J∗((k + 1)δ, x + f(x, u)δ)
= J∗(kδ, x) + ∇tJ
∗(kδ, x)δ + ∇xJ
∗(kδ, x)Tf(x, u)δ + o(δ)
∇t: derivada parcial com relação a t e ∇x: vetor coluna n-dimensionalde derivadas parciais com relação a x
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.6/34
Equação deHamilton-Jacobi-Bellman
Substituindo no algoritmo da PD
J∗(kδ, x) = minu∈U [g(x, u)δ + J
∗(kδ, x) + ∇tJ
∗(kδ, x)δ
+∇xJ∗(kδ, x)Tf(x, u)δ + o(δ)]
Cancelando J∗(kδ, x) dos dois lados, dividindo por δ, fazendo o limite
δ → 0 e assumindo
limk→∞,δ→0,kδ=tJ∗(kδ, x) = J
∗(t, x)
para todo t, x.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.7/34
Equação deHamilton-Jacobi-Bellman
Temos:
0 = minu∈U [g(x, u) + ∇tJ∗(t, x) + ∇xJ
∗(t, x)T f(x, u)]
com condição limite J∗(T, x) = h(x).
Equação de Hamilton-Jacobi-Bellman
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.8/34
Proposição 2.1, p.93
Seja V (t, x) uma solução da equação de Hamilton-Jacobi-Bellman, ouseja, V é continuamente diferenciável em (t, x) e é tal que
0 = minu∈U [g(x, u) + ∇tV (t, x) + ∇xV (t, x)T f(x, u)]
com condição limite V (T, x) = h(x).
Suponha que µ∗ (t, x) resolve o problema de mínimo acima para todo(t, x)
Seja {x∗(t)|t ∈ [0, T ]} a trajetória de estados do sistema quando ocontrole u∗(t) = µ∗ (t, x∗(t)) é aplicado e a condição inicial é x(0).
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.9/34
Proposição 2.1, p.93
Suponha que {u∗ (t) : t ∈ [0, T ]} seja admissível (contínua por partesem t e contida em U ).
Então V (t, x) é a única solução da equação de HJB e é igual à funçãoótima, ou seja,
V (t, x) = J∗ (t, x) ,∀ (t, x)
Além disso, a lei de controle {u∗ (t) : t ∈ [0, T ]} é ótima e a trajetóriade estados ótima é {x∗ (t) : t ∈ [0, T ]}.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.10/34
Proposição 2.1, p.93
Prova: Primeiramente, pela definição de u∗ e pela Eq. de HJB, noteque as trajetórias {x∗ (t) : t ∈ [0, T ]} e {u∗ (t) : t ∈ [0, T ]} são tais que
g (x∗ (t) , u∗ (t)) + ∇tV (t, x∗ (t))
+∇xV (t, x∗ (t))T f (x∗ (t) , u∗ (t)) = 0, ∀t ∈ [0, T ]
e para qualquer outra trajetória admissível {ua (t) : t ∈ [0, T ]} com acorrespondente trajetória {xa (t) : t ∈ [0, T ]} temos
ca (t) := g (xa (t) , ua (t)) + ∇tV (t, xa (t))
+∇xV (t, xa (t))T f (xa (t) , ua (t)) ≥ 0, ∀t ∈ [0, T ]
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.11/34
Proposição 2.1, p.93
Como xa (t) e ua (t) satisfazem a equação do sistema
xa (t) = f (xa (t) , ua (t)) , xa (0) = x0,
pela regra da cadeia,
ca (t) = g (xa (t) , ua (t)) + ddt
(V (t, xa (t))) ≥ 0
sendo ddt
a derivada total com relação a t. Integrando em t de 0 a Tobtemos∫ T
0g (xa (t) , ua (t)) dt + V (T, xa (T )) − V (0, xa (0)) ≥ 0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.12/34
Proposição 2.1, p.93
Como a função V (t, x) satisfaz a condição terminal e como porhipótese xa (0) = x0, temos que para qualquer trajetória de controleadmisível vale
V (0, x0) ≤ h (xa (T )) +∫ T
0g (xa (t) , ua (t)) dt
Em particular, para a trajetória u∗(t) temos
V (0, x0) = h (x∗ (T )) +∫ T
0g (x∗ (t) , u∗ (t)) dt
≤ h (xa (T )) +∫ T
0g (xa (t) , ua (t)) dt
Ou seja, o custo para u∗(t) é V (0, x0) e não é maior que qualqueroutra política admissível ua(t).
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.13/34
Proposição 2.1, p.93
Segue que u∗(t) é ótimo e
V (0, x0) = J∗(0, x0)
O procedimento anterior pode ser aplicado para qualquer tempo inicialt ∈ [0, T ] e qualquer estado inicial x, Então
V (t, x) = J∗(t, x), ∀t, x
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.14/34
Exemplo 2.1, p. 94
Considere o sistema escalar
x (t) = u (t) , t ∈ [0, T ]
com a restrição |u (t)| ≤ 1, para todo t ∈ [0, T ].
Deternine o u(t) ótimo que minimiza o custo
1
2x2 (T )
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.15/34
Exemplo 2.1, p. 94
Solução: A equação de HJB é
0 = min|u(t)|≤1[∇tV (t, x) + ∇xV (t, x)T u]
com condição final V (T, x) = 12x2.
Vamos inicialmente considerar uma interpretação intuitiva doproblema proposto.
A equação x (t) = u (t) nos diz que temos controle sobre a derivada dex, ou seja, podemos escolher a inclinação da curva x (t).
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.16/34
Exemplo 2.1, p. 94
O custo total 12x2 (T ) nos fornece a distância normalizada do ponto
final x (T ) em relação ao eixo horizontal.
Assim, o problema proposto consiste em determinar a melhorinclinação a cada instante de tal forma a minimizar a distância doponto final ao eixo horizontal, ou seja, fazer x(T ) o mais próximopossível de 0.
Uma candidata natural para estratégia ótima de ação a cada instante émover o estado para zero o mais rápido possível e caso atinja o zero,permanecer em zero.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.17/34
Exemplo 2.1, p. 94
Assuma a política de controle candidata:
µc (t, x) = −sgn(x) =
1 se x < 0
0 se x = 0
−1 se x > 0
Vamos calcular a função custo associada à política de controlecandidata.
(i) Para x (t0) = 0 temos como política de controle candidata
{uc (t) = 0 para todo t ∈ [t0, T ]}
Assim, xc (t) = 0 para todo t ∈ [t0, T ], e J (t0, x0 = 0) = 0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.18/34
Exemplo 2.1, p. 94
(ii) Para x (t0) = x0 > 0 temos
uc (t) = −1 para t em algum intervalo [t0, t1].
Como neste intervalo, x (t) = −1, temos
x (t1) = x (t0) −∫ t1
t01dt = x0 − t1 + t0
Note que a ação uc (t) = −1 deve permanecer até o instante t = t1,
enquanto valer x0 − t1 + t0 > 0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.19/34
Exemplo 2.1, p. 94
Assim, para x0 ≥ T − t0, temos uc (t) = −1 em todo o intervalo[t0, T ].
Neste caso, x (T ) = x0 − (T − t0) e o custo associado é
J (t0, x0) = 12x2 (T ) = 1
2[x0 − (T − t0)]
2
Para x0 < T − t0, existe t1 = x0 + t0 < T para qual x (t1) = 0. Apartir deste instante fazemos uc (t) = 0 para todo t ∈ [t1, T ] e obtemosx (T ) = 0. Neste caso, o custo associado é J (t0, x0) = 0.
Resumindo temos: se x0 > 0 então
(1) J (t0, x0) =
{12[x0 − (T − t0)]
2 se x0 ≥ T − t0
0 se 0 ≤ x0 ≤ T − t0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.20/34
Exemplo 2.1, p. 94
(iii) Para x (t0) = x0 < 0 temos
uc (t) = 1 para t em algum intervalo [t0, t2].
Como neste intervalo, x (t) = 1, temos
x (t2) = x (t0) +∫ t2
t01dt = x0 + t2 − t0
Note que a ação uc (t) = 1 deve permanecer até o instante t = t2,
enquanto valer x0 + t2 − t0 < 0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.21/34
Exemplo 2.1, p. 94
Assim, para −x0 ≥ T − t0, temos uc (t) = 1 em todo o intervalo[t0, T ].
Neste caso, x (T ) = x0 + (T − t0) e o custo associado é
J (t0, x0) = 12x2 (T ) = 1
2[x0 + (T − t0)]
2
Para −x0 < T − t0, existe t2 = t0 − x0 < T para qual x (t2) = 0. Apartir deste instante fazemos uc (t) = 0 para todo t ∈ [t2, T ] e obtemosx (T ) = 0. Neste caso, o custo associado é J (t0, x0) = 0.
Resumindo temos: se x0 < 0 então
(2) J (t0, x0) =
{12[−x0 − (T − t0)]
2 se − x0 ≥ T − t0
0 se 0 ≤ −x0 ≤ T − t0
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.22/34
Exemplo 2.1, p. 94
De (1) e (2):
J (t0, x0) =
{12[|x0| − (T − t0)]
2 se |x0| ≥ T − t0
0 se 0 ≤ |x0| ≤ T − t0
Ou, considerando qualquer instante inicial t e qualquer estado inicial x
J (t, x) = 12[max{0, |x| − (T − t)}]2
que satisfaz a condição final J(T, x) = 12x2. Se esta função satisfaz a
Eq. de HJB, a lei de controle candidata é ótima
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.23/34
Exemplo 2.1, p. 94
Portanto, considere:
V (t, x) = J (t, x) = 12[max{0, |x| − (T − t)}]2
Temos:
∇tV (t, x) = max{0, |x| − (T − t)}
∇xV (t, x) = sgn(x).max{0, |x| − (T − t)}
lembrando que d/dx |x| = sgn(x)
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.24/34
Exemplo 2.1, p. 94
Substituindo na Equação de HJB
0 = min|u(t)|≤1[1 + sgn(x)u]max{0, |x| − (T − t)}
que é satisfeita para todo (t, x). Além do mais, o mínimo é alcançadopara u = −sgn(x), ou seja, a política candidata é ótima.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.25/34
O problema Linear Quadrático
Considere o sistema linear
x (t) = Ax (t) + Bu (t)
e o custo total
xT (T )QT x (T ) +∫ T
0xT (t)Qx (t) + uT (t)Ru (t) dt
sendo as matrizes QT e Q simétricas semidefinidas positivas e a matriz
R simétrica definida positiva
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.26/34
O problema Linear Quadrático
Solução: Em termos do problema padrão temos as seguintesidentificações
f (x, u) = Ax + Bu
h (x) = xT QT x
g (x, u) = xT Qx + uT Ru
Então, a Equação de HJB fica
minu{xT Qx + uT Ru + ∇tV (t, x) + ∇xV (t, x)T (Ax + Bu)} = 0
com condição final V (T, x) = xT QT x
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.27/34
O problema Linear Quadrático
Como V (T, x) = xT QT x, é razoável assumir uma func’ ao Vcandidata da forma:
V (t, x) = xT K (t)x
sendo K (t) simétrica. Temos:
∇tV (t, x) = xT K(t)x
∇xV (t, x) = 2Kx
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.28/34
O problema Linear Quadrático
Substituindo na Equação de HJB
minu{xT Qx + uT Ru + ∇tV (t, x) + ∇xV (t, x)T (Ax + Bu)} = 0
minu{xT Qx + uT Ru + xT K(t)x + 2xT K(t)Ax + 2xT K(t)Bu} = 0
O mínimo é encontrado fazendo o gradiente com relação a u eigualando a zero:
2BT K(t)x + 2Ru = 0
Assim,
u = −R−1BT K(t)x
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.29/34
O problema Linear Quadrático
Substituindo na Equação de HJB
xT Qx + xT K(t)BR−1RR−1BT K(t)x + xT K(t)x + 2xT K(t)Ax
−2xT K(t)BR−1BT K(t)x = 0
xT Qx + xT K(t)x + xT K(t)Ax + xT AT K(t)x
−xT K(t)BR−1BT K(t)x = 0
xT(Q + K(t) + K(t)A + AT K(t) − K(t)BR−1BT K(t)
)x = 0
Equação de Riccati no tempo conítnuo
K(t) = −K(t)A − AT K(t) + K(t)BR−1BT K(t) − Q
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.30/34
O problema Linear Quadrático
Portanto, para que V (t, x) = xT K (t)x seja solução da Equação deHJB, K(t) deve satisfazer a Equação de Riccati.
De forma contrária, se K(t) é solução da Equação de Riccati, entãoV (t, x) = xT K (t)x é solução da Equação de HJB, e pela proposição2.1, o custo ótimo é
J∗ (t, x) = xT K (t)x
e a política ótima é
u∗ = −R−1BT K(t)x
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.31/34
Lista 3
Exercício 1: Considere o sistema
x1 (k) = αw (k + 1)
x2 (k) = −αw (k)
sendo {w (k), k ≥ 0} uma sequência de variáveis aleatórias (escalares)Gaussianas independentes, de média zero e de variância unitária.Considere as observações
y (k) = x2 (k) + v (k), k ≥ 0
sendo {v (k), k ≥ 0} uma sequência de variáveis aleatórias (escalares)Gaussianas independentes, de média zero e de variância unitária.Suponha ainda que w (i) e v (j) são não-correlacionados para todoi, j ≥ 0.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.32/34
Lista 3
Determinar o seguinte valor esperado condicional:[x1 (k)
x2 (k)
]:= E{
[x1 (k)
x2 (k)
]| y (k) , ..., y (0)}
e a matriz de covariância do erro
Pk = E{
[x1 (k) − x1 (k)
x2 (k) − x2 (k)
][x1 (k) − x1 (k)
x2 (k) − x2 (k)
]T
}
Dica: determinar a solução pelos primeiros princípios, sem sepreocupar em colocá-los de forma recursiva de Kalman.
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.33/34
Lista 3
Exercício 2: Considere o sistemaxk+1 = Axk + wk
zk = Cxk + vk para k = 0, 1, 2, ..., sendo
A =
[0.9802 0.0196
0 0.9802
], C =
[1 −1
].
Faça um programa em MATLAB para estimar os estados para umadada condição inicial x0, utilizando o filtro de Kalman.Plote (pelo menos) os seguintes gráficos(i) os estados xk
(ii) as estimativas preditivas xk+1|k obtidas pelo filtro de Kalman(iii) as estimativas filtradas xk|k obtidas pelo filtro de Kalman(iv) as estimativas filtradas xk|k obtidas pelo filtro de Kalman emregime permanente(v) os erros de estimativa correspondentes aos itens (i)-(iv).
Controle Otimo - Aula 8 Equacao de Hamilton-Jacobi – p.34/34
top related