page1 das-5341: métodos de diferença temporal prof. eduardo camponogara
TRANSCRIPT
![Page 1: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/1.jpg)
Page1
DAS-5341: Métodos de Diferença Temporal
Prof. Eduardo Camponogara
![Page 2: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/2.jpg)
Page2
Aprendizagem por Diferença Temporal
• Diferença Temporal (TD) é uma combinação das idéias de Monte Carlo (MC) e programação dinâmica (DP)
– Como os métodos MC, métodos TD podem aprender diretamente a partir de experiência, não exigindo um modelo da dinâmica do ambiente
– Como os métodos DP, métodos TD atualizam as estimativas em parte com base em outras estimativas, sem aguardar o resultado final (e.g., o final de episódio).
![Page 3: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/3.jpg)
Page3
Predição TD• Ambos os métodos MC e TD usam
experiência para resolver o problema da predição
– Métodos MC usam estimativas do retorno Rt, que segue um estado st, para calcular V(st)
V(st) V(st) + [Rt – V(st)], onde Rt é o retorno após o instante t
– Métodos TD não aguardam o término de um episódio, executando imediatamente a atualização após cada passo• V(st) V(st) + [rt+1 + V(st+1) – V(st)],
![Page 4: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/4.jpg)
Page4
Predição TD• O alvo de MC é Rt, enquanto que o alvo de TD é rt+1 + V(st+1)
• Relembrando a notação passada, temos: V(s) = E{ Rt | st = s} (1)
= E{ krt+k+1 | st = s } (2) k = 0
= E{ rt+1 + krt+k+2 | st = s} (3) k = 0
= E{ rt+1 + V(st+1) | st = s} (4)
MC
DP
![Page 5: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/5.jpg)
Page5
Predição TD• Em palavras gerais,
– métodos MC usam uma estimativa de (1) como alvo,
– enquanto que métodos DP utilizam uma estimativa de (4) como alvo
• Métodos TD usam uma estimativa de rt+1 e uma estimativa de V, dessa forma combinando os métodos MC e DP.
![Page 6: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/6.jpg)
Page6
Predição TD -- Algoritmo• Inicialize V(s) arbitrariamente, onde é a
política a ser avaliada• Repita (para cada episódio)
– Inicialize s– Repita (para cada passo do episódio)
•a ação dada por para s• Implemente a ação a• Observe o retorno r e o próximo estado s’•V(s) V(s) + [r + V(s’) – V(s)],•s’ s
– Até que s seja terminal
![Page 7: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/7.jpg)
Page7
Vantagens da Predição TD• Métodos TD podem aprender estimativas em
parte tomando como base outras estimativas– Esta abordagem é recomendável?– Que vantagens TD apresenta em
relação aos métodos MC e DP?
![Page 8: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/8.jpg)
Page8
Vantagens da Predição TD• Aqui daremos repostas breves às
questões levantadas
• Obviamente, métodos TD têm vantagens sobre métodos DP– TD não necessita do modelo do ambiente,
seus ganhos e distribuições de probabilidades sobre as transições
![Page 9: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/9.jpg)
Page9
Vantagens da Predição TD• Métodos TD têm vantagens sobre MC no
sentido de que TD é naturalmente implementado on-line, de uma forma totalmente incremental
– Com MC, temos que aguardar até o fim de um episódio, pois só no término sabemos o retorno
– Com TD, temos que aguardar apenas por um passo
– Algumas aplicações possuem longos episódios, tornando aprendizagem muito lenta
– Outras aplicações são tarefas contínuas
![Page 10: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/10.jpg)
Page10
Observações Sobre Predição TD• O método TD têm embasamento técnico?
![Page 11: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/11.jpg)
Page11
Observações Sobre Predição TD• O método TD têm embasamento técnico?
• Dada uma política fixa , o algoritmo TD descrito acima têm convergência comprovada para V
– Ele converge para a média de V quando o parâmetro de passo () é fixo, mas suficientemente pequeno
– Ele converge com probabilidade 1 se o passo decresce conforme as condições de aproximação estocástica
![Page 12: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/12.jpg)
Page12
Observações Sobre Predição TD• Condições de Aproximação Estocástica
k(a) = e k(a)2 <
k = 1 k = 1
onde k(a) denota o passo usado para processar o retorno recebido após a k-ésima seleção da ação a
![Page 13: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/13.jpg)
Page13
Observações Sobre Predição TD• As provas de convergência são aplicáveis
aos métodos baseados em tabelas, mas algumas delas podem ser aplicadas no caso geral de aproximação linear de funções
![Page 14: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/14.jpg)
Page14
Otimalidade de TD(0)• Suponha que haja apenas uma
quantidade limitada de experiência, digamos 10 episódios ou 100 passos
– Neste caso, uma abordagem incremental padrão consiste em apresentar a experiência múltiplas vezes até que convergência seja atingida
![Page 15: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/15.jpg)
Page15
Atualização Batch• Atualização Batch
– Seja V uma aproximação da função valor– Os incrementos especificados pelas equações
abaixo são computados para cada passo, mas a função valor é modificada apenas uma vez, utilizando a soma de todos os incrementos
V(st) V(st) + [Rt – V(st)] MC
V(st) V(st) + [rt+1 + V(st+1) - V(st)]TD
![Page 16: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/16.jpg)
Page16
Atualização Batch – Observações1. Sob atualização batch, TD(0) converge
deterministicamente para uma função valor única, independentemente do parâmetro , desde que seja suficientemente pequeno
2. O método MC -constante também converge deterministicamente sob as condições acima, mas para uma função valor diferente
– O entendimento dessas observações irá nos ajudar a compreender as diferenças entre os métodos TD e MC
![Page 17: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/17.jpg)
Page17
Exemplo: Navegação Aleatória
• Política a ser avaliada– Move para direita ou esquerda com a
mesma probabilidade (1/2)• Valor dos estados é:
– V(A) = 1/6, V(B) = 2/6, V(C) = 3/6, V(D) = 4/6, V(E) = 5/6
A B EDC0 0000 1
![Page 18: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/18.jpg)
Page18
Navegação Aleatória (Random Walk)
• Sob treinamento batch, MC -constante converge para o valor de V(s) que é a média dos retornos obtidos após visitar cada estado s– Tais estimativas são ótimas, minimizando a
raiz quadrada do erro médio entre a estimativa e o valor real
• Na prática, entretanto, TD apresenta comportamento melhor do que MC.– Como é possível TD ser melhor do que o
método ótimo (MC)?
![Page 19: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/19.jpg)
Page19
Exemplo• Estimando V(A) e V(B) a partir de
amostras de dados• Lista de episódios
– A,0,B,0 - B, 1– B, 1 - B, 1– B, 1 - B, 1– B, 1 - B, 0
• Dados os episódios acima, qual seria a predição ótima dos valores de V(A) e V(B)?– Qualquer um diria que V(B) = 6/8 = 3/4
![Page 20: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/20.jpg)
Page20
Exemplo• O que podemos dizer a respeito de V(A)?
– Monte Carlo• V(A) = 0• A média do retorno obtido após visitar A
– Diferença Temporal• V(A) = 3/4• Usa uma aproximação do processo
Markoviano
A Br = 0
r = 175%
r = 025%
100%
![Page 21: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/21.jpg)
Page21
Observações• O exemplo anterior ilustra a diferença geral
entre as estimativas encontradas por TD(0) batch e MC batch
– MC batch encontra estimativas que minimizam o erro médio da amostra
– TD batch busca estimativas que seriam exatamente corretas para o modelo mais provável (maximum-likelihood estimate) do processo Markoviano
![Page 22: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/22.jpg)
Page22
Maximum-Likelihood Estimate• Em geral, a estimativa mais provável (maximum-
likelihood estimate) de um parâmetro é o valor cuja probabilidade de se observar os dados é a maior possível
• No caso em consideração, a estimativa mais provável é um modelo do processo Markoviano– Dado este modelo, podemos calcular a função
valor que seria correta caso o modelo fosse correto
– Esta propriedade é chamada de estimativa com equivalência certa (certainty-equivalence estimate)
![Page 23: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/23.jpg)
Page23
SARSA: On-Policy TD Control• A partir de agora nos concentraremos no uso do
preditor TD em problemas de controle• Como nas situações anteriores, o ponto de
partida é iteração de política generalizada (GPI, Generalized Policy Iteration), entretanto aqui usamos métodos TD para avaliação de políticas
![Page 24: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/24.jpg)
Page24
SARSA: On-Policy TD Control• Da mesma forma que em métodos MC, nos
deparamos com o problema de balancear exploração e ganhos. Novamente, as abordagens caem em duas categorias:
– On-policy: avaliação e melhoria de uma política que é utilizada para tomar decisões
– Off-policy: utiliza-se uma política para gerar o comportamento (behavior policy) que é utilizado para avaliar ou melhorar outra política (estimation policy)
![Page 25: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/25.jpg)
Page25
SARSA: On-Policy TD Control• O primeiro passo é aprender a função
valor-ação (Q) em vez da função valor-estado (V).
– Devemos estimar Q(s, a) para a política comportamental corrente, para todo estado s e toda ação a
– Isso pode ser feito da mesma forma que no método TD anterior, usado para estimar V
![Page 26: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/26.jpg)
Page26
Aprendendo Q(s,a)
Q(st,at) Q(st,at) + [rt+1 + Q(st+1,at+1) – Q(st,at)]
• A regra de atualização acima é executada a cada transição a partir de um estado não-terminal
• A regra usa cada um dos elementos da quíntupla de eventos <st, at, rt+1, st+1, at+1>, dando o nome SARSA ao método
st St+1rt+1 St+2
st+1,at+1st,at
rt+2
![Page 27: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/27.jpg)
Page27
Sarsa -- Algoritmo• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)
– Inicialize s– Escolha uma ação a partir de s usando uma
política derivada de Q (e.g., -greedy)– Repita (para cada passo do episódio)
• Tome a ação a, observe r, s’• Escolha uma ação a’ a partir de s’ usando
uma política derivada de Q (e.g., -greedy)
• Q(s, a) Q(s,a) + [r + Q(s’,a’) – Q(s,a)]
![Page 28: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/28.jpg)
Page28
Convergência do Algoritmo• Sarsa converge com probabilidade de
100% para uma política ótima e uma função ação-valor ótima, desde que:
– todos os pares estado-ação sejam visitados um número infinito de vezes e
– a política converge no limite para a política gulosa (o que pode ser satisfeito, por exemplo, com uma política -greedy fazendo = 1/t)
![Page 29: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/29.jpg)
Page29
Q-Learning Off-Policy TD Control• Um dos maiores avanços em aprendizagem por
reforço foi o desenvolvimento do algoritmo de controle TD off-policy, conhecido como Q-learning. Na forma mais simples, Q-learning com passo 1 é definido como:
Q(st,at) Q(st,at) + [rt+1 + Max Q(st+1,a) – Q(st,at)] a
• Neste caso, a função ação-valor, Q, diretamente aproxima Q*, a função ação-valor ótima, independentemente da política comportamental.
![Page 30: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/30.jpg)
Page30
Q-learning• A regra de iteração que dá origem ao
algoritmo Q-learning simplificou significativamente a análise do algoritmo– Permitiu o desenvolvimento de provas de
convergência– A política tem um efeito sobre quais pares
estado-ação são visitados. Entretanto, só se espera que todos os pares sejam visitados continuamente para garantir convergência
– Q-learning converge com probabilidade 1 para a função ação-valor ótima, Q*.
![Page 31: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/31.jpg)
Page31
Algoritmo Q-learning• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)
– Inicialize s– Repita (para cada passo do episódio)
Escolha a a partir de s, usando política derivada de Q (e.g., -greedy)
Tome a ação a, observe r, s’Q(s,a) Q(s,a) + a[r + Maxa’Q(s’,a’) -
Q(s,a)]s s’
– Até que s seja um estado terminal
![Page 32: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/32.jpg)
Page32
Jogos, Estados Posteriores e Casos Especiais
• Procuramos apresentar uma abordagem uniforme e ampla de classes de tarefas, mas sempre existem tarefas excepcionais, que são tratadas de uma forma específica
• No jogo da velha, por exemplo, a função valor avalia posições do tabuleiro após o agente executar seu movimento– Em jogos, tipicamente se conhece o efeito
imediato dos movimentos, mas não sabemos como que o oponente reagirá e as consequência a longo-prazo
![Page 33: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/33.jpg)
Page33
Estados Posteriores• Vamos denotar por estados posteriores
os estados nos quais as nossas ações podem ser avaliadas
• Algoritmos mais eficientes podem ser projetados em termos de estados posteriores, em particular o jogo da velha– Um função ação-valor convencional
mapearia configurações do tabuleiro e movimentos para uma estimativa do valor
– Todavia, diferente pares configuração-movimento produzem o mesmo resultado, veja o exemplo a seguir
![Page 34: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/34.jpg)
Page34
Estados Posteriores
+X
0 X +X 0X
X 0X
![Page 35: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/35.jpg)
Page35
Estados Posteriores• Nos casos acima, os pares configuração-
movimento são distintos, mas produzem o mesmo estado posterior e, portanto, possuem o mesmo valor
– Uma função ação-valor convencional teria entradas separadas para estes pares, enquanto que uma função valor sobre estados posteriores automaticamente definiria ambos com o mesmo valor—conhecimento sobre um dos pares, seria imediatamente transferido para o outro
![Page 36: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/36.jpg)
Page36
Estados Posteriores• Estados posteriores surgem em outros
domínios como, por exemplo, sistemas de fila
– Tarefas tais como designar cliente a um servidor, rejeitar clientes, ou descartar informação
– Os ganhos imediatos são conhecidos
– Quebre a dinâmica em ganhos imediatos (conhecidos) e desconhecidos (processo randômico que se refere à chegada e partida de clientes).
![Page 37: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/37.jpg)
Page37
Tratamento Avançado• Artigos técnicos e livros
– Machine Learning Journal– Journal of Artificial Intelligence Research– D.P. Bertesekas, Neuro-Dynamic
Programming, Athena Scientific, 1996– D.P. Bertsekas, Dynamic Programming,
Athena Scientific, 1995
![Page 38: Page1 DAS-5341: Métodos de Diferença Temporal Prof. Eduardo Camponogara](https://reader036.vdocuments.site/reader036/viewer/2022062522/5706384b1a28abb8238f5c7c/html5/thumbnails/38.jpg)
Page38
Fim• Obrigado pela participação!