page1 das-5341: métodos de diferença temporal prof. eduardo camponogara

DAS-5341: Métodos de Diferença Temporal

Prof. Eduardo Camponogara

Aprendizagem por Diferença Temporal

• Diferença Temporal (TD) é uma combinação das idéias de Monte Carlo (MC) e programação dinâmica (DP)

– Como os métodos MC, métodos TD podem aprender diretamente a partir de experiência, não exigindo um modelo da dinâmica do ambiente

– Como os métodos DP, métodos TD atualizam as estimativas em parte com base em outras estimativas, sem aguardar o resultado final (e.g., o final de episódio).

Predição TD• Ambos os métodos MC e TD usam

experiência para resolver o problema da predição

– Métodos MC usam estimativas do retorno Rt, que segue um estado st, para calcular V(st)

V(st) V(st) + [Rt – V(st)], onde Rt é o retorno após o instante t

– Métodos TD não aguardam o término de um episódio, executando imediatamente a atualização após cada passo• V(st) V(st) + [rt+1 + V(st+1) – V(st)],

Predição TD• O alvo de MC é Rt, enquanto que o alvo de TD é rt+1 + V(st+1)

• Relembrando a notação passada, temos: V(s) = E{ Rt | st = s} (1)

= E{ krt+k+1 | st = s } (2) k = 0

= E{ rt+1 + krt+k+2 | st = s} (3) k = 0

= E{ rt+1 + V(st+1) | st = s} (4)

MC

DP

Predição TD• Em palavras gerais,

– métodos MC usam uma estimativa de (1) como alvo,

– enquanto que métodos DP utilizam uma estimativa de (4) como alvo

• Métodos TD usam uma estimativa de rt+1 e uma estimativa de V, dessa forma combinando os métodos MC e DP.

Predição TD -- Algoritmo• Inicialize V(s) arbitrariamente, onde é a

política a ser avaliada• Repita (para cada episódio)

– Inicialize s– Repita (para cada passo do episódio)

•a ação dada por para s• Implemente a ação a• Observe o retorno r e o próximo estado s’•V(s) V(s) + [r + V(s’) – V(s)],•s’ s

– Até que s seja terminal

Vantagens da Predição TD• Métodos TD podem aprender estimativas em

parte tomando como base outras estimativas– Esta abordagem é recomendável?– Que vantagens TD apresenta em

relação aos métodos MC e DP?

Vantagens da Predição TD• Aqui daremos repostas breves às

questões levantadas

• Obviamente, métodos TD têm vantagens sobre métodos DP– TD não necessita do modelo do ambiente,

seus ganhos e distribuições de probabilidades sobre as transições

Vantagens da Predição TD• Métodos TD têm vantagens sobre MC no

sentido de que TD é naturalmente implementado on-line, de uma forma totalmente incremental

– Com MC, temos que aguardar até o fim de um episódio, pois só no término sabemos o retorno

– Com TD, temos que aguardar apenas por um passo

– Algumas aplicações possuem longos episódios, tornando aprendizagem muito lenta

– Outras aplicações são tarefas contínuas

Observações Sobre Predição TD• O método TD têm embasamento técnico?

Observações Sobre Predição TD• O método TD têm embasamento técnico?

• Dada uma política fixa , o algoritmo TD descrito acima têm convergência comprovada para V

– Ele converge para a média de V quando o parâmetro de passo () é fixo, mas suficientemente pequeno

– Ele converge com probabilidade 1 se o passo decresce conforme as condições de aproximação estocástica

Observações Sobre Predição TD• Condições de Aproximação Estocástica

k(a) = e k(a)2 <

k = 1 k = 1

onde k(a) denota o passo usado para processar o retorno recebido após a k-ésima seleção da ação a

Observações Sobre Predição TD• As provas de convergência são aplicáveis

aos métodos baseados em tabelas, mas algumas delas podem ser aplicadas no caso geral de aproximação linear de funções

Otimalidade de TD(0)• Suponha que haja apenas uma

quantidade limitada de experiência, digamos 10 episódios ou 100 passos

– Neste caso, uma abordagem incremental padrão consiste em apresentar a experiência múltiplas vezes até que convergência seja atingida

Atualização Batch• Atualização Batch

– Seja V uma aproximação da função valor– Os incrementos especificados pelas equações

abaixo são computados para cada passo, mas a função valor é modificada apenas uma vez, utilizando a soma de todos os incrementos

V(st) V(st) + [Rt – V(st)] MC

V(st) V(st) + [rt+1 + V(st+1) - V(st)]TD

Atualização Batch – Observações1. Sob atualização batch, TD(0) converge

deterministicamente para uma função valor única, independentemente do parâmetro , desde que seja suficientemente pequeno

2. O método MC -constante também converge deterministicamente sob as condições acima, mas para uma função valor diferente

– O entendimento dessas observações irá nos ajudar a compreender as diferenças entre os métodos TD e MC

Exemplo: Navegação Aleatória

• Política a ser avaliada– Move para direita ou esquerda com a

mesma probabilidade (1/2)• Valor dos estados é:

– V(A) = 1/6, V(B) = 2/6, V(C) = 3/6, V(D) = 4/6, V(E) = 5/6

A B EDC0 0000 1

Navegação Aleatória (Random Walk)

• Sob treinamento batch, MC -constante converge para o valor de V(s) que é a média dos retornos obtidos após visitar cada estado s– Tais estimativas são ótimas, minimizando a

raiz quadrada do erro médio entre a estimativa e o valor real

• Na prática, entretanto, TD apresenta comportamento melhor do que MC.– Como é possível TD ser melhor do que o

método ótimo (MC)?

Exemplo• Estimando V(A) e V(B) a partir de

amostras de dados• Lista de episódios

– A,0,B,0 - B, 1– B, 1 - B, 1– B, 1 - B, 1– B, 1 - B, 0

• Dados os episódios acima, qual seria a predição ótima dos valores de V(A) e V(B)?– Qualquer um diria que V(B) = 6/8 = 3/4

Exemplo• O que podemos dizer a respeito de V(A)?

– Monte Carlo• V(A) = 0• A média do retorno obtido após visitar A

– Diferença Temporal• V(A) = 3/4• Usa uma aproximação do processo

Markoviano

A Br = 0

r = 175%

r = 025%

100%

Observações• O exemplo anterior ilustra a diferença geral

entre as estimativas encontradas por TD(0) batch e MC batch

– MC batch encontra estimativas que minimizam o erro médio da amostra

– TD batch busca estimativas que seriam exatamente corretas para o modelo mais provável (maximum-likelihood estimate) do processo Markoviano

Maximum-Likelihood Estimate• Em geral, a estimativa mais provável (maximum-

likelihood estimate) de um parâmetro é o valor cuja probabilidade de se observar os dados é a maior possível

• No caso em consideração, a estimativa mais provável é um modelo do processo Markoviano– Dado este modelo, podemos calcular a função

valor que seria correta caso o modelo fosse correto

– Esta propriedade é chamada de estimativa com equivalência certa (certainty-equivalence estimate)

SARSA: On-Policy TD Control• A partir de agora nos concentraremos no uso do

preditor TD em problemas de controle• Como nas situações anteriores, o ponto de

partida é iteração de política generalizada (GPI, Generalized Policy Iteration), entretanto aqui usamos métodos TD para avaliação de políticas

SARSA: On-Policy TD Control• Da mesma forma que em métodos MC, nos

deparamos com o problema de balancear exploração e ganhos. Novamente, as abordagens caem em duas categorias:

– On-policy: avaliação e melhoria de uma política que é utilizada para tomar decisões

– Off-policy: utiliza-se uma política para gerar o comportamento (behavior policy) que é utilizado para avaliar ou melhorar outra política (estimation policy)

SARSA: On-Policy TD Control• O primeiro passo é aprender a função

valor-ação (Q) em vez da função valor-estado (V).

– Devemos estimar Q(s, a) para a política comportamental corrente, para todo estado s e toda ação a

– Isso pode ser feito da mesma forma que no método TD anterior, usado para estimar V

Aprendendo Q(s,a)

Q(st,at) Q(st,at) + [rt+1 + Q(st+1,at+1) – Q(st,at)]

• A regra de atualização acima é executada a cada transição a partir de um estado não-terminal

• A regra usa cada um dos elementos da quíntupla de eventos <st, at, rt+1, st+1, at+1>, dando o nome SARSA ao método

st St+1rt+1 St+2

st+1,at+1st,at

rt+2

Sarsa -- Algoritmo• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)

– Inicialize s– Escolha uma ação a partir de s usando uma

política derivada de Q (e.g., -greedy)– Repita (para cada passo do episódio)

• Tome a ação a, observe r, s’• Escolha uma ação a’ a partir de s’ usando

uma política derivada de Q (e.g., -greedy)

• Q(s, a) Q(s,a) + [r + Q(s’,a’) – Q(s,a)]

Convergência do Algoritmo• Sarsa converge com probabilidade de

100% para uma política ótima e uma função ação-valor ótima, desde que:

– todos os pares estado-ação sejam visitados um número infinito de vezes e

– a política converge no limite para a política gulosa (o que pode ser satisfeito, por exemplo, com uma política -greedy fazendo = 1/t)

Q-Learning Off-Policy TD Control• Um dos maiores avanços em aprendizagem por

reforço foi o desenvolvimento do algoritmo de controle TD off-policy, conhecido como Q-learning. Na forma mais simples, Q-learning com passo 1 é definido como:

Q(st,at) Q(st,at) + [rt+1 + Max Q(st+1,a) – Q(st,at)] a

• Neste caso, a função ação-valor, Q, diretamente aproxima Q*, a função ação-valor ótima, independentemente da política comportamental.

Q-learning• A regra de iteração que dá origem ao

algoritmo Q-learning simplificou significativamente a análise do algoritmo– Permitiu o desenvolvimento de provas de

convergência– A política tem um efeito sobre quais pares

estado-ação são visitados. Entretanto, só se espera que todos os pares sejam visitados continuamente para garantir convergência

– Q-learning converge com probabilidade 1 para a função ação-valor ótima, Q*.

Algoritmo Q-learning• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)

– Inicialize s– Repita (para cada passo do episódio)

Escolha a a partir de s, usando política derivada de Q (e.g., -greedy)

Tome a ação a, observe r, s’Q(s,a) Q(s,a) + a[r + Maxa’Q(s’,a’) -

Q(s,a)]s s’

– Até que s seja um estado terminal

Jogos, Estados Posteriores e Casos Especiais

• Procuramos apresentar uma abordagem uniforme e ampla de classes de tarefas, mas sempre existem tarefas excepcionais, que são tratadas de uma forma específica

• No jogo da velha, por exemplo, a função valor avalia posições do tabuleiro após o agente executar seu movimento– Em jogos, tipicamente se conhece o efeito

imediato dos movimentos, mas não sabemos como que o oponente reagirá e as consequência a longo-prazo

Estados Posteriores• Vamos denotar por estados posteriores

os estados nos quais as nossas ações podem ser avaliadas

• Algoritmos mais eficientes podem ser projetados em termos de estados posteriores, em particular o jogo da velha– Um função ação-valor convencional

mapearia configurações do tabuleiro e movimentos para uma estimativa do valor

– Todavia, diferente pares configuração-movimento produzem o mesmo resultado, veja o exemplo a seguir

Estados Posteriores

+X

0 X +X 0X

X 0X

Estados Posteriores• Nos casos acima, os pares configuração-

movimento são distintos, mas produzem o mesmo estado posterior e, portanto, possuem o mesmo valor

– Uma função ação-valor convencional teria entradas separadas para estes pares, enquanto que uma função valor sobre estados posteriores automaticamente definiria ambos com o mesmo valor—conhecimento sobre um dos pares, seria imediatamente transferido para o outro

Estados Posteriores• Estados posteriores surgem em outros

domínios como, por exemplo, sistemas de fila

– Tarefas tais como designar cliente a um servidor, rejeitar clientes, ou descartar informação

– Os ganhos imediatos são conhecidos

– Quebre a dinâmica em ganhos imediatos (conhecidos) e desconhecidos (processo randômico que se refere à chegada e partida de clientes).

Tratamento Avançado• Artigos técnicos e livros

– Machine Learning Journal– Journal of Artificial Intelligence Research– D.P. Bertesekas, Neuro-Dynamic

Programming, Athena Scientific, 1996– D.P. Bertsekas, Dynamic Programming,

Athena Scientific, 1995

Fim• Obrigado pela participação!

page1 das-5341: métodos de diferença temporal prof. eduardo camponogara

Documents