q learning simulator

Q-Learning Robolution

Reinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730

Motivação

Simular um robô móvel que: Actue como um agente que possua

aprendizagem. Desloque-se num ambiente desconhecido,

efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente,

através de um sistema sensorial. Defina estados consoante a informação

obtida.Machine Learning - David Jardim 2008/2009 2

Machine Learning - David Jardim 2008/2009

Dificuldades Encontradas

Simular o movimento de um robô real.

Desenhar os sensores com os ângulos pretendidos.

Actualizar as posições de forma correcta.

Definir os diferentes estados do robô.

Atribuir recompensas de forma correcta a cada estado.

Problemática dos becos sem saída.3


Descrição do Cenário

As paredes são representadas por linhas

amarelas.

4


Descrição do Agente

32010423 5

Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente.

Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente

ao farol. Distância discreta em relação ao farol.

Estados possíveis:


Simular o Movimento do Robô

Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro.

Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do

robô). Actualizar o ponto final (extremidade do

sensor).

6


Definição do Estado

Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais

próximas. Sensores de Orientação:

Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.

Distância: Foi necessário tornar a distância discreta, de forma a

reduzir o número de estados possíveis.

7

Recompensa

Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita.

▪ Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.

Deslocar-se para a frente.▪ Depende do valor da distância discreta a que

o robô se encontra do farol. A recompensa é calculada de forma distinta,

para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.

Machine Learning - David Jardim 2008/2009 8


Becos sem saída

Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma

recompensa imediata inferior. O outro não leva ao farol, mas possui

uma recompensa imediata superior. Solução:

Foi atribuída uma recompensa suficientemente grande aos estados finais.

9


Distâncias Discretas

10


Funcionalidades da Aplicação

11


Funcionalidades da Aplicação

12

O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.


Resultados

13

1 14 27 40 53 66 79 92 1051181311441571701831960

500

1000

1500

2000

2500

3000

3500

IteraçãoPassos


Resultados

14

1 14 27 40 53 66 79 92 1051181311441571701831960

1000

2000

3000

4000

5000

6000

7000

8000

Iter-ação


Limitações

A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).

O deslocamento não é efectuado tendo em conta as rodas do robô.

Se o cenário for demasiado complexo, a convergência da solução é muito lenta.

15


Questões

16

q learning simulator

Documents