q learning simulator
DESCRIPTION
Q Learning SimulatorTRANSCRIPT
![Page 1: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/1.jpg)
Q-Learning Robolution
Reinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730
![Page 2: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/2.jpg)
Motivação
Simular um robô móvel que: Actue como um agente que possua
aprendizagem. Desloque-se num ambiente desconhecido,
efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente,
através de um sistema sensorial. Defina estados consoante a informação
obtida.Machine Learning - David Jardim 2008/2009 2
![Page 3: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/3.jpg)
Machine Learning - David Jardim 2008/2009
Dificuldades Encontradas
Simular o movimento de um robô real.
Desenhar os sensores com os ângulos pretendidos.
Actualizar as posições de forma correcta.
Definir os diferentes estados do robô.
Atribuir recompensas de forma correcta a cada estado.
Problemática dos becos sem saída.3
![Page 4: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/4.jpg)
Machine Learning - David Jardim 2008/2009
Descrição do Cenário
As paredes são representadas por linhas
amarelas.
4
![Page 5: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/5.jpg)
Machine Learning - David Jardim 2008/2009
Descrição do Agente
32010423 5
Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente.
Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente
ao farol. Distância discreta em relação ao farol.
Estados possíveis:
![Page 6: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/6.jpg)
Machine Learning - David Jardim 2008/2009
Simular o Movimento do Robô
Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro.
Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do
robô). Actualizar o ponto final (extremidade do
sensor).
6
![Page 7: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/7.jpg)
Machine Learning - David Jardim 2008/2009
Definição do Estado
Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais
próximas. Sensores de Orientação:
Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.
Distância: Foi necessário tornar a distância discreta, de forma a
reduzir o número de estados possíveis.
7
![Page 8: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/8.jpg)
Recompensa
Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita.
▪ Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.
Deslocar-se para a frente.▪ Depende do valor da distância discreta a que
o robô se encontra do farol. A recompensa é calculada de forma distinta,
para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.
Machine Learning - David Jardim 2008/2009 8
![Page 9: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/9.jpg)
Machine Learning - David Jardim 2008/2009
Becos sem saída
Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma
recompensa imediata inferior. O outro não leva ao farol, mas possui
uma recompensa imediata superior. Solução:
Foi atribuída uma recompensa suficientemente grande aos estados finais.
9
![Page 10: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/10.jpg)
Machine Learning - David Jardim 2008/2009
Distâncias Discretas
10
![Page 11: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/11.jpg)
Machine Learning - David Jardim 2008/2009
Funcionalidades da Aplicação
11
![Page 12: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/12.jpg)
Machine Learning - David Jardim 2008/2009
Funcionalidades da Aplicação
12
O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
![Page 13: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/13.jpg)
Machine Learning - David Jardim 2008/2009
Resultados
13
1 14 27 40 53 66 79 92 1051181311441571701831960
500
1000
1500
2000
2500
3000
3500
IteraçãoPassos
![Page 14: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/14.jpg)
Machine Learning - David Jardim 2008/2009
Resultados
14
1 14 27 40 53 66 79 92 1051181311441571701831960
1000
2000
3000
4000
5000
6000
7000
8000
Iter-ação
![Page 15: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/15.jpg)
Machine Learning - David Jardim 2008/2009
Limitações
A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).
O deslocamento não é efectuado tendo em conta as rodas do robô.
Se o cenário for demasiado complexo, a convergência da solução é muito lenta.
15
![Page 16: Q Learning Simulator](https://reader031.vdocuments.site/reader031/viewer/2022013115/558e18601a28abaa788b47ad/html5/thumbnails/16.jpg)
Machine Learning - David Jardim 2008/2009
Questões
16