aprendizagem por reforço: estudo comparativo dos algoritmos

ISCTE, 18 de Novembro 20081

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Q-Learning e HQ-Learning

Jairo Avelar

[email protected]

Fábio Vitório

[email protected]

Ricardo Carvalho

[email protected] Automática - Prof. Doutor Luís Nunes

quinta-feira, 10 de Janeiro de 2013

mailto:[email protected]






Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 2

Agenda

• 1. Contextualização• 2. Introdução• 3. Algoritmo de aprendizagem Q-Learning

• 3.1. Q- Learning Tradicional• 3.2. Q- Learning Hierárquico (HQ Learning)

• 4. Modus operandis• 5. Implementação• 6. Resultados• 7. Passos Futuros• 8. Conclusões • 9. Referências


Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

3

in: http://en.wikipedia.org/wiki/Split_screen_(film)




• Reflexo Condicionado

• Ivan Pavlov (1849-1936)

3





• Reflexo Condicionado

• Ivan Pavlov (1849-1936)

• Uma das primeiras abordagens realmente objectivas e científicas no estudo da aprendizagem

3





4



2. Introdução

5



2. Introdução

• Aprendizagem por reforço

5



2. Introdução


• Aquisição de conceitos e de conhecimentos

5



2. Introdução



• Tipicamente existe um objectivo específico bem definido

5



2. Introdução




• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

5



2. Introdução





• Aprendizagem sem a presença de um “professor”

5



2. Introdução






• O Agente irá “explorar” o problema:

5



2. Introdução







• Castigo

5



2. Introdução







• Castigo

• Recompensa

5



2. Introdução: O Problema

6




• O problema

6




• O problema

• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto

6




• O problema


• Labirinto

6




• O problema


• Labirinto

• vários tipos de sala

6




• O problema


• Labirinto

• vários tipos de sala

• cada tipo de sala com obstáculos específicos

6



3. Algoritmo de Aprendizagem Q-Learning

7




• 3.1 Q-Learning Tradicional

7





• Malcolm Watkins, 89

7






• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

7







• 3 Abordagens diferentes:

7








• Options (Sutton et all, 1999)

7









• Hierarchies of Abstract Machines (Parr and Russell, 1998)

7









• Hierarchies of Abstract Machines (Parr and Russell, 1998)

• MAXQ Value Function Decomposition (Dietterich, 2000)

7



3.1. Q-Learning Tradicional

8




• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.

8





α - Taxa de Aprendizagem

8





α - Taxa de Aprendizagem

γ - Factor de Desconto da Recompensas

8



3.2. Q-Learning Hierárquico (Hi Q-Learning)

9




• Decomposição do “problema” em vários “sub problemas”

9





• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa

9






• Permite que a informação possa ser transferida entre problemas

9







• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.

9







• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.

• Abstracção temporal

9




10




• Abordagem escolhida: Options

10





• Transferência de conhecimento entre problemas

10





• Transferência de conhecimento entre problemas

• Uso de acções compostas: macros

10



4. Modus Operandis

11



4. Modus Operandis

• Estudos de papers sobre a RL/Q-Learning

11



4. Modus Operandis


• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”

• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado

11



4. Modus Operandis


• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”

• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado

• Barto, Andrew G; Mahadevan Sridhar; Recent Advances in Hierarchical Reinforcement Learning

11



4. Modus Operandis

12



4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

12



4. Modus Operandis


• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

12



4. Modus Operandis



• no número de estados usados

12



4. Modus Operandis




• número de iterações

12



4. Modus Operandis





• tempo usado

12



4. Modus Operandis





• tempo usado

• passos médios por iterações

12



4. Modus Operandis





• tempo usado

• passos médios por iterações

• número de passos para caminho óptimo encontrado

12



5. Implementação: Primeiros passos

13



5. Implementação: QLearning Tradicional

14



5. Implementação: QLearning Hierárquico

15




16



5. Implementação: QLearning Tradicional

17




18



6. Resultados

19



6. Resultados

19

1quinta-feira, 10 de Janeiro de 2013


6. Resultados

19

1 2quinta-feira, 10 de Janeiro de 2013


6. Resultados

20

QL TradicionalQL Hierárquico



6. Resultados• Carga CPU (CPU Load Average)

20

0

14,286

28,571

42,857

57,143

71,429

85,714

100,000

%

Labirinto 1Labirinto 2




6. Resultados

21




6. Resultados• Memória Usada

21

0

571,429

1 142,857

1 714,286

2 285,714

2 857,143

3 428,571

4 000,000Kilobytes





6. Resultados

22




6. Resultados• Tempo usado

22

0

11,429

22,857

34,286

45,714

57,143

68,571

80,000

Segundos





6. Resultados

23




6. Resultados• Passos médios por iteração

23

0

5 714,286

11 428,571

17 142,857

22 857,143

28 571,429

34 285,714

40 000,000





6. Resultados

24




6. Resultados• Número de passos para encontrar caminho óptimo encontrado

24

0

85,714

171,429

257,143

342,857

428,571

514,286

600,000





7. Passos Futuros

25



7. Passos Futuros

• Detecção automatica de Options

25



7. Passos Futuros


• necessidade de detectar os subjectivos também

25



7. Passos Futuros



• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

25



7. Passos Futuros




• Maron’s Diverse Density Algorithm, para detectar subgoals

25



7. Passos Futuros





• Lin’s Experience Replay Algorithm, para construir as options

25



7. Passos Futuros






• Tema é ainda alvo de muitos estudos e melhoramentos

25



7. Passos Futuros






• Tema é ainda alvo de muitos estudos e melhoramentos

• Delayed-Q learning

25



8. Conclusões

26



8. Conclusões

• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido

26



8. Conclusões


• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas

26



8. Conclusões


• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas

• globalmente até 70% mais eficiente

26


Obrigado pela vossa atenção!27


Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 28

Referências

• Gasket Chis, Q- Learning in Continuous State and Action Spaces (http://axiom.anu.edu.au/~kambara/3-Results/Publications/99ai.kambara.pdf)

• Nascimento Júnior, Cairo Lúcio; Yoneyama, Takashi (2000), Inteligência Artificial em Controle e Automação, Editora Wdgard Blücher Ltda, Brasil

• Russell Stuart; Norvig Peter; Artificial Intelligence – A Modern Approach, Prentice Hall, 1995.

• Sutton, R. S. ; Barto, A. G.; Reinforcment Learning: An Introduction. MIT Press, Cambridge, Massachusetts, 1998.

• Imagem do diapositivo inicial:• Maze Craze: http://www.waukeganschools.org/students/MazeCraze

• Imagem de Ivan Pavlov:• www.cerebromente.org.br/n09/mente/pavlov.htm


http://axiom.anu.edu.au/~kambara/3-Results/Publications/99ai.kambara.pdf




http://www.waukeganschools.org/students/MazeCraze

http://www.waukeganschools.org/students/MazeCraze

http://www.cerebromente.org.br/n09/mente/pavlov.htm

http://www.cerebromente.org.br/n09/mente/pavlov.htm

aprendizagem por reforço: estudo comparativo dos algoritmos

Documents