aprendizagem por reforço: estudo comparativo dos algoritmos
TRANSCRIPT
ISCTE, 18 de Novembro 20081
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos
Q-Learning e HQ-Learning
Jairo Avelar
Fábio Vitório
Ricardo Carvalho
[email protected] Automática - Prof. Doutor Luís Nunes
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 2
Agenda
• 1. Contextualização• 2. Introdução• 3. Algoritmo de aprendizagem Q-Learning
• 3.1. Q- Learning Tradicional• 3.2. Q- Learning Hierárquico (HQ Learning)
• 4. Modus operandis• 5. Implementação• 6. Resultados• 7. Passos Futuros• 8. Conclusões • 9. Referências
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
1. Contextualização
3
in: http://en.wikipedia.org/wiki/Split_screen_(film)
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
1. Contextualização
• Reflexo Condicionado
• Ivan Pavlov (1849-1936)
3
in: http://en.wikipedia.org/wiki/Split_screen_(film)
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
1. Contextualização
• Reflexo Condicionado
• Ivan Pavlov (1849-1936)
• Uma das primeiras abordagens realmente objectivas e científicas no estudo da aprendizagem
3
in: http://en.wikipedia.org/wiki/Split_screen_(film)
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
1. Contextualização
4
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
1. Contextualização
4
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)
• Aprendizagem sem a presença de um “professor”
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)
• Aprendizagem sem a presença de um “professor”
• O Agente irá “explorar” o problema:
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)
• Aprendizagem sem a presença de um “professor”
• O Agente irá “explorar” o problema:
• Castigo
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução
• Aprendizagem por reforço
• Aquisição de conceitos e de conhecimentos
• Tipicamente existe um objectivo específico bem definido
• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)
• Aprendizagem sem a presença de um “professor”
• O Agente irá “explorar” o problema:
• Castigo
• Recompensa
5
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
• O problema
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
• O problema
• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
• O problema
• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto
• Labirinto
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
• O problema
• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto
• Labirinto
• vários tipos de sala
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
2. Introdução: O Problema
• O problema
• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto
• Labirinto
• vários tipos de sala
• cada tipo de sala com obstáculos específicos
6
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
• 3.2. Q-Learning Hierárquico (Hi Q-Learning)
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
• 3.2. Q-Learning Hierárquico (Hi Q-Learning)
• 3 Abordagens diferentes:
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
• 3.2. Q-Learning Hierárquico (Hi Q-Learning)
• 3 Abordagens diferentes:
• Options (Sutton et all, 1999)
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
• 3.2. Q-Learning Hierárquico (Hi Q-Learning)
• 3 Abordagens diferentes:
• Options (Sutton et all, 1999)
• Hierarchies of Abstract Machines (Parr and Russell, 1998)
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3. Algoritmo de Aprendizagem Q-Learning
• 3.1 Q-Learning Tradicional
• Malcolm Watkins, 89
• 3.2. Q-Learning Hierárquico (Hi Q-Learning)
• 3 Abordagens diferentes:
• Options (Sutton et all, 1999)
• Hierarchies of Abstract Machines (Parr and Russell, 1998)
• MAXQ Value Function Decomposition (Dietterich, 2000)
7
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.1. Q-Learning Tradicional
8
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.1. Q-Learning Tradicional
• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.
8
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.1. Q-Learning Tradicional
• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.
8
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.1. Q-Learning Tradicional
• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.
α - Taxa de Aprendizagem
8
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.1. Q-Learning Tradicional
• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.
α - Taxa de Aprendizagem
γ - Factor de Desconto da Recompensas
8
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Decomposição do “problema” em vários “sub problemas”
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Decomposição do “problema” em vários “sub problemas”
• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Decomposição do “problema” em vários “sub problemas”
• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa
• Permite que a informação possa ser transferida entre problemas
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Decomposição do “problema” em vários “sub problemas”
• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa
• Permite que a informação possa ser transferida entre problemas
• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Decomposição do “problema” em vários “sub problemas”
• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa
• Permite que a informação possa ser transferida entre problemas
• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.
• Abstracção temporal
9
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
10
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Abordagem escolhida: Options
10
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Abordagem escolhida: Options
• Transferência de conhecimento entre problemas
10
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
3.2. Q-Learning Hierárquico (Hi Q-Learning)
• Abordagem escolhida: Options
• Transferência de conhecimento entre problemas
• Uso de acções compostas: macros
10
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
11
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Estudos de papers sobre a RL/Q-Learning
11
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Estudos de papers sobre a RL/Q-Learning
• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”
• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado
11
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Estudos de papers sobre a RL/Q-Learning
• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”
• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado
• Barto, Andrew G; Mahadevan Sridhar; Recent Advances in Hierarchical Reinforcement Learning
11
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
• no número de estados usados
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
• no número de estados usados
• número de iterações
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
• no número de estados usados
• número de iterações
• tempo usado
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
• no número de estados usados
• número de iterações
• tempo usado
• passos médios por iterações
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
4. Modus Operandis
• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java
• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:
• no número de estados usados
• número de iterações
• tempo usado
• passos médios por iterações
• número de passos para caminho óptimo encontrado
12
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: Primeiros passos
13
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Tradicional
14
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Tradicional
14
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
15
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
15
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
16
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
16
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Tradicional
17
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Tradicional
17
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
18
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
5. Implementação: QLearning Hierárquico
18
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
19
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
19
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
19
1quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
19
1 2quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
20
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Carga CPU (CPU Load Average)
20
0
14,286
28,571
42,857
57,143
71,429
85,714
100,000
%
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Carga CPU (CPU Load Average)
20
0
14,286
28,571
42,857
57,143
71,429
85,714
100,000
%
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Carga CPU (CPU Load Average)
20
0
14,286
28,571
42,857
57,143
71,429
85,714
100,000
%
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
21
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Memória Usada
21
0
571,429
1 142,857
1 714,286
2 285,714
2 857,143
3 428,571
4 000,000Kilobytes
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Memória Usada
21
0
571,429
1 142,857
1 714,286
2 285,714
2 857,143
3 428,571
4 000,000Kilobytes
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Memória Usada
21
0
571,429
1 142,857
1 714,286
2 285,714
2 857,143
3 428,571
4 000,000Kilobytes
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
22
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Tempo usado
22
0
11,429
22,857
34,286
45,714
57,143
68,571
80,000
Segundos
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Tempo usado
22
0
11,429
22,857
34,286
45,714
57,143
68,571
80,000
Segundos
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Tempo usado
22
0
11,429
22,857
34,286
45,714
57,143
68,571
80,000
Segundos
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
23
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Passos médios por iteração
23
0
5 714,286
11 428,571
17 142,857
22 857,143
28 571,429
34 285,714
40 000,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Passos médios por iteração
23
0
5 714,286
11 428,571
17 142,857
22 857,143
28 571,429
34 285,714
40 000,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Passos médios por iteração
23
0
5 714,286
11 428,571
17 142,857
22 857,143
28 571,429
34 285,714
40 000,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados
24
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Número de passos para encontrar caminho óptimo encontrado
24
0
85,714
171,429
257,143
342,857
428,571
514,286
600,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Número de passos para encontrar caminho óptimo encontrado
24
0
85,714
171,429
257,143
342,857
428,571
514,286
600,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
6. Resultados• Número de passos para encontrar caminho óptimo encontrado
24
0
85,714
171,429
257,143
342,857
428,571
514,286
600,000
Labirinto 1Labirinto 2
QL TradicionalQL Hierárquico
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”
• Maron’s Diverse Density Algorithm, para detectar subgoals
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”
• Maron’s Diverse Density Algorithm, para detectar subgoals
• Lin’s Experience Replay Algorithm, para construir as options
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”
• Maron’s Diverse Density Algorithm, para detectar subgoals
• Lin’s Experience Replay Algorithm, para construir as options
• Tema é ainda alvo de muitos estudos e melhoramentos
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
7. Passos Futuros
• Detecção automatica de Options
• necessidade de detectar os subjectivos também
• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”
• Maron’s Diverse Density Algorithm, para detectar subgoals
• Lin’s Experience Replay Algorithm, para construir as options
• Tema é ainda alvo de muitos estudos e melhoramentos
• Delayed-Q learning
25
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
8. Conclusões
26
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
8. Conclusões
• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido
26
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
8. Conclusões
• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido
• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas
26
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning
8. Conclusões
• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido
• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas
• globalmente até 70% mais eficiente
26
quinta-feira, 10 de Janeiro de 2013
Obrigado pela vossa atenção!27
quinta-feira, 10 de Janeiro de 2013
Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 28
Referências
• Gasket Chis, Q- Learning in Continuous State and Action Spaces (http://axiom.anu.edu.au/~kambara/3-Results/Publications/99ai.kambara.pdf)
• Nascimento Júnior, Cairo Lúcio; Yoneyama, Takashi (2000), Inteligência Artificial em Controle e Automação, Editora Wdgard Blücher Ltda, Brasil
• Russell Stuart; Norvig Peter; Artificial Intelligence – A Modern Approach, Prentice Hall, 1995.
• Sutton, R. S. ; Barto, A. G.; Reinforcment Learning: An Introduction. MIT Press, Cambridge, Massachusetts, 1998.
• Imagem do diapositivo inicial:• Maze Craze: http://www.waukeganschools.org/students/MazeCraze
• Imagem de Ivan Pavlov:• www.cerebromente.org.br/n09/mente/pavlov.htm
quinta-feira, 10 de Janeiro de 2013