apprentissage par renforcement
DESCRIPTION
Un exemple d'application de l'apprentissage par renforcement.TRANSCRIPT
![Page 1: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/1.jpg)
1
Reinforcement Learning
ParNicolas RichardJimmy Perron
![Page 2: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/2.jpg)
2
Quiz
• Nommer :
• un des meilleurs joueur d’échec au monde
• un des meilleurs joueurs de BackGammon
• le contrôleur d’ascenseur le plus performant
• Une seule réponse Tous ces programmes
implémentent l’approche du Reinforcement Learning
![Page 3: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/3.jpg)
3
Motivation
Développé dans les années 80
1. Simuler l’apprentissage animal (essais & erreurs)
2. Résoudre les problèmes d’optimisation dans les systèmes de contrôle
• Explosion combinatoire des états possibles
![Page 4: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/4.jpg)
4
Plan
1. Problème
2. Éléments du Reinforcement Learning
3. Schéma général
4. Q-learning
5. Application
6. Limitation
7. Conclusion
![Page 5: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/5.jpg)
5
1 - Problème…
![Page 6: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/6.jpg)
6
2 - Éléments du RL
• Agent :• Apprend• Choisit des actions• Maximise sa récompense
• Environnement :• Définit les actions possibles• Attribue les récompenses
• État :• État de l’environnement à un moment t• Retourné à l’agent suite à une action
![Page 7: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/7.jpg)
7
Plan
1. Problème
2. Éléments du Reinforcement Learning
3. Schéma général
4. Q-learning
5. Application
6. Limitation
7. Conclusion
![Page 8: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/8.jpg)
8
3 - Schéma général
1. Environnement donne • L’état courant• Les actions possibles
2. Agent choisit• L’action
3. Environnement fournie• La récompense• L’état suivant• Actions possibles
![Page 9: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/9.jpg)
9
3 - Schéma général
Agent
Environnement
Action
Récompense+
État t + 1
![Page 10: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/10.jpg)
10
Notre exemple
•Environnement : •Carte de la ville
•État : •Une position particulière dans la carte
•Actions possibles : •Déplacement d’une case dans une direction légal
sa1
a2
S(s,a1) = s1’
S(s,a2) = s2’
![Page 11: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/11.jpg)
11
Récompenses
• Attribution des récompenses (notre exemple) :Si S(s, a1) = but alors R(s, a1) = 100 sinon R(s, a1) = 0
100
00
• Lorsque le but est atteint :• Repositionnement de l’agent• Redémarrage du processus
![Page 12: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/12.jpg)
12
Apprentissage
Maximiser ses récompenses
Apprendre à choisir la meilleure action
Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )
![Page 13: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/13.jpg)
13
Apprentissage
But100
10090
81
90
81
81
72
7281
8190
Environnement
Agent
Récompense
Q( s, a )
But100
0
0
0
0
0
![Page 14: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/14.jpg)
14
Plan
1. Problème
2. Éléments du Reinforcement Learning
3. Schéma général
4. Q-learning
5. Application
6. Limitation
7. Conclusion
![Page 15: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/15.jpg)
15
4 – Q-Learning
Algorithme
Pour chaque paire ( s, a ), mettre Q( s, a ) à 0
Observer l’état courant s
Faire pour toujours
A. Choisir une action a et l’exécuter
B. Recevoir la récompense
C. Observer le nouvel état s’
D. Mettre à jour la valeur de Q( s , a )
![Page 16: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/16.jpg)
16
A - Choisir l’action à exécuter
• Hasard ?
• L’action ayant la valeur de Q maximale ?• Maximum local
• Combinaison des deux approches ?• Exploration ou exploitation ?• Probabilité d’une action pondérée selon Q
![Page 17: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/17.jpg)
17
A – Choisir l’action à exécuter
Probabilité de choisir une action ai dans unétat s
P(ai | s) = KQ(s, ai)
j KQ(s, aj)
Si k = 1 Choix équiprobableSi k > 1 Favorise les actions ayant un Q élevéSi k < 1 Favorise les actions ayant un Q peu élevé
![Page 18: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/18.jpg)
18
B – Recevoir la récompense
Algorithme
Pour chaque paire ( s, a ), mettre Q( s, a ) à 0
Observer l’état courant s
Faire pour toujours
A. Choisir une action a et l’exécuter
B. Recevoir la récompense
C. Observer le nouvel état s’
D. Mettre à jour la valeur de Q( s , a )
![Page 19: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/19.jpg)
19
C – Observer le nouvel état s’
Algorithme
Pour chaque paire ( s, a ), mettre Q( s, a ) à 0
Observer l’état courant s
Faire pour toujours
A. Choisir une action a et l’exécuter
B. Recevoir la récompense
C. Observer le nouvel état s’
D. Mettre à jour la valeur de Q( s , a )
![Page 20: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/20.jpg)
20
D – Mettre à jour Q( s, a )
Algorithme
Pour chaque paire ( s, a ), mettre Q( s, a ) à 0
Observer l’état courant s
Faire pour toujours
A. Choisir une action a et l’exécuter
B. Recevoir la récompense
C. Observer le nouvel état s’
D. Mettre à jour la valeur de Q( s , a )
![Page 21: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/21.jpg)
21
D - Mettre à jour Q( s, a )
• Affecter à Q la valeur de la récompense ?
– Persistance de l’information
• Moyenne des 10 dernières récompenses ?
– Plus de précision explosion de l’espace
mémoire
![Page 22: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/22.jpg)
22
D - Mettre à jour Q( s, a )
• Fonction Q :
Q( s, a ) r + Maxa’ ( Q( s’, a’ ) )
Où
– r = récompense reçue
= Constante de propagation temporelle ( 0 < < 1)
– Maxa’ ( Q(s’ , a’) )
![Page 23: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/23.jpg)
23
Plan
1. Problème
2. Éléments du Reinforcement Learning
3. Schéma général
4. Q-learning
5. Application
6. Limitation
7. Conclusion
![Page 24: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/24.jpg)
24
Exemple : La Sim
• L’agent vs l’environnement
• Illustration du choix de l’action
• Illustration de l’atteinte d’un but (mise a jour de Q)
• Convergence de Q
• Variation de k
– Tester avec 10 000 itérations avec k = 1.01 et k = 10
– Équilibre entre :
• Certain de la connaissance sans avoir tout exploré
• Moins certain de la connaissance mais elle soit répandue
![Page 25: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/25.jpg)
25
Plan
1. Problème
2. Éléments du Reinforcement Learning
3. Schéma général
4. Q-learning
5. Application
6. Limitation
7. Conclusion
![Page 26: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/26.jpg)
26
6 – Limitations
• Apprentissage supervisé ?
• Besoin de beaucoup d’exploration
– Pas de connaissance préalable du domaine
– La connaissance n’est pas transportable
– Adapté à l’environnement immédiat
![Page 27: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/27.jpg)
27
6 – Limitations
• Le concept taux d’erreur est innaplicable
• Difficile de calculer le taux de confiance
• Adaptation des connaissances mais :
– C’est long!!!
• Aucune généralisation de l’apprentissage
![Page 28: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/28.jpg)
28
Critiques
• Utilisation– Environnement réactif– Comparaison avec le « version space »
• Possible mais…inopportun
– Bien adapté pour les jeux de société
![Page 29: Apprentissage par renforcement](https://reader035.vdocuments.site/reader035/viewer/2022081413/549f0fc7ac795924768b4868/html5/thumbnails/29.jpg)
29
Conclusion
• Ni blanc, ni noir
– Dépend beaucoup du problème
– Apprentissage non supervisé
– Besoin de beaucoup d’itérations
• Apprentissage d’une fonction d’évaluation (exemple la fonction Q)
• Pas de généralisation de cette fonction