reinforcement learning
DESCRIPTION
Reinforcement Learning. Das „Reinforcement Learning“-Problem Alexander Schmid. Vortragsgliederung. 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/1.jpg)
Reinforcement Learning
Das „Reinforcement Learning“-Problem
Alexander Schmid
![Page 2: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/2.jpg)
Institut für Informatik - 2 -
Vortragsgliederung
1. Einleitung
2. Das Labyrinthbeispiel
3. Der Agent und die Umgebung
4. Die Policy
5. Rewards und Returns
6. Markov-Eigenschaft und MDP
7. Value Functions
8. Fazit und Ausblick
9. Literaturreferenzen
![Page 3: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/3.jpg)
Institut für Informatik - 3 -
1. Einleitung – Was ist Reinforcement Learning
Reinforcement Learning ist eine spezielle Art von Lernverfahren
„maschinelle Lernverfahren“:
Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine)
„überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben
Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur
![Page 4: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/4.jpg)
Institut für Informatik - 4 -
1. Einleitung – Was ist Reinforcement Learning
Beispiel Kleinkind
Offensichtlich ist kein Lehrer notwendig
Das Kind kann seine Umgebung verändern
Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung)
Erfahrungen helfen dem Kind Ziele zu erreichen
Merkmale des Reinforcement Learnings
Interaktion mit der Umgebung
Sammeln und Anwenden von Erfahrungen
„trial-and-error“-Prinzip
Belohnungen beim Erreichen von Zielen
![Page 5: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/5.jpg)
Institut für Informatik - 5 -
1. Einleitung – Das „Reinforcement Learning“-Problem
Ziel: Formales Modell für Reinforcement Learning definieren
1. Ansatz
Idee: Verallgemeinerung von konkreten Anwendungen
Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen
Beispiel: Fertigungsroboter und Sortiermaschine
2. Ansatz
Idee: Beschreibung des Problems anstelle der Lösung
Genauer: Beschreibung der einzelnen Elemente
Beispiele unter diesem Ansatz mit einander vereinbar
![Page 6: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/6.jpg)
Institut für Informatik - 6 -
2. Das Labyrinthbeispiel
Ein Labyrinth und ein Roboter
Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden
Eingang
Ausgang
Ausgang
Roboter
![Page 7: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/7.jpg)
Institut für Informatik - 7 -
3. Der Agent und die Umgebung
Das künstliche System wir formal als „ der Agent“ bezeichnet
Der Agent…
...ist immer der Teil der lernt
…muss zwingend dynamisch bzw. veränderbar sein
...muss mit seiner Umgebung interagieren können
Die Umgebung…
…ist das Gegenstück zum Agenten
…ist statisch (nicht veränderbar)
…beinhaltet alles, was nicht explizit zum Agenten gehört
![Page 8: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/8.jpg)
Institut für Informatik - 8 -
3. Der Agent und die Umgebung
Aktionen…
…können vom Agenten ausgeführt werden
…low-level- oder high-level-Entscheidungen (Beispiel Roboterarm)
Zustände…
…beschreiben den Momentanzustand der Umgebung
…können komplizierte Formen annehmen (Beispiel: Objekterkennung)
Zustände und Aktionen liegen kodiert vor
![Page 9: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/9.jpg)
Institut für Informatik - 9 -
3. Der Agent und die Umgebung (Interaktion)
Agent führt Aktion aus (Zeitpunkt t)
Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion)
Neuer Zeitschritt beginnt
Agent bekommt (neuen) Zustand
Agent bekommt Reward (Belohnung)
ta
Agent
Umgebung
Aktion
1ts
Zustand
ts1tr
Reward
tr
![Page 10: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/10.jpg)
Institut für Informatik - 10 -
3. Der Agent und die Umgebung
Agent und Umgebung am Labyrinthbeispiel
Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen)
Der Agent ist der Roboter (bzw. sein Rechenwerk)
Agent (Roboter)
![Page 11: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/11.jpg)
Institut für Informatik - 11 -
3. Der Agent und die Umgebung
Aktionen und Zustände am Labyrinthbeispiel
![Page 12: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/12.jpg)
Institut für Informatik - 12 -
4. Die Policy
Die Policy…
…ist das Herzstück des Agenten (trifft die Entscheidungen)
…ist eine Abbildung von einem Zustand auf eine Aktion
…muss veränderbar sein (Lernvorgang)
…wird mit πt notiert (Definition)
Das „Exploitation-Exploration-Problem“
Erinnerung: „trial-and-error“-Prinzip
„greedy Policy“ (gierige Policy)
![Page 13: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/13.jpg)
Institut für Informatik - 13 -
4. Die Policy
„Exploitation-Exploration-Problem“ am Labyrinthbeispiel
![Page 14: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/14.jpg)
Institut für Informatik - 14 -
4. Die Policy
Lösung des „Exploitation-Exploration-Problems“
Einbauen von Exploration-Entscheidungen
Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung)
Formal: πt(s,a)
Beispiel Zustandsgraph
a b c
s
1.0),(
4.0),(
5.0),(
cs
bs
as
t
t
t
x y z
![Page 15: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/15.jpg)
Institut für Informatik - 15 -
5. Rewards und Returns
Formulierung eines Ziels für den Agenten
Definition: rt
Rewards liegen in der Umgebung
Modellierung eines komplexen Ziels mit Hilfe von Rewards
Beispiel: Roboter lernt laufen
Rewards können auch falsch gesetzt werden
Beispiel: Schach
![Page 16: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/16.jpg)
Institut für Informatik - 16 -
5. Rewards und Returns
Rewards im Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
80
![Page 17: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/17.jpg)
Institut für Informatik - 17 -
5. Rewards und Returns
Returns sind Summen von Rewards
Definition:
Problem bei kontinuierlichen Prozessen
Lösung: Abschwächen der Summenglieder durch Faktor
Definition:
mit 0 < γ < 1
Tttt rrrR 21
0)1(3
221
kkt
ktttt rrrrR
![Page 18: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/18.jpg)
Institut für Informatik - 18 -
5. Rewards und Returns
Returns am Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1
-1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
80
-1
-1
-1-1-1-1-1-1-1-1-1+80 = 71
-1-1-1-1+80 = 76
![Page 19: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/19.jpg)
Institut für Informatik - 19 -
6. Markov-Eigenschaft und MDP
Informationsgehalt der Zustände
Beispiel: Schach
Keine Informationen voriger Zustände nötig (Markov-Eigenschaft)
mathematische Formulierung der Markov Eigenschaft
Zustände ohne Markov-Eigenschaft:
Zustände mit Markov-Eigenschaft:
Annäherungen an die Markov-Eigenschaft
},,,,,,,,,|,'{ 00011111 rasrasrasrrssWs tttttttt
},|,'{ 11 tttt asrrssWs
![Page 20: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/20.jpg)
Institut für Informatik - 20 -
6. Markov-Eigenschaft und MDP
Markov-Decision-Process (MDP)
Alle Zustände besitzen die Markov-Eigenschaft
Aussagen über „Reinforcement Learning“ gelten nur für MDPs
Mathematischen Eigenschaften des MDP
Übergangswahrscheinlichkeit:
Folgezustand für Aktion nicht zwingend eindeutig
},|'{ 1' aassssWsP tttass
![Page 21: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/21.jpg)
Institut für Informatik - 21 -
6. Markov-Eigenschaft und MDP
Beispiel für Übergangswahrscheinlichkeit
Erweiterter Zustandsgraph:
Erwarteter Reward:
bzsP
a b
w x y z
awsP
axsP
bysP
s
},|'{ 1' aassssWsP tttass
}',,|{ 11' ssaassrER ttttass
![Page 22: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/22.jpg)
Institut für Informatik - 22 -
7. Value Functions
Value Functions bewerten Zustände
Definition
Die Value Function repräsentiert den „erwarteten Return“:
Die Value Functions sind von der Policy abhängig
ssrEssREsV t
kkt
ktt |}|{)(
0)1(
![Page 23: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/23.jpg)
Institut für Informatik - 23 -
7. Value Functions
Auflösen der Formel:
}|{)( ssREsV tt
ssrE t
kkt
k |0
)1(
ssrrE t
kkt
kt |
0)2(1
a s kkt
kass
ass rERPas
' 0)2(''),(
a s
ass
ass sVRPas
''' )'(),(
s
s1 s2 s3
a1 a2
1
1
assP
1
2
assP
1
3
assP
![Page 24: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/24.jpg)
Institut für Informatik - 24 -
7. Value Functions
Action-Value Functions
Bewerten ein Zustand-Aktions-Paar
Definition:
Optimale Value Functions
Value Functions konvergieren gegen optimale Value Functions (ausgelernt)
Policies mit optimalen Value Functions sind optimale Policies
Strategie: Bei optimalen Value Functions eine greedy Policy verwenden
aassrEaassREasQ tt
kkt
kttt ,|},|{),(
0)1(
![Page 25: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/25.jpg)
Institut für Informatik - 25 -
7. Value Functions
Optimale Value Function am Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
8022 Schritte
Return von 59
![Page 26: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/26.jpg)
Institut für Informatik - 26 -
8. Fazit und Ausblick
Zusammenfassung
Ursprung und Allgemeine Beschreibung von Reinforcement Learning
Formales Modell für Reinforcement Learning (allen wichtigen Elemente)
Anwendungsbeispiele
Zusammenfassung
Modell dient als Rahmen für die Entwicklung von Anwendungen
Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal
Difference Learning
![Page 27: Reinforcement Learning](https://reader036.vdocuments.site/reader036/viewer/2022062517/56813adb550346895da323b1/html5/thumbnails/27.jpg)
Institut für Informatik - 27 -
9. Literaturreferenzen
[1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An
Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998
[2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An
Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press,
Cambridge, MA, 1998