reinforcement learning

Reinforcement Learning

Das „Reinforcement Learning“-Problem

Alexander Schmid

Institut für Informatik - 2 -

Vortragsgliederung

1. Einleitung

2. Das Labyrinthbeispiel

3. Der Agent und die Umgebung

4. Die Policy

5. Rewards und Returns

6. Markov-Eigenschaft und MDP

7. Value Functions

8. Fazit und Ausblick

9. Literaturreferenzen


1. Einleitung – Was ist Reinforcement Learning

Reinforcement Learning ist eine spezielle Art von Lernverfahren

„maschinelle Lernverfahren“:

Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine)

„überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben

Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur


1. Einleitung – Was ist Reinforcement Learning

Beispiel Kleinkind

Offensichtlich ist kein Lehrer notwendig

Das Kind kann seine Umgebung verändern

Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung)

Erfahrungen helfen dem Kind Ziele zu erreichen

Merkmale des Reinforcement Learnings

Interaktion mit der Umgebung

Sammeln und Anwenden von Erfahrungen

„trial-and-error“-Prinzip

Belohnungen beim Erreichen von Zielen


1. Einleitung – Das „Reinforcement Learning“-Problem

Ziel: Formales Modell für Reinforcement Learning definieren

1. Ansatz

Idee: Verallgemeinerung von konkreten Anwendungen

Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen

Beispiel: Fertigungsroboter und Sortiermaschine

2. Ansatz

Idee: Beschreibung des Problems anstelle der Lösung

Genauer: Beschreibung der einzelnen Elemente

Beispiele unter diesem Ansatz mit einander vereinbar


2. Das Labyrinthbeispiel

Ein Labyrinth und ein Roboter

Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden

Eingang

Ausgang

Ausgang

Roboter



Das künstliche System wir formal als „ der Agent“ bezeichnet

Der Agent…

...ist immer der Teil der lernt

…muss zwingend dynamisch bzw. veränderbar sein

...muss mit seiner Umgebung interagieren können

Die Umgebung…

…ist das Gegenstück zum Agenten

…ist statisch (nicht veränderbar)

…beinhaltet alles, was nicht explizit zum Agenten gehört



Aktionen…

…können vom Agenten ausgeführt werden

…low-level- oder high-level-Entscheidungen (Beispiel Roboterarm)

Zustände…

…beschreiben den Momentanzustand der Umgebung

…können komplizierte Formen annehmen (Beispiel: Objekterkennung)

Zustände und Aktionen liegen kodiert vor


3. Der Agent und die Umgebung (Interaktion)

Agent führt Aktion aus (Zeitpunkt t)

Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion)

Neuer Zeitschritt beginnt

Agent bekommt (neuen) Zustand

Agent bekommt Reward (Belohnung)

ta

Agent

Umgebung

Aktion

1ts

Zustand

ts1tr

Reward

tr



Agent und Umgebung am Labyrinthbeispiel

Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen)

Der Agent ist der Roboter (bzw. sein Rechenwerk)

Agent (Roboter)



Aktionen und Zustände am Labyrinthbeispiel


4. Die Policy

Die Policy…

…ist das Herzstück des Agenten (trifft die Entscheidungen)

…ist eine Abbildung von einem Zustand auf eine Aktion

…muss veränderbar sein (Lernvorgang)

…wird mit πt notiert (Definition)

Das „Exploitation-Exploration-Problem“

Erinnerung: „trial-and-error“-Prinzip

„greedy Policy“ (gierige Policy)


4. Die Policy

„Exploitation-Exploration-Problem“ am Labyrinthbeispiel


4. Die Policy

Lösung des „Exploitation-Exploration-Problems“

Einbauen von Exploration-Entscheidungen

Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung)

Formal: πt(s,a)

Beispiel Zustandsgraph

a b c

s

1.0),(

4.0),(

5.0),(

cs

bs

as

t

t

t

x y z



Formulierung eines Ziels für den Agenten

Definition: rt

Rewards liegen in der Umgebung

Modellierung eines komplexen Ziels mit Hilfe von Rewards

Beispiel: Roboter lernt laufen

Rewards können auch falsch gesetzt werden

Beispiel: Schach



Rewards im Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

80



Returns sind Summen von Rewards

Definition:

Problem bei kontinuierlichen Prozessen

Lösung: Abschwächen der Summenglieder durch Faktor

Definition:

mit 0 < γ < 1

Tttt rrrR 21

0)1(3

221

kkt

ktttt rrrrR



Returns am Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1

-1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

80

-1

-1

-1-1-1-1-1-1-1-1-1+80 = 71

-1-1-1-1+80 = 76



Informationsgehalt der Zustände

Beispiel: Schach

Keine Informationen voriger Zustände nötig (Markov-Eigenschaft)

mathematische Formulierung der Markov Eigenschaft

Zustände ohne Markov-Eigenschaft:

Zustände mit Markov-Eigenschaft:

Annäherungen an die Markov-Eigenschaft

},,,,,,,,,|,'{ 00011111 rasrasrasrrssWs tttttttt

},|,'{ 11 tttt asrrssWs



Markov-Decision-Process (MDP)

Alle Zustände besitzen die Markov-Eigenschaft

Aussagen über „Reinforcement Learning“ gelten nur für MDPs

Mathematischen Eigenschaften des MDP

Übergangswahrscheinlichkeit:

Folgezustand für Aktion nicht zwingend eindeutig

},|'{ 1' aassssWsP tttass



Beispiel für Übergangswahrscheinlichkeit

Erweiterter Zustandsgraph:

Erwarteter Reward:

bzsP

a b

w x y z

awsP

axsP

bysP

s

},|'{ 1' aassssWsP tttass

}',,|{ 11' ssaassrER ttttass


7. Value Functions

Value Functions bewerten Zustände

Definition

Die Value Function repräsentiert den „erwarteten Return“:

Die Value Functions sind von der Policy abhängig

ssrEssREsV t

kkt

ktt |}|{)(

0)1(


7. Value Functions

Auflösen der Formel:

}|{)( ssREsV tt

ssrE t

kkt

k |0

)1(

ssrrE t

kkt

kt |

0)2(1

a s kkt

kass

ass rERPas

' 0)2(''),(

a s

ass

ass sVRPas

''' )'(),(

s

s1 s2 s3

a1 a2

1

1

assP

1

2

assP

1

3

assP


7. Value Functions

Action-Value Functions

Bewerten ein Zustand-Aktions-Paar

Definition:

Optimale Value Functions

Value Functions konvergieren gegen optimale Value Functions (ausgelernt)

Policies mit optimalen Value Functions sind optimale Policies

Strategie: Bei optimalen Value Functions eine greedy Policy verwenden

aassrEaassREasQ tt

kkt

kttt ,|},|{),(

0)1(


7. Value Functions

Optimale Value Function am Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

8022 Schritte

Return von 59


8. Fazit und Ausblick

Zusammenfassung

Ursprung und Allgemeine Beschreibung von Reinforcement Learning

Formales Modell für Reinforcement Learning (allen wichtigen Elemente)

Anwendungsbeispiele

Zusammenfassung

Modell dient als Rahmen für die Entwicklung von Anwendungen

Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal

Difference Learning


9. Literaturreferenzen

[1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An

Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998

[2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An

Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press,

Cambridge, MA, 1998

reinforcement learning

Documents