1/21 university of paderborn projektgruppe kimas – reinforcement learning in mas projektgruppe...

Projektgruppe KIMAS – Reinforcement Learning in MAS 1/21

UNIVERSITY OF

PADERBORN

Projektgruppe KIMAS

Reinforcement Learning in MAS

10.09.2003

Marc Pannenberg


UNIVERSITY OF

PADERBORNÜbersicht – Teil 1

Einführung in Reinforcement Learning (RL)• Konzept• Einfaches RL-Modell• Reinforcement Learning Systeme• Der Markov-Entscheidungs-Prozess• Formale Definition• Das RL – Problem• Value Functions• Beispiel: Gridworld


UNIVERSITY OF

PADERBORNÜbersicht – Teil 2

Einführung in Reinforcement Learning • Grundlegende Strategien in RL

• Dynamic Programming• Monte Carlo• Temporal Difference

Reinforcement Learning in Multi Agenten Systemen• Besondere Problematik von RL in MAS• Beispiel Hunter – Prey Gridworld• RL in MAS für PG-KIMAS


UNIVERSITY OF

PADERBORNKonzept

Ein Agent in einem RL System:

• Hat meist nur unvollständiges Wissen über seine Umwelt

• Agiert auf Grundlage von Trial-and-Error• Bekommt keine Hilfestellung von außen• Wird belohnt für Aktionen, die ihn einem Ziel

näher (bzw. ans Ziel) bringen• Bekommt Belohnungen oft erst verzögertZiel:

Belohnungen zu nutzen, um die Aktionen des Agenten so zu beeinflussen, daß die Summe der Belohnungen maximiert wird


UNIVERSITY OF

PADERBORN

Einfaches Modell eines RL-Systems

Der Agent sieht den Zustand s der Umgebung als Wahrnehmung o und wählt eine Aktion a.

Als Ergebnis ändert sich der Zustand der Umgebung, und der Agent bekommt eine neue Wahrnehmung sowie eine Belohnung r.

Auch innere Zustände des Agenten gehören hier zur Umwelt!

Environm

ent

Agent

R O

r o

s

a

Policy


UNIVERSITY OF

PADERBORN

Markov Eigenschaft & Markov Entscheidungsprozess (MDP)

Markov Eigenschaft :

Alle Information ist im Zustand enthalten. Vergangenheit ist unerheblich.

(z.B. Dame- oder Schachspiel)

Formal:

1 1 1 0 0 1 1Pr ', | , , ,..., , , Pr ', | , |t t t t t t t t ts s r r s a r r s a s s r r s a


UNIVERSITY OF

PADERBORNFormale Definition

Das MDP ist ein Quadrupel:

Aktionen = Transitionen action a

)',,( sas0.3

0.7

, , ,

= eine endliche Zustandsmenge

= eine Menge von Aktionen

= eine Belohnungsfunktion mit :

= eine Wahrsscheinlichkeitsfunktion mit : 0,1

S A R

S

A

R R S A

S A S

R


UNIVERSITY OF

PADERBORN

Das Reinforcement Learning ProblemWie lernt der Agent?

Erforschen unbekannter Zustände und Aktionen Bewertung von Zuständen (Value Function) Erarbeitung eines Planes (Policy) basierend auf vergangenen Bewertungen Verbesserung der Policy Der Agent soll bekannte, gute Policies verfolgen

Konflikt: Exploitation vs. Exploration


UNIVERSITY OF

PADERBORNValue Functions

Formeln von Sutton & Barto Ch. 3.7

Action Value Function Q

s,a

r

a`

s`

a

s

r

s`

State Value Function V

10

( ) | |kt t t k t

k

V s E R s s E r s s

10

( , ) | , | ,kt t t t k t t

k

Q s a E R s s a a E r s s a a

Der Wert des Zustandes s, wenn von dort aus policy benutzt wird.

Der Wert Aktion a in Zustand s zu wählen, wenn von dort aus policy benutzt wird.


UNIVERSITY OF

PADERBORNPolicy Beispiel: Gridworld

Wahrscheinlichkeit der Transitionen ist z.B.:

Belohnung ist –1 bis Endzustand erreicht ist Dynamik des Systems ist vollständig

bekannt

1 2 3

4 5 6 7

8 9 10 11

12 13 14

Aktionen

r = -1 für alle Transitionen

Formal nurein Endzustand

5,6 4,1 2,21, 0, 1.right left upP P P


UNIVERSITY OF

PADERBORNPolicy Beispiel: Gridworld

Update von Vk nach:

0.0 0.0 0.0 0.0

0.0 0.0 0.0 0.0

0.0 0.0 0.0 0.0

0.0 0.0 0.0 0.0

Vk für Zufalls-policy

0.0 -6.1 -8.4 -9.0

-6.1 -7.7 -8.4 -8.4

-8.4 -8.4 -7.7 -6.1

-9.0 -8.4 -6.1 0.0

0.0 -1.7 -2.0 -2.0

-1.7 -2.0 -2.0 -2.0

-2.0 -2.0 -2.0 -1.7

-2.0 -2.0 -1.7 0.0

0.0 -1.0 -1.0 -1.0

-1.0 -1.0 -1.0 -1.0

-1.0 -1.0 -1.0 -1.0

-1.0 -1.0 -1.0 0.0

0.0 -2.4 -2.9 -3.0

-2.4 -2.9 -3.0 -2.9

-2.9 -3.0 -2.9 -2.4

-3.0 -2.9 -2.4 0.0

k = 0 k = 10k = 3k = 2k = 1

Greedy Policy abgel. von Vk

Zufällig OptimalBeispiel von Sutton & Barto Ch. 4.1 (siehe auch für vollständigen Algorithmus)

1 ' ''( ) max ( ')a a

k ss sssaV s P R V s (Bellmann Gleichung)


UNIVERSITY OF

PADERBORN

Grundlegende Strategien:Dynamic Programming

Value Iteration und Policy Iteration• Sweeps durch den Zustandsraum• Bei jeder Iteration wird die Schätzung verbessert• Wert eines Zustands basiert auf dem geschätzten Wert

des Folgezustandes

DP-Algorithmen wandeln die Bellmann Gleichung in eine Update-Gleichung um

Problem: Benötigt komplettes Modell der Umgebung

• Sehr rechenaufwendig


UNIVERSITY OF

PADERBORN

Grundlegende Strategien:Monte Carlo Methode

Benötigt kein Modell Value Function und Policy werden Schritt für

Schritt entwickelt Optimale Lösung durch Errechnung des

Durchschnitts von Versuchen Berechnung des Wertes eines Zustands basiert

nicht auf geschätztem Wert des Folgezustandes Warten auf vollständige Episode nötig


UNIVERSITY OF

PADERBORN

Grundlegende Strategien:Monte Carlo Methode

Nach jeder Episode mit Policy i :

Für jedes (s,a) berechne mit Ri´(s,a) die Belohnung ausgehend von s bis zum Ende der Episode

Q(s,a) = average ( Ri´(s,a)) über alle bisher berechneten Ri

i ist -Greedy policy für Q(s,a)

Probleme: Durchschnitte von mehreren policies Konvergiert der Algorithmus immer?


UNIVERSITY OF

PADERBORN

Grundlegende Strategien:Temporal Difference

Vereinigt Elemente von Dynamic Programming und Monte Carlo

Benötigt kein Modell Value-Schätzung aufgrund anderer geschätzter

Werte Kein Warten auf Abschluß einer Episode nötig

Vorgehen:Action Value Function online lernen:

1 1 1( , ) ( , ) ( , ) ( , )t t t t t t t t tQ s a Q s a r Q s a Q s a

t+1 ta ε - greedy Policy für Q


UNIVERSITY OF

PADERBORN

Reinforcement Learning in Multi Agenten Systemen

Besondere Problematik:

• Erschwerte Vorhersagbarkeit• (Viel) Größerer Zustandsraum• Kommunikation zwischen Agenten


UNIVERSITY OF

PADERBORN

Erschwerte Vorhersagbarkeit und größerer Zustandsraum

Kollaborative Agenten teilen Belohnung Zustandsraum muß (z.T.) Zustände

anderer Agenten mit einschließen

1

1 2

MAS-MDP = ( , , , ) mit:

= Menge der Zustände

= Menge möglicher Aktionen mit = bei Agenten

= Belohnungsfunktion mit : ...

= Transitionsfunktion mit : 0,1

n

ii

n

S A R

S

A A A n

R R S A A A

S A S

R


UNIVERSITY OF

PADERBORN

Beispiel: Hunter – Prey Gridworld

Prey

Hunter

Aktion

Sichtbereich = Zustand

Beispiel von Tan (1993)

x

1

2

a

b

y

Ziel: Hunter fängt Prey

Zustand: h2 = (-2,2)


UNIVERSITY OF

PADERBORN

Beispiel: Hunter – Prey Gridworld

x

1

2a

b

y

Möglichkeiten des Zusammenspiels:

• Hunter ignorieren einander• Hunter teilen Sichtbereich• Hunter kommunizieren Episoden oder Policies• Hunter nutzen dieselbe Policy

Vergleich siehe Tan (1993)

Sichtweite Training Test

Unabhängige HunterGemeinsame Sicht

22

20.3825.20

24.0424.52


33

14.6514.02

16.0412.98


44

12.2111.05

11.538.83


UNIVERSITY OF

PADERBORNRL-MAS für PG-KIMAS

Schwer zu realisieren für Capture-the-Flag Vorstellbar für rein kollaborative Systeme

Komplexe RL – MAS Systeme noch wenig untersucht und dokumentiert


UNIVERSITY OF

PADERBORNReferenzen

Sutton, R. & Barto, A. – Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning), MIT Press (1998)

Tan, M. (1993) - Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents, Readings in Agents, Morgan Kaufmann (1997)

Şenkul Selçuk - Multi-Agent Reinforcement Learning, Thesis (1998) Mansour, Y. - Machine Learning: Foundations Reinforcement

Learning, Tel Aviv University, Lecture Notes (1999)

1/21 university of paderborn projektgruppe kimas – reinforcement learning in mas projektgruppe...

Documents