markov hidden

49
Anwendungen und Problemstellungen Probabilistische Graphische Modelle Sven Wachsmuth Universit¨ at Bielefeld, Technische Fakult¨ at, AG Angewandte Informatik WS 2006/2007 Probabilistische Graphische Modelle 1

Upload: yasemin-sekiz

Post on 05-Jul-2015

314 views

Category:

Education


15 download

DESCRIPTION

entscheidungsunterstützungssysteme

TRANSCRIPT

Page 1: Markov hidden

Anwendungen und Problemstellungen

Probabilistische Graphische Modelle

Sven Wachsmuth

Universitat Bielefeld, Technische Fakultat, AG Angewandte Informatik

WS 2006/2007

Probabilistische Graphische Modelle 1

Page 2: Markov hidden

Anwendungen und Problemstellungen

Ubersicht uber die Vorlesung

1 Anwendungen und ProblemstellungenAnwendungen: Bayes-Netze

Probabilistische Graphische Modelle 2

Page 3: Markov hidden

Anwendungen und Problemstellungen

1.2+1.3 Wk.theorie + Probabilistische Inferenz

Zusammenfassung

I Frequentisten vs. Bayesianer

I Cox Axiome

I Maximum-Likelihood-SchatzerI posterior ∝ likelihood × prior

I Bernoulli-Verteilung / Beta-VerteilungI Multinomial-Verteilung / Dirichlet-VerteilungI Normal-Verteilung / Normal-Verteilung

I Forward probabilities / inverse probabilities

I Dichteschatzung, Regression, Klassifikation

Probabilistische Graphische Modelle 3

Page 4: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2. Varianten von PGMs

Es sind verschiedene Auspragungen von PGMs getrennt voneinander entstanden, deren Theorie erst spater uber den Begriff derGraphical Models zusammengefuhrt wurden:

I Bayes’sche Netzwerke (BN)

Finn V. Jensen, An Introduction to Bayesian Networks,London: UCL Press Limited, 1996, Kap. 2.3, 3.3.

I Hidden Markov Modelle (HMM)

Gernot A. Fink, Mustererkennung mit Markov-Modellen,Wiesbaden: Teubner, 2003, Kap. 5.

I Markov Random Fields (MRF) Stan Z. Li, Markov RandomField Modeling in Computer Vision, New York, Berlin,Heidelberg, Tokyo: Springer, 1995, Kap. 1.

Probabilistische Graphische Modelle 4

Page 5: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Bayes’sche Netzwerke (BN)

Die Verbundwahrscheinlichkeit uber eine VariablenmengeX = {X1,X2, . . . ,Xn} wird auf der Basis der Produkt- oderKettenregel faktorisiert:

P(x1, x2, . . . , xn) =P(x1|x2, . . . , xn) P(x2|x3, . . . , xn) . . .

. . .P(xn−1|xn)P(xn)

I d.h. es wird eine Ordnung auf den Variablen angenommen(aus unterschiedlichen Ordnungen resultieren unterschiedlicheBN’s).

I Uber Annahmen einer bed. Unabh. zwischen Variablen,konnen die Variablen in der Bedingung eingeschrankt werden

Probabilistische Graphische Modelle 5

Page 6: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Bed. Unabhangigkeit in BNs

In BNs werden bedingte Unabhangigkeiten H uber sogenannteEltern (parents) definiert:

P(x1, x2, . . . , xn|H) ≡n∏

i=1

P(xi |xπi )

wobei πi ⊆ {Xi+1, . . . ,Xn} Eltern von xi .

I Uber die Eltern-Kind-Beziehung definiert sich der zugehorigegerichtete Graph.

Probabilistische Graphische Modelle 6

Page 7: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Beispiel:

Paul arbeitet in seinem Buro in Californien. Sein Haus in einemVorort ist durch eine Alarmanlage gesichert.Nach einer Sitzung bekommt er die Nachricht, dass seineNachbarin Mary versucht hat ihn zu erreichen. Ist vielleicht seineAlarmanlage losgegangen? Hat eventuell ein Einbruchstattgefunden?Nach der nachsten Sitzung erfahrt er, dass auch sein andererNachbar John versucht hat ihn anzurufen. Sehr beunruhigt setzt ersich in sein Auto und fahrt nach Hause.Unterwegs hort er im Radio, dass ein kleines Erdbebenstattgefunden hat, ohne Schaden zu verursachen. Wieder beruhigtkehrt er zur Arbeitsstelle zuruck.

Probabilistische Graphische Modelle 7

Page 8: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Beispiel:

Paul arbeitet in seinem Buro in Californien. Sein Haus in einemVorort ist durch eine Alarmanlage gesichert.Nach einer Sitzung bekommt er die Nachricht, dass seineNachbarin Mary versucht hat ihn zu erreichen. Ist vielleicht seineAlarmanlage losgegangen? Hat eventuell ein Einbruchstattgefunden?Nach der nachsten Sitzung erfahrt er, dass auch sein andererNachbar John versucht hat ihn anzurufen. Sehr beunruhigt setzt ersich in sein Auto und fahrt nach Hause.Unterwegs hort er im Radio, dass ein kleines Erdbebenstattgefunden hat, ohne Schaden zu verursachen. Wieder beruhigtkehrt er zur Arbeitsstelle zuruck.

Probabilistische Graphische Modelle 7

Page 9: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Anwendung der Kettenregel:

P(John,Mary ,Alarm,Einbruch,Erdbeben)

= P(John|Mary ,Alarm,Einbruch,Erdbeben)

P(Mary |Alarm,Einbruch,Erdbeben)

P(Alarm|Einbruch,Erdbeden)

P(Einbruch|Erdbeben) P(Erdbeben)

und Anwendung der bedingten Unabhangigkeitsannahmen H ...

Probabilistische Graphische Modelle 8

Page 10: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Anwendung der Kettenregel:

P(John,Mary ,Alarm,Einbruch,Erdbeben|H)

= P(John|Mary,Alarm,Einbruch,Erdbeben,H)

P(Mary |Alarm,Einbruch,Erdbeben,H)

P(Alarm|Einbruch,Erdbeden,H)

P(Einbruch|Erdbeben,H) P(Erdbeben|H)

= P(John|Alarm) P(Mary |Alarm)

P(Alarm|Einbruch,Erdbeden) P(Einbruch) P(Erdbeben)

Probabilistische Graphische Modelle 8

Page 11: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Alarm

Einbruch Erdbeben

JohnCalls MaryCalls

P(John,Mary ,Alarm,Einbruch,Erdbeben|H)

= P(John|Alarm) P(Mary |Alarm)

P(Alarm|Einbruch,Erdbeden) P(Einbruch) P(Erdbeben)

wobei H die Menge der bed. Unabhangigkeitsannahmen.

Probabilistische Graphische Modelle 9

Page 12: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Def. (diskretes) Bayes’sches Netzwerk (BN) (I)

Ein BN besteht aus:

I Einer Menge von Variablen (Knoten) und einer Menge vongerichteten Kanten zwischen Variablen.

I Jede Variable hat eine endliche Menge von sich gegenseitigausschließenden Zustanden.

I Die Variablen bilden zusammen mit den gerichteten Kanteneinen gerichteten azyklischen Graphen (directed acyclic graph- DAG).D.h. Es existiert kein gerichteter Pfad mit

X1 → · · · → Xk , so dass X1 = Xk

I . . .

Probabilistische Graphische Modelle 10

Page 13: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Def. (diskretes) Bayes’sches Netzwerk (BN) (II)

Ein BN besteht aus (Fortsetzung):

I Jeder Variablen Xi mit Eltern πi ist eine Tabelle vonbedingten Wahrscheinlichkeiten zugeordnet:

P(Xi |Xπi ) ≡

p(x(1)i |x (1)

πi ) . . . p(x(1)i |x (L)

πi ). . . . . .

p(x(K)i |x (1)

πi ) . . . p(x(K)i |x (L)

πi )

Probabilistische Graphische Modelle 11

Page 14: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Inferenz bei BNs (Problemstellungen):

Sei X = {X1,X2, . . . ,Xn} die Menge von ZV’en des BN.Sei O = (XJ = xJ ) = (Xj1 = xj1 , . . . ,XjJ = xjJ ) gegeben.

I Belief updating (Bel):

P(xi |O) = P(Xi = xi |Xj1 = xj1 , . . . ,XjJ = xjJ )

I Most probable explanation (MPE):

arg maxxI∈AXI

P(xI |xJ ), wobei XI = X\XJ

I Maximum a posteriori hypothesis (MAP):

arg maxxI∈AXI

P(xI |xJ ), wobei XI ⊆ X\XJ

Probabilistische Graphische Modelle 12

Page 15: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Modellierung in BN’en

Problem großer bed. Wk.-Tabellen P(A|B,C ,D):

I Es liegen Schatzungen fur P(A|B),P(A|C ),P(A|D) vor,wie beschreiben wir ihre Kombination in P(A|B,C ,D)?

I Jede Ursache hat eine unabhangige Wirkung,wie kann dies modelliert werden?

Probabilistische Graphische Modelle 13

Page 16: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Beispiel (Noisy-or)

Es gibt 3 Ereignisse, die dazu fuhren, dass die Alarmanlage losgeht:

I Hintergrund-Ereignis: 0,1% aus unspezifischen Grunden

I Einbrecher: 95%

I Erdbeben: 29%

Annahme: Die Faktoren, die dazu fuhren, dass das Ereignistrotzdem nicht eintritt sind unabhangig.

Probabilistische Graphische Modelle 14

Page 17: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Noisy-or

Seien A1, . . . ,An binare Variablen der moglichen Ursachen vondem Ereignis der binaren Variablen B.

I Ai = true verursacht B = true, solange dies nicht durchandere Faktoren verhindert wird.

I Sei P(B = false|Ai = true) = qi die bed. Wk., dass Btrotzdem nicht eintritt.

I Annahme: Verhinderungsfaktoren der Ereignisse vonA1, . . . ,An sind unabhangig, d.h. z.B.:

P(B = true|A1 = true,A2 = true,A3 = · · · = An = false)

= 1− P(B = false|A1 = true,A2 = true,A3 = · · · = An = false)

= 1− q1 q2

Probabilistische Graphische Modelle 15

Page 18: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Beispiel (unabhangige Ursachen)

Kopfschmerzen (Ko) konnen durch Fieber (Fi), einen Kater (Ka),Rheuma (Rh), einen Gehirntumor (Ge), oder andere Grunde (An)verursacht werden. Eventuell wird Aspirin (As) zur Linderung derKopfschmerzen eingenommen.

I Die einzelnen Ursachen verstarken den Effekt.

I Der Einfluss der Ursachen auf die Wirkung ist unabhangig.

Probabilistische Graphische Modelle 16

Page 19: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

unabhangige Ursachen

Seien C1, . . . ,Cn die Elternknoten von A.

C1, . . . ,Cn sind unabhangig, falls das folgende fur alleKonfigurationen (c1, . . . , cn) und fur alle i gilt:

I Falls A = a und Ci = ci andert sich nach Ci = c ′i , dann wirddie resultierende Verteilung von A nur durch eine Funktionvon a, ci , c

′i bestimmt.

Probabilistische Graphische Modelle 17

Page 20: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Divorcing

I Noisy-or und kausale Unabhangigkeit sind Spezialfalle von derMethode Divorcing (scheiden).

I Seien A1, . . . ,An Elternknoten von B.I A1, . . . ,Ai is divorced from Ai+1, . . . ,An durch die Einfuhrung

einer Zwischenvariablen C mitI C wird gemeinsames Kind von A1, . . . ,Ai .I C wird neben Ai+1, . . . ,An Elternknoten von B.

I Annahme: Die Konfigurationen von A1, . . . ,Ai konnenpartitioniert werden in die Mengen c(1), . . . , c(K), so dass furzwei Konfigurationen a[1,i ], a

′[1,i ] aus einer Menge c(j) gilt:

P(B|a[1,i ], a[i+1,K ]) = P(B|a′[1,i ], a[i+1,K ])

Probabilistische Graphische Modelle 18

Page 21: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Beispiel (Ungerichtete Relationen):

Um zwei zusammengehorige Socken zu finden, kann man diesenach Farbe und Muster klassifizieren. Nach mehrfachem Waschenist dies jedoch nicht immer ganz einfach.In der letzten Waschmaschine waren 2 Paar Socken, die nicht mehrganz eindeutig auseinander zu halten sind. Nichtsdestotrotzmussen wir zwei passende finden.Die Beschrankung dabei ist, dass es jeweils exakt 2 Socken desgleichen Typs gibt.

Probabilistische Graphische Modelle 19

Page 22: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Ungerichtete Relationen

Sei R(A,B,C ) eine ungerichtete Relation zwischen den VariablenA,B,C , die durch die Werte {0, 1} beschrieben wird.

I Fuge eine Variable D mit AD = {true, false}.I Definiere P(D = true|A,B,C ) = R(A,B,C ).

I Definiere P(D = false|A,B,C ) = 1− R(A,B,C ).

I Setze die Evidenz D = true.

Probabilistische Graphische Modelle 20

Page 23: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Zusammenfassung Bayes-Netze

I Ein BN ist ein DAG, wobei jedem Knoten (Variablen) einebedingte Wk.-Tabelle zugeordnet ist.

I Gerichtete Kanten des DAG ergeben sich haufig uber kausaleBeziehungen der in den ZV modellierten Ereignisse.

I Die Faktorisierung der Verbundwk. ergibt sich uber dieKettenregel bzw. die Elternknoten.

I Jede Instanziierung eines BNs (partielle Belegung derVariablen mit Werten – Evidenzen) wird als unabhangigesEreignis betrachtet.

I Die Theorie von Bayes-Netzen kann auch auf kontinuierlicheVariablen ausgedehnt werden (→ hybride Bayes-Netze)

I Ziel ist die Berechnung der bedingten Wahrscheinlichkeit vonnicht beobachteten Variablen.

Probabilistische Graphische Modelle 21

Page 24: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Hidden Markov Modelle (HMM)

HMMs beschreiben einen 2-stufigen stochastischen ProzessI erste Stufe:

I diskreter stochastischer Prozess,I stationar, kausal, einfach,I endliche Zustandsmenge,I endlicher Automat mit Ubergangswk.

P(st |s1, s2, . . . , st−1) = P(st |st−1)

I zweite Stufe:I Zu jedem Zeitpunkt t wird eine Ausgabe (Emission) ot

generiert,I die Ausgabe ist nur vom aktuellen Zustand st abhangig

P(ot |o1, . . . , ot−1, s1, . . . , st) = P(ot |st)

Probabilistische Graphische Modelle 22

Page 25: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Beispiel

Paul ist neu in der Stadt und versucht Mary, die sich in der Stadtrecht gut auskennt, zu erklaren, wo er gestern lang gegangen ist.“Ich bin an einer großen Kreuzung gestartet. Dann bin ich bei einerKirche herausgekommen und weiter gegangen zu einem Platz miteinem Brunnen. Von dort bin ich dann an einer Eisdiele vorbeigegangen, habe ein Stuck weiter Straßenbahngleise uberquert undbin bei meinem Hotel herausgekommen.

I Welcher Weg wurde genommen?

I An welchem Hotel ist Paul angekommen?

Probabilistische Graphische Modelle 23

Page 26: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

I Die Zustandsmenge besteht ausden markierten Stellen imStadtplan.

I Die Beobachtungen sindmarkante Objekte an diesenOrten.

I Welcher Weg wurdegenommen?

I An welchem Hotel ist Paulangekommen?

Probabilistische Graphische Modelle 24

Page 27: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Def. Hidden Markov Modelle

Ein HMM 1. Ordnung wird vollstandig beschrieben durch:

I eine endliche Menge von Zustanden St ∈ {s|1 ≤ s ≤ N}I eine Matrix A von Zustandsubergangswk.

A = {aij |aij = P(St = j |St−1 = i)}I einen Vektor π von Zustandsstartwk.

π = {πi |πi = P(S1 = i)}.I zustandsspezifische Emissionsverteilungen

B = {bkj |bkj = P(Ot = ok |St = j)}

bzw. {bj(x)|bj(x) = p(x |St = j)} (kont. Dichten)

Probabilistische Graphische Modelle 25

Page 28: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Modellierung der Modellemissionen

Meistens wird eine kontinuierliche Dichte durch eineMischverteilung approximiert:

bj(x) =

Mj∑k=1

cjkN (x |µjk ,Kjk)

wobei cjk das Mischungsgewicht mit∑

k ck = 1 und ck ≥ 0 ∀k,µjk der zustandsabh. Mittelwert der Komponente,Kjk die zustandsabh. Kovarianzmatrix der Komponente.

Probabilistische Graphische Modelle 26

Page 29: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Semikontinuierliche HMMs

Die zu mischenden Komponenten sind unabhangig vom Zustand:

bj(x) =

Mj∑k=1

cjkN (x |µk ,Kk)

wobei cjk das Mischungsgewicht mit∑

k ck = 1 und ck ≥ 0 ∀k,µk der komponentenspezifische Mittelwert,Kk die komponentenspezifische Kovarianzmatrix.

Probabilistische Graphische Modelle 27

Page 30: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Inferenz bei HMMs (Problemstellungen)

Sei S = (S1, . . . ,ST ) eine Folge von Zustandsvariablen.Sei O = (O1 = ok1 , . . . ,Ot = okT

) eine Folge von Beobachtungen.

I Produktionswk. von HMM λ (Evaluierung)

P(O|λ) =∑

s1,...,sT

P(O, s1, . . . , sT |λ)

I optimale Produktionswk. von HMM λ (Dekodierung)

P∗(O|λ) = P(O, s∗|λ) = maxs1,...,sT

P(O, s1, . . . , sT |λ)

Probabilistische Graphische Modelle 28

Page 31: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Inferenz bei HMMs (Problemstellungen II)

Sei S = (S1, . . . ,ST ) eine Folge von Zustandsvariablen.Sei O = (O1 = ok1 , . . . ,Ot = okT

) eine Folge von Beobachtungen.

I Klassifikation (zwei oder mehr HMMs λi )

P(λi∗ |O) = maxi

P(O|λi ) P(λi )

P(O)

Probabilistische Graphische Modelle 29

Page 32: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.2 Varianten von PGMs: Hidden Markov Modelle

Zusammenfassung HMMs

I Ein HMM ist ein zweistufiger Zufallsprozess(Zustande der ersten Stufe sind nicht beobachtbar).

I Aufeinander folgende Ereignisse sind nicht unabhangig!

I Ein HMM wird beschrieben durch λ = (A, π, B).

I Es wird meistens zur Modellierung zeitlich organisierterProzesse verwendet.

I Komplexere Problemstellungen werden meistens durchVerbund-Modelle realisiert (Zusammenschaltung einfacherModelle)

I Ein entrolltes HMM entspricht einem einfachen Bayes-Netzmit rechtsseitiger Baumstruktur.

Probabilistische Graphische Modelle 30

Page 33: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Markov Random Fields (MRF)

MRFs beschreiben ein Feld von Zufallsvariablen X mitungerichteten direkten Abhangigkeiten. Dies ist darstellbar durcheinen ungerichteten Graphen mit einer Nachbarschaft XNi

vonKnoten Xi .

Jede Variable Xi ist unabhangig von den Zustanden der ubrigenVariablen XJ gegeben die Menge der Nachbarschaftsknoten XNi

:

P(xi |xNi, xJ ) = P(xi |xNi

), wobei X = {Xi} ∪ XJ ∪ XNi

Probabilistische Graphische Modelle 31

Page 34: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Beispiel

Auf dem Tankstellenmarkt herrscht ein harter Preiskampf. JederTankstellenbetreiber versucht seine Preise anhand des lokalenPreisgefuges der benachbarten Tankstellen und desWeltmarktpreises zu optimieren.

Der Autofahrer unterwegs kennt zwar die Preise von TankstelleA,B, und C , kann aber den Preis seiner nachsten Tankstelle D aneinem Ort zwischen der teuren Tankstelle A und der gunstigenTankstelle C nur schatzen.

Lohnt sich der Weg zur Tankstelle C?

Probabilistische Graphische Modelle 32

Page 35: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Welche Verteilung modelliert die Unabhangigkeitsbed. einesMRF?

Gedankenexperiment

Gegeben sei ein physikalisches System mit diskretenEnergiezustanden ε1, ε2, . . . , εm.

N identische solche Systeme werden in einen abgeschlossenenRaum gesperrt, konnen aber untereinander Energie austauschen.

Was ist die Verteilung der Energiezustande, die sich einstellt (amwahrscheinlichsten ist)?

Probabilistische Graphische Modelle 33

Page 36: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Boltzmann-Verteilung

N∗s

N=

exp{−βεs}∑s′ exp{−βεs′}

wobei N∗s die Anzahl der Systeme im Zustand s.

N die Gesamtanzahl der Systeme.β temperaturabh. Parameter.

Probabilistische Graphische Modelle 34

Page 37: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Die Faktorisierung der Boltzmann-Verteilung ergibt sich aus einerZerlegung des Energiezustandes εs in eine Summe aus einzelnenEnergietermen Ei (s).

Faktorisierung der Boltzmann-Verteilung

N∗s

N=

exp{−β∑

i Ei (s)}Z

wobei εs =∑

i Ei (s)

Z =∑

s′ exp{−β∑

i Ei (s′)} (Zustandssumme)

Probabilistische Graphische Modelle 35

Page 38: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Ein Systemzustand s wird modelliert durch eine Menge vonZufallsvariablen X = {X1, . . . ,Xn} und entspricht einerSystemkonfiguration

s ≡ (x1, x2, . . . , xn)

Ein Energieterm (Potentialfunktion VI(xI)) kann dabei nur voneiner Teilmenge XI ⊆ X der ZV abhangen.

P(x1, . . . , xn) =1

Zexp{−β

∑I∈Q

VI(xI)}

wobei Q ⊆ P({1, 2, . . . , n}) (P: Potenzmenge).

Probabilistische Graphische Modelle 36

Page 39: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

P(x1, . . . , xn) =1

Zexp{−β

∑I∈Q

VI(xI)}

Umsetzung der Zerlegung der Zustandsenergie εs =∑

I∈Q VI(xI)in einen Graphen:

I Definiere fur jede ZV einen Knoten.

I Ziehe genau dann eine Kante (i , j) zwischen zwei Knoten,wenn beide ZV in einem Teilenergieterm VI(xI) vorkommen.(∃I∈Q Xi ,Xj ∈ XI)

⇒ Hieraus folgt die Unabhangigkeitbed. in einem MRF.

P(xi |xNi, xJ ) = P(xi |xNi

), wobei Ni Nachbarschaft von Xi

Probabilistische Graphische Modelle 37

Page 40: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Def. Markov Random Fields

Ein (diskretes) MRF wird beschreiben durch:

I Einer Menge von Variablen (Knoten) X und einer Menge vonungerichteten Kanten E .

I Jede Variable hat eine endliche Menge von sich gegenseitigausschließenden Zustanden.

I Die Variablen bilden zusammen mit den ungerichteten Kanteneinen ungerichteten Graphen G = (X , E)

I Es gilt die Unabhangigkeitsbed. (X = {Xi} ∪ XNi∪ XJ )

P(xi |xNi, xJ ) = P(xi |xNi

), ∀j∈J (i , j) 6∈ E ∀k∈Ni(i , k) ∈ E

Probabilistische Graphische Modelle 38

Page 41: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Bisher haben wir gezeigt, dass die Boltzmann-(Gibbs-)Verteilungdie MRF-Bedingungen erfullt.

Hammersley-Clifford Theorem

X ist genau dann ein MRF in Bezug auf ein NachbarschaftssystemN , wenn P(x) eine Boltzmann-Gibbs-Verteilung ist.

P(x1, . . . , xn) =1

Zexp{−β

∑I∈Q

VI(xI)}

wobei Q die Menge der (maximalen) Cliquen des Graphen mitNachbarschaftssystem N ist.

Probabilistische Graphische Modelle 39

Page 42: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Def. Clique

Eine Clique C in einem Graphen G = (X , E) ist eineKnotenteilmenge von G , d.h. C ⊆ X , die vollverbunden ist, d.h.

∀Xi ,Xj : Xi ∈ C ∧ Xj ∈ C ⇒ (i , j) ∈ E

I Die Beschrankung im Hammersley-Clifford-Theorem aufmaximale Cliquen bedeutet keine Einschrankung fur dasModell.

I Haufig werden großere Cliquen durch die Summe vonPotentialfunktionen von Teil-Cliquen beschrieben.

Probabilistische Graphische Modelle 40

Page 43: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Inferenz bei MRFs (Problemstellung)

Sei X = (X1, . . . ,Xn) ein Feld von Zustandsvariablen.Sei O = {O1 = o1, . . . ,On = on} eine Menge von Beobachtungen.

I Most probable explanation (MPE):

arg maxx

P(x |o) = arg maxx

P(o|x) P(x)

entspricht einer Energieminimierung(meistens Annahme einer bed. Unabh. im Datenterm):

arg minx

E (x) = arg minx

∑I∈Q

VI(xI)−n∑

i=1

log P(oi |xi )

Probabilistische Graphische Modelle 41

Page 44: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Wahl des Priors U(x) =∑

I∈Q VI(xI) (Beispiele):

I Multi-level logistic model (nicht geordnete Labelmenge)

VI(xI) =

{ζI falls alle xi , i ∈ I den gleichen Wert haben

−ζI sonst.

I Glattheits-Prior (meistens paarweise)

U(x) =∑I∈Q

VI(xI) =∑i∈S

∑i ′∈Ni

V2(xi , xi ′), S = {1, . . . , n}

mit V2(xi , xi ′) =1

2(xi − xi ′)

2.

I andere anwendungsabh. Wahl moglich.

Probabilistische Graphische Modelle 42

Page 45: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.3 Varianten von PGMs: Markov Random Fields

Zusammenfassung MRFs

I Ein MRF ist ein ungerichteter Graph, wobei den Cliquen desGraphs Potentialfunktionen zugeordnet sind.

I Die Faktorisierung der Verbundwk. ergibt sich uber dieSumme der Potentialfunktionen.

I Jede Instantiierung einen MRFs wird als unabhangigesEreignis betrachtet.

I Die Theorie von MRFs kann auch auf kontinuierlicheVariablen ausgedehnt werden.

I Das Minimieren der Gesamtenergie des MRF entspricht derBerechnung einer most probable explanation derentsprechenden Boltzmann-Gibbs-Verteilung.

Probabilistische Graphische Modelle 43

Page 46: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.4 Varianten von PGMs: Gemeinsame Sicht

Probabilistische Graphische Modelle kann man sich vorstellen alsprobabilistische Datenbasis, die wir uber einenAnfragemechanismus bezuglich der Werte von Zufallsvariablenabfragen konnen.

I Modelliert wird jedes mal die Verbundwahrscheinlichkeit ubereiner Menge von Zufallsvariablen.

I Unabhangigkeitsannahmen H ergeben sich aus derGraphstruktur und spiegeln sich in der Faktorisierung derVerbundwk.

P(x1, . . . , xn|H) =∏I∈Q

fI(xI)

Probabilistische Graphische Modelle 44

Page 47: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.4 Varianten von PGMs: Gemeinsame Sicht

P(x1, . . . , xn|H) =∏I∈Q

fI(xI)

Dabei ist ...I Bayes-Netze:

I Q = {({Xi} ∪ Xπi )|i ∈ {1, . . . , n}}I fI(xI) = P(xi |xπi ), wobei I = ({Xi} ∪ Xπi )I ausgerollte HMMs konnen als Spezialfall eines BNs verstanden

werden.

I MRFs:I Q Menge der (maximalen) Cliques uber dem Graph.I fI(xI) = exp{−βVI(xI)}

Probabilistische Graphische Modelle 45

Page 48: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.4 Varianten von PGMs: Gemeinsame Sicht

Bayes-Netze und MRFs modellieren

I eine Folge von unabhangigen, identisch verteilten (IID)Verbund-Ensembles.

I Es besteht kein zeitlicher Zusammenhang zwischen zweiaufeinander folgenden Belegungen

HMMs modellieren

I eine Folge von abhangigen Verbund-Ensembles(Zustand, Beobachtung).

I der “zeitliche” Zusammenhang ist meistens auf den vorherigenZustand beschrankt.

⇒ Erweiterung von Bayes-Netzen und MRFsauf dynamische PGMs.

Probabilistische Graphische Modelle 46

Page 49: Markov hidden

Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2.4 Varianten von PGMs: Gemeinsame Sicht

Gemeinsame Fragestellungen:

I Lassen sich Bayes-Netze und MRFs auf einander abbilden?

I Wo liegen die Grenzen,was kann modelliert werden? was nicht?

I Gibt es ein gemeinsames Schema fur Inferenzalgorithmen?

I Wie konnen Parameter und Strukturaus Daten gelernt werden?

Probabilistische Graphische Modelle 47