parameteranpassung mit der...

34
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft Fakultät für Physik Institut für Experimentelle Kernphysik www.kit.edu Vorlesung: Rechnernutzung in der Physik Parameteranpassung mit der Likelihood-Methode Günter Quast WS 2018/19

Upload: hoanghuong

Post on 14-Aug-2019

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Fakultät für PhysikInstitut für Experimentelle Kernphysik

www.kit.edu

Vorlesung: Rechnernutzung in der Physik

Parameteranpassung mit der Likelihood-Methode Günter Quast

WS 2018/19

Page 2: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Organisatorisches

Bitte melden Sie sich im Studierendenportal zur Veranstaltung Rechnernutzung in der Physik an !

Page 3: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Wiederholung

Parameteranpassung

Page 4: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Parameterschätzung (neudeutsch „fitten“)

Anpassung von Modellen = parameterabhängige Funktionen an statistische Daten = Messwerte

Messdaten ( xi , yi ) mit angepasster Funktion f(x;p)p ist der Vektor der Parameter der Funktion

y⃗

Bekanntes Verfahren: S = Summe der Residuenquadrate bzgl. der Parameter minimieren

σi2 sind die Varianzen der N Messungen yi

Falls die Fehler korreliert sind, ersetze 1/σi

2 → cov -1 (Inverse der Kovarianzmatrix)

Methode der „kleinsten Feherquadrate“ bzw. „χ2 – Methode“

Page 5: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Erinnerung: Messung ↔ Funktionswert

=Messung mit Fehlerbalken

wahrer Wert

übliche Darstellung

Mess-punkt

Wahrscheinlichkeitsverteilung um den wahren Wert

eigentliche Bedeutung

Fehlerbalken entspricht ±1σ dieser Gaußkurve

Messung mit Fehlerbalken bedeutet: Beobachtung eines Messergebnisses, das der Summe aus einem „wahren“ Wert und einer Zufallszahl aus einer Verteilungsdichte entspricht

Page 6: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Erinnerung: Summe der „Residuenquadrate“ (χ2-Methode)

Sind die Unsicherheiten korreliert, also durch eine Kovarianzmatrix V beschrieben, „ersetze“ 1/σi

2 → V -1

(Inverse der Kovarianzmatrix) .

Allgemein in vektorieller Schreibweise

N Beobachtungen yi, Modellfunktion f bei Werten xi , k Parameter {p}

Spezialfall unkorrelierter Unsicherheiten:

Minimieren von S bzgl. liefert die Bestwerte

folgte einer χ2 -Verteilung mit nf = N - k Freiheitsgraden (wenn die Unsicherheiten gaußförmig sind)

Page 7: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Mittelwert von 10 Messungen yi mit Unsicherheiten σ

entspricht Anpassung einer konstanten Funktion f(x;c)=c

Beispiel mit einem Parameter

analytisch:

identisch zum „Mittelwert“

berechnen und grafisch darstellen

„numerisch“: Script PlotAverage-withChi2.py

Page 8: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Maximum Likelihood Methode

Page 9: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Literatur zum Theoretischen Hintergrund

Page 10: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Kleinste Quadrate & Maximum Likelihood

Messung

kleinster Abstand Messung ↔ Erwartungswert

Minimiere Abstandvom Sollwert

Maximale Wahrscheinlichkeit

Maximiere Höhe der pdf

Zwei Möglichkeiten, die am besten zur Messung passende Verteilung zu finden:

Likelihood-MethodeBeide Methoden bevorzugen in diesem Beispiel die durchgezogene Verteilung

Page 11: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Likelihood-Methode

Als Verteilungsdichte p( x; a ) ist positiv und normiert (bzgl. x, aber nicht bzgl. a !)

Mehrere unabhängige Messgrößen xi , i = 1, …, n einer Größe

folgen einer Verteilungsdichte p(x,a) mit Parametern ai.

„Likelihood“ ist das Produkt der Wahrscheinlichkeiten p(xi |a ) aller Messungen

Beispiel: 7 Messungen

Skript

Likelihood-pdf.py

Page 12: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

[** Anmerkung Likelihood-Methode ]

Mit Hilfe der Likelihood-Methode können neben der Parameterabhängigkeit auch verschiedene Verteilungen verglichen werden:

Wichtig für „Hypothesentests“

Page 13: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Maximum Likelihood-PrinzipLikelihood-Funktion L : Produkt der Werte der Wahrscheinlichkeitsdichte P

i für

n unabhängige Messungen xi :

hängt nur noch von den Parametern p ab !

Maximum-Likelihood-Prinzip: Der beste Schätzwert für den Parametervektor ist derjenige, der die Likelihood-Funktion maximiert

negativer Logarithmus der Likelihood-Funktion:

Bedingung für Optimum:

Page 14: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiel: Likelihood der Gaußverteilung

Gleichung einer Parabel in μ

Page 15: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiele für Likelihood-Schätzungen

Erwartungswert gaußverteilter Messungen:

Bedingung für Extremum:

Formel für Mittelwert

Bekannte Formel für Standardabweichung (aber ohne Korrektur auf Verzerrung !)

Page 16: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

neg. logLikelihood der Gaußverteilung

9 Zahlen aus Gaußverteilung mit μ=10 und σ= 0.1μ :

10.82259763 11.5802395 10.20363144 9.56501373 10.40566633 10.51476713 11.01537678 11.31607015 9.13313329

Darstellung des negativen Logarithmus derLikelihood-Funktion für1, 2, … , 9 Messungen

Skript nlLGauss.py

Parabeln, die mit steigender Zahlder Messungen immer schärferum den Mittelwert zentriert sind

Page 17: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiele für Likelihood-Schätzungen

Erwartungswert gaußverteilter Messungen mit verschiedenen Unsicherheiten:

Bedingung für Extremum:

Mit 1 / σi 2 gewichtete Summe der Messwerte (auch altbekannt)

hängt nicht von μ ab

Page 18: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiel: Likelihood beim MünzwurfErinnerung: Binomialverteilung beim Wurf einer Münze:

relative Häufigkeit des Auftretens des Ergebnisses „Kopf“

Für einige der Ergebnisse aus der Reihe von Münzwürfen oben ist nebenan die jeweilige Likelihood-Funktion gezeigt:

Mit zunehmender Zahl an Würfen wird der Parameter p durch die Likelihood-Funktion immer genauer eingegrenzt

ist eine Funktiondes Parameters p für gegebeneBeobachtung (N, k )

Skript nlLCoin.py

Page 19: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiele für Likelihood-Schätzungen

Lebensdauer aus Exponentialverteilung:→

Bedingung für Extremum:

Mittelwert der gemessenen Lebensdauern (deshalb heißt τ ja auch „mittlere Lebensdauer“ )

s. Skript nlLExp.py

neg. logL-Kurven sind kein Parabeln !

Hineinzoomen ininteressantenBereich: → näherungsweise parabolisch

Page 20: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Parameterunsicherheiten mit Hilfe der Likelihood-Funktion

Page 21: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Maximum-Likelihood: Prameterunsicherheiten

Anschaulich:

Je schärfer das Minimum von -lnL(a), desto kleiner die Parameterfehler:

a

F(a)

scharfes Minimum: große Krümmung

Parameterunsicherheitenflaches Minimum: kleine KrümmungF(a)

a

Page 22: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Maximum-Likelihood: Prameterunsicherheiten

Mathematisch exakt: die angegebenen Fehlerabschätzungen sind Untergrenzen

Nur für Parabel-förmigenVerlauf von F(a) sind diebeiden Fehlerdefinitionenäquivalent

Varianz ≈ 1 / Krümmung 1/σ2 ≈ ∂2F / ∂a2

bei mehreren Parametern ai:

(cov-1)ij ≈ ∂2F / ∂ai ∂aj

±1σ - Intervall (=68%) aus ΔF = 0.5

Typischer Verlauf einer negativen log-Likelihood Funktion und ihrer 1. und 2. Ableitungen

F(a) näherungsweise quadratisch um das Minimum;

1. Ableitung näherungsweise linear, =0 am Minimum

2. Ableitung ~ konstant

Parabel ausKrümmung am Minimum

±1σ

Page 23: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Prameterunsicherheiten (2)

näherungsweise parabelförmig

Likelihood = exp(-F(a)) als Verteilungsdichte in a auffassen:

ist Gauß-Verteilung (mit Normierungsfaktor A) Standardabweichung gegeben durch

weiter gilt mit dieser Beziehung für σ:

Plausibilitätserklärung (kein Beweis, Stichwort „Cramer-Rao-Frechet Grenze“)

nur ein Parameter a, betrachten Taylor-Entwicklung von F(a) um Minimum:

Page 24: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Einschub: Parabel-Eigenschaften

Wenn F(a) eine negative Log-Likelihood Funktion ist, dann ist

allg. Darstellung einer Parabel

exakt nur für Gauß-Verteilungen

Page 25: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiele für Likelihood-Schätzungen

gaußverteilter Messungen:

Bedingung für Extremum:

Bekannte Formel für den Mittelwert

Beispiel von eben: Unsicherheit auf den Erwartungswert

zweite Ableitung:

d.h. Unsicherheit des Mittelwerts: σ/ √N (Sie erinnern sich hoffentlich !?)

Page 26: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Prameterunsicherheiten (3)

zur Fehlerbestimmung aus F(a):

Log-Likelihood- Differenz bestimmt Fehler. Vorteil dieser Methode: invariant unter Variablentransformation a → a'(a):

F(a) – F(â) = F( a'(a) ) – F( a'(â) )

Fehlerbestimmung: | Δ (-ln L ) ___________________________

1σ | 0.5 2σ | 2.0 3σ | 4.5 n σ | n2/2

Wichtig, wenn –ln L nicht parabelförmig in der Nähe des Minimums: Angabe eines asymmetrischen Fehlerintervalls

Das so bestimme Unsicherheitsintervall entspricht±1σ-Bereich einer Gaußverteilung → 68% Konfidenz-Intervall

Page 27: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Zusammenhang -ln L und χ2

Fehlerbestimmung: |Δ (-ln L)| Δχ2

____________________________

1σ | 0.5 | 1 2σ | 2.0 | 4 3σ | 4.5 | 9 n σ | n2/2 | n2

Für Gauß-förmig um f(xi; a) verteilte Messungen yi ist die χ2 Methode äquivalent zur -lnL-Methode :

χ2

const. bzgl. a

Minimieren von -ln L ↔ Minimieren von χ2

∆(-ln L) = ½ ∆χ2

∂2(-ln L) / ∂ai∂aj = ½ ∂χ2 / ∂ai∂aj

Bei anderen als Gauß-förmigen Fehlerverteilungen ist χ2 eine eigenständige Methode; - bei unbekannter Fehlerverteilung haben wir keine bessere - χ2 ist optimal für die Anpassung von Linearkombinationen von Fit-Funktionen

Page 28: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Maximum Likelihood vs. Kleinste Quadrate

Maximum - Likelihood Kleinste Quadrate

Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt

Methode Höhe der PDF Abweichung vom Mittelwert der PDF

Effizienz maximal maximal bei linearen Problemen

Komplexität aufwändig, meist nicht-linear oft linear und exakt lösbar

Robustheit nein - PDF muss exakt bekannt sein

nein („Ausreißer“)

korrelierte Datenfehler

u.U. kompliziert einfach über Kovarianzmatrix

Güte der Anpassung

nein ja: χ2-Wahrscheinlichkeit

Bias (dt. Verzerrung)

i.A. ja nein bei linearen Problemen (wenn Fehler der Daten unverzerrt sind)

Spezialfall identisch bei Gauß-förmigen Fehlern

Page 29: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Profile LikelihoodOft interessieren nur wenige der Parameter einer Anpassung:

● t = (a1, …, a

k )

die anderen sind „Störparameter“ (engl. nuisance parameters):

● r = (ak+1

, …, am

)

Bei mehreren Parmetern ti : zur Fehlerbestimmung von ti muss die Likelihood bzgl. aller anderen Parameter aj; j≠i minimiert werden („Profile Likelihood“) (MINOS-Verfahren in MINUIT)

Frage: Unsicherheit von t für alle möglichen Werte von r ? Antwort: Profile Likelihood

Verfahren:

● zunächst Minimierung bzgl. r für feste werte von ti

● 1-Intervall auf t bestimmt durch

Page 30: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiel zur Profile Likelihood

Das Verfahren in der Praxis am Beispiel der Anpassung einer Exponentialfunktion an Zeitmessungen mit Untergrund im Wertebereich ti ∈ [0, b]:

von Interesse ist die Lebensdauer τ, der Untergrundanteil fb ist der Störparameter

Der Algorithmus:

• für feste Werte τi in der Nähe des Minimums wird bzgl. fb minimiert →

• das 68% CL - Intervall wird bei

abgelesen

68%Skript: Übungsaufgabe !

Page 31: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Beispiel zur Profile-Likelihood

– deutlicher Unterschied zwischen parabolischer Annahme und Profile- Likelihood

– Konfidenz-Konturen sind keine Ellipsen

Pofile-Likelihood in 2 Dimensionen zur Bestimmung von Konfidenzkonturen

-2 Δ

ln(L

)

erstellt mit kafe http://www.ekp.kit.edu/~quast/kafe

Page 32: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Sommerstudentenprogramme

Page 33: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Sommerstudentenprogramm

31-Jan-2019

https://home.cern/summer-student-programme

Page 34: Parameteranpassung mit der Likelihood-Methodecomp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V11_Likelihood.pdf · Parameteranpassung mit der Likelihood-Methode Günter

Sommerstudentenprogramme

https://summerstudents.desy.de/