survival of the fittest wie statistische modelle an daten ... · survival of the fittest { wie...

27
Tag der Mathematik 2009 Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Thomas Kneib Fakult¨ at f¨ ur Mathematik und Naturwissenschaften Carl von Ossietzky Universit¨ at Oldenburg Oldenburg, 28.10.2009

Upload: others

Post on 18-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Tag der Mathematik 2009

Survival of the FittestWie statistische Modelle an Daten angepasst werden

Thomas Kneib

Fakultat fur Mathematik und NaturwissenschaftenCarl von Ossietzky Universitat Oldenburg

Oldenburg, 28.10.2009

Page 2: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

Statistische Modellierung

• Francis Galton (1822 – 1911): Wie hangen Korpergroße der Eltern und Korpergroßeder Kinder zusammen?

• Zu erklarende Variable: Korpergroße des Kindes in Inch.

• Erklarende Variable: Mittlere Korpergroße der Eltern in Inch. Um Manner und Frauenvergleichbar zu machen, multiplizierte Galton die Korpergroße der Frauen mit 1.08.

• Daten zu 18.918 Kindern.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 1

Page 3: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

64 66 68 70 72

6264

6668

7072

74

mittlere Größe der Eltern

Grö

ße

des

Kin

ds

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 2

Page 4: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Prinzipien statistischer Modellierung:

– Ziel: Vereinfachende Beschreibung (moglicherweise komplexer) Zusammenhange.

– Gleichzeitig Berucksichtigung der Unsicherheit aufgrund unvollstandiger Informati-on (z.B. aufgrund der Ziehung einer Stichprobe).

– Schatzung des Modells basierend auf Daten bzw. Anpassung des Modells an dieDaten.

– Prognose zukunftiger Beobachtungen aus einem geschatzten Modell.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 3

Page 5: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Anpassung ist einer der Schlusselbegriffe in Charles Darwins (1809 – 1882) Evoluti-onstheorie :

“Survival of the Fittest” = “Uberleben des am Besten Angepassten”

(eigentlich gepragt durch den Sozialphilosophen Herbert Spencer).

• Wird haufig in Zusammenhang gebracht und verwechselt mit:

“Only the strong survive” = “Uberleben des Starkeren”.

• Francis Galton war ein Halbcousin von Darwin.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 4

Page 6: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Galton wahlte die folgende Form eines statistischen Modells:

yi = β0 + β1xi + εi, i = 1, . . . , 18.918,

d.h. ein lineares Modell mit

– Zielvariable yi (Große des Kinds),

– Einflussgroße xi (mittlere Große der Eltern),

– Modellabweichung εi (Fehler).

• In der Statistik wird εi (und damit auch yi) als zufallige Große aufgefasst.

=⇒ Stochastische Modellierung.

• Aufgabe der Statistik: Trennung von Signal (Gerade) und Rauschen (Fehler) sowieAbschatzung des dabei gemachten Fehlers.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 5

Page 7: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Das lineare Modell ist parametrisch und wird charakterisiert durch

– den Achsenabschnitt β0 und

– die Steigung β1.

• Anpassung an die gegebenen Daten: Wie kann die Ubereinstimmung einer Geradenmit den Daten gemessen werden?

• Quantifiziere die Abweichung zwischen Modell und Daten.

• Gaußsche Methode der kleinsten Fehlerquadrate: Minimiere die quadrierten Abwei-chungen yi − β0 − xiβ1, d.h.

n∑

i=1

(yi − β0 − β1xi)2 → minβ0,β1

.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 6

Page 8: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Losung des Minimierungsproblems:

– Ableiten der Quadratsumme nach β0 und β1.

– Nullsetzen der resultierenden Ausdrucke.

– Auflosen nach β0 und β1.

– Uberprufen, dass es sich tatsachlich um ein Minimum handelt

• Man erhalt eine Losung in geschlossener Form.

• Im Beispiel ergeben sich

β0 = 27.777 β1 = 0.591

als Punktschatzer und

[29.156, 26.397] [0.571, 0.611]

als entsprechende Unsicherheitsbereiche.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 7

Page 9: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

• Interpretation:

– Die geschatzte Steigung β1 gibt an, um wieviele Einheiten sich die erwarteteKorpergroße des Kindes andert, wenn sich die durchschnittliche Große der Elternum eine Einheit andert.

– β1 < 1 bedeutet, dass Kinder großer Eltern tendenziell kleiner sind als ihre Elternwahrend Kinder kleiner Eltern tendenziell großer sind als ihre Eltern.

– Dieses Phanomen bezeichnete Galton als “Regression (Ruckkehr) zum Mittelwert”(“Regression towards mediocrity in hereditary stature”).

• Prognose fur neue Beobachtungen:

y = β0 + β1x.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 8

Page 10: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Statistische Modellierung

64 66 68 70 72

6264

6668

7072

74

mittlere Größe der Eltern

Grö

ße

des

Kin

ds

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 9

Page 11: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Kardiovaskulare Notfalle in Munchen

Kardiovaskulare Notfalle in Munchen

• Was unterscheidet 2006 von fruheren Jahren?

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 10

Page 12: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Kardiovaskulare Notfalle in Munchen

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 11

Page 13: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Kardiovaskulare Notfalle in Munchen

• Modellierung von Haufigkeiten ⇒ Kleinste-Quadrate-Schatzung nicht geeignet.

• Verwende ein stochastisches Modell basierend auf der Poisson-Verteilung.

• Unterscheidung zwischen normalen Tagen (keine Spiele der deutschen Mannschaft)und Tagen mit Spielen der deutschen Mannschaft.

• Relatives Risiko:

Risiko an Tagen mit Spielen der deutschen Mannschaft

Risiko an normalen Tagen

• Das geschatzte relative Risiko ist 2.66 (Unsicherheitsbereich 2.33 – 3.04).

• Erhohtes Risiko insbesondere fur Manner mit Herzerkrankung (relatives Risiko 4.22).

• Kein erhohtes Risiko fur Frauen ohne Herzerkrankung nachweisbar.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 12

Page 14: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

Nichtlineare Modellierung

• In zahlreichen Anwendungen sind lineare Modelle nicht flexibel genug.

• Beispiel: Temperatur-Rekonstruktion auf der nordlichen Erdhalbkugel fur die letzten2000 Jahre.

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 13

Page 15: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

Nichtlineare Modellierung

• In zahlreichen Anwendungen sind lineare Modelle nicht flexibel genug.

• Beispiel: Temperatur-Rekonstruktion auf der nordlichen Erdhalbkugel fur die letzten2000 Jahre.

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 14

Page 16: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Erweitere das lineare Modell zu einem polynomialen Modell:

yi = β0 + xiβ1 + . . . + xpi βp + εi.

• Kleinste-Quadrate-Schatzung der Parameter:

n∑

i=1

(yi − β0 − xiβ1 − . . .− xpi βp)2 → min

β0,β1,...,βp

.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 15

Page 17: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Quadratisch:

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 16

Page 18: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Kubisch:

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 17

Page 19: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Quartisch:

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 18

Page 20: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Auch Polynome sind nicht flexibel genug, um den nichtlinearen Zusammenhang zubeschreiben.

• Betrachte nichtparametrische Modelle der Form

yi = f(xi) + εi

wobei f datengesteuert aus den Daten geschatzt werden soll.

• Das Kleinste-Quadrate-Kriterium

n∑

i=1

(yi − f(xi))2 → minf

fuhrt (ohne weitere Annahmen an f) zur Interpolation der gegebenen Daten.

⇒ Wahle f optimal aus einer geeigneten Funktionenklasse.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 19

Page 21: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Approximiere f(x) durch Entwicklung in Basisfunktionen Bk(x):

f(x) =K∑

k=1

βkBk(x).

• Fuhrt die nichtparametrische Schatzung von f in eine semiparametrische Schatzungmit vielen Parametern uber.

• Wir verwenden Polynom-Splines basierend auf einer B-Spline-Basis.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 20

Page 22: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

0 500 1000 1500 2000

−0.

50.

00.

5

0 500 1000 1500 2000

−0.

50.

00.

5

0 500 1000 1500 2000

−0.

50.

00.

5

0 500 1000 1500 2000

−0.

50.

00.

5

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 21

Page 23: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• B-Spline-Schatzungen fur variierende Anzahlen von Basisfunktionen:

0 500 1000 1500 2000

−0.

50.

00.

5

5 Basisfunktionen

0 500 1000 1500 2000

−0.

50.

00.

5

10 Basisfunktionen

0 500 1000 1500 2000

−0.

50.

00.

5

20 Basisfunktionen

0 500 1000 1500 2000

−0.

50.

00.

5

40 Basisfunktionen

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 22

Page 24: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Die Schatzungen hangen stark von der Anzahl der Basisfunktionen ab.

⇒ Erganze das Kleinste-Quadrate-Kriterium um einen Regularisierungs-Term derraue Funktionsschatzungen bestraft.

• Haufiger Ansatz: Bestrafung der quadrierten zweiten Ableitung

pen(f) = λ

∫(f ′′(x))2dx.

• Der Glattungsparameter λ bestimmt den Einfluss der Regularisierung auf dieSchatzung

⇒ Die Schatzung des Glattungsparameters ist die eigentliche Schwierigkeit.

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 23

Page 25: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

0 500 1000 1500 2000

−0.

50.

00.

5

λ=0.001

0 500 1000 1500 2000

−0.

50.

00.

5

λ=1

0 500 1000 1500 2000

−0.

50.

00.

5

λ=50

0 500 1000 1500 2000

−0.

50.

00.

5

λ=1000

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 24

Page 26: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Nichtlineare Modellierung

• Optimale Schatzung fur die Temperatur-Rekonstruktionen:

0 500 1000 1500 2000

−1.

0−

0.5

0.0

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 25

Page 27: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung

Thomas Kneib Fazit

Fazit

• Die Arbeit von Statistikern ist gepragt durch eine Kombination aus Kenntnissen in

– Mathematik (Abstraktion, Modellierung),

– Informatik (Programmieren, wissenschaftliches Rechnen)

– Anwendungsgebieten (Lebens-, Natur- und Wirtschaftswissenschaften, etc.).

• Aufgabe eines modernen Statistikers: Den Rohstoff Daten zu Wissen und Erkenntnisveredeln.

• Statistik – die wissenschaftliche Disziplin der verantwortungsvollen Datenanalyse.

• New York Times (5.8.2009): “the sexy job in the next 10 years will be statisticians”(Hal Varian, Chef-Okonom von Google).

• A place called home:

http://www.staff.uni-oldenburg.de/thomas.kneib

Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 26