analysis of variance (anova) 1/2 - stat.ethz.chย ยท anova = spezialfall einer linearen regression g...

21
| | Seminar fรผr Statistik 16.10.2014 Markus Kalisch 1 ANalysis Of VAriance (ANOVA) 1/2

Upload: others

Post on 30-Oct-2019

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 1

ANalysis Of VAriance (ANOVA) 1/2

Page 2: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und

Placebo (Faktor). Gibt es einen sign. Unterschied in der

Wirkung (kontinuierlich)?

๐‘Œ ~ ๐‘‹ + ๐œ€

ANOVA 2: Zwei Medikamente zur Blutdrucksenkung,

Placebo (Faktor) und Geschlecht (Faktor). Gibt es einen

sign. Unterschied in der Wirkung (kontinuierlich) (evtl.

geschlechterspezifisch)?

๐‘Œ ~ ๐‘‹1 + ๐‘‹2 + ๐œ€

16.10.2014((Vorname Nachname)) 2

ANOVA - Idee

1-weg ANOVA

2-weg ANOVA

Page 3: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

ANOVA = ยซVarianzanalyseยป

Macht Aussagen รผber Mittelwerte (analysiert dazu

Varianzen)

ANOVA = Spezialfall einer Linearen Regression

๐‘˜๐‘œ๐‘›๐‘ก. ๐‘‰๐‘Ž๐‘Ÿ๐‘–๐‘Ž๐‘๐‘™๐‘’ ~ ๐‘ญ๐’‚๐’Œ๐’•๐’๐’“๐’†๐’ + ๐น๐‘’โ„Ž๐‘™๐‘’๐‘Ÿ

Verallgemeinerung des t-Test (2 Gruppen โ†’ viele

Gruppen)

Historisch: Sehr verbreitet; heute: Immer noch extrem

verbreitet

16.10.2014Markus Kalisch 3

ANOVA: Mรถgliche Missverstรคndnisse

Page 4: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 4

Wdh: Ungepaarter t-Test

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

10

M P

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

-50

5

M P

D

๐œŽ

๐œŽD

๐‘ก โ‰ˆ๐ท

๐œŽ; ๐‘“๐‘Ž๐‘™๐‘™๐‘  ๐ป0 ๐‘ ๐‘ก๐‘–๐‘š๐‘š๐‘ก: ๐‘ก โˆผ ๐‘ก๐‘›โˆ’1 โ‰ˆ ๐‘(0,1)

D: โ€œStreuungโ€ zwischen MW (โ€œSignalโ€)

๐œŽ: โ€œStreuungโ€ um MW (โ€œFehlerโ€)

Page 5: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 5

ANOVA: Idee

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Streuung zwischen Gruppen:

โ€œBetween-Sum-of-Squaresโ€ (๐‘†๐‘†๐ต)RSS der Gruppenmittelwerte (rote Kreuze)

um den totalen Mittelwert (blaue Linie)

๐‘†๐‘†๐ต = ๐‘ โˆ—

๐‘–=1

๐‘”

๐‘Œ๐‘–. โˆ’ ๐‘Œ..2

Streuung innerhalb Gruppen:

โ€œWithin-Sum-of-Squaresโ€ (๐‘†๐‘†๐‘Š)

RSS der Einzelbeobachtungen

(schwarze Kreise) um die einzelnen

Mittelwerte (rote Kreuze)

๐‘†๐‘†๐‘Š =

๐‘–=1

๐‘”

๐‘—=1

๐‘

๐‘Œ๐‘–๐‘— โˆ’ ๐‘Œ๐‘–.2

๐‘”: ๐ด๐‘›๐‘ง๐‘Žโ„Ž๐‘™ ๐บ๐‘Ÿ๐‘ข๐‘๐‘๐‘’๐‘› 3๐‘: ๐ด๐‘›๐‘ง๐‘Žโ„Ž๐‘™ ๐ต๐‘’๐‘œ๐‘. ๐‘๐‘Ÿ๐‘œ ๐บ๐‘Ÿ๐‘ข๐‘๐‘๐‘’ 10Ann: ๐‘ in jeder Gruppe gleich

๐‘Œ3.

๐‘Œ2.๐‘Œ1. ๐‘Œ..

Teststatistik โ‰ˆ๐‘†๐‘†๐ต

๐‘†๐‘†๐‘Š

Page 6: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

In welchem Bild ist die Teststatistik der ANOVA grรถsser ?

16.10.2014Markus Kalisch 6

ANOVA: Teststatistik

A

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

B

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

Page 7: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

๐‘Œ๐‘–๐‘— = ๐œ‡ + ๐›ผ๐‘– + ๐œ€๐‘–๐‘— , ๐œ€๐‘–๐‘— ~ ๐‘ 0, ๐œŽ2 ๐‘–๐‘–๐‘‘

Technische Nebenbedingung: ๐‘–=1๐‘”๐›ผ๐‘– = 0

๐ป0: ๐›ผ1 = ๐›ผ2 = โ‹ฏ = ๐›ผ๐‘” = 0

Teststatistik: ๐‘‡ =๐‘†๐‘†๐ต/(๐‘”โˆ’1)

๐‘†๐‘†๐‘Š/(๐‘”โˆ— ๐‘โˆ’1 )=๐‘€๐‘†๐ต

๐‘€๐‘†๐‘Š

Theorie: Falls ๐ป0 stimmt

๐‘‡ ~ ๐น๐‘”โˆ’1,๐‘”โˆ— ๐‘โˆ’1

Damit kann ein Hypothesentest mit den รผblichen 6

Schritten durchgefรผhrt werden

16.10.2014Markus Kalisch 7

ANOVA: Modell

โ€œMean Squaresโ€

โ€œDegrees of freedom (Df)โ€

โ€œAnalyse der

Varianzenโ€

Page 8: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Angenommen: ๐‘๐‘– ~ ๐‘ 0,1 , ๐‘– = 1,โ€ฆ๐‘› alle unabhรคngig

๐ด =

๐‘–=1

๐‘›

๐‘๐‘–2

Chi-Quadrat-Verteilung mit ๐‘› Freiheitsgraden: A ~ ๐‘‹๐‘› Angenommen: ๐ด ~ ฮง๐‘›, ๐ต ~ ฮง๐‘š unabhรคngig

๐‘„ =๐ด/๐‘›

๐ต/๐‘š

F-Verteilung mit ๐‘› und ๐‘š Freiheitsgraden ๐‘„ ~ ๐น๐‘›;๐‘š

16.10.2014Markus Kalisch 8

Exkurs: Verteilungen

Page 9: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 9

Beispiel in R: ANOVA-Tabelle

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

๐‘” = 3, ๐‘ = 10

๐‘” โˆ’ 1 = 2g*(p-1)=27

๐‘†๐‘†๐ต = 872.3๐‘†๐‘†๐‘Š = 642.1

๐‘€๐‘†๐ต =872.3

2= 436.1

๐‘€๐‘†๐‘Š =642.1

27= 23.8

๐น =436.1

23.8= 18.34

Page 10: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Falls ANOVA signifikant: Zwischen welchen Gruppen sind

signifikante Unterschiede ?

โ†’ t-Tests fรผr alle Gruppenpaare

Problem: Multiples Testen

Bei ๐‘› Gruppen gibt es ๐‘›2=๐‘›(๐‘›โˆ’1)

2t-Tests

Bsp: ๐‘› = 20 โ†’ 190 Tests auf 5%-Niveau

Kรถnnten etwa 0.05 โˆ— 190 โ‰ˆ 10 falsch positive Tests haben

Lรถsung: t-Test korrigieren (z.B. Bonferroni, โ€ฆ)

16.10.2014Markus Kalisch 10

Wo ist der Unterschied ?

Teil 1: Paarweise Tests

Page 11: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Vorteil:

- Vertrauensintervalle fรผr Differenzen der

Gruppenmittelwerte

- Wa., dass alle wahren Differenzen in den

Vertrauensintervallen liegen: 95%

Alternative zum paarweisen t-Test

Empfehlung: Tukey HSD verwenden

16.10.2014Markus Kalisch 11

Beliebte Alternative bei ANOVA:Tukeyโ€™s Honestly Significant Difference (HSD) Test

Page 12: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 12

Beispiel in R: TukeyHSD

-15 -10 -5 0 5 10

P-M

2P

-M1

M2

-M1

95% family-wise confidence level

Differences in mean levels of g Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0M1 M2 P

M2 ist deutlich wirksamer als M1

M1 und M2 sind deutlich

wirksamer als Placebo

Page 13: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Bisher: Differenz von zwei Gruppen

Jetzt: Linearkombination von beliebigen Gruppen

Bsp: Sind die beiden Medikamente im Mittel besser als

das Placebo ?

16.10.2014Markus Kalisch 13

Wo ist der Unterschied ?

Teil 2: Allgemeine Kontraste

Page 14: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Vektor mit wahren

Gruppenmittelwerten:

๐œ‡ = ๐œ‡๐‘€1, ๐œ‡๐‘€2, ๐œ‡๐‘ƒ๐‘‡

Kontraste-Matrix ๐พ

Parameter-Vektor ๐‘š

๐ป0: ๐พ โˆ— ๐œ‡ = ๐‘š

Praxis: Benutzer definiert ๐พ und ๐‘š; Computer berechnet

p-Werte fรผr Hypothesen und korrigiert fรผr mult. Testen

16.10.2014Markus Kalisch 14

Kontraste: Notation

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Page 15: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

(Alternative zu TukeyHSD)

16.10.2014Markus Kalisch 15

Konstraste โ€“ Bsp 1: Paarweise Vergleiche

K ๐œ‡ m

๐œ‡๐‘€2 โˆ’ ๐œ‡๐‘€1 = 0๐œ‡๐‘ƒ โˆ’ ๐œ‡๐‘€1 = 0๐œ‡๐‘ƒ โˆ’ ๐œ‡๐‘€2 = 0

Page 16: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Funktion โ€˜glhtโ€™ (General Linear Hypotheses Test) im

package โ€˜multcompโ€™

16.10.2014Markus Kalisch 16

Kontraste โ€“ Bsp 1: R

Approx. 95%-VI fรผr Unterschied M1 vs. M2:

5.67 ยฑ 2 โˆ— 2.181

Page 17: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 17

Kontraste โ€“ Bsp 2:

Gruppe der Medikamente vs. Placebo

0.5 โˆ— ๐œ‡๐‘€1 + 0.5 โˆ— ๐œ‡๐‘€2 โˆ’ ๐œ‡๐‘ƒ = 0๐œ‡๐‘€2 โˆ’ ๐œ‡๐‘€1 = 0

Medikamente vs. Placebo

Medikamente untereinander

Page 18: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik 16.10.2014Markus Kalisch 18

Kontraste โ€“ Bsp 2: R

Die Medikamente sind deutlich

wirksamer als Placebo

M2 ist deutlich wirksamer als M1

Page 19: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Angenommen, es gibt zwei Medikamente (M1, M2) und

auch zwei mรถgliche Formen von Placebo (P1, P2). Folgende

Matrix ist dann eine mรถgliche Kontrastmatrix fรผr die

Vergleiche:

(M1, M2) vs. (P1, P2)

M1 vs. M2

P1 vs. P2

16.10.2014Markus Kalisch 19

Kontraste

โ€ข Ja

โ€ข Nein

Page 20: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

Wenige Kontraste โ†’ viel Macht

Software: Korrektur fรผr multiples Testen innerhalb von

einem Funktionsaufruf (aber nicht bei mehreren

Funktionsaufrufen mit verschiedenen Kontrasten)

Deshalb: Einen Satz von Kontrasten definieren, dann

auswerten; anschliessend keinen neuen Satz von

Kontrasten mehr untersuchen

16.10.2014Markus Kalisch 20

Grundregeln fรผr Kontraste

Page 21: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chย ยท ANOVA = Spezialfall einer Linearen Regression G K J P.๐‘‰ ๐‘– ~๐‘ญ๐’‚๐’Œ๐’• ๐’“๐’† + โ„Ž N Verallgemeinerung des t-Test

||Seminar fรผr Statistik

๐‘Œ๐‘–๐‘— = ๐œ‡ + ๐›ผ๐‘– + ๐œ€๐‘–๐‘— , ๐œ€๐‘–๐‘— ~ ๐‘ 0, ๐œŽ2 ๐‘–๐‘–๐‘‘

1. Daten in jeder Gruppe normalverteilt

2. Gleiche Varianz in Gruppen

3. Unabhรคngige Fehler ๐œ€๐‘–๐‘—

In R: Funktion โ€œplotโ€ wie bei Linearer Regression

Vorteil: โ€œBalanciertes Experimentโ€ (gleiche Anzahl pro Gruppe):

ANOVA ist robuster gegen Abweichungen obiger Annahmen

16.10.2014Markus Kalisch 21

Residuenanalyse bei ANOVA