Download - Grenzen Signifikanztests - tu-chemnitz.de · 27.05.2009 3 methodenlehre ll – Grenzen des Signifikanztests • Was sagen die Daten zu meiner Theorie / Fragestellung? • Wie überzeuge

27.05.2009

1

methodenlehre ll – Grenzen des Signifikanztests

• Möglichkeiten und Grenzen des Signifikanztests

Thomas Schäfer | SS 2009 1


Sie haben zur Untersuchung Ihrer Fragestellung eine Experimental‐ und eine Kontrollgruppe mit jeweils 20 Teilnehmern verglichen Zur statistischen Auswertung

Grenzen des Signifikanztests

Teilnehmern verglichen. Zur statistischen Auswertung benutzen sie einen t‐Test für unabhängige Mittelwertsunterschiede und finden: t(18) = 2,7, p = .01 (gerundet). Bitte überlegen Sie, welche der folgenden Aussagen richtig und welche falsch sind.


27.05.2009

2


a) Sie haben bewiesen, dass die Nullhypothese (kein Unterschied zwischen den Populationsmitteln) nicht stimmt

b) Sie haben die Wahrscheinlichkeit dafür gefunden, dass die

Grenzen des Signifikanztests

) gNullhypothese wahr ist.

c) Sie haben bewiesen, dass Ihre Alternativhypothese (es gibt einen Unterschied zwischen den Populationsmitteln) stimmt.

d) Sie können die Wahrscheinlichkeit dafür ableiten, dass die Alternativhypothese richtig ist.

e) Sie kennen die Wahrscheinlichkeit dafür, dass Sie eine falsche Entscheidung treffen, wenn Sie sich entscheiden, die Nullhypothese zu verwerfen

Thomas Schäfer | SS 2009

Nullhypothese zu verwerfen.f) Sie haben einen reliablen experimentellen Befund in dem Sinne,

dass Sie, wenn das Experiment sehr oft repliziert würde, in ungefähr 99% der Fälle ein signifikantes Resultat erhalten würden.

3


Die Rolle der Statistik im Forschungsprozess

Wundern, Raten, Fragen

TheorieTheorie

Forschungshypothese

Operationalisierung

Durchführung der Studie und Messung

Daten

Auswertung

Deskriptive StatistikStichprobendaten darstellenund beschreiben durch:• Kennwerte• Grafiken und Tabellen

Explorative StatistikMuster in Daten erkennen und beschreiben


Interpretation

Implikation für die Theorie

Beantworten der Fragen

InferenzstatistikStichprobendaten auf diePopulation verallgemeinern

27.05.2009

3


• Was sagen die Daten zu meiner Theorie / Fragestellung?

• Wie überzeuge ich die Fachkollegen von meiner Interpretation?


Ein überzeugendes Argument sollte die MAGIC-Kriterien erfüllen

(nach R. P. Abelson,1995: „Statistics as principled argument“)

• Magnitude (Größe von Effekten)

• Articulation (Detailgenauigkeit)Effektgrößen

z.B. Kontrastanalysen


• Generality (Breite der Schlussfolgerungen)

• Interestingness (Potential für Meinungsänderung)

• Credibility (Methodik, theoretische Kohärenz)

5

z.B. Metaanalysen

inhaltliche Wichtigkeit

Sauberkeit der

Durchführung



wird durch Standardisierung anhand der Streuungen zur

Effektgröße

drei mögliche inferenzstatistischeAussagen:

Verteilungmöglicher

Effekt

Effektgröße

1. Schätzung des Standardfehlersdes Effektes anhand dessen Stichprobenverteilung

2. Angabe eines Konfidenzintervallsfür den Effekt anhand dessen Stichprobenverteilung

Verteilung möglicher Effekte in der Population

Verteilung möglicher Effekte in der Population

se

sA sB


3. Berechnung der Prüfgröße t und Prüfen auf Signifikanzmit Hilfe der t‐Verteilung (p < α?)

Verteilung der Prüfgröße t, falls die H0 zutrifft

α p

zwei unabhängige Stichproben: Ngesamt wird aufgeteilt in nA und nB

27.05.2009

4


Hauptaussage einer Studie: der Effektik 4

5

ik 4

5

ik 4

5

A B C

GeschlechtMänner Frauen

Rat

ing

für K

lass

0

1

2

3


Rat

ing

für K

lass

i0

1

2

3


Rat

ing

für K

lass

i

0

1

2

3

Balkendiagramme mit SD Balkendiagramme mit se Fehlerplots


Die Effekte werden durch Standardisierung anhand der Streuungen zur Effektgröße


Rückblick: wie entstehen Stichprobenverteilungen?

en 2

30

35

Häufigkeitsverteilungen

StichprobenverteilungStudie 1

M u s ik s tilR o ck R a p K la ss ik

Anz

ahl P

erso

ne

0

5

10

15

20

25

1 2 3 4 5Rating für Klassik

nen

2 5

3 0

3 5

Anza

hl S

tichp

robe

n

0

5

10

15

20

25

30

35

Studie 2


M u s iks tilR o ck R ap K la ss ik

Anza

hl P

erso

n

0

5

1 0

1 5

2 0


MusikstilRock Rap Klassik

0


usw.

27.05.2009

5


Inferenzstatistische Aussagen I: Der Standardfehler

StichprobenverteilungAn

zahl

Stic

hpro

ben

5

10

15

20

25

30

35

0,6se


MusikstilRock Rap Klassik

0

1,8 2,4 3 3,6 4,2Rating für Klassik


Inferenzstatistische Aussagen II: Konfidenzintervalle

z.B. für einen empirischen Mittelwertsunterschied von 10 Punkten in einem Test

95%‐Konfidenzintervall90%‐Konfidenzintervall


empirischer Wert

‐10 0 10 20 30

empirischer Wert

‐10 0 10 20 30

der Wert 0 wird nicht überdeckt der Wert 0 wird überdeckt

27.05.2009

6


Inferenzstatistische Aussagen III: Signifikanztests

„Früher” Fisher (1935) „Später” Fisher (1956) Neyman und Pearson

Das Signifikanz‐niveau muss vorder Durchführung des Tests bestimmt werden (im Sinne einer Konvention, z. .B. α = 5%).Das Signifikanz

Das exakte Signifikanz‐niveau muss nachDurchführung des Tests berechnet werden(p‐Wert).Nun ist das Signifikanz‐niveau eine Eigenschaft der Daten Eine

α und βmüssen vor der Durchführung des Tests festgelegt werden. α und βsind die relativen Häufigkeiten eines Fehlers der ersten oder zweiten Art und deshalb Eigenschaften des Tests Für das Festlegen


Das Signifikanz‐niveau ist also eine Eigenschaft des Tests.

der Daten. Eine (willkürlich festgelegte) Konvention ist nicht mehr notwendig.

des Tests. Für das Festlegen von α und β ist keine Konvention nötig, sondern eine Kosten‐Nutzen Überlegung zu den möglichen Fehlern.


Der Signifikanztest nach Fisher

Irrtumswahrscheinlichkeit Alpha (= Signifikanzniveau) liegt bei 5% das Alpha

Wert x, den man noch mit einer bestimmten Wahrscheinlichkeit p

Erwartungswert ist immer 0, das ist der ahrscheinlichste Wert

0

H0


empirischer Wert mit p = 3% ist signifikant

0

H0liegt bei 5%, das Alpha‐Niveau schneidet daher 5% der Fläche der Verteilung ab

empirischer Wert mit p = 6% ist nicht signifikant

Wahrscheinlichkeit pziehen kann

wahrscheinlichste Wert

27.05.2009

7


1. Formuliere eine Nullhypothese und konstruiere die entsprechende Stichprobenverteilung.

2. Formuliere eine Alternativhypothese und konstruiere die

Der Signifikanztest nach Neyman & Pearson

2. Formuliere eine Alternativhypothese und konstruiere die entsprechende Stichprobenverteilung.

3. Wäge die Wichtigkeit von α und β ab.

4. Prüfe, ob der p‐Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner als α ist.

5. Wenn der p‐Wert nicht größer als α ist, dann ist das Ergebnis des Tests signifikant ansonsten ist es nicht signifikant


Tests signifikant, ansonsten ist es nicht signifikant.

6. Wenn das Ergebnis signifikant ist, verhalte Dich so, wie wenn die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, wie wenn die Nullhypothese zuträfe.

13



H0 H1

Effekt

H0 H1

Beta‐Fehler Alpha‐Fehler0

H0 H1

Effekt



Alpha‐Niveau = 5%

27.05.2009

8





• Effekt in der Population

Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests?

ff pje größer, desto eher signifikant

• Abwägung von α und βα: je größer, desto eher signifikantβ: je kleiner, desto eher signifikant(α und β sind komplementär)


• Stichprobengrößeje größer, desto eher signifikant

16

27.05.2009

9


Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests?

größereStichproben

größerer Populationseffekt

H0 H1

Effekt

H0 H1

Effekt



Alpha‐Niveau = 5%


Alpha‐Niveau = 5%


Effekt in der PopulationErgebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Eingetragen sind α‐

d β F hl d d K it i (d

Stichprobenverteilungen für H0 = 50%, H1 = 90% und n = 10

und β‐Fehler und das Kriterium (der senkrechte Strich). Bei einer Trefferrate von 7 aus 10 ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α.


1(Binomialtest). Bei einem α von 5,5% (Summe der hellen schraffierten Balken) beträgt β 6,9% (Summe der dunklen schraffierten Balken) und die Power (1‐β) 93,1%.

27.05.2009

10


Abwägung von α und β

Stichprobenverteilungen für H0 = 30%, H1 = 40%und n = 20 (Binomialtest)und n 20 (Binomialtest). Bei einem α von 39,1% (Summe der hellen schraffierten Balken) beträgt β 24,9% (Summe der dunklen schraffierten Balken) und die Power (1‐β) 75,1%. Bei einem


empirischen Ergebnis von 40% resultiert ein p‐Wert von 22,7%. Das Ergebnis ist signifikant, da p ≤ α.


Stichprobengröße

Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Bei α = 5,5% und

Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 40

einem Ergebnis von 70% (7 aus 10) ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α.


(Binomialtest). Bei α = 4% und einem Ergebnis von 70% (28 von 40) resultiert p = 0,8%. Der Test ist signifikant, da p ≤ α.

27.05.2009

11


• Konkretisierung der Forschungsfrage‐ wie groß muss der Effekt mindestens sein, damit er inhaltlich interessant ist?

Wozu braucht man die Alternativhypothese?

interessant ist?‐ welchen Populationseffekt legen die Ergebnisse aus vorhergehenden Studien nahe?

• Vor dem Test ‐ ist Power zu groß oder zu gering?‐ wie groß sollte die Stichprobe sein?

• Nach dem Test: Interpretation des Ergebnisses


• Nach dem Test: Interpretation des Ergebnisses‐ was war die Wahrscheinlichkeit, den angenommenen Effekt zu entdecken? (besonders wichtig, wenn Nullhypothese mit Forschungshypothese korrespondiert!)

21


Einseitiges vs. zweiseitiges Testen

einseitiger Test mit Alpha = 5% zweiseitiger Test mit Alpha = 5%

0

H05%

0

H02,5%2,5%


nur relevant bei Fragestellungen, die in beide Richtungen gehen können (z.B. Mittelwertsunterschiede)

nicht bei Häufigkeiten, Varianzen u.ä.

27.05.2009

12


• sind Indikatoren für die Größe eines Effekts.

• erlauben eine Abschätzung der Wahrscheinlichkeit, dass die llh h / l h h ff

Beliebte Missinterpretationen von p‐Werten

Nullhypothese/Alternativhypothese zutrifft.

• sind „Irrtumswahrscheinlichkeiten“, das heißt, wenn man sich auf Grund des p‐Werts dafür entscheidet, die Nullhypothese zu verwerfen, kennt man die Wahrscheinlichkeit, dass man dabei einen Fehler macht.

• erlauben eine Abschätzung der Wahrscheinlichkeit, dass ein


Ergebnis replizierbar ist.

• erlauben es, zu entscheiden, ob ein Ergebnis zufällig zustande kam.

23


Warum ist p kein Indikator für Effektgröße?

p‐Werte verändern sich bei konstantem Effekt (z. B. r, d) wenn die Stichprobengröße sich ändert


Stichprobengröße sich ändert

Warum kann man mit p die Wahrscheinlichkeit der Hypothese nicht abschätzen?

p(Ergebnis|H0), nicht p(H0|Ergebnis) oder p(H1|Ergebnis)

keine Aussagen über die Wahrscheinlichkeit von Hypothesen möglich!

i i h di h h i li hk i ?


Warum ist p nicht die Irrtumswahrscheinlichkeit?

Irrtumswahrscheinlichkeit wird vor dem Test festgelegt (α)

p wird hingegen erst nach dem Test berechnet; er ist ein „Produkt“ der Daten, α ist eine Eigenschaft des Tests

24

27.05.2009

13


Warum ist p kein Indikator für Replizierbarkeit ?

Replizierbarkeit hängt von Teststärke (Power) ab, und die wiederum


von n, der Effektgröße und α (nicht von p)

Warum ist p nur bedingt ein Indikator für die Zufälligkeit des Ergebnisses ?

Zufällig: es ist kein Populationseffekt vorhanden, aber durch Zufallseinflüsse beim Ziehen der Stichprobe erhält man den in dieser Stichprobe gefundenen Effekt


Nicht mehr zufällig: ein Ergebnis, das unter der Gültigkeit der Nullhypothese unwahrscheinlicher ist als das durch α festgelegte Kriterium, also p < α

Problem: H0 oft völlig unplausibel

25


Gut geeignet:

• wenn man wenig über ein Gebiet weiß und schnell (und kostengünstig) zu einer JA/NEIN Entscheidung (Handlungsentscheidung) kommen

Möglichkeiten und Grenzen des Signifikanztests

zu einer JA/NEIN‐Entscheidung (Handlungsentscheidung) kommen möchte

• (z. B. zeitkritischer Einsatz oder Nichteinsatz eines neuen Medikaments oder einer neuen Therapieform, Entscheidung über betriebliche Intervention, etc.)

Powerberechnung sehr wichtig, p‐Werte berichten (anstatt ***)

Nicht so notwendig


Nicht so notwendig:

• für Aussagen über die Größe oder Bedeutsamkeit von Effekten

• für Bewertung umfangreicher Forschungstraditionen

Evtl. problematisch:

• Beim Start neuer Forschungsvorhaben (Power‐Problematik)

26

27.05.2009

14


Ergebnisse von Signifikanztests sind hilfreich bei der Berechnung von Effektgrößen

l

Pragmatische Bedeutsamkeit

Faustregel:

2 2t Ft

Effektgröße =Signifikanztestergebnis

Größe der Studie


x)F(1,für , und und 22

2

dft

t

withinFFr

dfr

dftd

+=

+==


Eine Reporterin für ein monatlich erscheinendes Frauenmagazin möchte einen Artikel über Brustkrebs schreiben. Ein Teil ihrer Recherche besteht darin, zu klären, wie sicher die Mammographie als Diagnosemittel für diese Krankheit ist. Sie fragt

h kl h b d b ß

Exkurs: Wahrscheinlichkeiten von Hypothesen

sich, was es wirklich bedeutet, wenn eine Frau bei einer routinemäßigen Mammographie ein positives Testergebnis hat. Die Reporterin hat folgende Daten zur Verfügung:

• Die Wahrscheinlichkeit, dass eine Frau, die sich einer Mammographie unterzieht, Brustkrebs hat, liegt bei 1%.

• Wenn eine Frau, die Brustkrebs hat, sich einer Mammographie unterzieht, ist die Wahrscheinlichkeit für ein positives Ergebnis 80%.


• Wenn eine Frau, die keinen Brustkrebs hat, sich einer Mammographie unterzieht, liegt die Wahrscheinlichkeit für ein positives Ergebnis bei 10%.

28

Gesucht: Wahrscheinlichkeit der Hypothese „Brustkrebs“ bei positivem Testergebnis

27.05.2009

15




Gegeben:Wahrscheinlichkeit von Brustkrebs: 1%Wahrscheinlichkeit für positives Testergebnis wenn Brustkrebs: 80%Wahrscheinlichkeit für positives Testergebnis wenn kein Brustkrebs: 10%Gefragt: Wahrscheinlichkeit von Brustkrebs, wenn Testergebnis positiv: %5,7

9988

≈+


Wahrscheinlichkeitsrevision: eine besondere Form von bedingten Wahrscheinlichkeiten (einfachste Form der Bayes‐Statistik)


( ))|()()|()(

)|()(|HDpHpHDpHp

HDpHpDHp¬×¬+×

×=

Gegeben:P(H): Wahrscheinlichkeit von Brustkrebs: 1% P(D|H): Wahrscheinlichkeit für positives Testergebnis wenn Brustkrebs: 80%(p(D|¬H): Wahrscheinlichkeit für positives Testergebnis wenn kein Brustkrebs:


10%Gefragt: P(H|D): Wahrscheinlichkeit von Brustkrebs, wenn Testergebnis positiv

Problem: die Basisrate muss bekannt sein

27.05.2009

16


1. Signifikanztestergebnis vs. Idealfall• Signifikanztest: fragt nach der Passung von (im Normalfall unbekannten)

Populationsparametern zu theoretisch erwarteten (geschätzten

Fazit: Signifikanztests in der wissenschaftlichen Argumentation

Populationsparametern zu theoretisch erwarteten (geschätzten, vorhergesagten) Werten

• Idealfall: wir kennen die wahren Populationsparameter

• aber: auch die Kenntnis des Idealfalls sagt noch nichts über die Bedeutsamkeit von Effekten aus

• es kommt allein auf inhaltliche Erwägungen an

• Signifikanz ≠ Bedeutsamkeit


2. Bezug zur Falsifikationsstrategie• Signifikanztest ist keine natürliche Konsequenz des Falsifikationskriteriums

31


3. „Harte“ vs. „weiche“ Evidenz• harte Fächer mit eindeutigen Daten:

Natürwissenschaften

Fazit: Signifikanztests in der wissenschaftlichen Argumentation

Natürwissenschaften

• weiche Fächer: Sozialwissenschaften

• der Signifikanztest ist gerade kein Indikator für die Härte von Evidenzen: je härten ein Fach, desto eher werden Abbildungen benutzt und desto weniger Signifikanztests


Download - Grenzen Signifikanztests - tu-chemnitz.de · 27.05.2009 3 methodenlehre ll – Grenzen des Signifikanztests • Was sagen die Daten zu meiner Theorie / Fragestellung? • Wie überzeuge

Top Related