27.05.2009
1
methodenlehre ll – Grenzen des Signifikanztests
• Möglichkeiten und Grenzen des Signifikanztests
Thomas Schäfer | SS 2009 1
methodenlehre ll – Grenzen des Signifikanztests
Sie haben zur Untersuchung Ihrer Fragestellung eine Experimental‐ und eine Kontrollgruppe mit jeweils 20 Teilnehmern verglichen Zur statistischen Auswertung
Grenzen des Signifikanztests
Teilnehmern verglichen. Zur statistischen Auswertung benutzen sie einen t‐Test für unabhängige Mittelwertsunterschiede und finden: t(18) = 2,7, p = .01 (gerundet). Bitte überlegen Sie, welche der folgenden Aussagen richtig und welche falsch sind.
Thomas Schäfer | SS 2009 2
27.05.2009
2
methodenlehre ll – Grenzen des Signifikanztests
a) Sie haben bewiesen, dass die Nullhypothese (kein Unterschied zwischen den Populationsmitteln) nicht stimmt
b) Sie haben die Wahrscheinlichkeit dafür gefunden, dass die
Grenzen des Signifikanztests
) gNullhypothese wahr ist.
c) Sie haben bewiesen, dass Ihre Alternativhypothese (es gibt einen Unterschied zwischen den Populationsmitteln) stimmt.
d) Sie können die Wahrscheinlichkeit dafür ableiten, dass die Alternativhypothese richtig ist.
e) Sie kennen die Wahrscheinlichkeit dafür, dass Sie eine falsche Entscheidung treffen, wenn Sie sich entscheiden, die Nullhypothese zu verwerfen
Thomas Schäfer | SS 2009
Nullhypothese zu verwerfen.f) Sie haben einen reliablen experimentellen Befund in dem Sinne,
dass Sie, wenn das Experiment sehr oft repliziert würde, in ungefähr 99% der Fälle ein signifikantes Resultat erhalten würden.
3
methodenlehre ll – Grenzen des Signifikanztests
Die Rolle der Statistik im Forschungsprozess
Wundern, Raten, Fragen
TheorieTheorie
Forschungshypothese
Operationalisierung
Durchführung der Studie und Messung
Daten
Auswertung
Deskriptive StatistikStichprobendaten darstellenund beschreiben durch:• Kennwerte• Grafiken und Tabellen
Explorative StatistikMuster in Daten erkennen und beschreiben
Thomas Schäfer | SS 2009 4
Interpretation
Implikation für die Theorie
Beantworten der Fragen
InferenzstatistikStichprobendaten auf diePopulation verallgemeinern
27.05.2009
3
methodenlehre ll – Grenzen des Signifikanztests
• Was sagen die Daten zu meiner Theorie / Fragestellung?
• Wie überzeuge ich die Fachkollegen von meiner Interpretation?
Die Rolle der Statistik im Forschungsprozess
Ein überzeugendes Argument sollte die MAGIC-Kriterien erfüllen
(nach R. P. Abelson,1995: „Statistics as principled argument“)
• Magnitude (Größe von Effekten)
• Articulation (Detailgenauigkeit)Effektgrößen
z.B. Kontrastanalysen
Thomas Schäfer | SS 2009
• Generality (Breite der Schlussfolgerungen)
• Interestingness (Potential für Meinungsänderung)
• Credibility (Methodik, theoretische Kohärenz)
5
z.B. Metaanalysen
inhaltliche Wichtigkeit
Sauberkeit der
Durchführung
methodenlehre ll – Grenzen des Signifikanztests
Die Rolle der Statistik im Forschungsprozess
wird durch Standardisierung anhand der Streuungen zur
Effektgröße
drei mögliche inferenzstatistischeAussagen:
Verteilungmöglicher
Effekt
Effektgröße
1. Schätzung des Standardfehlersdes Effektes anhand dessen Stichprobenverteilung
2. Angabe eines Konfidenzintervallsfür den Effekt anhand dessen Stichprobenverteilung
Verteilung möglicher Effekte in der Population
Verteilung möglicher Effekte in der Population
se
sA sB
Thomas Schäfer | SS 2009 6
3. Berechnung der Prüfgröße t und Prüfen auf Signifikanzmit Hilfe der t‐Verteilung (p < α?)
Verteilung der Prüfgröße t, falls die H0 zutrifft
α p
zwei unabhängige Stichproben: Ngesamt wird aufgeteilt in nA und nB
27.05.2009
4
methodenlehre ll – Grenzen des Signifikanztests
Hauptaussage einer Studie: der Effektik 4
5
ik 4
5
ik 4
5
A B C
GeschlechtMänner Frauen
Rat
ing
für K
lass
0
1
2
3
GeschlechtMänner Frauen
Rat
ing
für K
lass
i0
1
2
3
GeschlechtMänner Frauen
Rat
ing
für K
lass
i
0
1
2
3
Balkendiagramme mit SD Balkendiagramme mit se Fehlerplots
Thomas Schäfer | SS 2009 7
Die Effekte werden durch Standardisierung anhand der Streuungen zur Effektgröße
methodenlehre ll – Grenzen des Signifikanztests
Rückblick: wie entstehen Stichprobenverteilungen?
en 2
30
35
Häufigkeitsverteilungen
StichprobenverteilungStudie 1
M u s ik s tilR o ck R a p K la ss ik
Anz
ahl P
erso
ne
0
5
10
15
20
25
1 2 3 4 5Rating für Klassik
nen
2 5
3 0
3 5
Anza
hl S
tichp
robe
n
0
5
10
15
20
25
30
35
Studie 2
Thomas Schäfer | SS 2009 8
M u s iks tilR o ck R ap K la ss ik
Anza
hl P
erso
n
0
5
1 0
1 5
2 0
1 2 3 4 5Rating für Klassik
MusikstilRock Rap Klassik
0
1 2 3 4 5Rating für Klassik
usw.
27.05.2009
5
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen I: Der Standardfehler
StichprobenverteilungAn
zahl
Stic
hpro
ben
5
10
15
20
25
30
35
0,6se
Thomas Schäfer | SS 2009 9
MusikstilRock Rap Klassik
0
1,8 2,4 3 3,6 4,2Rating für Klassik
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen II: Konfidenzintervalle
z.B. für einen empirischen Mittelwertsunterschied von 10 Punkten in einem Test
95%‐Konfidenzintervall90%‐Konfidenzintervall
Thomas Schäfer | SS 2009 10
empirischer Wert
‐10 0 10 20 30
empirischer Wert
‐10 0 10 20 30
der Wert 0 wird nicht überdeckt der Wert 0 wird überdeckt
27.05.2009
6
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen III: Signifikanztests
„Früher” Fisher (1935) „Später” Fisher (1956) Neyman und Pearson
Das Signifikanz‐niveau muss vorder Durchführung des Tests bestimmt werden (im Sinne einer Konvention, z. .B. α = 5%).Das Signifikanz
Das exakte Signifikanz‐niveau muss nachDurchführung des Tests berechnet werden(p‐Wert).Nun ist das Signifikanz‐niveau eine Eigenschaft der Daten Eine
α und βmüssen vor der Durchführung des Tests festgelegt werden. α und βsind die relativen Häufigkeiten eines Fehlers der ersten oder zweiten Art und deshalb Eigenschaften des Tests Für das Festlegen
Thomas Schäfer | SS 2009 11
Das Signifikanz‐niveau ist also eine Eigenschaft des Tests.
der Daten. Eine (willkürlich festgelegte) Konvention ist nicht mehr notwendig.
des Tests. Für das Festlegen von α und β ist keine Konvention nötig, sondern eine Kosten‐Nutzen Überlegung zu den möglichen Fehlern.
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Fisher
Irrtumswahrscheinlichkeit Alpha (= Signifikanzniveau) liegt bei 5% das Alpha
Wert x, den man noch mit einer bestimmten Wahrscheinlichkeit p
Erwartungswert ist immer 0, das ist der ahrscheinlichste Wert
0
H0
Thomas Schäfer | SS 2009 12
empirischer Wert mit p = 3% ist signifikant
0
H0liegt bei 5%, das Alpha‐Niveau schneidet daher 5% der Fläche der Verteilung ab
empirischer Wert mit p = 6% ist nicht signifikant
Wahrscheinlichkeit pziehen kann
wahrscheinlichste Wert
27.05.2009
7
methodenlehre ll – Grenzen des Signifikanztests
1. Formuliere eine Nullhypothese und konstruiere die entsprechende Stichprobenverteilung.
2. Formuliere eine Alternativhypothese und konstruiere die
Der Signifikanztest nach Neyman & Pearson
2. Formuliere eine Alternativhypothese und konstruiere die entsprechende Stichprobenverteilung.
3. Wäge die Wichtigkeit von α und β ab.
4. Prüfe, ob der p‐Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner als α ist.
5. Wenn der p‐Wert nicht größer als α ist, dann ist das Ergebnis des Tests signifikant ansonsten ist es nicht signifikant
Thomas Schäfer | SS 2009
Tests signifikant, ansonsten ist es nicht signifikant.
6. Wenn das Ergebnis signifikant ist, verhalte Dich so, wie wenn die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, wie wenn die Nullhypothese zuträfe.
13
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Neyman & Pearson
H0 H1
Effekt
H0 H1
Beta‐Fehler Alpha‐Fehler0
H0 H1
Effekt
Thomas Schäfer | SS 2009 14
Beta‐Fehler Alpha‐Fehler0
Alpha‐Niveau = 5%
27.05.2009
8
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Neyman & Pearson
Thomas Schäfer | SS 2009 15
methodenlehre ll – Grenzen des Signifikanztests
• Effekt in der Population
Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests?
ff pje größer, desto eher signifikant
• Abwägung von α und βα: je größer, desto eher signifikantβ: je kleiner, desto eher signifikant(α und β sind komplementär)
Thomas Schäfer | SS 2009
• Stichprobengrößeje größer, desto eher signifikant
16
27.05.2009
9
methodenlehre ll – Grenzen des Signifikanztests
Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests?
größereStichproben
größerer Populationseffekt
H0 H1
Effekt
H0 H1
Effekt
Thomas Schäfer | SS 2009 17
Beta‐Fehler Alpha‐Fehler0
Alpha‐Niveau = 5%
Beta‐Fehler Alpha‐Fehler0
Alpha‐Niveau = 5%
methodenlehre ll – Grenzen des Signifikanztests
Effekt in der PopulationErgebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Eingetragen sind α‐
d β F hl d d K it i (d
Stichprobenverteilungen für H0 = 50%, H1 = 90% und n = 10
und β‐Fehler und das Kriterium (der senkrechte Strich). Bei einer Trefferrate von 7 aus 10 ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α.
Thomas Schäfer | SS 2009 1818
1(Binomialtest). Bei einem α von 5,5% (Summe der hellen schraffierten Balken) beträgt β 6,9% (Summe der dunklen schraffierten Balken) und die Power (1‐β) 93,1%.
27.05.2009
10
methodenlehre ll – Grenzen des Signifikanztests
Abwägung von α und β
Stichprobenverteilungen für H0 = 30%, H1 = 40%und n = 20 (Binomialtest)und n 20 (Binomialtest). Bei einem α von 39,1% (Summe der hellen schraffierten Balken) beträgt β 24,9% (Summe der dunklen schraffierten Balken) und die Power (1‐β) 75,1%. Bei einem
Thomas Schäfer | SS 2009 19
empirischen Ergebnis von 40% resultiert ein p‐Wert von 22,7%. Das Ergebnis ist signifikant, da p ≤ α.
methodenlehre ll – Grenzen des Signifikanztests
Stichprobengröße
Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Bei α = 5,5% und
Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 40
einem Ergebnis von 70% (7 aus 10) ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α.
Thomas Schäfer | SS 2009 2020
(Binomialtest). Bei α = 4% und einem Ergebnis von 70% (28 von 40) resultiert p = 0,8%. Der Test ist signifikant, da p ≤ α.
27.05.2009
11
methodenlehre ll – Grenzen des Signifikanztests
• Konkretisierung der Forschungsfrage‐ wie groß muss der Effekt mindestens sein, damit er inhaltlich interessant ist?
Wozu braucht man die Alternativhypothese?
interessant ist?‐ welchen Populationseffekt legen die Ergebnisse aus vorhergehenden Studien nahe?
• Vor dem Test ‐ ist Power zu groß oder zu gering?‐ wie groß sollte die Stichprobe sein?
• Nach dem Test: Interpretation des Ergebnisses
Thomas Schäfer | SS 2009
• Nach dem Test: Interpretation des Ergebnisses‐ was war die Wahrscheinlichkeit, den angenommenen Effekt zu entdecken? (besonders wichtig, wenn Nullhypothese mit Forschungshypothese korrespondiert!)
21
methodenlehre ll – Grenzen des Signifikanztests
Einseitiges vs. zweiseitiges Testen
einseitiger Test mit Alpha = 5% zweiseitiger Test mit Alpha = 5%
0
H05%
0
H02,5%2,5%
Thomas Schäfer | SS 2009 22
nur relevant bei Fragestellungen, die in beide Richtungen gehen können (z.B. Mittelwertsunterschiede)
nicht bei Häufigkeiten, Varianzen u.ä.
27.05.2009
12
methodenlehre ll – Grenzen des Signifikanztests
• sind Indikatoren für die Größe eines Effekts.
• erlauben eine Abschätzung der Wahrscheinlichkeit, dass die llh h / l h h ff
Beliebte Missinterpretationen von p‐Werten
Nullhypothese/Alternativhypothese zutrifft.
• sind „Irrtumswahrscheinlichkeiten“, das heißt, wenn man sich auf Grund des p‐Werts dafür entscheidet, die Nullhypothese zu verwerfen, kennt man die Wahrscheinlichkeit, dass man dabei einen Fehler macht.
• erlauben eine Abschätzung der Wahrscheinlichkeit, dass ein
Thomas Schäfer | SS 2009
Ergebnis replizierbar ist.
• erlauben es, zu entscheiden, ob ein Ergebnis zufällig zustande kam.
23
methodenlehre ll – Grenzen des Signifikanztests
Warum ist p kein Indikator für Effektgröße?
p‐Werte verändern sich bei konstantem Effekt (z. B. r, d) wenn die Stichprobengröße sich ändert
Beliebte Missinterpretationen von p‐Werten
Stichprobengröße sich ändert
Warum kann man mit p die Wahrscheinlichkeit der Hypothese nicht abschätzen?
p(Ergebnis|H0), nicht p(H0|Ergebnis) oder p(H1|Ergebnis)
keine Aussagen über die Wahrscheinlichkeit von Hypothesen möglich!
i i h di h h i li hk i ?
Thomas Schäfer | SS 2009
Warum ist p nicht die Irrtumswahrscheinlichkeit?
Irrtumswahrscheinlichkeit wird vor dem Test festgelegt (α)
p wird hingegen erst nach dem Test berechnet; er ist ein „Produkt“ der Daten, α ist eine Eigenschaft des Tests
24
27.05.2009
13
methodenlehre ll – Grenzen des Signifikanztests
Warum ist p kein Indikator für Replizierbarkeit ?
Replizierbarkeit hängt von Teststärke (Power) ab, und die wiederum
Beliebte Missinterpretationen von p‐Werten
von n, der Effektgröße und α (nicht von p)
Warum ist p nur bedingt ein Indikator für die Zufälligkeit des Ergebnisses ?
Zufällig: es ist kein Populationseffekt vorhanden, aber durch Zufallseinflüsse beim Ziehen der Stichprobe erhält man den in dieser Stichprobe gefundenen Effekt
Thomas Schäfer | SS 2009
Nicht mehr zufällig: ein Ergebnis, das unter der Gültigkeit der Nullhypothese unwahrscheinlicher ist als das durch α festgelegte Kriterium, also p < α
Problem: H0 oft völlig unplausibel
25
methodenlehre ll – Grenzen des Signifikanztests
Gut geeignet:
• wenn man wenig über ein Gebiet weiß und schnell (und kostengünstig) zu einer JA/NEIN Entscheidung (Handlungsentscheidung) kommen
Möglichkeiten und Grenzen des Signifikanztests
zu einer JA/NEIN‐Entscheidung (Handlungsentscheidung) kommen möchte
• (z. B. zeitkritischer Einsatz oder Nichteinsatz eines neuen Medikaments oder einer neuen Therapieform, Entscheidung über betriebliche Intervention, etc.)
Powerberechnung sehr wichtig, p‐Werte berichten (anstatt ***)
Nicht so notwendig
Thomas Schäfer | SS 2009
Nicht so notwendig:
• für Aussagen über die Größe oder Bedeutsamkeit von Effekten
• für Bewertung umfangreicher Forschungstraditionen
Evtl. problematisch:
• Beim Start neuer Forschungsvorhaben (Power‐Problematik)
26
27.05.2009
14
methodenlehre ll – Grenzen des Signifikanztests
Ergebnisse von Signifikanztests sind hilfreich bei der Berechnung von Effektgrößen
l
Pragmatische Bedeutsamkeit
Faustregel:
2 2t Ft
Effektgröße =Signifikanztestergebnis
Größe der Studie
Thomas Schäfer | SS 2009 27
x)F(1,für , und und 22
2
dft
t
withinFFr
dfr
dftd
+=
+==
methodenlehre ll – Grenzen des Signifikanztests
Eine Reporterin für ein monatlich erscheinendes Frauenmagazin möchte einen Artikel über Brustkrebs schreiben. Ein Teil ihrer Recherche besteht darin, zu klären, wie sicher die Mammographie als Diagnosemittel für diese Krankheit ist. Sie fragt
h kl h b d b ß
Exkurs: Wahrscheinlichkeiten von Hypothesen
sich, was es wirklich bedeutet, wenn eine Frau bei einer routinemäßigen Mammographie ein positives Testergebnis hat. Die Reporterin hat folgende Daten zur Verfügung:
• Die Wahrscheinlichkeit, dass eine Frau, die sich einer Mammographie unterzieht, Brustkrebs hat, liegt bei 1%.
• Wenn eine Frau, die Brustkrebs hat, sich einer Mammographie unterzieht, ist die Wahrscheinlichkeit für ein positives Ergebnis 80%.
Thomas Schäfer | SS 2009
• Wenn eine Frau, die keinen Brustkrebs hat, sich einer Mammographie unterzieht, liegt die Wahrscheinlichkeit für ein positives Ergebnis bei 10%.
28
Gesucht: Wahrscheinlichkeit der Hypothese „Brustkrebs“ bei positivem Testergebnis
27.05.2009
15
methodenlehre ll – Grenzen des Signifikanztests
Exkurs: Wahrscheinlichkeiten von Hypothesen
Thomas Schäfer | SS 2009 29
Gegeben:Wahrscheinlichkeit von Brustkrebs: 1%Wahrscheinlichkeit für positives Testergebnis wenn Brustkrebs: 80%Wahrscheinlichkeit für positives Testergebnis wenn kein Brustkrebs: 10%Gefragt: Wahrscheinlichkeit von Brustkrebs, wenn Testergebnis positiv: %5,7
9988
≈+
methodenlehre ll – Grenzen des Signifikanztests
Wahrscheinlichkeitsrevision: eine besondere Form von bedingten Wahrscheinlichkeiten (einfachste Form der Bayes‐Statistik)
Exkurs: Wahrscheinlichkeiten von Hypothesen
( ))|()()|()(
)|()(|HDpHpHDpHp
HDpHpDHp¬×¬+×
×=
Gegeben:P(H): Wahrscheinlichkeit von Brustkrebs: 1% P(D|H): Wahrscheinlichkeit für positives Testergebnis wenn Brustkrebs: 80%(p(D|¬H): Wahrscheinlichkeit für positives Testergebnis wenn kein Brustkrebs:
Thomas Schäfer | SS 2009 30
10%Gefragt: P(H|D): Wahrscheinlichkeit von Brustkrebs, wenn Testergebnis positiv
Problem: die Basisrate muss bekannt sein
27.05.2009
16
methodenlehre ll – Grenzen des Signifikanztests
1. Signifikanztestergebnis vs. Idealfall• Signifikanztest: fragt nach der Passung von (im Normalfall unbekannten)
Populationsparametern zu theoretisch erwarteten (geschätzten
Fazit: Signifikanztests in der wissenschaftlichen Argumentation
Populationsparametern zu theoretisch erwarteten (geschätzten, vorhergesagten) Werten
• Idealfall: wir kennen die wahren Populationsparameter
• aber: auch die Kenntnis des Idealfalls sagt noch nichts über die Bedeutsamkeit von Effekten aus
• es kommt allein auf inhaltliche Erwägungen an
• Signifikanz ≠ Bedeutsamkeit
Thomas Schäfer | SS 2009
2. Bezug zur Falsifikationsstrategie• Signifikanztest ist keine natürliche Konsequenz des Falsifikationskriteriums
31
methodenlehre ll – Grenzen des Signifikanztests
3. „Harte“ vs. „weiche“ Evidenz• harte Fächer mit eindeutigen Daten:
Natürwissenschaften
Fazit: Signifikanztests in der wissenschaftlichen Argumentation
Natürwissenschaften
• weiche Fächer: Sozialwissenschaften
• der Signifikanztest ist gerade kein Indikator für die Härte von Evidenzen: je härten ein Fach, desto eher werden Abbildungen benutzt und desto weniger Signifikanztests
Thomas Schäfer | SS 2009 32