toetsende statistiek week 3. statistische betrouwbaarheid & significantie toetsing m, m & c
TRANSCRIPT
![Page 1: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/1.jpg)
1
Toetsende Statistiek Week 3.
Statistische Betrouwbaarheid & Significantie Toetsing
M, M & C, Chapter 6, Introduction to Inference 6.1 Estimating with
Confidence 6.2 Tests of
Significance 6.3 Use and Abuse
of Tests
Francis Ysidro
Edgeworth
(1845-1926)
• Law of Diminishing Returns
• schreef Mathema- tical Psychics (1881)
• onwikkelde de significantie toets
![Page 2: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/2.jpg)
2
Statistische Inferentie: Hoe trekken we conclusies uit data
rekening houdend met toevalseffecten?
toetsen:hypothesemet
schatten :hypothesezonder Inferentie
� Inferentie begint met schatten. De steekproef statistiek als
indicatie voor de parameter in de populatie (het model).
estimator (schatter): procedure om parameter te schatten estimate (schatting): resultaat van de procedure in bepaald geval estimation (schatting): het schatten (bezigheid, niet het resultaat)
� Een schatting zonder indicatie van de nauwkeurigheid heeft weinig
waarde. → Bepalen van statistische betrouwbaarheid (confidence).
NB Verschil met psychometrische betrouwbaarheid (reliability).
![Page 3: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/3.jpg)
3
Steekproevenverdeling is het Basisinstrument
Stel we hebben testscores verzameld (σ = 90) in een steekproef met n = 400. De Centrale Limiet Stelling zegt dat x bij benadering
normaal verdeeld is: x ∼ N(µ, σ/√n)
• 5.4
20
90
400
90 ===xσ
• kans van 95% dat x niet meer dan 9 punten van µ af ligt. (Waarom ?)
• dus ook kans van 95% dat
µ niet verder dan 9 punten
van x af ligt
![Page 4: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/4.jpg)
4
Betrouwbaarheidsintervallen: Algemene Redenering
Elk betrouwbaarheidsinterval bestaat uit 2 stukken:
puntschatting ± foutenmarge
• Het interval heeft de vorm (a, b)
waarbij a en b uit de data
worden berekend.
• Kansuitspraak zegt wat er zou
kunnen gebeuren bij herhaald
sampelen: in 95% (of 99%) van
de gevallen zal µ inderdaad
binnen de marges vallen
• Dit is betrouwbaarheidsnivo C.
![Page 5: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/5.jpg)
5
Betrouwbaarheidsinterval voor Populatiegemiddelde met σ bekend
nzx
σ * ×±
standaard normale verdeling
Voorbeeld: Testscores hebben
een verdeling N(3, 0.8).
In nieuwe studie met n = 50
vinden we x = 2.36.
Wat is het 95% CI of 95%
betrouwbaarheidsinterval?
De oppervlakte C onder normale verdeling ligt in het interval [–z*, z*]. Opzoeken in Tabel A (of Tabel D, onderste rij, gelabeld ∞).
![Page 6: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/6.jpg)
6
Het 95% CI of 95% betrouwbaarheidsinterval?
]58.2 ,14.2[
113.096.136.250
8.0 96.1 36.2
*
×±
×±
×±n
zxσ
![Page 7: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/7.jpg)
7
Eigenschappen van Betrouwbaarheidsintervallen
Het interval is gebaseerd op de steekproevenverdeling van x en is exact wanneer de populatieverdeling normaal is. Anders is het interval bij benadering correct voor grote steekproeven.
• De steekproef moet een SRS zijn
• x is gevoelig voor uitbijters, dus interval ook → checken!
• foutenmarge houdt alleen rekening met random trekkingsfouten
Als data niet normaalverdeeld zijn en de steekproef klein is, kunnen we toch een betrouwbaarheids-interval bepalen door een steekproevenverdeling te simuleren.
![Page 8: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/8.jpg)
8
Bootstrappen (optrekken aan ‘straps’, MM&C: 368)
We gaan er dan van uit dat populatieverdeling gelijk is aan verdeling in steekproef.
a) We trekken een groot aantal
nieuwe steekproeven en doen
dit met teruglegging.
b) We bepalen steeds x en
sorteren deze waarden van x
Het 95% bootstrap CI omvat alle waarden van x behalve de 2.5%
grootste en de 2.5% kleinste waarden.
![Page 9: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/9.jpg)
9
Wat te doen als het Interval te breed is?
• Gebruik lager betrouwbaarheidsnivo (kleinere C → kleinere z*)
• Vergroot de steekproef (grotere n)
• Verklein σ (Hoe?)
Omgekeerde toepassing: Hoe kiezen we de
Steekproefgrootte?
Voor de foutenmarge m geldt:
2*
*
*
×=→×=→×=m
zn
m
zn
nzm
σσσ
Voorbeeld: Hoeveel observaties hebben we nodig om iemands gemiddelde reactietijd schatten met marge van 10ms en C = 95%?
[σ reactietijd = 25ms]
![Page 10: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/10.jpg)
10
Hoeveel observaties hebben we nodig?
2501.24
9.410
2596.1
**
22
2
=→=
=
×=
×=→×=
nn
n
m
zn
nzm
σσ
![Page 11: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/11.jpg)
11
Let op de interpretatie van een CI
Een random steekproef van 85
studenten aan de Chicago City High
School neemt deel aan een cursus
om hun SAT scores te verbeteren.
Gebaseerd op resultaten van deze
studenten wordt het 90% CI voor
de gemiddelde verbetering in SAT
scores berekend: [72.3; 91.4].
De correcte interpretatie van dit
interval is...
���� dat de kans 90% is dat de ware
gemiddelde verbetering tussen de 72.3 en
91.4 punten ligt.
���� dat 90% van de studenten in de
steekproef hun scores tussen de 72.3 en
91.4 punten verbeterden
���� dat 90% van de studenten in de populatie
hun scores tussen de 72.3 en 91.4 punten
zouden verbeteren
���� Geen van bovenstaande alternatieven is
correct
![Page 12: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/12.jpg)
12
Statistisch Toetsen: Weerleggen van Toevalsfluctuatie als Oorzaak
Het resultaat dat in een steekproef gevonden wordt moet bestand
zijn tegen de tegenwerping: "Dit resultaat is het gevolg van toeval!".
De tegenwerping heet nul-hypothese. In de statistiek is een
hypothese een uitspraak over parameters in populatie of model.
A. Van onderzoekshypothese naar H0 en Ha (of H1)
B. Toetsingsgrootheid & steekproevenverdeling
C. Verwerpingsgebied & acceptatiegebied
D. P-waarde & statistische significantie
Ingrediënten Statistische toets
![Page 13: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/13.jpg)
13
Ingrediënt A: H0 en Ha (of H1)
H0: Nul Hypothese Ha: Alternatieve Hypothese Betreft gespecificeerde parameterwaarde
• Uitspraak waarvan we de juistheid willen weerleggen.
• "geen effect” of "geen verschil” hypothese.
Kan 1-zijdig of 2-zijdig zijn.
• Uitspraak waarop we terugvallen als H0 niet houdbaar blijkt.
• De interessante hypothese, onderzoeksvraag.
Voorbeelden
• groep waarvan we bijzondere verbale begaafdheid verwachten
• twee groepen die random aan treatment/control zijn toegewezen
• twee variabelen waartussen men een verband veronderstelt
![Page 14: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/14.jpg)
14
1-zijdige of 2-zijdige Alternatieve Hypothese?
De kennis en verwachting vooraf over het steekproefresultaat bepaalt de keuze voor 1- of 2-zijdige Alternatieve hypothese.
Stel een test met µ = 10. Dit wordt nu opnieuw onderzocht. De kennis / verwachting vooraf is beperkt tot:
steekproefresultaat wijst op afwijkende populatiewaarde → gebruik 2-zijdige hypothese.
H0: µ = 10 Ha: µ ≠ 10
De kennis / verwachting vooraf bevat een richting bijv.: steekproefresultaat wijst op grotere populatiewaarde → gebruik 1-zijdige hypothese.
H0: µ = 10 Ha: µ > 10
![Page 15: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/15.jpg)
15
Ingrediënt B: Toetsingsgrootheid met Steekproevenverdeling
Een toetsingsgrootheid (test statistic) meet de verenigbaarheid tussen de steekproefstatistiek en de populatieparameter.
Bijv.: Om het verschil tussen x en µ te toetsen gebruiken we als toetsingsgrootheid het gestandaardiseerde verschil:
z =x − µσ
n
Als H0 waar is, dan ligt x dicht bij gespecificeerde µ.
Als Ha waar is, dan ligt x ver van gespecificeerde µ af.
Om H0 te kunnen verwerpen moeten we van de toetsstatistiek de steekproevenverdeling kennen als H0 waar is.
Bijv. Als H0: µ = 100 en X is normaal verdeeld, dan volgt z de
standaard normale verdeling N(0, 1) (waarom?).
![Page 16: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/16.jpg)
16
Ingrediënt C: Verwerpingsgebied en Handhavingsgebied
In de eenvoudigste vorm bestaat een significantie toets uit het
verifiëren waar de steekproefwaarde van de toetsingsgrootheid (test
statistic) valt, met een vooraf gekozen verwerpingskans α (alfa).
1-zijdige toets, α = 5% 2-zijdige toets, α = 5%
z
-4 -3 -2 -1 0 1 2 3 4
z
-4 -3 -2 -1 0 1 2 3 4
Handhaaf Handhaaf H0 Verwerp H0 Verwerp H0 Handhaaf H0 Verwerp H0
Voor gegeven α is 1-zijdig toetsen altijd te prefereren (indien
mogelijk) boven 2-zijdig toetsen (waarom?).
![Page 17: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/17.jpg)
17
Ingrediënt C: Verwerpingsgebied en Handhavingsgebied 2
-4 -3 -2 -1 0 1 2 3 4
Handhaaf H0 Verwerp H0
Handhavingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 handhaaft.
Verwerpingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 verwerpt.
De grens tussen beide gebieden wordt bepaald door α en de
bijbehorende waarde op de x-as (bijv. *x , te bepalen via z*).
Hoe groot eenzijdig tweezijdig
kies je α? α = 5% z* = 1.645 z* = 1.960
en dus z*? α = 1% z* = 2.326 z* = 2.576
![Page 18: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/18.jpg)
18
Ingrediënt D : P-waarde en Statistische Significantie
De P-waarde is de waarschijnlijkheid onder de H0 verdeling dat de
toetsingsgrootheid (Z) een waarde zou aannemen, even extreem als
of extremer dan de uit de steekproef berekende waarde (bijv z=1.4).
NB Hoe kleiner de P-waarde, des te sterker de evidentie tegen H0.
Als P-waarde < α, dan spreken we van significantie op nivo α. Met
kennis van de P-waarde is toetsen op ieder niveau mogelijk.
1-zijdig toetsen
z
-3 -2 -1 0 1 2 3
z=1.4, P=0.08
2-zijdig toetsen
z
-3 -2 -1 0 1 2 3
z=1.4, P=0.08z=-1.4, P=0.08
![Page 19: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/19.jpg)
19
Het Toetsen van een Gemiddelde: de z-toets
Deze toets is in voorafgaande als voorbeeld gebruikt. De toets is van
toepassing op alle kwantitatieve variabelen met bekende σ.
Bij een service-afdeling was de tijd om te reageren op een klacht normaal verdeeld met een gemiddelde van 2 uur en een standaarddeviatie van 0.25 uur. Men meent dat de tijd tegenwoordig gemiddeld wat langer is. Een random sample van 25 gevallen geeft een gemiddelde tijd van 2.10 uur. Is dit wel of niet in tegenspraak met de eerdere situatie (2 uur)? Wat is de P-waarde van de toets.
Hypothesen?
Waarde toetsingsgrootheid, α, verwerpingsgebied?
P-waarde?
Conclusie
![Page 20: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/20.jpg)
20
Hypothesen?
H0: µ = 2
Ha: µ > 2
Waarde toetsingsgrootheid, verwerpingsgebied?
2
05.0
21.2
2525.0
21.2 =−=−=−=n
xz σ
µmet α = 5%
P-waarde?
P(Z > 2)=0.0228
Conclusie
Verwerp H0
![Page 21: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/21.jpg)
21
Relatie tussen
Significantie Toets en Betrouwbaarheidsinterval
Een 2-zijdige significantie toets op nivo α verwerpt de nulhypothese
precies wanneer µ0 buiten het betrouwbaarheidsinterval 1-α valt.
Voorbeeld: zie sheet 5.
Gegeven:
populatie N(3, 0.8).
steekproef n = 50, x = 2.36. 95% CI = [2.14, 2.58].
Hoe hangen het 95%CI en de 2-zijdige significantie toets met elkaar samen?
![Page 22: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/22.jpg)
22
a)
95% CI = [2.14, 2.58] en µ = 3. Conclusie?
b)
H0: µ = 3
Ha: µ ≠ 3
α=5% → z*=1.960
66.5
113.0
64.
508.0
336.2 −==−=−=n
xz σ
µ
in één figuur:
x
2.00 2.25 2.50 2.75 3.00 3.25 3.50
95%CI
![Page 23: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/23.jpg)
23
Gebruik & Misbruik van Toetsen: Gedragsregels voor Evaluatie
1. Kiezen van het significantie nivo: er is geen scherpe grens tussen significant en niet significant, alleen maar sterkere evidentie tegen H0 naarmate de P-waarde kleiner is. Dus is P-waarde informatiever.
2. Significante effecten kunnen heel klein zijn. Denk aan de rol van n. Bijvoorbeeld een significant verschil in IQ van 1 punt.
3. Gebrek aan significantie betekent niet dat H0 waar is of Ha fout.
4. Zonder een vorm van randomisatie in het onderzoeksontwerp is een “significant” resultaat niet te interpreteren.
5. Een heleboel toetsen doen op dezelfde steekproef geeft altijd wel enig significant verschil. Hier zijn speciale maatregelen nodig (zie volgende sheet).
6. Geen exploratie en confirmatie op dezelfde data.
![Page 24: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/24.jpg)
25
Voorbeeld: Verifiëren of een Steekproef Representatief is
Vaak moet men aannemelijk maken dat getrokken steekproef
inderdaad representatief is. Dit kan men doen door op een aantal
belangrijke eigenschappen (leeftijd, opleidingsniveau, en diverse
testscores) de gemiddelden te toetsen.
De Bonferroni procedure beschermt tegen te veel significante
resultaten: als k toetsen gezamenlijk α moeten hebben, wordt bij
elke afzondelijke toets α/k gebruikt. Hoe valt dit bij volgende 6 uit?
α = 0.05 → α/6 = 0.0083
toets-1 toets-2 toets-3 toets-4 toets-5 toets-6
P-waarde 0.476 0.032 0.241 0.008 0.010 0.001
α = 5% apart SIG SIG SIG SIG
Bonferroni SIG SIG
![Page 25: Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C](https://reader035.vdocuments.site/reader035/viewer/2022071602/613d5267736caf36b75bf309/html5/thumbnails/25.jpg)
26
Tot Besluit
• SCHATTEN EN TOETSEN: Er zijn twee typen inferentie:
o voeg een foutenmarge toe aan een steekproefstatistiek,
o kijk of een toetsingsgrootheid in een staart van de steekproevenverdeling van H0 ligt (of niet)
• Bij toetsing gaat het om kwantificatie van de evidentie vóór of tegen de H0
• Met een betrouwbaarheidsinterval zijn alle mogelijke H0’s (tweezijdig) te toetsen
Stof Volgende Week: Moore, McCabe & Craig, hoofdstuk 7
Inference for Distributions
7.1 Inference for the Mean of a Population
7.2 Comparing Two Means