hoofdstuk 6 inleiding tot inferentie. •statistische inferentie : = op basis van steekproef...

Hoofdstuk 6

Inleiding tot inferentieInleiding tot inferentie

• Statistische inferentie :

= op basis van steekproef uitspraken over populatie + mate van vertrouwen die men aan die conclusies mag hechten

• Bij gebruik van statistische inferentie :

data komen van een aselecte steekproef of van een

gerandomiseerd experiment

6.1. Schatten met betrouwbaarheid

• Steekproefgemiddelde x is een schatter van de populatieverwachting µ– als de waarde = 36 : hoe betrouwbaar is deze

schatting ?– Grotere steekproeven steeds betere schatting– steeds naast gemiddelde een indicatie van de

variabiliteit nodig

A. Statistische betrouwbaarheid

• 68 - 95 - 99.7 regel : kans dat gemiddelde binnen een afstand van 2 standaardafwijkingen van de verwachte score van de populatie (µ) ligt is 95%

• µ binnen een afstand van 2 standaard-afwijkingen van x

• in 95% van alle steekproeven zal het interval x - 2keer stand.afw. tot x + 2keer stand.afw. de werkelijke µ bevatten

• Op die manier wordt het vertrouwen uitgedrukt in de resultaten van een enkelvoudige steekproef

• Voorbeeld : – gemiddelde van steekproef is 461 en

standaardafwijking is 4,5– met 95% betrouwbaarheid ligt de onbekende

verwachte score van de populatie tussen • 461 - 9 = 452• 461 + 9 = 470

– slechts 5% van de steekproeven liggen hierbuiten

• We weten echter niet of onze steekproef tot die 95% of tot die 5% zal behoren

• DUS : – “populatiegemiddelde ligt met 95%

betrouwbaarheid tussen x en y” • wil eigenlijk zeggen

– “we hebben x en y gevonden volgens een methode die in 95% van de gevallen correcte resultaten geeft”

B. Betrouwbaarheidsintervallen• Interval van getallen tussen x en y is het

betrouwbaarheidsinterval voor µ

• Betrouwbaarheidsinterval =schatting foutmarge

• foutmarge toont iets van de accuraatheid die we onze schatting toekennen, gebaseerd op de variabiliteit van de schatting

• betrouwbaarheidsniveau = 95% niveau : laat zien hoeveel vertrouwen we hebben dat we met de methode µ zullen bevatten

• Elk betrouwbaarheidsinterval :– interval (uit de data)– betrouwbaarheidsniveau (kiezen, meestal > 90%)

• Betrouwbaarheidsniveau 95% is C=0.95• Onbekende parameter wordt (Griekse letter

theta) genoemd

• Een betrouwbaarheidsinterval van niveau C voor een parameter ,

is een interval berekend uit de steekproefdata,

volgens een methode die kans C heeft om een interval op te leveren dat de werkelijke waarde van bevat.

C. Betrouwbaarheidsinterval voor een populatieverwachting

• Constructie van een betrouwbaarheids-interval van niveau C voor de populatieverwachting µ

• Populatie : N (µ, ) dan heeft de steekproefverdeling van het steekproefgemiddelde x een verdeling : steekpoef : N (µ, / n)

• Om voor elk betrouwbaarheidsinterval van niveau C te weten hoeveel keer we de standaardafwijking moeten nemen kunnen we Tabel D gebruiken

C p z*

50% .25 0.674

90% .05 1.645

95% .025 1.960

99% .005 2.576

- z* 0 z*

Oppervlakte = C

Oppervlakte= 1-C 2

Oppervlakte= 1-C = p 2

• p is de oppervlakte van de rechterstaart dus gelijk aan :

(1 - C) / 2

aangezien er ook nog een linkerstaart is die even groot is bij betrouwbaarheidsinterval

• de oppervlakte tussen -z* en +z* is gelijk aan C

• het getal z* met rechts daarvan de kans p, wordt de bovenste p-kritieke waarde genoemd (waarbij p = (1-C)/2)

• De onbekende populatieverwachting µ ligt tussen

x - z* ( _)

n

en

x + z* ( _)

n

= betrouwbaarheidsinterval van niveau C

• Naarmate n groter is zal de foutmarge kleiner zijn en dus het interval korter

D. Het gedrag van betrouwbaarheidsintervallen

• Betrouwbaarheidsniveau kiest de gebruiker

• Best : grote betrouwbaarheid en kleine foutmarge

• Grote betrouwbaarheid = bijna altijd correcte antwoorden

• Kleine foutmarge = parameter is heel nauwkeurig gelokaliseerd

• Voor dezelfde data : – grotere betrouwbaarheid impliceert bereidheid

om grotere foutmarge te aanvaarden– want : voor grotere betrouwbaarheid : grotere

waarde voor z*

• Maar voor andere data :– bij stijging van n zal de foutmarge dalen– door wortel in de formule, moeten we n met 4

vermenigvuldigen om de foutmarge door 2 te laten delen (=halveren)

E. Het bepalen van de steekproefomvang

• op voorhand proberen om : grote betrouwbaarheid en kleine foutmarge te krijgen

• foutmarge = z* ( / n)

• nu zoeken naar welke grootte van steekproef ik moet hebben bij een gewenste foutmarge m

n = [ (z* ) / m ]2

Voorbeeld :

formule : n = [ (z* ) / m ]2

betrouwbaarheid 95% en resultaten tot op 0.005 nauwkeurig

n = [(1.96)(0.0068) / 0.005] 2 = 7.1

ofwel 8 metingen nodig

F. Enkele waarschuwingen

• data uit randomisatie en enkelvoudig aselecte steekproef

• geldt niet voor getrapte of gestratificeerde steekproeven

• geldt niet voor lukraak verzamelde data

• aangezien x niet resistent is, spelen uitschieters een belangrijke rol

• verdeling moet normaal zijn zeker bij steekproeven kleiner dan 15

• De standaardafwijking van de populatie moet gekend zijn, wat irrealistisch is, als n voldoende groot is kan s, de standaardafwijking van de steekproef gebruikt worden

• De gebruikte foutmarge geldt enkel voor aselecte steekproeven, drop-out, nonrespons, enz… zorgen voor extra fouten

• 95% interval wil zeggen : volgens een methode die voor 95% correcte resultaten geeft

6.2. Significantietoetsen

• Doel : beoordelen van data ten gunste van de een of andere bewering omtrent de populatie

• Voorbeeld : Kan het dat iemand die niet getraind is toch 6m25 ver springt ? – Kans dat iemand dat zonder training kan is 0.001– Dus : het is heel waarschijnlijk dat die persoon wel

getraind was– Maar : het zou kunnen dat die persoon niet getraind

is, maar die kans is zo klein dat het niet waarschijnlijk is

A. De redenering bij significantietoesten

• Significantietoets = procedure om data te vergelijken met hypothese

• Hypothese = bewering over parameters in een populatie

• Uitkomst van een significantietoets : uitgedrukt in termven van een kans die aangeeft hoe goed data en hypothese met elkaar overeenkomen

B. Formuleren van hypothesen

• Vraag : is een effect aanwezig ?

• Hypothese : het effect is niet aanwezig

= de NULHYPOTHESE

(geen effect, geen verschil, …)

• Significantietoets om de sterkte van het bewijs tegen de nulhypothese vast te stellen

Formuleren van hypothesen

• Nulhypothese is H0

– voorbeeld : H0 : A = B

of H0 : µ = 23

of H0 : (rho) = 0 (corr = 0)

• Alternatieve hypothese is Ha

– waarvan wij verwachten dat ze juist is

– voorbeeld : Ha : A > B

of Ha : µ < 23

of Ha : (rho) 0 (wel een verband)

• Hypothesen verwijzen altijd naar één of andere populatie : dus in populatieparameters

• Eenzijdig alternatief : als de richting is aangegeven

• Tweezijdig alternatief : als er op voorhand geen duidelijke richting is

• Als H0 waar is, heeft de schatter waarden dicht tegen H0

• Waarden die verder van H0 zijn verwijderd vormen een bewijs tegen H0 en voor Ha

C. Overschrijdingskansen

• Hoe verder de waargenomen uitkomst van H0, dus hoe onwaarschijnlijker dat H0 waar is, hoe sterker de indicatie voor Ha.

• Significantietoets meet de kans op het krijgen van een uitkomst die even extreem is of nog extremer dan de waargenomen uitkomst = de overschrijdingskans (p) van de toets

• Hoe kleiner de overschrijdingskans p, hoe sterker het bewijs tegen H0

– p = 0.03– p = 0.002– p = 0.24

• Overschrijdingskans (p) niet zelf kunnen berekenen, wel computeroutput

D. Statistische significantie

• Soms op voorhand vaststellen hoeveel bewijs we zullen eisen = de beslissende waarde van de overschrijdingskans = het significantieniveau () alpha

• Kiezen we =0.05 dan eisen we dat in niet meer dan 5% van de gevallen H0 toch waar kan zijn

• Als de overschrijdingskans kleiner dan of gelijk is aan , zeggen we dat de data statistisch significant zijn op niveau .

• De resultaten waren significant (p < 0.01)

• Indien p = 0.03, dan zijn de resultaten significant op niveau = 0.05, maar niet op niveau = 0.01.

• Stappen bij een significantietoets :– Formuleer H0 en Ha

– Specificeer het significantieniveau – Doe de statistische berekeningen bv. bereken de

correlatie, t-waarde, F-waarde, …– Bepaal de bijhorende p-waarde, de

overschrijdingskans. Is de p-waarde kleiner of gelijk aan , dan is het toetsresultaat significant op niveau

E. Toetsen voor een populatieverwachting

• z-toets voor een populatieverwachting– H0 : µ = µ0 (µ0 is een bepaalde waarde)– Ha : µ < µ0 eenzijdig : P (Z z)– Ha : µ > µ0 eenzijdig : P (Z z)– Ha : µ µ0 tweezijdig : 2 P (Z |z| )

• omzetten in z-waarde z = ( x - µ0 ) / n

en kijken in tabel A

F. Tweezijdige significantie-toetsen en betrouwbaarheidsintervallen

• Bij tweezijdig toetsten de p-waarde die in de tabel gevonden wordt vermenigvuldigen met 2

• Computer geeft standaard tweezijdige toets• Tabel geeft standaard de eenzijdige toets• p-waarde (eenzijdig) maal 2 is tweezijdig• p-waarde (tweezijdig) gedeeld door 2 is

eenzijdig

G. Overschrijdingskansen versus vast niveau

• De overschrijdingskans p is het kleinste niveau waarbij de data significant zijn.

• Deze p-waarde wordt door de computer gegeven of opzoeken in Tabel

• Bij vast niveau enkel beslissen : onder of boven : gemakkelijker maar je hebt minder informatie

6.3. Gebruik en misbruik van toetsen

• Uitvoeren van een significantietoets is zeer eenvoudig, zeker met computer

• Toetsen moeten wel verstandig gebruikt worden

• Onderzoekers doen soms te gemakkelijk toetsen zonder eerst stil te staan bij wat ze doen

A. Kiezen van een significantieniveau

• Ha is meestal de onderzoekshypothese die bij een lage overschrijdingskans wordt bevestigd

• Als H0 een jarenlang aanvaarde waarheid is (plausibiliteit), of als verwerping vergaande consequenties heeft (consequenties), zal klein moeten zijn

• Meest gangbaar 10%, 5%, en 1%

• Afhankelijk van inhoud van onderzoek deze kiezen

• Meestal wordt 5% gebruikt, dit is eigenlijk een artificiële grens, er is geen breuk tussen wel en niet significant, enkel een bewijs die in sterkte toeneemt

• Dus niet zomaar altijd 5% nemen en dit als een definitief BEWIJS zien, steeds als een kans

B. Wat statistische significantie niet betekent

• “Statistische significantie is niet hetzelfde als praktische significantie” want bij grote steekproeven vinden we vlug significantie

• Bv. correlatie van 0.09 kan bij een steekproef van 1000 pp. een p =0.03 geven

• Gewoonlijk is het verstandig ook grafisch te kijken

• Geef beter ook een betrouwbaarheidsinterval, geeft meer info dan enkel significantie

C. Negeer het ontbreken van significantie niet

• Het NIET significant zijn kan even belangrijke informatie geven, maar wordt zelden gepubliceerd

• Door deze niet te rapporteren gaan andere onderzoekers opnieuw op zoek, zonder effect.

• Kan ook niet significant zijn omdat het onderscheidingsvermogen van de toets te zwak was (zie later)

D. Statistische inferentie is niet voor alle data geldig

• Enkel op correct verzamelde gegevens betekenen significantietoetsen iets– Experimenten– Aselecte steekproef

• Dikwijls dit niet voorhanden : telkens op voorhand goed nagaan hoe data verkregen zijn (zie hoofdstuk 3)

E. Ga niet zoeken naar significantie

• Op voorhand hypothese stellen en dan toetsen, niet op zoek gaan naar alle mogelijke significanties : op 100 toetsen automatisch 5% significant door toeval

• Computer is hier probleem : op enkele minuten honderden toetsen uitvoeren : steeds blijven nadenken

• Beter : eerst exploratief en op ANDERE data deze hypothese toetsen

6.4. Onderscheidingsvermogen en inferentie bij beslissingsproblemen

• Onderscheidingsvermogen van een toets of de power van de toets : is de toets sterk genoeg om de nulhypothese te kunnen verwerpen

• Sterke link tussen onderscheidings-vermogen en aantal subjecten : hoe meer subjecten, hoe groter het onderscheidingsvermogen

• 80% onderscheidingsvermogen is standaard aan het worden, of power van .80

• Als het onderscheidingsvermogen te klein is zal de nulhypothese niet kunnen worden verworpen, zelfs indien de werkelijke waarde ver weg ligt van de nulhypothese

• Berekenigen van onderscheidingsvermogen of power enkel met computer

Fouten van type 1 en type 2

H0 is waar Ha is waar

Verwerp H0 Fout van het

Type 1

Correcte beslissing

Verwerp Ha Correcte

beslissing

Fout van het Type 2

• Het significantieniveau is de kans op een fout van het type 1, of is kans dat de toets de nulhypothese zal verwerpen terwijl die in feite juist is

• Het onderscheidingsvermogen van een significantietoets is 1 - de kans op een fout van de tweede soort : de toets is niet gevoelig genoeg om de nulhypothese te kunnen verwerpen

hoofdstuk 6 inleiding tot inferentie. •statistische inferentie : = op basis van steekproef...

Documents