statistik p værdi signifikans

Post on 08-Nov-2014

22 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1 Det betyder signifikans

Signifikans er i statistik forbundet med en såkaldt signifikanssandsynlighed. Ordet signifikant betyder i statistik nærmest markant. En signifikanssandsynlighed beregnes under forudsætning af at data fordeler sig som i en antaget model. Vi vælger modellen og fremsætter en påstand om en egenskab i modellen kaldet en nulhypotese (Ho). Undersøgelsen af nulhypotesen drejer sig om hvorvidt en samling numeriske data opfylder påstanden. Om undersøgelsen resultat er signifikant bruges til at bedømme om nulhypote-sen kan antages sand eller ej.

I statistik har vi typisk en håndfuld data der stammer fra en langt større mængde. Vi kalder det en stik-prøve og går i det følgende ud fra at stikprøven er en repræsentativ del af alle data kaldet populationen. Hvis vi har disse informationer, men ikke ved noget med sikkerhed om populationen, kan vi påstå noget om dem og undersøge om det kan forholde sig sådan. Det betyder at det resultat vi når frem til kun kan fortolkes som en antagelse om hvordan det forholder sig. Men vi kan undersøge og bedømme om den afvigelse der er imellem informationerne og det vi tror det skal være virker realistisk.

Undersøgelsen af påstanden bygger i statistik på at der findes en ”sand” model bagved fordelingen af de kendte data og at denne på forhånd opfylder bestemte forudsætninger. Går vi ud fra at modellen vi bru-ger kan frembringe den fordeling de konkrete data følger, kan påstanden undersøges, dvs. testes.

Påstanden kan være: Det teoretisk sande gennemsnit også kaldet middelværdien er 4 og skrives Ho: μ=4

Påstanden kan også være: At der er uafhængighed mellem flere kategorier for de samme data (eksempelvis alder og køn, som betyder at aldersfordelingen er den samme uanset køn og omvendt).

Er signifikanssandsynligheden lille siger vi at resultatet er signifikant!

Selve undersøgelsen af påstanden kaldes en test af en nulhypotese (Ho) og man beregner om testen er

statistisk signifikant. Man vælger et såkaldt signifikansniveau,

normalt et 95%-niveau, og fastlægger derved en grænse ved

de sidste 5%, =0,05= 5%. (Alpha) er en sandsynlighed som

grænse for om påstanden (H

0) antages sand. De 5% er en

sandsynlighed og derfor et areal under fordelingsfunktionen.

Man kan udfra signifikansniveauet i den forudsatte fordeling

finde det kritiske grænsetal når man kender arealet (95%), eller beregne en signifikanssandsynlighed. Er signifikanssandsynligheden mindre end 5% må nulhypotesen (Ho) afvises på et 95%-konfidensniveau.

Signifikanssandsynligheden P (probability) fortolkes på 2 måder der i princippet udtrykker det samme:

(1) P = sandsynligheden for at få en forskel (eller afvigelse) mellem det forventede og det observerede

der er større end eller lig med den konstaterede forskel under Ho (forudsat hypotesen er sand).

(2) P= Sandsynligheden for at forskellen mellem det forventede og det observerede er tilfældig, under

Ho (forudsat hypotesen er sand).

Ad (1). Er sandsynligheden under 0,05 (5%) for at få en forskel der er større end eller lig med den der kan konstateres, antages det at sandsynligheden for forskellen (afvigelsen) er så lille at påstanden, d.v.s. nulhypotesen (Ho), må forkastes. For der er i så fald alternativt over 95% sandsynlighed for at forskellen burde være mindre hvis fordelingsantagelsen er korrekt. Det alternative kaldes alternativhypotesen eller H1, der så må godtages. Bemærk ordene ”må godtages” og ikke ”er rigtig”. At dette er det rette ordvalg indses når man har forstået styrkefunktionen.

Ad (2). Signifikanssandsynlighed kan parallelt fortolkes som sandsynligheden for at forskellen mellem det forventede (hypotetiske) og det observerede er tilfældig. Er sandsynligheden tilstrækkeligt lille, antages

forskellen (afvigelsen) ikke tilfældig og så forkastes påstanden dvs. nulhypotesen (Ho). Denne fortolkning af sandsynlighed er vigtig da den bruges i mange områder af statistik. Det er meget ofte forskellen mellem det faktiske og det forventede ukendte som en påstand man regner på.

Det det forvirrer de fleste i starten er at man ikke kan beregne sandsynligheden for om en påstand er rigtig. Man må gå en omvej hvor man beregner om der er indikation af om påstanden kan antages at være rigtig under nogle bestemte forudsætninger. Dette lidt vagere men altid ”præcist vage” resultat, skyldes at logikken rummer flere muligheder end man lige kan indse. Det indser man når man lærer og forstår hvad en tests styrke betyder (se TS 5) .

top related