föreläsning 5 - ida › ~ndab01 › fo5vt2016.pdf · jämföra två andelar konfidensintervall...
TRANSCRIPT
1
Föreläsning 5 NDAB01
Statistik; teori och tillämpning i biologi
Dagens föreläsning
o Andelar (kap 24)
o Binomialfördelning
(kap 24.1)
o Test och konfidensintervall för en andel
(kap 24.5, 24.6, 24.8)
o Test och konfidensintervall för två andelar
(kap 24.10, 24.11)
o Analys av korstabeller (kap 23.0 – 23.1)
2
NDAB01
Andelar (proportioner)
En andel (proportion) betecknas med p och är en del av en
population med en viss egenskap. Andelen som ej har
denna egenskap betecknas med q = 1 - p.
Angående andelar kommer vi diskutera hur man kan:
• Beräkna sannolikheter utifrån andelar
• Använda olika approximationer vid beräkningar av
andelar
• Använda hypotesprövning och konfidensintervall för
en andel
• Använda hypotesprövning och konfidensintervall för
att jämföra två andelar
3
NDAB01
Binomialfördelningen
Binomialfördelningen är enklast att beskriva med ett
exempel.
Antag att 30 % av invånarna i Sverige är blåögda. Ett
obundet slumpmässigt urval om 10 personer dras. Vi
definierar variabeln X = antal blåögda personer i stickprovet.
Denna variabel X blir binomialfördelad enligt bin(n=10,
p=0.3).
4
NDAB01
109876543210
30
25
20
15
10
5
0
Antalet blåögda personer i stickprovet
Sa
nn
olik
he
t (%
)
Binomialfördelningen
För att beräkna sannolikheter för ett visst antal i stickprovet
används formeln: (GB s. 556, BB s. 520)
𝑃 𝑋 =𝑛𝑋
∗ 𝑝𝑋 ∗ 𝑞 𝑛−𝑋 =𝑛!
𝑋! 𝑛 − 𝑋 !∗ 𝑝𝑋 ∗ 𝑞(𝑛−𝑋)
Beräkna för stickprovet bestående av 10 stycken
slumpmässigt valda svenska invånare:
a) Sannolikheten att exakt två personer i stickprovet är
blåögda
b) Sannolikheten att två personer eller färre i
stickprovet är blåögda
5
NDAB01
Binomialfördelningen Poissonfördelning och normalapproximation
När p är väldigt litet och n är väldigt stort bör
Poissonfördelningen användas. Denna fördelning diskuteras
ej i kursen, men den finns förklarad i kapitel 25.
När vi senare kommer att genomföra hypotesprövning och
konfidensintervall för andelar kommer normal-approximation
att användas. Detta är dock inte helt perfekt:
• Inte bra när p är nära 0 eller 1.
• Inte bra när n är litet.
Författaren föreslår som regel att 𝑝0 ∗ 𝑛 och 𝑞0 ∗ 𝑛 ska vara
minst 5 för att normalapproximation ska kunna användas.
6
NDAB01
Andel för en population Hypotesprövning
De två första stegen i hypotesprövning för populationsandel
är samma som för populationsmedelvärde.
1. Formulera hypoteser
2. Bestämma signifikansnivå
Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s.
534-537)
𝐻0: 𝑝 = 𝑝𝑜
𝐻𝑎: 𝑝 ≠ 𝑝𝑜
𝐻𝑎: 𝑝 > 𝑝𝑜
𝐻𝑎: 𝑝 < 𝑝𝑜
Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01.
7
NDAB01
Andel för en population Hypotesprövning
När man ska utreda om H0 kan förkastas eller ej kan tre
olika tekniker användas:
• Jämföra X med ett kritiskt värde ur tabell
• Beräkna en testvariabel Z (normalapproximation)
• Undersöka om 𝑝0 ingår i ett konfidensintervall
När n är litet är det även relativt lätt att beräkna
sannolikheterna exakt med hjälp av binomialfördelningen.
8
NDAB01
Andel för en population Hypotesprövning, normalapproximation
När normalfördelningsapproximation används beräknas en
testvariabel Z: (GB s. 570(c), BB s. 534(c))
𝑍 =𝑋 − 𝑛𝑝0
𝑛𝑝0𝑞0=
𝑝 − 𝑝0
𝑝0𝑞0 𝑛
Utifrån denna testvariabel bestäms p-värdet, eller så jämförs
testvariabeln med ett kritiskt värde ur normalfördelnings-
tabell.
Kom ihåg: H0 förkastas när p-värdet är mindre än
signifikansnivån (α)
9
NDAB01
Andel för en population Exempel hypotesprövning
Man vill undersöka om schimpanser föredrar att använda
någon hand framför den andra. 40 schimpanser har
studerats, och man har observerat vilken hand de använder
i störst utsträckning. 31 av schimpanserna använde
högerhanden mest, medan 9 av schimpanserna använde
vänsterhanden mest.
Utred utifrån ovanstående information om:
a) En majoritet av schimpanserna föredrar någon hand
framför den andra
b) En majoritet av schimpanserna föredrar
högerhanden framför vänsterhanden
I båda fallen ska 5 % signifikansnivå användas.
10
NDAB01
Andel för en population Konfidensintervall
Vad var nu ett konfidensintervall? Jo, med hjälp av ett
konfidensintervall kan man med en viss säkerhet (90, 95, 99
%) säga att den sanna populationsparametern (i detta fall
populationsandelen p) finns inom ett visst intervall.
Boken listar tre olika varianter på konfidensintervall:
• Clopper-Pearson-intervall
• Wald-intervall (normalapproximation)
• Justerat Wald-intervall
Det mest frekvent använda är Wald-intervallet, som bygger
på en normalapproximation av binomialfördelningen.
11
NDAB01
Andel för en population Konfidensintervall, Wald
Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α
beräknas enligt: (GB s. 579(b), BB s. 543(b))
𝑝 ± 𝑧𝛼(2) ∗𝑝 𝑞
𝑛
Det går som vanligt att beräkna nedåt eller uppåt
begränsade intervall.
Som sagt bör denna metod ej användas när n är litet och 𝑝 är nära 0 eller 1.
12
NDAB01
Exempel
Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av
schimpanserna som föredrar att använda vänsterhanden.
Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550)
Vid jämförelse av två andelar tar boken enbart upp
hypotesprövning som bygger på normalapproximation.
Hypoteserna formuleras enligt:
𝐻0: 𝑝1 − 𝑝2 = 𝑝0 → 𝑝1 = 𝑝2 (𝑑å 𝑝0 𝑜𝑓𝑡𝑎 = 0)
𝐻𝑎: 𝑝1 − 𝑝2 ≠ 𝑝0 → 𝑝1 ≠ 𝑝2
Testvariabeln beräknas enligt:
𝑍 =𝑝 1 − 𝑝 2 − 𝑝0
𝑝 𝑞 𝑛1
+𝑝 𝑞 𝑛2
=𝑝 1 − 𝑝 2
𝑝 𝑞 𝑛1
+𝑝 𝑞 𝑛2
där
𝑝 =𝑋1 + 𝑋2
𝑛1 + 𝑛2=
𝑛1𝑝 1 + 𝑛2𝑝 2𝑛1 + 𝑛2
13
NDAB01
Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a))
Konfidensintervall för att jämföra två andelar bygger, likt
hypotesprövningen, på normalapproximationen av
binomialfördelningen.
Intervallet beräknas enligt:
𝑝 1 − 𝑝 2 ± 𝑧𝛼 2 ∗𝑝 1𝑞 1
𝑛1+
𝑝 2𝑞 2
𝑛2
Med hjälp av ett exempel på nästkommande sida ska
hypotesprövning och konfidensintervall för att jämföra två
andelar beskrivas.
14
NDAB01
Jämföra två andelar Konfidensintervall och hypotesprövning, exempel
Mugg är en vanlig hudinflammation på hästar. En teori är att
islandshästar drabbas oftare av mugg än svenska halvblod.
30 islandshästar och 28 svenska halvblod observerades
under en och samma tidsperiod, där 12 islandshästar samt 5
svenska halvblod drabbades av mugg.
Utifrån ovanstående siffror, utred om islandshästar drabbas
av mugg i större uträckning än svenska halvblod. Använd 5
% signifikansnivå.
15
NDAB01
Analys av korstabeller
(GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst
antal kolumner (c) och därmed r*c celler.
fij anger frekvensen (antalet) i en viss cell.
Radsummorna betecknas Ri och är summan av
frekvenserna på rad i. Kolumnsummorna betecknas Cj.
16
NDAB01
Faktor B
Faktor A 1 2 … c Summa
1 f11 f12 … f1c R1
2 f21 f22 … f2c R2
… …
…
…
…
r fr1 fr2 … frc Rr
Summa C1 C2 Cc
Analys av korstabeller
Korstabeller används för att presentera data på
nominalskala, vilket var olika attribut den observerade
enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön
respektive hårfärg.
Vid analys av korstabeller kan man undersöka två olika
saker:
• Är faktor A och B oberoende av varandra?
(oberoendetest)
• Fördelar sig faktor A homogent över de olika nivåerna
på faktor B? (homogenitetstest)
Vid homogenitetstest bestäms en viss urvalsstorlek för
de olika nivåerna på faktor B, men vid oberoendetest
bestäms ingen urvalsstorlek för varken faktor A eller B.
17
NDAB01
Analys av korstabeller Chi-två-test
För att utreda de två olika frågeställningarna som
formulerades innan används chi-två-test (𝜒2-test). Det liknar
hypotesprövning, men består av fem steg:
1. Formulera hypoteser
2. Bestäm signifikansnivå
3. Beräkna förväntade frekvenser enligt nollhypotesen
4. Beräkna testvariabel
5. Jämför med kritiskt värde ur tabell B.1
Chi-två-test förutsätter att samma urvalsenhet bara får
förekomma i en cell i tabellen.
18
NDAB01
Analys av korstabeller Chi-två-test, formulera hypoteser
Vid chi-två-test formuleras hypoteserna i ord och enbart
dubbelsidiga test kan genomföras.
Oberoendetest:
H0: Faktor A och faktor B är oberoende
Ha: Faktor A och faktor B är beroende
Homogenitetstest:
H0: Faktor A fördelar sig homogent över de olika nivåerna
på faktor B
Ha: Faktor fördelar sig inte homogent över de olika
nivåerna på faktor B
19
NDAB01
Analys av korstabeller Chi-två-test, beräkna förväntade värden
Tredje steget i ett chi-två-test är att beräkna förväntade
frekvenser (𝑓 𝑖𝑗) i de olika cellerna baserat på antagandet att
nollhypotesen (H0) är sann.
Dessa förväntade värden beräknas enligt:
𝑓 𝑖𝑗 =𝑅𝑖
𝑛∗
𝐶𝑗
𝑛∗ 𝑛 =
𝑅𝑖 𝐶𝑗
𝑛
De förväntade frekvenserna är alltså antalet urvalsenheter
som borde tillhöra cellen 𝑖𝑗 om nollhypotesen är sann.
20
NDAB01
Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde
Testvariabeln, 𝜒2, beräknas enligt:
𝜒2 = 𝑓𝑖𝑗 − 𝑓 𝑖𝑗
2
𝑓 𝑖𝑗
Om nollhypotesen är sann så följer denna testvariabel en
chi-två-fördelning med (r – 1)*(c – 1) frihetsgrader. Det
kritiska värdet som testvariabeln ska jämföras med är:
𝜒𝛼,(𝑟−1)(𝑐−1)2
Om testvariabeln är större än detta värde kan nollhypotesen
förkastas.
21
NDAB01
Analys av korstabeller Chi-två-test, fördelning och begränsningar
Chi-två-test bör ej användas om mer än 20 % av de
förväntade frekvenserna är mindre än 5, eller om någon av
de förväntade frekvenserna är mindre än 1.
22
NDAB01
403020100
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
X
Sa
nn
olik
he
t
5
15
df
Chi-två-fördelning
Analys av korstabeller Chi-två-test, exempel
Man vill undersöka om en viss sorts padda hemmahörande i
delstaten Queensland, Australien drabbas av inälvsparasiter
i samma utsträckning i tre olika regioner i den nämnda
delstaten. I varje region fångades 20 paddor in och dessa
dissekerades för att undersöka om de drabbats av
inälvsparasiter.
23
NDAB01
Rockhampton Bowen Mackay
Drabbad 12 7 14
Ej drabbad 8 13 6
Tack för idag!
Nästa tillfälle:
Föreläsning 6, tisdag 1 mars, kl. 10-12, sal U6
24