vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/bachelor...
TRANSCRIPT
![Page 1: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/1.jpg)
1
Statistisk analyse
Vurdering af usikkerhed i forbindelse
med statistiske opgørelser forudsætter:
Kvantitative mål for variation og spredning
i forbindelse med statistiske opgørelser
(varians og standardafvigelse)
Kvantitative mål for tilfældigheder
(sandsynligheder)
En advarsel: Nytteværdien af disse begreber vil først vise sig senere!
![Page 2: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/2.jpg)
2
Deskriptiv statistik
1) grafiske repræsentationer,
2) tabelmæssige opgørelser,
3) beregninger af en række nøgle-
tal og/eller indikatorer, der på summarisk måde sammenfatter nogle centrale egenskaber ved fordelingerne.
![Page 3: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/3.jpg)
3
Forskel på deskriptive og analytiske metoder
Statistisk analyse
1) Formulering af spørgsmål og indsamling af data.
2) Opstilling af statistisk model.
3) Reformulering af spørgsmål i konkrete
modeltermer.
4) Analyse af modellen for at afsløre hvilke
beregninger, der skal til, for at give det mest
præcise svar på de stillede spørgsmål.
5) Beregningerne.
Virke-
lighed
Data-model
Statistisk
model
Analyse
Deskriptiv statistik
Analytisk statistik
![Page 4: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/4.jpg)
4
Ændrede danskernes politiske holdninger sig i perioden 1981 – 1990?
1981
Venstre-højre position
højre98765432venstre
Pro
ce
nt
40
30
20
10
0
1990
Venstre-højre position
højre98765432venstre
Pro
ce
nt
40
30
20
10
0
Når det drejer sig om politik, tale man om ”venstreorienteret” og ”højreorienteret”. Hvor på denne skala ville De placere Dem selv?
![Page 5: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/5.jpg)
5
Middelværdi: Summation og division
Middelværdi:
(6+10+3+8+8+6+1+7+5+9)/10 = 7,3.
Summationstegnet
n
XXM n
X
++++++++====
...1
n=
X
Xn
1i
n
1=ii
n
1=i
∑∑∑∑∑∑∑∑
)X+...+X(=)X( n1i
n
1=i
∑∑∑∑
![Page 6: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/6.jpg)
6
Regneregler for middelværdier
( )n
i
i=1
n
i
i=1
n
i
i=1
X
1M a bX (a+ )bX
n
1= (na+b ( ))X
n
na 1= +b ( )X
n n
= a+bM
+ = ∑
∑
∑
M(X+Y)
= n
i i
i=1
n n
i i
i=1 i=1
n n
i i
i=1 i=1
1( + )X Y
n
1= ( ( )+ ( ))X Y
n
1 1= ( )+ ( )X X
n n
∑
∑ ∑
∑ ∑
=
MX+MY
![Page 7: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/7.jpg)
7
Spredning – varians og standardafvigelse
1981
Billiger homoseksualitet
10.009.008.007.006.005.004.003.002.001.00
Pro
cent
40
30
20
10
0
1990
Billiger homoseksualitet
10.009.008.007.006.005.004.003.002.001.00
Pro
cent
40
30
20
10
0
)M-X(
n
1=VAR(X)
2
xi
n
1=i
∑∑∑∑
![Page 8: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/8.jpg)
8
Middelværdi og varians for to variable fra værdiundersøgelserne i 1981 og 1990
Variabel År Middelværdi Varians Billiger
homoseksualitet 1981 1990
5.48 4.69
14.67 11.58
Venstre-højre position
1981 1990
5.63 5.74
3.53 3.59
SSDX ("the Sum of Squared Differences"):
)M-(X=SSD2
X
n
1=i
X ∑∑∑∑
]n
SSD[
1-n
n=VAR(X) x
![Page 9: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/9.jpg)
9
Regneregler for variansen
∑∑∑∑ ++++−−−−++++====
++++
i
xi aMaXn
aXVAR
2))()((1
)(
∑∑∑∑ −−−−−−−−++++====i
xi aMaXn
2)(1
)(
)(1 2
XVAR
MXn i
xi
====
−−−−∑∑∑∑
[[[[ ]]]]∑∑∑∑∑∑∑∑ −−−−====−−−−====i
xi
i
xi MXbn
bMbXn
bXVAR
22 )(1
)(1
)(
)(
)()(1
2
22
22
XVARb
MXn
bMXb
n i
xi
i
xi ====−−−−====−−−−==== ∑∑∑∑∑∑∑∑
Y = a + bX
VAR(Y)
= VAR(a+bX)
= VAR(bX)
= b²VAR(X)
![Page 10: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/10.jpg)
10
Z=X+Y
Det vil sige
)()(),()()( YVARXVARYXCOVARYVARXVAR ≤≤≤≤≤≤≤≤−−−−
2
i i x y
i=1
2
i x i y
i=1
1VAR(Z)= (X +Y - M M )
n
1= ((X - M )+(Y - M ) )
n
−∑
∑
))M-(Y+)M-)(YM-2(X+)M-((Xn
1=
2
yiyixi
2
xi
1=i
∑∑∑∑
)M-(Yn
1+)M-)(YM-(X
n
2+)M-(X
n
1=
2
yi
1=i
yixi
1=i
2
xi
1=i
∑∑∑∑∑∑∑∑∑∑∑∑
)M-)(YM-(X
n
1=Y)COVAR(X, YX
n
1=i
∑∑∑∑
VAR(Y)+Y)2COVAR(X,+VAR(X)=Y)+VAR(X
![Page 11: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/11.jpg)
11
Standardafvigelsen
)()( XVARXSD ====
Standardafvigelser for to variable fra værdiundersøgelserne i 1981 og 1990
Variabel År Standardafvigelse Billiger
homoseksualitet 1981 1990
3.83 3.43
Venstre-højre position 1981 1.88 1990 1.90
![Page 12: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/12.jpg)
12
Sandsynlighedsregning
Resultatet af folketingsvalget i september 1994 sammenlignet med en simuleret
opinionsundersøgelse foretaget samme dag.
Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Stemmeberettigede 3.988.787 100.0 900 100.0 Ej stemt+ugyldig 661.190 16.6 146 16.2 A. Socialdemokrat. 1.150.048 28.8 250 27.8 B. Radikale 152.701 3.8 30 3.3 C. Konservative 499.845 12.5 109 12.1 D. Centr. demokrat. 94.496 2.4 21 2.3 F. Soc. folkeparti 242.398 6.1 45 5.0 Q. Krist. folkeparti 61.507 1.5 16 1.8 V. Venstre 775.176 19.4 202 22.4 Z. Fremskridtspart. 214.057 5.4 52 5.8 Ø. Enhedslisten 104.701 2.6 22 2.4 * Udenfor parti 32.668 0.8 7 0.8
Opinionsundersøgelser er altid behæftet med en vis grad af usikkerhed.
Hvordan kan vi på den bedste måde
beskrive og kvantificere denne usikkerhed?
![Page 13: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/13.jpg)
13
En komplicerende faktor
Procentvis fordeling af gyldige stemmer ved folketingsvalget i september 1994
sammenlignet med den simulerede opinionsundersøgelse foretaget samme dag.
Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Gyldige stemmer 3.327.597 100.0 754 100.0 A. Socialdemokr. 1.150.048 34.6 250 33.2 B. Radikale 152.701 4.6 30 4.0 C. Konservative 499.845 15.0 109 14.5 D. Centr.demokr. 94.496 2.8 21 2.8 F. Soc. folkeparti 242.398 7.3 45 6.0 Q. Krist. folkeparti 61.507 1.9 16 2.1 V. Venstre 775.176 23.3 202 26.8 Z. Fremskridtspart. 214.057 6.4 52 6.9 Ø. Enhedslisten 104.701 3.1 22 2.9 * Udenfor parti 32.668 1.0 7 0.9
På hvilken måde bliver usikkerheden på
resultatet af opinionsundersøgelsen påvirket
af, at vi kun er interesseret i den procentvise
andel af de gyldige stemmer?
![Page 14: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/14.jpg)
14
Egenskaber ved repræsentative undersøgelser
Det er tilfældigt om en person bliver
udtrukket eller ej.
Alle personer har den samme chance for at blive udtrukket.
Sandsynligheder er kvantitative udtryk for chancer
Vi kan både tale om sandsynligheden for at en bestemt person bliver udtrukket eller
sandsynligheden for at det er en socialdemokrat, der bliver udtrukket.
Sandsynligheden for at blive udtrukket
afhænger ikke af, hvem der ellers er udtrukket, og de svar personen giver,
påvirkes ikke af svarene fra andre personer.
Stokastisk uafhængighed
![Page 15: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/15.jpg)
15
Sandsynlighedsregningens grundregler
Sandsynlighedsskalaen går fra nul, der repræsenterer den umulige begivenhed til 1, for begivenheder, der altid vil forekomme. Skalaen har ordinalskala-egenskaber - jo større sandsynlighed, jo større chancer er der for at begivenhederne forekommer.
Ækvivalensaksiomet:
To begivenheder, A og B, har samme chance for at forekomme, hvis og kun hvis sandsynligheden for A er den samme som sandsynligheden for B.
![Page 16: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/16.jpg)
16
Additionsaksiomet:
Antag at to begivenheder, A og B, udelukker hinanden i den forstand, at de aldrig kan forekomme samtidig. Under denne forudsætning er sandsynlighe-den for at en af dem forekommer lig med summen af sandsynlighederne for hver af de to begivenheder,
P(A eller B) = P(A) + P(B) Additionsaksiomet for to disjunkte hændelser kan generaliseres til en additionssætning for et vilkårligt endeligt antal disjunkte hændelser.
P(A1∨∨∨∨ A2∨∨∨∨...∨∨∨∨Ak) = P(A1) + P(A2) +...+ P(Ak)
Sandsynligheden for at hændelsen A ikke fore-kommer, er lig med 1 minus sandsynligheden for at A forekommer:
P(ikke A) = 1 – P(A)
![Page 17: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/17.jpg)
17
Sandsynligheden for at en person, der udtrækkes til opinionsundersøgelsen, har stemt eller vil stemme på et bestemt parti: Der var i alt 3988787 stemmeberettigede.
Sandsynligheden for at vi får fat i en person, som vi kan spørge om hvad han eller hun stemte, er derfor lig med 1. Hver person har præcis den samme sandsynlighed, p, for at blive udtrukket. Sandsynligheden for at der udtrækkes en person (nemlig 1) er lig med summen af hver af de enkelte personers sandsynligheder. Da der er 3988787 stemmeberettigede i alt, følger det, at 1 = 3988787×××× p således at
p = 1/3988787 Der var i alt 1150048, der satte kryds ved A, der alle havde den samme sandsynlighed,1/3988787, for at blive udtrukket. Sandsynligheden for at det netop er en af dem, der udtrækkes, er lig med summen af disse 1150048 identiske sandsynligheder, dvs.: P(Socialdemokrat) = 1150048/3988787 = 0.288
![Page 18: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/18.jpg)
18
Betingede sandsynligheder Den betingede sandsynlighed for en begivenhed, A, givet at begivenheden B forekommer, er lig med sandsynligheden for at både A og B fore-kommer divideret med sandsynligheden for at B forekommer:
)(),(
)|(BP
BAPBAP ====
![Page 19: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/19.jpg)
19
Hvad er den betingede sandsynlighed for at der udtrækkes en socialdemokrat givet, at der er
tale om en gyldig stemme? Sandsynligheden for at udtrække en vælger, der enten ikke har stemt, eller som har afgivet et ugyldigt svar, er lig med
661190/3988787 = 0.166 Sandsynligheden for den komplementære hændelse, er lig med
P(gyldig stemme) = 1 - 0.166 = 0.834. Den betingede sandsynlighed for at udtrække en tilhænger af Socialdemokratiet, givet at der er tale om en gyldig stemme bliver herefter P(SocialdemokratGyldig stemme)
= 0.288/0.834 = 0.346
![Page 20: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/20.jpg)
20
Stokastisk uafhængighed
To hændelser er indbyrdes stokastisk uafhængige, hvis den marginale sandsynlighed for den ene, P(A), er lig med den betingede sandsynlighed for den samme hændelse givet den anden hændelse, B:
P(A) = P(AB)
Den simultane fordeling, P(A,B), er produktet af en betinget og en marginal fordeling:
P(A ,B) = P(AB) ××××P(B)
Multiplikationssætningen:
To hændelser, A og B, er stokastisk uafhængige, hvis og kun hvis den simultane sandsynlighed for de to hændelser er lig med produktet af de marginale sandsynligheder for hver af dem. Dvs. hvis og kun hvis
P(A,B) = P(A) ××××P(B)
![Page 21: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/21.jpg)
21
Sandsynligheden for at fem udtrukne personer stemte på følgende måde
A, B, A, V, ”ugyldig” er lig med 0.288 ×××× 0.038 ×××× 0.288 ×××× 0.194 ×××× 0.166 = 0.0001015 Sandsynligheden for at der findes to socialdemo-krater, en radikal, en venstre og en ugyldig er lig med denne sandsynlighed ganget med antallet af forskellige permutationer af de fem valg.
Denne sandsynlighed bliver 0.006090.
![Page 22: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/22.jpg)
22
Kvantitative mål for chancer: Odds og logits
Sandsynligheden = p
p
podds
−−−−====
1
odds
oddsp
++++====
1
Logit-værdier:
)1ln()ln()1
ln()ln( ppp
podds −−−−−−−−====
−−−−========αααα
αααα
αααα
e
ep
++++====
1
Logit-værdier
86420-2-4-6-8
Sandsynlig
heder
1.0
.8
.5
.3
0.0
![Page 23: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,](https://reader034.vdocuments.site/reader034/viewer/2022042707/5a75c4a47f8b9a0d558ca53c/html5/thumbnails/23.jpg)
23
Sandsynligheder, odds og logits
p odds logits 0.00 0.000 - 0.05 0.053 -2.944 0.10 0.111 -2.197 0.15 0.176 -1.735 0.20 0.250 -1.386 0.25 0.333 -1.099 0.30 0.429 -0.847 0.35 0.538 -0.619 0.40 0.667 -0.406 0.45 0.818 -0.201 0.50 1.000 0.000 0.55 1.222 0.201 0.60 1.500 0.406 0.65 1.857 0.619 0.70 2.333 0.847 0.75 3.000 1.099 0.80 4.000 1.386 0.85 5.667 1.735 0.90 9.000 2.197 0.95 19.000 2.944 1.00 - -