afsnit 2.1-2.7 5 - uniguld - uniguld...- 5 - afsnit 2.1-2.7 hvad er statistik? • indsamling af...

35
- 1 - Afsnit 2.1-2.7 ....................................................................................................................................... 5 Hvad er statistik?.............................................................................................................................. 5 Nøgletal ............................................................................................................................................ 5 Median ................................................................................................................................. 5 Varians ................................................................................................................................. 5 Fraktiler ................................................................................................................................ 6 Figurer .............................................................................................................................................. 6 Pareto diagram ..................................................................................................................... 6 Dot diagram.......................................................................................................................... 6 Frequency distribution ......................................................................................................... 6 Histogram ............................................................................................................................. 6 Boxplot ................................................................................................................................. 6 Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6 En grundregel ................................................................................................................................... 6 Den klassiske sandsynlighedskoncept ......................................................................................... 6 Binomialkoefficienten ...................................................................................................................... 6 Hvad er Stokastisk variable.............................................................................................................. 6 Tæthedsfunktion for diskret variabel ............................................................................................... 6 Fordelingsfunktion for diskret variabel............................................................................................ 6 Diskrete fordelinger ......................................................................................................................... 7 Binomial fordeling ....................................................................................................................... 7 Den Hypergeometrisk fordeling................................................................................................... 7 Poisson fordeling.......................................................................................................................... 8 Middelværdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9 Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9 Tæthedsfunktionen for kontinuert variabel ...................................................................................... 9 Fordelingsfunktion for kontinuert variabel ...................................................................................... 9 Kontinuerte fordelinger .................................................................................................................... 9 Normal fordeling og Standardiseret normal fordeling ................................................................. 9 Eksempel for standard normal fordeling:........................................................................... 10 Log-Normal fordeling ................................................................................................................ 10 Uniform fordeling ...................................................................................................................... 11 Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11 Eksponentiel fordeling ............................................................................................................... 11 Regler for stokastisk variabel (eksempler side 186) .................................................................. 12 Transformation ........................................................................................................................... 12 Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12 Stikprøvefordelinger ...................................................................................................................... 12 Definition af population og tilfældig stikprøve.......................................................................... 12 Stikprøvefordeling for middelværdien når variansen er kendt .................................................. 12 Estimation ...................................................................................................................................... 13 Begreber ..................................................................................................................................... 13 Den centrale grænseværdisætning ............................................................................................. 13 Maksimal fejl på et estimat hvor variansen er kendt ................................................................. 13 Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt ............. 14 Maksimal fejl på et estimat hvor variansen ikke er kendt.......................................................... 14

Upload: others

Post on 29-Feb-2020

3 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 1 -

Afsnit 2.1-2.7 ....................................................................................................................................... 5 Hvad er statistik? .............................................................................................................................. 5 Nøgletal ............................................................................................................................................ 5

• Median ................................................................................................................................. 5 • Varians ................................................................................................................................. 5 • Fraktiler ................................................................................................................................ 6

Figurer .............................................................................................................................................. 6 • Pareto diagram ..................................................................................................................... 6 • Dot diagram.......................................................................................................................... 6 • Frequency distribution ......................................................................................................... 6 • Histogram ............................................................................................................................. 6 • Boxplot ................................................................................................................................. 6

Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6 En grundregel ................................................................................................................................... 6

Den klassiske sandsynlighedskoncept ......................................................................................... 6 Binomialkoefficienten ...................................................................................................................... 6 Hvad er Stokastisk variable .............................................................................................................. 6 Tæthedsfunktion for diskret variabel ............................................................................................... 6 Fordelingsfunktion for diskret variabel ............................................................................................ 6 Diskrete fordelinger ......................................................................................................................... 7

Binomial fordeling ....................................................................................................................... 7 Den Hypergeometrisk fordeling ................................................................................................... 7 Poisson fordeling.......................................................................................................................... 8 Middelværdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9

Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9 Tæthedsfunktionen for kontinuert variabel ...................................................................................... 9 Fordelingsfunktion for kontinuert variabel ...................................................................................... 9 Kontinuerte fordelinger .................................................................................................................... 9

Normal fordeling og Standardiseret normal fordeling ................................................................. 9 • Eksempel for standard normal fordeling:........................................................................... 10 Log-Normal fordeling ................................................................................................................ 10 Uniform fordeling ...................................................................................................................... 11 Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11 Eksponentiel fordeling ............................................................................................................... 11 Regler for stokastisk variabel (eksempler side 186) .................................................................. 12 Transformation ........................................................................................................................... 12

Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12 Stikprøvefordelinger ...................................................................................................................... 12

Definition af population og tilfældig stikprøve.......................................................................... 12 Stikprøvefordeling for middelværdien når variansen er kendt .................................................. 12

Estimation ...................................................................................................................................... 13 Begreber ..................................................................................................................................... 13 Den centrale grænseværdisætning ............................................................................................. 13 Maksimal fejl på et estimat hvor variansen er kendt ................................................................. 13 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt ............. 14 Maksimal fejl på et estimat hvor variansen ikke er kendt .......................................................... 14

Page 2: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 2 -

• Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en stor stikprøve (n=>30) ................................................................................................................ 14 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en lille stikprøve (n<30) .................................................................................................................. 14

Afsnit 7.3, 7.4 og 7.5 .......................................................................................................................... 15 Hypotesetest for et gennemsnit ...................................................................................................... 15

Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes. ....................... 15 Trin ved hypotesetest ................................................................................................................. 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt .................................... 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n>30) ................ 16 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n<30) ................ 16

Afsnit 7.6-7.9 ..................................................................................................................................... 17 Hypotesetest for to gennemsnit ...................................................................................................... 17

1. Formulering af hypoteser ....................................................................................................... 17 2. beregning af teststørrelse for kendte varianser 2

221 σσ og .................................................... 17

3. sammenligning med kritisk værdi for kendte varianser 22

21 σσ og ....................................... 17

2. beregning af teststørrelse for ikke kendte varianser 22

21 σσ og ............................................. 18

3. sammenligning med kritisk værdi for ikke kendte varianser 22

21 σσ og ............................... 18

2. beregning af teststørrelse for ikke kendte varianser 22

21 σσ og , men 2

221 σσ = .................... 18

3. sammenligning med kritisk værdi for ikke kendte varianser 22

21 σσ og , men 2

221 σσ = ...... 18

Beregning af konfidensinterval for forskel i middelværdi for store stikprøver ......................... 19 Beregning af konfidensinterval for forskel i middelværdi for små stikprøver og ukendt

22

21 σσ og ................................................................................................................................... 19

Afsnit 8.1-8.3, 6.4 .............................................................................................................................. 19 Hypotesetest for en varians ............................................................................................................ 19

2χ -fordeling .............................................................................................................................. 19 Konfidensinterval for en varians ................................................................................................ 20 Hypotesetest af en varians.......................................................................................................... 20 1. Formulering af hypoteser ....................................................................................................... 20 2. teststørrelse bliver .................................................................................................................. 20 3. sammenligning med kritisk værdi .......................................................................................... 20

Hypotesetest af 2 varianser ............................................................................................................ 21 F-fordeling ................................................................................................................................. 21 Hypotesetest af 2 varianser ........................................................................................................ 21 1. Formulering af hypoteser ....................................................................................................... 21 2. teststørrelse bliver .................................................................................................................. 21 3. sammenligning med kritisk værdi .......................................................................................... 21

Afsnit 9.1-9.5 ..................................................................................................................................... 22 Estimation af andele ....................................................................................................................... 22

Konfidensinterval for en andel ................................................................................................... 22 Konfidensinterval for to andele .................................................................................................. 22 Maksimal fejl på estimat ............................................................................................................ 22 Bestemmelse af stikprøvestørrelse hvor p kendes ..................................................................... 22 Bestemmelse af stikprøvestørrelse hvor p ikke kendes ............................................................. 23

Page 3: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 3 -

Hypotesetest af 1 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 23 3. sammenligning med kritisk værdi .......................................................................................... 23

Hypotesetest af 2 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 24 3. sammenligning med kritisk værdi .......................................................................................... 24

Hypotesetest af flere andel ............................................................................................................. 24 1. Formulering af hypoteser ....................................................................................................... 24 2. teststørrelse bliver .................................................................................................................. 25 3. sammenligning med kritisk værdi .......................................................................................... 25

Analyse af antalstabeller ................................................................................................................ 25 1. Formulering af hypoteser ....................................................................................................... 25 2. teststørrelse bliver .................................................................................................................. 26 3. sammenligning med kritisk værdi .......................................................................................... 26

Goodness of fit (test for fordeling) ................................................................................................ 27 Afsnit 10.1-10.4 ................................................................................................................................. 27

Sign test .......................................................................................................................................... 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 27 3. sammenligning med kritisk værdi .......................................................................................... 27

Rank-sum test ................................................................................................................................. 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 28 3. sammenligning med kritisk værdi .......................................................................................... 28

Test for tilfældighed ....................................................................................................................... 28 Afsnit 11.1, 11.2, 11.6 ........................................................................................................................ 29

Regressionsanalyse ........................................................................................................................ 29 Korrelation ................................................................................................................................. 29 Simpel lineær regressionsmodel ................................................................................................ 29 Mindste kvadraters metode ........................................................................................................ 29

Interferens i regressionsmodel ....................................................................................................... 30 1. Formulering af hypotese om skæring med y-aksen ............................................................... 30 2. teststørrelse bliver .................................................................................................................. 30 3. sammenligning med kritisk værdi .......................................................................................... 30 1. Formulering af hypotese om hældningen β ........................................................................... 30 2. teststørrelse bliver .................................................................................................................. 31 3. sammenligning med kritisk værdi .......................................................................................... 31

Konfidensintervaller for α og β ...................................................................................................... 31 Konfidensintervaller for α+ β*x 0 ................................................................................................... 31 Prædiktionsinterval for α+ β*x 0 ..................................................................................................... 31 Korrelation og regression ............................................................................................................... 31

Afsnit 12.1-12.3 ................................................................................................................................. 32 Variansanalyse (forskel i middel) .................................................................................................. 32 En-sidet variansanalyse .................................................................................................................. 32

1. Formulering af hypotese ........................................................................................................ 32 2. teststørrelse bliver .................................................................................................................. 33

Page 4: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 4 -

3. sammenligning med kritisk værdi .......................................................................................... 33 Tosidet variansanalyse ................................................................................................................... 34 Definition på parat t-test ................................................................................................................ 35

Page 5: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 5 -

Afsnit 2.1-2.7

Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en population. • Baseret på stikprøven, prøver vi at generalisere (eller udtale os) om populationen.

Nøgletal • Middelværdi angiver tyngdepunkt eller centrering af data:

∑=

=n

iix

nx

1

1

o Eks. Har vi tallene: 12, 15, 13, 14, 16

Middelværdien bliver: ( ) 1416141315125

1 =++++=x

• Median angiver tyngdepunkt eller centrering af data. I nogle tilfælde, f.eks. hvis man har ekstreme værdier, er medianen at fortrække frem for middelværdien: Først skal antal n sættes i rækkefølge, hvis:

o Ulige antal n er tallet i midten medianen. o Lige antal n, tages de to tal i midten ligger dem sammen og deler med 2 = madian.

• Varians (eller standardafvigelsen ) siger noget om hvor maget data spreder:

o Varians: 2

1

2 )(1

1∑

=

−−

=n

ii xx

ns

o Eller varians: )1(

2

11

2

2

−⋅

−⋅=

∑∑==

nn

xxn

s

n

ii

n

ii

� Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelværdi eks. Så

x er den samme). Variansen bliver:

( ) ( ) ( ) ( ) ( )( ) 5,21416141414131415141215

1 222222 =−+−+−+−+−−

=s

o Standardafvigelse (spredning ): 2ss =

• Vigtigt : _

x og s er estimerede værdier dvs. at hvis man tager en stikprøve ud af en population og beregner middelværdien og spredningen er det estimerede. µ og σ gælder for hele populationen.

• Variationskoefficient bruges til at sammenligne variationen mellem forskellige datasæt:

100⋅=x

sV

Page 6: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 6 -

• Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data i andre dele. Ofte beregner man fraktiler:

0, 25, 50, 75, 100 % fraktiler.

Figurer • Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet

system. • Dot diagram er godt til at detektere fejl ved at se på outliers prikker som ligger

usædvanligt. • Frequency distribution : opdeling i intervaller/klasser og optælle herefter. • Histogram : se side 19. god til grove data med mange tal. • Boxplot : en rektangel der repræsentere midten af data og en linje repræsentere medianen.

De to linjer på siderne af rektanglen repræsentere 95% og 5%.

Afsnit 4.1-4.4 og 4.6 og 4.7

En grundregel Den klassiske sandsynlighedskoncept defineres: Hvis der findes n lige sandsynlige udfald, hvorfra et må ske, og hændelsen s betegnes som ’succes’, så er sandsynligheden for succes givet ved:

n

s

Binomialkoefficienten Det antal forskellige måder som vi kan udvælge r objekter taget ud fra en population bestående af n forskellige objekter er:

( )!!

!

rnr

n

r

n

−=

Hvad er Stokastisk variable • En funktion defineret over udfaldsrummets elementer. • Følger en statistisk fordeling. • Stokastisk variable angives ved store bogstaver, f.eks. X, Y, Z. • Udfaldet fra det stokastiske variable angives ved tilsvarende små bogstaver, f.eks. x, y,z. • Vi skelner mellem diskrete og kontinuerte stokastiske variable.

Tæthedsfunktion for diskret variabel • For en stokastisk variabel betegnes tæthedsfunktionen ved f(x). • For den diskrete variabel kan vi skrive tæthedsfunktionen som:

( )xXPxf ==)(

Fordelingsfunktion for diskret variabel • Fordelingsfunktionen for en stokastisk variabel betegnes ved F(x). • Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:

Page 7: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 7 -

)()( xXPxF ≤=

Diskrete fordelinger

Binomial fordeling • Vi betragter n uafhængige forsøg. • I hvert enkelt forsøg kan udfaldet/hændelsen blive enten succes eller fiasko. • Sandsynligheden for succes er p (og er den samme for alle n forsøg). • Sandsynligheden for fiasko er dermed 1-p (og er den samme for alle n forsøg). • De forskellige udfald er uafhængige. • Med tilbage lægning. • En stokastisk variabel, X, er binomial fordelt:

),;( pnxbX ≈ X = antal ”mærkede” i stikprøven.

p = populationsandelen = a/n, hvor a er i alt defekte. n = stikprøvestørrelsen.

Det er lille b hvis det er præcis en mængde og store B hvis det er større eller mindre end en mængde.

• Tæthedsfunktion for en binomial fordeling: ( ) xnxn

x ppxXPxf −−⋅=== )1()()(

)1()()( −≤−≤== xXPxXPxXP , tabel 1 side 576.

• Fordelingsfunktion for binomal fordeling: )()( xXPxF ≤= , tabel 1 side 576.

)1()( −≤=< xXPxXP )1(1)( −≤−=> xXPxXP

MOST (højst) brug: )( udfaldXP ≤ , direkte ved opslag tabel 1. MORE THAN (mere end): )(1)( udfaldXPudfaldXP ≤−=> LEAST (mindst) brug: )1(1)( −≤−=≥ udfaldXPudfaldXP LESS THAN (mindre end): )1()( −≤=< udfaldXPudfaldXP

• Middelværdi: pn ⋅=µ

• Varians: )1(2 pnp −⋅=σ • Hvis man ønsker at finde sandsynligheden for et bestemt område:

B(h;n,p)-B(t;n,p)

Den Hypergeometrisk fordeling • En population med størrelse N. • En stikprøve af størrelse n. • Der er a defekte i populationen.

t h

Page 8: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 8 -

• Der er N-a ikke-defekte i populationen. • x er antal defekte ud af stikprøven. • Uden tilbage lægning. • Den stokastiske variabel, X, er hypergeometrisk fordelt:

),,;( NanxhX ≈

• Tæthedsfunktion for den hypergeometriske fordeling:

( )( )( )N

n

aNxn

axxXPxf

−−=== )()(

• Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen N er stor og stikprøven n er lille.

Obs! Binomial fordeling kan til forveksling bruges i tilfælde hvor n ikke er så lille i forhold til N også kunne man begå den fejl at anvende binomial distribution med n og p = a/N. se side 111.

• Middelværdi: N

an ⋅=µ

• Varians:

−−

−=1

12

N

nN

N

a

N

anσ

Poisson fordeling • Poisson fordeling anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er

nogen naturlig øvre grænse. • Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. på formen antal/enhed. • Parameteren λ angiver intensiteten i poisson fordelingen. • Når n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution. • Possion fordeling anvendes til approksimation af binomiale sansynligheder, når

05.020 ≤≥ pogn , hvis 10100 ≤≥ nplængesågodtionenapproksimaern

• Se s. 129 for sammenligning af possion og binomial. • Den stokastiske variabel, X, er possion fordelt:

)(λPX ≈

• Tæthedsfunktionen:

λλ −⋅=== ex

xXPxfx

!)()(

• Fordelingsfunktionen: )()( xXPxF ≤= , tabel 2, side 581 MOST (højst) brug: )( udfaldXP ≤ , direkte ved opslag tabel 2. MORE THEN (mere end): )(1)( udfaldXPudfaldXP ≤−=> LEAST (mindst) brug: )1(1)( −≤−=≥ udfaldXPudfaldXP LESS THEN (mindre end): )1()( −≤=< udfaldXPudfaldXP

• Middelværdi: λµ =

• Varians: λσ =2

Page 9: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 9 -

Middelværdi og varians for en diskret stokastisk va riabel (overordnet)

• Middelværdi: ∑ ⋅=S

xfx )(µ , hvor S er udfaldsrummet for X.

• Det vides at: 1)( =∑S

xf

• Varians: ∑ ⋅−=S

xfx )()( 22 µσ , hvor S er udfaldsrummet for X.

Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.1 2

Tæthedsfunktionen for kontinuert variabel • Tæthedsfunktionen betegnes f(x). • f(x) siger noget om den relative hyppighed af udfaldet x for den stokastiske variabel X. • For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs:

)()( xXPxf =≠

Fordelingsfunktion for kontinuert variabel • Fordelingsfunktionen betegnes ved F(x). • Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:

)()( xXPxF ≤=

Kontinuerte fordelinger

Normal fordeling og Standardiseret normal fordeling • Der kan ikke opstilles generelle kriterier for, hvornår en variabel er normailfordelt. • Ofte kan man ramme rigtigt, hvis man til hvert element stiller spørgsmålet: ”hvilken værdi

har elementet” og svarmuligheden er ”et tal”. ),( 2σµNX ≈

• Tæthedsfunktionen: ( )

2

2

2

2

1)( σ

µ

πσ⋅−−

⋅⋅⋅

=x

exf

)( xXP < , aflæses i tabel 3, side 585 )(1)( xXPxXP <−=>

∫=≤≤b

adxxfbXaP )()(

• Middelværdi: µµ =

• Varians: 22 σσ = • En normal fordeling med middelværdien 0 og variansen 1, dvs. )1,0( 2NX ≈ , kaldes en

standard normal fordeling.

• En vilkårlig normal fordelt variabel ),( 2σµNX ≈ kan standardiseres ved at beregne:

σµ−= X

Z

Page 10: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 10 -

• Fordelingsfunktionen:

∫∞−

−⋅⋅

=z

dtezFt

22

2

1)(

π , kan findes i tabel 3, side 585.

)( zXP < , aflæses i tabel 3, side 585 )(1)( zXPzXP <−=>

Less (mindre end):

−=<σ

µaFaXP )(

More (større end):

−−=>σ

µaFaXP 1)(

Between (imellem):

−−

−=<<σ

µσ

µ aF

bFbXaP )(

F(Z) aflæses i tabel 3, side 585

• Eksempel for standard normal fordeling: P(-z < X < z) = 0,9298

z = 1-0,9298/2

Log-Normal fordeling • Log-normal fordelingen benyttes når vi har en tilfældig variable, som er på den måde at hvis

man tager ln til den giver det normal distribution: ),( 2βαLNX ≈

• Tæthedsfunktion: 22 2/))(ln(1

2

1)( βα

πβ−−− ⋅⋅

⋅= xexxf

• Middelværdi: 2/2βαµ += e

• Varians: )1(22/22 −= ββασ ee

• En log-normal fordelt variabel ),( 2βαLNX ≈ , kan transformeres til en standard normal fordelt variabel Z ved:

βα−= )ln(X

Z

• til at finde sandsynligheden (imellem a og b):

-z z

0,9298

Page 11: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 11 -

−−

−=⋅

=<< −−b

a

y aF

bFdyebXaP

ln

ln

2/)( lnln

2

1)(

22

βα

βα

βπβα

−=<β

αaFaXP

ln)(

−−=>β

αaFaXP

ln1)(

Tabel 3 s.585

Uniform fordeling • ),( βαUX ≈

• Tæthedsfunktionen:

αβ −= 1

)(xf

• Fordelingsfunktionen:

βααβ −−=

−= ∫

badxxF

a

b

1)(

• Middelværdi: 2

βαµ +=

• Varians: 21212 )( αβσ −=

Middelværdi og varians af en kontinuert stokastisk variabel (overordnet)

• Middelværdi: ∫ ⋅=S

dxxfx )(µ , hvor S er udfaldsrummet for X.

• Varians: ∫ ⋅−=S

dxxfx )()( 22 µσ , hvor S er udfaldsrummet for X.

Eksponentiel fordeling • Tæthedsfunktionen:

β

β/1

)( xexf −=

• Fordelingsfunktionen:

ββ

β/

0

/ 11

)( xx x edxexF −− −== ∫

β/1)()( xexFxXP −−==<

)1(1)(1)( / βxexFxXP −−−=−=>

• Eksponential fordeling er et special tilfælde af Gamma fordeling (α=1). • Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider. • Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hændelser i

poisson fordelingen. βλ =

• Middelværdi: βµ = .

Page 12: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 12 -

• Varians: 22 βσ = .

Regler for stokastisk variabel (eksempler side 186) Vi antager at a og b er konstanter og X er en stokastisk variabel:

• E = middelværdi: bXaEbaXE +=+ )()(

• Var = Varians: )()( 2 xVarabaXVar =+ Følgende linear kombination gælder:

• )(...)()()...( 22112211 nnnn XEaXEaXEaXaXaXaE +++=+++

)()()( 2121 XEXEXXE −=−

cXbEXaEcbXaXE +−=+− )()()( 2121

• )(...)()()...( 22

221

212211 nnnn XVaraXVaraXVaraXaXaXaVar +++=+++

)()()( 2121 XVarXVarXXVar +=− , læg mærke til at der ændres her til plus.

)()()( 22

12

21 XVarbXVaracbXaXVar +=+− , læg mærke til at der ændres her til plus.

Transformation Såfremt data afviger fra at være normalt fordelt, kan man ofte med fordel transformere data, således at de transformerede data kan antages at være normal fordelt.

Afsnit 7.1-7.2, 6.1, 6.2 og 6.3

Stikprøvefordelinger

Definition af population og tilfældig stikprøve • Tilfældig stikprøve fra en endelig population:

Observationerne X1, X2,…,Xn er en tilfældig stikprøve af størrelse n fra en endelig population af størrelse N, såfremt værdierne er valgt således, at enhver delmængde af størrelse n af de N elementer fra populationen har den samme sandsynlighed for at blive valgt.

• Tilfældig stikprøve fra en uendelig population: Et sæt observationer X1, X2,…,Xn er en tilfældig stikprøve af størrelsen n fra en uendelig population f(x) såfremt: 1. hvert Xi er en stokastisk variabel med tæthedsfunktionen f(x). 2. De n stokastiske variable er uafhængige.

Stikprøvefordeling for middelværdien når variansen er kendt • Uendelig population:

Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2. Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen σ2/n.

• Endelig population: Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2.

Page 13: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 13 -

Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen

1

2

−−⋅ N

nNn

σ .

Estimation

Begreber • Central estimator:

En estimator θ̂ er central (eller ikke-biased), hvis og kun hvis, middelværdien af stikprøvefordelingen for estimatoren er lig θ .

• Efficient estimator:

En estimator 1̂θ er en mere efficient estimator af θ end estimatoren 2θ̂ hvis:

1. 1̂θ og 2θ̂ begge er centrale estimatorer af θ .

2. variansen af stikprøvefordelingen for 1̂θ er mindre end for 2θ̂ .

Den centrale grænseværdisætning

Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med median (mean) µ og variansen σ2, da vil:

n

XZ

/σµ−=

Følge en N(0,12) fordeling for ∞→n .

Maksimal fejl på et estimat hvor variansen er kendt For store værdier af n gælder:

n

XZ

/σµ−=

Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(

2αα −= bliver:

nzE

σα ⋅= 2/ , hvor zα/2 findes i tabel 3.

To eksempler for at finde 2αz :

96,1

025,0

95,0

025,0

295,01

2

2==

===

zzα

α

α

575,2

005,0

99,0

005,0

299,01

2

2==

===

zzα

α

α

Værdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586 Hvis E er kendt kan stikprøvestørrelsen n findes ved:

Page 14: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 14 -

2

2

⋅=

E

zn

σα

2

/21

4

zn

Eα =

µσ

ˆ

2

=n

• Intervalestimation (konfidensinterval for middelvær di) hvor variansen er kendt

2/2//

αα σµ

zn

Xz <−<−

Ved omskrivning får (1-α) konfidensintervallet:

nzx

nzx

σµσαα ⋅+<<⋅− 2/2/

nzx

σα ⋅± 2/

Maksimal fejl på et estimat hvor variansen ikke er kendt For store værdier af n gælder:

nS

Xt

/

µ−=

Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(

2αα −= bliver:

n

stE ⋅= 2/α , hvor tα/2 = t(n-1)α/2 findes i tabel 4 ( )1−= nv og s er beregnet varians.

• Intervalestimation (konfidensinterval for middelvær di) hvor variansen ikke er kendt og en stor stikprøve (n=>30)

n

szx

n

szx ⋅+<<⋅− 2/2/ αα µ , σ blot erstattet med s. Konfidensinterval, tabel 3.

n

szx ⋅± 2/α

z ikke skiftet ud med t, fordi i tabel 4 går n ikke højere end 30 så derfor gøre det ingen forskel.

• Intervalestimation (konfidensinterval for middelvær di) hvor variansen ikke er kendt og en lille stikprøve (n<30)

n

stx

n

stx ⋅+<<⋅− 2/2/ αα µ , z erstattet med t. Konfidensinterval, tabel 4 (v=n-1).

Page 15: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 15 -

n

stx ⋅± 2/α

Afsnit 7.3, 7.4 og 7.5

Hypotesetest for et gennemsnit

Formulering af nul-hypotesen og alternativ hypotese n Parameter µ betragtes.

• Nul hypotese testes mod alternativ hypotese:

01

00

:

:

µµµµ

≠=

H

H

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

01

00

:

:

µµµµ

≠=

H

H

• Ensidet alternativ, der bliver H1 enten:

01

01

:

:

µµ

µµ

>

<

H

eller

H

• I nulhypotesen anvendes så vidt som muligt lighedstegn. • I alternativ hypotese placeres det udsagn som man gerne vil vise. • Eksempelvis: en man stilles for en dommer, anklaget for noget kriminelt. Her bliver nul- og

alternativ-hypotesen:

skyldigerMandenH

skyldigikkeerMandenH

:

:

1

0

Trin ved hypotesetest 1. Opstil hypoteser og vælg signifikansniveau α (vælg ”risiko-niveau”). 2. Beregn teststørrelse. 3. Beregn p-værdi vha. teststørrelse. Testets p-værdi måler datas afvigelser fra H0. 4. Sammenligne p-værdi med signifikansniveau og drag en konklusion. Alternativt kan testet

udføres ved at sammenligne teststørrelse med kritisk værdi.

Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er kendt • Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan

teststørrelsen beregnes ved:

n

XZ σ

µ0−=

Der antages en normal fordeling og σ er kendt. • P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). • Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).

Alternativ Afvis

Page 16: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 16 -

hypotese Nul-hypotese hvis

0µµ < αzZ −<

0µµ > αzZ >

0µµ ≠ 2/αzZ −< eller

2/αzZ >

Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er ikke kendt (n>30)

• Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved:

ns

XZ 0µ−

=

Der antages en normal fordeling og σ er ikke kendt. • P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). • Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).

Alternativ hypotese

Afvis Nul-hypotese hvis

0µµ < αzZ −<

0µµ > αzZ >

0µµ ≠ 2/αzZ −< eller

2/αzZ >

Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er ikke kendt (n<30)

• Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved:

ns

Xt 0µ−

=

Der antages en normal fordeling og σ ikke er kendt. • P-værdien findes for teststørrelsen Z ved opslag i t-fordeling (tabel 4), v=n-1. • Sammenligning med kritisk værdi tα (eller tα/2 i et tosidet test).

Alternativ hypotese

Afvis Nul-hypotese hvis

0µµ < αtt −<

0µµ > αtt >

0µµ ≠ 2/αtt −< eller

2/αtt >

• Hvordan kan sandsynligheden for fejl påvirkes: o Ved at ændre signifikansniveau α. o Ved at øge stikprøvestørrelse n.

Page 17: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 17 -

Afsnit 7.6-7.9

Hypotesetest for to gennemsnit • Sammenligner gennemsnit (middelværdier) af 2 stikprøver.

o Stikprøve 1: 2111, sogXn

o Stikprøve 2: 2222 , sogXn

1. Formulering af hypoteser • Parameter 21, µµ betragtes.

• Nul hypotese testes mod alternativ hypotese:

δµµδµµ

≠−=−

211

210

:

:

H

H

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

δµµδµµ

≠−=−

211

210

:

:

H

H

• Ensidet alternativ, der bliver H1 enten:

δµµ

δµµ

>−

<−

211

211

:

:

H

eller

H

• Typisk er man interesseret i at teste med 0=δ .

2. beregning af teststørrelse for kendte varianser 22

21 σσ og

• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og er kendte, fås teststørrelsen:

2221

21

21

//

)(

nn

XXZ

σσδ

+

−−= ,(tabel 3).

Denne måler forskellen på to grupper og δ stort set altid nul.

3. sammenligning med kritisk værdi for kendte varia nser 22

21 σσ og

• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og er kendte, fås:

Alternativ hypotese

Afvis Nul-hypotese hvis

δµµ <− 21 αzZ −<

δµµ >− 21 αzZ >

δµµ ≠− 21 2/αzZ −< eller

2/αzZ >

(tabel 3).

Page 18: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 18 -

2. beregning af teststørrelse for ikke kendte varia nser 22

21 σσ og

• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og ikke er kendte, fås teststørrelsen:

2221

21

21

//

)(

nsns

XXZ

+

−−= δ,(tabel 3).

Denne måler forskellen på to grupper og δ stort set altid nul.

3. sammenligning med kritisk værdi for ikke kendte varianser 22

21 σσ og

• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og ikke er kendte, fås:

Alternativ hypotese

Afvis Nul-hypotese hvis

δµµ <− 21 αzZ −<

δµµ >− 21 αzZ >

δµµ ≠− 21 2/αzZ −< eller

2/αzZ >

(tabel 3).

2. beregning af teststørrelse for ikke kendte varia nser 22

21 σσ og , men 2

221 σσ =

• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og ikke er kendte, men med 2

221 σσ = , fås teststørrelsen:

1 2

1 2

( )

1/ 1/p

X Xt

s n n

δ− −=+

Denne måler forskellen på to grupper og δ stort set altid nul. Hvor

2

)1()1(

21

222

2112

−+−+−

=nn

snsnsp

Og frihedsgrader: 221 −+= nnv

(tabel 4).

3. sammenligning med kritisk værdi for ikke kendte varianser 22

21 σσ og , men

22

21 σσ =

• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2

221 σσ og ikke er kendte, men 2

221 σσ = , fås:

Alternativ hypotese

Afvis Nul-hypotese hvis

δµµ <− 21 αtt −<

δµµ >− 21 αtt >

Page 19: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 19 -

δµµ ≠− 21 2/αtt −< eller

2/αtt >

Og frihedsgrader: 221 −+= nnv

(tabel 4).

Beregning af konfidensinterval for forskel i middel værdi for store stikprøver • For store stikprøver beregnes et (1-α)% konfidensinterval ved:

2

22

1

21

2/21n

s

n

szxx +±− α ,(tabel 3).

2)1(

2αα −=

Kendes 22

21 σσ og anvendes disse i stedet for 2

221 sogs .

Beregning af konfidensinterval for forskel i middel værdi for små stikprøver og ukendt 2

221 σσ og

• For små stikprøver og ukendt 22

21 σσ og , men med 2

221 σσ = beregnes et (1-α)%

konfidensinterval ved:

2121

222

211

2/2111

2

)1()1(

nnnn

snsntxx +

−+−+−

±− α

Og frihedsgrader: 221 −+= nnv

(tabel 4).

2)1(

2αα −=

Afsnit 8.1-8.3, 6.4

Hypotesetest for en varians

2χ -fordeling

• Variansen for en stokastisk variabel X estimeres ved:

2

1

2 )(1

1∑

=

−−

=n

ii XX

nS

Hvor n er antallet af observationer X i er observationer nr. i, hvor i =1…n

X estimat af middelværdien for X Store bogstaver => stokastiskvariabel.

• Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2, da er:

( ) χσ

χ =−= KiSn

,12

22 , v = n-1 (tabel 5, s. 588).

Page 20: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 20 -

αχχ α =≥ )( 22P

Konfidensinterval for en varians Et (1-α)% konfidensinterval for en varians σ2 fås ved:

22/1

22

22/

2 )1()1(

αα χσ

χ −

−<<− SnSn

2)1(

2αα −=

v = n-1 (tabel 5, s. 588).

Hypotesetest af en varians

1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:

20

21

20

20

:

:

σσσσ

=

H

H

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

20

21

20

20

:

:

σσσσ

=

H

H

• Ensidet alternativ, der bliver H1 enten:

20

21

20

21

:

:

σσ

σσ

>

<

H

eller

H

• Hvor 2

0σ er værdien der testes for.

2. teststørrelse bliver • Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2,

da er:

( ) χσ

χ =−= KiSn

,120

22 , v = n-1 (tabel 5, s. 588).

αχχ α =≥ )( 22P

3. sammenligning med kritisk værdi Alternativ hypotese

Afvis Nul-hypotese hvis

20

2 σσ < 21

2αχχ −<

20

2 σσ > 22αχχ >

20

2 σσ ≠ 21

2αχχ −< eller

Page 21: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 21 -

22αχχ >

(tabel 5).

Hypotesetest af 2 varianser • Sammenligner varianser af 2 stikprøver.

o Stikprøve 1: 2111, sogXn

o Stikprøve 2: 2222 , sogXn

F-fordeling • Lad 2

221 SogS være varianser af stikprøver af størrelserne 21 nogn fra en normalfordeling

med varians σ2, da er:

22

21

S

SF = , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).

αα =≥ )( FFP

Hypotesetest af 2 varianser

1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:

22

211

22

210

:

:

σσσσ

=

H

H

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

22

211

22

210

:

:

σσσσ

=

H

H

• Ensidet alternativ, der bliver H1 enten:

22

211

22

211

:

:

σσ

σσ

>

<

H

eller

H

2. teststørrelse bliver

22

21

S

SF = , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).

αα =≥ )( FFP

3. sammenligning med kritisk værdi Alternativ hypotese

Afvis Nul-hypotese hvis

22

21 σσ < )1,1( 12 −−> nnFF α

22

21 σσ > )1,1( 21 −−> nnFF α

Page 22: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 22 -

22

21 σσ ≠ )1,1(2/ −−> mM nnFF α

(i sidste tilfælde gælder 22mM SS > )

(tabel 6a og 6b).

Afsnit 9.1-9.5

Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet uf af n forsøg:

n

xp =

Konfidensinterval for en andel Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p:

nz

n

xp

nz

n

x nx

nx

nx

nx )1()1(

2/2/

−⋅+<<

−⋅− αα

2)1(

2αα −=

Konfidensinterval for to andele Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p1-p2:

2

2

2

2

2

1

1

1

1

1

2/2

2

1

121

11

n

n

x

n

x

n

n

x

n

x

zn

x

n

xpp

+

⋅±

−=− α

2)1(

2αα −=

Maksimal fejl på estimat

Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(

2αα −= bliver:

n

ppzE

)1(2/

−⋅= α , hvor zα/2 findes i tabel 3.

n

xp =

Bestemmelse af stikprøvestørrelse hvor p kendes Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved:

2

2/)1(

⋅−=E

zppn α

2)1(

2αα −= , hvor zα/2 findes i tabel 3.

Page 23: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 23 -

Bestemmelse af stikprøvestørrelse hvor p ikke kende s Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved:

2

2/

4

1

⋅=E

zn α , p=1/2

2)1(

2αα −= , hvor zα/2 findes i tabel 3.

Hypotesetest af 1 andel

1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:

01

00

:

:

ppH

ppH

≠=

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

01

00

:

:

ppH

ppH

≠=

• Ensidet alternativ, der bliver H1 enten:

01

01

:

:

ppH

eller

ppH

>

<

2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:

)1( 00

0

ppn

pnXZ

−⋅⋅−

=

3. sammenligning med kritisk værdi Alternativ hypotese

Afvis Nul-hypotese hvis

0pp < αzZ −<

0pp > αzZ >

0pp ≠ αzZ −< eller

αzZ >

(tabel 3).

Hypotesetest af 2 andel

1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:

Page 24: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 24 -

211

210

:

:

ppH

ppH

≠=

Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:

211

210

:

:

ppH

ppH

≠=

• Ensidet alternativ, der bliver H1 enten:

211

211

:

:

ppH

eller

ppH

>

<

2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:

))(ˆ1(ˆ21

2

2

1

1

11nn

nX

nX

ppZ

+−

−=

Hvor 21

21ˆnn

XXp

++

=

3. sammenligning med kritisk værdi Alternativ hypotese

Afvis Nul-hypotese hvis

0pp < αzZ −<

0pp > αzZ >

0pp ≠ αzZ −< eller

αzZ >

(tabel 3).

Hypotesetest af flere andel

1. Formulering af hypoteser • I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordelinger

har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen: ppppH k ==== ...: 210

Mod alternativ hypotese at disse andele ikke er ens.

Page 25: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 25 -

• Under nul-hypotesen får et estimat for p:

n

xp =ˆ

• Såfremt nul-hypotesen gælder, vil vi forvente at den j’te gruppe har e1j successer og e2j fiaskoer, hvor

n

xnpne j

jj

⋅=⋅= ˆ1

n

xnnpne j

jj

)()ˆ1(2

−⋅=−=

2. teststørrelse bliver • Teststørrelsen bliver

( )∑∑

= =

−=

2

1 1

2

2

i

k

j ij

ijij

e

eoχ

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes.

3. sammenligning med kritisk værdi • Vi har teststørrelsen

( )∑∑

= =

−=

2

1 1

2

2

i

k

j ij

ijij

e

eoχ

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes

• Teststørrelsen sammenlignes med )1(2 −kαχ

• Såfremt )1(22 −> kαχχ forkastes nul-hypotesen.

Analyse af antalstabeller

1. Formulering af hypoteser • Følgende to tabeller er eksempler på antalstabeller:

o Opgaven kan lyde: Er stemmefordelingen ens for følgende tabel:

Page 26: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 26 -

o Er der uafhængighed mellem inddelingskriterier:

• Opstilling af nul-hypotesen:

3210 : iii pppH ==

2. teststørrelse bliver • I en antalstabel med r rækker og c søjler, fås teststørrelsen:

( )∑∑

= =

−=

r

i

c

j ij

ijij

e

eo

1 1

2

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes.

3. sammenligning med kritisk værdi • Vi har teststørrelsen:

( )∑∑

= =

−=

r

i

c

j ij

ijij

e

eo

1 1

2

• Teststørrelsen sammenlignes med: ( ))1)(1(2 −− crαχ tabel 5 side 588

• Såfremt ( ))1)(1(22 −−> crαχχ det sidste led er v. forkastes nul-hypotesen.

33,42600

127200

43

)3(

70600

210200

84

)2(

67,87600

263200

79

)1(

23

23

12

12

11

11

=⋅=

=

=⋅=

=

=⋅=

=

e

o

e

o

e

o

tabeldenne

forberegneseogo

hvordanpåeksemplertre

ijij

I alt

263

210

127

600 I alt 200 200 200

AAA

Page 27: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 27 -

Goodness of fit (test for fordeling) Ofte vil man gerne teste om data (observationer) følger en specifik fordeling. Dette gøres ved at sammenligne observerede fraktiler med tilsvarende teoretiske fraktiler under forudsætning af en given fordeling. Herefter beregnes teststørrelsen ved

( )∑∑

= =

−=

r

i

c

j ij

ijij

e

eo

1 1

2

Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes.

Teststørrelsen skal sammenlignes med kritisk værdi, der findes i ( )mk −−12αχ , hvor k er antal

inddelinger (celler i tabellen) og m er antal estimerede parametre.

Afsnit 10.1-10.4

Sign test Kan bruges som alternativ for:

• Hypotesetest for en middelværdi • Parret t-test

Når ovenstående test ikke kan bruges pga. antagelse om normalfordeling.

1. Formulering af hypoteser Sign test kan bruges til at teste hypotese om median

D

D

H

H

µµµµ~~:

~~:

1

0

≠=

Hvor Dµ~ er den værdi vi ønsker at teste.

2. teststørrelse bliver Beregning af teststørrelse/p-værdi:

• Antal af observationer større end medianen optælles, +X .

• Testets p-værdi kan nu findes ved at beregne sandsynligheden for (ensidet test) )( +≥ XXP

3. sammenligning med kritisk værdi Såfremt p-værdi er mindre end signifikansniveau, forkastes H0.

Rank-sum test Rank-sum test (også kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som alternativ til almindelig t-test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelse ikke holder.

1. Formulering af hypoteser Rank-sum test kan altså bruges til at sammenligne medianen for 2 uafhængige stikprøver:

Page 28: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 28 -

121

121

,...,,

,...,,

n

n

yyy

xxx

2. teststørrelse bliver Beregning af teststørrelse: data sorteres og rangeres (eng: ranks) i stigende rækkefælge. For hver af de to stikprøver summeres de tilhørende ranks, her benævnt W1 og W2, så der kan beregnes:

2

)1( 1111

+−=

nnWU

2

)1( 2222

+−=

nnWU

Det gælder nu, at såfremt de to stikprøver kommer fra den samme fordeling, så haves:

221

1

nnU

⋅=µ

12

)1( 21212

1

++⋅=

nnnnUσ

Når n1 og n2 er tilpas store (>8) kan vi nu anvende:

)1,0( 21

1

1 NU

ZU

U ≈−

µ teststørrelse

3. sammenligning med kritisk værdi Hvis population 2 er større end population 1: Så afvises H0, hvis Z < -zα, da en lille værdi af U1 giver en lille værdi af W1. Hvis population 1 er større end population 2: Så afvises H0, hvis Z > zα, da en stor værdi af U1 giver en stor værdi af W1.

Test for tilfældighed • I mange undersøgelser er det vigtigt at afgøre om en stikprøve er fremkommet tilfældigt. • Hvis vi har en sekvens med n1 af den ene type og n2 af en anden type (og hverken n1eller n2

er mindre end 10), f.eks.: K K K P K K P P K P P K P K P…

• Det totale antal skift, u, approksimeres med en normalfordeling med:

12

21

21 ++

⋅⋅=

nn

nnuµ og

)1()(

)2(2

212

21

212121

−+⋅+−−⋅⋅⋅⋅

=nnnn

nnnnnnuσ

• Vi kan nu beregne p-værdien ved:

u

uuZ

σµ−

= idet

)1,0( 2NZ ≈

Page 29: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 29 -

Afsnit 11.1, 11.2, 11.6

Regressionsanalyse • Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y’s afhængighed af en

forklarende variabel x. • Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på

formen: εβα +⋅+= xY

Korrelation • Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y. • Korrelationskoefficienten mellem 2 variable x og y estimeres ved:

∑=

−−

=n

i y

i

x

i

s

yy

s

xx

nr

11

1

• Det antages her, at observationerne (xi,yi) er sammenhørende værdier. Der gælder ]1;1[−∈r .

Simpel lineær regressionsmodel εβα +⋅+= xY

• x⋅+ βα er modellen

• ε er residual (tilfældige fejl, måle fejl eller afvigelse) • Y afhængige variabel • x uafhængige variabel • α skæring med Y-aksen • β hældning

Mindste kvadraters metode • Antag at vi har observationerne:

• Er det en sammenhæng mellem x og y? • Vi foreslår en model på formen xbay ⋅+=ˆ

• Hvordan estimeres a og b?

ε

Page 30: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 30 -

• a og b bestemmes ved:

xx

xy

S

Sb =

xbya ⋅−=

2

1

)(∑=

−=n

iixx xxS eller

( )n

xxS i

ixx

2

2 ∑∑−

−= eller )1(2 −⋅= nsSS xxx

2

1

)(∑=

−=n

iiyy yyS eller

( )n

yyS i

iyy

2

2 ∑∑−

−= eller )1(2 −⋅= nsSS yyy

))((1

yyxxS i

n

iixy −−=∑

= eller

n

yxyxS ii

iixy∑∑∑

⋅−=

• a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie.

• a er et estimat for α og b er et estimat for β.

Interferens i regressionsmodel • vi antager at de observerede data (Yi,xi) kan beskrives ved modellen:

iii xY εβα +⋅+=

Hvor det antages at iε er uafhængige normalfordelte stokastiske variable med middelværdi 0 og

konstant varians σ2. • Estimatet af σ2 bliver (varians af residualerne):

2

/)( 22

−−

=n

SSSs xxxyyy

e

1. Formulering af hypotese om skæring med y-aksen • Antag at vi vil teste en hypotese om skæring med y-aksen:

αα

≠=

aH

aH

:

:

1

0

2. teststørrelse bliver

2)(

)(

xnS

Sn

s

at

xx

xx

e ⋅+⋅−= α

3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling:

)2(2/ −ntα tabel 4

1. Formulering af hypotese om hældningen β • Antag at vi vil teste en hypotese om hældningen β

ββ

≠=

bH

bH

:

:

1

0

Page 31: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 31 -

2. teststørrelse bliver

xxe

Ss

bt

)( β−=

3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling:

)2(2/ −ntα tabel 4

Konfidensintervaller for α og β • Konfidensinterval for α:

xxe S

x

nsta

2

2/

)(1 +⋅± α 2/αt i tabel 4, v = n-2

2)1(

2αα −=

• Konfidensinterval for β:

xx

eS

stb1

2/ ⋅± α 2/αt i tabel 4, v = n-2

2)1(

2αα −=

Konfidensintervaller for α+ β*x0 • Konfidensinterval for α+ β*x0 svarer til et konfidensinterval for modellen i punktet x0:

xxe S

xx

nstxba

20

2/0

)(1)(

−+⋅±⋅+ α 2/αt i tabel 4, v = n-2

2)1(

2αα −=

Prædiktionsinterval for α+ β*x0

• Prædiktionsinterval for α+ β*x 0 svare til et prædiktionsinterval for modellen i punktet x0:

xxe S

xx

nstxba

20

2/0

)(11)(

−++⋅±⋅+ α 2/αt i tabel 4, v = n-2

2)1(

2αα −=

• Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α.

Korrelation og regression • Korrelation og regression:

bS

Sr

yy

xx= 22 bS

Sr

yy

xx= , hvor

Page 32: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 32 -

2

1

)(∑=

−=n

iixx xxS eller

( )n

xxS i

ixx

2

2 ∑∑−

−= eller )1(2 −⋅= nsSS xxx

2

1

)(∑=

−=n

iiyy yyS eller

( )n

yyS i

iyy

2

2 ∑∑−

−= eller )1(2 −⋅= nsSS yyy

))((1

yyxxS i

n

iixy −−=∑

= eller

n

yxyxS ii

iixy∑∑∑

⋅−=

• Korrelationen r udtrykker graden af lineær sammenhæng. • Korrelationen kvadreret r2 udtrykker ”forklaringsgraden”:

Syy= variation forklaret af linien + uforklaret variation:

−+=

xx

xyyy

xx

xyyy S

SS

S

SS

22

Afsnit 12.1-12.3

Variansanalyse (forskel i middel)

• Er der forskel (i middel) på grupperne A, B og C? • Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe

kan antages at være normalfordelte.

En-sidet variansanalyse • Vi betragter modellen:

ijiijX εαµ ++= hvor det antages ),0( 2σNeij ≈

• µ er gennemsnit for alle målinger. • αi angiver niveau af ”gruppe” i.

1. Formulering af hypotese • vi vil nu sammenligne (flere end to) middelværdier µ+αi i modellen:

ijiijX εαµ ++= hvor det antages ),0( 2σNeij ≈

Dvs. hypotesen kan opstilles:

ji

ji

H

H

αααα

=

:

:

1

0

Page 33: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 33 -

2. teststørrelse bliver • Variansanalysetabel

• Den totale varians:

SSETrSSSST += )(

• Test størrelsen F:

)/(

)1/()(

kNSSE

kTrSSF

−−=

• Måleusikkerheden (residual) varians:

kN

SSEerror −

=2σ

• Behandlingsvarians:

1

)(2

−=

k

TrSStreatmentσ

Hvor k er niveauer antal slags prøver fortaget over en faktor, og N er antal observationer. • Formler for kvadrat afvigelses sum:

∑∑= =

−=k

i

n

jij

i

CySST1 1

2

∑=

−=k

i i

i Cn

TTrSS

1

2

)( , hvor

N

TC

2.= , ∑

=

=in

jiji yT

1

, ∑=

=k

iiTT

1

.

3. sammenligning med kritisk værdi • Teststørrelsen sammenlignes med en fraktil i F fordelingen:

),1(~ kNkFF −−α

Page 34: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 34 -

Tosidet variansanalyse

• Vi antager nu, at vi har modellen:

ijjiijX εβαµ +++= hvor det antages ),0(~ 2σNeij

Dvs. vi har to inddelingskriterier, både α og β, hvor β også kan opfattes som en blok, hvorfor designet også kaldes et randomiseret blokforsøg.

• Den totale varians:

SSEBlSSTrSSSST ++= )()(

• Test størrelsen F:

))1)(1/((

)1/()(

−−−=baSSE

aTrSSF eller

))1)(1/((

)1/()(

−−−=baSSE

bBlSSF

• Måleusikkerheden (residual) varians:

))1)(1((2

−−=

ba

SSEerrorσ

• Behandlingens varians:

1

)(2

−=

a

TrSStreatmentσ

• Blokkenes varians:

1

)(2

−=

b

BlSSblocksσ

• Formler for kvadrat afvigelses sum:

∑∑= =

−=a

i

b

jij CySST

1 1

2

Page 35: Afsnit 2.1-2.7 5 - UNIGULD - UNIGULD...- 5 - Afsnit 2.1-2.7 Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en

- 35 -

Cb

TTrSS

a

ii

−=∑

=1

2.

)(

Ca

T

BlSS

b

jj

−=∑

=1

2.

)( , hvorab

TC

2..=

• Kritisk værdi for blokke: ))1)(1(,1( −−− babFα

• Kritisk værdi for behandling: ))1)(1(,1( −−− baaFα

Definition på parat t-test Hvis man måler blodtryk på 10 personer og måler højden på de samme 10 personer er det et parat t-test man ser på for at sammenligne.