- 1 -
Afsnit 2.1-2.7 ....................................................................................................................................... 5 Hvad er statistik? .............................................................................................................................. 5 Nøgletal ............................................................................................................................................ 5
• Median ................................................................................................................................. 5 • Varians ................................................................................................................................. 5 • Fraktiler ................................................................................................................................ 6
Figurer .............................................................................................................................................. 6 • Pareto diagram ..................................................................................................................... 6 • Dot diagram.......................................................................................................................... 6 • Frequency distribution ......................................................................................................... 6 • Histogram ............................................................................................................................. 6 • Boxplot ................................................................................................................................. 6
Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6 En grundregel ................................................................................................................................... 6
Den klassiske sandsynlighedskoncept ......................................................................................... 6 Binomialkoefficienten ...................................................................................................................... 6 Hvad er Stokastisk variable .............................................................................................................. 6 Tæthedsfunktion for diskret variabel ............................................................................................... 6 Fordelingsfunktion for diskret variabel ............................................................................................ 6 Diskrete fordelinger ......................................................................................................................... 7
Binomial fordeling ....................................................................................................................... 7 Den Hypergeometrisk fordeling ................................................................................................... 7 Poisson fordeling.......................................................................................................................... 8 Middelværdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9 Tæthedsfunktionen for kontinuert variabel ...................................................................................... 9 Fordelingsfunktion for kontinuert variabel ...................................................................................... 9 Kontinuerte fordelinger .................................................................................................................... 9
Normal fordeling og Standardiseret normal fordeling ................................................................. 9 • Eksempel for standard normal fordeling:........................................................................... 10 Log-Normal fordeling ................................................................................................................ 10 Uniform fordeling ...................................................................................................................... 11 Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11 Eksponentiel fordeling ............................................................................................................... 11 Regler for stokastisk variabel (eksempler side 186) .................................................................. 12 Transformation ........................................................................................................................... 12
Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12 Stikprøvefordelinger ...................................................................................................................... 12
Definition af population og tilfældig stikprøve.......................................................................... 12 Stikprøvefordeling for middelværdien når variansen er kendt .................................................. 12
Estimation ...................................................................................................................................... 13 Begreber ..................................................................................................................................... 13 Den centrale grænseværdisætning ............................................................................................. 13 Maksimal fejl på et estimat hvor variansen er kendt ................................................................. 13 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt ............. 14 Maksimal fejl på et estimat hvor variansen ikke er kendt .......................................................... 14
- 2 -
• Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en stor stikprøve (n=>30) ................................................................................................................ 14 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en lille stikprøve (n<30) .................................................................................................................. 14
Afsnit 7.3, 7.4 og 7.5 .......................................................................................................................... 15 Hypotesetest for et gennemsnit ...................................................................................................... 15
Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes. ....................... 15 Trin ved hypotesetest ................................................................................................................. 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt .................................... 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n>30) ................ 16 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n<30) ................ 16
Afsnit 7.6-7.9 ..................................................................................................................................... 17 Hypotesetest for to gennemsnit ...................................................................................................... 17
1. Formulering af hypoteser ....................................................................................................... 17 2. beregning af teststørrelse for kendte varianser 2
221 σσ og .................................................... 17
3. sammenligning med kritisk værdi for kendte varianser 22
21 σσ og ....................................... 17
2. beregning af teststørrelse for ikke kendte varianser 22
21 σσ og ............................................. 18
3. sammenligning med kritisk værdi for ikke kendte varianser 22
21 σσ og ............................... 18
2. beregning af teststørrelse for ikke kendte varianser 22
21 σσ og , men 2
221 σσ = .................... 18
3. sammenligning med kritisk værdi for ikke kendte varianser 22
21 σσ og , men 2
221 σσ = ...... 18
Beregning af konfidensinterval for forskel i middelværdi for store stikprøver ......................... 19 Beregning af konfidensinterval for forskel i middelværdi for små stikprøver og ukendt
22
21 σσ og ................................................................................................................................... 19
Afsnit 8.1-8.3, 6.4 .............................................................................................................................. 19 Hypotesetest for en varians ............................................................................................................ 19
2χ -fordeling .............................................................................................................................. 19 Konfidensinterval for en varians ................................................................................................ 20 Hypotesetest af en varians.......................................................................................................... 20 1. Formulering af hypoteser ....................................................................................................... 20 2. teststørrelse bliver .................................................................................................................. 20 3. sammenligning med kritisk værdi .......................................................................................... 20
Hypotesetest af 2 varianser ............................................................................................................ 21 F-fordeling ................................................................................................................................. 21 Hypotesetest af 2 varianser ........................................................................................................ 21 1. Formulering af hypoteser ....................................................................................................... 21 2. teststørrelse bliver .................................................................................................................. 21 3. sammenligning med kritisk værdi .......................................................................................... 21
Afsnit 9.1-9.5 ..................................................................................................................................... 22 Estimation af andele ....................................................................................................................... 22
Konfidensinterval for en andel ................................................................................................... 22 Konfidensinterval for to andele .................................................................................................. 22 Maksimal fejl på estimat ............................................................................................................ 22 Bestemmelse af stikprøvestørrelse hvor p kendes ..................................................................... 22 Bestemmelse af stikprøvestørrelse hvor p ikke kendes ............................................................. 23
- 3 -
Hypotesetest af 1 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 23 3. sammenligning med kritisk værdi .......................................................................................... 23
Hypotesetest af 2 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 24 3. sammenligning med kritisk værdi .......................................................................................... 24
Hypotesetest af flere andel ............................................................................................................. 24 1. Formulering af hypoteser ....................................................................................................... 24 2. teststørrelse bliver .................................................................................................................. 25 3. sammenligning med kritisk værdi .......................................................................................... 25
Analyse af antalstabeller ................................................................................................................ 25 1. Formulering af hypoteser ....................................................................................................... 25 2. teststørrelse bliver .................................................................................................................. 26 3. sammenligning med kritisk værdi .......................................................................................... 26
Goodness of fit (test for fordeling) ................................................................................................ 27 Afsnit 10.1-10.4 ................................................................................................................................. 27
Sign test .......................................................................................................................................... 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 27 3. sammenligning med kritisk værdi .......................................................................................... 27
Rank-sum test ................................................................................................................................. 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 28 3. sammenligning med kritisk værdi .......................................................................................... 28
Test for tilfældighed ....................................................................................................................... 28 Afsnit 11.1, 11.2, 11.6 ........................................................................................................................ 29
Regressionsanalyse ........................................................................................................................ 29 Korrelation ................................................................................................................................. 29 Simpel lineær regressionsmodel ................................................................................................ 29 Mindste kvadraters metode ........................................................................................................ 29
Interferens i regressionsmodel ....................................................................................................... 30 1. Formulering af hypotese om skæring med y-aksen ............................................................... 30 2. teststørrelse bliver .................................................................................................................. 30 3. sammenligning med kritisk værdi .......................................................................................... 30 1. Formulering af hypotese om hældningen β ........................................................................... 30 2. teststørrelse bliver .................................................................................................................. 31 3. sammenligning med kritisk værdi .......................................................................................... 31
Konfidensintervaller for α og β ...................................................................................................... 31 Konfidensintervaller for α+ β*x 0 ................................................................................................... 31 Prædiktionsinterval for α+ β*x 0 ..................................................................................................... 31 Korrelation og regression ............................................................................................................... 31
Afsnit 12.1-12.3 ................................................................................................................................. 32 Variansanalyse (forskel i middel) .................................................................................................. 32 En-sidet variansanalyse .................................................................................................................. 32
1. Formulering af hypotese ........................................................................................................ 32 2. teststørrelse bliver .................................................................................................................. 33
- 4 -
3. sammenligning med kritisk værdi .......................................................................................... 33 Tosidet variansanalyse ................................................................................................................... 34 Definition på parat t-test ................................................................................................................ 35
- 5 -
Afsnit 2.1-2.7
Hvad er statistik? • Indsamling af data. • Statistik handler ofte om at analysere en stikprøve, der er taget fra en population. • Baseret på stikprøven, prøver vi at generalisere (eller udtale os) om populationen.
Nøgletal • Middelværdi angiver tyngdepunkt eller centrering af data:
∑=
=n
iix
nx
1
1
o Eks. Har vi tallene: 12, 15, 13, 14, 16
Middelværdien bliver: ( ) 1416141315125
1 =++++=x
• Median angiver tyngdepunkt eller centrering af data. I nogle tilfælde, f.eks. hvis man har ekstreme værdier, er medianen at fortrække frem for middelværdien: Først skal antal n sættes i rækkefølge, hvis:
o Ulige antal n er tallet i midten medianen. o Lige antal n, tages de to tal i midten ligger dem sammen og deler med 2 = madian.
• Varians (eller standardafvigelsen ) siger noget om hvor maget data spreder:
o Varians: 2
1
2 )(1
1∑
=
−−
=n
ii xx
ns
o Eller varians: )1(
2
11
2
2
−⋅
−⋅=
∑∑==
nn
xxn
s
n
ii
n
ii
� Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelværdi eks. Så
x er den samme). Variansen bliver:
( ) ( ) ( ) ( ) ( )( ) 5,21416141414131415141215
1 222222 =−+−+−+−+−−
=s
o Standardafvigelse (spredning ): 2ss =
• Vigtigt : _
x og s er estimerede værdier dvs. at hvis man tager en stikprøve ud af en population og beregner middelværdien og spredningen er det estimerede. µ og σ gælder for hele populationen.
• Variationskoefficient bruges til at sammenligne variationen mellem forskellige datasæt:
100⋅=x
sV
- 6 -
• Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data i andre dele. Ofte beregner man fraktiler:
0, 25, 50, 75, 100 % fraktiler.
Figurer • Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet
system. • Dot diagram er godt til at detektere fejl ved at se på outliers prikker som ligger
usædvanligt. • Frequency distribution : opdeling i intervaller/klasser og optælle herefter. • Histogram : se side 19. god til grove data med mange tal. • Boxplot : en rektangel der repræsentere midten af data og en linje repræsentere medianen.
De to linjer på siderne af rektanglen repræsentere 95% og 5%.
Afsnit 4.1-4.4 og 4.6 og 4.7
En grundregel Den klassiske sandsynlighedskoncept defineres: Hvis der findes n lige sandsynlige udfald, hvorfra et må ske, og hændelsen s betegnes som ’succes’, så er sandsynligheden for succes givet ved:
n
s
Binomialkoefficienten Det antal forskellige måder som vi kan udvælge r objekter taget ud fra en population bestående af n forskellige objekter er:
( )!!
!
rnr
n
r
n
−=
Hvad er Stokastisk variable • En funktion defineret over udfaldsrummets elementer. • Følger en statistisk fordeling. • Stokastisk variable angives ved store bogstaver, f.eks. X, Y, Z. • Udfaldet fra det stokastiske variable angives ved tilsvarende små bogstaver, f.eks. x, y,z. • Vi skelner mellem diskrete og kontinuerte stokastiske variable.
Tæthedsfunktion for diskret variabel • For en stokastisk variabel betegnes tæthedsfunktionen ved f(x). • For den diskrete variabel kan vi skrive tæthedsfunktionen som:
( )xXPxf ==)(
Fordelingsfunktion for diskret variabel • Fordelingsfunktionen for en stokastisk variabel betegnes ved F(x). • Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:
- 7 -
)()( xXPxF ≤=
Diskrete fordelinger
Binomial fordeling • Vi betragter n uafhængige forsøg. • I hvert enkelt forsøg kan udfaldet/hændelsen blive enten succes eller fiasko. • Sandsynligheden for succes er p (og er den samme for alle n forsøg). • Sandsynligheden for fiasko er dermed 1-p (og er den samme for alle n forsøg). • De forskellige udfald er uafhængige. • Med tilbage lægning. • En stokastisk variabel, X, er binomial fordelt:
),;( pnxbX ≈ X = antal ”mærkede” i stikprøven.
p = populationsandelen = a/n, hvor a er i alt defekte. n = stikprøvestørrelsen.
Det er lille b hvis det er præcis en mængde og store B hvis det er større eller mindre end en mængde.
• Tæthedsfunktion for en binomial fordeling: ( ) xnxn
x ppxXPxf −−⋅=== )1()()(
)1()()( −≤−≤== xXPxXPxXP , tabel 1 side 576.
• Fordelingsfunktion for binomal fordeling: )()( xXPxF ≤= , tabel 1 side 576.
)1()( −≤=< xXPxXP )1(1)( −≤−=> xXPxXP
MOST (højst) brug: )( udfaldXP ≤ , direkte ved opslag tabel 1. MORE THAN (mere end): )(1)( udfaldXPudfaldXP ≤−=> LEAST (mindst) brug: )1(1)( −≤−=≥ udfaldXPudfaldXP LESS THAN (mindre end): )1()( −≤=< udfaldXPudfaldXP
• Middelværdi: pn ⋅=µ
• Varians: )1(2 pnp −⋅=σ • Hvis man ønsker at finde sandsynligheden for et bestemt område:
B(h;n,p)-B(t;n,p)
Den Hypergeometrisk fordeling • En population med størrelse N. • En stikprøve af størrelse n. • Der er a defekte i populationen.
t h
- 8 -
• Der er N-a ikke-defekte i populationen. • x er antal defekte ud af stikprøven. • Uden tilbage lægning. • Den stokastiske variabel, X, er hypergeometrisk fordelt:
),,;( NanxhX ≈
• Tæthedsfunktion for den hypergeometriske fordeling:
( )( )( )N
n
aNxn
axxXPxf
−−=== )()(
• Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen N er stor og stikprøven n er lille.
Obs! Binomial fordeling kan til forveksling bruges i tilfælde hvor n ikke er så lille i forhold til N også kunne man begå den fejl at anvende binomial distribution med n og p = a/N. se side 111.
• Middelværdi: N
an ⋅=µ
• Varians:
−−
−=1
12
N
nN
N
a
N
anσ
Poisson fordeling • Poisson fordeling anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er
nogen naturlig øvre grænse. • Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. på formen antal/enhed. • Parameteren λ angiver intensiteten i poisson fordelingen. • Når n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution. • Possion fordeling anvendes til approksimation af binomiale sansynligheder, når
05.020 ≤≥ pogn , hvis 10100 ≤≥ nplængesågodtionenapproksimaern
• Se s. 129 for sammenligning af possion og binomial. • Den stokastiske variabel, X, er possion fordelt:
)(λPX ≈
• Tæthedsfunktionen:
λλ −⋅=== ex
xXPxfx
!)()(
• Fordelingsfunktionen: )()( xXPxF ≤= , tabel 2, side 581 MOST (højst) brug: )( udfaldXP ≤ , direkte ved opslag tabel 2. MORE THEN (mere end): )(1)( udfaldXPudfaldXP ≤−=> LEAST (mindst) brug: )1(1)( −≤−=≥ udfaldXPudfaldXP LESS THEN (mindre end): )1()( −≤=< udfaldXPudfaldXP
• Middelværdi: λµ =
• Varians: λσ =2
- 9 -
Middelværdi og varians for en diskret stokastisk va riabel (overordnet)
• Middelværdi: ∑ ⋅=S
xfx )(µ , hvor S er udfaldsrummet for X.
• Det vides at: 1)( =∑S
xf
• Varians: ∑ ⋅−=S
xfx )()( 22 µσ , hvor S er udfaldsrummet for X.
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.1 2
Tæthedsfunktionen for kontinuert variabel • Tæthedsfunktionen betegnes f(x). • f(x) siger noget om den relative hyppighed af udfaldet x for den stokastiske variabel X. • For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs:
)()( xXPxf =≠
Fordelingsfunktion for kontinuert variabel • Fordelingsfunktionen betegnes ved F(x). • Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:
)()( xXPxF ≤=
Kontinuerte fordelinger
Normal fordeling og Standardiseret normal fordeling • Der kan ikke opstilles generelle kriterier for, hvornår en variabel er normailfordelt. • Ofte kan man ramme rigtigt, hvis man til hvert element stiller spørgsmålet: ”hvilken værdi
har elementet” og svarmuligheden er ”et tal”. ),( 2σµNX ≈
• Tæthedsfunktionen: ( )
2
2
2
2
1)( σ
µ
πσ⋅−−
⋅⋅⋅
=x
exf
)( xXP < , aflæses i tabel 3, side 585 )(1)( xXPxXP <−=>
∫=≤≤b
adxxfbXaP )()(
• Middelværdi: µµ =
• Varians: 22 σσ = • En normal fordeling med middelværdien 0 og variansen 1, dvs. )1,0( 2NX ≈ , kaldes en
standard normal fordeling.
• En vilkårlig normal fordelt variabel ),( 2σµNX ≈ kan standardiseres ved at beregne:
σµ−= X
Z
- 10 -
• Fordelingsfunktionen:
∫∞−
−⋅⋅
=z
dtezFt
22
2
1)(
π , kan findes i tabel 3, side 585.
)( zXP < , aflæses i tabel 3, side 585 )(1)( zXPzXP <−=>
Less (mindre end):
−=<σ
µaFaXP )(
More (større end):
−−=>σ
µaFaXP 1)(
Between (imellem):
−−
−=<<σ
µσ
µ aF
bFbXaP )(
F(Z) aflæses i tabel 3, side 585
• Eksempel for standard normal fordeling: P(-z < X < z) = 0,9298
z = 1-0,9298/2
Log-Normal fordeling • Log-normal fordelingen benyttes når vi har en tilfældig variable, som er på den måde at hvis
man tager ln til den giver det normal distribution: ),( 2βαLNX ≈
• Tæthedsfunktion: 22 2/))(ln(1
2
1)( βα
πβ−−− ⋅⋅
⋅= xexxf
• Middelværdi: 2/2βαµ += e
• Varians: )1(22/22 −= ββασ ee
• En log-normal fordelt variabel ),( 2βαLNX ≈ , kan transformeres til en standard normal fordelt variabel Z ved:
βα−= )ln(X
Z
• til at finde sandsynligheden (imellem a og b):
-z z
0,9298
- 11 -
∫
−−
−=⋅
=<< −−b
a
y aF
bFdyebXaP
ln
ln
2/)( lnln
2
1)(
22
βα
βα
βπβα
−=<β
αaFaXP
ln)(
−−=>β
αaFaXP
ln1)(
Tabel 3 s.585
Uniform fordeling • ),( βαUX ≈
• Tæthedsfunktionen:
αβ −= 1
)(xf
• Fordelingsfunktionen:
βααβ −−=
−= ∫
badxxF
a
b
1)(
• Middelværdi: 2
βαµ +=
• Varians: 21212 )( αβσ −=
Middelværdi og varians af en kontinuert stokastisk variabel (overordnet)
• Middelværdi: ∫ ⋅=S
dxxfx )(µ , hvor S er udfaldsrummet for X.
• Varians: ∫ ⋅−=S
dxxfx )()( 22 µσ , hvor S er udfaldsrummet for X.
Eksponentiel fordeling • Tæthedsfunktionen:
β
β/1
)( xexf −=
• Fordelingsfunktionen:
ββ
β/
0
/ 11
)( xx x edxexF −− −== ∫
β/1)()( xexFxXP −−==<
)1(1)(1)( / βxexFxXP −−−=−=>
• Eksponential fordeling er et special tilfælde af Gamma fordeling (α=1). • Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider. • Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hændelser i
poisson fordelingen. βλ =
• Middelværdi: βµ = .
- 12 -
• Varians: 22 βσ = .
Regler for stokastisk variabel (eksempler side 186) Vi antager at a og b er konstanter og X er en stokastisk variabel:
• E = middelværdi: bXaEbaXE +=+ )()(
• Var = Varians: )()( 2 xVarabaXVar =+ Følgende linear kombination gælder:
• )(...)()()...( 22112211 nnnn XEaXEaXEaXaXaXaE +++=+++
)()()( 2121 XEXEXXE −=−
cXbEXaEcbXaXE +−=+− )()()( 2121
• )(...)()()...( 22
221
212211 nnnn XVaraXVaraXVaraXaXaXaVar +++=+++
)()()( 2121 XVarXVarXXVar +=− , læg mærke til at der ændres her til plus.
)()()( 22
12
21 XVarbXVaracbXaXVar +=+− , læg mærke til at der ændres her til plus.
Transformation Såfremt data afviger fra at være normalt fordelt, kan man ofte med fordel transformere data, således at de transformerede data kan antages at være normal fordelt.
Afsnit 7.1-7.2, 6.1, 6.2 og 6.3
Stikprøvefordelinger
Definition af population og tilfældig stikprøve • Tilfældig stikprøve fra en endelig population:
Observationerne X1, X2,…,Xn er en tilfældig stikprøve af størrelse n fra en endelig population af størrelse N, såfremt værdierne er valgt således, at enhver delmængde af størrelse n af de N elementer fra populationen har den samme sandsynlighed for at blive valgt.
• Tilfældig stikprøve fra en uendelig population: Et sæt observationer X1, X2,…,Xn er en tilfældig stikprøve af størrelsen n fra en uendelig population f(x) såfremt: 1. hvert Xi er en stokastisk variabel med tæthedsfunktionen f(x). 2. De n stokastiske variable er uafhængige.
Stikprøvefordeling for middelværdien når variansen er kendt • Uendelig population:
Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2. Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen σ2/n.
• Endelig population: Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2.
- 13 -
Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen
1
2
−−⋅ N
nNn
σ .
Estimation
Begreber • Central estimator:
En estimator θ̂ er central (eller ikke-biased), hvis og kun hvis, middelværdien af stikprøvefordelingen for estimatoren er lig θ .
• Efficient estimator:
En estimator 1̂θ er en mere efficient estimator af θ end estimatoren 2θ̂ hvis:
1. 1̂θ og 2θ̂ begge er centrale estimatorer af θ .
2. variansen af stikprøvefordelingen for 1̂θ er mindre end for 2θ̂ .
Den centrale grænseværdisætning
Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med median (mean) µ og variansen σ2, da vil:
n
XZ
/σµ−=
Følge en N(0,12) fordeling for ∞→n .
Maksimal fejl på et estimat hvor variansen er kendt For store værdier af n gælder:
n
XZ
/σµ−=
Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(
2αα −= bliver:
nzE
σα ⋅= 2/ , hvor zα/2 findes i tabel 3.
To eksempler for at finde 2αz :
96,1
025,0
95,0
025,0
295,01
2
2==
===
−
zzα
α
α
575,2
005,0
99,0
005,0
299,01
2
2==
===
−
zzα
α
α
Værdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586 Hvis E er kendt kan stikprøvestørrelsen n findes ved:
- 14 -
2
2
⋅=
E
zn
σα
2
/21
4
zn
Eα =
µσ
ˆ
2
=n
• Intervalestimation (konfidensinterval for middelvær di) hvor variansen er kendt
2/2//
αα σµ
zn
Xz <−<−
Ved omskrivning får (1-α) konfidensintervallet:
nzx
nzx
σµσαα ⋅+<<⋅− 2/2/
nzx
σα ⋅± 2/
Maksimal fejl på et estimat hvor variansen ikke er kendt For store værdier af n gælder:
nS
Xt
/
µ−=
Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(
2αα −= bliver:
n
stE ⋅= 2/α , hvor tα/2 = t(n-1)α/2 findes i tabel 4 ( )1−= nv og s er beregnet varians.
• Intervalestimation (konfidensinterval for middelvær di) hvor variansen ikke er kendt og en stor stikprøve (n=>30)
n
szx
n
szx ⋅+<<⋅− 2/2/ αα µ , σ blot erstattet med s. Konfidensinterval, tabel 3.
n
szx ⋅± 2/α
z ikke skiftet ud med t, fordi i tabel 4 går n ikke højere end 30 så derfor gøre det ingen forskel.
• Intervalestimation (konfidensinterval for middelvær di) hvor variansen ikke er kendt og en lille stikprøve (n<30)
n
stx
n
stx ⋅+<<⋅− 2/2/ αα µ , z erstattet med t. Konfidensinterval, tabel 4 (v=n-1).
- 15 -
n
stx ⋅± 2/α
Afsnit 7.3, 7.4 og 7.5
Hypotesetest for et gennemsnit
Formulering af nul-hypotesen og alternativ hypotese n Parameter µ betragtes.
• Nul hypotese testes mod alternativ hypotese:
01
00
:
:
µµµµ
≠=
H
H
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
01
00
:
:
µµµµ
≠=
H
H
• Ensidet alternativ, der bliver H1 enten:
01
01
:
:
µµ
µµ
>
<
H
eller
H
• I nulhypotesen anvendes så vidt som muligt lighedstegn. • I alternativ hypotese placeres det udsagn som man gerne vil vise. • Eksempelvis: en man stilles for en dommer, anklaget for noget kriminelt. Her bliver nul- og
alternativ-hypotesen:
skyldigerMandenH
skyldigikkeerMandenH
:
:
1
0
Trin ved hypotesetest 1. Opstil hypoteser og vælg signifikansniveau α (vælg ”risiko-niveau”). 2. Beregn teststørrelse. 3. Beregn p-værdi vha. teststørrelse. Testets p-værdi måler datas afvigelser fra H0. 4. Sammenligne p-værdi med signifikansniveau og drag en konklusion. Alternativt kan testet
udføres ved at sammenligne teststørrelse med kritisk værdi.
Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er kendt • Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan
teststørrelsen beregnes ved:
n
XZ σ
µ0−=
Der antages en normal fordeling og σ er kendt. • P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). • Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).
Alternativ Afvis
- 16 -
hypotese Nul-hypotese hvis
0µµ < αzZ −<
0µµ > αzZ >
0µµ ≠ 2/αzZ −< eller
2/αzZ >
Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er ikke kendt (n>30)
• Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved:
ns
XZ 0µ−
=
Der antages en normal fordeling og σ er ikke kendt. • P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). • Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).
Alternativ hypotese
Afvis Nul-hypotese hvis
0µµ < αzZ −<
0µµ > αzZ >
0µµ ≠ 2/αzZ −< eller
2/αzZ >
Beregning af teststørrelse, p-værdi og sammenlignin g, hvis σ er ikke kendt (n<30)
• Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved:
ns
Xt 0µ−
=
Der antages en normal fordeling og σ ikke er kendt. • P-værdien findes for teststørrelsen Z ved opslag i t-fordeling (tabel 4), v=n-1. • Sammenligning med kritisk værdi tα (eller tα/2 i et tosidet test).
Alternativ hypotese
Afvis Nul-hypotese hvis
0µµ < αtt −<
0µµ > αtt >
0µµ ≠ 2/αtt −< eller
2/αtt >
• Hvordan kan sandsynligheden for fejl påvirkes: o Ved at ændre signifikansniveau α. o Ved at øge stikprøvestørrelse n.
- 17 -
Afsnit 7.6-7.9
Hypotesetest for to gennemsnit • Sammenligner gennemsnit (middelværdier) af 2 stikprøver.
o Stikprøve 1: 2111, sogXn
o Stikprøve 2: 2222 , sogXn
1. Formulering af hypoteser • Parameter 21, µµ betragtes.
• Nul hypotese testes mod alternativ hypotese:
δµµδµµ
≠−=−
211
210
:
:
H
H
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
δµµδµµ
≠−=−
211
210
:
:
H
H
• Ensidet alternativ, der bliver H1 enten:
δµµ
δµµ
>−
<−
211
211
:
:
H
eller
H
• Typisk er man interesseret i at teste med 0=δ .
2. beregning af teststørrelse for kendte varianser 22
21 σσ og
• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og er kendte, fås teststørrelsen:
2221
21
21
//
)(
nn
XXZ
σσδ
+
−−= ,(tabel 3).
Denne måler forskellen på to grupper og δ stort set altid nul.
3. sammenligning med kritisk værdi for kendte varia nser 22
21 σσ og
• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og er kendte, fås:
Alternativ hypotese
Afvis Nul-hypotese hvis
δµµ <− 21 αzZ −<
δµµ >− 21 αzZ >
δµµ ≠− 21 2/αzZ −< eller
2/αzZ >
(tabel 3).
- 18 -
2. beregning af teststørrelse for ikke kendte varia nser 22
21 σσ og
• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og ikke er kendte, fås teststørrelsen:
2221
21
21
//
)(
nsns
XXZ
+
−−= δ,(tabel 3).
Denne måler forskellen på to grupper og δ stort set altid nul.
3. sammenligning med kritisk værdi for ikke kendte varianser 22
21 σσ og
• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og ikke er kendte, fås:
Alternativ hypotese
Afvis Nul-hypotese hvis
δµµ <− 21 αzZ −<
δµµ >− 21 αzZ >
δµµ ≠− 21 2/αzZ −< eller
2/αzZ >
(tabel 3).
2. beregning af teststørrelse for ikke kendte varia nser 22
21 σσ og , men 2
221 σσ =
• Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og ikke er kendte, men med 2
221 σσ = , fås teststørrelsen:
1 2
1 2
( )
1/ 1/p
X Xt
s n n
δ− −=+
Denne måler forskellen på to grupper og δ stort set altid nul. Hvor
2
)1()1(
21
222
2112
−+−+−
=nn
snsnsp
Og frihedsgrader: 221 −+= nnv
(tabel 4).
3. sammenligning med kritisk værdi for ikke kendte varianser 22
21 σσ og , men
22
21 σσ =
• Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser 2
221 σσ og ikke er kendte, men 2
221 σσ = , fås:
Alternativ hypotese
Afvis Nul-hypotese hvis
δµµ <− 21 αtt −<
δµµ >− 21 αtt >
- 19 -
δµµ ≠− 21 2/αtt −< eller
2/αtt >
Og frihedsgrader: 221 −+= nnv
(tabel 4).
Beregning af konfidensinterval for forskel i middel værdi for store stikprøver • For store stikprøver beregnes et (1-α)% konfidensinterval ved:
2
22
1
21
2/21n
s
n
szxx +±− α ,(tabel 3).
2)1(
2αα −=
Kendes 22
21 σσ og anvendes disse i stedet for 2
221 sogs .
Beregning af konfidensinterval for forskel i middel værdi for små stikprøver og ukendt 2
221 σσ og
• For små stikprøver og ukendt 22
21 σσ og , men med 2
221 σσ = beregnes et (1-α)%
konfidensinterval ved:
2121
222
211
2/2111
2
)1()1(
nnnn
snsntxx +
−+−+−
±− α
Og frihedsgrader: 221 −+= nnv
(tabel 4).
2)1(
2αα −=
Afsnit 8.1-8.3, 6.4
Hypotesetest for en varians
2χ -fordeling
• Variansen for en stokastisk variabel X estimeres ved:
2
1
2 )(1
1∑
=
−−
=n
ii XX
nS
Hvor n er antallet af observationer X i er observationer nr. i, hvor i =1…n
X estimat af middelværdien for X Store bogstaver => stokastiskvariabel.
• Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2, da er:
( ) χσ
χ =−= KiSn
,12
22 , v = n-1 (tabel 5, s. 588).
- 20 -
αχχ α =≥ )( 22P
Konfidensinterval for en varians Et (1-α)% konfidensinterval for en varians σ2 fås ved:
22/1
22
22/
2 )1()1(
αα χσ
χ −
−<<− SnSn
2)1(
2αα −=
v = n-1 (tabel 5, s. 588).
Hypotesetest af en varians
1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:
20
21
20
20
:
:
σσσσ
≠
=
H
H
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
20
21
20
20
:
:
σσσσ
≠
=
H
H
• Ensidet alternativ, der bliver H1 enten:
20
21
20
21
:
:
σσ
σσ
>
<
H
eller
H
• Hvor 2
0σ er værdien der testes for.
2. teststørrelse bliver • Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2,
da er:
( ) χσ
χ =−= KiSn
,120
22 , v = n-1 (tabel 5, s. 588).
αχχ α =≥ )( 22P
3. sammenligning med kritisk værdi Alternativ hypotese
Afvis Nul-hypotese hvis
20
2 σσ < 21
2αχχ −<
20
2 σσ > 22αχχ >
20
2 σσ ≠ 21
2αχχ −< eller
- 21 -
22αχχ >
(tabel 5).
Hypotesetest af 2 varianser • Sammenligner varianser af 2 stikprøver.
o Stikprøve 1: 2111, sogXn
o Stikprøve 2: 2222 , sogXn
F-fordeling • Lad 2
221 SogS være varianser af stikprøver af størrelserne 21 nogn fra en normalfordeling
med varians σ2, da er:
22
21
S
SF = , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
αα =≥ )( FFP
Hypotesetest af 2 varianser
1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:
22
211
22
210
:
:
σσσσ
≠
=
H
H
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
22
211
22
210
:
:
σσσσ
≠
=
H
H
• Ensidet alternativ, der bliver H1 enten:
22
211
22
211
:
:
σσ
σσ
>
<
H
eller
H
2. teststørrelse bliver
22
21
S
SF = , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
αα =≥ )( FFP
3. sammenligning med kritisk værdi Alternativ hypotese
Afvis Nul-hypotese hvis
22
21 σσ < )1,1( 12 −−> nnFF α
22
21 σσ > )1,1( 21 −−> nnFF α
- 22 -
22
21 σσ ≠ )1,1(2/ −−> mM nnFF α
(i sidste tilfælde gælder 22mM SS > )
(tabel 6a og 6b).
Afsnit 9.1-9.5
Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet uf af n forsøg:
n
xp =
Konfidensinterval for en andel Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p:
nz
n
xp
nz
n
x nx
nx
nx
nx )1()1(
2/2/
−⋅+<<
−⋅− αα
2)1(
2αα −=
Konfidensinterval for to andele Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p1-p2:
2
2
2
2
2
1
1
1
1
1
2/2
2
1
121
11
n
n
x
n
x
n
n
x
n
x
zn
x
n
xpp
−
+
−
⋅±
−=− α
2)1(
2αα −=
Maksimal fejl på estimat
Den maksimale fejl, E, på et estimat med sandsynlighed 2)1(
2αα −= bliver:
n
ppzE
)1(2/
−⋅= α , hvor zα/2 findes i tabel 3.
n
xp =
Bestemmelse af stikprøvestørrelse hvor p kendes Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved:
2
2/)1(
⋅−=E
zppn α
2)1(
2αα −= , hvor zα/2 findes i tabel 3.
- 23 -
Bestemmelse af stikprøvestørrelse hvor p ikke kende s Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved:
2
2/
4
1
⋅=E
zn α , p=1/2
2)1(
2αα −= , hvor zα/2 findes i tabel 3.
Hypotesetest af 1 andel
1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:
01
00
:
:
ppH
ppH
≠=
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
01
00
:
:
ppH
ppH
≠=
• Ensidet alternativ, der bliver H1 enten:
01
01
:
:
ppH
eller
ppH
>
<
2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:
)1( 00
0
ppn
pnXZ
−⋅⋅−
=
3. sammenligning med kritisk værdi Alternativ hypotese
Afvis Nul-hypotese hvis
0pp < αzZ −<
0pp > αzZ >
0pp ≠ αzZ −< eller
αzZ >
(tabel 3).
Hypotesetest af 2 andel
1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese:
- 24 -
211
210
:
:
ppH
ppH
≠=
Man vælger enten at acceptere H0 eller at forkaste H0. • Tosidet alternativ:
211
210
:
:
ppH
ppH
≠=
• Ensidet alternativ, der bliver H1 enten:
211
211
:
:
ppH
eller
ppH
>
<
2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:
))(ˆ1(ˆ21
2
2
1
1
11nn
nX
nX
ppZ
+−
−=
Hvor 21
21ˆnn
XXp
++
=
3. sammenligning med kritisk værdi Alternativ hypotese
Afvis Nul-hypotese hvis
0pp < αzZ −<
0pp > αzZ >
0pp ≠ αzZ −< eller
αzZ >
(tabel 3).
Hypotesetest af flere andel
1. Formulering af hypoteser • I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordelinger
har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen: ppppH k ==== ...: 210
Mod alternativ hypotese at disse andele ikke er ens.
- 25 -
• Under nul-hypotesen får et estimat for p:
n
xp =ˆ
• Såfremt nul-hypotesen gælder, vil vi forvente at den j’te gruppe har e1j successer og e2j fiaskoer, hvor
n
xnpne j
jj
⋅=⋅= ˆ1
n
xnnpne j
jj
)()ˆ1(2
−⋅=−=
2. teststørrelse bliver • Teststørrelsen bliver
( )∑∑
= =
−=
2
1 1
2
2
i
k
j ij
ijij
e
eoχ
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes.
3. sammenligning med kritisk værdi • Vi har teststørrelsen
( )∑∑
= =
−=
2
1 1
2
2
i
k
j ij
ijij
e
eoχ
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes
• Teststørrelsen sammenlignes med )1(2 −kαχ
• Såfremt )1(22 −> kαχχ forkastes nul-hypotesen.
Analyse af antalstabeller
1. Formulering af hypoteser • Følgende to tabeller er eksempler på antalstabeller:
o Opgaven kan lyde: Er stemmefordelingen ens for følgende tabel:
- 26 -
o Er der uafhængighed mellem inddelingskriterier:
• Opstilling af nul-hypotesen:
3210 : iii pppH ==
2. teststørrelse bliver • I en antalstabel med r rækker og c søjler, fås teststørrelsen:
( )∑∑
= =
−=
r
i
c
j ij
ijij
e
eo
1 1
2
2χ
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes.
3. sammenligning med kritisk værdi • Vi har teststørrelsen:
( )∑∑
= =
−=
r
i
c
j ij
ijij
e
eo
1 1
2
2χ
• Teststørrelsen sammenlignes med: ( ))1)(1(2 −− crαχ tabel 5 side 588
• Såfremt ( ))1)(1(22 −−> crαχχ det sidste led er v. forkastes nul-hypotesen.
33,42600
127200
43
)3(
70600
210200
84
)2(
67,87600
263200
79
)1(
23
23
12
12
11
11
=⋅=
=
=⋅=
=
=⋅=
=
e
o
e
o
e
o
tabeldenne
forberegneseogo
hvordanpåeksemplertre
ijij
I alt
263
210
127
600 I alt 200 200 200
AAA
- 27 -
Goodness of fit (test for fordeling) Ofte vil man gerne teste om data (observationer) følger en specifik fordeling. Dette gøres ved at sammenligne observerede fraktiler med tilsvarende teoretiske fraktiler under forudsætning af en given fordeling. Herefter beregnes teststørrelsen ved
( )∑∑
= =
−=
r
i
c
j ij
ijij
e
eo
1 1
2
2χ
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes.
Teststørrelsen skal sammenlignes med kritisk værdi, der findes i ( )mk −−12αχ , hvor k er antal
inddelinger (celler i tabellen) og m er antal estimerede parametre.
Afsnit 10.1-10.4
Sign test Kan bruges som alternativ for:
• Hypotesetest for en middelværdi • Parret t-test
Når ovenstående test ikke kan bruges pga. antagelse om normalfordeling.
1. Formulering af hypoteser Sign test kan bruges til at teste hypotese om median
D
D
H
H
µµµµ~~:
~~:
1
0
≠=
Hvor Dµ~ er den værdi vi ønsker at teste.
2. teststørrelse bliver Beregning af teststørrelse/p-værdi:
• Antal af observationer større end medianen optælles, +X .
• Testets p-værdi kan nu findes ved at beregne sandsynligheden for (ensidet test) )( +≥ XXP
3. sammenligning med kritisk værdi Såfremt p-værdi er mindre end signifikansniveau, forkastes H0.
Rank-sum test Rank-sum test (også kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som alternativ til almindelig t-test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelse ikke holder.
1. Formulering af hypoteser Rank-sum test kan altså bruges til at sammenligne medianen for 2 uafhængige stikprøver:
- 28 -
121
121
,...,,
,...,,
n
n
yyy
xxx
2. teststørrelse bliver Beregning af teststørrelse: data sorteres og rangeres (eng: ranks) i stigende rækkefælge. For hver af de to stikprøver summeres de tilhørende ranks, her benævnt W1 og W2, så der kan beregnes:
2
)1( 1111
+−=
nnWU
2
)1( 2222
+−=
nnWU
Det gælder nu, at såfremt de to stikprøver kommer fra den samme fordeling, så haves:
221
1
nnU
⋅=µ
12
)1( 21212
1
++⋅=
nnnnUσ
Når n1 og n2 er tilpas store (>8) kan vi nu anvende:
)1,0( 21
1
1 NU
ZU
U ≈−
=σ
µ teststørrelse
3. sammenligning med kritisk værdi Hvis population 2 er større end population 1: Så afvises H0, hvis Z < -zα, da en lille værdi af U1 giver en lille værdi af W1. Hvis population 1 er større end population 2: Så afvises H0, hvis Z > zα, da en stor værdi af U1 giver en stor værdi af W1.
Test for tilfældighed • I mange undersøgelser er det vigtigt at afgøre om en stikprøve er fremkommet tilfældigt. • Hvis vi har en sekvens med n1 af den ene type og n2 af en anden type (og hverken n1eller n2
er mindre end 10), f.eks.: K K K P K K P P K P P K P K P…
• Det totale antal skift, u, approksimeres med en normalfordeling med:
12
21
21 ++
⋅⋅=
nn
nnuµ og
)1()(
)2(2
212
21
212121
−+⋅+−−⋅⋅⋅⋅
=nnnn
nnnnnnuσ
• Vi kan nu beregne p-værdien ved:
u
uuZ
σµ−
= idet
)1,0( 2NZ ≈
- 29 -
Afsnit 11.1, 11.2, 11.6
Regressionsanalyse • Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y’s afhængighed af en
forklarende variabel x. • Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på
formen: εβα +⋅+= xY
Korrelation • Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y. • Korrelationskoefficienten mellem 2 variable x og y estimeres ved:
∑=
−
−−
=n
i y
i
x
i
s
yy
s
xx
nr
11
1
• Det antages her, at observationerne (xi,yi) er sammenhørende værdier. Der gælder ]1;1[−∈r .
Simpel lineær regressionsmodel εβα +⋅+= xY
• x⋅+ βα er modellen
• ε er residual (tilfældige fejl, måle fejl eller afvigelse) • Y afhængige variabel • x uafhængige variabel • α skæring med Y-aksen • β hældning
Mindste kvadraters metode • Antag at vi har observationerne:
• Er det en sammenhæng mellem x og y? • Vi foreslår en model på formen xbay ⋅+=ˆ
• Hvordan estimeres a og b?
ε
- 30 -
• a og b bestemmes ved:
xx
xy
S
Sb =
xbya ⋅−=
2
1
)(∑=
−=n
iixx xxS eller
( )n
xxS i
ixx
2
2 ∑∑−
−= eller )1(2 −⋅= nsSS xxx
2
1
)(∑=
−=n
iiyy yyS eller
( )n
yyS i
iyy
2
2 ∑∑−
−= eller )1(2 −⋅= nsSS yyy
))((1
yyxxS i
n
iixy −−=∑
= eller
n
yxyxS ii
iixy∑∑∑
⋅−=
• a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie.
• a er et estimat for α og b er et estimat for β.
Interferens i regressionsmodel • vi antager at de observerede data (Yi,xi) kan beskrives ved modellen:
iii xY εβα +⋅+=
Hvor det antages at iε er uafhængige normalfordelte stokastiske variable med middelværdi 0 og
konstant varians σ2. • Estimatet af σ2 bliver (varians af residualerne):
2
/)( 22
−−
=n
SSSs xxxyyy
e
1. Formulering af hypotese om skæring med y-aksen • Antag at vi vil teste en hypotese om skæring med y-aksen:
αα
≠=
aH
aH
:
:
1
0
2. teststørrelse bliver
2)(
)(
xnS
Sn
s
at
xx
xx
e ⋅+⋅−= α
3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling:
)2(2/ −ntα tabel 4
1. Formulering af hypotese om hældningen β • Antag at vi vil teste en hypotese om hældningen β
ββ
≠=
bH
bH
:
:
1
0
- 31 -
2. teststørrelse bliver
xxe
Ss
bt
)( β−=
3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling:
)2(2/ −ntα tabel 4
Konfidensintervaller for α og β • Konfidensinterval for α:
xxe S
x
nsta
2
2/
)(1 +⋅± α 2/αt i tabel 4, v = n-2
2)1(
2αα −=
• Konfidensinterval for β:
xx
eS
stb1
2/ ⋅± α 2/αt i tabel 4, v = n-2
2)1(
2αα −=
Konfidensintervaller for α+ β*x0 • Konfidensinterval for α+ β*x0 svarer til et konfidensinterval for modellen i punktet x0:
xxe S
xx
nstxba
20
2/0
)(1)(
−+⋅±⋅+ α 2/αt i tabel 4, v = n-2
2)1(
2αα −=
Prædiktionsinterval for α+ β*x0
• Prædiktionsinterval for α+ β*x 0 svare til et prædiktionsinterval for modellen i punktet x0:
xxe S
xx
nstxba
20
2/0
)(11)(
−++⋅±⋅+ α 2/αt i tabel 4, v = n-2
2)1(
2αα −=
• Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α.
Korrelation og regression • Korrelation og regression:
bS
Sr
yy
xx= 22 bS
Sr
yy
xx= , hvor
- 32 -
2
1
)(∑=
−=n
iixx xxS eller
( )n
xxS i
ixx
2
2 ∑∑−
−= eller )1(2 −⋅= nsSS xxx
2
1
)(∑=
−=n
iiyy yyS eller
( )n
yyS i
iyy
2
2 ∑∑−
−= eller )1(2 −⋅= nsSS yyy
))((1
yyxxS i
n
iixy −−=∑
= eller
n
yxyxS ii
iixy∑∑∑
⋅−=
• Korrelationen r udtrykker graden af lineær sammenhæng. • Korrelationen kvadreret r2 udtrykker ”forklaringsgraden”:
Syy= variation forklaret af linien + uforklaret variation:
−+=
xx
xyyy
xx
xyyy S
SS
S
SS
22
Afsnit 12.1-12.3
Variansanalyse (forskel i middel)
• Er der forskel (i middel) på grupperne A, B og C? • Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe
kan antages at være normalfordelte.
En-sidet variansanalyse • Vi betragter modellen:
ijiijX εαµ ++= hvor det antages ),0( 2σNeij ≈
• µ er gennemsnit for alle målinger. • αi angiver niveau af ”gruppe” i.
1. Formulering af hypotese • vi vil nu sammenligne (flere end to) middelværdier µ+αi i modellen:
ijiijX εαµ ++= hvor det antages ),0( 2σNeij ≈
Dvs. hypotesen kan opstilles:
ji
ji
H
H
αααα
≠
=
:
:
1
0
- 33 -
2. teststørrelse bliver • Variansanalysetabel
• Den totale varians:
SSETrSSSST += )(
• Test størrelsen F:
)/(
)1/()(
kNSSE
kTrSSF
−−=
• Måleusikkerheden (residual) varians:
kN
SSEerror −
=2σ
• Behandlingsvarians:
1
)(2
−=
k
TrSStreatmentσ
Hvor k er niveauer antal slags prøver fortaget over en faktor, og N er antal observationer. • Formler for kvadrat afvigelses sum:
∑∑= =
−=k
i
n
jij
i
CySST1 1
2
∑=
−=k
i i
i Cn
TTrSS
1
2
)( , hvor
N
TC
2.= , ∑
=
=in
jiji yT
1
, ∑=
=k
iiTT
1
.
3. sammenligning med kritisk værdi • Teststørrelsen sammenlignes med en fraktil i F fordelingen:
),1(~ kNkFF −−α
- 34 -
Tosidet variansanalyse
• Vi antager nu, at vi har modellen:
ijjiijX εβαµ +++= hvor det antages ),0(~ 2σNeij
Dvs. vi har to inddelingskriterier, både α og β, hvor β også kan opfattes som en blok, hvorfor designet også kaldes et randomiseret blokforsøg.
• Den totale varians:
SSEBlSSTrSSSST ++= )()(
• Test størrelsen F:
))1)(1/((
)1/()(
−−−=baSSE
aTrSSF eller
))1)(1/((
)1/()(
−−−=baSSE
bBlSSF
• Måleusikkerheden (residual) varians:
))1)(1((2
−−=
ba
SSEerrorσ
• Behandlingens varians:
1
)(2
−=
a
TrSStreatmentσ
• Blokkenes varians:
1
)(2
−=
b
BlSSblocksσ
• Formler for kvadrat afvigelses sum:
∑∑= =
−=a
i
b
jij CySST
1 1
2
- 35 -
Cb
TTrSS
a
ii
−=∑
=1
2.
)(
Ca
T
BlSS
b
jj
−=∑
=1
2.
)( , hvorab
TC
2..=
• Kritisk værdi for blokke: ))1)(1(,1( −−− babFα
• Kritisk værdi for behandling: ))1)(1(,1( −−− baaFα
Definition på parat t-test Hvis man måler blodtryk på 10 personer og måler højden på de samme 10 personer er det et parat t-test man ser på for at sammenligne.