statistik - formelsamling · 5) - tilfældigt udvalgte stikprøver differencen mellem to...
TRANSCRIPT
Statistik – Formelsamling
HA Almen, 1. semester
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
2/28
Statistik - Formelsamling
Indholdsfortegnelse Hvordan kan formelsamlingen bruges? ................................................................................................... 5
Værd at vide ................................................................................................................................................... 5
Oversigt – Mest brugte symboler................................................................................................................... 5
Disclaimer ....................................................................................................................................................... 5
Konfidensintervaller ............................................................................................................................... 6
Generel fremgangmåde ................................................................................................................................. 6
Populationsmiddelværdi , med kendt .................................................................................................. 6
Difference mellem 2 populationsmiddelværdier med kendt ................................................................... 6
Populationsmiddelværdien, , med ukendt ........................................................................................... 6
Differencen mellem 2 populationsmiddelværdier med samme, men ukendt ......................................... 7
S-pooled beregner en fælles varians .......................................................................................................... 7
Populationsvarians, .................................................................................................................................. 7
Differencen mellem 2 populationsvarianser .................................................................................................. 8
Populationsandel, P ........................................................................................................................................ 8
Differencen mellem to populationsandele, .................................................................................... 8
Hypotesetest ......................................................................................................................................... 9
Fremgangsmåde ............................................................................................................................................. 9
Fortolkninger .................................................................................................................................................. 9
P-værdi ........................................................................................................................................................... 9
Type I og type II fejl ........................................................................................................................................ 9
Populationsmiddelværdi , med kendt ................................................................................................ 10
Difference mellem 2 populationsmiddelværdier med kendt ................................................................. 10
Populationsmiddelværdien, , med ukendt ......................................................................................... 10
Differencen mellem 2 populationsmiddelværdier med ukendt ............................................................ 11
Populationsvarians, ................................................................................................................................ 11
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
3/28
Forholdet mellem 2 populationsvarianser, ............................................................................................ 11
Populationsandel, P ...................................................................................................................................... 12
Differencen mellem to populationsandele, .................................................................................. 12
Sandsynlighedsregning ......................................................................................................................... 14
Stokastisk uafhængighed ............................................................................................................................. 14
Additionsreglen (Probability that event A or event B occurs) .................................................................... 14
Betinget sandsynlighed (når, givet, hvis) ..................................................................................................... 14
Multiplikationsreglen (og) ............................................................................................................................ 14
Bayes sætning............................................................................................................................................... 14
Marginal sandsynlighed ............................................................................................................................... 15
Kobling til binomialfordeling ........................................................................................................................ 15
Regressionsanalyse .............................................................................................................................. 16
Grundlæggende formler/forklaringer .......................................................................................................... 16
Parameterestimater, Simpel regression (side 419) ..................................................................................... 16
Fortolkning ................................................................................................................................................... 16
Variationsstørrelser ...................................................................................................................................... 16
Antagelser og kontrol af disse .................................................................................................................. 18
Multikolinaritet (multipel regression) ...................................................................................................... 19
Jaque Bera-test ............................................................................................................................................. 19
Test for homoskedasticitet (Whites test)..................................................................................................... 19
Test for simpel regression ............................................................................................................................ 20
Test 1 ........................................................................................................................................................ 20
Test 2 ........................................................................................................................................................ 20
Test for multipel regression ......................................................................................................................... 20
Test 1 ........................................................................................................................................................ 20
Test 2 ........................................................................................................................................................ 20
Test 3 ........................................................................................................................................................ 21
Prediktionsinterval (PI) ................................................................................................................................. 21
Konfidensinterval (KI) ................................................................................................................................... 21
Konfidensinterval for .......................................................................................................................... 22
Ikke-parametrisk statistik ..................................................................................................................... 22
Goodness of fit 1 faktor ................................................................................................................................ 22
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
4/28
1 faktor ..................................................................................................................................................... 22
2 faktorer (kontingenstabeller) ................................................................................................................ 22
Variansanalyse ..................................................................................................................................... 23
Et-sidet variansanalyse ................................................................................................................................. 23
ANOVA-tabel ............................................................................................................................................ 24
To-sidet variansanalyse ................................................................................................................................ 24
Hypotesetest ............................................................................................................................................ 24
ANOVA-tabel ............................................................................................................................................ 26
Fordelinger .......................................................................................................................................... 27
Binomialfordeling ...................................................................................................................... 27
Standardiseret normalfordeling ................................................................................................ 27
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
5/28
Hvordan kan formelsamlingen bruges?
Ud fra den enkelte opgave til eksamen kan man slå op i denne formelsamling for at finde
fremgangsmåden til at løse opgaven.
Dette gøres således:
1) Find overemnet som opgaven omhandler - fx “Hypotesetest”
2) Find den specifikke opgavebeskrivelse - fx “Difference mellem 2 populationsmiddelværdier med
kendt σ2”.
3) Følg den generelle fremgangsmåde for overemnet.
4) Benyt formlerne for den specifikke opgavebeskrivelse.
Værd at vide
“NCT” henviser til grundbogen i statistik: ”Statistics for Business and Economics” (af Paul Newbold, William Carlson & Betty Thorne)
Oversigt – Mest brugte symboler
Størrelse Population Stikprøve
Antal observationer N n
Gennemsnit μ x
Varians σ2 s2
Standardafvigelse σ s
Variationskoefficienten CV CV
Kovarians Cov(X,Y) = σxy Cov(X,Y) = sxy
Korrelationskoefficient p r
Disclaimer For at få udbytte af denne formelsamling kræver det et grundlæggende kendskab til faget statistik og forståelse for, hvordan man løser generelle problemstillinger. Er dét på plads, fungerer denne formelsamling som et godt værktøj til at spare tid til eksamen.
Uni Bazaar IVS tager forbehold for tastefejl og ændringer i pensum. Desuden skal det bemærkes, at den præcise brug af symboler kan variere i forhold til den enkelte underviser.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
6/28
Konfidensintervaller
Generel fremgangmåde 1) Find formel, evt. ved hjælp af træet (bilag i fællesnoter)
2) Gør relevante antagelser
3) Konkluder at den sande populationsvariabel med sikkerhed er givet i intervallet.
4) Kommentér evt. på om 0 ligger i intervallet
ME (marginal error) er alt der efter i formlerne og bredden
Populationsmiddelværdi , med kendt
Formel:
findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser:
- Kendt populationsvarians
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Difference mellem 2 populationsmiddelværdier med kendt
Formel:
findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser
- Kendte populationsvarianser
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Populationsmiddelværdien, , med ukendt
Formel:
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
7/28
findes i NCT på side 770
Antagelser:
- Ukendt populationsvarians
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Differencen mellem 2 populationsmiddelværdier med samme, men ukendt
S-pooled beregner en fælles varians
Formel:
findes i NCT på side 770
Antagelser
- Ukendte men ens varianser
- Normalfordelte populationer
- Tilfældigt udvalgte stikprøver
Populationsvarians,
Formel:
-fordelingerne findes i NCT på side 768 og 769
Antagelser
- Normalfordelt population
- Populationsvarians der følger -fordeling
- Tilfældigt udvalgte stikprøver
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
8/28
Differencen mellem 2 populationsvarianser Ikke en del af pensum
Populationsandel, P
Formel:
findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser
- Population er binomialfordelt : to mulige udfald, konstant P og stokastisk uafhængighed
- Den kan approksimeres til en normalfordeling, når (variansen skal være større end
5)
- Tilfældigt udvalgte stikprøver
Differencen mellem to populationsandele,
Formel:
findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser
- Population er binomialfordelt og : to mulige udfald for X og Y, konstant P og
stokastisk uafhængighed
- Den kan approksimeres til en normalfordeling, når og
- Tilfældigt udvalgte stikprøver
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
9/28
Hypotesetest Altid stærkere at lave en nulhypotese, der kan forkastes
Fremgangsmåde - Opstil passende og
For den højresidede test vil og
For den venstresidede test vil og
For den dobbeltsidede test vil og
benyttes ved den dobbeltsidede test.
- Vælg sikkerhedsniveau . Hvis intet er givet, brug 5 %.
- Find den passende formel, evt. ud fra brug af træet
- Gør de relevante antagelser
- Sæt teststørrelsen, T, overfor den kritiske værdi, K. Hvis T er mindre ekstrem end K medfører det,
at vi ikke forkaster Det betyder desuden, at hvis T er mere ekstrem end K, skal vi forkaste
Fortolkninger
Hvis vi beviser betyder det blot, at vi ikke kan forkaste den. Det betyder IKKE, at den er sand.
Hvis vi modbeviser , kan vi forkaste med sikkerhed
P-værdi Kræves ikke medmindre, der direkte bliver spurgt om det.
P-værdien er sandsynligheden for at observere en mere ekstrem værdi end teststørrelsen, når er sand.
Er P-værdien mindre end α, så forkaster vi.
P-værdien kan især bruges ved grænsesignifikans, da sikkerhedsniveauet kan være afgørende i de tilfælde
for om vi forkaster eller ej.
Type I og type II fejl - Type 1 (α): risikoen for at forkaste en sand
- Type 2 (β): risikoen for ikke at forkaste en falsk
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
10/28
Der er risiko for fejl især ved grænsesignifikans.
Populationsmiddelværdi , med kendt
Teststørrelse:
Kritisk værdi: findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser:
- Kendt populationsvarians
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Difference mellem 2 populationsmiddelværdier med kendt
Teststørrelse:
er det vi tester om differencen er
Kritisk værdi: findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser:
- Kendte populationsvarianser
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Populationsmiddelværdien, , med ukendt
Teststørrelse:
Kritisk værdi: findes i NCT på side 770
Antagelser:
- Ukendt populationsvarians
- Normalfordelt population
- Tilfældig udvalgt stikprøve
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
11/28
Differencen mellem 2 populationsmiddelværdier med ukendt
Teststørrelse:
er det vi tester om differencen er
Kritisk værdi: findes i NCT på side 770
Antagelser:
- Ukendte men ens varianser
- Normalfordelte populationer
- Tilfældigt udvalgte stikprøver
Populationsvarians,
Teststørrelse:
Kritisk værdi (øvre):
Kritisk værdi (nedre):
De kritiske værdier findes i NCT på side 768 og 769
Antagelser:
- Normalfordelt population
- Populationsvarians der følger -fordeling
- Tilfældigt udvalgte stikprøver
Forholdet mellem 2 populationsvarianser,
Teststørrelse: , hvor
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
12/28
Deler man to fordelinger med hinanden, så får man et F-test i stedet.
Kritisk værdi: som findes i NCT på side 771-774
Antagelser:
- Ukendte populationsvarianser
- Normalfordelte populationer
- Tilfældigt udvalgte stikprøver
Populationsandel, P
Formel: hvor
Kritisk værdi: findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser
- Population er binomialfordelt : to mulige udfald, konstant P og stokastisk uafhængighed
- Den kan approksimeres til en normalfordeling, når (variansen skal være større end
5)
- Tilfældigt udvalgte stikprøver
Differencen mellem to populationsandele,
Teststørrelse:
Kritisk værdi: findes i NCT på side 738 (eller i den lille tabel på side 294)
Antagelser:
- Population er binomialfordelt og : to mulige udfald for X og Y, konstante P’er
og stokastisk uafhængighed
- Den kan approksimeres til en normalfordeling, når og . CLT er
opfyldt når de to foregående formler er korrekte.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
13/28
- Tilfældigt udvalgte stikprøver
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
14/28
Sandsynlighedsregning TJEK OM DER ER ANTAGET UAFHÆNGIGHED – det ændrer det hele.
Uafhængighed er ikke det samme som disjoint events. Uafhængige events kan godt have fællesmængde.
Stokastisk uafhængighed
Uafhængighed når: og
Additionsreglen (Probability that event A or event B occurs)
Er de to events disjoint (ingen fællesmængde) så kan man nøjes med addere P(A) og P(B) for at finde den
forenede mængde.
= forenet (union of events). Se side 112 for illustration.
= fælles (intersection)
Betinget sandsynlighed (når, givet, hvis)
(siges som A givet B. ”sandsynligheden for at være statistiklærer (A) givet man er kvinde (B)”).
Multiplikationsreglen (og)
Ved uafhængighed, da er de betingede sandsynligheder lig den oprindelige sandsynlighed:
hvorfor multiplikationsreglen i stedet bliver .
Bayes sætning Også en givet sandsynlighed (når, givet, hvis). Multiplikationsregel i tælleren for betinget sandsynlighed
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
15/28
Marginal sandsynlighed
Kobling til binomialfordeling
A, B, osv. Kunne være
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
16/28
Regressionsanalyse
Grundlæggende formler/forklaringer
Y = responsvariabel
X = kovariater/forklarende variabler
= intercept (skæring med y-aksen)
= hældning
= fejlled/residualer
Parameterestimater, Simpel regression (side 419)
Fortolkning Simpel eller lineær regression?
: Y har en forventet værdi på enheder(y). Det sker når alle kovariater (ved simpel bare den ene
kovariat) er lig 0. Værdien for giver ikke altid mening i sig selv – så er det vigtigt at nævne! Fx hvis vi har
negative værdier for noget, der ikke bør kunne være negativt.
: Y har en forventet stigning/fald på enheder(Y), når vi siger med en enhed( ).
: Findes kun ved multipel lineær regression. Y har en forventet stigning/fald på enheder(Y), når
enheder , hvis man holder de andre kovariater konstant.
Variationsstørrelser SSR: Den del af variationen, som modellen forklarer.
SSE: Den del af variationen, som modellen ikke forklarer
SST: Den totale variation
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
17/28
SSR:
SST:
MSR:
MSE:
F-teststørrelse (ratio):
Parameterestimater:
Det vil sige, at regressionslinjen går gennem punktet
Determinationskoefficienten:
Vigtigt at bemærke at formlen også kan skrives som . Formlen viser, at
forklaringskraften vokser med variabiliteten af kovariaterne om deres gennemsnit. Dvs. at er større når
er større. Man skal derfor forsøge at rbuge kovariater med så stor varians som muligt for på
den måde at opnå den størst mulige forklaringskraft i regressionsmodellen.
Justeret determinationskoefficient:
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
18/28
Fejlleddenes varians:
Std. Error på den enkelte :
kan øges kunstigt, hvis man tilfører flere kovariater – selv hvis de ingen forklaringskraft har. R^2 adj. Er
justeret for dette.
Antagelser og kontrol af disse
Antagelse om lineæritet
Der skal være lineær sammenhæng mellem responsvariablen og alle kovariater.
Kontrol:
• Lav en graf, der viser Y mod X’erne:
• Led efter lineære sammenhænge. Finder man en eksponentiel, kvadratisk eller anden
sammenhæng, så kan der anbefales en transformation til en lineær sammenhæng. Vi kommer ikke
selv til at skulle lave transformationen, men vi kan foreslå at gøre det.
Antagelse om normalfordelte og uafhængige fejlled
Residualerne er uafhængige af kovariaterne for alle og de er normalfordelte med middelværdien 0. Vi
antager at middelværdien er 0.
Kontrol:
• Lav e graf med de rå eller studentiserede fejlled mod X’erne. Der må ikke være nogen mønstre og
de skal ligge omkring 0.
• Normalfordelingsplot af de rå eller studentiserede residualer. Punkterne må ikke ligge uden for
båndende ved 95 %. Ligger der enkelte punkter udenfor båndene er det ok, hvis er stor.
• Test for normalfordelte residualer på de studentiserede eller de rå (Jaque Bera testet). Forkastes
nulhypotesen, betyder det, at fejlleddene ikke er normalfordelte.
Homoskedasticitet
Residualerne er homoskedastiske, hvilket vil sige, at de har konstant varians: for alle .
Kontrol:
• Lav en graf med de studentiserede residualer mod hhv. row eller predicted Y.
• Der skal være ens varians (spredning) over hele x-aksen
• Test for homoskedasticitet. Forkastes nulhypotesen, betyder det at vi har heteroskedastiske fejlled.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
19/28
Parvis uafhængighed
Residualerne er parvis uafhængige, dvs. at ved at have observeret en kan vi ikke sige noget om den
næste . Der må ikke være systematik i fejlene.
Kontrol:
- Lav en graf med studentiserede residualer mod row eller predicted Y. Se efter mønstre i plottet.
Multikolinaritet (multipel regression)
En kovariat må ikke være en linearkombination af en anden kovariat, dvs. de ikke må forklare det samme
om Y.
Kontrol:
- Lav et korrelationsmatrix med alle de numeriske kovariater
- Ingen må overstige 0,7 numerisk set (dvs. større end 0,7 og mindre end -0,7)
Der findes eksempler plots (uafhængighed og homoskedasticitet) tegnet på papir.
Jaque Bera-test
: Normalfordelte residualer
Ikke normalfordelte residualer (komplement til )
Teststørrelse: OBS: JMP har allerede trukket de 3 fra.
Kritisk værdi: som findes i NCT på side 612. Forkast hvis teststørrelsen er større end den kritiske
værdi.
Når testet har stort nok n kan den approksimeres til en -fordeling.
Test for homoskedasticitet (Whites test) : Homoskedasticitet
Heteroskedasticitet (hvis der denne lineære sammenhæng: )
Teststørrelse:
Kritisk værdi:
Forkast hvis teststørrelsen er større end den kritiske værdi.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
20/28
Test for simpel regression Test af ingen lineær sammenhæng, hvor
og
Test 1
Teststørrelse:
Kritisk værdi:
Test 2
Teststørrelse:
Kristik værdi:
Test for multipel regression
Test 1
Test af ingen marginaleffekt af den j’te kovariat
og
Teststørrelse:
Kritisk værdi:
Test 2
Test af ingen simultaneffekt af K antal kovariater
og
Teststørrelse:
Kristik værdi:
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
21/28
Test 3
og
Test af ingen simultaneffekt af delmængden R ud af K kovariater. Findes der kun én ny kovariat (R=1) er det
ikke simultan- men marginaleffekt. Vigtigt at notere.
Teststørrelse:
Hvor SSE(R) er fra den gamle model
SSE er fra den nye model
K er antal kovariater i den model med færrest kovariater
R er antal tilføjede kovariater
Kritisk værdi:
Prediktionsinterval (PI)
Nævneren kan også skrives som
Nogle gange må antage samme værdi som , hvorved hele det sidste led bortfalder.
Dette interval indeholder med sikkerhed værdien af en ny observation , når X antager
værdien .
Konfidensinterval (KI)
Dette interval indeholder med sikkerhed værdien af , når X antager værdien .
Konfidensintervallet er altid mindre bredt end prediktionsintervallet og derved mere ”sikkert”.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
22/28
Konfidensinterval for
Ikke-parametrisk statistik
Goodness of fit 1 faktor
1 faktor
Parametre:
: antal observationer i kategori
Sandsynligheden for at ende i kategori
forventet antal i kategori
der er Goodness of fit. Det kan også skrives som er korrekt specificeret.
er specificeret forkert.
Teststørrelse:
Kritisk værdi: som findes i NCT på side 768. K angiver antallet af kategoier.
Fokast hvis teststørrelsen er større end den kritiske værdi.
Antagelse
- er tilstrækkelig stor, sp for hver
2 faktorer (kontingenstabeller)
Faktor A/Faktor B 1 2 … c Total
1 … 2 … … … … … … … r … Total … n
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
23/28
Faktor A har r kategorier (rækker) hvilket vil sige at til
Faktor B har c kategorier (kolonner) hvilket vil sige at til
uafhængig mellem faktor A og B
Afhængighed
Teststørrelse:
Kritisk værdi:
Vi forkaster, hvis teststørrelsen er større end den kritiske værdi.
Antagelse:
- og er tilstrækkeligt støre, så for hver og
Variansanalyse
Et-sidet variansanalyse Antal populationer, hvor vi vil teste ens/forskellig middelværdi, men med ens varians. Kategoriske variable.
Teststørrelse:
Hvor K er antallet af grupper
N er antallet af observationer
SSG er variationen mellem grupper
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
24/28
SSW er variationen indenfor grupperne
Kritisk værdi: som findes i NCT på side 771-774
Forkast når teststørrelsen er større end den kritiske værdi.
Antagelser:
- Normalfordelte populationer
- Uafhængige stikprøver
- Varianshomogenitet
ANOVA-tabel
To-sidet variansanalyse BLOK / GRUPPE 1 2 … K
1 …
2 …
… … … … …
H …
K er antallet af grupper i gruppefaktoren
H er antallet af grupper i blokfaktoren
M er antal observationer indenfor hvert niveau.
Hypotesetest
Forkaster man en af nedenstående hypoteser, så er der altså en effekt af en af faktorerne. For alle test
gælder det, at vi forkaster , hvis teststørrelsen er større end den kritiske værdi.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
25/28
Test 1 – ingen gruppeeffekt
Teststørrelse:
Kritisk værdi:
Test 2 – ingen blokeffekt
Teststørrelse:
Kritisk værdi:
Test 3 – ingen vekselvirkningseffekt
Teststørrelse:
Kritisk værdi:
Antagelser:
- Normalfordelte populationer
- Uafhængige stikprøver
- Varianshomogenitet
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
26/28
ANOVA-tabel
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
27/28
Fordelinger
Binomialfordeling To mulige udfald: Succes eller fiasko hvor succes er det, vi leder efter.
Succes-sandsynligheden
fiasko-sandsynligheden
: antal uafhængige forsøg
SSH. For at få bestemt x: og variansen af bestemt x:
fordi sandsynligheden altid summer som 1
Standardiseret normalfordeling Middelværdien er 0 og variansen og standardafvigelsen er 1
Der kan transformeres til standardnormalfordelingen:
giver en værdi i Z-fordelingen som svarer til en SSH. DETTE ER SVARET.
Hvis: Z er negativ
Approksimation af binomialfordeling til normalfordeling
Fra kategorisk til numerisk. Har man mange observationer, så ligner binomialfordelingen næsten en
kontinuert linje. Vi approksimerer, fordi binomialfordelingen fordi den er meget regnetung.
Statistik formelsamling HA-Almen, 1. semester
Udført i samarbejde med Uni Bazaar IVS
28/28
Må anvendes når (altså: variansen skal være større end 5). Det gælder fra ca.
(tommelfingerregel).
Udføres vha. transformation:
Sandsynlighederne findes ved: