neparametriČni testifkbv.um.si/images/stories/matematika/11pred-stat.pdf · doc.dr. tadeja kraner...
TRANSCRIPT
Slabosti parametričnih preizkusov:
-stroge predpostavke
(predpostavka o normalni porazdelitvi)
-veliko računanja
-težave, če spremenljivke niso kvantitativne
(številske)
Neparametrični testi so namenjeni predvsem za
preizkušanje neparametričnih hipotez. To so
hipoteze, ki se tičejo funkcijske oblike neznanega
porazdelitvenega zakona. Vendar se tudi testi za
preizkušanje parametrične hipoteze imenuje
neparametričen, če je neodvisen od
porazdelitvenega zakona.
1. PRILAGODITVENI TESTI
So namenjeni preizkušanju ničelne hipoteze H0,
da je neznana porazdelitev Fx statistične
spremenljivke X enaka neki znani porazdelitvi F0
proti alternativni hipotezi H1, da je ta
porazdelitev različna od F0, t.j.
H0: Fx=F0
H0: Fx≠F0
Omenili bomo test Kolmogorova in Pearsonov
hi kvadrat.
Test Kolmogorova
Lahko uporabimo pri zveznih porazdelitvah in to
najbolj zanesljivo v primeru velikih vzorcev.
Test je matematično zapleten, zato ga ne bomo
predstavili.
Ta test ima vgrajen tudi program SPSS pod
imenom One-Sample Kolmogorov-Smirnov
test in se uporablja za testiranje ali je
porazdelitev normalna, eksponentna,
enakomerna ali Poissonova.
Pearsonov hi kvadrat
Je uporaben tako pri zveznih kot pri diskretnihporazdelitvah (za velike vzorce). Zalogo vrednostistatistične spremenljivke X razdelimo na rrazredov:
S1, S2, …,Sr.
Za vsak k=1,2,…,r naj bo pk verjetnost, da
statistična spremenljivka X ob pravilni hipotezi H0
zavzame vrednost iz razreda Sk.
Če je n velikost vzorca, potem je npk= hipotetična
frekvenca (teoretična) razreda Sk.
kf
… Skupaj
Vzorčne
frekvence
… n
Hipotetične
frekvence
… n
1S 2S 3SrS
2f1f
1f 2f 3f rf
3f rf
Ideja statističnega preizkusa je sledeča, če se dejanske in pričakovane
frekvence dovolj dobro ujemajo, ničelno hipotezo obdržimo, sicer jo
zavrnemo v korist alternativne hipoteze. Mera ujemanja temelji na
razlikah frekvenc, ker so včasih razlike pozitivne, drugič pa negativne,
mera upošteva kvadrate razlik
Karl Pearson je razvil mero ujemanja, imenujemo jo Pearsonova -
statistika:
2( )k kf f 2
22
1
( )rk k
kk
f f
f
22 2
1
0
Izkaže se, da je za velike statistika, ki ji pravimo
Pearsonov hi kvadrat
( )( 1),
porazdeljena aproksimativno po zakonu hi kvadrat z
-1 prostostnimi stopnjami.
Če je hipoteza H
rk k
kk
n
f fr
f
r
2
2
2
0
pravilna so vrednosti statistike
majhne. Če je izračunana vrednost večja od kritične
, potem zavrnemo hipotezo H .
Opomba
Pearsonov hi kvadrat test se lahko uporabi
zmeraj, ko je npk≥5, sicer je potrebno združiti
posamezne razrede.
Število 0 1 2 3 4 5 6 7 8 9
Frekvenca 484 532 490 486 504 516 508 488 494 498
PRIMER
Generator slučajnih števil generira cela števila
od 0 do 9. Denimo, da smo z njim izbrali 5000
števil in dobili frekvence izbir posameznih števil,
ki so prikazane v preglednici.
Zanima nas, če generira tak generator slučajnih
števil pri poljubnem številu ponovitev, vsa
števila enako pogosto.
PRIMER
V določenem časovnem obdobju je bilo 500
nesreč pri delu, od tega 130 ob ponedeljkih, 90
ob torkih, 100 ob sredah, 90 ob četrtkih in 90 ob
petkih. Na podlagi teh podatkov bomo preverili
domnevo, da je porazdelitev nesreč po dnevih
enakomerna (stopnja tveganja je 0,05).
ODG: Porazdelitev nesreč ni enakomerno
porazdeljena po dnevih.
PRIMER
Igralno kocko vržemo 1200 krat. Pri tem smo dobili
naslednje rezultate:
Na stopnji tveganja 0,05 preizkusimo hipotezo, da
smo metali pošteno igralno kocko.
1 2 3 4 5 6
183 211 170 220 200 216
PRIMER
Na BF so izvedli poskus, v katerem so križali
dvoredni ječmen s črnimi plevami s šestrednim
ječmenom z rumenimi plevami. V F2 generaciji je
bilo od skupno 1264 rastlin 735 črnih dvorednih
(Č2), 232 črnih šestrednih (Č6), 223 rumenih
dvorednih (R2) in 74 rumenih šestrednih (R6). Ali
so dobljeni eksperimentalni rezultati v skladu s
teoretičnim razmerjem, ki ga podaja Mendelova
teorija: Č2:Č6:R2:R6=9:3:3:1 (α=0,05)?
2. ANALIZA KONTINGENČNIH
TABEL
Velikokrat nas zanima ali sta statistični
spremenljivki X in Y (opisni) na populaciji
povezani (odvisni).
V vzorcu je bilo 6800 slučajno izbranih oseb. Za
vsako so ugotavljali barvo las in barvo oči.
Zanima nas ali sta barva las in barva oči
povezani spremenljivki.
S slučajno izbiro so izbrali 100 žensk in 160
moških in ugotavljali njihovo izobrazbo. Zanima
nas, ali je v proučevani populaciji izobrazbena
struktura po spolu enaka.
NIČELNA: dejanska frekvenčna porazdelitev je
enaka teoretični frekvenčni porazdelitvi (X in Y
nista povezani (nista odvisni))
ALTERNATIVNA: dejanska frekvenčna
porazdelitev ni enaka teoretični frekvenčni
porazdelitvi (X in Y sta povezani (odvisni))
1 2
1 2
Vrednosti spremenljivke razdelimo na razredov
, ,..., in vrednosti spremenljivke razdelimo na
razredov , ,..., . Denimo, da dobimo iz populacije
vzorec velikosti . Naj označuje fr
r
s
ij
X r
A A A Y s
B B B
n N iekvenco dogodka A
v tem vzorcu. Frekvence predstavimo s kontingenčno
tabelo (imenujemo jih tudi dejanske frekvence):
j
ij
B
N
X/Y B1 … Bj … Bs
A1 N11 N1j … N1s L1
: : : : :
Ai Ni1 … Nij … Nis Li
: : : :
Ar Nr1 … Nrj … Nrs Lr
S1 … Sj … Ss n
Če ničelna domneva velja, je verjetnost za izid v (i,j)-ti celici
enaka
Teoretično frekvenco za (i,j)-to celico pa dobimo tako, da
jiSL
n n
j i jiS L SL
nn n n
Povejmo to pravilo z besedami: za izračun pričakovane frekvence v (i,j)-ti celici zmnožimo robno vsoto v i-ti vrstici z robno vsoto v j-tem stolpcu in produkt delimo z velikostjo vzorca.
Poznamo mero ujemanja pričakovanih (teoretičnih) frekvenc z dejanskimi:
Število stopenj prostosti je (r-1)(s-1).
2
2
1 1
( )r sij ij
i jij
f f
f
Opomba
Hi kvadrat statistika se vedno računa na frekvencah, nikoli
na odstotkih ali deležih.
Pogoj za uporabo je
5, 1,..., , j=1,...,rijf i k
X/Y B1 B2
A1 N11 N12 L1
A2 N21 N22 L2
S1 S2 n
V primeru, ko je r=s=2 moramo imeti izpolnjeno še
dodatno predpostavko, da je LiSj≥50n za i,j=1,2.
Če temu ni tako in je n≥40 ali pa, če je LiSj≥5n lahko
uporabimo Yatesovo korekturo:
2
11 22 21 122 2
1 2 1 2
( )2 (1)
nn N N N N
L L S S
3. Koeficient korelacije ranga po
Spearmanu
Je neparametrična alternativa Pearsonovemu
korelacijskemu koeficientu. Z njim ugotavljamo ali
sta spremenljivki povezani. Računamo ga po enačbi
kjer je D razlika med rangom spremenljivke X in
rangom spremenljivke Y za posamezno enoto.
Računamo ga tako, da vsem enotam v vzorcu
določimo rang glede na spremenljivko X in glede na
spremenljivko Y.
2
2
61 ,
( 1)S
DR
n n
Če imata dve enoti (ali več) enako vrednost jim
priredimo povprečni rang.
Značilnost koeficienta korelacije določimo s
tabelami (glej v knjigi Košmelj, Uporabna
statistika).
Spearmanov korelacijski koeficient zavzame
vrednosti z intervala [-1,1].
Range grafično prikažemo z razsevnim
grafikonom.
Spearmanov koeficient uporabljamo:
Zveza med spremenljivkama ni linearna, ampak
monotona.
Podatki ene ali obeh spremenljivk so rangi.
Podatki so nezanesljivi, za njihove predstavnike
uporabimo pripadajoče range.
Primer
V razredu je 17 dijakov. V njihovem abecednem
seznamu jim je pripisal profesor slovenščine za
znanje tale mesta:
17,12,1,3,8,15,16,2,7,13,5,14,6,10,4,10,10.
Profesor matematike pa mesta:
16,17,4,2,8,15,12,1,10,9,3,12,12,14,5,7,6. Ali ti
podatki potrjujejo domnevo, da sta znanji obeh
predmetov povezani (stopnja značilnosti 0,05)?
2
2
2 2
164,
torej je
6 6 1641 1 0,799
( 1) 17(17 1)
Za =0,05 in n=17 odčitamo 0,4877.
Ugotovimo, da sta znanji obeh
predmetov med seboj povezani.
S
D
DR
n n
Primer
V vzorcu je bilo deset vrst jogurtov. Ocenjevala
sta jih ocenjevalca A in B, tako da sta jih rngirala
od 1 do 10 (1 najboljši in 10 najslabši). Delo sta
opravila neodvisno drug od drugega. Zanima nas
usklajenost obeh ocenjevalcev.