neparametriČni testifkbv.um.si/images/stories/matematika/11pred-stat.pdf · doc.dr. tadeja kraner...

39
NEPARAMETRIČNI TESTI 25.3.2011 Doc.dr. Tadeja Kraner Šumenjak

Upload: others

Post on 26-Dec-2019

9 views

Category:

Documents


0 download

TRANSCRIPT

NEPARAMETRIČNI TESTI

25.3.2011

Doc.dr. Tadeja Kraner Šumenjak

Slabosti parametričnih preizkusov:

-stroge predpostavke

(predpostavka o normalni porazdelitvi)

-veliko računanja

-težave, če spremenljivke niso kvantitativne

(številske)

Neparametrični testi so namenjeni predvsem za

preizkušanje neparametričnih hipotez. To so

hipoteze, ki se tičejo funkcijske oblike neznanega

porazdelitvenega zakona. Vendar se tudi testi za

preizkušanje parametrične hipoteze imenuje

neparametričen, če je neodvisen od

porazdelitvenega zakona.

1. PRILAGODITVENI TESTI

So namenjeni preizkušanju ničelne hipoteze H0,

da je neznana porazdelitev Fx statistične

spremenljivke X enaka neki znani porazdelitvi F0

proti alternativni hipotezi H1, da je ta

porazdelitev različna od F0, t.j.

H0: Fx=F0

H0: Fx≠F0

Omenili bomo test Kolmogorova in Pearsonov

hi kvadrat.

Test Kolmogorova

Lahko uporabimo pri zveznih porazdelitvah in to

najbolj zanesljivo v primeru velikih vzorcev.

Test je matematično zapleten, zato ga ne bomo

predstavili.

Ta test ima vgrajen tudi program SPSS pod

imenom One-Sample Kolmogorov-Smirnov

test in se uporablja za testiranje ali je

porazdelitev normalna, eksponentna,

enakomerna ali Poissonova.

Porazdelitev ni

normalna

Pearsonov hi kvadrat

Je uporaben tako pri zveznih kot pri diskretnihporazdelitvah (za velike vzorce). Zalogo vrednostistatistične spremenljivke X razdelimo na rrazredov:

S1, S2, …,Sr.

Za vsak k=1,2,…,r naj bo pk verjetnost, da

statistična spremenljivka X ob pravilni hipotezi H0

zavzame vrednost iz razreda Sk.

Če je n velikost vzorca, potem je npk= hipotetična

frekvenca (teoretična) razreda Sk.

kf

… Skupaj

Vzorčne

frekvence

… n

Hipotetične

frekvence

… n

1S 2S 3SrS

2f1f

1f 2f 3f rf

3f rf

Ideja statističnega preizkusa je sledeča, če se dejanske in pričakovane

frekvence dovolj dobro ujemajo, ničelno hipotezo obdržimo, sicer jo

zavrnemo v korist alternativne hipoteze. Mera ujemanja temelji na

razlikah frekvenc, ker so včasih razlike pozitivne, drugič pa negativne,

mera upošteva kvadrate razlik

Karl Pearson je razvil mero ujemanja, imenujemo jo Pearsonova -

statistika:

2( )k kf f 2

22

1

( )rk k

kk

f f

f

22 2

1

0

Izkaže se, da je za velike statistika, ki ji pravimo

Pearsonov hi kvadrat

( )( 1),

porazdeljena aproksimativno po zakonu hi kvadrat z

-1 prostostnimi stopnjami.

Če je hipoteza H

rk k

kk

n

f fr

f

r

2

2

2

0

pravilna so vrednosti statistike

majhne. Če je izračunana vrednost večja od kritične

, potem zavrnemo hipotezo H .

Opomba

Pearsonov hi kvadrat test se lahko uporabi

zmeraj, ko je npk≥5, sicer je potrebno združiti

posamezne razrede.

Število 0 1 2 3 4 5 6 7 8 9

Frekvenca 484 532 490 486 504 516 508 488 494 498

PRIMER

Generator slučajnih števil generira cela števila

od 0 do 9. Denimo, da smo z njim izbrali 5000

števil in dobili frekvence izbir posameznih števil,

ki so prikazane v preglednici.

Zanima nas, če generira tak generator slučajnih

števil pri poljubnem številu ponovitev, vsa

števila enako pogosto.

PRIMER

V določenem časovnem obdobju je bilo 500

nesreč pri delu, od tega 130 ob ponedeljkih, 90

ob torkih, 100 ob sredah, 90 ob četrtkih in 90 ob

petkih. Na podlagi teh podatkov bomo preverili

domnevo, da je porazdelitev nesreč po dnevih

enakomerna (stopnja tveganja je 0,05).

ODG: Porazdelitev nesreč ni enakomerno

porazdeljena po dnevih.

PRIMER

Igralno kocko vržemo 1200 krat. Pri tem smo dobili

naslednje rezultate:

Na stopnji tveganja 0,05 preizkusimo hipotezo, da

smo metali pošteno igralno kocko.

1 2 3 4 5 6

183 211 170 220 200 216

PRIMER

Na BF so izvedli poskus, v katerem so križali

dvoredni ječmen s črnimi plevami s šestrednim

ječmenom z rumenimi plevami. V F2 generaciji je

bilo od skupno 1264 rastlin 735 črnih dvorednih

(Č2), 232 črnih šestrednih (Č6), 223 rumenih

dvorednih (R2) in 74 rumenih šestrednih (R6). Ali

so dobljeni eksperimentalni rezultati v skladu s

teoretičnim razmerjem, ki ga podaja Mendelova

teorija: Č2:Č6:R2:R6=9:3:3:1 (α=0,05)?

2. ANALIZA KONTINGENČNIH

TABEL

Velikokrat nas zanima ali sta statistični

spremenljivki X in Y (opisni) na populaciji

povezani (odvisni).

Poglejmo nekaj primerov

V vzorcu je bilo 6800 slučajno izbranih oseb. Za

vsako so ugotavljali barvo las in barvo oči.

Zanima nas ali sta barva las in barva oči

povezani spremenljivki.

S slučajno izbiro so izbrali 100 žensk in 160

moških in ugotavljali njihovo izobrazbo. Zanima

nas, ali je v proučevani populaciji izobrazbena

struktura po spolu enaka.

NIČELNA: dejanska frekvenčna porazdelitev je

enaka teoretični frekvenčni porazdelitvi (X in Y

nista povezani (nista odvisni))

ALTERNATIVNA: dejanska frekvenčna

porazdelitev ni enaka teoretični frekvenčni

porazdelitvi (X in Y sta povezani (odvisni))

1 2

1 2

Vrednosti spremenljivke razdelimo na razredov

, ,..., in vrednosti spremenljivke razdelimo na

razredov , ,..., . Denimo, da dobimo iz populacije

vzorec velikosti . Naj označuje fr

r

s

ij

X r

A A A Y s

B B B

n N iekvenco dogodka A

v tem vzorcu. Frekvence predstavimo s kontingenčno

tabelo (imenujemo jih tudi dejanske frekvence):

j

ij

B

N

X/Y B1 … Bj … Bs

A1 N11 N1j … N1s L1

: : : : :

Ai Ni1 … Nij … Nis Li

: : : :

Ar Nr1 … Nrj … Nrs Lr

S1 … Sj … Ss n

Če ničelna domneva velja, je verjetnost za izid v (i,j)-ti celici

enaka

Teoretično frekvenco za (i,j)-to celico pa dobimo tako, da

jiSL

n n

j i jiS L SL

nn n n

Povejmo to pravilo z besedami: za izračun pričakovane frekvence v (i,j)-ti celici zmnožimo robno vsoto v i-ti vrstici z robno vsoto v j-tem stolpcu in produkt delimo z velikostjo vzorca.

Poznamo mero ujemanja pričakovanih (teoretičnih) frekvenc z dejanskimi:

Število stopenj prostosti je (r-1)(s-1).

2

2

1 1

( )r sij ij

i jij

f f

f

Opomba

Hi kvadrat statistika se vedno računa na frekvencah, nikoli

na odstotkih ali deležih.

Pogoj za uporabo je

5, 1,..., , j=1,...,rijf i k

X/Y B1 B2

A1 N11 N12 L1

A2 N21 N22 L2

S1 S2 n

V primeru, ko je r=s=2 moramo imeti izpolnjeno še

dodatno predpostavko, da je LiSj≥50n za i,j=1,2.

Če temu ni tako in je n≥40 ali pa, če je LiSj≥5n lahko

uporabimo Yatesovo korekturo:

2

11 22 21 122 2

1 2 1 2

( )2 (1)

nn N N N N

L L S S

120

604020120

120

60

120

40

3. Koeficient korelacije ranga po

Spearmanu

Je neparametrična alternativa Pearsonovemu

korelacijskemu koeficientu. Z njim ugotavljamo ali

sta spremenljivki povezani. Računamo ga po enačbi

kjer je D razlika med rangom spremenljivke X in

rangom spremenljivke Y za posamezno enoto.

Računamo ga tako, da vsem enotam v vzorcu

določimo rang glede na spremenljivko X in glede na

spremenljivko Y.

2

2

61 ,

( 1)S

DR

n n

Če imata dve enoti (ali več) enako vrednost jim

priredimo povprečni rang.

Značilnost koeficienta korelacije določimo s

tabelami (glej v knjigi Košmelj, Uporabna

statistika).

Spearmanov korelacijski koeficient zavzame

vrednosti z intervala [-1,1].

Range grafično prikažemo z razsevnim

grafikonom.

Spearmanov koeficient uporabljamo:

Zveza med spremenljivkama ni linearna, ampak

monotona.

Podatki ene ali obeh spremenljivk so rangi.

Podatki so nezanesljivi, za njihove predstavnike

uporabimo pripadajoče range.

Primer

V razredu je 17 dijakov. V njihovem abecednem

seznamu jim je pripisal profesor slovenščine za

znanje tale mesta:

17,12,1,3,8,15,16,2,7,13,5,14,6,10,4,10,10.

Profesor matematike pa mesta:

16,17,4,2,8,15,12,1,10,9,3,12,12,14,5,7,6. Ali ti

podatki potrjujejo domnevo, da sta znanji obeh

predmetov povezani (stopnja značilnosti 0,05)?

2

2

2 2

164,

torej je

6 6 1641 1 0,799

( 1) 17(17 1)

Za =0,05 in n=17 odčitamo 0,4877.

Ugotovimo, da sta znanji obeh

predmetov med seboj povezani.

S

D

DR

n n

Primer

V vzorcu je bilo deset vrst jogurtov. Ocenjevala

sta jih ocenjevalca A in B, tako da sta jih rngirala

od 1 do 10 (1 najboljši in 10 najslabši). Delo sta

opravila neodvisno drug od drugega. Zanima nas

usklajenost obeh ocenjevalcev.

Jogurt A B

1

2

3

4

5

6

7

8

9

10

6

4

9

1

2

7

3

8

5

10

5

6

10

2

3

8

1

7

4

9