jednofaktorska analiza varijanse

23
ANALIZA VARIJANSE (ANOVA) Izraz analiza varijanse (za koji se često koristi akronim ANOVA od engleskog naziva analysis of variance) opisuje grupu statističkih procedura koje je razvio britanski statističar Sir Ronald Fisher. Analiza varijanse je statistička metoda kojom se ispituje efekat jedne ili više nezavisnih promenljivih na jednu zavisnu promenljivu. Nezavisno promenljive se nazivaju faktori uticaja i oni sadrže više nivoa (grupa), a njihov efekat se odražava na nivo zavisno promenljive. Kada se ispituje uticaj jedne nezavisne promenljive (jednog faktora), koji ima tri ili više grupa, na zavisno promenljivu, onda je to jednofaktorska analiza varijanse. U višefaktorskoj analizi varijanse ispituje se uticaj dva faktora (dvofaktorska analiza varijanse), tri faktora (trofaktorska analiza varijanse) ili više faktora, od kojih svaki ima više grupa, na jednu zavisno promenljivu. Analiza varijanse se bazira na F-raspodeli (razvio je britanski statističar R. Fisher i po njemu je dobila ime), koja je asimetrična, pa leva i desna vrednost F koje odvajaju regione za odbacivanje nulte hipoteze nisu jednake. Iz ove raspodele je razvijena tabela za F vrednosti u kojoj se nalaze samo vrednosti koje odvajaju desni region za odbacivanje nulte hipoteze, jer su one od značaja za donošenje zaključka. 0 odbacuje se H 0 F α/2 α/2 odbacuje se H 0 prihvata se H 0 F levo F desno 1,0 0 odbacuje se H 0 F α/2 α/2 odbacuje se H 0 prihvata se H 0 F levo F desno 1,0 Postavlja se pitanje zašto se srednje vrednosti tri ili više grupa podataka ne upoređuju (dve po dve) t-testom, pri čemu bismo imali onoliko t-testova koliko ima kombinacija. Za poređenje srednjih vrednosti tri grupe podataka, A, B i C potrebna su tri poređenja: A:B, A:C i B:C, znači tri t-testa. Za četiri grupe

Upload: uros-velic

Post on 04-Aug-2015

392 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Jednofaktorska analiza varijanse

ANALIZA VARIJANSE (ANOVA)

Izraz analiza varijanse (za koji se često koristi akronim ANOVA od engleskog naziva analysis of variance) opisuje grupu statističkih procedura koje je razvio britanski statističar Sir Ronald Fisher. Analiza varijanse je statistička metoda kojom se ispituje efekat jedne ili više nezavisnih promenljivih na jednu zavisnu promenljivu. Nezavisno promenljive se nazivaju faktori uticaja i oni sadrže više nivoa (grupa), a njihov efekat se odražava na nivo zavisno promenljive. Kada se ispituje uticaj jedne nezavisne promenljive (jednog faktora), koji ima tri ili više grupa, na zavisno promenljivu, onda je to jednofaktorska analiza varijanse. U višefaktorskoj analizi varijanse ispituje se uticaj dva faktora (dvofaktorska analiza varijanse), tri faktora (trofaktorska analiza varijanse) ili više faktora, od kojih svaki ima više grupa, na jednu zavisno promenljivu.

Analiza varijanse se bazira na F-raspodeli (razvio je britanski statističar R. Fisher i po njemu je dobila ime), koja je asimetrična, pa leva i desna vrednost F koje odvajaju regione za odbacivanje nulte hipoteze nisu jednake. Iz ove raspodele je razvijena tabela za F vrednosti u kojoj se nalaze samo vrednosti koje odvajaju desni region za odbacivanje nulte hipoteze, jer su one od značaja za donošenje zaključka.

0

odbacuje se H0

F

α/2α/2

odbacuje se H0

prihvata se H0

Flevo Fdesno

1,00

odbacuje se H0

F

α/2α/2

odbacuje se H0

prihvata se H0

Flevo Fdesno

1,0

Postavlja se pitanje zašto se srednje vrednosti tri ili više grupa podataka ne upoređuju (dve po dve) t-testom, pri čemu bismo imali onoliko t-testova koliko ima kombinacija. Za poređenje srednjih vrednosti tri grupe podataka, A, B i C potrebna su tri poređenja: A:B, A:C i B:C, znači tri t-testa. Za četiri grupe podataka: A, B, C i D potrebno je šest poređenja: A:B, A:C, A:D, B:C, B:D i C:D, pa prema tome i šest puta t-test. Za svaki od t-testova unapred se definiše verovatnoća za pojavu greške tip I, a kod istovremenog izvođenja više t-testova javlja se “Familywise error rate” problem (FWER). FWER je verovatnoća da se kod više istovremenih poređenja neispravno odbaci najmanje jedna nulta hipoteza, a izračunava se prema izrazu:

FWER = 1 – (1 – α)k

gde je α – nivo značajnosti testa, a k – broj t-testova

Za šest t-testova za nivo značajnosti 0,05, dobijamo

FWER = 1 – (1 – 0,05)6 = 1 – 0,735 = 0,265 = 27%

što znači da je verovatnoće da napravimo najmanje jednu grešku tip I jednaka 27%.

Iz tog razloga se za poređenje srednjih vrednosti tri i više grupa podataka koristi analiza varijanse, kod koje je verovatnoća za pojavu greške tip I jednaka odabranom nivou značajnosti.

Page 2: Jednofaktorska analiza varijanse

Statistika u istraživanju

JEDNOFAKTORSKA ANALIZA VARIJANSE

Podaci koji pripadaju različitim grupama i iz kojih su izračunate srednje vrednosti za svaku grupu, mogu da se predstave na sledeći način:

grupe (nivoi faktora uticaja

grupa 1 grupa 2 grupa 3 ... grupa j

podaci u grupama

x11 x21 x31 ... xj1

x12 x22 x32 ... xj2

x13 x23 x33 ... xj3

x14 x24 x34 ... xj4

... ... ... ... ...

x1n x2n x3n ... xjn

srednja vrednost grupe ...

broj podataka u grupi n1 n2 n3 ... nj

Kod testiranja hipoteze za dve srednje vrednosti postoji jedna nulta i samo jedna alternativna hipoteza, a kod analize varijanse postoji jedna nulta i više alternativnih hipoteza. Nulta i alternativna hipoteza koje mogu da se postave kod analize varijanse (za najjednostavniji primer sa tri grupe podataka) glase:

Nulta hipoteza: H0 : μ1 = μ2 = μ3

Alternativne hipoteze:

H1 : μ1 ≠ μ2 ≠ μ3 (sve srednje vrednosti se razlikuju jedna od druge)

H1 : μ1 ≠ μ2 = μ3 ≠ μ1 (srednja vrednost u grupi 1 razlikuje od srednjih vrednosti u grupama 2 i 3, a srednje vrednosti u grupama 2 i 3 se ne razlikuju među sobom)

H1 : μ1 ≠ μ2 ≠ μ3 = μ1 (srednja vrednost u grupi 2 razlikuje od srednjih vrednosti u grupama 1 i 3, a srednje vrednosti u grupama 1 i 3 se ne razlikuju među sobom)

H1 : μ1 = μ2 ≠ μ3 ≠ μ1 (srednja vrednost u grupi 3 razlikuje od srednjih vrednosti u grupama 1 i 2, a srednje vrednosti u grupama 1 i 2 se ne razlikuju među sobom)

ili H1 : najmanje jedno μ ≠ μi

ili H1 : nisu sve μ jednake

Drugim rečima, alternativna hipoteza govori da je najmanje jedna srednja vrednost različita od ostalih, ali postoji mogućnost i da se sve srednje vrednosti razlikuju jedna od druge.

Ako se posle testiranja prihvati nulta hipoteza zaključak je da se srednje vrednosti ne razlikuju, odnosno da nezavisno promenljiva (faktor uticaja) nema efekta. Ako se prihvati jedna od alternativnih hipoteza zaključak je da ispitivani faktor uticaja ima efekta na srednje vrednosti onih grupa podataka koje se značajno razlikuju.

Logika analize varijanse

Osnovna pretpostavka kod analize varijanse je upoređivanje dva tipa varijacije, varijacija (varijansa) između grupa upoređuje se sa varijacijom (varijansom) unutar grupa, da bi se ocenila razlika između srednjih vrednosti. Mere varijacije se dobijaju "razdvajanjem" ukupne varijacije na varijaciju koja je posledica ispitivanog faktora uticaja (varijacija između grupa) i slučajnu varijaciju (varijacija unutar grupa).

Page 3: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

grupa 1 grupa 2 grupa 3

x

grupa 1 grupa 2 grupa 3

x

ukupna varijacija

grupa 1 grupa 2 grupa 3

x

1x2x

3x

grupa 1 grupa 2 grupa 3

x

1x2x

3x

varijacija između grupa

grupa 1 grupa 2 grupa 3

1x2x

3x

grupa 1 grupa 2 grupa 3

1x2x

3x

varijacija unutar grupa

Ako su varijansa između grupa i varijansa unutar grupa približno jednake, nulta hipoteza se prihvata i zaključak je da nema efekta ispitivanog faktora uticaja; drugim rečima nema razlike između srednjih vrednosti posmatranih grupa. Ako je varijansa zbog faktora uticaja značajno veća od slučajne varijanse nulta hipoteza se ne prihvata, već se prihvata neka od alternativnih hipoteza i zaključak je ispitivani faktor uticaja ima efekta i da se srednje vrednosti nekih ili svih posmatranih grupa značajno razlikuju.

Test baziran na varijansama je osetljiviji nego test baziran na srednjim vrednostima, a osim toga ANOVA ima manji rizik za pojavu greške tip I. Pretpostavke za analizu varijanse su: da su popu-lacije normalno distribuirane, da su varijanse u grupama homogene i da su podaci izraženi intervalnom ili skalom odnosa.

Mere varijacije se dobijaju “razdvajanjem” ukupne varijanse na varijansu između grupa i vari-jansu unutar grupa. Svaka od ovih varijansi se izračunava deljenjem odgovarajuće sume kvadrata sa njenim brojem stepena slobode. Broj stepena slobode za ukupnu varijansu je jednak N - 1, broj stepena slobode za varijansu između grupa je m - 1, a broj stepena slobode za varijansu unutar grupa je N - 1 - (m - 1) = N – m, gde je N broj podataka u svim grupama zajedno, a m je broj grupa.

Page 4: Jednofaktorska analiza varijanse

Statistika u istraživanju

Ukupna varijansa je jednaka

Varijansa između grupa je jednaka

Varijansa unutar grupa je jednaka

Iz varijanse između grupa i varijanse unutar grupa izračunava se F prema izrazu

,

gde je φ1 = m – 1 (odgovara varijansi između grupa, Vig), a φ2 = N – m (odgovara varijansi unutar grupa, Vug).

Na vrednost F utiču sledeći faktori:

- razlika između srednjih vrednosti – sa većom razlikom između srednjih vrednosti dobija se veća vrednost F jer je varijacija između grupa veća od varijacije unutar grupa, pa je zaključak da se nulta hipoteza ne prihvata;

- veličina uzorka – sa većim uzorkom dobija se veća vrednost F i zaključak je da se nulta hipoteza ne prihvata;

- varijacija unutar grupa – sa velikom varijacijom unutar grupa dobija se manja vrednost F, jer je varijacija unutar grupa veća od varijacije između grupa, tako da je lakše dokazati nultu hipotezu.

Izračunavanje F

Podsetimo se da izraz za varijansu glasi:

gde je:

= suma kvadrata odstupanja od srednje vrednosti (skraćeno se obeležava sa

SK)

N – 1 = broj stepena slobode (obeležava se sa φ)

Izraz za sumu kvadrata odstupanja od srednje vrednosti može da se napiše u sledećem obliku:

U izrazu za sumu kvadrata odstupanja od srednje vrednosti drugi član je zajednički za sve varijanse i obeležava se sa C.

gde je:

(Σx)2 - kvadrat sume svih vrednosti u svim grupama zajedno

N - ukupan broj podataka u svim grupama zajedno

Suma kvadrata odstupanja od srednje vrednosti za izračunavanje ukupne varijanse, izračunava se prema izrazu

Page 5: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

gde je Σx2 - suma kvadrata svih vrednosti (u svim grupama zajedno).

Suma kvadrata odstupanja od srednje vrednosti za izračunavanje varijanse između grupa, izračunava se prema izrazu

U ovom izrazu svaki član predstavlja kvadrat sume podataka u jednoj grupi podeljen brojem podataka u toj grupi. Kod sume kvadrata između grupa, suma vrednosti u jednoj grupi ima ulogu pojedinačne vrednosti, a deljenjem kvadrata te sume sa brojem podataka iz koga je izračunata, koriguje se uticaj broja podataka na vrednost sume.

Suma kvadrata odstupanja od srednje vrednosti za izračunavanje varijanse unutar grupa, izračunava se kao razlika između ukupne sume kvadrata i sume kvadrata između grupa:

Izračunate sume kvadrata unose se u radnu tabelu i iz njih se, deljenjem sa odgovarajućim brojem stepena slobode, izračunaju potrebne varijanse.

izvor varijacijeSK odstupanja od srednje vrednosti

φ varijansa

između grupa SK ig m - 1 SK/(m-1)unutar grupa SK ug N - m SK/(N-m)ukupno SK tot N - 1 -

Vrednost F se izračuna deljenjem varijanse između grupa sa varijansom unutar grupa, a zatim se dobijena vrednost upoređuje sa vrednošću iz tablice za odabrani nivo značajnosti i broj stepena slobode φ1 = m-1 i φ2 = N-m. Već je ranije rečeno da su u tablicama prikazane samo vrednosti koje odvajaju desni region za odbacivanje nulte hipoteze, jer je samo taj region od značaja za donošenje zaključka. Kada su varijanse između grupa i varijansa unutar grupa jednake vrednost F = 1, a kada je varijansa između grupa manja od varijanse unutar grupa vrednost F < 1. I u jednom i u drugom slučaju nema razlike između grupa, F se nalazi levo od 1, ali nema značaja da li je u regionu za prihvatanje ili odbacivanje nulte hipoteze. U ovakvim situacijama izračunata vrednost F će biti manja od tablične, što znači da se nulta hipoteza prihvata, odnosno zaključak je da između srednjih vrednosti posmatranih grupa nema statistički značajne razlike.

Kada je izračunata vrednost F veća od tablične, zaključak je da se nulta hipoteza ne prihvata, što znači da između srednjih vrednosti posmatranih grupa postoji značajna razlika. Vrednost F će biti veća od tablične, odnosno mnogo veća od 1, kada je varijansa između grupa veća od varijanse unutar grupa

Međutim, vrednost F ne daje odgovor na pitanje da li je značajna razlika između svih srednjih vrednosti, ili samo između pojedinih. Da bi se utvrdilo između kojih srednjih vrednosti postoji značajna razlika, odnosno koja alternativna hipoteza je ispravna, koristi se Tukey-Snedecor „post hoc“ test.

Tukey-Snedecor „post hoc“ test

Tukey-Snedecor test se koristi da se izračuna kritična razlika D, sa kojom se upoređuju apsolutne vrednosti razlika između srednjih vrednosti. Ako je razlika između dve srednje vrednosti veća od kritične razlike D, to znači da je razlika između te dve srednje vrednosti značajna i obrnuto. Kritična razlika D se izračunava prema izrazu:

Page 6: Jednofaktorska analiza varijanse

Statistika u istraživanju

gde je:

Q - vrednost koja se očitava iz tabele za odgovarajući broj grupa i broj stepena slobode koji je jednak broju stepena slobode unutar grupa;

- standardna greška koja se izračunava iz varijanse unutar grupa prema izrazu:

U izrazu za izračunavanje ove standardne greške je prosečan broj podataka u grupi, koji se, kada grupe nemaju isti broj podataka, izračunava se prema izrazu:

gde je:

m - broj grupa

N - ukupan broj podataka

- suma kvadrata broja podataka u pojedinim grupama.

PRIMER 1. Toksični efekat jednog leka ispitivan je na tri tipa ćelija; u tabeli je prikazano vreme u danima posle koga je ostalo 50% ćelija. Potrebno je pokazati da li ima razlike u osetljivosti ova tri tipa ćelija na ispitivani lek.

tip A(dani)

tip B(dani)

tip C (dani)

1,2 1,5 2,0

1,5 1,4 1,8

1,7 1,3 1,7

1,8 1,6 2,2

1,6 1,8 1,9

1,4 1,4 2,1

2,2

2,0

1,8

1,6

1,4

1,2

tip

dani

A B C

Nulta hipoteza glasi H0: A = B = C , a alternativne hipoteze su

Page 7: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

H1 : μA ≠ μB ≠ μC ; H1 : μA ≠ μB = μC ≠ μA ; H1 : μA ≠ μB ≠ μC = μA ; H1 : μA = μB ≠ μC ≠ μA

Rešenje:

grupa n Σx Σx2

A 6 9,2 1,53 14,34B 6 9,0 1,50 13,66C 6 11,7 1,95 22,99

varijacija SK φ Vizmeđu grupa 0,754444 2 0,377222unutar grupa 0,568333 15 0,037889ukupno 1,322778 17 -

Tablična vrednost F za nivo značajnosti 0,05 i broj stepena slobode φ1 = 2 i φ2 = 15 iznosi 3,68, pa kako je izračunata vrednost F veća od ove, zaključak je da se nulta hipoteza ne prihvata. Drugim rečima, između srednjih vrednosti ove tri grupe postoji statistički značajna razlika, odnosno postoji razlika u osetljivosti ova tri tipa ćelija prema ispitivanom leku.

Da bismo ustanovili koje se srednje vrednosti između sebe značajno razlikuju, primenićemo Tukey test.

Vrednost Q uzimamo iz tabele za m = 3 i φ = 15 i ona iznosi Q = 3,67. Kritična razlika D je jednaka:

Izračunata vrednost predstavlja maksimalnu razliku između srednjih vrednosti i treba je uporediti sa apsolutnim vrednostima razlika između srednjih vrednosti posmatranih grupa.

Hipoteze Razlika Statistički zaključak

H0 : µA = µB H1 : µA ≠ µB

1,53 – 1,50 = 0,03 0,03 < 0,29 H0 se prihvata

H0 : µA = µC H1 : µA ≠ µC

1,53 – 1,95 = - 0,42 │0,42│> 0,29 H0 se ne prihvata

H0 : µB = µC H1 : µB ≠ µC

1,50 – 1,95 = - 0,45 │0,45│> 0,29 H0 se ne prihvata

Izračunata kritična razlika D jednaka je 0,29 i od nje su veće sledeće razlike: A - C = 0,042 i B - C = 0,45. Iz ovoga se izvodi zaključak da se srednja vrednost grupe C razlikuje značajno od srednjih

Page 8: Jednofaktorska analiza varijanse

Statistika u istraživanju

vrednosti druge dve grupe, kao i da se srednje vrednosti grupa A i B ne razlikuju između sebe (jer su njihove razlike manje od kritične razlike D). Drugim rečima, zaključak je da su ćelije tipa A i B podjednako osetljive na toksičan efekat ispitivanog leka, a da su ćelije tipa C manje osetljive od ćelija tipa A i B, jer je potrebno više vremena da se uništi 50% ćelija.

Primer 1 u MS Excel-u

Podaci se unose u MS Excel u sledećem obliku:

tip A tip B tip C1,2 1,5 2

1,5 1,4 1,8

1,7 1,3 1,7

1,8 1,6 2,2

1,6 1,8 1,91,4 1,4 2,1

Dalje se radi prema sledećim komandama:

Tools, Data Analysis, Anova: Single Factors

Input Y-range: obeležiti sve grupe zajedno sa nazivima (svaka grupa je u posebnoj koloni sa nazivom kolone)

označiti polje Labels in first row

označiti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izveštaj

OK

Izveštaj se dobija u sledećem obliku:

Anova: Single Factor

SUMMARY

Groups Count Sum Average Variance

tip A 6 9,2 1,533 0,0467

tip B 6 9,0 1,500 0,0320tip C 6 11,7 1,950 0,0350

ANOVASource of Variation SS df MS F P-value F crit

Between Groups 0,754444 2 0,3772 9,956 0,0018 3,682Within Groups 0,568333 15 0,0379Total 1,322778 17

SS – suma kvadrata

df – broj stepena slobode

MS – varijansa

P-value – dobijena vrednost P

F crit – tablična vrednost F za nivo značajnosti 0,05 i broj stepena slobode 2 i 15

Page 9: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

Iz dobijenog izveštaja se vidi da je izračunata vrednost F veća od tablične za nivo značajnosti 0,05 i da joj odgovara vrednost P = 0,0018, pa je zaključak da se nulta hipoteza ne prihvata.

U MS Excelu ne može da se radi post hoc test, već se dalje Primenjuje Tukey test prema datim izrazima koristeći podatke koji se nalaze u izveštaju (sume kvadrata i broj stepena slobode)

Primer 1 u SPSS-u

Podaci se unose pravo u SPSS ili u MS Excel, pa se potom učitaju u SPSS i to tako što se u jednu kolonu unese zavisna varijabla (u ovom primeru su to dani), a u drugu kolonu se unese oznaka grupe.

danitip

ćelija1,2 A1,5 A1,7 A1,8 A1,6 A1,4 A1,5 B1,4 B1,3 B1,6 B1,8 B1,4 B2,0 C1,8 C1,7 C2,2 C1,9 C2,1 C

Dalje se radi prema sledećim komandama:

Analyze, Compare means, One-Way ANOVA

Dependent Lists – vreme

Factor – oznaka grupe

Options – označiti Descriptive statistics

Continue

Post Hoc – označiti Tukey (ili neki drugi)

Continue

OK

Izveštaj se dobija u sledećem obliku:

Page 10: Jednofaktorska analiza varijanse

Statistika u istraživanju

Descriptive Statistics

Dependent Variable: dani

tip ćelija Mean Std. Deviation N

A 1,533 ,2160 6

B 1,500 ,1789 6

C 1,950 ,1871 6

Total 1,661 ,2789 18

Tests of Between-Subjects Effects

Dependent Variable: dani

Source

Type III Sum

of Squares df Mean Square F Sig.

Corrected Model ,754a 2 ,377 9,956 ,002

Intercept 49,667 1 49,667 1310,865 ,000

tipćelija ,754 2 ,377 9,956 ,002

Error ,568 15 ,038

Total 50,990 18

Corrected Total 1,323 17

a. R Squared = ,570 (Adjusted R Squared = ,513)

Red „tip ćelija“ sadrži podatke za varijaciju između grupa, red „Error“ podatke za varijaciju unutar grupa a red „Corrected Total“ podatke za varijaciju ukupno. U redu „tip ćelija“ je izračunata vrednost F i nivo značajnosti koji joj odgovara.

Multiple Comparisons

Dependent Variable:dani

(I) tip

ćelija

(J) tip

ćelija

Mean

Difference (I-J) Std. Error Sig.

95% Confidence Interval

Lower Bound Upper Bound

Tukey HSD A B ,033 ,1124 ,953 -,259 ,325

C -,417* ,1124 ,006 -,709 -,125

B A -,033 ,1124 ,953 -,325 ,259

C -,450* ,1124 ,003 -,742 -,158

C A ,417* ,1124 ,006 ,125 ,709

B ,450* ,1124 ,003 ,158 ,742

Based on observed means.

The error term is Mean Square(Error) = ,038.

*. The mean difference is significant at the ,05 level.

Page 11: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

U ovom izveštaju su rezultati post hoc testa, date su razlike između srednjih vrednosti (Mean difference) i nivo značajnosti koji odgovara tim razlikama.

PRIMER 2. U osam laboratorija je ispitivana brzina rastvaranja dva generička proizvoda (A i B) i jednog standardnog proizvoda (St). U tabeli je prikazana rastvorljivost u procentima, a treba pokazati da li se ova tri proizvoda razlikuju po rastvorljivosti.

Lab. A B St1 89 83 942 93 75 783 87 75 894 80 76 855 80 77 846 87 73 847 82 80 758 68 77 75

65

70

75

80

85

90

95

proizvod

pro

cen

at

A B St

Nulta hipoteza glasi H0: A = B = St , a alternativne hipoteze su H1 : μA ≠ μB ≠ μSt ; H1 : μA ≠ μB = μSt ≠ μA ; H1 : μA ≠ μB ≠ μSt = μA ; H1 : μA = μB ≠ μSt ≠ μA

Rešenje:

grupa n Σx Σx2

A 8 666 83,25 55856B 8 616 77,00 47502St 8 664 83,00 55428

Page 12: Jednofaktorska analiza varijanse

Statistika u istraživanju

varijacija SK φ Vizmeđu grupa 200,3 2 100,15unutar grupa 797,5 21 37,976ukupno 997,8 23 -

Tablična vrednost F za nivo značajnosti 0,05 i broj stepena slobode φ1 = 2 i φ2 = 21 iznosi 3,467, pa kako je izračunata vrednost F manja od ove, zaključak je da se nulta hipoteza prihvata. Drugim rečima, između srednjih vrednosti ove tri grupe ne postoji statistički značajna razlika, odnosno sva tri proizvod imaju istu rastvorljivost.

Na ovakav zaključak utiče velika standardna devijacija u svakoj grupi, odnosno velika varijacija unutar grupa, pa razlika koja je po apsolutnoj vrednosti velika (77% prema 83%) nije statistički značajna.

Primer 2 u MS Excel-u

Podaci se MS Excel unose na isti način kao što je pokazano kod Primera 1. Kada se ovaj primer uradi u MS Excelu dobija se izveštaj, iz koga se vidi da je izračunata vrednost F manja od tablične, kao i da joj odgovara nivo značajnosti veći od 0,05:

Izveštaj u MS Excelu:

SUMMARY

Groups Count Sum Average Variance

A 8 666 83,25 58,786

B 8 616 77,00 10,000

St 8 664 83,00 45,143

ANOVASource of Variation SS df MS F P-value F crit

Between Groups 200,33333 2 100,1667 2,638 0,0951 3,467

Within Groups 797,50000 21 37,9762

Total 997,83333 23

Primer 2 u SPSS-u

Podaci se unose kao što je pokazano kod Primera 1, a u SPSS-u se dobija sledeći izveštaj:

Page 13: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

Descriptive Statistics

Dependent Variable:procenat

proizvod Mean Std. Deviation N

A 83,25 7,667 8

B 77,00 3,162 8

St 83,00 6,719 8

Total 81,08 6,587 24

Tests of Between-Subjects Effects

Dependent Variable:procenat

Source

Type III Sum

of Squares df Mean Square F Sig.

Corrected Model 200,333a 2 100,167 2,638 ,095

Intercept 157788,167 1 157788,167 4154,924 ,000

proizvod 200,333 2 100,167 2,638 ,095

Error 797,500 21 37,976

Total 158786,000 24

Corrected Total 997,833 23

a. R Squared = ,201 (Adjusted R Squared = ,125)

Multiple Comparisons

Dependent Variable:procenat

Tukey HSD

(I)

proizv

od

(J)

proizv

od

Mean

Difference (I-J) Std. Error Sig.

95% Confidence Interval

Lower Bound Upper Bound

A B 6,25 3,081 ,130 -1,52 14,02

St ,25 3,081 ,996 -7,52 8,02

B A -6,25 3,081 ,130 -14,02 1,52

St -6,00 3,081 ,150 -13,77 1,77

St A -,25 3,081 ,996 -8,02 7,52

B 6,00 3,081 ,150 -1,77 13,77

Based on observed means.

The error term is Mean Square(Error) = 37,976.

Page 14: Jednofaktorska analiza varijanse

Statistika u istraživanju

Iz tabele za post hoc test se vidi da razlike između srednjih vrednosti nisu značajne, što se poklapa sa zaključkom iz tabele u kojoj je vrednost F kojoj odgovara nivo značajnosti veći od 0,05.

PRIMER 3.: U standardnom uzorku seruma određen je kalcijum primenom 4 metode (A, B, C i D). Pokazati da li je razlika između dobijenih srednjih vrednosti značajna (vrednosti su date u mmol/L).

A B C D2,5 2,51 2,49 2,52

2,51 2,5 2,48 2,532,52 2,53 2,49 2,532,52 2,5 2,48 2,512,5 2,5 2,47 2,522,53 2,52 2,48 2,53

2,52     2,52      2,52

2,45

2,46

2,47

2,48

2,49

2,50

2,51

2,52

2,53

2,54

2,55

metoda

mm

ol/L

A B C D

Rešenje:

grupa n Σx Σx2

A 7 17,60 2,514 44,2522

B 6 15,06 2,510 37,8014

C 6 14,89 2,482 36,9523

D 8 20,18 2,522 50,9044

Page 15: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

varijacija SK φ V

između grupa 0,006135 3 0,002045

unutar grupa 0,002205 23 0,000096

ukupno 0,00834 26 -

Tablična vrednost F za nivo značajnosti 0,05 i broj stepena slobode φ1 = 3 i φ2 = 23 iznosi 3,03, pa kako je izračunata vrednost F veća od ove, zaključak je da se nulta hipoteza ne prihvata. Drugim rečima, između srednjih vrednosti ove četiri grupe postoji statistički značajna razlika.

Da bismo ustanovili koje se srednje vrednosti između sebe značajno razlikuju, primenićemo Tukey test.

Vrednost Q uzimamo iz tabele za m = 4 i φ = 23. Kako se u tabeli nalazi vrednost Q = 3,96 za m = 4 i φ = 20 i Q - 3,90 za m = 4 i za φ = 24, odgovarajuću vrednost Q za φ = 23 možemo da izračunamo

Razlika između dve Q vrednosti je 3,96 - 3,90 = 0,06, što odgovara rasponu od 4 stepena

slobode. Za 3 stepena slobode udeo je . Ova vrednost se oduzima od vrednosti 3,96

(sa povećanjem broja stepena slobode smanjuje se Q), pa dobijamo 3,96 – 0,045 = 3,915, što odgovara vrednosti Q za m = 4 i φ = 23,

Q = 3,915

Izračunata vrednost predstavlja maksimalnu razliku između srednjih vrednosti i treba je uporediti sa apsolutnim vrednostima razlika između srednjih vrednosti posmatranih grupa.

Hipoteze Razlika Statistički zaključak

H0 : µA = µB H1 : µA ≠ µB

2,514 – 2,510 = 0,004 0,004 < 0,015 H0 se prihvata

H0 : µA = µC H1 : µA ≠ µC

2,514 – 2,482 = 0,032 0,032 > 0,015 H0 se ne prihvata

H0 : µA = µD H1 : µA ≠ µD

2,514 – 2,522 = -0,008 │0,008│ < 0,015 H0 se prihvata

H0 : µB = µC H1 : µB ≠ µC

2,510 – 2,482 = 0,028 0,028 > 0,015 H0 se ne prihvata

H0 : µB = µD H1 : µB ≠ µD

2,510 – 2,522 = - 0,012 │0,012│ < 0,015 H0 se prihvata

Page 16: Jednofaktorska analiza varijanse

Statistika u istraživanju

H0 : µC = µD H1 : µC ≠ µD

2,482 – 2,522 = -0,040 │0,040│ > 0,015 H0 se ne prihvata

Izračunata kritična razlika D jednaka je 0,015 i od nje su veće sledeće razlike: A - C = 0,032; B - C = 0,028 i C - D = 0,040. Iz ovoga se izvodi zaključak da se srednja vrednost grupe C razlikuje od srednjih vrednosti ostale tri grupe, kao i da se srednje vrednosti grupa A, B i D ne razlikuju između sebe (jer su njihove razlike manje od kritične razlike D).

Primer 3 u MS Excel-u

Podaci se MS Excel unose na isti način kao što je pokazano kod Primera 1. Kada se ovaj primer uradi u MS Excelu dobija se izveštaj, iz koga se vidi da je izračunata vrednost F veća od tablične, kao i da joj odgovara nivo značajnosti manji od 0,05:

Anova: Single Factor

SUMMARY

Groups Count Sum Average Variance

A 7 17,6 2,514 0,000129

B 6 15,06 2,510 0,000160

C 6 14,89 2,482 0,000057

D 8 20,18 2,523 0,000050

ANOVASource of Variation SS df MS F P-value F crit

Between Groups 0,00614 3 0,002045 21,337 7,78E-07 3,0280Within Groups 0,00220 23 9,586E-05Total 0,00834 26

Tukey test uraditi prema datim izrazima.

Primer 3 u SPSS-u

Podaci se unose kao što je pokazano kod Primera 1, a u SPSS-u se dobija sledeći izveštaj:

Descriptive StatisticsDependent Variable: MMOL_L METODA Mean Std. Deviation N

A 2,5143 1,134E-02 7 B 2,5100 1,265E-02 6 C 2,4817 7,528E-03 6 D 2,5225 7,071E-03 8

Total 2,5085 1,791E-02 27

Tests of Between-Subjects EffectsDependent Variable: MMOL_L

Page 17: Jednofaktorska analiza varijanse

S. Spasić: Predavanja 2010/2011.

Source Type III Sum of Squares

df Mean Square F Sig.

Corrected Model 6,136E-03 3 2,045E-03 21,337 ,000 Intercept 167,285 1 167,285 1745106,278 ,000

METODA 6,136E-03 3 2,045E-03 21,337 ,000 Error 2,205E-03 23 9,586E-05 Total 169,910 27

Corrected Total 8,341E-03 26 a R Squared = ,736 (Adjusted R Squared = ,701)

Multiple ComparisonsDependent Variable: MMOL_L Tukey HSD

Mean Difference (I-J)

Std. Error Sig. 95% Confidence Interval

(I) METODA

(J) METODA

Lower Bound Upper Bound

A B 4,286E-03 5,447E-03 ,860 -1,0788E-02 1,936E-02 C 3,262E-02 5,447E-03 ,000 1,755E-02 4,769E-02 D -8,2143E-03 5,067E-03 ,387 -2,2237E-02 5,808E-03

B A -4,2857E-03 5,447E-03 ,860 -1,9360E-02 1,079E-02 C 2,833E-02 5,653E-03 ,000 1,269E-02 4,398E-02 D -1,2500E-02 5,288E-03 ,113 -2,7133E-02 2,133E-03

C A -3,2619E-02 5,447E-03 ,000 -4,7693E-02 -1,7545E-02 B -2,8333E-02 5,653E-03 ,000 -4,3976E-02 -1,2690E-02 D -4,0833E-02 5,288E-03 ,000 -5,5466E-02 -2,6201E-02

D A 8,214E-03 5,067E-03 ,387 -5,8084E-03 2,224E-02 B 1,250E-02 5,288E-03 ,113 -2,1326E-03 2,713E-02 C 4,083E-02 5,288E-03 ,000 2,620E-02 5,547E-02 Based on observed means.* The mean difference is significant at the ,05 level.