Download - Wykład 11 Analiza wariancji (ANOVA)
![Page 1: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/1.jpg)
Wykład 11Analiza wariancji (ANOVA)
• Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje.
• Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia co przy
teście StudentaW każdej populacji badana cecha ma rozkład
normalnyObserwacje są niezależne i losoweBędziemy testowali hipotezy o średnich w populacjach i
Założenie – standardowe odchylenia badanej cechy w każdej populacji są sobie równe (podobne) więc możemy użyć uśrednionego SE
![Page 2: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/2.jpg)
• Uwaga: ANOVA może być stosowana także gdy próby nie są niezależne
• Np. W układzie zrandomizowanym blokowym
• (zasada podobna do testu Studenta dla powiązanych par)
• Nie będziemy tego omawiać. Omówimy tylko układy zupełne zrandomizowane.
• Cel:
• Testujemy hipotezy postaci:
• H0: 1 = 2 = 3 = … = k
• HA: nie wszystkie średnie są równe
![Page 3: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/3.jpg)
Dlaczego nie stosujemy wielu testów Studenta?
• Wielokrotne porównania– P-stwo błędu pierwszego rodzaju (p - stwo
odrzucenia prawdziwej hipotezy) jest trudne do kontrolowania)
![Page 4: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/4.jpg)
Korekta Bonferoniego
– Prosta ale na ogół konserwatywna (p-stwo błędu pierwszego rodzaju mniejsze niż założone – strata mocy).
![Page 5: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/5.jpg)
• Estymacja błędu standardowego– ANOVA wykorzystuje informację zawartą we
wszystkich obserwacjach: zwykle daje większą precyzję
![Page 6: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/6.jpg)
Notacja: k = 3 zabiegi (próby, grupy)
Zabieg 1 Zabieg 2 Zabieg 3
1 48 40 39
2 39 48 30
3 42 44 32
4 43 35
średnia 43 44 34
SS 42 32 46
![Page 7: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/7.jpg)
• Trzy rodzaje rachunków: • Wewnątrz grup, pomiędzy grupami,
całkowite.• Liczymy trzy wartości: SS, df, MS
SS df MS
Between
Within
Total
![Page 8: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/8.jpg)
Notacja:
y440
4011
y
k = # grup (prób, zabiegów) k =
n1, n2, n3, …, nk = rozmiary grup
(# obserwacji)
n1 = , n2 = , n3 =
y1 , y2, … yk = średnie w
grupach
y1= ,y2 = ,
y3=
= całkowita średnia
n* = całkowita liczba obserwacji n* =
![Page 9: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/9.jpg)
• Dwa podstawowe typy rachunków:
(gdzie konieczne, będziemy używali i do indeksowania grup a j do indeksowania obserwacji w każdej grupie : yij )
• Wewnątrz każdej grupy oznacza sumę ``wewnątrz grupy’’
11
1
jyyn
1
48 39 42 43
4y
![Page 10: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/10.jpg)
• Uwzględniające wszystkie grupy
oznacza sumę we wszystkich grupach
np. n* =
i
1
k
i
in n
ijy
yn
172 132 13640
11y
![Page 11: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/11.jpg)
• UWAGA: Gdy rozmiary prób nie są równe
nie jest średnią z k średnich!!!
Ale można ją obliczyć jako
• = (n1y1 + n2y2 + …+n3y3) / n*
y
y
![Page 12: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/12.jpg)
Wewnątrz grup (wypełniamy drugi rząd w tabeli)
Suma kwadratów wewnątrz grup (SSW)
• Liczymy SS wewnątrz każdej grupy
(itd. - SS2, SS3 , …)
SS1 =
SS2 = … = 32, SS3 = … = 46
2
1 1 1jSS y y
![Page 13: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/13.jpg)
• SSW = SS1+SS2+…+SSk=
• SSW = • Stopnie swobody wewnątrz grup:dfw = n* - k dfw = • Średnia suma kwadratów wewnątrz grupMSW = SSW / dfw MSW = To samo co uśredniona wariancja
Dla przypomnienia dla dwóch prób
2
i ij iSS y y
2 1 2
1 2 2c
SS SSs
n n
![Page 14: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/14.jpg)
• Uśrednione standardowe odchylenie
sc =
• Pomiędzy grupami (wypełniamy pierwszy rząd tabeli)
Porównujemy średnie grupowe do średniej całkowitej
Ważone przez rozmiar grupy• Suma kwadratów pomiędzy grupami (SSB)• SSB = SSB =
MSW
2
i in y y
![Page 15: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/15.jpg)
• Stopnie swobody pomiędzy grupami (dfb)
dfb = k – 1 dfb =
• Średnia suma kwadratów pomiędzy grupami (MSB)
MSB = SSB/dfb MSB =
• Całkowite
• Całkowita suma kwadratów (SST)
• SST= SST=82+12+22+…+82+52=348
2
ijy y
![Page 16: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/16.jpg)
• Uwaga: SST = SSW+SSB 348 = 120 + 228
Zwykle nie trzeba liczyć SST z definicji
Całkowita liczba stopni swobody (dft)
dft = n* – 1 dft =
Uwaga: dft = dfb+dfw 10 = 2 + 8
![Page 17: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/17.jpg)
Tablica ANOV-y
SS df MS
Between
Within
Total
![Page 18: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/18.jpg)
Ta tabela będzie dostępna na kolokwium i egzaminie:
2
i in y y
2
i ij iSS y y
2
ijy y
SS df MS
Pomiędzy SSB= dfb = k – 1 SSB/dfb
Wewnątrz SSW= dfw = n* – k SSW/dfw
Całkowite SST= dft = n* – 1
![Page 19: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/19.jpg)
Test F
• Dane dla k 2 populacji lub zabiegów są niezależne
• Dane w każdej populacji mają rozkład normalny ze średnią i dla populacji i, i tym samym odchyleniem standardowym
![Page 20: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/20.jpg)
• Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe)
• vs.
• HA: nie wszystkie średnie są sobie równe
• (HA jest niekierunkowa ale obszar odrzuceń będzie jednostronny)
• Kroki: Obliczenie tabeli ANOV-y Testowanie
![Page 21: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/21.jpg)
Jak opisać F test• Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie
• HA tylko słownie
• Statystyka testowa Fs = MSB/MSW
• przy H0, Fs ma rozkład Snedecora z dfb, dfw stopniami swobody
• Na kolejnych slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe ``Introduction to the Practice of Statistics’’
• "numerator df" = dfb i
"denominator df" = dfw.
![Page 22: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/22.jpg)
![Page 23: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/23.jpg)
![Page 24: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/24.jpg)
![Page 25: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/25.jpg)
![Page 26: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/26.jpg)
• Odrzucamy H0 gdy zaobserwowane Fs > Fkrytyczne
• Przykładowy wniosek - Na poziomie istotności α (nie) mamy przesłanki aby twierdzić, że grupy różnią się poziomem badanej cechy.
![Page 27: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/27.jpg)
• Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny.
• Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ?
Niech 1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu.
Niech 2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu.
Niech 3 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.
![Page 28: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/28.jpg)
• H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu
• HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu).
• Zastosujemy F-Test
![Page 29: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/29.jpg)
Dawka 0mg 20mg 40mg
48,62 58,60 68,59
49,85 72,52 78,28
64,22 66,72 82,77
62,81 80,12 76,53
62,51 68,44 72,33 suma
n 5 5 5 15
srednia 57,60 69,28 75,70 67,53
SS(w) 235,87 249,31 119,29 604,47
SS(b) 492,64 15,36 334,03 842,02
Tablica ANOV-y SS df MSBetween Within Total
![Page 30: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/30.jpg)
• Fs = MSB / MSW przy H0 ma rozkład
• Testujemy na poziomie istotności = 0.05. Wartość krytyczna F.05 = .
• Obserwujemy Fs =
• Wniosek:
![Page 31: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/31.jpg)
Na jakiej zasadzie to działa ?
• Dla przypomnienia:
• Test Studenta patrzy na różnicę między średnimi (y1-y2)
• Dzieli ją przez miarę rozrzutu tej różnicy (SEy1-y2 )
• Jeżeli (y1-y2) jest duże w porównaniu do do SE to statystyka testu Studenta jest duża i odrzucamy H0.
![Page 32: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/32.jpg)
• Dla testu F, Liczymy ``uśredniony kwadrat różnicy
między średnimi’’ (MSB)Dzielimy go przez oszacowanie
zróżnicowania w próbie (MSW)Jeżeli MSB jest duże w porównaniu do
MSW wówczas statystyka testu F jest duża i odrzucamy H0.
Test F jest analogiczny do testu Studenta ale umożliwia jednoczesne porównanie kilku średnich.
![Page 33: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/33.jpg)
• Could actually do an F-test with only 2 samplesStatystyka testu F dla dwóch prób jest równa
kwadratowi statystyki testu StudentaDecyzje i p-wartości są dokładnie takie same
dla obu testów.
![Page 34: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/34.jpg)
Porównania pomiędzy poszczególnymi grupami
• Test Studenta i korekta Bonferoniego ?
• Poszczególne testy w ANOV-ie nie są niezależne.
• Korekta Bonferoniego jest na ogół zbyt konserwatywne i daje małą moc.
• Możemy wykorzystać procedurę Newmana – Keulsa.
![Page 35: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/35.jpg)
Newman-Keuls Procedure
• Sample sizes for each treatment group should be same
• Procedure– Construct an array of means in increasing
order
– Find qi from table 11 (df=dfw) and compute
Ri = qi sqrt(MSW/n) (Ri is the critical value), n=number of observation in each treatment group
![Page 36: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/36.jpg)
–The pairwise comparison
Compare the difference between the largest and smallest of the k sample means with the critical value Rk. If the difference is smaller than Rk the corresponding null hypothesis is not rejected and the line is drawn under the entire array of means, if the difference is larger than Rk than proceed to the next step.
![Page 37: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/37.jpg)
–Ignore the smallest mean and repeat the procedure for remaining subarray of (k-1) means. Ignore the largest mean and repeat the the procedure for other (k-1) means. (Use a separate line each time).
–Continue by looking at all subarrays of (k-2) means etc. Don’t test within any subarray that has already been underlined.
–When the procedure is complete, those pairs of means which are not connected by an underline correspond to null hypotheses that have been rejected.
![Page 38: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/38.jpg)
Example
• Blood chemistry in ratsDiet A B C D E
mean 40.0 40.7 32.9 29.6 48.8
Source Df SS MS
Between 4 894.80 223.70
Within 15 319.35 21.79
Total 19 1214.15
![Page 39: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/39.jpg)
• Ordered array
diet D C A B E
mean 29.6 32.9 40.0 40.7 48.8
• Scale factor = sqrt(MSW/n) = sqrt(21.29/4) = 2.307
• qi = 3.01 3.67 4.08 4.37
Ri = 6.9 8.5 9.4 10.1
• Largest – smallest: Mean(E) – Mean(D) =19.2 > R5 =10.1
• Reject null H0 : D = E
![Page 40: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/40.jpg)
Value of i Comparison Conclusion
5 48.829.6=19.2>10.1 Reject
4 48.8-32.9=15.9>9.4 Reject
4 40.7-29.6=11.1>9.4 Reject
3 48.8-40=8.8>8.5 Reject
3 40.7-32.9=7.8<8.5 Do not reject
Line from C to B
3 40-29.6=10.4>8.5 Reject
2 48.8-40.7=8.1>6.9 Reject
2 32.9-29.6=3.3<6.9 Do not reject
Line from D to C
![Page 41: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/41.jpg)
Two-way ANOVA• One way ANOVA model
yij =+γi + ij , ij ~independent N(0,2)
μ- grand population mean
μi – population mean for group i
γi= μi – μ
H0: 1 = 2 = 3 = … = k is equivalent to
H0: γ1 = γ2 = γ3 = … = γk=0
![Page 42: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/42.jpg)
Two-way ANOVA model• Randomized block design
• Treatment effect, Block effect
• Model– Yijk = + γi + j + ijk
• Hypothesis– H0 : γ1 = γ2 = γ3 = … = γk=0 (no treatment effect)
– H1 : Not H0 (some of γ’s are different from zero)
![Page 43: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/43.jpg)
Decomposition of SS
• Sum of squares between blocks
• SS(total) = SS(within)+SS(between)+SS(block)
• df(total) = df(within)+df(between)+df(block)
• Df(block)=b-1 = number of blocks -1
2
1
( )b
j jj
SSB m y y
![Page 44: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/44.jpg)
ANOVA table
Source df SS MS F-ratio
Between k-1 SSBt MSBt=SSBt/(k-1)
Block b-1 SSBl MSBl= SSBl/(b-1)
Within n-k-b+1 SSW MSW=SSW/(n-k-b+1) F=MSBt/MSW
Total n-1 SST
![Page 45: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/45.jpg)
Example (plant height)
Low Acid High Acid Control Block Mean
Block1 1.58 1.10 2.47 1.717
Block2 1.15 1.05 2.15 1.450
Block3 1.27 0.50 1.46 1.077
Block4 1.25 1.00 2.36 1.537
Block5 1.00 1.50 1.00 1.167
n 5 5 5
Trt mean 1.25 1.03 1.888
![Page 46: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/46.jpg)
Build ANOVA table
• Grand mean = 1.389
• SSBt (SS treatment)
5(1.25-1.389)2 + …+5(1.888-1.389)2 =1.986
– MSBt = 1.986/(3-1)=.993
• SSBl (SS block)
3(1.717-1.389)2 + …+3(1.167-1.389)2=0.840
– MSBl = 0.840/(5-1)=.210
![Page 47: Wykład 11 Analiza wariancji (ANOVA)](https://reader036.vdocuments.site/reader036/viewer/2022062305/568149e5550346895db70df9/html5/thumbnails/47.jpg)
• SSW = SST – SSBt – SSBl = 1.452
• df(SSW) = 14-2-4 = 8, MSW = 1.452/8=0.182
• Fs = MSBt / MSW = .993/.182 = 5.47
• df for numerator=2, df for denominator=8
• 0.02 < P-value < 0.05
• Reject H0 at the significance level α=0.05.
At the significance level α=0.05 there is enough evidence to say that the acid content has an influence on the growth of alfalfa plants.