thongke anova(phan tich phuong sai)

13

Click here to load reader

Upload: scenery-doan

Post on 03-Aug-2015

293 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Thongke Anova(Phan Tich Phuong Sai)

Bài 7 (TKYH)

I. GIỚI THIỆU

ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh số trung bình của ≥ 3 nhóm. Kỹ thuật này chia phưong sai của 1 quan sát (observation) thành 2 phần: 1phương sai giữa các nhóm (between groups) và 2phương sai nội nhóm (within group). Do phưong sai là độ phân tán tương đối của các quan sát so với số trung bình nên việc phân tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc so sánh các phương sai).

Phần này chỉ đề cập đến ANOVA một chiều (one-way ANOVA) theo đó các nhóm được so sánh dựa trên 1 biến số (yếu tố).

II. NGUYÊN LÝ CỦA ANOVA

Thí dụ minh họa: Thời gian nằm viện của các bệnh nhân đã được tiểu phẫu không có biến chứng được so sánh với nhau theo ba bác sĩ điều trị (A, B, C). Chọn 1 mẫu ngẫu nhiên bao gồm 8 bệnh án cho từng bác sĩ, số liệu như sau:

Bảng 1. Thời gian nằm viện của bệnh nhân theo bác sĩ điều trị

A A2 B B2 C C2

4 16 4 16 5 255 25 5 25 3 95 25 4 16 3 94 16 3 9 3 96 36 4 16 3 96 36 5 25 3 94 16 3 9 4 165 25 3 9 5 25

∑A = 39 ∑A2 = 195 ∑B = 31 ∑B2 = 125 ∑C = 29 ∑C2 = 111

Biến số (yếu tố) để so sánh chỉ độc nhất là thời gian nằm viện của bệnh nhân (tính bằng ngày). Số liệu được phân bố với các ký hiệu như sau:

1

PHÂN TÍCH PHƯƠNG SAI

(ANALYSIS OF VARIANCE/ANOVA)

Page 2: Thongke Anova(Phan Tich Phuong Sai)

B/n của BS. A: x1A = 4, x2A = 5, …………………………….., x8A = 5B/n của BS. B: x1B = 4, x2B = 5, …………………………….., x8B = 3B/n của BS. C: x1C = 5, x2C = 3, …………………………….., x8C = 5

: quan sát thứ i thuộc nhóm j

: đại trung bình (số trung bình tính được từ 24 b/n): số trung bình của các nhóm A, B, và C (tính từ 8 b/n của mỗi

nhóm)Chọn x2A làm mẫu:

(x2A – ) = (5 – 4,125) = 0,875

Hiệu 0,875 có thể được tách ra làm 2:

(x2A – ) = (x2A – ) + ( ) = (5 – 4,875) + (4,875 – 4,125) = (0,125) + (0,750) = 0,875

ANOVA xem xét biến thiên của tất cả các quan sát với số đại trung bình và phân chúng ra làm 2: biến thiên nội nhóm và biến thiên giữa các nhóm. Nếu số trung bình của các nhóm khác nhau nhiều thì sự biến thiên giữa chúng và đại trung bình (biến thiên giữa các nhóm) sẽ đáng kể hơn so với các biến thiên giữa các quan sát trong 1 nhóm với trung bình của nhóm (biến thiên nội nhóm). Nếu số trung bình của các nhóm không khác nhau nhiều thì biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm. Phép kiểm định giả thuyết về 2 phương sai, F test, có thể được sử dụng để kiểm định tỉ số phương sai giữa các nhóm và phương sai nội nhóm. Giả thuyết trống của F test cho rằng 2 phương sai này bằng nhau; nếu H0 đúng thì có nghĩa là biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm. Trong tình huống này, không thể kết luận là các trung bình khác lẫn nhau (không có 1 cặp trung bình nào khác nhau). Ngược lại, nếu từ chối được H0 thì kết luận được là không phải tất cả các trung bình đều bằng nhau (có ít nhất 1 cặp trung bình khác nhau).

III. CÁCH TÍNH TRONG ANOVA

2

Biến thiên giữa 1 quan sát thuộc nhóm A và đại trung bình

Biến thiên giữa 1 quan sát thuộc nhóm A và trung bình của nhóm A

Biến thiên giữa trung bình của nhóm A và đại trung bình

Page 3: Thongke Anova(Phan Tich Phuong Sai)

+ Tính phương sai giữa các số trung bình nhóm so với đại trung bình:

+ Tính phương sai giữa các quan sát trong từng nhóm so với số trung bình của nhóm:

+ Lập tỉ số phương sai (VR = F ratio): V.R =

IV. PHÉP KIỂM ANOVA

Với thí dụ minh họa trên: Thời gian nằm viện của b/n theo các bác sĩ A, B, C có khác nhau?

1/ Số liệu: bao gồm 1 biến số liên tục (như đã cho)2/ Giả định: + Thời gian nằm viện (theo 3 BS) phân phối bình thường.

+ Phương sai của các dân số (thời gian nằm viện theo A, B, C) bằng nhau

+ Các mẫu được rút ngẫu nhiên và độc lập.3/ Giả thuyết:

3

Ước lượng phương sai giữa các nhóm

Tổng bình phương giữa các nhóm (Sum of Squares Between–SSB)

Trung bình bình phương giữa các nhóm (Mean square between groups – MSB)

Ước lượng phương sai nội nhóm

Tổng bình phương nội nhóm (Sum of Squares Within – SSW)

Trung bình bình phương nội nhóm (Mean square within groups – MSW)

Page 4: Thongke Anova(Phan Tich Phuong Sai)

H0: μA= μB = μC HA: Có ít nhất 1 cặp μ khác nhau (μA ≠ μB hoặc μB ≠ μC hoặc μA ≠ μC)

α = 0,05

4/ Số TKKĐ:

V.R = với

5/ PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù phaân phoái F vôùi (3 – 1) ñoä töï do töû soá vaø (24 – 3) ñoä töï do maãu soá.

6/ Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa F (tra baûng) baèng 3,47. Töø choái H0 neáu V.R. 3,47.

7/ Tính số TKKĐ : V.R =

Tính

Tính

V.R =

8/ Quyết định thống kê: Từ chối H0 vì V.R = 4,73 >3,47

9/ Kết luận: Có ít nhất 1 cặp μ khác nhau. p = 0,021

Cách trình bày kết quả ANOVA

4

j – 1 df

N– j df

Page 5: Thongke Anova(Phan Tich Phuong Sai)

Bảng 2. Kết quả so sánh thời gian nằm viện trung bình của b/n thuộc các BS điều trị A, B, C

Tổng bình phương (Sum of

Squares)

Độ tự do

(df)

Trung bình bình phương

(Mean square)

F (V.R)

Giá trịp

Giữa các nhóm (Between groups)

7,000 2 3,500 4,704 0,021

Nội nhóm(Within groups)

15,625 21 0,744

Tổng(Total)

22,625 23

V. KỸ THUẬT HẬU KIỂM (Post hoc procedures)

Kết quả của ANOVA không cho biết cặp nào của μ khác nhau. Việc tiến hành các kỹ thuật hậu kiểm sẽ giúp kết luận về việc này. Phần này sẽ giới thiệu 2 phép hậu kiểm: Tukey’s HSD test (Honestly Significant Difference) sử dụng cho trường hợp các mẫu bằng nhau, và Scheffé test sử dụng cho trường hợp các mẫu không bằng nhau.

1/ Tukey’s HSD test

Số TKKĐ của HSD:

MSW: Trung bình bình phương giữa các nhóma: số lượng số trung bình cần so sánhq: df của MSW

Tính số TKKĐ: + Với 3 số trung bình cần so sánh và 21 df (của SMW) ở ngưỡng α =

0,05, tra bảng để có multiplier (bội số) là khoảng 3,55; + MSW = 0,74; + n = 8

5

Page 6: Thongke Anova(Phan Tich Phuong Sai)

Hiệu giữa 2 số trung bình ít nhất phải bằng 1,08 thì mới được xem là có sự khác biệt có ý nghĩa thống kê (ở ngưỡng 0,05).

Như vậy: μA = μB

μB = μC

μA ≠ μC

Kết luận: Thời gian nằm viện trung bình của b/n thuộc BS. A khác có ý nghĩa thống kê với thời gian nằm viện trung bình của b/n thuộc BS. C.

2/ Scheffé test

Số TKKĐ:

Với và :

Với và :

Với và :

Giá trị tới hạn của F được tính bằng cách lấy số nhóm trừ 1 (3-1) rồi nhân cho giá trị tới hạn của F đã tính được trong phép kiểm ANOVA (4,73).

F (tới hạn) = 2 x 3,47 = 6,94Sự khác biệt giữa 2 số trung bình được xem là có ý nghĩa thống kê khi F tính được lớn hơn 6,94. Như vậy chỉ có cặp và thỏa điều kiện này. Kết luận tương tự như kết luận trong Tukey’s HSD test.

-------------------------------------------------------------------------------------------------------------------------------------------------

6

Page 7: Thongke Anova(Phan Tich Phuong Sai)

Kiểm định ANOVA được dùng để so sánh giá trị trung bình ở nhiều hơn hai nhóm. Có thể nói kiểm định ANOVA đã bổ sung thêm mặt hạn chế của kiểm định t-test khi t-test chỉ có thể kiểm định 2 giá trị trung bình của 2 nhóm.

7

Page 8: Thongke Anova(Phan Tich Phuong Sai)

http://www.statistics.vn/index.php?option=com_content&view=article&id=281:kim-nh-t-t-test&catid=25&Itemid=36http://statistics.vn/index.php?option=com_content&view=article&id=26:kiem-dinh-t-va-hoan-chuyen-so-lieu&catid=25:t-test&Itemid=36

Nhưng trước khi chấp nhận kết quả trên, chúng ta cần phải kiểm tra xem giả định của kiểm định t có hợp lí hay không. Kết quả của kiểm định t chỉ hợp lí nếu (a) số liệu tuân theo luật phân phối chuẩn; (b) hai nhóm có phương sai tương đương nhau; và (c) hai nhóm độc lập với nhau;(d) các đối tượng phải được chọn ngẫu nhiên.

Thế nào là “độc lập”?  Khi nói đến độc lập ở đây là nói đến hai nhóm không có tương quan nhau.  Chẳng hạn như một nhóm 1 gồm bệnh nhân A, B, C và D; nhóm 2 gồm bệnh nhân E, F, G và H, thì hai nhóm này độc lập nhau.  Nhưng nếu có một nhóm bệnh nhân mà đo hai lần, thì hai biến số của hai lần đo đó không độc lập với nhau.  Độc lập cũng có nghĩa là không liên hệ nhau.  Chẳng hạn như nếu 2 bệnh nhân trong nhóm 1 (A và C) có liên hệ huyết thống, và nếu biến mà chúng ta phân tích có yếu tố di truyền thì đo lường của hai bệnh nhân không được xem là độc lập.

 

Câu hỏi đặt ra là làm cách nào để biết phương sai của hai nhóm tương đương nhau? Phương pháp đơn giản nhất là dùng phương pháp kiểm định F. Kiểm định F tính tỉ số phương sai của hai nhóm và so sánh với giá trị tham chiếu của phân phối F. 

8

Page 9: Thongke Anova(Phan Tich Phuong Sai)

9