[123doc.vn] phuong-phap-thong-ke-moi-truong (1)

287
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Xuân Cự BÀI GIẢNG PHƯƠNG PHÁP THỐNG KÊ TRONG KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG (Lưu hành nội bộ)

Upload: duong-tran

Post on 09-Jan-2017

407 views

Category:

Engineering


1 download

TRANSCRIPT

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Xuân Cự

BÀI GIẢNG

PHƯƠNG PHÁP THỐNG KÊ

TRONG KHOA HỌC NÔNG NGHIỆP

VÀ MÔI TRƯỜNG

(Lưu hành nội bộ)

Hà Nội , 2008

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

MỤC LỤC

Chương 1. Giới thiệu chung.........................................................................................3

Chương 2. Phương pháp thông kê mô tả.....................................................................3

Chương 3. lý thuyết xác suất...................................................................................25

3.1. Giới thiệu........................................................................................................25

3.3. Nguyên lý tính toán........................................................................................35

3.4. Định lý Bayes.................................................................................................38

3.5. Phân bố xác suất.............................................................................................41

Chương 4. Giới thiệu về các khái niệm lấy mẫu..................................................47

4.1. Giới thiệu chung.............................................................................................47

4.2. Các khái niệm về lấy mẫu đại diện.................................................................48

4.3. Kỹ thuật lấy mẫu trong khoa học nông nghiệp và môi trường.......................49

4.4. Phân bố mẫu (sampling distribution)............................................................52

Chương 5. Ước lượng các tham số.........................................................................64

5.1 Giới thiệu.........................................................................................................64

5.2. Ước lượng điểm..............................................................................................65

5.3. Ước lượng khoảng (Interval estimation)........................................................65

5.4. Ước lượng trung bình tổng thể khi đã biết sai số chuẩn ...........................67

5.5. Ước lượng số trung bình tổng thể khi không biết sai số chuẩn .................67

5.6. Sử dụng phân bố t (student distribution)........................................................68

5.8. Xác định kích thước mẫu................................................................................71

Chương 6. Kiểm định giả thiết trong trường hợp một mẫu.................................74

1

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

6.1. Giới thiệu........................................................................................................74

6.2. Các bước thực hiện trong kiểm định giả thiết................................................75

6.3. Kiểm tra về số trung bình trong trường hợp số lượng mẫu lớn......................79

6.4. Kiểm định về số trung bình trong trường hợp số lượng mẫu nhỏ..................81

6.6. Sự tiếp cận khác trong kiểm định giả thiết.....................................................84

6.7. Quan hệ giữa và ........................................................................................88

Chương 7. Kiểm tra giả thiết trong trường hợp hai mẫu....................................91

7.1. Giới thiệu........................................................................................................91

7.2. Kiểm định về giá trị trung bình trong trường hợp mẫu lớn............................93

Chương 8. Phân tích phương sai..........................................................................104

8.1 Giới thiệu.......................................................................................................104

8.2. Phân tích phương sai một yếu tố..................................................................106

8.3. Phân tích phương sai hai yếu tố (Two factor analysis of variance)..............116

8.4. Thiết kế hình vuông Latinh (Latin square design).......................................124

Chương 9 Phân tích khi bình phương (χ2)...........................................................128

9.1. Giới thiệu......................................................................................................128

9.2. Kiểm định sự sai khác giữa các tỷ lệ............................................................129

9.3. Kiểm định ữ2 về tính độc lập của tổng thể....................................................132

9.4. Kiểm định tính phù hợp (test of goodness of fit).........................................135

9.5. Kiểm định tính đồng nhất.............................................................................141

Chương 10. Một số phương pháp khác kiểm định phi tham số........................144

10.1. Giới thiệu....................................................................................................144

10.2. Kiểm định dấu hiệu (Sign test)...................................................................145

2

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

10.3. Kiểm định xếp hạng dấu Wilcoxon............................................................149

10.4. Kiểm định U Mann - Whitney (Mann - Whitey U test).............................153

10.5. hệ số tương quan xếp hạng Spearman........................................................156

Chương 11. Tương quan và hồi quy đơn giản.....................................................159

11.1. Giới thiệu....................................................................................................159

11.2. Phân tích hồi qui (regression analysis)......................................................160

11.3. Ước lượng sai số chuẩn..............................................................................166

11.4. Phân tích tương quan..................................................................................169

Chương 12. Tương quan bội (Hồi qui nhiều biến)..............................................178

12.1. Giới thiệu....................................................................................................178

12.3. Ước lượng sai số chuẩn (Standard error of estimate).................................186

12.4. Phân tích tương quan bội (Multiple correlation analasis)..........................187

12.5. Thống kê suy luận trong phân tích hồi qui và tương quan.........................190

12.6. Các giả định và những vấn đề trong tương quan bội dạng đường thẳng....195

3

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

PHẦN 1. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ

Chương 1. GIỚI THIỆU CHUNG

Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thích các kết quả nghiên cứu. Học phần này nhằm cung cấp những khái niệm và các yêu cầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường.

Từ thống kê có nghĩa riêng và có nghĩa chung. Theo nghĩa riêng thống kê (statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môi trường,... theo nghĩa chung nó là những tập hợp các số liệu được thu thập được.

Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán. Thống kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyết định tốt hơn.

Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu và được áp dụng cho nhiều ngành khoa học khác nhau. Ví dụ các nhà khoa học trồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồng ruộng có nhiều khác biệt với các vùng sản xuất khác nhau. Các nhà kinh tế nông nghiệp lại sử dụng để dự báo yêu cầu trong tương lai.

Chương 2. PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ

Mục tiêu:

- Tổ chức và tóm tắt số liệu một cách có hiệu quả

- Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu (số liệu trung bình, trung vị, số trội, ... và ý nghĩa của nó).

4

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệch chuẩn) và ý nghĩa của chúng.

2.1. Giới thiệu về thống kê mô tả

Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệp nói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khó đánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này. Tập hợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau. Thông thường có thể tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất. Cách sắp xếp này có thể cung cấp được nhiều thông tin có ý nghĩa.

Ví dụ 2.1. Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua. Có 50 cây cà chua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫu nhiên, sau 14 ngày xử lý cho kết quả như sau:

Bảng 2.0. Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua (cm)

21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,9

22,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,7

22,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,2

22,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,5

22.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6

Giải:

Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như ở Bảng 2.1. Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ cao của cây cà chua dao động từ 21,5 đến 24,5 cm. Sự chênh lệch giữa cây thấp nhất và cây cao nhất quan sát dược là 2,7 cm. Số cây có độ cao 21,5 - 22,8 cm chiếm 50% số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm. Hơn nữa sự sắp xếp này cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh

5

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

độ cao trung bình. Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 - 22,9 và 23,2 cm. Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm.

Bảng 2.1. dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn

21,5

21,6

21,8

21,8

21,8

21,9

21,9

22,0

22,1

22,1

22,1

22,2

22,2

22,3

22,4

22,5

22,5

22,5

22,5

22,6

22,6

22,6

22,7

22,7

22,8

22,8

22,8

22,9

22,9

22,9

22,9

23,0

23,0

23,0

23,1

23,2

23,2

23,2

23,2

23,3

23,3

23,4

23,5

23,5

23,6

23,7

23,8

23,9

24,0

24,26

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trung bình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn.

Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tần suất xuất hiện của chúng và được gọi là sự phân bố tần suất.

2.2. Phân bố tần suất

Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dần của các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2).

Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1

Chiều cao cây cà chua (cm) Tần suất

21,5

21,6

21,8

21,9

22,0

22,1

22,2

22,3

22,4

22,5

22,6

22,7

22,8

22,9

23,0

23,1

23,2

1

1

3

2

1

3

2

1

1

4

3

2

3

4

3

1

4

7

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

23,3

23,4

23,5

23,6

23,7

23,8

23,9

24,0

24,2

2

1

2

1

1

1

1

1

1

Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặp nhau. Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc. Khi các só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn. Tuy nhiên thông thường người ta chia thành 5 đến 15 nhóm giá trị khác nhau. Theo Sturges (1926) số lượng các nhóm được xác định theo công thức sau:

k= 1+3,322(lgn) [2.1]

Trong đó: k = Số lượng nhóm

n= số lần quan trắc

Theo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sau được trình bày ở Bảng 2.3. Trong đó số nhóm k được xác định như sau:

k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7

Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành 7 nhóm (Bảng 2.3).

Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giá trị quan trắc của chúng. Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độ cao 21,9 - 22,2 cm, ... Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạng biểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm.

8

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

-Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thị dưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm.

Tần suất tương đối

Trong đó: Fi = tần suất của nhóm thứ i

n = số lần quan trắc

Bảng 2.3 Phân bố tần suất theo nhómNhóm Độ cao (cm) Tần

suất

1

2

3

4

5

6

7

21,5-21,8

21,9-22,2

22,3-22,6

22.7-23,0

23,1-23,4

23,5-23,8

23,9-24,2

5

8

9

12

8

5

3

Ví dụ như ở nhóm 2 (Bảng 2.3) ta có:

Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16

hay biểu diễn dưới dạng phần trăm ta có:

Số phần trăm là

Từ số liệu bảng 2.1 có thể biểu diễn dưới dạng tần suất tương đối như sau (Bảng 2.4).

Bảng 2.4 Tần suất tương đối và phần trăm cho số liệu ở Bảng 2.3

Nhóm chiều cao Tần Tần suất Phần trăm

9

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

(cm) suất (f) tương đối (f/n) (f/n) x100

21,5-21,8

21,9-22,2

22,3-22,6

22,7-23,0

23,1-23,8

23,5-23,8

23,9-24,2

5

8

9

12

8

5

3

0,10

0,16

0,18

0,24

0,16

0,10

0,06

10

16

18

24

16

10

6

n = 50

2.3. Xác định xu hướng tập trung của các giá trị quan trắc

Thông thường người ta hay nói đến giá trị trung bình. Tuy nhiên giá trị trung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc. Do vậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sử dụng như số trung bình cộng, số trung vị và số trội.

- Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổng các giá trị quan trắc với số lần quan trắc được biểu diễn là :

Nếu Xi có tần suất là mi ta có

Chú ý:

10

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác định giá thóc trung bình được bán ra?

Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg)

1

2

3

4

5

6

7

8

9

10

2000

3500

2100

3000

2400

3100

2600

2300

3000

2100

11

12

13

14

15

16

17

18

19

20

2200

2250

1750

1800

3200

2900

3100

3600

3400

3800

Giải:

(đ/kg)

Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg.

Ý nghĩa của số trung bình cộng:

+ Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu cho toàn bộ các giá trị quan trắc của một tập hợp.

+ Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trên một đặc trưng giống nhau. Nhưng trung bình cộng chưa biểu thị được đặc điểm thứ hai của một mẫu là xu hướng phân tán của các số liệu. .

11

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

+ Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luôn bằng 0. Tức là:

- Số trung bình trọng số (Weighted mean):

Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm có những dặc tính khác nhau. Số trung bình chung được tính từ các số trung bình của từng nhóm riêng rẽ. Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đóng góp của các nhóm là như nhau. Để phân biệt sự tham gia không ngang nhau của các nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trung bình chung.

Ta có:

Trong đó w = trọng số áp dụng cho giá trị X

X = Gía trị quan trắc

Ví dụ: Một nhà khoa học nông nghiệp xác định năng suất ngô của các giống khác nhau. Số liệu quan trắc được ghi ở Bảng 2.5.

Bảng 2.5 Năng suất ngô trong thí nghiệm

Giống ngô

X (tạ/ha)

diện tích (ha)

Sản lượng

A

B

C

D

Tổng

130,7

144,3

140,0

120,0

64

63

66

51

254

8364,8

9090,9

9240,0

6120,0

32.815,7

12

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trị trung bình X= 133,75 tạ/ha. Tuy nhiên trong trường hợp này các giống dược trồng trên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từng giống ngô. Hay ta nhân cột (1) với cột (2). Theo cách tính số trung bình trọng số ta có:

(tạ/ha)

- Số trung vị (Median):

Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu được sắp xếp theo trật tự giảm dần hoặc tăng dần. Trong trường hợp tỏng số quan trắc là lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu.

Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳ theo phân bố của chúng. Nếu phân bố của biến ngẫu nhiên đối xứng và có một số trội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và số trội (Mode) là trùng nhau. Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất, trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) để định vị sẽ tốt hơn.

Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành 2 phần bằng nhau. Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa có giá trị lớn hơn số trung vị.

Ví dụ 2.5: Tỷ P2O5 trong 6 loại phân bón có chứa phốt pho như sau, xác định Med của chúng.

STT

Loại phân bón

P2O5

(%)

1

2

11-4,6-0

13-39-0

46

39

13

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3

4

5

6

16-20-0

16-48-0

15-62-0

10-34-0

20

48

62

34

Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P2O5 của các loại phân bón theo thứ tự tăng dần như sau: 20-34-39-46-48-62. Áp dụng công thức tính Med ta có:

Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc đó ta có Med = 39

Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là số thứ (n+1)/2. Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị số thứ (n/2) và [(n/2)+1].

- Số trung vị trong phân bố tần suất:

Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệu thành từng lớp thì cũng làm tương tự như trường hợp trên. Số trung vị dược xác định theo công thức:

[2-7]

Trong đó: L = Giá trị thấp hơn giới hạn dưới của lớp có chứa trung vị

n = Tổng số các tần suất

CF = Tần suất tích luỹ tính đến lớp có chứa số trung vị

i = Khoảng cách của lớp

f = Tần suất của lớp chứa số trung vị

14

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông nghiệp đã thu được các số liệu ở Bảng 2.7. Hãy tính số trung vị về thu nhập của người dân trong các nhóm được điều tra.

Bảng 2.7. Tính toán số trung vị của phân bố tần xuất

Thu nhập hàng năm

(triệu đồng)

Số người dân

(f)

Tần suất tích luỹ

(CF)

10,000-14,999

15,000-19,999

20,000-24,999

24,999-29,999

30.000-34,999

35,000-39,999

40,000-44,999

45,000-49,999

50,000 trở lên

Tổng

5

7

10

12

14

20

16

19

17

120

5

12

22

34

48

68

84

103

120

Giải:

- Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60. Chúng ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cả nhóm đã được điều tra.

- Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7. Các gía trị này cho biết n/2 nằm ở vị trí nào. Từ bước thứ nhất ta biết rằng số trung bình sẽ nằm ở lớp có chứa tần suất tích luỹ là 60. Tức là ở lớp có thu nhập 35,000-39,999 triệu động/năm. Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơn giới hạn trên là 39,9995. Theo phương pháp tính toán đã nói ở trên chúng ta sử dụng

15

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

giá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị. Bởi vì tần suất tích luỹ của 5 lớp đầu là 48 và 6 lớp đầu là 68. Do vậy số trung vị sẽ nằm ở vị trí nào đó giữa lớp thứ 5 và thứ 6.

- Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từ lớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp. Vì lớp 5 có tần suất tích luỹ là 48, nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6. Như vậy số trung vị sẽ lấy giá trị 12/20 trong khoảng 34,9995 và 39,9995.

Áp dụng công thức [2-7] ta có:

Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệu đồng/năm. Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệu đồng/năm và một nửa còn lại sẽ có thu nhập cao hơn.

- Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suất lớn vượt trội. Số trội được ký hiệu là Mod.

Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệu hoặc biểu đồ tần suất. Nó cho biết giá trị thường gặp nhất của X trong một dãy số liệu quan trắc.

Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 – 4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày. Hãy xác định Mod của tập hợp số liệu này.

Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trường hợp là nhiều nhất. Do vậy số trội của dãy số liệu này là 5 ngày.

Cần chú ý rằng có nhiều dãy số liệu không có số trội. Ví dụ như 4 giá trị quan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày. Ngược lại cũng có dãy số liệu có thể có hai hay nhiều số trội. Ví dụ dãy quan trắc sự nảy mầm của hạt vào các ngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5. Ta có hai số trội là 4 ngày và 5 ngày.

16

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớp trội. Lớp trội cũng là lớp có tần suất lớn nhất. Để xác định số trội trong trường hợp này cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp. Trong ví dụ này, lớp thứ 6 có tần suất 20 là lớp trội. Do vậy số trội được tính như sau:

Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo công thức:

Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội

d1: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớp trước nó

d2: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo

i: Khoảng cách của lớp trội

Với ví dụ ở Bảng 2.7, ta có:

=

Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trung bình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt. Trong khi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội. Tuy nhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫu khi có vấn đề trong lấy mẫu. Trong trường hợp này số trung bình cộng sẽ có ý nghĩa tốt hơn. Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nó không bị ảnh hưởng bởi dạng đường cong phân bố. Tuy nhiên hạn chế của số trội là nó không có sự tính toán chính xác. Hơn nữa do điều kiện lấy mẫu, số trội là ít có tính xác thực hơn.

17

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

2.4. Xác định sự biến động hay độ phân tán mẫu

Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của các giá trị quan trắc so với giá trị trung bình. Nhìn chung khoảng cách từ gía trị quan trắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn. Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biến thiên, độ lệch trung bình, phương sai, độ lệch chuẩn.

-Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhất trong dãy số liệu:

R= X max – X min [2-9]

Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là:

R= 7,9-2,3=5,6

Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giá trị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu.

- Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng. Khi tính toán, tổng của các độ lệch này luôn luôn bằng 0.

Từ số liệu của ví dụ 2.8 ta có:

Trong xác định độ lệch trung bình, chúng ta cần thay đổi cách tính để được một số có ý nghĩa bằng cách không chú ý đến các dấu số học. Khi đó ta lấy tổng các gía trị tuyệt đối của các độ lệch rồi chia cho n sẽ được độ lệch trung bình:

[2-10]

Trong đó AD = độ lệch trung bình

18

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

x = Giá trị của mỗi lần quan trắc

= Số trung bình cộng

n = Số lần quan trắc

Ví dụ 2.9: Lấy số liệu từ ví dụ 2.8 ta có

Như vậy giá trị độ lệch trung bình của mẫu là 1,92.

- Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bình phương của các giá trị quan trắc so với giá trị trung bình. Phương sai của biến ngẫu nhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung quanh tâm của nó.

Công thức tính phương sai của một tổng thể như sau:

Trong đó = Phương sai của một tổng thể

x = Giá trị quan trắc

= Giá trị trung bình của tổng thể

N= Số quan trắc trong tổng thể

Đối với một mẫu, thì phương sai được tính theo công thức:

Trong đó: S2 = Phương sai mẫu

x= Giá trị quan trắc

= Số trung bình mẫu

n= Số quan trắc trong mẫu

19

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn. Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nước biển như sau, hãy xác định phương sai của quần thể vi sinh vật này.

32 56 72 45 52 74 53 42 58 61

59 40 36 76 55 75 62 48 35 39

Giải:

Ta có:

X

32

65

72

45

52

74

53

42

-21,95

11,05

18,05

-8,95

-1,95

20,05

-0,95

-11,95

48,18

122,1

325,8

80,1

3,8

402,0

0,9

142,8

20

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

58

61

59

40

36

76

55

75

62

48

35

39

1079

4,05

7,05

5,05

-13,95

-17,95

22,05

1,05

21,05

8,05

-5,95

-18,95

-14,95

0,0

16,4

49,7

25,5

191,6

322,2

486,2

1,1

443,1

64,8

35,4

359,1

223,5

3780,9

Giá trị phương sai chỉ có nghĩa để so sánh độ phân tán mẫu của 2 hoặc nhiều mẫu nghiên cứu. Trong một mẫu giá trị phương sai không có ý nghĩa so sánh vì số 189 không phải là số lượng vi khuẩn thực tế mà là số bình phương. Do vậy để sử dụng chúng người ta phải chuyển phương sai thành độ lệch chuẩn bằng cách khai căn bậc 2 giá trị phương sai.

(vi khuẩn)

Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn.

Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thức sau:

21

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Với ví dụ 2.10 ta có:

- Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 của phương sai. Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để so sánh sự phân tán của các mẫu khác nhau. Khi mẫu có độ lệch chuẩn càng lớn chứng tỏ mức độ phân tán của mẫu cũng càng lớn. Công thức để tính độ lệch chuẩn cho một tổng thể như sau:

[2-14]

Hoặc ngắn gọn hơn, có thể áp dụng công thức:

[2-15]

Đối với một mẫu ta áp dụng công thức sau:

[2-16]

Hoặc tính ngắn gọn theo công thức:

[2-17]

Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1. Theo Mason (1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tính của tổng thể, đặc biệt là khi kích thước của mẫu nhỏ.

22

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng. Tính độ lệch chuẩn của mẫu.

Giải:

X

24

32

28

22

20

26

28

20

Tổng

-1

7

3

-3

-5

1

3

-5

0

1

49

9

9

25

1

9

25

128

Theo cách rút gọn ta có:X X2

24

32

28

576

1024

784

23

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

22

20

26

28

20

200

484

400

676

784

400

5128

Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác định theo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có [1-(1/k2)] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu đó xung quanh giá trị trung bình".

Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quan trắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình. Ít nhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình.

Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai ba và năm lần độ lệch chuẩn như sau:

Với khoảng 75% ta có:

Với khoảng 88,9% ta có:

Với khoảng 96% ta có:

Áp dụng định lý Chebyshev cho ví dụ 2.11, với giá trị trung bình là 25, độ lệch chuẩn là 4,28 ta có ít nhất 75% số các giá trị quan trắc nằm trong khoảng (25 -

24

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

4,28 x 2) = 16,44; và (25 + 4,28 x 2) =33,56. It nhất 88,9% các giá trị nằm trong phạm vi (25-4,28x3)=12,16 và (25+4,28x3)=37,84; và 96% giá trị thì nằm trong phạm vi (25 - 4,28 x 5) = 3,60 và (25 + 4,28 x 5) = 46,40.

- Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợp của các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau:

[2-18]

Trong đó: x = Điểm giữa của lớp

f = Tần xuất của lớp

n = Số lượng quan trắc

Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau. Người ta đã thống kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó.

Giải:

Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính độ lệch chuẩn.

Mức đóng góp (triệu đồng)

Số đơn vị tài trợ

0,00 - 5,00 30

5,00 - 10,00 35

10,00- 15,00 42

15,00- 20,00 10

20,00- 25,00 3

25,00- 30,00 5

25

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

30,00- 35,00 7

Bảng 2.8. Tính các gía trị cho các nhóm số liệu

(1)

Mức đóng góp (triệu đồng)

(2)

Tần suất

(f)

(3)

Điểm giữa

(x)

(4)

(fx)

(5)

fx.x

(fx2)

0,00 - 5,00 30 2,5 75,00 187,50

5,00 - 10,00 35 7,5 262,50 1968,75

10,00- 15,00 42 12,5 525,00 6526,50

15,00- 20,00 10 17,5 175,00 3062,50

20,00- 25,00 3 22,5 57,50 1518,75

25,00- 30,00 5 27,5 137,50 3781,25

30,00- 35,00 7 32,5 227,50 7393,75

Cộng 132 1.470,00 24.475,00

Phần 2. THỐNG KÊ SUY LUẬN TRONG

KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG

26

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

CHƯƠNG 3. LÝ THUYẾT XÁC SUẤT

3.1. Giới thiệu

Ở chương trước đã đề cập đến phương pháp thống kê mô tả. Tuy nhiên phương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưng mẫu. Do vậy ta phải sử dụng phương pháp thống kê suy luận. Quan điểm lí thuyết xác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận.

Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việc phải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế. Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn về kinh phí cũng như thời gian. Lí thuyết sác xuất có liên quan đến quan niệm và sự xác định các sự kiện không chắc chắn.

Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạn chế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện không chắc chắn. Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựa vào lí thuyết xác suất. Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suất như một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trong kết quả của xuất hiện của một sự kiện hoặc thí nghiệm.

3.2 Các khái niệm và phương pháp xác định xác suất

- Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quả không chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của một quan trắc hay một thí nghiệm nào đó. Hay nói cách khác, sự kiện là kết quả của 1 phép thử. Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B, ...

Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng. Kết qủa cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện. Khi nói đến sự kiện ta cần chú ý có sự kiện là tất yếu (), nó nhất định sẽ xảy ra khi tiến

hành phép thử. Có sự kiện là không thể (ø), nghĩa là nó không thể xảy ra khi tiến hành phép thử. Có sự kiện là ngẫu nhiên (A, B...), nghĩa là nó có thể xảy ra hoặc

27

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

không xảy ra khi tiến hành phép thử. Có sự kiện là tất nhiên (A, B, ...), nghĩa là nó tất yếu sẽ xảy ra khi tiến hành phép thử.

- Không gian mẫu (sample space): Bao gồm tất cả các sự kiện có thể xuất hiện trong thí nghiệm hoặc quan trắc. Ví dụ, khi gieo 5 hạt giống thì có 6 khả năng xảy ra là 0, 1, 2, 3, 4, 5 hạt sẽ nảy mầm. Ta gọi đó là không gian mẫu.

- Tổng của 2 sự kiện: Tổng của các sự kiện () được xác định là toàn bộ các sự kiện xảy ra của 1 sự kiện có chứa tất cả các điểm mẫu thuộc A hoặc B hoặc cả hai, và được kí hiệu là A B

Hình 3.1 cho thấy tổng các sự kiện A và B và được gọi là sơ đồ Venn (J. Venn, 1834 - 1888). Hình chữ nhật biểu diễn không gian mẫu (sample space) nó chứa các điểm mẫu. Tổng của tất cả các điểm mẫu là không gian mẫu. Hai vòng tròn là đại diện cho các sự kiện A và B. Trên thực tế vùng chồng lấn là diện tích chung của cả A và B. Để có xác suất của sự kiện A và B chúng ta phải trừ đi 1 vùng chồng lấn từ tổng xác suất của sự kiện A và B.

Hình 3.1. Tổng các sự kiện A và B khi các sự kiện là loại trừ nhau

và khi chúng không loại trừ nhau

- Sự giao nhau của các sự kiện: Sự giao nhau của 2 sự kiện được khái niệm là một sự kiện mà có chứa các điểm mẫu thuộc cả A và B. Sự giao nhau của hai sự

28

A B

Không gian mẫu (a) Không gian mẫu (b)

Tổng A và B hoặc AB

A B

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

kiện A và B được ký hiệu là AB. Hình 3.1, phần giao nhau giữa 2 sự kiện A và B chính là diện tích chồng lấn của 2 hình tròn A Và B.

- Các qui tắc cơ bản của xác suất: Tính toán xác suất được dựa trên các qui tắc của phép cộng hoặc nhân. Khi ta có 2 sự kiện, nếu muốn biết xác suất mà ít nhất sẽ có một sự kiện xảy ra, ta áp dụng qui tắc cộng. Một cách khác nếu muốn biết xác suất mà sự kiện A hoặc B, hoặc cả 2 xuất hiện, ta chỉ đơn thuần là cộng cả 2 xác suất sơ cấp của chúng.

Ngược lại, khi muốn tìm xác suất của 2 (hoặc nhiều hơn các sự kiện) xuất hiện đồng thời ta phải áp dụng qui tắc nhân xác suất.

Khi cộng các xác suất, trước hết cần phải biết các sự kiện là độc lập hoặc giao nhau. Nếu sự xuất hiện của một sự kiện mà nó loại trừ sự xuất hiện của sự kiện khác, ta có 2 sự kiện là loại trừ nhau. Ví dụ, nếu một nhà chọn giống cây trồng tiến hành một thí nghiệm riêng rẽ về sự chuyển hoá chất diệp lục (chlorophyl) để có giống cây màu vàng thay vì màu xanh vốn có, thường gặp phải sự kiện loại trừ nhau như Hình 3.1. Phương trình theo qui tắc cộng xác suất như sau:

P(A hoặc B)=P(A)+P(B) [3-1]

hoặc P(A B) = P(A)+P(B) [3-2]

Trong trường hợp này cả A và B sẽ xuất hiện ngang nhau trong tổng xác suất của A Và B.

Ví dụ, nếu ta tung con súc sắc thì xác suất xuất hiện mặt 2 hoặc 3 chấm sẽ là:

P(2 hoặc 3) = P(2) + P(3)

=1/6+1/6 = 2/6 = 0,33

Tình huống mà 2 sự kiện là không loại trừ nhau chính là hiệu của diện tích (phần gạch chéo giao nhau) ở hình 3.1. Đây là vùng mà cả 2 sự kiện đều có khả năng xuất hiện. Vì vậy qui tắc cộng xác suất sẽ là:

P(A hoặc B) = P(A) + P(B) - P(A và B) [3-3]

29

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ: Nếu ta rút một quân bài từ tập tú lơ khơ, xác suất để rút được quân K hoặc quân cơ sẽ là:

P(K hoặc cơ) =P(K) + P(cơ) - P(K và cơ)

= 4/52+13/52-1/52

= 16/52

= 0,31

Nếu ra muốn xác định xác suất của 2 (hoặc vài) sự kiện cùng xuất hiện đồng thời ta áp dụng qui tắc nhân. Qui tắc nhân được áp dụng khác nhau phụ thuộc vào các sự kiện chúng là độc lập hay phụ thuộc nhau. Hai sự kiện là độc lập nhau nếu sự xuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của các sự kiện kia.

Để mô tả khái niệm này, giả sử ta có một cặp xúc sắc, trong đó 1 con xúc sắc màu trắng và một con xúc sắc màu đen. Sự xuất hiện mặt 3 chấm của con xúc sắc màu trắng là hoàn toàn độc lập với sự xuất hiện mặt 3 chấm của con xúc sắc mầu đen. Ta ký hiệu xác suất của các sự kiện độc lập như sau:

P(A và B) = P(A) x P(B) [3-4]

hoặc P(A B) = P(A) x P(B) [3-5]

Sử dụng phương trình [3-4] để xác định xác suất của mặt 3 chấm của cặp xúc sắc này là:

P(3 trên trắng và 3 trên đen) = P(3 trên trắng) x P(3 trên đen)

= 1/6 x 1/6 = 1/36 = 0,028

Khi 2 sự kiện (A và B) phụ thuộc nhau thì xác suất xuất hiện của sự kiện này sẽ phụ thuộc hoặc là điều kiện cho sự xuất hiện hay không xuất hiện của sự kiện khác. Ký hiệu được sử dụng để chỉ xác suất điều kiện như trình bày trên. Ví dụ, P(AB) nghĩa là xác xuất của sự kiện A là điều kiện cho sự xuất hiện của sự kiện B. Qui tắc xác suất trong xác suất có điều kiện được biểu diễn như sau:

P(A B) = P(A) x P(AB) [3-6]

30

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

hoặc P(A B) = P(B) x P(BA) [3-7]

Ở phương trình [3-6]. sự xuất hiện đồng thời của A và B là ngang nhau trong tích số xác suất của sự kiện A, và xác suất của A là điều kiện cho sự xuất hiện của B. Ta có thể sử dụng phương trình [3-6] hoặc [3-7] để tính P(AB).

Ví dụ 3.1:

Trong buổi thuyết trình trước một nhóm các đại lý, phó chủ tịch công ty hoá chất nông nghiệp chỉ ra rằng, với kinh nghiệm trước đây cho thấy xác suất bán hàng cho một nông trại ở lần chào hàng thứ 2 là 0,30. Các ghi nhận được cho thấy có 52% các lần bán hàng như vậy đạt trên 200 nghìn đồng. Hãy xác định xác suất mà các đại lý bán hàng sẽ bán được trên 200 nghìn đồng?

Giải:

Trước khi áp dụng phương trình [3-6] hoặc [3-7] để tìm xác suất, ta đặt vấn đề như sau:

P(A)= xác suất mà một lần bán hàng tiến hành

P(A B)= xác suất mà một lần bán hàng được trên 200 nghìn đồng

Xác suất các đại lý bán hàng tiến hành với 1 lần bán được trên 200 nghìn đồng là:

P(A và B)=P(A)xP(AB)

= (0,30)(0,52) = 0,16

Qui tắc nhân xác suất có thể được áp dụng với bất kỳ số lượng các sự kiện. Với trường hợp nhiều hơn 2 sự kiện ta có công thức sau:

P(A, và B, ..., và N)=P(A)P(BA)P(CB và A), ..., P(NN-1) và, ..., A)[3-8]

Ví dụ 3.2:

Một nhà khoa học chăn nuôi thử nghiệm 3 loại thức ăn khác nhau nhằm tăng cao khả năng tăng trọng của bò. Nghiên cứu được tiến hành ở 10 con bò, trong đó 5 con là giống Angus, 3 con giống Brahman và 2 con giống Hereford. Giả sử rằng có

31

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3 con được chọn ngẫu nhiên từ danh sách đánh số từ 1 đến 10. Mỗi lần chọn 1 con, nên sau mỗi lần chọn mẫu, số con bò còn lại sẽ có các cơ hội ngang nhau để dược lựa chọn tiếp. Tìm xác xuất mà cả 3 con bò được lựa chọn đề là giống Angus.

Giải:

Giả sử rằng các sự kiện của lần chọn thứ nhất, thứ hai và thứ ba cho giống Angus là A, B, C ta có:

P(A, B và C) = P(A)P(BA)P(CB và A)

= (5/10)(4/9)(3/8) = 0,08

Vì trong 10 con bò thì có 5 con Angus, nên xác suất của lần chọn thứ nhất P(A)=5/10. Lúc này ta còn lại 9 con, vì vậy xác suất điều kiện P(BA) =4/9. Tương tự như vậy, sau lần chọn mẫu thứ hai ta chỉ còn 8 con bò để lựa chọn và trong đó có thể sẽ có 3 con là Angus. Do vậy câu trả lời là xác suất cho lựa chọn được cả 3 con Angus chỉ là 0,08.

Từ ví dụ này có 2 điều quan trọng cần lưu ý là: (1) sự xuất hiện đồng thời cả 3 giống A, B và C là như nhau. Nghiã là qui tắc nhân sẽ được áp dụng để tính toán. (2) nếu ta lấy ngẫu nhiên theo cách thay thế, xác suất cho mỗi sự kiện sẽ được duy trì như nhau. Với ví dụ trên nếu ta lấy mẫu thay thế (lấy mẫu lặp) ta có khả năng xuất hiện đồng thời cho các sự kiện A, B và C là:

P(A, B và C)=(5/10)(5/10)(5/10) =0,13

Tỷ số được giữ nguyên vì sau mỗi lần lấy mẫu chúng ta lại đưa trả lại để cho số bò của mỗi lần lấy mẫu đều là 10.

Một cách nhìn khác trong mối quan hệ giữa việc lấy mẫu và bản chất của các sự kiện là lấy mẫu không lặp lại, cũng tương tự như các sự kiện phụ thuộc trong xác suất. Lấy mẫu trong trường hợp này cũng tương tự như các sự kiện độc lập.

- Xác suất điều kiện:

32

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Xác suất điều kiện là xác suất xuất hiện của một sự kiện này sẽ là điều kiện cho sự xuất hiện của một sự kiện khác. Phương trình [3-9] là cách xác định xác suất điều kiện của 2 sự kiện A và B:

P(AB = P(A B)/P(B) [3-9]

hoặc P(BA)=P(A B)/P(A) [3-10]

Trong đó P(A) và P(B) là khác không

Ví dụ 3.3:

Một nhà khoa học làm thí nghiệm kiểm tra hiệu quả của một loại vắc xin phòng bệnh cho gà. Hãy cho biết xác suất bắt gặp con gà đã được tiêm chủng mà vẫn bị mắc bệnh khi lựa chọn một cách ngẫu nhiên. Dựa vào số liệu quan trắc sau đây:

Kết quả Thí nghiệm

Tiêm vắc xin

Đối chứng

Tống số

Bị nhiễm bệnh

Không bị nhiễm bệnh

Tổng

22

78

100

44

56

100

66

134

200

Giải

Giả sử rằng : I = Sự kiện gà bị nhiễm bệnh

H= Sự kiện gà không bị nhiễm bệnh

V= Sự kiện gà được tiêm vắc xin

C = Sự kiện gà không được tiêm vắc xin

33

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Vì mỗi ô trong bảng số liệu là kết quả của 2 sự kiện, ta có thể tính xác suất đồng thời của chúng như sau:

P(IV) = 22/200 =0,11

P(IC) = 44/200 = 0,22

P(HV) = 78/200 = 0,39

P(HC) = 56/200 = 0,28

Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability) cho ví dụ này.

Bảng 3.1. Xác suất đồng thời và xác suất biên cho

gà được tiêm vắc xin và đối chứng

Tiêm vắc xin

Đối chứng

Xác suất biên

Bị nhiễm bệnh

Không bị nhiễm bệnh

Xác xuất biên

0,11

0,39

0,05

0,22

0,28

0,30

0,33

0,67

1,00

Xác suất biên là tổng của các xác suất đồng thời của mỗi sự kiện riêng rẽ. Xác suất biên 0,33 và 0,67 cho biết 33% số gà bị nhiễm bệnh và 67% là không bị nhiễm bệnh. Xác suất biên 0,50 và 0,50 cho biết 50% được tiêm vắc xin và 50% là không được tiêm vắc xin. Để tính xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin, ta có:

P(IV) = P(IV)/P(V) [3-11]

Xác suất đồng thời, P(IV) từ Bảng 3.1 là 0,11. Cần chú ý rằng 0,50 là xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin P(I) = 0,50. Với những thông tin này, xác suất điều kiện sẽ là:

34

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

P(I V) = 0,11/0,50 = 0,22

Xác suất điều kiện cho biết số gà dược tiêm vắc xin sẽ có 22% khả năng bị nhiễm bệnh.

- Sơ đồ cây (Tree diagram):

Chúng ta có thể biểu diễn không gian mẫu như đồ thị hình chữ nhật được trình bày ở trên, hoặc dưới dạng hình cây. Đồ thị hình cây cũng được sử dụng tương tự như đồ thị hình chữ nhật.

Để xây dựng đồ thị hình cây, trước hết ta vẽ các điểm hoặc hình vuông nhỏ đại diện cho thân cây như Hình 3.3. Sự xảy ra của mỗi mẫu quan trắc được đại diện cho các nhánh.

Hình 3.3. Sơ đồ hình cây cho 300 người dân

với các nghề khác nhau muốn nghỉ hưu ở tuổỉ 60

Ví dụ 3.4:

Một nghiên cứu mới đây cho thấy người nông dân với các nghề khác nhau không muốn nghỉ hưu trước tuổi 60. Một nhà kinh tế nông nghiệp làm một cuộc điều tra giữa những người làm công tác

35

Quản lý (M) 0,33

Sản xuất (P) 0,67

Nghỉ hưu (R) 0,23

Không nghỉ hưu (NR) 0,10

Nghỉ hưu (R) 0,07

Không nghỉ hưu (NR) 0,50

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

quản lý và các nhà sản xuất để xác định kế hoạch cho họ sau tuổi 60. Kết qủa thu được như sau, hãy vẽ sơ đồ cây và xác định xác suất xuất hiện đồng thời.

Nghề nghiệp Kế hoạch sau tuổi 60

Nghỉ hưu (R) Không nghỉ hưu (NR)

Tổng

M : Quản lý

P : Sản xuất

70

20

30

180

100

200

300

Giải:

Đối với vấn đề này, có 2 nhánh chính được xây dựng từ thân cây (tree trunk). Một nhánh đại diện cho những người quản lý và nhánh kia cho những người sản xuất. Xác suất của mỗi nhánh cây là 0,33 và 0,67 như được mô tả ở Hình 3.3.

Nếu dấu hiệu M, P, R và NR tương ứng cho các nhà quản lý, sản xuất, nghỉ hưu và không nghỉ hưu. Như vậy Xác suất đồng thời của nhà quản lý muốn nghỉ hưu ở tuổi 60 sẽ là P(M và R). Tương tự như vậy xác suất đồng thời của người sản xuất và tuổi nghỉ hưu 60 sẽ là P(P và R).

Bảng 3.2. Xác suất đồng thời của 300 cá nhân thích nghỉ hưu

liên quan đến nghề nghiệp khác nhau

Nghề nghiệp Nghỉ hưu (R)

Không nghỉ hưu (NR)

Xác suất giới hạn

M : Quản lý

P : Sản xuất

Xác suất giới hạn

0,23

0,07

0,30

0,10

0,60

0,70

0,33

0,67

1,00

Xác suất đồng thời này khi lựa chọn ngẫu nhiên các cá nhân làm nghề quản lý muốn nghỉ hưu ở tuổi 60 sẽ là:

36

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

P(M và R) = 70/300 = 0,23

Tương tự xác suất đồng thời giữa người sản xuất và tuổi nghỉ hưu (60 tuổi) là:

P(P và R) =20/300 = 0,07

Các xác suất đồng thời cho các yếu tố khác được tính toán theo tần suất tương đối và giới thiệu ở Bảng 3.2.

3.3. Nguyên lý tính toán

Trong một số thí nghiệm, không gian mẫu có thể là rất lớn, các kết quả thu được là rất phức tạp và khó xác định. Trong trường hợp như vậy chúng ta phải sử dụng một số kỹ thuật tính toán nhất định. Nguyên tắc tính toán này chỉ được sử dụng trong trường hợp số các sự kiện nhiều hơn 2.

Dạng đơn giản nhất, nguyên lý tính toán được phát biểu như sau:

Nếu sự kiện thứ nhất có thể xảy ra với i các cách khác nhau, và sự kiện thứ 2 có thể xảy ra với j cách khác nhau thì tổng các khả năng xuất hiện sẽ là tích số của i và j. Nghĩa là:

Tổng số khả năng xuất hiện là i . j

Ví dụ, nếu có 2 cách vận chuyển lúa từ trang trại đến nhà kho và 3 cách vận chuyến chúng từ kho đến người bán buôn, và 4 cách vận chuyển từ người bán buôn đến người bán lẻ. Như vậy ta có tổng số 2x3x4=24 cách vận chuyển lúa từ trang trại đến người bán lẻ.

Nguyên lý phép nhân (multiplication), hoán vị (permutation) và sự tổ hợp (combination) là các kỹ thuật tính được dùng để xác định các khả năng của các con đường khác nhau cho vận chuyển lúa.

- Nguyên lý phép nhân (multiplication principle):

Khi trật tự là quan trọng cho sự xảy ra của một thí nghiệm (chẳng hạn như tung đồng xu, HT=TH, trong đó H=mặt ngửa-heads và T=mặt sấp), nguyên lý phép nhân sẽ được sử dụng để tính tổng các khả năng xảy ra. Công thức lựa chọn bội số từ một thí nghiệm là:

37

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

nMr = nr [3-12]

Trong đó nMr là số các lựa chọn bối số của m sự kiện trong r lần. Sự lựa chọn bội số có thể là tổ hợp của các tính chất khác nhau trong một ví dụ.

Ví dụ 3.5:

Một nhà làm vườn tạo giống mới bằng nhân giống cây trồng mong muốn phát triển giống cây có hoa vàng, hoa to và cuống dài. Giả sử kí hiệu hoa vàng là (Y), hoa to là L và cuống dài là S. Xác định xem có bao nhiêu cách lựa chọn bội số từ ví dụ này trong tổ hợp chập hai:

Giải:

3M2 = 32 = 9

YY LY SY

YL LL SL

YS LS SS

-Phép hoán vị (permutation):

Nếu các sự kiện xáy ra không lặp lại nhưng theo trật tự ta có thể áp dụng phép hoán vị. Phép hoán vị được định nghĩa là một sự sắp xếp một tập hợp các tổ hợp trong đó ta có lần lượt cái thứ nhất, thứ hai và thứ n.

Ta có thể áp dụng nguyên tắc này để tính toán các cách sắp xếp. Tuy nhiên để dễ dàng hơn ta áp dụng công thức :

Trong đó nPr là số lần hoán vị của n phần tử (Objects) dược lấy mỗi lần là r phần tử. Ký hiệu ! là giai thừa (factorial) được dùng cả trong phép hoán vị và tổ hợp. Giai thừa của n (n !) nghĩa là tích của n(n-1)(n-2)(n-3), ..., [n-(n-1)].

Ví dụ 4 ! ta có:

38

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

4 ! = 4(4-1)(4-2)[4-(4-1)] = 4x3x2x1 = 24

Với ví dụ 3.5 trong trường hợp hoán vị ta đặt vấn đề là sẽ có bao nhiêu cách hoán vị các chữ cái Y, L và S, nếu mỗi lần lấy 2 chữ.

Sử dụng phương trình [3-13] ta có:

- Tổ hợp :

Khi một trật tự là không quan trọng, ta sử dụng nguyên tắc tổ hợp (Combination principle) trong nhóm các phần tử (grouping objects). Công thức tính tổ hợp là (ta gọi tổ hợp chập r của n).

Cũng xét với ví dụ 3.5, ta xác định có bao nhiêu cách tổ hợp của các chữ cái Y, S và L, nếu mỗi lần ta lấy ra 2 chữ cái.

3.4. Định lý Bayes

Trong nhiều nghiên cứu, ta ước lượng các xác suất cho việc phân tích các sự kiện sẽ xảy ra sau. Tuy nhiên trong quá trình nghiên cứu, có nhiều thông tin mới xuất hiện có liên quan đến sự xuất hiện hay không của một sự kiện đó. Với các thông tin bổ sung này, định lý Bayes đưa ra một giá trị trung bình cho việc tính toán

39

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

các xác suất sẽ xảy ra sau đó của một sự kiện. Hình 3.4 chỉ ra các bước trong việc xem xét đánh giá lại các xác suất.

Xác suất trước

Các thông tin mới hoặc bổ sung

Áp dụng định lý Bayes

Xác suất hồi cố

Hình 3.4. Sự đánh hồi cố xác suất dựa theo định lý Bayes

Định lý được phát biểu cho xác suất điều kiện được biểu diễn bằng công thức:

Trong đó : i =1,2,3,...,n

Nhìn chung trong hầu hết các quyết định, Ai là sự kiện xuất hiện trước khi B xuất hiện. Để đơn giản hơn, định lý Bayes được viết như sau:

Ví dụ 3.6:

Một chuyên gia dinh dưỡng khi nghiên cứu về tình hình suy dinh dưỡng trong nhân dân đã cho biết có 3% dân số của một nước đang phát triển ở tình trạng suy

40

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

dinh dưỡng. Khi kiểm tra lại báo cáo của Chính phủ thông qua số liệu ghi chép thì qua kiểm tra (sự kiện B) Chính phủ đã xác định xác suất điều kiện (suy dinh dưỡng tồn tại) là:

P(BA1)=0,95

Và xác suất tương ứng (người không bị suy dinh dưỡng) là:

P(BA2) = 0,04

Suy dinh dưỡng giản đơn thường khó phân biệt vì nó thường xuất hiện cùng với nhiều loại bệnh khác. Do vậy xác suất bắt gặp ngẫu nhiên người suy dinh dưỡng thực sẽ là bao nhiêu?

Giải:

Gỉa sử A1 là những người bị suy dinh dưỡng và A2 là những người không bị suy dinh dưỡng. Như vậy xác suất cho mỗi số liệu là:

P(A1) = 0,03 P(A2) = 0,97

Theo định lý Bayes, đây được xem là những xác suất trước (prior probability) bởi vì nó được ghi nhận lần quan sát sơ bộ về dinh dưỡng. Nó không đề cập đến các kinh nghiệm đã được áp dụng trong nhân dân. Để xác định xác suất hồi cố khi được đánh giá lại ta phải tính xác suất kết hợp trong tử số và mẫu số của phương trình [3-16]. Điều này sẽ được hoàn thiện bằng sử dụng qui tắc nhân:

P(A1 B) = P(A1)P(BA1) [3-17]

và P(A2 B) = P(A2)P(BA2) [3-18]

ta có P(B) = P(A1)P(B)A1)+P(A2)P(BA2) [3-19]

Thay các phương trình [3-17[ và [3-19] vào tử số và mẫu số của phương trình [3-16] ta có:

Với ví dụ đang xét ta có xác suất tính toán lại như sau:

41

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Như vậy xác suất hồi cố cho thấy người bị suy dinh dưỡng sẽ là 0,42. Cách tính theo định lý Bayes được trình bày ở bảng 3.3.

Các bước tính toán được thực hiện như sau:

+ Bước 1: Lập bảng có 5 cột như Bảng 3.3

Bảng 3.3. Tính theo định lý Bayes cho ví dụ 3.6Sự kiện

A1

Xác suất đầu P(A)

Xác suất điều kiện P(BA1)

Xác suất kết hợp

P(A1)P(BA1)

Xác suất hồi cố

P(A1B)

A1: Suy dinh dưỡng

0,03 0,95 0,0265 0,0285/0,0673=0,42

A2 : Đủ dinh dưỡng

0,97 0,04 0,0388 0,0388/0,0673=0,58

P(B)=0,0673 1,00

+ Bước 2: Cung cấp các thông tin mới cho nhà nghiên cứu, xác suất kết hợp cho mỗi sự kiện dược tính và thay thế vào cột thứ 4. Đơn thuần đây chỉ là tính xác suất đầu và xác suất điểu kiện hay tích của cột thứ 2 và thứ 3.

+ Bước 3: Lấy tổng của cột xác suất kết hợp để xác định xác suất liên quan với các thông tin mới P(B). Xác suất liên kết cho ví dụ trên với các thông tin mới bổ sung, chẳng hạn như khí hậu (được gọi là sự kiện B) là 0,0673.

+ Bước 4: Tính xác suất hồi cố bằng sử dụng quan hệ cơ bản của xác suất điều kiện theo phương trình [3-15]. Nghiã là, xác suất liên kết cho mỗi sự kiện được chia cho P(B), chúng là tổng của xác suất điều kiện.

42

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3.5. Phân bố xác suất

Trong các phần trên ta đã đề cập đến các khái niệm xác suất và cách tính xác suất cho mỗi sự kiện. Khi chúng ta muốn biết xác suất của mỗi lần xuất hiện trong tập hợp của các sự kiện, ta đề cập đến phân bố xác suất. Phân bố xác suất là dạng đặc biệt của phân bố tần suất khi tần suất được xem như là xác suất. Ta có thể hiểu khái niệm phân bố xác suất như là danh sách hoàn chỉnh của tất cả khả năng xuất hiện của một thí nghiệm cùng với xác suất của chúng.

Có một vài sự phân bố xác suất có ý nghĩa quan trọng trong khoa học nông nghiệp và môi trường. Ví dụ như phân bố nhị thức và phân bố thường cho các biến liên tục.

- Phân bố nhị thức (Binomial distribution): Đây là phân bố xác suất được sử dụng rộng rãi nhất cho một biến rời rạc. Nó mô tả phân bố xác suất khi chỉ có 2 khả năng xuất hiện của một sự kiện hoặc thí nghiệm.

Ví dụ, sự phân bố số lượng lợn đực trong n con lợn mới sinh ra là phân bố nhị thức vì mỗi con lợn con có thể là đực hoặc cái. Trong một thí nghiệm đồng ruộng, một nhà nông học có thể nhận thấy việc sử dụng thuốc diệt cỏ có tác dụng hoặc không. Hoặc một nhà khoa học vật nuôi muốn kiểm tra thí nghiệm tiêm vắc xin có hiệu quả hay không. Tất cả những vấn đề này đều có 2 khả năng xảy ra. Hai khả năng xuất hiện trong một thí nghiệm, thường được gọi là thành công hoặc thất bại.

Nếu một sự kiện ngẫu nhiên có 2 dạng trên và xác suất của một sự kiện xuất hiện (thành công) được xác định là p và q, trong đó q=1-p hoặc xác xuất của sự kiện không xuất hiện (thất bại) thì xác suất của r thành công trong n phép thử được tính như sau:

P(r) = ( nCr )( P)r (q)n-r [3-21]

Cho r= 0,1,2,...,n

Ký hiệu (( nCr ) nghĩa là ta lấy ngẫu nhiên ra r phần tử (r n) sao cho 2 cách lấy được gọi là khác nhau nếu giữa chúng có ít nhất một phần tử khác nhau. Số cách lấy ra r phần tử như vậy được gọi là tổ hợp chập r của n.

43

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 3.7:

Một chuyên gia môi trường dựa trên kinh nghiệm cho rằng 80% cây giống có khả năng sống sau khi trồng. Nếu lấy ngẫu nhiên 6 cây giống từ khu vực trồng cây, cho biết xác suất có thể lấy để có 2 cây sống.

Giải:

Với p=0,80 và q=1-p=0,20, vì vậy xác suất lấy mẫu có 2 cây sống sau khi trồng sẽ được xác định như sau:

Vì xác suất sống của 2 cây giống sau khi trồng với cách lấy ngẫu nhiên 6 cây sẽ là 0,01536. Xác xuất cho các khả năng khác xảy ra đựợc trình bày ở Bảng 3.4. Giá trị xác suất cũng có thể có được từ bảng nhị thức chung ở Bảng phụ lục A.

Phân bố nhị thức được sử dụng trong trường hợp khi muốn xác định xác suất xảy ra một cách độc lập, nghĩa là sự xảy ra của bất kỳ một phép thử hoặc nhiều phép thử này không ảnh hưởng đến việc xảy ra của các phép thử tiếp theo; và với mỗi phép thử sẽ có 2 khả năng xảy ra.

Bảng 3.4 Phân bố xác suất cho số lượng các cây giống sống sót sau khi trồng

Số lượng các cây giống sống Xác suất

0

1

2

3

4

5

6

Tổng

0,00006

0,00156

0,01536

0,08192

0,24576

0,39322

0,26214

1,00000

44

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Phân bố thường (Normal distribution): Phân bố thường cũng là một trong những phân bố xác suất liên tục rất phổ biến. Được gọi là phân bố thường vì nó sấp xỉ với các biến ngẫu nhiên có số lượng lớn. Phân bố này được áp dụng trong nhiều tình huống khác nhau và là trung tâm của nhiều vấn đề thống kê.

Phương trình phân bố mật độ của nó được biểu diến dưới dạng hình chuông đối xứng, tiếp cận (tiệm cận) nhưng không cắt trục hoành.

Đường cong thường được xác định bởi số trung bình (mean) và độ lệch chuẩn (standard deviation) của nó. Chúng là những đặc tính quan trọng của đường cong thường vì ta có thể tính được toàn bộ sự phân bố dựa trên giá trị trung bình và độ lệch chuẩn.

Có 3 dạng đường phân bố thường với cùng một số trung bình nhưng khác nhau về độ lệch chuẩn. Cần chú ý rằng trong những trường hợp riêng biệt, độ lệch chuẩn có ảnh hưởng đến dạng chung của đường cong phân bố thường.

Ba đường cong có kích thước khác nhau nhưng chúng đều có mối liên hệ chung tương đối nào đó. Trước hết, tổng diện tích dưới đường cong phân bố liên tục là bằng 1. Thứ hai, mỗi đường cong có một nửa diện tích lớn hơn giá trị trung bình và một nửa nhỏ hơn giá trị trung bình (được phân chia bằng đường thẳng đứng chính diểm giữa trên cơ sở đường trục hoành). Thứ ba, giá trị của khoảng dao động X từ - đến +. Tuy nhiên với mục đích thực tế ta không cần quan tâm đến giá trị X nằm ngoài 3 hoặc 4 lần độ lệch từ giá trị trung bình. Đây là kinh nghiệm và chỉ được áp dụng cho mẫu có phân bố tần suất dạng hình chuông. Với qui tắc này, sấp xỉ 68; 95 và 99% các giá trị nằm trong vùng tương ứng với 1, 2,và 3.

- Đường cong tiêu chuẩn thông thường (Standard normal curve): Đường cong tiêu chuẩn thông thường là chúng có số trung bình bằng 0 và độ lệch chuẩn bằng 1. Vì các biến phân bố thông thường có thể các thứ nguyên (đơn vị đo lường) khác nhau như cm, kg, giờ, ngày... nên để thuận tiện ta chuyển đổi các giá trị này thành đơn vị chuẩn gọi là độ lệch tiêu chuẩn thường (Standard normal deviate).

45

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Độ lệch thường z là khoảng cách cho thấy khả năng một biến ngẫu nhiên thường từ giá trị x từ số trung bình của nó. Độ lệch Z được tính theo công thức:

Z = (x- ) / [3-12]

Trong đó X = giá trị quan trắc

= số trung bình của phân bố

= Độ lệch chuẩn của phân bố

Để mô tả điều này, ta biểu diễn bằng diện tích. Giả sử rằng sản xuất sữa trung bình hàng ngày từ một con bò có phân bố thường là 65 lít với độ lệch chuẩn là 15 lit. Giả sử có một giá trị quan trắc được là 87. Hãy tính độ lệch Z từ giá trị trung bình.

Để tính Z ta có:

Z = (x- ) / = (87 – 65) / 15 = 1,47

Giá trị 87 nằm lệch 1,47 về phía phải số trung bình là 65. Để tìm diện tích cho z=1,47 ta sử dụng Bảng phụ lục B; tra cột 1.4 ở phụ lục B và hàng 0,07. Diện tích dưới đường cong được tìm thấy ở chỗ cắt nhau giữa cột và hàng trên là 0,4292. Con số này cho biết có 42,92% diện tích dưới đường cong sẽ xác định sự phân bố mức sản xuất sữa hàng ngày của bò.

Vì đường cong phân bố thường là đối xứng, do vậy giá trị bảng phụ lục chỉ xác định một nửa của đường cong.

Ví dụ 3.8:

Một nhà nông học xác định mức tăng sinh khối khô của một loại cây trồng là 10g với độ lệch chuẩn là 2 gam. Hãy xác định tỷ lệ sinh khối khô giữa 10 và 14 gam.

Giải

46

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Phần diện tích sinh khối giữa 10 và 14 g chính là diện tích nằm dưới đường cong thường giữa giá trị trung bình và một điểm lớn hơn gía trị trung bình . Giá trị Z được tính như sau:

Z = (14 – 10) / 2 = 2

Sử dụng phụ lục B để xác định diện tích dưới đường cong với z=+2, ta có giá trị 0,4772. Ta có thể nói rằng 47,72% phần diện tích trong phân bố thường nằm giữa giá trị trungbình và giá trị của 2 lần độ lệch chuẩn về phía bên phải (lớn hơn giá trị trung bình).

Ta kết luận rằng 0,4772 là tỷ lệ của sinh khối khô giữa 10 và 14 gam.

Ví dụ 3.9:

Một nhà làm vườn muốn tăng cường thời gian giữ cho hoa tươi bằng cách nhân giống. Từ một mẫu phân bố thường, đã xác định được thời gian giữ cho hoa tươi là 168 gìơ (=168) với độ lệch chuẩn là 30 giờ. Hãy xác định tỷ lệ để có hoa tươi trong khoảng 192-216 giờ.

Giải;

Tính Z cho 192 giờ: Z = (192 – 168) / 30 = 0,80

Tính Z cho 216 giờ: Z = (216 – 168) / 30 = 1,60

Diện tích cho mỗi giá trị Z trên sẽ là:

Z=1,60 diện tích là 0,4452

Z=0,80 diện tích là 0,2881

Xác suất được xác định là hiệu của hai diện tích xác định được ở trên và có giá trị là 0,1571.

Ví dụ 3.10:

Trên cơ sở các số liệu ở ví dụ 3.9; hãy xác định xác suất của hoa có thời gian tươi sau khi cắt khoảng 144-204 giờ.

Giải47

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Với 144 giờ ta có:

Z= (144-168) / 30= -0,8

Với 204 giờ, ta có:

Z= (204-168) / 30= 1,20

Diện tích cho các giá trị Z sẽ là:

Z = -0,8 diện tích là 0,2881

Z = 1,20 diện tích là 0,3849

Xác suất hoa tươi sau khi cắt nằm trong khoảng 144-204 giờ sẽ là tổng của 2 diện tích trên hay bằng 0,6730.

Ví dụ 3.11:

Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi cắt 240 giờ.

Giải:

Tính Z cho 240 giờ

Z= (240-168) / 30=2,4

Với z=2,4 diện tích nhỏ hơn đường cong trung bình là 0,4918. Vì vậy, nếu 0,4918 là diện tích giữa 168 và 240 giờ, diện tích nằm ngoài 240 giờ là sự khác biệt giữa 0,5000 (tổng diện tích nằm phía bên phải giá trị trung bình) và 0,4918. Xác suất hoa còn tươi sau 240 giờ là 0,0082 (Hình 3.12).

Ví dụ 3.12:

Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi cắt 192 giờ (hình 3.13).

Giải:

Tính Z cho 192 giờ

Z= (192-168) / 30=0,8048

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Diện tích nhỏ hơn giá trị trung bình 168 tương ứng với 0,5000 và diện tích cho z =0,80 sẽ là 0,2881. Vì vậy, xác suất sẽ là tổng của 2 vùng tương ứng với 0,7881.

Ví dụ 3.13:

Chúng ta có thể đặt câu hỏi là xác định xác suất của hoa tươi trên 120 giờ sau khi cắt như được mô tả ở Hình 3.14.

Giải:

Với thời gian 120 giờ, ta có giá trị Z như sau:

Z=(120-168) / 30=-1,6

Diện tích lớn hơn 168 sẽ tương ưứng với 0,5000 và diện tích cho Z=-1,6 là 0,4452. Vì vậy xác suất hoa còn tươi sau khi cắt 120 giờ sẽ là tổng của 2 diện tích trên, tương ứng với 0,9452.

CHƯƠNG 4. GIỚI THIỆU VỀ CÁC KHÁI NIỆM LẤY MẪU

4.1. Giới thiệu chung

Trong nghiên cứu về môi trường cũng như khoa học nông nghiệp, việc thu thập các số liệu để phân tích một vấn đề đòi hỏi phải lựa chọn những mẫu đại diện cho các lĩnh vực nghiên cứu khác nhau. Từ đó có thể đưa ra những đặc trưng chung cho một tổng thể nào đó. Việc thu thập mẫu thường chỉ chiếm phần nhỏ trong một tổng thể rất lớn, do vậy việc lựa chọn và lấy mẫu có ý nghĩa rất quan trọng đặc trưng cho tổng thể.

49

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Việc lấy mẫu chính xác có nhiều lợi ích trong quá trình nghiên cứu.

- Giảm thời gian, tiền bạc và các nguồn tài nguyên cần thu thập

- Hạn chế việc gây ảnh hưởng đến tự nhiên do quá trình lấy mẫu gây ra

- Có thể cung cấp những thông tin cần thiết đại diện cho một tổng thể cần nghiên cứu.

4.2. Các khái niệm về lấy mẫu đại diện

- Tổng thể (population):

Một tổng thể được xác định là toàn thể một nhóm các cá thể, các vật hoặc sự kiện có ít nhất một đặc điểm chung nào đó mà ta cần nghiên cứu. Ví dụ một nhà khoa học chăn nuôi có thể chú ý đến toàn bộ các cá thể sinh vật trong một quần thể. Nhà khoa hoc môi trường có thể chú ý đến quần thể cá heo, nhà nông học có thể quan tâm đến quần thể một giống lúa, nhà kinh tế nông nghiệp nói về các nông dân sản xuất lúa mì.

Một tổng thể có thể có hạn hoặc vô hạn. Một tổng thể có hạn sẽ có một giới hạn trên chính xác, trong khi một tổng thể vô hạn sẽ không bị hạn chế về kích cỡ của nó.

-Tham số (parameter):

Tham số là sự ước lượng một hoặc nhiều tính chất của một tổng thể, Nếu chúng ta tập hợp thông tin về thu nhập của người nông dân hàng năm là một tham số cho một nhóm nông dân xác định nào đó.

Cần chú ý rằng điều này chỉ có thể xáy ra khi thời gian và sự chi phí hàng năm sẽ là ổn định. Do vậy, hầu hết các thông số đều là ước lượng hoặc suy luận.

-Mẫu (sample):

Một mẫu được khái niệm là một phần nhỏ của tổng thể được lấy ra theo một qui tắc hoặc kế hoạch nào đó. Ví dụ một nhà làm vườn trồng 500 cây hoa trong một nhà kính. Nếu ta lấy 50; 25 hoặc 10 cây hoa trong số đó ta có một mẫu. Vì vậy một

50

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

mẫu là một phần của tổng thể. Ngay cả khi ta lấy 499 cây hoa thì đó cũng chỉ là một mẫu. Chỉ khi lấy cả 500 cây hoa thì lúc đó ta nghiên cứu một tổng thể.

Bởi vì tiếp cận với mẫu là dễ dàng hơn tổng thể nên thông thường các nghiên cứu được thực hiện với mẫu rồi từ đó chúng ta sẽ suy luận cho tổng thể.

-Thống kê (statistic):

Thống kê bao gồm các đặc điểm của một mẫu đã được xác định. Ví dụ một nhà làm vườn lựa chọn 50 cây hoa phong lan, đo đạc kích thước của bông hoa mới nở và tính kích thước trung bình của chúng. Kết qủa tính toán này được gọi là một phép thống kê. Thống kê suy luận là phương pháp dự báo các tham số chưa biết từ phép thống kê đã biết.

4.3. Kỹ thuật lấy mẫu trong khoa học nông nghiệp và môi trường

Yêu cầu lấy mẫu phải đại diện cho một tổng thể nghiên cứu. Về cơ bản có 2 phương pháp lấy mẫu là lấy mẫu xác suất và lấy mẫu theo chủ định (không theo xác suất). Trong lấy mẫu xác suất, tất cả các phần tử trong tổng thể nghiên cứu có cơ hội ngang nhau để lựa chọn. Lấy mẫu không ngẫu nhiên (không theo xác suất) dựa trên những đánh giá, quy ước nào đó để lựa chọn lấy mẫu.

4.3.1. Lấy mẫu xác suất

- Lấy mẫu ngẫu nhiên đơn giản: Đây là phươngpháp lẫy mẫu phổ biến thường được áp dụng. Theo cách lấy mẫu này, mọi phần tử đều có cơ hội ngang nhau để được lựa chọn. Ví dụ: Một tổng thể (N) bao gồm 50 cây ngô trong một thí nghiệm, người nghiên cứu muốn lấy 20 cây để phân tích mô thì mọi cây ngô đều có thể được lựa chọn để lấy mẫu. Sau khi trộn cẩn thận, cây ngô thứ nhất được lấy, rồi cây thứ hai, thứ ba,... cho đến cây ngô thứ 20.

Để thuận tiện hơn, người ta sử dụng kỹ thuật đánh số ngẫu nhiên theo các bước sau:

+Bước 1. Mỗi cây được đánh số thứ tự từ 01 đến 50 một cách ngẫu nhiên.

+Bước 2. Chọn ngẫu nhiên (theo bảng kê ngẫu nhiên) theo một cách tuỳ ý

51

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

+Bước 3. Lấy các cây ngô được đánh số đã dược lựa chọn ở bước 2 ta có mẫu nghiên cứu.

-Lấy mẫu hệ thống:

Việc lấy mẫu ngẫu nhiên đơn giản như trình bày ở trên sẽ gặp khó khăn khi số lượng mẫu lớn hoặc trong một tổng thể lớn. Trong trường hợp này có thể áp dụng kỹ thuật lấy mẫu hệ thống hay còn gọi là lấy mẫu ngẫu nhiên đa bậc (Gomez, 1984) bằng cách nhóm mỗi mười, hai mươi phần tử trong tổng thể thành một nhóm.

Ví dụ: Một nhà nghiên cứu muốn lấy mẫu ngẫu nhiên n=400 con bò từ một tổng thể N=1600 con bò để nghiên cứu. Giả sử tổng thể đàn bò được phân bố một cách ngẫu nhiên. Việc lấy mẫu được thực hiện bằng cách nhóm mỗi bốn con bò thành một nhóm (vì 1600:400=4). Sau đó việc lựa chọn theo từng nhóm để được 4, 8, 12, 16, ... cho dến khi có 400 con bò.

- Lấy mẫu theo lớp: Trong kỹ thuật lấy mẫu này tổng thể được chia thành k lớp hoặc dưới tổng thể trước khi lựa chọn một cách ngẫu nhiên các phần tử từ các lớp. Việc lấy mẫu này rất phù hợp khi có sự sai khác nào đó giữa các lớp. Trong trường hợp này người nghiên cứu cố gắng gộp các phần tử có tính chất khác nhau vào các lớp khác nhau.

Ví dụ: Một nhà chăn nuôi muốn gộp mẫu ngẫu nhiên dựa vào tuổi của động vật làm cơ sở cho sự khác nhau giữa chúng. Kết quả sẽ được các nhóm có lứa tuổi khác nhau hay gọi là các lớp khác nhau. Sau đó cộng các nhóm từ mỗi lớp tuổi như là việc lấy mẫu theo lớp.

Hoặc một nhà nông học có thể chia các lớp một ruộng thí nghiệm trên cơ sở lượng phân bón, sau đó sẽ lấy mẫu cây từ mỗi ô bón phân khác nhau để xác định năng suất. Trong nghiên cứu nông nghiệp, việc lấy mẫu theo lớp cũng tương ứng với việc thiết kế thí nghiệm theo khối.

Việc lấy mẫu theo lớp có nhiều lợi ích như bảo đảm độ chính xác với sự sai khác nhỏ hơn so với lấy mẫu ngẫu nhiên đơn giản. Bảo đảm tính đồng nhất của mẫu

52

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

cao hơn so với tổng thể trong khi chi phí có thể ít hơn. Trong khoa học nông nghiệp và môi trường, các nhà khoa học sử dụng nhiều cách khác nhau để lấy mẫu theo lớp.

Ví dụ: một nhà nghiên cứu ngô có thể sử dụng cách lấy mẫu theo lớp để xác định số bắp trung bình trên cây như sau:

Các hàng ngô trong ruộng thí nghiệm sẽ được sử dụng như những đơn vị lấy mẫu thứ nhất, các cây ngô trong mỗi hàng là đơn vị lấy mẫu thứ hai. Nghĩa là chúng ta chia các cây ngô ở mỗi hàng được lựa chọn thành k lớp dựa vào vị trí tương đối của chúng trong hàng, sau dó lấy ngẫu nhiên m cây từ mỗi lớp.

Giả sử rằng các cây ngô ở mỗi hàng được lựa chọn được chia thành 2 lớp (lớp thấp và lớp cao) rồi chọn một cách ngẫu nhiên 5 cây ngô từ mỗi lớp. Tổng số cây ngô sẽ dược lấy ở 3 hàng lựa chọn là:

(A)(B)(C) =S

Trong dó

A: Lớp (stratum)

B: Kích thước mẫu muốn lấy từ mỗi lớp

C: Tổng số hàng dược lựa chọn ngẫu nhiên

S: Tổng số cây sẽ được lấy

Với thí nghiệm trên ta có:

(2)(5)(3) = 30 cây

4.3.2. Lấy mẫu không theo xác suất

Trong cách lấy mẫu này, các phần tử trong tổng thể sẽ không có cơ hội ngang nhau trong khi lựa chọn do hạn chế về tài chính hoặc hạn chế của mẫu. Những cách lấy mẫu thường gặp ở đây là lấy mẫu theo chủ ý, lấy mẫu theo tỷ lệ và lấy mẫu thích hợp.

53

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Lấy mẫu chủ ý: Việc lấy mẫu phụ thuộc vào chủ ý của người nghiên cứu. Ví dụ một công ty máy kéo sử dụng cách lấy mẫu này làm cơ sở để xác định thói quen mua và sử dụng máy kéo. Người nghiên cứu sẽ lựa chọn những người nông dân được cho là đại diện cho tất cả mọi người nông dân, sau đó sẽ thu thập các thông tin cần thiết cho việc phân tích của họ.

- Lấy mẫu theo tỷ lệ: Trong kỹ thuật lấy mẫu này tính chất tổng thể lớn có vai trò quan trọng trong việc lựa chọn mẫu. Ví dụ, một nhà khoa học chăn nuôi theo dõi sự biến động sản lượng sữa hàng ngày ở các tuổi khác nhau. Như vậy dặc điẻm cơ bản quan trọng để lựa chọn là các nhóm tuổi khác nhau. Ví dụ: Nếu 30% số bò có tuổi 4-6 năm và 70% còn lại là 6-8 năm tuổi, thì chỉ tiêu lấy mẫu phải tương ứng với tỷ lệ phần trăm này.

- Lấy mẫu thích hợp: Lấy mẫu phụ thuộc vào kinh phí, thời gian và sự cho phép. Cách lấy mẫu này chỉ được sử dụng trong những trường hợp đặc biệt và không nên sử dụng để suy doán cho tổng thể.

Nhìn chung lấy mẫu không ngẫu nhiên thường có sự dao động lớn so với lấy mẫu ngẫu nhiên nên ít được sử dụng trong nghiên cứu.

4.4. Phân bố mẫu (sampling distribution)

Phân bố mẫu được hiểu là sự phân bố tần xuất cho xác suất cho tất cả các khả năng của các mẫu có kích thước như nhau dược lấy ra từ một tổng thể.

Vì các số liệu thống kê từ mẫu được sử dụng để đặc trưng cho tổng thể nên sự phân bố mẫu trong tổng thể có ý nghĩa rất quan trọng. Vì phân bố mẫu cũng là phân bố xác suất nên dựa vào vấn đề này sẽ giúp chúng ta có những quyết định tốt hơn khi lấy mẫu.

Phân bố mẫu có thể được xây dựng từ một tổng thể riêng biệt có hạn. Có 3 tính chất quan trọng của một phân bố mẫu là:

1. Số trung bình của phân bố

2. Độ lệch chuẩn

54

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3. Dạng phương trình hoặc mô hình phân bố

Phân bố mẫu của số trung bình: Như trên đã trình bày, số trung bình mẫu và các tính chất khác của mẫu được sử dụng để suy luận cho tính chất của tổng thể.

Tuy nhiên trên thực tế, các số trung bình của mẫu thường ít khi ngang bằng vơi số trung bình của tổng thể mà chỉ có giá trị xấp xỉ. Chính vì vậy khi tiếp cận lấy mẫu thường gặp nhiều khó khăn. Nếu lấy mẫu có xem xét đến tất cả khả năng kết hợp và tính giá trị trung bình và sự biến định thì rất khó khăn và mất nhiều thời gian. Do vậy ta thường sử dụng phân bố mẫu để suy luận về tổng thể nghiên cứu. Vì phân bố mẫu của số trung bình là một phân bố thường ta có thể sử dụng tỉ lệ % theo đường cong thường từ bảng trị số chuẩn hoá Z (Z score).

Những ví dụ sau đây sẽ mô tả mối liên hệ giữa số trung bình và sự biến động của phân bố mẫu với số trung bình và sự biến động tổng thể. Chúng ta có thể nhận thấy số trung bình phân bố mẫu cũng chính là số trung bình tổng thể. Hơn nữa nó cũng cho thấy sự phân bố mẫu của số trung bình cũng xấp xỉ với đường cong chuẩn.

Ví dụ 4.1.

Giả sử chúng ta có 5 con lợn, nếu ta chọn 2 con để làm thí nghiệm. Biến ngẫu nhiên cần nghiên cứu (x) là khối lượng (kg) của lợn, với các số liệu sau:

x1 = 50, x2 = 45, x3 = 50, x4 = 45 và x5 = 40

Giải:

Trước hết ta tính giá trị trung bình số học cho tổng thể gồm 5 con lợn là:

Bây giờ giả sử ta chỉ chọn hai con lợn bất kì trong chúng thì giá trị trung bình của chúng sẽ sai khác thế nào với giá trị trung bình của tổng thể.

Bây giờ ta xây dựng phân bố mẫu của số trung bình và tính số trung bình của chúng.

55

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Như vậy sẽ có 10 khả năng kết hợp để có thể chọn được 2 con lợn từ tổng thể. Bảng 4.2 cho biết các cách kết hợp và số trung bình của chúng.

Bảng 4.2. Số trung bình mẫu cho tất cả các khả năng lấy mẫu với 2 con lợn

Mẫu Giá trị kết hợp mẫu

Tổng

∑ X

Trung bình mẫu

x1x2

x1x3

x1x4

x1x5

x2x3

x2x4

x2x5

x3x4

x3x5

x4x5

50

50

50

50

45

45

45

50

50

45

45

50

45

40

50

45

40

45

40

40

95

100

95

90

95

90

85

95

90

85

47,5

50,0

47,5

45,0

47,5

45,0

42,5

47,5

45,0

42,5

Từ Bảng 4.2 ta thấy giá trị trung bình có thể của tất các số trung bình mẫu sẽ hướng tới số trung bình tổng thể. Nghĩa là số trung bình của phân bố mẫu (cột 4 Bảng 4.2) là giống với số trung bình tổng thể (46) được tính ở trên. Vì các số trung bình mẫu có tần số xuất hiện khác nhau, sự phân bố mẫu sẽ không có ý nghĩa gì nhưng phân bố xác suất lại rất có ý nghĩa (Bảng 4.3).

Bảng 4.3 Phân bố xác suất của các số trung bình mẫu

Số trung bình mẫu Tần suất (f ) Xác suất

56

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

( ) (f)

42,5

45,0

47,5

50,0

Tổng

2

3

4

1

10

85

135

190

50

460

2/10 = 0,20

3/10 = 0,30

4/10 = 0,40

1/10 = 0,10

10/10 = 1,00

Số trung bình của phân bố mẫu được xác định bằng cách cộng tất cả các số trung bình mẫu rồi chia cho số khả năng lấy mẫu:

Khối lượng trung bình của lợn trong phân bố mẫu của số trung bình là 46kg. Vì vậy chúng ta có thể nói rằng µ =µ hay số trung bình của phân bố mẫu là bằng số trung bình tổng thể.

Câu hỏi đặt ra là liệu µ có luôn luôn bằng với µ ? Khi tính số trung bình phân bố mẫu chúng ta lấy tất cả các khả năng kết hợp mẫu để tính và do vậy không có sự sai khác với số trung bình tổng thể. Tuy nhiên trên thực tế, các nghiên cứu thường không tính cho tất cả các cách kết hợp nên liệu số trung bình mẫu có gần trùng với số trung bình tổng thể hay không vẫn còn là một câu hỏi.

Câu trả lời ở đây là có vì với kết quả của các thí nghiệm được lặp lại, các kết quả xử lí thống kê đã chứng minh rằng số trung bình phân bố mẫu luôn hướng tới số trung bình tổng thể.

- Độ lệch chuẩn của phân bố của số trung bình mẫu

Để xác định khoảng trong đó số trung bình mẫu dao động so với số trung bình tổng thể ta sử dụng phương pháp xác định mức độ phân tán chẳng hạn như độ lệch chuẩn. Trong trường hợp phân bố trung bình mẫu, ta cũng chú ý đến độ lệch của số trung bình mẫu từ số trung bình phân bố mẫu. Độ lệch chuẩn của phân bố

57

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

mẫu được thể hiện như sai số chuẩn của số trung bình (standard error of the mean). Điều đó cho ta biết độ chính xác của phép ước lượng. Khi sai số chuẩn càng lớn thì độ chính xác ước lượng càng nhỏ.

Cách tính độ lệch chuẩn của số trung bình được trình bày ở ví dụ 4.1. Cách tính sai số chuẩn của số trung bình cũng tương tự cách tính các độ lệch chuẩn khác

Vì thực tế ta không lấy tất cả các khả năng kết hợp của mẫu trong một tổng thể, vì vậy ta áp dụng công thức tính sai số chuẩn của số trung bình:

Trong đó: = sai số chuẩn của số trung bình.

σ = độ lệch chuẩn của tổng thể

n = kích (cỡ) mẫu

Công thức trên được sử dụng để tính sai số chuẩn của số trung bình cho tổng thể vô hạn. Tuy nhiên trong trường hợp một tổng thể có hạn chúng ta áp dụng công thức có tính đến các yếu tố hiệu chỉnh như sau:

Trong đó σ = Độ lệch chuẩn tổng thể

N = kích thước tổng thể

n = kích thước mẫu

= yếu tố hiệu chỉnh cho tổng thể giới hạn

58

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Yếu tố hiệu chỉnh độ chính xác là giá trị sấp sỉ 1 khi kích thước tổng thể N là tương đối lớn so với kích thước mẫu n. Điều này có nghĩa là khi kích thước mẫu n được lấy từ một tổng thể rất lớn (nhưng có giới hạn) thì sai số chuẩn của số trung bình sẽ bằng Trong thực tế, yếu tố hiệu chỉnh của một tổng thể có hạn được áp dụng cả khi n nhỏ hơn 10% của N.

Cần chú ý rằng phương trình trên đòi hỏi phải biết được độ lệch chuẩn của tổng thể. Từ số liệu đã cho ở ví dụ 4.1 ta có thể tính độ lệch chuẩn của tổng thể như được trình bày ở chương 2 (mục 2.4)

Trong ví dụ này ta có một tổng thể tới hạn nên ta áp dụng yếu tố hiệu chỉnh. Do vậy sai số chỉnh cho dãy số liệu này là:

Từ ví dụ này cho thấy cách tính sai số chuẩn của số trung bình bằng hai phương pháp là như nhau. Cần lưu ý rằng độ lệch chuẩn của tổng thể sẽ không bằng độ lệch chuẩn của phân bố trung bình mẫu. Tuy nhiên độ lệch chuẩn của phân bố mẫu lại bằng độ lệch chuẩn của tổng thể chia cho căn bậc hai của mẫu. Nghĩa là:

Phương trình này chỉ rõ hai mối quan hệ tồn tại giữa sai số chuẩn và kích thước mẫu. Trước hết khi cỡ mẫu tăng thì sai số chuẩn sẽ giảm đi. Thứ hai, ta có thể xác định sai số chuẩn của phân bố trung bình mẫu khi đã biết độ lệch chuẩn tổng thể (σ), kích thước mẫu (n) và kích thước tổng thể (N). Khi không biết được độ lệch chuẩn tổng thể, thì sẽ sử dụng các giá trị của độ lệch chuẩn mẫu (hoặc nhiều mẫu)

59

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

như số sấp sỉ cho độ lệch chuẩn tổng thể. Ta có công thức tính độ lệch chuẩn tổng thể như sau:

Có rất nhiều quan trắc có thể sử dụng phân bố trung bình mẫu và tổng thể:

1. Số trung bình tổng thể và phân bố trung bình mẫu của các số trung bình là bằng nhau. Điều này luôn luôn đúng khi tất cả các khả năng lấy mẫu đều được lấy từ tổng thể.

2. Sự phân tán của phân bố trung bình mẫu là nhỏ hơn sự phân tán trong tổng thể. Như ví dụ ở bảng 4.2 các giá trị của tổng thể dao động từ 40 đến 50 kg, trong khi các số trung bình mẫu dao động từ 42,5 đến 50 kg.

3. Sơ đồ phân bố trung bình mẫu có xu hướng gần với đường cong chuẩn thậm chí ngay khi tổng thể không có phân bố chuẩn.

Cần chú ý rằng mặc dù tấn suất tương đối của các giá trị riêng rẽ của X là bằng nhau, và do vậy phân bố tần suất tương đối bằng phẳng. Sự phân bố của các trung bình mẫu lại ít nhiều có dạng hình chuông. Điểm quan trọng cần ghi nhớ là dù tổng thể có phân bố chuẩn hay không thì phân bố trung bình mẫu cũng có xu hướng xấp xỉ với đường cong chuẩn thông thường. Điều này có liên quan trực tiếp với định lí giới hạn trung tâm, nghĩa là khi mẫu có kích thước n đủ lớn thì phân bố trung bình mẫu sẽ hướng tới một phân bố chuẩn.

Vấn đề là kích thước mẫu như thế nào thì được xem là đủ lớn. Trong thống kê được sử dụng ở đây, khi kích thước mẫu là 30 sẽ được coi là đủ lớn để có thể giả thiết rằng phân bố trung bình mẫu là chuẩn. Định lí giới hạn trung tâm cung cấp cho ta một khuôn khổ cho phép ước lượng thống kê.

- Phân bố mẫu của tỉ lệ %:

Trong khoa học môi trường và nông nghiệp thường gặp các ước lượng theo tỉ lệ %. Ví dụ một nhà nông học quan tâm đến tỉ lệ % tăng năng suất của một giống

60

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

cây mới; một kĩ sư cơ khí nông nghiệp muốn ước lượng tỉ lệ % các chi tiết hỏng hóc của một loại máy được sản xuất ra. Một nhà kinh tế nông nghiệp quan tâm đến tỉ lệ % nông dân được hưởng trợ cấp. Một nhà môi trường muốn ước lượng tỉ lệ % của một loài cây gỗ trong một khu rừng.

Trong phần này ta xét về khái niệm phân bố mẫu theo tỉ lệ % và phương pháp ước lượng tỉ lệ % tổng thể từ một mẫu.

Tỷ lệ phần trăm của tổng thể được kí hiệu là và tỉ lệ % của mẫu được kí hiệu là P. Ta có:

Trong đó: X = số lần xuất hiện cần xét

N = kích thước tổng thể

x = số lần xuất hiện cần xét của mẫu

n = kích thước mẫu

Phân bố mẫu của tỉ lệ % được xác định là sự phân bố % của tất cả các khả năng mẫu khi mỗi mẫu được lấy một cách ngẫu nhiên với kích thước cố định là n.

Mô hình phân bố mẫu của tỉ lệ % là phân bố nhị thức có dạng xấp xỉ với đường cong thường. Chương 3 đã đề cập phân bố nhị thức có xu hướng gần với dạng hình chuông khi kích thước mẫu (n) đủ lớn. Điều này có nghĩa là với kích thước mẫu lớn, phân bố nhị thức sẽ tiếp cận với dạng đường cong thường. Dựa trên thực tế này, ta có thể tích xác suất của các giá trị có thể của một mẫu thống kê nếu biết tỉ lệ % của tổng thể. Ví dụ, ta có thể nói rằng 68,3% cơ hội (% mẫu) sẽ nằm trong phạm vi một lần độ lệch chuẩn (σp) của % tổng thể (); 95,4% cơ hội % mẫu

61

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

nằm trong phạm vi 2 lần độ lệch chuẩn , và xấp xỉ 99,7% cơ hội mà tỉ lệ % mẫu nằm trong phạm vi 3 lần độ lệch chuẩn của % tổng thể.

Số trung bình của phân bố mẫu của tỉ lệ % được biểu diễn dưới dạng:

Trong đó ∑p = Tổng của các % mẫu

nCr = Số lần kết hợp mẫu

Phân bố tỉ lệ % mẫu có số trung bình (µp) bằng với số trung bình của tổng thể ().

Ví dụ 4.2:

Một nhà khoa học chăn nuôi nghiên cứu về mức sản xuất sữa của 3 con bò được chọn ngẫu nhiên trong tổng số 5 con bò để ước lượng tỉ lệ % thực của chúng có khả năng sản xuất 40 lít sữa trong 1 ngày. Kết quả sản xuất sữa của 5 con bò này như sau; hãy tính phân bố mẫu nghiên cứu.

STT Mức sản xuất sữa

(lít/ngày)

Sản xuất sữa trên 40 l/ngày

ABCDE

52

48

35

45

38

không

không

Ghi chú: X = 3 (số bò sản xuất trên 40 l sữa/ngày).

Giải

62

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Từ số liệu bảng trên cho thấy có 3 con bò sản xuất trên 40l sữa/ngày và 2 con bò sản xuất dưới 40l sữa/ngày. Ta có tỉ lệ % tông thể là:

Để xây dựng phân bố tỉ lệ % mẫu ta làm tương tự như xây dựng phân bố của số trung bình. Nghĩa là, trước hết cần phải xác định sự kết hợp mẫu, sau đó tính tỉ lệ %. Có 10 cách kết hợp lấy mẫu như trình bày Bảng 4.4.

Số trung bình của phân bố tỉ lệ % mẫu được tính như sau:

Như vậy số trung bình của phân bố tỉ lệ % mẫu cũng bằng số trung bình của tổng thể, hay

Bảng 4.4. Phân bố mẫu theo tỉ lệ %

Các cách kết hợp lấy mẫu

Số liệu mẫu Tỉ lệ % mẫu

A,B,C

A,B,D

A,B,E

A,C,D

A,C,E

A,D,E

B,C,D

B,C,E

B,D,E

có, có, không

có, có, có

có, có, không

có, không, có

có, không, không

có, có, không

có, không, có

có, không, không

có, có, không

0,667

1,000

0,667

0,667

0,333

0,667

0,667

0,333

0,667

63

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

C,D,E không, có, không 0,333

∑p = 6,000

- Độ lệch chuẩn phân bố phần trăm mẫu

Cũng tương tự như độ lệch chuẩn của phân bố số trung bình mẫu, độ lệch chuẩn của phân bố ngẫu nhiên của tỉ lệ % được gọi là sai số chuẩn % (standard error of the percentages). Tính độ lệch chuẩn này phụ thuộc vào tỉ lệ % tổng thể (), kích thước tổng thể (N) và kích thước mẫu (n). Với quần thể giới hạn, σ , ta có

Trong đó: = Tỉ lệ % tổng thể có đặc điểm nghiên cứu

100 - = Tổng thể không có đặc điểm nghiên cứu

n = Kích thước mẫu

N = Kích thước tổng thể

yếu tố hiệu đính tổng thể giới hạn

Với ví dụ 4.2 ta có :

Giả sử cũng với số liệu ở ví dụ 4.2 nhưng ta đặt vấn đề xác định những cơ hội để giá trị p nằm trong khoảng 5%.

Công thức để tính khoảng dao động là . Trong trường hợp này . Vì ta tính z như sau:

64

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Với Z = 0,24 ta có diện tích dưới đường cong chuẩn từ phụ lục B là 0,0948. Điều này có nghĩa là sai số chuẩn 0,0948 về cả hai phía của số trung bình tổng thể. Vì vậy, vùng chứa tỉ lệ % mẫu nằm trong phạm vi 5% của tỉ lệ % tổng thể sẽ là 18,9%.

Chương 5. ƯỚC LƯỢNG CÁC THAM SỐ

SỐ TRUNG BÌNH VÀ TỶ LỆ PHẦN TRĂM

5.1 Giới thiệu

Ở các chương trước ta đã đề cập đến vấn đề ước lượng các tham số cho tổng thể dựa trên các giá trị xác định được từ mẫu nghiên cứu. Để có thể suy luận từ các thông số của mẫu thành các đặc trưng của tổng thể chúng ta phải sử dụng phương pháp thống kê suy luận. Phương pháp thống kê suy luận bao gồm hai bước khác nhau. Trước hết cần phải ước lượng các tham số, sau đó phải tiến hành kiểm định mức độ tin cậy của kết luận đưa ra, Ví dụ, một hãng hóa chất nông nghiệp muón dự báo só lượng hàng bán trong năm tới là bao nhiêu có thể tính theo giá trị tiền hoặc số sản phẩm bán ra. Hoặc một nhà khoa học lâm nghiệp muốn xác định xem tốc độ tăng chiều cao trung bình hàng tuần của cây keo lai có nhanh hơn tốc độ tăng trung bình của cây thông hay không. Chúng ta phải tiến hành thí nghiệm quan trắc các số liệu về mức độ tăng trưởng của các loại cây này, dùng phương pháp thống kê mô tả để ước lượng các tham số cần thiết của tậ hợp các số liệu quan trắc. Sau đó kiểm định các giả thiết đặt ra xem câu trả lời có tin cậy hay không dựa vào phương pháp thống kê suy luận.

5.2. Ước lượng điểm

Trong cách tiếp cận này ta chỉ cần ước lượng một giá trị nào đó cần quan tâm. Thông thường các nhà nghiên cứu chỉ lựa chọn một mẫu ngẫu nhiên từ tổng

65

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

thể, xác định giá trị trung bình mẫu rồi sử dụng kết quả này để dự báo cho số trung bình của tổng thể.

Ví dụ, một nghiên cứu trên 50 con bò của một giống nào đó cho thấy mức độ tiêu thụ thức ăn trung bình trong 365 ngày là 2.309 kg các chất dinh dưỡng tiêu hoá dược (TDN -total digestible nutrient). Đây là ước lượng điểm vì giá trị chỉ là một diểm của nhiều gía trị. Ước lượng này sẽ có ý nghĩa khi ta so sánh với các ước lượng điểm của các giống bò khác.

Tuy nhiên một thực tế là nếu chúng ta lấy mẫu gồm 105 con bò khác thì khối lượng thức ăn có thể sẽ có sự sai khác chứ không phải là 2.309 kg như kết quả nêu trên. Tuy nhiên chúng ta vẫn có thể nói rằng số ước lượng trungbình mẫu này là 2.309 kg vì luôn có một khoảng sai số khi ước lượng các tham số. Để có kết luận này chúng ta phải xác định trước một tham số chuẩn để chỉ ra rằng giá trị ước lượng vẫn nằm trong khoảng được chấp nhận.

5.3. Ước lượng khoảng (Interval estimation)

Ước lượng khoảng nhằm xác định một khoảng các giá trị mà giả thiết rằng chúng có chứa số trung bình thực, ta gọi là khoảng tin cậy (comfidence interval) giới hạn của khoảng ước lượng được gọi là giới hạn tin cậy (confidence limits).

Độ chính xác của số trung bình ước lượng được xác định bởi mức độ sai số của mẫu. Nhìn chung ước lượng khoảng khác với ước lượng tham số đặc trưng mẫu.

Giả sử rằng lượng thức ăn trung bình của bò trong ví dụ nêu trên nằm trong khoảng 2300-2320 kg. Khoảng ước lượng này được gọi là độ tin cậy (degree of confidence).

Ước lượng khoảng dựa trên định lý giới hạn trung tâm cho rằng khi kích thước mẫu tăng, phân bố trung bình mẫu sẽ gần với phân bố thông thường (normal distribution). Với phân bố thông thường theo kinh nghiệm (empirical rule) cho thấy:

Với một phân bố tần suất đối xứng hình chuông (phân bố thông thường xấp xỉ 68% các giá trị quan trắc sẽ nằm trong phạm vi một lần độ lệch chuẩn, khoảng 95% các giá trị quan trắc nằm trong phạm vi hai lần độ lệch chuẩn và

66

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

gần như tất cả các giá trị quan trắc (99,7%) nằm trong phạm vi ba lần độ lệch chuẩn xung quanh gía trị trung bình.

Để tính khoảng tin cậy (confidence interval) cho bất kỳ mức độ tin cậy nào, ta sử dụng phương trình:

Trong đó: = trung bình tổng thể

= trung bình mẫu

z= giá trị được xác định liên quan với ước lượng khoảng

= sai số chuẩn của số trung bình

Nhìn chung mức độ tin cậy càng rộng thì càng chắc chắn rằng số trung bình sẽ nằm trong vùng ước lượng. Tuy nhiên, khi tăng mức độ tin cậy cũng đồng thời tăng độ rộng của khoảng ước lượng. Do vậy giá trị ước lượng sẽ giảm chính xác. Bảng 5.1 Cho biết quan hệ giữa mức tin cậy và độ rộng của khoảng ước lượng.

Bảng 5.1, Mức độ tin cậy và khoảng ước lượng với kích thước mẫu lớn

Mức tin cậy (%)

Giá trị z Độ rộng khoảng ước lượng

90 1,64

95 1,96

99 2,57

5.4. Ước lượng trung bình tổng thể khi đã biết sai số chuẩn

Để ước lượng khoảng tin cậy như ở phương trình 5.1 ta cần phải tính sai số chuẩn . Để tính chúng ta phải biết được độ lệch chuẩn của tổng thể. Nếu biết

ta chỉ cần thay các giá trị độ lệch chuẩn tổng thể vào phương trình để tính.

67

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 5.1. Để xác định sản lượng thóc thu được, người ta xác định năng suất trung bình ở 10 khoảnh ruộng khác nhau (50 m2 cho một khoảnh) là 35 tạ/ha. Giả sử với độ lệch chuẩn của tổng thể là 4,5 tạ/ha:

a/ Tính khoảng tin cậy ở mức 95%

b/ Cho biết ý nghĩa của kết quả thu được

Giải:

1/ Tính các giá trị theo công thức:

Bước 1:

(tạ/ha)

Bước 2: Có 95% số khoảnh ruộng có năng suất trung bình nằm trong khoảng 34,118 và 35,882 và khoảng 5% số khoảnh có năng suất trung bình nằm ngoài khoảng tin cậy trên.

5.5. Ước lượng số trung bình tổng thể khi không biết sai số chuẩn

Trong nhiều trường hợp rất khó xác định gía trị trung bình tổng thể và độ lệch chuẩn. Khi đó, ta sử dụng độ lệch chuẩn mẫu để ước lượng khoảng:

Sai số chuẩn ở công thức [5-1] được xác định nhờ thay thế độ lệch chuẩn tổng thể bằng độ lệch chuẩn mẫu.

Ví dụ: Để xác định giá trị sinh khối trung bình của đồi cây bụi, một nhà khoa học đã lấy mẫu ở 50 ô chuẩn (1m2 cho 1ô). Sinh khối trung bình ở các ô là 5,6kg/m2 với độ lệch chuẩn là 1,2 kg/m2.

1) Xác định khoảng tin cậy ở 95%

2) Khoảng giới hạn ở 95% là gì?

68

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3) Ý nghĩa kết quả thu được.

Giải:

1/ Tính:

2/ Giới hạn ở 95% là 5,27 và 5,93

3/ Tần suất 95% số ô có sinh khối trung bình nằm trong khoảng 5,27-5,93 kg/m2.

5.6. Sử dụng phân bố t (student distribution)

Phần trên ta dã đề cập đến việc ước lượng khoảng tin cậy cho số trung bình và phần trăm khi kích thước mẫu lớn và có phân bố thông thường.

Khi mẫu có kích thước nhỏ và không tuân theo phân bố thông thường mà theo phân bố t. Đây là dạng phân bố đối xứng nhưng có số trung bình bằng 0. Tuy nhiên phân bố t có hình dạng dẹt hơn so với phân bố z .

Phân bố t có độ trải rộng hơn phân bố z. Tuy nhiên khi kích thước mẫu đạt đến giá trị từ 30 quan trắc, độ dẹt của phân bố t giảm đi rất nhiều và lúc này nó cũng gần với phân bố z. như vậy, thực ra phân bố t là bao gồm một nhóm các phân bố. Trong đó mỗi dạng phân bố sẽ tương ứng cho một gía trị bậc tự do df (degree of freedom).

Bậc tự do df là số các giá trị được sử dụng để ước lượng tham số, nó có quan hệ với độ lệch chuẩn mẫu và được tính bằng (n-1). Ví dụ, khi tính độ lệch chuẩn mẫu ta lấy hiệu giữa số trung bình từ mỗi một của n giá trị quan trắc để xác định độ lệch so với giá trị trung bình. Độ lệch cuối cùng sẽ dược tính một cách tự động vì tổng của các độ lệch là bằng 0 và nó không có sự biến đổi tự do nên chỉ có n-1 bậc tự do.

Để ước lượng khoảng khi không biết và kích thước mẫu nhỏ ta dùng phương trình:

69

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Để xác định t cần phải biết độ tin cậy và số bậc tự do. Các nhà thống kê học đã xác định diện tích dưới đường cong ở các bậc tự do và mức tin cậy khác nhau để xây dựng bảng tra sẵn các giá trị của t (Phụ lục E).

Trong bảng tra giá trị t, cơ hội mà có mặt trong phép ước lượng được xác định là diện tích phía dưới đường cong và được ký hiệu là và hệ số tin cậy sẽ là

. Ví dụ nếu ta xét ở mức tin cậy 95% trong một vấn đề cho trước, gía trị tương ứng cho mức độ tin cậy này được thể hiện trong bảng t sẽ được tra ở giá trị x tức là 1,00-0,95=0,05. Vì 0,05 là tổng số cơ hội cho sai số trong khi bảng t chỉ xây dựng cho phân bố một bên nên cơ hội xuất hiện sai số ở mỗi bên sẽ là 0,025. Do vậy, cột t0,025 được sử dụng cho mức tin cậy ở 0,95.

Điểm thứ hai cần chú ý khi sử dụng bảng t là số bậc tự do. Cột thứ nhất trong bảng t là số bậc tự do liên quan với các mẫu có kích thước khác nhau.

Ví dụ 5.3: Một xí nghiệp hoá chất nông nghiệp muốn xác định lượng bán ra hàng ngày của một chất diệt cỏ. Qua các số liệu bán hàng trong 12 ngày cho thấy lượng bán trung bình là 10 chai/ngày với độ lệch chuẩn là 2 chai. Hãy xác định độ tin cậy ở mức 95%.

Giải: Từ đề bài ta có

= 10 chai

S= 2 chai

n=12 ngày

độ tin cậy 0,95

Tra bảng t (phụ lục E) ở mức tin cậy 95%, số mẫu là 12 ta có t0,025 = 2,201.

Ước lượng khoảng tin cậy:

Như vậy giới hạn tin cậy là 8,72 và 11,27 chai/ngày

5.7. Xác định khoảng cho số phần trăm tổng thể70

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Về nguyên tắc, ước lượng số phần trăm tổng thể cũng tương tự như ước lượng khoảng cho số trung bình khi kích thước mẫu đủ lớn để có thể sử dụng dạng phân phối thông thường. Trong chương trước đã đề cập phân bố của số trung bình pầàn trăm mẫu cũng tương đương với số trung bình phần trăm tổng thể. Tương tự như vậy, số phần trăm mẫu cũng là ước lượng khoảng cho phần trăm tổng thể .

Để ước lượng khoảng cho phần trăm tổng thể ta sử dụng phần trăm mẫu để làm cơ sở. Để xác định phần trăm mẫu ta lấy một mẫu ngẫu nhiên có kích thước n và quan sát số mẫu có đặc điểm (r) theo yêu cầu đặt ra.

Để tính số phần trăm mẫu, ta ước lượng sai số chuẩn của phần trăm như sau:

Khoảng tin cậy cho tỷ số của tổng thể được ước lượng là:

Trong đó: p=tỷ lệ mẫu

z= Trị số z cho mức độ tin cậy được chọn

n= Kích thước mẫu

Ví dụ 5.4: Một tổ chức tín dụng muốn ước lượng tỷ lệ phần trăm số nông dân trả lãi chậm. Điều tra trong 80 người nông dân vay vốn thì có 18 người trả lãi hàng tháng chậm.

1/ Ước lượng tỷ lệ nông dân trả lãi chậm nêu trên là thực tế ở mức tin cậy 95%.

2/ Ý nghĩa của kết quả là gì?

Giải:

71

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

1/ Trong vấn đề này, đặc tính mẫu cần xem xét (r) là số người dân trả lãi chậm hàng tháng, với tỷ lệ phần trăm là:

Ước lượng sai số chuẩn :

Ở mức tin cậy 95%, khoảng ứơc lượng sẽ là:

2/ Ở mức tin tưởng 95% tỷ lệ phàn trăm tổng thể (số nông dân thực tế trả lãi chậm hàng tháng) nằm trong khoảng 13,75-31,65%.

5.8. Xác định kích thước mẫu

5.8.1. Xác định kích thước mẫu dựa vào số trung bình tổng thể

Trong nghiên cứu, việc xác định kích thước mẫu (n) có ý nghĩa quan trọng và rất cần thiết để lập kế hoạch lấy mẫu. Nếu số mẫu lấy nhiều hơn yêu cầu sẽ gây lãng phí thời gian cũng như kinh phí. Ngược lại nếu lấy quá ít thì kết quả sẽ không đủ tin cậy. Để xác định số mẫu cần lấy (n) cần dựa vào 3 yếu tố cơ bản là mức độ tin cậy yêu cầu, sai số tối đa cho phép và độ lệch chuẩn hoặc sự sai khác của tổng thể. Độ tin cậy có thể sử dụng ở các mức khác nhau, thông thường sử dụng ở 3 mức 90%, 95% và 99%.

Kích thước mẫu (n) cần lấy được tính theo công thức sau:

hoặc

ta có :

72

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ: Một nhà khoa học nông nghiệp nghiên cứu khả năng hút thu ni tơ của một loại cây trồng. Trong một thí nghiệm đồng ruộng về khả năng hút thu N của cây cho thấy độ lệch chuẩn (s) là 120 ppm. Với độ tin cậy 95% hãy xác định kích thước mẫu cần lấy để có khoảng tin cậy là 80 ppm.

Giải:

Trước hết yêu cầu đặt ra là sai số không quá 80 ppm với độ tin cậy 95% và à có chứa giái trị trung bình. Do vậy độ tin cậy mong muốn là ± 80 ppm.

Theo công thức tính giới hạn tin cậy:

Trong ví dụ này

Vì ta có thể xác định được kích thước mẫu nhờ áp dụng công thức [5=7]:

(Ghi chú: cần thiết làm tròn vì số mẫu cần lấy phải là số nguyên)

Kích thước mẫu cũng có thể được xác định như sau:

Trong đó: n = Kích thước mẫu

z = hệ số phụ thuộc vào độ tin cậy

S = độ lệch chuẩn của mẫu

E = sai số cho phép

73

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Với ví dụ trên ta có:

n = (1,96 x 120 / 89)2 = (235,2 / 80)2 = 8,6 ( ~ 9)

5.8.2. Xác định kích thước mẫu trong trường hợp ước lượng phần trăm mẫu

Về cơ bản cách làm cũng tương tự như trường hợp của ước lượng trung bình mẫu. Công thức tính như sau:

n = p (1-p)(z/E)2 [5-9]

Trong đó: n = Kích thước mẫu

p = phần trăm ước lượng dựa trên thí nghiệm hoặc kết quả đã công bố

z = hệ số phụ thuộc vào độ tin cậy

s = độ lệch chuẩn của mẫu

E = sai số cho phép

Ví dụ 5.6:

Một hãng sản xuất máy kéo muốn biết nhu cầu (%) của người nông dân trong một vùng nào đó để đặt kế hoạch sản xuất cho năm tới, với độ chính xác 2% và độ tin cậy 95%. Một nghiên cứu cho thấy có 8% nông dân trong vùng có kế hoạch mua máy kéo trong năm tới. Hãy xác định xem cần phải tiến hành điều tra trong bao nhiêu người dân.

Giải:

n = p(1-p)(z/E)2

= 0,08(1-0,08)(1,96/0,02)2

= 0,08x0,92(98)2 = 672,3 ( ~ 672)

Như vậy nghiên cứu cần phải được thực hiện với 672 người nông dân để đạt độ tin cậy 95% và sai số trong khoảng 2%.

74

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

PHẦN 3. KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ

VỀ CÁC THAM SỐ ĐẶC TRƯNG MẪU

Chương 6. KIỂM ĐỊNH GIẢ THIẾT TRONG TRƯỜNG HỢP MỘT MẪU

6.1. Giới thiệu

Trong nghiên cứu khi cần đánh giá về gía trị trung bình của một đặc trưng hoặc một tỉ lệ nào đó, hoặc ta cần so sánh xem hai loại giống, hai phương pháp chăn nuôi, trồng trọt có hiệu quả như nhau hay không. Trong trường hợp này ta cần xem xét đặc trưng của mẫu mà nó có hai giả thiết (hai khả năng) được đưa ra để cân nhắc và phải chọn một trong hai giả thiết đó. Cần lựa chọn kết luận nào có khả năng đúng thực tế nhiều hơn, khả năng sai ít hơn. Đẻ cho tiện trong việc xem xét, một trong hai giả thiết đang đó được ký hiệu H0, và giả thết còn lại được ký hiệu là H1.

Ví dụ:

- Một loại thức ăn làm tăng trọng gia súc

- Việc sử dụng một loại nấm đất làm giảm số lượng giun tròn

- Giảm phát thải khí Sulfur làm giảm lượng mưa axit

- Một chương trình quảng cáo làm tăng số lượng bông bán ra

Kiểm định giả thiết thóng kê bao gồm các bước để kết luận rằng đặc trưng quan trắc được của mẫu có đúng với giả thiết đưa ra hay không. Từ đó cho phép lựa chọn hoặc bác bỏ giả thiết đưa ra.

6.2. Các bước thực hiện trong kiểm định giả thiết

Bước 1 - Đặt giả thiết đang xét Ho và giả thiết thay thế (đối thiết) H1:

75

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

H0 là giả thiết mà người nghiên cứu muốn bác bỏ (chứng minh là sai). Còn đối thiết H1 là giả thiết thay thế cho Ho, hoặc giả thiết nghiên cứu được dùng để xác minh kiểm định giả thiết Ho.

Có 3 dạng cơ bản về số trung bình mẫu (μ)

Dạng 1: H0: = o

H1: o

Dạng 2: H0: o

H1: o

Dạng 3: H0: o

H1: o

Bước 2 - Lựa chọn mức độ tin cậy:

Mức độ tin cậy ( ) là điều kiện để chấp nhận hoặc bác bỏ giả thiết H0. Khi chấp nhận hoặc bác bỏ giả thiết H0 chúng ta có thể mắc phải 2 loại sai lầm:

Bác bỏ H0 nhưng thực tế H0 đúng được gọi là sai lầm loại I

Chấp nhận H0 nhưng thực tế Ho sai được gọi là sai lầm loại II

Ví dụ: Một loại vắc xin mới được sản xuất thử cần dược so sánh với vacxin cũ cùng loại. Nếu văcxin mới có công dụng tốt hơn văcxin cũ thì cho sản xuất để thay thế loại vacxin cũ. Khi kiểm nghiệm đánh giá, giả sử như súc vật làm thí nghiệm không chuẩn dẫn đến kết quả thí nghiệm sai so với thực chất của nó. Trong trường hợp này có các khả năng sau: Văcxin mới thực chất là không hiệu quả (H0

sai), nhưng do thí nghiệm trên là nó cho kết quả tốt (hay H0 được chấp nhận0. Đây được gọi là sai lầm loại II. Văcxin mới thực chất là có hiệu quả (H0 đúng) nhưng lạI không được chấp nhận, đây là sai lầm loại I.

Trong nghiên cứu, người ta muốn cực tiểu cả hai loạI sai lầm trên, nhưng do số quan trắc cố định thì điều đó là không đạt được. Do đó ta thường không chế khả năng phạm một sai lầm và cố gắng cực tiểu khả năng phạm sai lầm kia. Vì sai lầm

76

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

loại II nguy hiểm hơn sai lầm loại . Trong thực tế nếu không phải chọn một trong hai sai lầm trên, người ta chọn sai lầm loại I. Ta cho trước xác suất ( thường rất nhỏ, chẳng hạn =0,01; 0,05 hoặc 0,10) và cần chọn miền S sao cho khả năng phạm sai lầm loại I không vượt quá , còn khả năng sai lầm loại II là cực tiểu. Trong bàI toán kiểm định giả thiết thống kê, miền S được gọi là miền tiêu chuẩn, được gọi là mức ý nghĩa.

Như vậy trong bài toán kiểm định giả thiết ta phải chỉ rõ ba thông tin quan trọng là giả thiết H0, đối với H1 và mức độ ý nghĩa

Tuy nhiên nếu qúa nhỏ sẽ làm tăng khả năng xuất hiện sai số loại II, tức là chấp nhận giả thiết không đúng thực tế H1. Bảng 6.1 Tóm tắt về các quyết định và sai số loại I và loạI II trong kiểm tra giả thiết.

Bảng 6.1 Các quyết định trong kiểm tra giả thiếtSự lựa chọn Giả thiết Ho

Đúng thực tế Không đúng thực tế

Chấp nhận Sự lựa chọn đúng Sai lầm loại II (Chấp nhận giả thiết Ho không đúng thực tế)

Bác bỏ Sai lầm loại I (Bác bỏ giả thiết Ho đúng thực tế)

Sự lựa chọn đúng

Bước 3 - Xác định phân phối kiểm tra

Kiểm tra thống kê là giá trị được sử dụng để xác định xem giả thiết H0 có được chấp nhận hay không. Sự lựa chọn kiểm tra thống kê thích ứng được dựa trên cơ sở sử dụng phân phối mẫu tương ứng (dạng phân phối thông thương hay phân phối khác ví dụ như phân phối t). Nếu mẫu thống kê được giả sử là có phân phối thông thường, chúng ta có thể chuyển các giá trị trung bình mẫu thành giá trị Z, sau đó sử dụng Z để kiểm định thống kê.

77

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong trường hợp phân phối thông thường giá trị trung bình của phân phối là giá trị tương đương với giá trị trung bình của tổng thể có chứa mẫu, và phương sai của phân phối là tương đương với phương sai của tổng thể chia cho kích thước (cỡ) của mẫu. Nếu sự phân bố là không bình thường, theo địnhlý giới hạn trung tâm (the central limit theorem) thì sự phân phối mẫu sẽ tiếp cận phân phối thông thường khi kích thước của mẫu tăng lên (≥30). Thông thường khi kích thước của mẫu nhỏ hơn 30 (n<30) thì chúng ta sử dụng phân phối t. Phương pháp chuyển trung bình mẫu thành gía trị Z được giới thiệu ở phần 6.3.

Bước 4 - Khái niệm về sự bác bỏ hoặc vùng tới hạn: Chúng ta nói về giả thiết H0, đối giả thiết H1, sự lựa chọn mức độ ý nghĩa và loại kiểm tra thống kê được sử dụng. Bây giở sẽ đề cập dến sự bác bỏ hoặc vùng tới hạn của phân phối mẫu. Gía trị tới hạn (critical value) là một điểm ranh giới giữa vùng chấp nhận và bác bỏ. Nó được biểu diễn với những đơn vị đo đạc tiêu chuẩn (z) hoặc những đơn vị đo đạc thực tế (x).

Nếu kiểm tra thống kê giá trị nằm trong vùng chấp nhận thì giả thiết H0

cũng được chấp nhận; còn nếu giá trị nằm trong vùng bác bỏ thì giả thiết H0 cũng bị bác bỏ.

Bước 5 - Kiểm định thống kê (Statistical test):

Để kiểm tra giả thiết về số trung bình tổng thể ( ) trước hết cần tính giá trị trung bình mẫu . Từ mẫu này, có thể ước lượng sai số chuẩn và áp dụng công thức:

Khi đã biết :

Khi chưa biết :

78

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Một công thức khác, ranh giới chấp nhận và bác bỏ (giá trị tới hạn) được trình bày bằng đơn vị đo đạc thực tế (x) là:

Trong đó: = ranh giới tới hạn bác bỏ trên

= ranh giới tới hạn bác bỏ dưới

Bước 6 - Kết luận:

Sau khi kiểm tra thống kê, cần kết luận xem chấp nhận hay bác bỏ giả thiết Ho. Mức độ tin cậy được xác định thông qua mức độ có ý nghĩa hoặc giá trị P.

6.2.1. Giá trị P

Mức độ ý nghĩa hoặc giá trị P có nghĩa là xác suất quan sát của một giá trị của phép thử thống kê. Ít nhất nó là sự trái ngược với giả thiết H0 khi giả thiết H0

đúng sự thật. Nói cách khác, đó là giá trị nhỏ nhất của mà kết quả kiểm tra là có ý nghĩa thống kê và được gọi là giá trị P. Hầu hết các chương trình thống kê trong máy tính đã tính toán giá trị P cho các mức có ý nghĩa khác nhau. Tuy nhiên, nếu sử dụng bảng thống kê để xác định P, chúng ta chỉ có giá trị xấp xỉ. Nguyên nhân là do hầu hết các bảng thống kê lấy giá trị tới hạn cho là 0,01; 0,025; 0,05 ...Việc sử dụng P phản ánh sự mong muốn trình bày kết quả mà không quá dựa vào mức độ tin cậy toán học, chẳng hạn như 0,05 và 0,01. Từ đó người sử dụng kết quả có thể có những kết luận riêng của mình.

6.3. Kiểm tra về số trung bình trong trường hợp số lượng mẫu lớn

6.3.1. Kiểm định số trung bình 2 phía

Ví dụ 6.1: Một nhà máy đóng bao ngũ cốc muốn kiểm tra giả thiết cho rằng máy đóng bao đang hoạt động tốt. Chiếc máy này sẽ đóng bao với trọng lượng 15 kg/bao. Nếu máy đóng bao trên 15 kg sẽ gây thiệt hại cho nhà máy, ngược lại nếu dưới 15 kg sẽ vi phạm luật và ảnh hưởng đến quyền lợi người tiêu dùng. Giả sử rằng cân thử 200 bao cho trọng lượng trung bình và độ lệch chuẩn S=0,5 kg. Nhà

79

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

máy muốn kiểm tra thống kê xem trọng lượng trung bình của các mẫu cân thử có sự sai khác so với 15 kg hay không?

Giải: Giả thiết của chúng ta là khói lượng trung bình của ngũ cốc được đóng ở các bao là 15 kg. Mọi bao lấy một cách ngẫu nhiên có khối lượng không đúng 15 kg là sai số lấy mẫu. Ta có giả thiết sau:

H0 : = 15kg

H1 : 15kg

Ở đây chúng ta sẽ tiến hành kiểm tra thống kê 2 phía (two-sided) vì chúng ta hy vọng sẽ có những bao nhiều hơn và có những bao ít hơn 15kg. Do vậy ta có 2 vùng bác bỏ giả thiết ở 2 phía.

Nếu nhà máy muốn loại trừ sai lầm loại I (bác bỏ giả thiết H0 khi nó đúng thực tế) người ta sẽ chọn rất nhỏ.Giả sử sự lựa chọn mức 1% có ý nghĩa (nguy cơ xuất hiện sai lầm loại I), lúc đó = 0,01. Vì kích thước mẫu là lớn hơn 30, ta sử dụng hàm phân phối bình thường (normal curve). Hình 6.2 mô tả vùng chấp nhận và bác bỏ giả thiết. Giá trị z tra từ phụ lục C với mức có ý nghĩa đã cho có giá trị là 2,57. Nếu kiểm tra mẫu cho giá trị z nhỏ hơn –2,57 hoặc lớn hơn 2,57 thì giả thiết Ho bị bác bỏ, ngược lại H0 được chấp nhận:

Như vậy giả thiết Ho bị bác bỏ vì -4,2 là thấp hơn nhiều so với -2,57. Ta có thể kết luận rằng máy đóng bao ít hơn 15kg/bao. Với giá trị quan trắc Z=-4,2, các giá trị z nhỏ hơn -4,2 hoặc lớn hơn +4,2 sẽ càng đối lập với giả thiết H 0. Mức độ có ý nghĩa quan trắc trong thí nghiệm này là:

p=p(z < -4,2 hoặc z > +4,2)

Trong phụ lục B, chúng ta có p (z > +4,2)=0,5-0,4999=0,0001

Vì vậy giá trị cho kiểm tra là:

=2(0,0001)=0,0002

80

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Chúng ta có thể kết luận rằng kết quả kiểm tra đã bác bỏ mạnh mẽ giả thiết H0: =15. Xác suất quan trắc gía trị z lớn hơn 4,2 hoặc nhỏ hơn -4,2 chỉ là 0,0002 nếu thực tế Ho là đúng.

6.3.2 Kiểm định số trung bình một phía

Trong kiểm định số trung bình ở 2 phía như trình bày ở trên được áp dụng trong trường hợp mà có khả năng số trung bình tổng thể có thể lớn hơn hoặc nhỏ hơn giá trị trung bình trong giả thiết. Trong trường hợp kiểm tra số trung bình một phía chúng ta chỉ quan tâm đến khả năng trệch về một phía từ giá trị trung bình của giả thiết.

Ví dụ 6.2. Một cơ quan bảo vệ môi trường yêu cầu nguồn nước phải chứa ít hơn 0,025 mgPb/lit. Người ta lấy ngẫu nhiên 150 mẫu nước từ các đIểm khác nhau để phân tích và cho kết quả hàm lượng Pb trung bình là 0,038 mg/lit với độ lệch chuẩn là 0,10 mg/lit. Hãy kiểm tra kết quả ở mức độ tin cậy là 0,05.

Giải: Để kiểm tra xem mẫu nước có chứa nhhiều hơn 0,038 mgPb/lit với nguy cơ rủi ro 5%. Ta có giả thiết sau:

Ho: 0,025 mg/lit

H1: > 0,025 mg/lit

Đây là trường hợp kiểm tra 1 phía vì giả thiết Ho chỉ có thể bị bác bỏ khi số trung bình mẫu quá cao. Với độ tin cậy = 0,05 giả thiết Ho sẽ bị bác bỏ khi Z >1,64 (Hình 6.3).

hoặc

Vì giá trị z = 1,63 là nhỏ hơn 1,64 nên giả thiết H0 được chấp nhận. Do vậy có thể kết luận rằng giá trị trung bình thực tế của chì trong nước là nhỏ hơn 0,025 mg/lit và sự sai khác này là do sai số của mẫu lấy nghiên cứu.

81

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

6.4. Kiểm định về số trung bình trong trường hợp số lượng mẫu nhỏ

Mục 6.3 trình bày về kiểm định mức độ tin cậy khi phân phối bình thường và số lượng mẫu quan trắc lớn. Khi số lượng quan trắc nhỏ chúng ta thường gặp khó khăn khi quyết định về độ tin cậy của kết quả nghiên cứu. Ví dụ số lượng động vật bị mắc bệnh hiếm (không thông thường) thường là nhỏ chúng ta không thể làm tăng số con vật bị mắc bệnh. Hoặc các điều kiện môi trường thường luôn biến động theo không gian và thời gian nên mẫu cũng sẽ bị biến động. Hơn nữa các nhà nghiên cứu thường muốn hạn chế số lượng quan trắc để đỡ gây tốn kém.

Trong trường hợp với số lượng quan trắc ít (thường ít hơn 30) người ta áp dụng phương pháp tiêu chuẩn t (phân phối t) để kiểm định giả thiết.

Ví dụ 6.3. Để dự báo giá bông trong năm tới, người ta lấy ý kiến dự báo của 5 chuyên gia về thị trường. Theo dự báo của các chuyên gia thì giá bông năm tới sẽ là 0,75$/1kg, với độ lệch chuẩn là 0,05$. Trong khi đó một tờ thời báo kinh tế lại cho rằng với điều kiện kinh té như hiện nay thì giá bông trong những năm tới sẽ không vượt quá 0,70$/1 kg. Hãy kiểm định về giả thiết cho rằng giá bông trung bình là 0,70$ do thời báo kinh tế đưa ra, với = 0,01.

Giải: Ho: 0,70 $

H1: > 0,70 $

Kiểm tra với = 0,01, vùng bác bỏ giả thiết Ho tra trong bảng là t>2.624. Ở dãy độ tự do là n-1=14. Vùng bác bỏ giả thiết Ho được chỉ ra ở hình 6.4.

Tính t:

Vì giá trị t =3,87 nằm trong vùng bác bỏ giả thiết H0 nên có thể kết luận rằng dự báo giá bông trong năm tới sẽ cao hơn 0,70$/1 kg, với mức có ý nghĩa 0,01.

6.5. Kiểm định theo tỉ lệ (test of a proportion)

82

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Sự khác biệt cơ bản ở đây là sử dụng giá trị được tính theo tỷ lệ thay cho tính theo giá trị trung bình như đã trình bày ở trên. Áp dụng công thức:

Trong đó là giá trị giả thiết theo tỷ lệ mẫu. Để tính sai số theo tỷ lệ chúng ta sử dụng giá trị giả thiết như sau:

Các bước thực hiện tương tự như trình bày ở mục 6.2.

Ví dụ: Những nghiên cứu mới đây chỉ ra rằng để tăng thêm thu nhập, người nông dân phải tìm kiếm các công việc làm ở ngoài địa phương. Tỷ lệ phần trăm những người tìm các việc làm khác nhau trong những năm gần đây là 60%. Điều tra ngẫu nhiên 600 người dân thì có 354 người (59%) có làm việc khác. Xác định xem trong nghiên cứu trên có là cơ sở để chứng minh tỷ lệ nông dân đi làm việc ở ngoài là 60%, sử dụng = 0,01.

Giải:

Đặt giả thiết:

H0: = 60% = 0,06

H1: ≠ 60% = 0,06

Đây là kiểm định thống kê 2 phía vì H0 có thể bị bác bỏ nếu tỷ lệ phần trăm là quá cao hoặc quá thấp. Với mức độ có ý nghĩa = 0,01 giả thiết H0 sẽ bị bác bỏ nếu:

Z -2,57 hoặc Z +2,57

Hình 6.2 cho thấy vùng chấp nhận và bác bỏ giả thiết cho trường hợp này.

Tính Z

83

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Vì giá trị Z nằm trong vùng chấp nhận giả thiết nên nghiên cứu này không đủ cơ sở để bác bỏ nhận định rằng 60% nông dân làm những việc khác ở ngoài địa phương khi nông nhàn.

Ví dụ 6.5: Một cơ sở sản xuất giống tiến hành kiểm tra tỷ lệ phần trăm các hạt lẫn trong hạt giống ngô. Giống đã được xác định có chứa không quá 2% các hạt không thuần chủng. Có 80 bao đựng mẫu được kiểm tra một cách ngẫu nhiên và kết quả cho thấy có 4% hạt không thuần chủng. Hãy xác định xem các bao mẫu có chứa không quá tỷ lệ phần trăm cho phép các hạt giống không thuần chủng với nguy cơ mắc sai lầm là 5%.

Đặt giả thiết

Ho: ≤ 2% hạt lẫn

H1: 2% hạt lẫn

Đây là trường hợp kiểm định một phía vì H0 có thể bị bác bỏ nếu tỷ lệ phần trăm hạt lẫn là quá cao. Với mức ý nghĩa = 0,05, giả thiết Ho sẽ bị bác bỏ khi Z 1,64 (xem Hình 6.3).

Tính Z:

Vì giá trị tính Z=1,28 nằm trong vùng chấp nhận giả thiết H0 nên không đủ cơ sở đẻ cho rằng tỷ lệ hạt giống lẫn cao hơn tỷ lệ cho phép 2%.

6.6. Sự tiếp cận khác trong kiểm định giả thiết

Ví dụ 6.6: Một trang trại trồng cam muốn biết xem năng suất cam trong năm là bao nhiêu. Biết rằng năng suất cam trong những năm vừa qua trung bình là 487 kg/ha

84

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

với độ lệch chuẩn = 37,3. Kết quả điều tra ở 25 ha trong 2 tuần cho thấy năng suất trung bình X =470 kg/ha. Hãy cho biết năng suất cam trong năm là khác với năng suất trung bình các năm trước đó, với = 0,05.

Giải: Vì năng suất trung bình trong những năm qua là 487 kg/ha. Câu hỏi đặt ra là kết quả đIều tra năng suất 470 kg/ha có đúng là năng suất chung của trang trại hay không.

Dựa trên cơ sở tính các giá trị giới hạn trên và dưới để có 95% khả năng suất hiện đúng, ta có:

Ranh giới trên

Ranh giới dưới

Số trung bình tổng thể cũng như ranh giới trên và dưới được chỉ ra ở hình 6.5.

Cần chú ý rằng z được sử dụng trong trường hợp này mặc dù n < 30 vì độ lệch chuẩn đã biết. Áp dụng công thức ta có:

Ranh giới trên

Ranh giới dươí

Hình 6.5. Mô tả giá trị trung bình và ranh giới trên và ranh giới dưới

Trong hình 6.5 có thể thấy rằng nếu số trung bình tổng thể thực tế là 487 thì 95% số mẫu của 25 ha từ tổng thể có giá trị trung bình không thấp hơn 472,38 kg/ha và không cao hơn 501,62 kg/ha.

Nếu số trung bình mẫu của 25 ha nằm ngoài ranh giới sẽ có hai trường hợp xảy ra. Trước hết do 95% mẫu nằm trong ranh giới do vậy giá trị nằm ngoài ranh giới này có thể chỉ dẫn rằng có một nhóm cây không bình thường đã được lựa chọn, hoặc số trung bình tổng thể là khác với 487 kg như những năm trước.

85

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Các bước tiển hành cũng tương tự như kiểm định giả thiết. Cách tiến hành như sau:

Bước 1 - Đặt giả thiết:

H0: = 487

H1: 487

Bước 2 - Xác định giới hạn trên và dưới:

Ranh giới trên

Ranh giới dươí

Bước 3 - Điều kiện bác bỏ H0 nếu hoặc . Trường hợp khác thì H0

được chấp nhận.

Bước 4 - (kết luận) Vì chúng ta bác bỏ giả thiết Ho và kết luận rằng năng suất cam trung bình cho năm nay sẽ là 487 kg/ha.

Tuy nhiên kết quả kiểm định chỉ ra rằng số trung bình tổng thể không khác 487kg/ha nhưng thực tế số trung bình mẫu là có chút nhỏ hơn 487. Sẽ là không thận trọng khi cho rằng số trung bình tổng thể là 470 vì nó chỉ dựa trên số lượng quan trắc khá nhỏ so với tổng diện tích trồng cam của trang trại.

Ví dụ 6.7: Cũng từ ví dụ 6.6, nếu giả sử rằng số trung bình tổng thể là 487 kg/ha đã biết nhưng độ lệch chuẩn tổng thể lại chưa biết. Cũng giả sử rằng ở 25 ha đIều tra có

= 470 và độ lệch chuẩn mẫu là S=27,2. Hãy xác định năng suất trung bình trong thí nghiệm thầp hơn so với năng suất các năm trước đó.

Giải:

Kiểm định theo phương pháp một phía vì hiện tượng giá rét trong năm có thể làm cho năng suất cam giảm đi. Cũng cần chú ý rằng, nếu không có điều kiện giá rét làm giảm năng suất cam thì giả thiết đặt ra là năng suất có thể thấp hơn (như trường

86

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

hợp nêu trên) hoặc cao hơn. Lúc này ta phải áp dụng phương pháp kiểm định 2 phía sẽ phù hợp hơn.

Đặt gỉa thiết:

H0: ≥ 4,87

H1: < 4,87

Ranh giới hoặc giá trị tơí hạn trong trường hợp này là:

Vì n< 30 và chưa biết nên áp dụng kiểm định t. Giá trị t =1,711 được xác định nhờ tra bảng với = 0,05 và độ tự do (df) là n-1. Ta có:

df = 25-1 = 24

Quyết định được dựa trên nguyên tắc sau:

Bác bỏ H0 nếu . Vùng bác bỏ được trình bày ở Hình 6.6.

Vì chúng ta bác bỏ giả thiết H0 và kết luận rằng số trung bình tổng thể là thấp hơn 487. Cơ sở cho kết luận này là vì nằm trong vùng nó xuất hiện dưới 5% nếu = 487.

Ví dụ 6.8:

Một nhà nghiên cứu đã phát triển 1 loại thuốc diệt côn trùng hy vọng sẽ diệt trên 95% sâu bông khi tiếp xúc và an toàn cho môi trường. Với các thí nghiệm kiểm tra riêng ré trong phòng thí nghiệm, loại thuốc này được phun trên 200 con sâu bông. Mặc dù cả 200 con sâu cuối cùng đều chết, nhưng chỉ có 180 con chết ngay lập tức khi tiếp xúc với thuốc. Hãy cho biết thuốc diệt côn trùng này có khả năng gây chết 95% số sâu bông khi tiếp xúc với thuốc, với =0,10.

Giải:

Trong trường hợp này tỷ lệ phần trăm được dùng thay cho gía trị trung bình. Các bước tiến hành như sau:

87

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ho: ≥ 0,95

H1: < 0,95

Vùng bác bỏ được mô tả ở Hình 6.7.

Giả thiết H0 bị bác bỏ nếu p < 0,9303. Trường hợp còn lại H0 sẽ được chấp nhận. Vì P= 180/200= 0,90 là nhỏ hơn 0,9303 nên giả thiết H0 bị bác bỏ. Chúng ta có thể kết luận rằng đã có đủ chứng cứ để kết luận rằng loại thuốc diệt côn trùng là không được chấp nhận.

6.7. Quan hệ giữa và

Từ mục 6.1 đã trình bày khả năng chấp nhận H0 khi H0 là sai lầm được biểu diễn dưới dạng nguy cơ hoặc sai lầm II. Cũng cân nhắc lại rằng có thể chuyển đỗi giữa và . Ví dụ: nếu nhà nghiên cứu muốn chắc chắn hoàn toàn để giảm thiểu nguy cơ mắc sai lầm loại I (bác bỏ giả thiết Ho khi nó là đúng sự thật) thì chúng ta phải chọn rất nhỏ. Nhưng làm như vậy sẽ tăng khả năng xuất hiện sai lầm loại II.

Tuy phần này chúng ta sẽ kiểm tra nguy cơ và cách tính thế nào. Hãy xem xét:

- Khả năng của phép thử (1- ) đưa dén khả năng bác bỏ giả thiết sai lầm Ho.

- Phương trình hàm mũ (power function)

- Đường cong hàm mũ (power curve)

Như đã trình bày ở trên, nguy cơ trong một vấn đề cho trước được xác định bởi mức có ý nghĩa lựa chọn. Ngược lại nguy cơ mắc sai lầm là khó xác định vì nó phụ thuộc vào:

1/ Nguy cơ α

2/ Kích thước (cỡ) mẫu

3/ Đối giả thiết được xem xét

88

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong ví dụ 6.6 có thể thấy cách tính , nguy cơ mắc sai lầm loại II tăng khi xem xét nguy cơ , kích thước mẫu và đối giả thiết được kiểm định.

Giả sử rằng, trong ví dụ này giảm từ 5 xuống 1%. Giá trị z mới sẽ là 2,57, ranh giới sẽ là 467,83 và 506,17. Vùng chấp nhận mới sẽ rộng hơn vùng chấp nhận cũ (472,38 đến 501,62). Sự thay đổi này sẽ làm tăng cơ hội chấp nhận giả thiết sai lầm Ho hoặc nguy cơ . Để giảm cơ hội chấp nhận giả thiết sai lầm Ho (nguy cơ

), chúng ta có thể tăng kích thước mẫu. Kích thước mẫu càng lớn đồng nghĩa với sai số tiêu chuẩn càng nhỏ. Khi sai số tiêu chuẩn nhỏ hơn vùng chấp nhận với một cho trước bát kỳ cũng nhỏ hơn. Vì vậy sẽ làm giảm nguy cơ mắc sai lầm loại II.

Với ví dụ trên, nếu tăng cỡ mẫu từ 25 lên 100 ha, sai số chuẩn sẽ là:

Như vậy sai số chuẩn giảm từ 7,46 (khi n=25) xuống còn 3,73 (khi n=100). Để sử dụng sai số chuẩn mới này với = 5%, giới hạn sẽ là 497,69 và 494,31. Có nghĩa là vùng chấp nhận mới sẽ là nhỏ hơn. Vùng chấp nhận càng nhỏ thì khả năng chấp nhận giả thiết sai lầm H0 cũng càng nhỏ. ĐIều này cũng có nghĩa là sẽ giảm nguy cơ mắc sai lầm loại II.

Đối với sai lầm loại II, thực tế là chúng ta chấp nhận giả thiết sai lầm H 0. Nghĩa là một số đối giả thiết có thể là thực tế. Như đã được trình bày ở hình 6.8 gía trị số của thay đổi theo khả năng giá trị thực của . Nếu thực là gần với 0 thì nguy cơ sẽ lớn, trong khi nếu rất khác 0 thì nguy cơ sẽ nhỏ. Các giá trị có thể được tính toán cho những giá trị riêng biệt.

Hãy xem lại ví dụ 6.6, trong đó độ lệch chuẩn tổng thể là 37,7 và giả thiết Ho : = 487 sẽ được kiểm tra với mức có ý nghĩa 5% và kích thước mẫu n=25. Gỉa sử số trung bình thực tế là 471. Sự thay đổi chỉ thay đổi vị trí của phân phối mẫu ngẫu nhiên của . Hình 6.8 diễn tả gía trị khi = 471. Khả năng chấp nhận giả thiết Ho (Ho: = 487) khi số trung bình thực là 471 được tính như sau:

89

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong đó giá trị tơí hạn

Hình 6.8. Phân phối mẫu nếu = 487 và = 471 tương ứng với n=25 và =37,3.

Giá trị mới của z cho vấn đề trên là:

Chúng ta sẽ sử dụng giá trị z này để xác định khả năng khi chấp nhận giả thiết sai lầm H0. Phụ lục B được sử dụng để xác định như sau:

= p(z-0,1850) = 0,5000 –0,0714 = 0,4286

Khả năng này (42,86%) là nguy cơ mắc sai lầm cho số trung bình thay thé riêng = 471.

Với việc sử dụng phương pháp trên, chúng ta có thể xác định khả năng mắc sai lầm loại II với giá trị khác nhau. Bảng 6.2 giới thiệu một số khả năng của và khả năng chấp nhận giả thiết sai lầm Ho.

Cột thứ 3 trong bảng 6.2 cho biết giá trị 1- . Chúng ta biểu thị các khả năng như phường trình mũ. Đồ thị phương trình mũ này được gọi là đường cong khả năng hoặc đường tính chất hoạt động (operating charactenitics (OC) curve). Vì đường cong khả năng chỉ rõ khă năng bác bỏ giả thiết H0 khi H0 là sai với tất cả các giá trị có thể của các thông số được kiểm tra, nó được sử dụng để đánh giá việc kiểm định giả thiết. Đường cong khả năng được mô tả ở hình 6.9 cho thấy khả năng không phạm phải sai lầm loại II.

Bảng 6.2 Khả năng mắc sai lầm loại II và phương trình khả năng khi

= 487 kg cam/ha và số trung bình thay thế được lựa chọn với = 0,05

Số trung bình thay thế

lựa chọn ( ) kg/ha

Khả năng mắc

sai lầm loại II ( )

Khả năng không mắc

sai lầm loại II (1- )

457 0,0197 0,9803

90

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

464

467

471

497

507

510

517

0,1314

0,2358

0,4286

0,2709

0,2358

0,1314

0,0197

0,8686

0,7642

0,5714

0,7291

0,7642

0,8686

0,9803

91

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hình 6.9. Đường cong hàm số mũ cho kiểm tra năng suất trung bình của cam

Chương 7. KIỂM TRA GIẢ THIẾT TRONG TRƯỜNG HỢP HAI MẪU

7.1. Giới thiệu

Các nhà khoa học nông nghiệp và môi trường cũng như các nhà quản lý thường quan tâm đến việc xác định xem hai tổng thể của một loại cây trồng hoặc một nhóm động vật có sự khác nhau về một đặc điểm nào đó. Ví dụ khi ta kiểm tra xem việc khai thác gỗ trong một khu rừng có ảnh hưởng đến thức ăn của các loài chim hay không. Hoặc một nhà nông học muốn xác định xem các giống cây trồng khác nhau có phản ứng khác nhau đối với một loại phân hoá học nào đó. Một nhà nghiên cứu về vật nuôi muốn biết có sự khác nhau về sản lượng sữa sản xuất ở hai giống bò sữa khác nhau.

Chúng ta sử dụng các bước trong kiểm định giả thiết khi so sánh về giá trị trung bình với hai mẫu giúp chúng ta suy luận về tổng thể bằng việc sử dụng phương pháp so sánh các số liệu xem sự khác nhau về giá trị trung bình giữa chúng có ý nghĩa hay không.

Trong trường hợp với một mẫu, kiẻm định giả thiết H0 và đối giả thiết H1 về sự khác nhau của số trung bình giữa hai tổng thể có thể được diễn đạt như sau:

H0: 1- 2 = 0

H1: 1- 2 0 [7-1]

92

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

H0: 1- 2 ≥ 0

H1: 1- 2 < 0 [7-2]

H0: 1- 2 ≤ 0

H1: 1- 2 >0 [7-3]

Giả thiết H0 ở phương trình [7-1] nghĩa là không có sự khác nhau về số trung bình của 2 tổng thể. Nghĩa là số trung bình thực của tổng thể 1 và 2 là tương đương nhau. Không nhất thiết phải nói rằnggiả thiết H0 luôn luôn là bằng nhau. Thông thường hơn, chúng ta có thể giả thiết rằng 1 và 2 khác nhau là D0:

H0: 1- 2 = D0

H1: 1- 2 D0 [7-4]

Kiểm định một phía được diễn tả như ở phương trình [7-2] và [7-3]. Việc xác định xem kiểm định phía trái hay phải phụ thuộc vào bản chất của vấn đề. Nếu giả thiết H0 sẽ bị bác bỏ chỉ khi 1> 2 một cách có ý nghĩa thì sử dụng kiểm định phía bên phải. Ngược lại nếu 1 < 2 một cách có ý nghĩa thì sử dụng kiểm định phía bên trái. Giả thiết H0 là một giả thiết mà chúng ta có thể tính xác suất của nó. Kết quả thu được có thể chấp nhậ hoặc bác bỏ giả thiết H0.

Phần sau đây chúng ta sẽ thảo luận việc kiểm định giả thiết về 2 giá trị trung bình và tỷ lệ phần trăm của tổng thể.

7.2. Kiểm định về giá trị trung bình trong trường hợp mẫu lớn

Phương pháp kiểm định so sánh giữa hai tổng thể không qua so sánh 2 giá trị trung bình xem chúng có là độc lập với nhau hay không. Phương pháp này cũng được thực hiện tương tự như kiểm định giả thiết về giá trị trung bình của một mẫu. Dựa trên việc so sánh giá trị trung bình 1 của mẫu ngẫu nhiên n1 thuộc tổng thể 1 có tương đương với số trung bình 2 của mẫu ngẫu nhiên n2 thuộc tổng thể 2. Nếu tiếp tục so sánh với số trung bình mẫu từ các tổng thể khác và so sánh sự sai khác giữa chúng sẽ được sự phân phối mẫu với sự khác nhau của giá trị trung bình (Hình 7.1) .

93

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hình 7.1. Phân phối mẫu có các số trung bình khác nhau.

Nếu có kích thước mẫu lớn từ hai tổng thể thì hình dạng đường phân bố sẽ gần giống với đường phân bố thông thường. Lúc đó sẽ có 68,3% số quan sát của mẫu nằm trong khoảng một lần độ lệch chuẩn xung quanh giá trị trung bình và 95,4% nằm trong khoảng 2 lần độ lệch chuẩn xung quanh giá trị trung bình ... vì mẫu có kích thước lớn, giá trị z kiểm tra có thể được sử dụng để kiểm tra độ tin cậy. Các giá trị của z và mức độ tin cậy sẽ giúp xác định ranh giới vùng bác bỏ giả thiết H0. Kiểm tra sự sai khác giữa giá trị trung bình mẫu 1 và 2 dựa trên sự khác nhau chuẩn của chúng. Nghĩa là chúng ta phải tính tỷ số tới hạn của sự khác nhau theo công thức:

94

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

và tính sai số chuẩn của sự khác nhau theo công thức sau:

Trong phương trình [7.6] người ta sử dụng độ lệch chuẩn tổng thể để tính sai số chuẩn. Nếu không có giá trị độ lẹch chuẩn tổng thể, có thể sử dụng độ lệch chuẩn mẫu (nếu kích thước mẫu lớn) để ước lượng sai số chuẩn.

Ví dụ 7.1: Một nhà khoa học môi trường muốn nghiên cứu xem việc chặt các cây gỗ trong rừng có ảnh hưởng gì đến khẩu phần thức ăn của một loài chim thông qua việc so sánh trọng lượng chúng ở khu rừng đã khai thác gỗ và chưa khai thác gỗ. Một số lượng chim 45 con ở mỗi khu rừng trên được bắt để kiểm tra, kết quả thu được như sau. Hãy xác định xem có sự sai khác thực sự về khối lượng trung bình cơ thể 2 nhóm chim ở hai khu rừng trên.

Rừng chưa khai thác Rừng đã khai thác

n1=45

1= 95,5 gam

S=9,25 gam

n2= 45

2= 92,33 gam

s= 8,50 gam

Giải:

Bước 1 - Ở đây người nghiên cứu chỉ muốn biết xem có sự sai khác về khối lượng giữa 2 nhóm chim ở 2 khu rừng dựa trên sự so sánh giá trị trung bình của chúng nên phương pháp kiểm dịnh được thực hiện ở cả 2 phía.

Ta đặt giả thiết như sau:

H0: 1 = 2

95

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

H1: 1 2

Bước 2 - Giả sử việc kiểm định yêu cầu ở mức độ tin cậy 0,05 và kích thước mẫu ở đây là lớn ta sử dụng phân phối z. ta có ranh giới bác bỏ giả thiết Ho là z = ±1,96.

Bước 3 - Giả thiết H0 được chấp nhận nếu z tính (tỷ lệ tới hạn) nằm trong khoảng ±1,96. Hoặc Ho bị bác bỏ, H1 được chấp nhận nếu tỷ số tới hạn < -1,96 hoặc > +1,96.

Bước 4 - Để tính z, trước hết ta tính giá trị 1-2 theo số liệu đã cho:

Các vùng chấp nhận và bác bỏ giả thiết được chỉ ra ở Hình 7.2. Trong phương páhp kiểm tra 2 phía, giả thiết H0 ( 1= 2) sẽ bị bác bỏ ở mức độ có ý nghĩa 0,05 nếu tỷ lệ tới hạn là nhỏ hơn –1,96 hoặc lớn hơn +1,96.

Bước 5 - Vì 1,70 là nhỏ hơn 1,96 nên giả thiết H0 được chấp nhận. Hay không có sự sai khác giữa số liệu trung bình về khối lượng của 2 nhóm chim ở 2 khu rừng nghiên cứu.

Hình 7.2. Các vùng bác bỏ và chấp nhận giả thiết theo 2 phía, với nguy cơ mắc sai lầm 0,05.

Ví dụ 7.2: Một nhà khoa học nông nghiệp thử nghiệm một loại hoá chất phun cho ngô. Để xác định hiệu quả hoá chất này 50 bắp ngô dược lấy ngẫu nhiên từ các diện tích thí nghiệm có xử lý hoá chất cho khối lượng trung bình 1=12 g/bắp với độ lệch chuẩn 2 gam. Trong khi đó 50 bắp ngô khác được lấy ngẫu nhiên ở diện tích không xử lý hoá chất cho khối lượng trung bình 2=10 gam/bắp và độ lệch chuẩn 1,4 gam. Hãy kiểm tra xem kết quả gnhiên cứu trên có phản ánh hiệu quả của loại hoá chất được sử dụng, với độ tin cậy 0,01.

96

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Giải:

Đây là trường hợp kiểm định giả thiết 1 phía vì nhà khoa học cho biết hoá chất làm tăng năng suất ngô. Giả thiết là:

H0: 1 2

H1: 1> 2

Với sự sai khác có ý nghĩa được xét ở mức 0,01 giá trị z sẽ là 2,33 (Hình 7.3). Do vậy giả thiết H0 được chấp nhận khi tỷ số tới hạn 2,33 nếu tỷ số giới hạn >2,33 thì giả thiết H0 bị bác bỏ.

Tỷ số tới hạn để kiểm tra thống kê được tính như sau:

Vì z tính là 5,71 lớn hơn giá trị tới hạn 2,33 và giả thiết H0 bị bác bỏ nên có thể kết luận rằng năng suất trung bình của 1 bắp ngô được xử lý bằng hoá chất là cao hơn một cách có ý nghĩa so với không được xử lý hoá chất.

Hình 7.3. Vùng chấp nhận và bác bỏ khi kiểm định giả thiết 1 phía (bên phải), về sự khác nhau giữa 2 giá trị trung bình với mức có ý nghĩa 0,01.

7.3. Kiểm định giả thiết về giá trị trung bình của 2 mẫu có kích thước nhỏ

Trong trường hợp này, chúng ta áp dụng phân phối t để suy đoán về số trung bình tổng thể? Khi áp dụng phân phối t, chúng ta giả sử rằng các mẫu có phân phối gần với phân phối thông thường và có độ lệch chuẩn tổng thể như nhau . Với giả thiết này chúng ta sẽ gộp tổng độ lệch từ 2 mẫu để xây dựng ước lượng giá trị sử dụng cho kiểm dịnh t như sau:

97

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Độ lệch chuẩn (Sp) được tính theo giá trị trung bình của 2 độ lệch như sau:

Ví dụ 7.3: Có hai hệ thống sưởi khác nhau được sử dụng cho nhà kính. Một kỹ sư nông nghiệp muốn kiểm tra xem có sự khác nhau về kinh phí cho quá trình vận hành của chúng. Số liệu thu được từ 16 nhà kính sử dụng hệ thống sưởi thứ nhất (khí thiên nhiên) sẽ phải chi phí trung bình 35.000 U$/năm và độ lệch chuẩn ở 800 U$. Còn ở 14 nhà kính có công suất tương tự nhưng sử dụng hệ thống sưởi thứ hai (sưởi bằng nước nóng) thì chi phí là 32.000 U$/năm và độ lệch chuẩn là 1.000 U$. Hãy xác định xem có sự khác nhau thực sự về chi phí vận hành giữa hai hệ thống này với mức α = 0,05.

Giải:

Ta sử dụng kiểm định giả thiết cả 2 phía. Đặt giả thiết như sau:

H0: μ1 = μ2

H1: μ1 μ2

Giá trị tới hạn để so sánh ở mức độ tin cậy và kích thước mẫu xác định mức độ tự do như sau:

df = n1 + n2 - 2

= 16 + 14 - 2 = 28

Giá trị tới hạn t cho sẵn (từ bảng phụ lục E với 28 df và ỏ = 0,05) là ±2,048

Trước khi tính t, ta cần tính giá trị Sp:

98

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Tính t:

Vì giá trị t tính nằm trong vùng bác bỏ giả thiết (Hình 7.4) nên có thể kết luận rằng sự khác nhau về chi phí vận hành của 2 hệ thống sưởi là có ý nghĩa thống kê.

Ví dụ 7.4: Một nhà nghiên cứu vật nuôi làm thí nghiệm sử dụng cám gạo võ béo lợn. Tuy nhiên cám gạo có đắt hơn so với khẩu phần ăn thông thường. Theo tính toán nếu lợn tăng trọng ít nhất là 5 kg khi dùng cám gạo thì vẫn có lãi nhiều hơn. Trong 1 thí nhgiệm cho thấy các kết quả như bảng sau. Hãy kiểm tra xem việc bổ xung cám gạo có làm tăng nhanh trọng lượng hơn nuôi theo khẩu phần ăn thông thường, lấy =0,01.

Bổ sung cám gạo Không bổ sung cám gạo

n1=10

X = 99,5 kg

S1= 3,5 kg

n2=8

X = 95,8 kg

S2=2,5 kg

Vì dự đoán cho rằng lợn cho ăn cám gạo sẽ tăng trọng nhiều hơn thông thường nên ta áp dụng kiểm tra theo 1 phía.

Đặt giả thiết:

H0: μ1 - μ 2 ≤ 5

H1: μ 1 - μ 2 > 5

99

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hình 7.4. Vùng chấp nhận và bác bỏ cho df = 28 và = 0,05

Theo bảng thống kê tính sẵn ở độ tin cậy 0,01 và df = 16 ta có giá trị tới hạn là + 2,583.

Tính t:

Vì t tính có giá trị -0,83 là nhỏ hơn +2,583 nên giả thiết H0 được chấp nhận và có thể kết luận là việc bổ sung khẩu phần cám gạo trong thí nghiệm này đã làm tăng ít nhất 5kg thịt lợn so với khẩu phần ăn thông thường.

7.4. Kiểm tra tỉ lệ phần trăm 2 mẫu khi có kích thước lớn

Chúng ta gỉa sử kích thước mẫu lớn thì tỉ lệ phần trăm mẫu được xem như là đặc trưng cho tỷ lệ phần trăm tổng thể . Nếu chúng ta đặt giả thiết rằng thì gỉa thiết không sẽ là:

H0:

Nếu giả thiết không (H0) là thực thì tỷ lệ phần trăm mẫu p1 và p2 là các ước lượng không đúng. Để đạt được sự ước lượng tốt nhất của giá trị, giá trị trọng số của 2 phần sẽ là:

Trong đó = Trung bình trọng số của hai phần mẫu

x1=Số quan trắc của mẫu 1

x2= Số quan trắc của mẫu 1

n1=Kích thước (cỡ) mẫu 1

100

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

n2= Kích thước (cỡ) mẫu 2

Với mẫu có kích thước lớn thì phân phối ngẫu là gần vỡi phân phối bình thường và kiểm tra thống kê như sau:

Trong đó: p1= Tỷ lệ phần trăm mẫu 1

p2= Tỷ lệ phần trăm mẫu 2

= Tỷ lệ phần trăm mẫu thực của tổng thể 1

= Tỷ lệ phần trăm mẫu thực của tổng thể 2

S(p1-p2)= Sai số chuẩn của tỷ lệ phần trăm

Vì chúng ta đã giả thiết , ta có:

Dựa trên giả thiết đã được đưa ra , cách tính sai số chuẩn để đạt được sự ước lượng tốt nhất của giá trị chung .

Sai số chuẩn của tỷ lệ phần trăm p1 và p2 được tính như sau:

Sai số chuẩn này được dùng để thay thế cho sai số chuẩn của tỷ lệ phần trăm (Sp1-p2) trong phương trình [7-12] để tính z thống kê. Trong trường hợp này việc tính z như sau, trong đó Do là sự sai khác giữa và .

101

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 7.5: Một nhà làm vườn sử dụng chất kìm hãm sinh trưởng PP333 để hạn chế sự tăng chiều cao cây đói với 2 loại cây cảnh khác nhau và cho rằng hai loại cây này có phản ứng như nhau đối với PP333. Kết quả đo ngẫu nhiên 36 cây thuộc họ đậu (loại cây thứ nhất) và 40 cây không phải họ đậu (loại cây thứ hai) dều có sử lý với PP333 ngay từ giai đoạn đầu khi cây còn non cho thấy chiều cao trung bình ở nhóm cây thứ nhất giảm 23 cm và ở nhóm cây thứ hai giảm 20 cm. Hãy kiểm tra giả thiết cho rằng hai nhóm cây có phản ứng như nhau đối với PP333; với độ tin cậy 0,05.

Giải:

Đặt giả thiết H0:

H1:

Đây là trường hợp kiểm tra cả hai phía vì chúng ta cần xác định hai tỷ lệ phần trăm có tương đương hay không. Với kích thước mẫu lớn, ta sử dụng phân phối z. Ranh giới giữa vùng bác bỏ là 1,96.

Giả thiết H0 dược chấp nhận nếu tỷ lệ tới hạn nằm trong khoảng 1,96 và bị bác bỏ nếu tỷ lệ tới hạn là nhỏ hơn -1,96 hoặc lớn hơn +1,96.

Vì chúng ta giả thiết rằng sự ước lượng tỷ lệ phần trăm tổng thể ( ) sé được dựa vào công thức [7-10], tức là:

Tính thống kê giá trị z:

Giá trị z tính là 1,27 nằm trong khoảng chấp nhận của H0. Do vậy có thể kết luận rằng cả 2 loại cây nghiên cứu đều có phản ứng như nhau đối với chất kìm hãm được sử dụng.

102

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 7.6: Một kỹ sư Một kỹ sư nông nghiệp cho rằng việc gắn vào máy cày một thiết bị mới cải tiến sẽ làm giảm ma sát khi cày đất có thành phần cơ giới nặng nên sẽ được nhiều người dân sử dụng hơn.

Để kiểm tra giả thiết này, nhà sản xuất đã hỏi ý kiến của người dân ở 2 vùng đất có thành phần cơ giới khác nhau (35 người cho mỗi vùng). Kết quả cho thấy có 22 người ở vùng đất sét nặng và 18 người ở vùng đất sét trả lời là thích sử dụng máy cày có gắn thêm thiết bị mới. Với mức độ có ý nghĩa ở 0,01, hãy xác định xem ý kiến của kỹ sư nông nghiệp đưa ra là đúng sự thực hay không.

Giải:

Đây là trường hợp kiểm tra một phía (bên phải) vì chúng ta chỉ muốn kiểm tra xem tỷ lệ phần trăm người nông dân thích sử dụng máy cày có gắn thiết bị mới ở vùng đất sét nặng là cao hơn ở vùng đất sét.

Đặt giả thiết như sau:

H0:

H1:

Vì yêu cầu mức có ý nghĩa là 0,01 và kiểm định 1 phía nên giá trị z) tra từ phụ lục C) là +2,33. Như vậy giả thiết H0 được chấp nhận khi tỷ lệ tới hạn ≤2,33, hoặc bị bác bỏ nếu >2,33.

Kiểm định thống kê theo phương trình [7-12] tính tỷ lệ tới hạn như sau:

Trước hết cần tính sai số chuẩn của tỷ lệ phần trăm của số phần trăm ước lượng:

103

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ta có:

Vì tỷ số tới hạn tính z = 1,02 nằm trong vùng chấp nhận giả thiết H0 nên có thể kết luận rằng sự khác nhau về ý kiến của những người nông dân ở 2 vùng đất nghiên cứu là không có ý nghĩa.

Ví dụ 7.7: Các nhà nghiên cứu ở trung tâm giống lúa lai tạo ra một giống mới VN420 với hy vọng sẽ tăng năng suất thêm 2 tạ/ha (tương ứng tăng năng suất 5%) so với giống lúa VN400 đã được tạo ra trước đó. Khảo sát năng suất của 2 giống lúa này cho kết quả như ở bảng sau. Hãy kiểm định giả thiết ở mức tin cậy 0,05.

Giống

lúa

Diện tích lấy mẫu

(ha)

Diện tích có năng suất tăng ít nhất từ 2 tạ/ha

VN420 50 40

VN400 50 36

Giải:

Đặt giả thiết:

H0: p1 – p2 ≤ 0,05

H1: p1 – p2 > 0,05

Ở đây kích thước mẫu được xem là lớn, với mức có ý nghĩa 0,05 ta có giá trị tới hạn Z = 1,64. Do vậy, giả thiết H0 sẽ được chấp nhận nếu tỷ số tới hạn tính là ≤ 1,64, và sẽ bị bác bỏ nếu tỷ lệ này là > 1,64.

Vì đã giả thiết rằng sự khác nhau của tỷ lệ phần trăm giữa giữa các tổng thể là khác không (0), chúng ta sẽ sử dụng công thức [7-14] để tính Z như sau:

104

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Vì z tính được là 0,38 nhỏ hơn 1,64 nên giả thiết H0 được chấp nhận. Ta nói rằng giả thiết được đưa ra bới các nhà nghiên cứu là không thực tế.

Chương 8. PHÂN TÍCH PHƯƠNG SAI

8.1 Giới thiệu

Ở chương trước đã đề cập đến việc đánh giá sự khác nhau giữa 2 tổng thể. Trong chương này sẽ nói rõ về việc so sánh 3 hoặc nhiều hơn các tổng thể riêng rẽ. Tuy nhiên các bước thực hiện để kiểm định giả thiết về sự khác nhau giữa 2 hoặc nhiều hơn các tổng thể ở chương 7 sẽ không phù hợp lắm, Ví dụ: nếu muốn so sánh sự khác nhau về năng suất của 15 giống khác nhau, ta phải tính giá trị trung bình và độ lệch chuẩn của mỗi một mẫu ngẫu nhiên của từng giống lúa, sau đó lại so sánh chúng với nhau theo từng cặp. Cách tính này rất mất thời gian. Để khắc phục điều này người ta sử dụng kỹ thuật phân tích phương sai ANOVA (Analysis of Variance). Kỹ thuật này được R.A. Fischer phát triển vào những năm 1920 và được sử dụng rất phổ biến trong khoa học nông nghiệp cũng như các ngành khoa học ứng dụng khác.

Trong phân tích phương sai, chúng ta sử dụng các số liệu để so sánh ở nhiều mức độ khác nhau trong phép thử để xem các tác động của các yếu tố khác nhau. Một phép thử theo nghĩa rộng sẽ đại diện cho một biến nào đó mà người nghiên cứu quan tâm. Chẳng hạn với các nhà nông học thì lượng phân bón cho một loại cây trồng nào đó được coi là một phép thử (treatment).

105

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Một khái niệm khác cần quan tâm là đơn vị thí nghiệm (experiment unit). Một đơn vị thí nghiệm bao gồm nhiều phép thử trong đó. Ví dụ: với nghiên cứu môi trường thì một dòng sông hoặc một khu rừng dược xem như là 1 đơn vị thí nghiệm. Với một nhà chăn nuôi thì đơn vị thí nghiệm có thể là bò hoặc dê, còn với các nhà nông học thì đơn vị thí nghiệm là những thửa ruộng.

ANOVA cho phép chúng ta xem xét mức độ biến động của các số liệu thí nghiệm có thực sự khác nhau ở các tổng thể khác nhau. Chúng ta sẽ so sánh phương sai (phương sai là bình phương của độ chuẩn) của nhiều hơn 2 các tổng thể để xem các giá trị trung bình của chúng có giống nhau không dựa trên việc sử dụng phân phối F.

Cũng như hàm phân phối t, phân phối F là đường cong lồi và các giá trị của nó dao động từ 0 đến vô cùng. Tuy nhiên dạng đường cong phụ thuộc vào bậc tự do. Kiểm tra F là một tỷ số giữa sự biến động được giải thích bằng các phép thử chia cho sai số hoặc sự biến động không giải thích dược.

Tuỳ theo cách khái niệm F, ta có 2 loại bậc tự do, một loại liên quan đến tử số và một loại liên quan đến mẫu số.

Phân phối F là phân phối xác suất liên tục, vì vậy giá trị F được xác định là diện tích phía dưới đường cong. Hình 8.1 mô tả đường cong phân phối F điển hình.

Hình 8.1. Một số dạng đường cong phân phối F.

Nhìn chung chúng ta có thể nói rằng kỹ thuật ANOVA chia tổng phương sai của tập hợp số liệu thành nhiều hợp phần. Mỗi một hợp phần có nguồn biến động riêng mà ANOVA sẽ xác định và chỉ ra. Thêm vào đó mức độ đóng góp của mỗi biến động sẽ được mô tả bởi thủ tục này. Vì phươngpháp này chia tổng biến động thành từng phần, nên ta có thể xem ANOVA như một loại hồi qui bội đặc biệt.

Về mặt lý thuyết ANOVA dựa trên một loạt các giả thiết sau:

1. Các mẫu dượclấy ngẫu nhiên và độc lập nhau

2. Tổng thể có phân phối gần với phân phối thôngthwờng

106

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3. Phương sai ( ) của các tổng thể là như nhau

Cũng cần lưu ý rằng không phải tất cả các giả thiết trên đều đồng thời có mặt trong một tình huống. Do vậy cần hiểu một cách cặn kẽ vì chúng có những áp dụng rất quan trọng.

Cochran (1947) cho rằng ANOVA sẽ cho kết quả chính xác vì nó dề cập đến tất cả các gỉa thiết.

Trong chương này ta xét kỹ thuật ANOVA áp dụng cho ba kiểu thiết kế thí nghiệm. Phần 8.2 đề cập dến phân tích phương sai một yếu tố (one-factor analysis of variance) trong thí nghiệm được thiết kế hoàn toàn ngẫu nhiên (completetly randomized design). Việc áp dụng thiết kế thí nghiệm này khi điều kiện thí nghiệm hoặc trong đơn vị thí nghiệm là tương đối đồng nhất. Trong phần 8.3 kỹ thuật ANOVA được áp dụng cho thí nghiệm gồm 2 yếu tố (two-factors design) hoặc thí nghiệm được thiết kế theo khối ngẫu nhiên (ranđomized block design) khi có sự không đồng nhất trong các điều kiện thí nghiệm. Để khắc phục diều này thí nghiệm được chia ra những đơn vị nhỏ hơn dược gọi là các khối (blocks). Những điều kiện thí nghiệm trong mỗi khối sẽ ít có sự khác biệt và được xem như đồng nhất. Phần 8.4 là thiết kế theo kiểu ô vuông hay thiết kế Latinh (Latin square design). Thiết kế này được áp dụng khi có 2 nguồn biến động cần kiểm soát, hoặc được xem như phương pháp đánh giá ảnh hưởng của phép thử khi có 2 loại khối được sử dụng trong một đơn vị thí nghiệm.

8.2. Phân tích phương sai một yếu tố

8.2.1. Kích thước mẫu như nhau:

Trong trường hợp này chỉ có một yếu tố biến động trong thí nghiệm, còn các yếu tố khác được cố định. Đồng thời kích thước mẫu và số lần lặp lại của thí nghiệm là như nhau. Ví dụ, một nhà nông học làm thí nghiệm bón phân với các lượng bón khác nhau, còn các yếu tố khác như chế độ nước tưới, bảo vệ thực vật được giữ cố định.

107

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong phân tích phương sai một yếu tố, tổng của các biến động ở dạng tổng của tổng bình phương SST (Total sum of squares) được chia thành 2 hợp phần. Một là biến động do yếu tố thí nghiệm và một phần còn lại là biến động do các sai số thí nghiệm. Sự biến động do yếu tố thí nghiệm SSTr (treatment sum of squares) là sự biến động giữa các mẫu, còn sự biến động trong mẫu được biểu diễn tổng sai số bình phương SSE (error sum of squares).

- Tính tổng của tổng bình phươngcác biến động (SST): Khi so sánh một số nhóm ta cộng mọi giá trị trong nhóm để tính số trung bình chung (Grand mean hoặc Total mean) cho toàn bộ các nhóm. Để xác định sự biến động của mỗi giá trị từ số trung bình, chúng ta tính tổng của tổng bình phương và sự sai khác giữa các giá trị quan trắc và số trung bình chung.

Trong đó:

SST= Tổng của tổng bình phương

Xij = Gía trị quan trắc của hàng thứ i (lần nhắc lại) và cột thứ j (phép thử)

= Số trung bình chung

Về mặt toán học thì SST là tổng của tổng bình phương độ biến động thí nghiệm (SSTr) và tổng bình phương các sai số (SSE), nghĩa là:

SST = SSTr + SSE [8-2]

- Tổng của bình phương biến động thí nghiệm (SSTr) là sự khác nhau giữa số trung bình của mỗi nhóm và số trung bình chung được tính như sau:

Trong đó SSTr= Tổng bình phương của thí nghiệm

r=Số lần nhắc lại (hàng) cho một phép thử (treatment)

108

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

= Số trung bình của cột thứ j hoặc cho phép thử

= Số trung bình chung

- Tổng của tổng bình phương sai số (SSE) là sự biến động trong các mẫu (within samples). Nó dược tính bằng sự sai khác giữa mỗi giá trị riêng biệt và số trungbình của nhóm có chứa giá trị đó.

Tổng của tổng bình phương sai số được tính theo công thức

Trong dó: Xij = Gía trị quan trắc ở hàng thứ i và cột thứ j (treatment)

= Số trungbình của cột thứ j (treament)

Sau khi đã tính các bình phương, ta tính F theo công thức:

Cũng như ở phương trình [8-5], phương pháp thống kê có phân bố F với k-1 và N-k bậc tự do (df). Ở đây k = số phép thử (treatment), N = Số quan trắc.

Trong ANOVA chúng ta lấy tổng của tổng bình phương chia cho số bậc tự do tương ứng như là số trung bình bình phương (mean square).

Giá trị F được tính như sau:

F = (Số trung bình bình phương của phép thử/ Số trung bình bình phương sai số) [F=(treatment mean square/error mean square)] [8-6]

Nếu tử số và mẫu số là sấp xỉ bằng nhau thì tỷ lệ biến động (variance ratio) sẽ gần bằng 1. Có nghĩa là giả thiết Ho cho các số trungbình bình phương của các nhóm cũng xấp xỉ như nhau.

Nếu số trung bình bình phương của phép thử là lơn hơn số trung bình bình phương sai số, tỷ lệ biến động sẽ lớn hơn 1. Trong trường hợp này giả thiết cho rằng các giá trị trung bình của các nhóm là tương dồng sẽ bị bác bỏ. Giá trị F tính là cơ sở để bác bỏ giả thiết Ho về sự biến động ngang nhau phụ thuộc vào mức tới hạn của

109

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

lựa chọn. Giá trị tới hạn của thí nghiệm phụ thuộc vào mức độ ý nghĩa được chọn bởi các nhà nghiên cứu hoặc quản lý. Kỹ thuật phân tích phương sai một yếu tố dược tóm tắt ở Bảng 8.1.

Bảng 8.1. Bảng phân tích phương sai (ANOVA) một yéu tốNguồn biến động Bậc tự

doTổng bình phương

Số trung bình bình phương

F

Phép thử (Tretrament) (k-1) SSTr MSTr=SSTr/(k-1) MSTr/MSE

Sai số (Error) (N-k) SSE MSE=SSE/(N-k)

Tổng (Total) (N-1) SST

Ví dụ 8.1: Một nhà nghiên cứu môi trường lấy ngẫu nhiên 12 mẫu nước ở 3 khu vực khác nhau, mỗi khu vực lấy 4 mẫu. Khu vực 1 lấy ở thượng nguồn của một nhà máy công nghiệp ở cạnh bờ sông, khu vực 2 lấy ngay sau nhà máy và khu vực 3 lấy cách 1 km ở hạ lưu nơi mà nước thải từ nhà máy được đổ vào sông. Hãy xác định xem có sự khác nhau về lượng oxy hoà tan (DO) trong mẫu nước ở các địa điểm lấy mẫu kháu nhau, với = 0,05. Các giá trị đo đạc như sau:

Khu vực Hàm lượng DO ở các mẫu nước (ppm)

1

2

3

6,8

3,9

4,7

6,5

4,8

4,9

6,3

4,2

4,1

6,6

5,0

3,9

Giải:

-Bước 1: Đặt giả thiết

H0:

H1: Khôngphải tất cả các là bằng nhau

-Bước 2. Tính tổng các phép thử (Treatment total), các số trung bình tương ứng và số trung bình chung.

110

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hàm lượng trung bình DO ở các khu vực lấy mẫu khác nhau:Mẫu Khu vực lấy mẫu

I II III

1 6,8 3,9 4,2

2 6,5 4,8 4,7

3 6,3 4,2 4,1

4 6,6 5,0 3,9

Tổng 26,2 17,9 16,9

Trung bình =6,55 =4,48 =4,23

Số trung bình chung là:

-Bước 3. Tính tổng bình phương cho phép thử, tổng bình phương sai số và tổng của tổng bình phương như sau:

Để tính SSE ta lập bảng 8.2.

Bảng 8.2. Tính tổng của tổng bình phương các sai số (SSE)i

1 (6,6-6,55)2=0,0625 (3,9-4,48)2=0,3364 (4,2-4,23)2=0,009

2 (6,5-6,55)2=0,0025 (4,8-4,48)2=0,1024 (4,7-4,23)2=0,2209

3 (6,3-6,55)2=0,625 (4,2-4,48)2=0,0784 (4,1-4,23)2=0,0169

4 (6,6-6,55)2=0,0025 (5,0-4,48)2=0,2704 (3,9-4,23)2=0,1089

Tổng 0,13 0,7876 0,3476

111

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Tính SST theo một trong hai cách sau:

Cách 1:

Cách 2:

SST = SSTr + SSE [8-7]

= 13,03+1,27

= 14,30

(Ghi chú: Có sự khác nhau khá nhỏ giữa 2 cách tính SST là do quá trình làm tròn số).

-Bước 4: Thiết lập bảng phân tích phương sai (Bảng 8.3).

Bảng 8.3. Bảng phân tích phương sai (ANOVA) một yéu tốNguồn biến động Bậc tự

doTổng bình phương

Số trung bình bình phương

F

Phép thử (Tretrament) 3-1=2 12,87 6,49 6,49/0,14=46,35

Sai số (Error) 12-3=9 1,27 0,14

Tổng (Total) 12-1=11 14,24

- Bước 5: Gía trị F tra trong bảng (với α = 0,05 ; só bậc tự do là 2 và 9) là 4,26. Vì F tính là 46,35 lớn hơn rất nhiều 4,26 nên giả thiết H0 bị bác bỏ. Ta oó thể kết luận rằng mẫu nước ở 3 khu vực lấy mẫu có sự khác nhau về hàm lượng oxy hoà tan.

-Phương pháp rút gọn tính tổng bình phương:

112

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong đó: Tj=Tổng r quan trắc (lần nhắc lai) ở cột j

C= dạng diều chỉnh được tính như sau:

Trong đó T là tổng chung của tất cả các hàng (r) và cột (c) quan trắc.

Trong đó Xij là giá trị quan trắc ở hàng thứ i, cột thứ j. Sử dụng số liệu ở ví dụ 8.1 ta có cách tính tổng bình phương như sau (số liệu Bảng 8.4):

Bảng 8.4. Phương pháp tính rút gọn

Mẫu Địa điểm 1 Địa điểm 2 Địa điểm 3

1 6,8 3,9 4,2

2 6,5 4,8 4,7

3 6,3 4,2 4,1

4 6,6 5,0 3,9

Tổng 26,2 17,9 16,9

Trung bình =6,55 =4,48 3X = 4,23

Chú ý: Số trung bình chung= (6,55+4,48+4,23)/3=5,08

Tổng chung:(T)=26,2+17,9+16,9=61,0

113

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Sau khi đã xác định tổng của tổng bình phương các phép thử và tổng bình phương sai số, dùng công thức theo cách tính rút gọn. Thiết lập bảng ANOVA cà tính thống kê tương tự như ví dụ 8.1.

8.2.2. Kích thước mẫu khác nhau

Trường hợp kích thước các mẫu nghiên cứu sẽ không tương đương với nhau; ví dụ: Một nhà nghiên cứu vật nuôi tiến hành thí nghiệm với một số giống động vật lai. Vì số lượng ít nên ở các nhóm khác nhau số động vật là không giống nhau. Hoặc có thể khi bắt đầu thí nghiệm thì số động vật ở các nhóm là như nhau, nhưng trong quá trình chăn nuôi có một số con bị chết làm cho số lượng động vật ở các nhóm khác nhau.

Phương pháp ANOVA cũng tiến hành tương tự như trường hợp các mẫu bằng nhau. Tuy nhiên theo cách tính rút gọn có sự khác nhau. Cách tính toán thống kê như sau:

Trong đó T=Tổng chung (grand total)

rj=Số quan trắc ở cột thứ j

Tj là tổng các quan trắc ở cột thứ j.

114

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ví dụ 8.2: Một nhà kinh tế nông nghiệp điều tra về hiệu quả đầu tư ở những trang trại khác nhau; bao gồm 4 trang trại nhỏ, 5 trang trại trung bình và 6 trang trại lớn. Số liệu thu được về tỷ lệ giữa lãi suất và đầu tư như sau (%):

Trang trại nhỏ Trang trại trung bình Trang trại lớn

4 5 7

6 6 43 7 4

4 6 65 7

5

Giải:

Đặt gỉa thiết:

H0:

H1: Không phải tất cả các là bằng nhau

Lập bảng dể tính tổng các cột theo từng loại trang trại:

Bảng 8.5. Lãi suất trên vốn dầu tư ở các loại trang trại khác nhau (%)

Trang trại nhỏ Trang trại trung bình Trang trại lớn

4 5 7

6 6 4

5 7 4

4 6 6

115

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

5 7

5

Tổng 19 29 33

Chú thích: Tổng chung (T) =19+29+33=81

Tính SSTr, SSE và SST theo các công thức [8-11] và [8-12], [8-13] và [8-14]

Như phần trước dã trình bày: SST = SSTr + SSE

= 2,55+15,05

= 17,60

Xác định bậc tự do cho các phép thử và các nguồn sai số của các biến động:

Bậc tự do của phép thử (Tr.df)

Tr.df=k-1=3-1=2

Bậc tự do của các sai số

E.df=N-k=15-3=12

Xây dựng bảng phân tích phương sai (Bảng ANOVA) như bảng 8.6.

Bảng 8.6. Bảng phân tích phương sai cho tỷ lệ lãi suất so với đầu tư

116

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

ở các loại trang trại khác nhauNguồn biến động

Bậc tự do Tổng bình phương

Số trung bình bình phương

F

Phép thử (Trt) 2 2,55 1,28 1,28/1,25=1,02

Sai số (E) 12 15,05 1,25

Tổng (Total) 14 17,06

Tỷ số F tính 1,02 là nhỏ hơn giá trị tới hạn F cho sẵn 6,93 (tra bảng phụ lục F với =0,01; 2 df cho phép thử –Treatment và 12 df cho sai số –Error).

Do vậy giả thiết H0 dược chấp nhận và ta kết luận rằng không có sự khác nhau về tỷ lệ lãi suất so với dầu tư ở các trang trại có qui mô lớn nhỏ khác nhau.

8.3. Phân tích phương sai hai yếu tố (Two factor analysis of variance)

Phân tích phương sai một yếu tố như trình bày ở trên được áp dụng cho thiết kế thí nghiệm hoàn toàn ngẫu nhiên, dựa trên các phép thử được áp dụng ngẫu nhiên cho những đơn vị thí nghiệm riêng rẽ.

Trong trường hợp hai yếu tố, ta cần phân biệt ảnh hưởng của hai biến trong một thí nghiệm, Có hai trường hợp phân tích phương sai: (1) Thí nghiệm khối ngẫu nhiên và (2) thiết kế hoàn toàn ngẫu nhiên.

8.3.1. Phân tích phương sai trong thiết kế khối ngẫu nhiên

Trong nông nghiệp, khái niệm “khối” được sử dụng để chỉ những mảnh đất, một giống vật nuôi hoặc bất kỳ một yếu tố nào khác trong phân tích mà chúng có thể gây những biến động trong SST và làm giảm các biến động không giải thích được hoặc các sai số biến động. Trong thiết kế khối ngẫu nhiên, các phép thử (treatments) được bố trí một cách ngẫu nhiên thành từng đơn vị trong mỗi khối.

Ví dụ. Một nhà nônghọc muốn kiểm tra năng suất của ngô do ảnh hưởng của các liều lượng phân bón khác nhau, đồng thời cũng xem xét độ phì của đất như một yếu tố khác trong quá trình thí nghiệm. Ruộng thí nghiệm dược chia ra làm

117

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

nhiều khối có diện tích bằng nhau theo các độ phì đất khác nhau. Sau đó mỗi khối (blocks) lại chia thành các ô (plots) đều nhau (Hình 8.2). Mỗi ô thí nghiệm trong mỗi khối sẽ được lựa chọn ngẫu nhiên dể bón phân. Số liệu về năng suất ngô ở mỗi ô thí nghiệm với lượng phân bón khác nhau sẽ được theo dõi. Trong thí nghiệm thiết kế theo khối ngẫu nhiên, chúng ta có thể kiểm tra giả thiết để đánh giá xem có sự khác nhau về năng suất trung bình tổng thể từ các ô thí nghiệm (treatment) có lương phân bón khác nhau.

Giả thiết H0 cũng dược xác định tương tự như phân tích một yếu tố:

H0:

Bảng 8.7 là cách trình bày số liệu dùng cho phân tích phương sai 2 yếu tố. Các ký hiệu sử dụng ở đây cũng giống như trường hợp phân tích 1 yếu tố:

k= Số phép thử (treatment)

n= Số khối (Block)

Ti= Trung bình của khối thứ i

=Trung bình của khối thứ 2

T= Tổng chung bao gồm cả hàng và cộtI II III IV

1 2 1 2 1 2 1 2

Khối Ô

Hình 8.2. Sơ đồ thí nghiệm phân bón thiết kế theo khối ngẫu nhiên

(1=có bón phân và 2=không bón phân)

Bảng 8.7. Bảng số liệu phân tích phương sai 2 yếu tốKhối Phép thử (treatment)

118

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

1 2 3 ... k Tổng Trung bình

1 X11 X12 X13 ... X1k T1

2 X21 X22 X23 ... X2k T2

3 X31 X32 X33 ... X3k T3

4 X41 X42 X43 ... X4k T4

. . . . ... . . .

n Xn1 Xn2 Xn3 ... Xnk Tn

Tổng T1 T2 T3 ... Tk

Trung bình ...

Trong phân tích phương sai hai yếu tố, tổng biến động (SST) được chia thành 3 hợp phần là SSTr, SSB (cho khối hoặc lần nhắc lại) và SSE. Công thức tính cho các hợp phần này như sau:

-Tổng của tổng bình phương

hoặc:

Trong đó:

Xij= Giá trị quan trắc thứ i ở khối j

= Số trung bình chung

C= Số hiệu chỉnh (C=T2/bk)

119

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

T=Tổng chung cho tất cả các quan trắc

b=Số khối (số hàng)

k= Số các phép thử (số cột)

Tổng bình phương cácphép thử:

hoặc:

Trong đó Tj= Tổng của tất cả cácquan trắc ở phép thử j

b= Số khối

Xj= Trungbình mẫu của phép thử thứ j

= Số trung bình chung

-Tổng bình phương của khối:

Hoặc:

Trong đó: Ti= Tổng của tất cả các quan trắc ở khối thứ i

k= Số phép thử

C= Yếu tố hiệu chỉnh

= trung bình mẫu của khối thứ 2

= Số trung bình chung120

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Tổng sai số bình phương

SSE=SST-SSTr-SSB

Sau khi tính các tổng bình phương, ta tính số trung bình bình phương và các tỷ số như ở Bảng 8.8.

Ví dụ 8.3:

Một nhà nghiên cứu nông nghiệp muốn xác định ảnh hưởng khác nhau của các phương pháp tưới (k-3) đến năng suất cà chua. Một thí nghiệm đồng ruộng được thiết kế theo khối ngẫu nhiên (B=5), diện tích mỗi khối là 50m2. Hãy kiểm tra xem có sự khác nhau về năng suất cà chua ở các công thức tưới khác nhau, với =0,05.

Bảng 8.8. Bảng ANOVA thiết kế thí nghiệm khối ngẫu nhiên (k phép thử và b khối)Nguồn biến động Bậc tự do Tổng bình

phươngTrung bình bình phương

F

Giữa các phép thử k-1 SSTr SSTr/(k-1)

Giữa các khối b-1 SSB SSB/(b-1)

Sai số (k-1)(b-1) SSE SSE/(k-1)(b-1)Tổng bk-1 SST

Năng suất cà chua ở 3 cách tưới khác nhau (tạ /ha)

Khối Cách tưới

Nhỏ giọt Phun Làm ngập nước

I 22 19 16

II 19 19 18

III 20 16 19

IV 23 20 13

V 21 17 15

121

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Giải

-Đặt giả thiết

H0= μ1=μ2=μ3

H1: không phải là tất cả μ bằngnhau

-Tính các giá trị dựa trên số liệu ở Bảng 8.9.

Bảng 8.9. Năng suất cà chua ở các ô thí nhgiệm khác nhau (tạ/ha)

Khối Khối Tổng hàngNhỏ

giọtphun Làm ngập

nước

I 22 19 16 57

II 19 19 18 56

III 20 16 19 55

IV 23 20 13 56

V 21 17 15 53

Tổng cột (Tj) 105 91 81

Tổng chung (Tij)

277

+ Tính số hiệu chỉnh:

+Tính SST:

122

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

+Tính SSTr:

+ Tính SSB

+Tính SSE:

SSE=SST-SSTr-SSB=101,74-58,14-3,07=40,5

Ta có bảng ANOVA như sau:

Bảng 8.10. Bảng ANOVA cho thí nghiệm 2 yếu tố tưới nướcNguồn biến động Bậc tự do Tổng bình

phươngSố trung bình bình phương

F

Phương pháp tưới nước

3-1=2 58,14 29.07 29.07/5,07=5,73

Khối 5-1=4 3,07 0,77

Sai số (3-1)(5-1)=8 40,53 5,07

Tổng 14 101,74

Tỷ số F tính 5,73 (Bảng 8.10) là lớn hơn so với gía trị tới hạn F 0,05 (2,8)=4,46 (tra bảng phụ lục F với α=0,05, bậc tự do ở tử số là 2 và ở mẫu số là 8). Như vậy giả thiết H0 bị bác bỏ và ta kết luận rằng có sự khác nhau ý nghĩa về năng suất trung bình ở các phương thức tưới nước khác nhau.

8.3.2. Phân tích phương sai 2 yếu tố trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (Completely randanmized design)

Trong ví dụ 8.3 chúng ta chỉ quan tâm đến phương pháp tưới khác nhau đối với năng suất cà chua. Phương pháp thiết kế thí nghiệm ngẫu nhiên còn cho phép

123

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

nhà nghiên cứu chú ý đến cả 2 yếu tố, tức là kiểm tra đồng thời với 2 gỉa thiết không (H0):

1.H0: Không có sự khác nhau về năng suất trung bình ở các phươngpháp tưới khác nhau.

2. H0: Không có sự khác nhau về năng suất trung bình ở các khối có độ phì đất khác nhau.

Vì giả thiết không (H0) thứ nhất đã được kiểm định với thiết kế khối ngẫu nhiên. Bây giờ ta sẽ kiểm định cho giả thiết không thứ 2. Bảng 8.11 cho thấy tổng bình phương, F tính cho kiểm định giả thiết về sự khác nhau của năng suất trung bình giữa các khối có độ phì đất khác nhau. Gía trị F tính 0,15 là nhỏ hơn nhiều so với giá trị tới hạn F=3,84 (tra bảng phụ lục F với α =0,05, bậc tự do của tử số là 4 và của mẫu số là 8).

Bảng 8.11. Bảng ANOVA cho năng suất cà chua với thiết kế thí nghiệm

ngẫu nhiên 2 yếu tố là phương pháp tưới và độ phì đất

Nguồn biến động Bậc tự do Tổng bình phương

Trung bình bình phương

F

Thí nghiệm (Trt) 3-2=1 38,14 29,07 0,77/5,07=0,15

Khối (B) 5-1=4 3,07 0,77

Sai số (E) (3-1)(5-1)=8 40,53 5,07

Tổng (Total) 14 101,74

Vì tỷ số F tính nhỏ hơn F tới hạn nên giả thiết H0 được chấp nhận. Ta có thể nói rằng sự khác nhau về năng suất cà chua do độ phì đất là không có ý nghiã.

Trong thiết kế thí nghiệm theo khối ngẫu nhiên có nhiều ưu điểm. Trước hết khi các nghiên cứu với những vật liệu thí nghiệm không đồng nhất; phương pháp này sẽ cho khả năng nghiên cứu sự tương tác hoặc ảnh hưởng đồng thời cả 2 yếu tố và có thể xem xét ảnh hưởng của từng yếu tố một. Thứ hai, sự biến dộng trong thiết

124

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

kế khối ngẫu nhiên là nhỏ hơn thiết kế ngẫu nhiên hoàn toàn, đặc biệt là khi có sự biến động khác nhau trong lần nhắc lại. Thứ ba, thiết kế khối ngẫu nhiên giảm dược các sai số thí nghiệm làm tăng gía trị F và do vậy làm tăng khả năng bác bỏ các giả thiết sai lầm .

8.4. Thiết kế hình vuông Latinh (Latin square design)

Phần trước ta đã xét thiết kế thí nghiệm cho một hoặc hai yếu tố. Tuy nhiên khi các yếu tố thí nghiệm tăng lên và mỗi yếu tố thí nghiệm lại có một vài đặc điểm khác nhau, chúng ta phải sử dụng phương pháp thí nghiệm yếu tố (Factorial experiment). Trong trường hợp này ta có thể kiểm tra nhiều vấn đề khác nhau. Ví dụ thí nghiệm đánh giá ảnh hưởng của 4 khẩu phần ăn khác nhau đến sự tăng trọng của động vật. Thiết kế thí nghiệm đồng thời phải xem xét đến các yếu tố khác nhau có ảnh hưởng đến sự tăng trọng, như tăng trọng ban đầu và tuổi của động vật. Lúc này ta có thể hình thành bốn khối cho các trọng lượng ban đầu và bốn khối cho các tuổi khác nhau. Nếu thí nghiệm được lặp lại bốn lần với 2 khối các yếu tố, mỗi khối có 4 loại ta cần có 4x4x4xn=65n vấn đề. Trong thí nghiệm với số lượng lớn các yếu tố thì số lượng các chủ đề yêu cầu cũng rất lớn.

Thiết kề hình vuông La tinh cho phép giảm được các chủ đề yêu cầu và đánh giá được hiệu quả tương đối của các thí nghiệm khác nhau. Về cơ bản thiết kế này đòi hỏi mối yếu tố phải có cùng số lượng vế các đặc diểm. Như trong ví dụ kể trên với các thí nghiệm về khẩu phần ăn, chúng ta chỉ cần 16 thay vì 64 chủ đề.

Sơ đồ thiết kế phải bảo đảm cho mỗi một phép thử xuất hiện một lần trong mỗi đặc điểm của các yếu tố khối. Các yếu tố khối thường được biểu thị ở khối hàng và cột. Sơ đồ ngẫu nhiên của thiết kế hình vuông Latin với 4 phép thử A, B, C và D như sau:

Yếu tố khối

I II III IV

1 A B C D

2 B C D A125

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

3 C D A B

4 D A B C

Cần chú ý rằng chúng ta có 2 yếu tố khối (blocking factors), mỗi một khối có thể được ký hiệu bằng chữ La mã hoặc chữ số Ả rập. Chữ hoa A, B, C và D là các thí nghiệm và chỉ xuất hiện một lần ở mỗi hàng và cột.

Ví dụ 8.4:

Một nhà nông học kiểm tra ảnh hưởng 4 loại phân bón khác nhau (A, B, C và D) đến năng suất lúa trong một thí nghiệm được thiết kế theo hình vuông Latin. Các hàng và cột trong bảng sau cũng tương ứng với cách bố trí ở ngoài đồng ruộng. Năng suất lúa được ghi tương ứng (tấn/ha) bên cạnh. Kiểm tra năng suất trung bình có bằng nhau ở 4 loại phân bón, độ tin cậy ở 5%.

Hàng Cột

I II III IV

1 A 4,8 B 5,2 C 4,9 D 4,7

2 B 4,6 C 5,0 D 4,8 A 5,1

3 C 4,5 D 3,8 A 5,0 B 5,3

4 D 3,9 A 5,4 B 4,9 C 5,0

Giải:

Đặt giả thiết

H0=μ1= μ 2= μ 3= μ 4

H1: Không phải tất cả các μ đều bằng nhau

Lập bảng 8.12 với các hàng và cột cho các phép thử

Từ số liệu ở Bảng 8.12 ta tính các giá trị sau:

+Số hiệu chỉnh

126

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Bảng 8.12. Hàng, cột và tổng các phép thử cho năng suất lúa

Hàng Cột Tổng hàng Tổng thí nghiệmI II III IV

1 A 4,8 B 5,2 C 4,9 D 4,7 19,6 A 20,3

2 B 4,6 C 5,0 D 4,8 A 5,1 19,5 B 20,0

3 C 4,5 D 3,8 A 5,0 B 5,3 18,6 C 19,4

4 D 3,9 A 5,4 B 4,9 C 5,0 19,2 D 17,2

Tổng cột 17,8 19,4 19,6 20,1

Tổng chung 76,9

+ Tổng của bình phương

+Tính tổng bình phương các thí nghiệm

+Tính tổng bình phương của hàng (Row sum of squares)

+ Tính tổng bình phương của cột (Column sum of squares)

+Tính tổng bình phương các sai số

SSE=TSS-SSTr-SSR-SSc

=2,95-1,47-0,15-0,74= 0,59

127

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Lập bảng ANOVA (Bảng 8.13):

Từ bảng 8.13 cho F tính là 5,0 ở mức tin cậy 0,05. Giá trị F tới hạn (tra bảng phụ lục F) là F 0,05 (3; 6) = 4,76

Vì F tính (5,0) là lớn hơn F tới hạn (4,76) nên giả thiết Ho bị bác bỏ, hay các loại phân bón đã có ảnh hưởng khác nhau đến năng suất lúa.

Bảng 8.13. Bảng phân tích phương sai về ảnh hưởng của 4 loại phân bón

đến năng suất lúa

Nguồn biến động Bậc tự do Tổng bình phương

Trung bình bình phương

F

Hàng 3 0,15 0,050

Cột 3 0,74 0,247

Thí nghiệm 3 1,47 0,490 5,0

Sai số 6 0,59 0,098

Tổng 15 2,95

PHẦN 4 PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ

CHƯƠNG 9 PHÂN TÍCH KHI BÌNH PHƯƠNG (χ2)

(Chi-squares Analysis)

9.1. Giới thiệu

128

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Các phương pháp được giới thiệu từ chương 1 đến chương 7 tập trung vào việc sử dụng phân bố thường hoặc phân bố t. Tuy nhiên trong nhiều trường hợp khi phân bố không tuân theo qui luật phân bố thường ta không áp dụng được các phương pháp phân tích như đã dược giới thiệu. Trong chương này sẽ đề cập đến việcsử dụng phân bố như bình phương (χ2 - Chi squaes distribution). Phân bố này có dạng tương tự như phân bố nhị thức (binomial). Không giống các phân bố t và F, phân bố χ2 bao gồm nhiều dường cong có hình dạng khác nhau phụ thuộc vào số bậc tự do (df). Hình 9.1 miêu tả một số dạng phân bố χ2 với các bậc tự do khác nhau.

Hình 9.1. Phân bố χ2 với các bậc tự do khác nhau

Phân tích χ2 dược sử dụng để kiểm định giả thiết về mức độ khác nhau có ý nghĩa giữa ba hoặc nhiều hơn các tỷ lệ phần trăm. Các nghiên cứu cho thấy kiểm định thống kê phi tham số (Nonparametric statistical test) có hiệu quả cao hơn trong việc phát hiện sự sai khác giữa các tổng thể so với phương pháp ước lượng thông số ở các chương trước, khi nào nó không tuân theo qui luật phân bố thường. Hơn nữa χ2 được sử dụng để kiểm định xem 2 biến có độc lập với nhau hay không, Khi các số liệu thu được từ nhiều phép thử khác nhau trong cùng một thí nghiệm, tiêu chuẩn χ2 có thể kiếm định tính đồng nhất của các số liệu từ tất cả các phép thử.

129

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Các bước tiến hành kiểm định χ2 với tính đồng nhất của các số liệu cũng được tiến hành tương tự như kiểm định tính độc lập của chúng.

Sau đây ta xét việc sử dụng tiêu chuẩn χ2 để kiểm định giả thiết cho 3 hoặc nhiều hơn tỷ lệ phần trăm tổng thể, kiểm định tính độc lập, sự phù hợp và tính đồng nhất của các số liệu.

9.2. Kiểm định sự sai khác giữa các tỷ lệ

-Bước 1: xác định giả thiết không (Ho) và đối thiết (H1)

Giả thiết H0 có thể là không có sự khác nhau một cách có nghĩa giữa các giá trị phần trăm của các tổng thể nghiên cứu. Đối giả thiét H1 sẽ là không phải tỷ lệ phần trăm của tất cả các tổng thể là bằng nhau.

-Bước 2. Chọn mức độ có ý nghĩa kiểm định

-Bước 3. Ghi chép các tần suất quan trắc thực tế đạt được từ các mẫu ngẫu nhiên được lấy từ tổng thể gnhiên cứu.

-Bước 4. Tính tần suất kỳ vọng (lý thuyết) hoặc tỷ lệ phần trăm nếu Ho là đúng.

-Bước 5. Tính χ2 theo công thứs sau:

Trong đó f0 = tần số quan trắc mẫu

fe=Tần suất kỳ vọng nếu Ho đúng (expected frequency)

- Bước 6. Kết luận dựa trên việc so sánh các giá trị X 2 tính được với χ2 tra từ bảng (phụ lục G). Nếu tính χ2 nhỏ hơn hoặc bằng χ2 tới hạn (χ2 tra bảng) thì giả thiết H0 được chấp nhận. Ngược lại nếu χ2 tính lớn hơn χ2 tới hạn thì giả thiết H0 bị bác bỏ. Hình 9.2 mô tả các vùng chấp nhận và bác bỏ trong phân bố χ2.

Hình 9.2. Vùng chấp nhận và bác bỏ ở mức 5%

Ví dụ 9.1:

130

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Một nhà khoa học môi trường muốn tăng cường tỷ lệ nảy mầm của hạt giống cỏ lúa. Hai giống cỏ được sử dụng là Paloma và Nezpaz có tỷ lệ hạt ngủ khá cao. Một nghiên cứu chỉ ra rằng xử lý hạt bằng dung dịch axit sẽ tăng tỷ lệ hạt nảy mầm. Kết quả trong thí nghiệm cho thấy với 200 hạt của mỗi giống được xử lý bằng axit sunphuaric với 3 nồng độ khác nhau. Hãy kiểm định xem có sự khác nhau giữa nồng độ axit với tỷ lệ hạt nảy mầm, với =0,01.

Kết quả xử lý axit và tỷ lệ hạt nảy mầm

Giống cỏ Số hạt nảy mầm xử lý bằng các nồng độ axit khác nhau

5% 10% 15%

Paloma 48 52 45

Nezpaz 62 55 48

Giải:

Đặt giả thiết:

H0: Tỷ lệ phần trăm nảy mầm của tổng thể hạt là không khác nhau khi xử lý bằng các axit có nồng độ khác nhau.

H1: Tỷ lệ phần trăm nảy mầm là không bằng nhau khi xử lý bằng các axit có nồng độ khác nhau.

Từ số liệu nghiên cứu ta lập bảng 9/1 để tính giá trị fe.

Bảng 9.1. Kết quả thí nghiệm ảnh hưởng của xử lý axit đến tỷ lệ hạt nảy mầm

Giống cỏ Số hạt nảy mầm ở các nồng độ axit khác nhau (H2SO4 %)

5% 10% 15% Tổng hàng

Paloma 48 52 45 145

Nezpaz 62 55 48 165

Tổng cột 110 107 93

131

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Tổng chung 310

Tần số quan trắc mẫu (f0) là các số liệu thu được từ thí nghiệm (Bảng 9.1).

Tần số kỳ vọng (fe) cho mỗi ô (cell) của bảng số liệu được tính theo công thức:

fe=[(Tổng hàng)(Tổng cột)] / Tổng chung [9-2]

Từ số liệu Bảng 9.1 ta tính tần số kỳ vọng cho các ô khác nhau. Ví dụ fe cho giống Paloma xử lý bằng H2SO4 5% là:

Tương tự như vậy ta tính fe cho các ô khác như kết quả ở Bảng 9.2 Bảng 9.2 cũng trình bày kết quả tính χ2 dựa vào phương trình [9-1]. Các giá trị tính χ2 sẽ được so với χ2 tra được ở Bảng phụ lục G. Nếu giá trị χ2 tính là sai khác không có ý nghĩa, chúng ta sẽ bác bỏ giả thiết Ho . Ngược lại nếu giá trị tính nằm trong vùng chấp nhận thì giả thiết H0 được chấp nhận.

Bảng 9.2. Tính giá trị χ2

Hàng/cột (ô) f0 fe f0-fe (f0-fe)2 (f0-fe)2/fe

1-1 48 51,45 -3,45 11,90 0.231

1-2 52 50,05 1,95 3,80 0,076

1-3 45 43,50 1,50 2,25 0,052

2-1 62 58,55 3,45 11,90 0,203

2-2 55 56,95 -1,95 3,80 0,067

2-3 48 49,50 -1,50 2,25 0,045

Tổng 310 310,00 0,00 0,674

Để tra dược χ2 trong bảng phụ lục G, ta cần xác định mức tin cậy và số bậc tự do (df):

df = (r - 1)( c- 1) [9-3]132

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong đó: r = Số hàng trong bảng số liệu (Bảng 9.1)

c = Số cột trong Bảng số liệu

Trong ví dụ này, ta xét với = 0,01 và df = 2 [df = (2-1)(3-1) = 2]

Tra phụ lục G ta có χ2 = 9,210

Vì giá trị χ2 tính là nhỏ hơn χ2 tới hạn nên giả thiết H0 được chấp nhận. Ta kết luận rằng không có sự khác nhau về tỷ lệ phần trăm nảy mầm khi xử lý bằng H2SO4 ở các nồng độ khác nhau.

Giá trị χ2 tra bảng 9,210 có nghĩa là nếu giả thiết H0 là đúng thì khả năng xuất hiện giá trị χ2 có gía trị là 9,210 chỉ là 0,01.

9.3. Kiểm định χ2 về tính độc lập của tổng thể

Trong phần này tập trung vào kiểm định tính độc lập giữa 2 biến hoặc các tính chất của 2 tổng thể. Nghĩa là kiểm định xem kết quả của thí nghiệm là phụ thuộc nhau hay độc lập nhau.

Khi kết quả được chia ra 2 tính chất, kết quả của mẫu được trình bày trong bảng 9.3. Trong dó:

011 = ô thuộc hàng thứ nhất và cột thứ nhất

rj = Tổng tần số của hàng

ci = Tổng tần số của cột

Kiểm định χ2 về tính độc lập nghĩa là so sánh tần số quan trắc với tần số kỳ vọng. Chúng ta tính tần số kỳ vọng với giả thiết là hai tập hợp số liệu độc lập nhau. Tần số kỳ vọng được tính tương tự như ở mục 9.2 bằng sử dụng phương trình 9.3 như sau:

fe=[(Tổng hàng)(Tổng cột)] / Tổng chung

Bảng 9.3. Bảng số liệu để tính trong kiểm định χ2

Đặc điểm thứ hai Đặc điểm thứ nhất của sự phân loại

133

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

của sự phân loại

Mức độ 1 2 3 4 ... c Tổng

1 O11 O11 O13 O14 ... O1c r1

2 O21 O22 O23 O24 ... O2c r1

3 O31 O32 O33 O34 ... O3c r1

... ... ... ... ... ... ... ...

r Or1 Or2 Or3 Or4 ... Orc rr

Tổng c1 c2 c3 c4 ... cc rc

Sau khi tính các tần số kỳ vọng cho mỗi ô, giá trị χ2 được tính theo phương trình [9.1] khi ta có 2x2 bảng liên tục, khi a, b, c và d là các tần số quan trắc, phương pháp rút gọn để tính χ2 như sau:

Loại quan trắc

I II Tổng

A a b a+b

B c d c+d

Tổng a+b b+d a+b+c+d=n

Ví dụ 9.2.

Một nhà di truyền thực vật tiến hành 2 thí nghiệm khác nhau (A và B) để xác định tính trội của việc lai chéo giữa các cá thể có đặc điểm khác nhau của cùng một kiểu gen. Kết quả như sau:

134

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Kiểu hình của con lai (Phenotype ofspring)

Tính trội (Dominant) Tính lặn (Recessive)

A 70 30

B 75 25

Kiểm định ở mức =0,05 xem kết quả quan trắc ở các thí nghiệm có là độc lập với nhau hay không?

Giải:

Tỷ lệ tính trội và tính lặn (Dominant Recessive Ratio) cho thí nghiệm A là 2,33 : 1 và với thí nghiệm B là 3,0 : 1. Với sự khác nhau như vậy có là biểu hiện tính độc lập của các kết quả thí nghiệm. Trong khoa học môi trường và khoa học nông nghiệp, kết quả quan trắc tương tự là do điều kiện môi trường hay sự khác nhau về các điều kiện di truyền gây nên? Kiểm định tính độc lập sẽ cho câu trả lời có tính chất thống kê về vấn đề này.

Ta thực hiện các bước sau:

- Bước 1. Đặt giả thiết

H0 : Kết quả nghiên cứu là độc lập với điều kiện thí nghiệm

H1: Kết quả quan trắc là phụ thuộc vào các diều kiện thí nghiệm

- Bước 2. Sử dụng phương trình [9-4] để tính χ2 như sau:Kiểu hình của conTính ưu thế Tính lặn Tổng

A 70 30 100B 75 25 100Tổng 145 55 200

135

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

-Bước 3. Giả thiết Ho sẽ bị bác bỏ nếu χ2 tính là lớn hơn χ2 tới hạn (tra bảng phụ lục G). Trong ví dụ này với = 0,05 và (k-1) hoặc (2-1)=1 df, ta có χ2 tới hạn là 3,841.

- Bước 4. Vì giá trị χ2 tính là 0,627 nhỏ hơn χ2 bảng = 3,841, giả thiết H0 được chấp nhận. Ta nói rằng kết quả thu được là độc lập với điều kiện thí nghiệm.

9.4. Kiểm định tính phù hợp (test of goodness of fit)

Một đặc trưng quan trọng khác của phân tích χ2 là kiểm định tính phù hợp. Mục đích là xác định xem các giá trị quan trắc có phù hợp với giả thiết cho rằng chúng được lấy ra từ một tổng thể với một phân bố đã biết - sự phân bó đồng nhất hoặc phân bố thông thường. Phân bố đồng nhất là phân bố liên tục mà trong đó tất cả các giá trị có khả năng ngang nhau.

Chúng ta cũng có thể kiểm định tính phù hợp với các giá trị giả sử cho rằng một tổng thể riêng biệt có tuân theo một phân bố thường.

Ví dụ 9.3:

-Phân bố đồng nhất: Một nhà khoa học chăn nuôi muốn xác định các con bò thịt thích các khẩu phần ăn khác nhau. Kiểm tra ngẫu nhiên 60 con bò với 5 khẩu phần ăn khác nhau, cho chúng tự do được tiếp cận với các khẩu phần ăn trên. Tính thích ứng với các khẩu phần ăn được xác định dựa vào số lượng bò ăn từ các máng riêng biệt vào bất kỳ thời gian nào. Kết quả thu được như sau, hãy kiểm định với =0,05 xem các khẩu phần ăn có được ưa thích như nhau.

Khẩu phần ăn A B C D E

Số bò ăn 9 13 14 11 13

Giải:

136

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Nếu không có sự thích ăn các loại thức ăn khác nhau thì chúng ta hy vọng rằng số bò ăn ở các khẩu phần ăn trên là như nhau. Nghĩa là chúng ta hy vọng số bò sẽ có sự phân bố đồng đều ở 5 loại khẩu phần ăn. Ta có giả thiết:

H0: Các khẩu phần ăn được ưa thích như nhau

H1: Các khẩu phần ăn không được ưa thích như nhau

Với giả thiết H0, chúng ta hy vọng số bò thích ăn ở mỗi khẩu phần thức ăn là 60/5=12. Ta có:

Ta có bảng tính toán như sau (Bảng 9.4).Bảng 9.4. Tính giá trị χ2

Khẩu phần thức ăn

Số bò thích ăn fo

fe fo-fe (fo-fe)2 (fo-fe)2/fe

A 9 12 -3 9 0,750

B 13 12 1 1 0,083

C 14 12 2 4 0,333

D 11 12 -1 1 0,083

E 13 12 1 1 0,083

Tổng 60 60 0 1,332

Giá trị χ2 tới hạn tra từ bảng phụ lục G với số bậc tự do bằng hiệu của số đặc điểm và 1 hay 5-1=4 là 9,488.

Vì χ2 tính =1,332 là nhỏ hơn χ2 bảng=9,488 nên giả thiết H0 được chấp nhận. Ta nói rằng các khẩu phần thức ăn được ưa thích như nhau và sự phân bố của bò là đều nhau.

Ví dụ 9.4:

137

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

-Phân bố thường: Một nhà tạo giống cây trồng làm thí nghiệm về tính chịu mặn của một giống lúa mì lai nhân tạo. Lấy ngẫu nhiên 100 cây lúa mì có số nhiễm sắc thể (Chromosome) khác nhau được đặt trong dung dịch muối NaCl 20,5g/lít. Bảng 9.5 nêu kết quả phân bố tần suất các cây sống sót sau 30 ngày. Hãy xác định xem có đủ cơ sở để nói rằng kết quả thu được không tuân theo phân bố thông thường, với =0,01

Bảng 9.5. Phân bố tần suất số cây lúa mì sống sót khi được đặt trong dung dịch NaCl 20,5g/lit

Số nhiễm sắc thể Số cây sống sót

40 48 10

48 56 25

56 64 28

64 72 34

72 80 38

80 88 15

Giải:

Đặt giả thiết

H0: Các số liệu thí nghiệm mẫu có phân bố tổng thể thường

H1: Số lượng thí nghiệm mẫu không tuân theo phân bố thường của tổng thể

Kiểm tra thống kê (sử dụng phương trình 9-1)

Trong đó f0=Tần số quan trắc được

138

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

fe=Tần số kỳ vọng cần được xác định

Dựa trên nguyên lý phân bố tần số, tần số tương đối xuất hiện các giá trị được xác định bằng diện tích phía dưới đường cong phân bố, Với phân bố thông thường có giá trị trung bình à và độ lệch chuẩn ú thì tần số tương đối sẽ là phần diện tích nằm dưới đường cong thông thường (như đã trình bày ở chương 5), ta có:

Với phân bố thường, chúng ta sử dụng số trung bình mẫu và độ lệch chuẩn

mẫu để ước lượng à và để tính diện tích đường cong phân bố thường cho mỗi một nhóm (khoảng cách các nhóm). Bảng 9.6 trình bày cách tính diện tích và tần số tương đối của mỗi nhóm. Số trung bình và độ lệch chuẩn mẫu cho ví dụ này được tính là =65,87 và S = 11,40 (xem cách tính ở chương 2). Tần số kì vọng sự xuất hiện của các giá trị trong một khoảng là 48 đến 56 được tính như sau:

- Bước 1: Tính giá trị Z tương ứng với giá trị giới hạn dưới và giới hạn trên của một nhóm như ở bảng 9.6.

Giới hạn dưới:

Giới hạn trên:

Cột thứ ba của Bảng 9.6 trình bày tiêu chuẩn Z cho các khoảng cách các lớp còn lại.

- Bước 2: Xác định tần xuất các giá trị của mỗi khoảng cách của một lớp bằng việc xác định diện tích dưới đường cong phân bố thường. Vì giá trị giới hạn dưới của khoảng cách lớp thứ nhất là - và giá trị giới hạn trên của khoảng cách lớp cuối cùng là +, diện tích dưới đường cong phân bố thường cho khoảng cách của lớp thứ nhất là sự khác nhau giữa diện tích từ - đến + . Diện tích từ 0 dến 1,57 được tra từ bảng phụ lục B là 0,4418.

139

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Do vậy, diện tích giữa - và -1,57 là:

0,5000 - 0,4418 = 0,0582

Cột 4 của Bảng 9.6 giới thiệu diện tích dưới đường cong phân bố thường cho mỗi khoảng cách của một lớp.

Bảng 9.6. Tính tần số kì vọng và kiểm định ữ2 cho tính phù hợp của phân bố

Khoảng cách nhóm

Tần suất (fo)

Tiêu chuẩn

Z

Tần số

(Diện tính phía dưới đường cong phân bố)

Tần số kì vọng

(fe)ZL ZU

40<48 10 - - 1,57 0,5-0,4418=0,0582 8,73 0,18

48<56 25 - 1,57 - 0,87 0,4418-0,3078=0,134 20,10 1,19

56<64 28 - 0,87 - 0,16 0,3708-0,0636=0,2442 36,63 2,03

64<72 34 - 0,16 0,54 0,0636+0,2054=0,2690 40,35 0,99

72<80 38 0,54 1,26 0,3925-0,2454=0,1871 28,07 3,51

80<88 15 1,24 0,5000-0,3925=0,1075 16,12 0,08

150 1,0000 150,00 X2=7,98

Cần chú ý rằng, diện tích giữa bất kì hai giá trị Z mà có cùng dấu như nhau, nghĩa là giá trị dưới ZL và giá trị giới hạn trên ZU với dấu âm (-) là bằng nối sự khác nhau giữa diện tích từ 0 đến ZL và từ 0 đến ZU. Với giá trị Z có dấu khác nhau, nghĩa là hoặc giá trị giới hạn dưới hoặc giới hạn trên của Z có dấu dương (+) hoặc dấu âm (-), thì diện tích giữa giá trị Z là bằng với tổng của tổng diện tích từ 0 đến Z L và diện tích từ 0 đến ZU. Khoảng cách lớp từ 64 đến 72 cho thấy các giá trị Z có các dấu khác nhau.

- Bước 3: Tính tần số kì vọng cho khoảng cách mỗi lớp. Tần số kì vọng là tích của tần số mỗi lớp và tổng của các lần quan trắc. Hay:

140

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

fe = (Pj)(n) [9-5]

Trong đó: fe = Tần số kì vọng

Pj = Tần số của lớp thứ j

n = Tổng số lần quan trắc

Cột thứ năm ở Bảng 9.6 cho ra các tần số kì vọng được tính cho mỗi khoảng cách của lớp.

- Bước 4: Tính ữ2 như trình bày ở cột 6 của Bảng 9.6. Áp dụng công thức [9-1] ta có ữ2 tính = 7,98.

- Bước 5: Quyết định thống kê được dựa trên việc so sánh giữa giá trị χ2 tính với χ2 được tra ở Bảng phụ lục G.

Để tra χ2 bảng ta cần biết số bậc tự do dựa trên các yếu tố thí nghiệm. Trong ví dụ này, có ba yếu tố thí nghiệm. Thứ nhất là kích thước mẫu (n =150), thứ hai và thứ ba là số trung bình ước lượng và sự biến động (hoặc độ lệch chuẩn). Nếu số trung bình và sự biến động đã được xác định thì chỉ còn phụ thuộc vào kích thước mẫu. Với 3 hạn chế (restrictions) và 6 lớp hoặc các loại (categories) trong đó ta nhóm thành các lớp số liệu, ta có các bậc tự do là:

df = 6 -3 = 3

Số bậc tự do cho kiểm định tính phù hợp loại này nhìn chung sẽ bằng số loại (categories) trừ đi 1. Hơn nữa, chúng ta sẽ trừ đi 1 cho mỗi thông số (parameter) cần ước lượng.

Giá trị tới hạn với α = 0,01 và 3 df là 11,34. Vì giá trị tính được nhỏ hơn giá trị tới hạn nên giả thiết Ho được chấp nhận. Ta kết luận rằng các số liệu mẫu là tuân theo phân bố tổng thể thông thường.

9.5. Kiểm định tính đồng nhất

Trong nghiên cứu môi trường và nông nghiệp chúng ta thường thực hiện các thí nghiệm lặp lại vài lần để đảm bảo việc giảm thiểu sai số thí nghiệm. Với các số liệu thu được từ một số lần lặp lại, ta sử dụng kiểm định 2 để xác định tính đồng

141

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

nhất của thí nghiệm ở các công thức lặp lại. Chúng ta cũng có thể kiểm định từ các tỉ số quan trắc có độ lệch có ý nghĩa so với tỉ số giả thiết.

Kiểm định 2 về tính đồng nhất là khác với hệ kiểm định tính độc lập của các dãy số liệu. Trước hết, thủ tục lấy mẫu để kiểm định tính đồng nhất khác với kiểm định tính độc lập ở chỗ ta xác định hai hay nhiều hơn các tổng thể nghiên cứu và lấy mẫu ở mỗi tổng thể. Để kiểm định tính dộc lập, mẫu được lấy riêng rẽ từ tổng thể, sau đó chia thành các lớp phụ thuộc vào hai tính chất.

Thứ hai, kiểm định tính đồng nhất khác với kiểm định tính độc lập khi tính giá trị tần số kì vọng và cách giải thích kết quả.

Ta hãy xét các ví dụ sau về kiểm định tính đồng nhất của các tập hợp mẫu.

Ví dụ 9.5:

Một nhà kinh tế nông nghiệp khi nghiên cứu thị trường muốn xác định xem có sự khác nhau về sự ưa thích các loại máy kéo khác nhau của các nhóm nông dân có lứa tuổi khác nhau. Kết quả điều tra ngẫu nhiên từ các lứa tuổi khác nhau xem họ thích sử dụng loại máy kéo nào trong ba loại được xin ý kiến. Kết quả điều tra được ghi ở bảng sau. Hãy kiểm định xem các nhóm nông dân có lứa tuổi khác nhau là không giống nhau về ý thích sử dụng các loại máy kéo.

Nhóm tuổi Loại máy kéo

A B C Tổng

Dưới 35 140 100 60 300

35 - 45 90 100 40 230

Trên 45 75 60 35 170

Tổng 305 260 135 700

Giải:

142

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Bước 1: Đặt giả thiết:

Ho: Cả 3 nhóm tuổi không có sự khác nhau về sự ưa dùng các loại máy kéo.

H1: Ba nhóm tuổi là có sự khác nhau về ý thích này.

- Bước2: Tính tần số kì vọng bằng kiểm định tính dồng nhất. Nghĩa là ước lượng một cách tốt nhất tỉ lệ thực hiện được tìm thấy bằng cách quan trắc mẫu. Ta có tỉ số nông dân thích sử dụng máy A trong mỗi nhóm tuổi là:

Để tìm tần số kì vọng cho loại máy A chẳng hạn, ta nhân tổng của mẫu với 0,44 như sau:

fe = (0,44)(300) = 132

Bảng 9.7 cho thấy tần số kì vọng của mỗi loại máy và nhóm tuổi.

Bảng 9.7. Tần số kì vọng của các loại máy kéo được ưa thích

bởi các nhóm tuổi khác nhau.

Nhóm tuổi Loại máy

A B C

Dưới 35 132,0 111,0 57,0

35 - 45 101,2 85,1 43,7

Trên 45 74,8 62,9 32,3

- Bước 3: Giá trị 2 được tính theo phương trình [9-1] như sau:

143

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Bước 4: Xác định giá trị tới hạn từ Bảng phụ lục G, dựa trên mức có ý nghĩa và số bậc tự do, sau đó so sánh với giá trị 2 tính được. Giả thiết Ho được chấp nhận nếu 2 tính là nhỏ hơn hoặc bằng giá trị tới hạn (2 tra bảng). Ngược lại thì Ho sẽ bị bác bỏ.

- Bước 5: Việc quyết định chấp nhận hay bác bỏ giả thiết Ho được dựa trên các giá trị 2 tra bảng như trình bày bước 4. Với mức tin cậy = 0,05, số bậc tự do là:

df = (r-1)(c-1) = (3-1)(3-1) = 4

Giá trị tới hạn 2 cho = 0,05 và 4df từ bảng phụ lục G sẽ là 9,488

Vì giá trị 2 tính là 6,255 là nhỏ hơn 9,488 nên giả thiết Ho được chấp nhận và kết luận rằng các tỉ lệ đồng nhất hay không có sự khác nhau giữa các lứa tuổi về sự ưa thích các loại máy kéo được nghiên cứu.

Chương 10. MỘT SỐ PHƯƠNG PHÁP KHÁC

KIỂM ĐỊNH PHI THAM SỐ

10.1. Giới thiệu

Trong các chương trước đã đề cập đến phương pháp thống kê sử dụng các thông số và phân bố thường. Trong trường hợp sự phân bố tổng thể không tham số hoặc thống kê không phân bố, chẳng hạn như kiểm định giả thiết khi các số liệu được sử dụng để xếp loại hoặc số thứ tự. Ví dụ như một nhà nông học sắp xếp sự ưa thích với ba giống ngô (A, B và C) bằng việc sử dụng tỉ lệ 1 đến 5 (ít ưa thích đến rất ưa thích). Nếu giống ngô A được cho điểm 5 trên giống B chỉ có 2 điểm, nghiã là nhà nghiên cứu thích giống ngô A hơn giống ngô B. Do vậy nếu ta tính giá trị trung bình

144

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

thì sẽ không thích hợp. Trong trường hợp như vậy ta sử dụng phương pháp kiểm định phi tham số. Hoặc khi ta sử dụng các số liệu về giống đực, giống cái dù có hoặc không thì số không có khái niệm lớn hơn hay nhỏ hơn ta phải dùng kiểm định phi tham số.

Những ưu điểm của thống kê phi tham số như sau:

1. Việc tính toán và giải thích số liệu khá dễ dàng.

2. Các giả thiết liên quan đến tổng thể là không khắt khe và được áp dụng cho sự dao động rộng của các điều kiện.

3. Chúng ta có thể sử dụng các số liệu mẫu nhỏ mà vẫn có kết quả chính xác, trong khi kiểm định tham số cần có kích thước mẫu lớn.

Những bất lợi của kiểm định phi tham số:

1. Một số thông tin bị bỏ qua, hoặc sắp xếp theo trật tự thay thế cho các quan trắc thực tế.

Vì vậy kiểm định phi tham số cần phải được mã hoá nên kém hiệu quả.

2. Vì dễ dàng và tính toán đơn giản với kích thước mẫu nhỏ, nên thường không thích hợp trong trường hợp mẫu có kích thước lớn.

3. Việc tính toán sẽ trở nên phức tạp khi kích thước mẫu tăng lên.

Do vậy phương pháp phi tham số được dùng khi mà các số liệu không đáp ứng các giả thiết yêu cầu của kiểm định tham số. Ví dụ như các số liệu được lấy từ một tổng thể không tuân theo quy luật phân bố thường. Hoặc khi câu hỏi được trả lời không bao gồm các tham số, ví dụ như kiểm định xem mẫu có là ngẫu nhiên hay không. Hay muốn có kết quả nhanh chóng và chỉ cần kết quả xấp xỉ tương đối.

10.2. Kiểm định dấu hiệu (Sign test)

Kiểm định dấu hiệu được áp dụng khi muốn phân tích hai dãy số liệu khi chúng không được thu thập độc lập nhau. Nghĩa là chúng có thể đến từ cùng một tổng thể. Ví dụ như chúng ta quan trắc hiệu quả của thuốc diệt cỏ thông qua lượng cỏ dại có mặt trước và sau khi sử dụng thuốc ở cùng một mẫu. Chúng ta cũng có thể áp dụng

145

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

kiểm định dấu hiệu với các số liệu thu thập được từ hai mẫu có liên quan với nhau. Ví dụ như nhà nông học có thể sử dụng thuốc diệt cỏ ở hai mảnh đất theo các cách khác nhau.

Để thực hiện kiểm định phi tham số, chúng ta phải có các cặp quan trắc để tính sự khác nhau giữa chúng. Sau đó sẽ xác định dấu hiệu liên quan đến mỗi quan trắc. Ví dụ, nếu thu thập số liệu ở hai thí nghiệm khác nhau chẳng hạn X và Y sự khác nhau được tính toán sẽ là X - Y. Nếu X > Y thì sự khác nhau là dương (+), ngược lại X < Y thì sự khác nhau sẽ là âm (-). Dấu hiệu kiểm định sẽ dựa vào kết quả dấu (+) hay (-).

Trường hợp là có các quan trắc bằng nhau sẽ không có dấu hiệu dương (+) hoặc âm (-).

Kiểm định dấu hiệu được dùng khá phổ biến để kiểm định giả thiếu dấu (+) hoặc (-) là bằng nhau. Nếu kí hiệu xác suất của dấu (+) là P, giả thiết thống kê là dấu (+) và dấu (-) là bằng nhau. Ta có.

Ho : p=5

H1 : p 5

Chúng ta có thể sử dụng xác suất nhị thức để kiểm định, để thuận tiện hơn ta dùng phân bố gần với phân bố thường mà nó thoả mãn cho bất kì kích thước nào của một mẫu.

Kiểm định thống kê dấu hiệu là:

Trong đó: R = số các dấu dương (+)

n = số các cặp quan trắc thích hợp.

Ví dụ 10.1:

146

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Một công ty tiếp thị nông nghiệp đã thực hiện một chiến dịch quảng cáo mới trên truyền hình nhằm tăng cường cho việc bán hàng hoá (rượu). Để xác định hiệu quả của chiến dịch quảng cáo mới, một cuộc điều tra ở 20 cửa hàng tư nhân về kết quả bán hàng của họ sau khi chiến dịch quảng cáo kết thúc so với cách quảng cáo cũ. Các cửa hàng cho điểm từ 1 đến 5, trong đó 1 là kém nhất và 5 là tốt nhất. Số liệu thu được bởi mỗi người phỏng vấn được ghi ở Bảng 10.1. Hãy kiểm định xem, chiến dịch quảng cáo mới có kết quả hơn so với quảng cáo cũ, với = 0,05.

Giải:

Đặt giả thiết

Ho: Hệ thống quảng cáo mới . hệ thống cũ

H1: Hệ thống quảng cáo mới hệ thống cũ.

Dấu hiệu khác nhau giữa các quan trắc được chỉ rõ trong bảng 10.1. Không kể 4 trường hợp là ngang nhau, còn lại 12 trường hợp có kết quả âm và 4 có kết quả dương. Vì vậy số cặp quan trắc thích hợp là 16.

Nếu giả thiết Ho là đúng, ta hy vọng 50% số quan trắc ngẫu nhiên có dấu dương (+), nghĩa là có 8 mẫu. Tuy nhiên trong mẫu này chúng ta đã quan sát thấy có 4 mẫu có dấu dương (R = 4). Để kiểm định xem kết quả này có phản ánh sự thay đổi do chiến dịch quảng cáo hay không, phân bố gần với phân bố thường cho phân bố nhị thức được sử dụng để xác định xác suất quan trắc cho 4 hoặc nhiều hơn các mẫu có dấu dương.

Với = 0,05 ta có giá trị tới hạn là Z = 1,64. Trong trường hợp này ta kiểm định giới hạn trên vì giá trị lớn của R (của Z) sẽ bác bỏ giả thiết Ho . Hình 10.1 mô tả vùng bác bỏ và chấp nhận giả thiết Ho. Vì giá trị Z tính nằm trong vùng chấp nhận nên có thể nói rằng phương pháp quảng cáo mới là không có hiệu quả hơn phương pháp cũ ở mức 5%.

Theo phương trình [10 - 1] ta có:

147

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Bảng 10.1. Xếp hạng điểm cho 2 phương pháp quảng cáo theo kết quả điều tra Người

được hỏiĐiểm Dấu

hiệu sai khác

Phương pháp cũ

(Y)

Phương pháp mới

(X)1234567891011121314151617181920

45235455215455441342

32451344245343432232

--++----0+0---0-+--0

10.3. Kiểm định xếp hạng dấu Wilcoxon (Wilcoxon Signed - Rank test)

Trong trường hợp khi không thể áp dụng tiêu chuẩn Z vì chúng có kích thước mẫu nhỏ, hoặc tiêu chuẩn t vì tổng thể không thoả mãn tính chất của một phân bố thường, ta sử dụng kiểm định xếp hạng dấu Wilcoxon. Phương pháp kiểm định này được áp dụng khi ta có một cặp các giá trị xác định theo thứ tự được lấy từ mẫu hoặc mẫu phù hợp (matched samples) và ta muốn xác định sự khác nhau thực về độ lớn và hướng (magnitude and direction) tồn tại giữa các cặp này.

Các giả sử đặt ra khi áp dụng kiểm định xếp hạng dấu Wicoxin (Wicoxin signed rank test):

148

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

1. Mẫu là ngẫu nhiên

2. Tổng thể có phân bố đối xứng xung quanh giá trị trung bình.

3. Các biến động quan trắc là liên tục

4. Tỉ lệ xác định (measurement scale) là một khoảng nhỏ nhất (nghĩa là đơn vị đo được không thể chỉ dẫn một đối tượng là lớn hơn hay nhỏ hơn đối tượng khác mà đồng thời cũng chỉ rõ độ lớn).

Phương pháp kiểm định Wilcoxon được thực hiện theo 7 bước sau:

- Bước 1:

Đặt giả thiết: Ho = o= 1

H1 = o 1

Ho = o 1

H1 = o 1

Ho = o 1

H1 = o 1

- Bước 2: Chọn mức tin cậy có ý nghĩa

- Bước 3: Xác định kích thước và dấu khác nhau giữa các cặp số liệu : di=xi-

Khi đã tính được các giá trị diS giảm kích thước mẫu tương ứng với di = 0

- Bước 4: Xếp hạng sự khác nhau của các dấu theo thứ tự từ nhỏ nhất đến lớn nhất. Ở đây ta có các hạng giống nhau (tied ranking) giá trị trung bình của hai số khác nhau gần nhau được đưa ra cho mỗi một giá trị gần nhau (tied values).

- Bước 5: Điền các dấu thích hợp vào các hạng, nghĩa là nếu sự khác nhau là dương ta có dấu (+) và nếu là âm ta có dấu (-).

- Bước 6: Lấy tổng các hạng và xác định giá trị T sau khi lấy tổng các hàng, số nhỏ hơn của hai tổng (T+ hoặc T-) là giá trị T tính.

149

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Bước 7: Kết luận bằng cách so sánh giá trị T tính với giá trị T tới hạn (tra bảng phụ lục H). Nếu giá trị T tính là nhỏ hơn hoặc bằng giá trị T tới hạn ta bác bỏ giả thiết Ho.

Các bước tiến hành ở đây cũng tương tự như kiểm định giả thiết được trình bày ở chương 6.

Ví dụ 10.2:

Một nhà khoa học chăn nuôi xây dựng một khẩu phần thức ăn mới (B) và hy vọng rằng nó làm tăng trọng tốt hơn so với khẩu phần thức ăn cũ (A). Mười con bò cái được cho ăn bằng khẩu phần thức ăn cũ và mới vào 2 giai đoạn khác nhau để xác định xem khẩu phần thức ăn mới có tốt hơn khẩu phần thức ăn cũ. Hãy kiểm định ở mức có ý nghĩa 0,05.

Tăng trọng hàng ngày (kg/ngày)Động vật Khẩu phần A Khẩu phần B

1

2

3

4

5

6

7

8

9

10

0,50

0,62

0,70

0,60

0,71

0,82

0,65

0,59

0,80

0,70

0,56

0,60

0,72

0,65

0,68

0,85

0,69

0,71

0,91

0,64

Giải:

- Bước 1:

150

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Đặt giả thiết:

Ho: Tăng trọng hàng ngày không khác nhau giữa hai khẩu phần ăn

H1: Tăng trọng hàng ngày của khẩu phần B là lớn hơn

- Bước 2: Nhà khoa học muốn kiểm định giả thiết này ở mức có ý nghĩa 0,05 hay ta có = 0,05

- Bước 3: Xác định kích thước và dấu khác nhau giữa các cặp số liệu (Bảng 10.2).

Bảng 10.2. Tính các giá trị trong kiểm định dấu Wilcoxin

Động vật

Tăng trọng Khác nhau

B - A

Xếp hạng không tính đến dấu

Xếp hạng theo dấu

A B Dương Âm

1

2

3

4

5

6

7

8

9

10

Tổng

0,50

0,62

0,70

0,60

0,71

0,82

0,65

0,59

0,80

0,70

0,56

0,60

0,72

0,65

0,68

0,85

0,69

0,71

0,91

0,64

+0,06

-0,02

+0,02

+0,05

-0,03

+0,03

+0,04

+0,12

+0,11

-0,06

7,5

1,5

1,5

6,0

3,5

3,5

5,0

10,0

9,0

7,5

+7.5

+1,5

+6

+3,5

+5

+10

+9

+42,5

-1,5

-3,5

-7,5

-12,5

Ghi chú: n = Số các quan trắc thích hợp = 10

T = Số nhỏ nhất của 2 tổng xếp hạng =12,5

- Bước 4: Xếp hạng sự khác nhau không tính đến dấu. Chúng ta giả sử rằng hạng 1 là sự khác nhau nhỏ nhất, và hạng cao là sự khác nhau lớn nhất. Trong ví dụ này,

151

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

động vật 2 và 3 là giống nhau cho vị trí thứ nhất với sự khác nhau là 0,02. Ta đặt mỗi hạng là 1,5 là giá trị trung bình của hạng 1 và 2. Cũng tương tự như vậy ta có các giá trị của các hạng khác. Chúng ta cũng có thể quan sát thấy 3 trường hợp có hạng gần nhau (tied ranks), Sự xếp hạng được trình bày ở Bảng 10.2

- Bước 5: Thêm dấu thích hợp vào các hạng đã xác định. Với động vật 1, ta có dấu (+) vì sự khác nhau dương giữa A và B ta có hạng được xác định cho động vật 1 là +7,5

- Bước 6: Tổng các hạng; bây giờ ta lấy tổng các giá trị của các hạng dương và âm. Tổng được ghi ở cột 6 và 7 của Bảng 10.2. Giá trị nhỏ hơn của 2 tổng này là giá trị T tính. Trong trường hợp của ví dụ này, tổng của các hạng mang dấu (-) là nhỏ hơn so với tổng của các hạng mang dấu (+). Vì vậy giá trị T tính được xác định là 12,5 .

- Bước 7: Kết luận, giá trị T tính ở bước 6 là 12,6. Giá trị T tới hạn được tra ở bảng phụ lục H với = 0,05 cho kiểm định một chiều là 10. Như vậy T tính lớn hơn T tới hạn nên giả thiết Ho được chấp nhận. Ta kết luận rằng tăng trọng của bò ăn khẩu phần thức ăn mới (B) là không cao hơn so với khẩu phần ăn cũ (A).

10.4. Kiểm định U Mann - Whitney (Mann - Whitey U test)

Kiểm định Mann - Whitney là kĩ thuật thích hợp cho kiểm định phi tham số. Nó được áp dụng khi muốn kiểm định hai mẫu độc lập được lấy từ các tổng thể có giá trị trung bình ngang nhau. Chúng ta sử dụng kiểm định này khi các tập hợp số liệu quan trắc ít nhất theo trật tự, thứ tự. Nghĩa là chúng có thể được xếp hạng từ thấp đến cao hoặc vice versa. Kiểm định theo phương pháp này cũng tương tự như kiểm định Wilcoxon. Tuy nhiên, nó không sử dụng trực tiếp giá trị tổng của các hạng mà phát triển phương pháp kiểm định này thành kiểm định U. Kiểm định U sử dụng công thức sau:

hoặc

152

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong đó: R1 = Tổng các hạng của mẫu quan trắc từ tổng thể 1

R2 = Tổng các hạng của mẫu quan trắc từ tổng thể 2

Bất kì kết quả nào từ hai phương trình trên là nhỏ hơn sẽ được coi là giá trị U tính để so sánh với giá trị U bảng ở bảng phụ lục I. Nếu giá trị U tính là nhỏ hơn giá trị U bảng thì giả thiết Ho bị bác bỏ. Ngược lại nếu U tính lớn hơn hoặc bằng giá trị U bảng thì giả thiết Ho được chấp nhận.

Ví dụ 10.3:

Một nhà khoa học môi trường muốn quan tâm đến mẫu sinh trưởng của cây thông được trồng thí nghiệm ở 2 địa điểm trong rừng. Lấy ngẫu nhiên 10 cây 1 năm tuổi để đo tốc độ tăng trưởng cho kết quả như sau:

Chiều cao cây sau một năm trồng (cm)

Địa điểm I

Địa điểm II

95

84

97

96

86

97

83

82

98

104

102

100

85

99

120

92

110

96

94

115

Hãy kiểm định xem giá trị trung vị (medial) chiều cao của cây thông ở địa điểm I là lớn hơn ở địa điểm II mức, với độ tin cậy 0,05

Giải:

Giả sử M1 là giá trị trung vị chiều cao cây ở địa điểm I, và M2 là giá trị trung vị chiều cao ở địa điểm II.

- Bước 1: Đặt giả thiết

H0: M1 M2

H1: M1 M2

Đây là kiểm định giả thiết một chiều bên phải vì đối thiết là chiều cao cây ở địa điểm I là lớn hơn chiều cao cây ở địa điểm II.

153

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Bước 2: Kết quả quan trắc được xếp hạng như ở Bảng10.3 . Vì 82 cm là chiều cao thấp nhất ở cả 2 địa điểm nên được xếp hạng thứ nhất.

- Bước 3: Tổng các hạng được xác định ở cột thứ 2 và thứ 3 ở Bảng 10.3

Bảng 10.3. Xếp hạng tổng trong kiểm định Mann – WhitneyChiều cao(cm)

Xếp hạngĐịa điểm I

Địa điểm II

154

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

8283848586929495969697979899100102104110115120

Xếp hạng tổng

-2-45-78---11,513--16-18-20-104,5

1-3--6--9,59,511,5--1415-17-19--105,5

- Bước 4: Tính giá trị U theo phương trình [10-2] và [10-3] như sau:

Như vậy, giá trị U tính có giá trị nhỏ hơn là 49,5 sẽ được sử dụng để so sánh với giá trị U tới hạn.

- Bước 5: Kết luận, tra bảng phụ lục I với n1 = 10, n2 = 10 và = 0,05 trong kiểm định một chiều ta có giá trị U tới hạn là 27.

Vì U tính có giá trị là 49,5 là lớn hơn U tới hạn 27 nên ta bác bỏ giả thiết H0 và kết luận rằng không có sự sai khác thực sự về chiều cao cây thông ở hai địa điểm trồng khác nhau trong nghiên cứu này.

155

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

10.5. Hệ số tương quan xếp hạng Spearman

(Spearman Rank Correlation Coefficrent)

Khi quan tâm đến mức độ chặt chẽ của mối liên hệ giữa hai biến theo thứ tự. Nghĩa là các số liệu không được thể hiện ở giá trị thực của nó mà ở số thứ tự theo xếp hạng. Do vậy ta sử dụng hệ số tương quan xếp hạng Spearman, rs. Hay rS là giá trị biểu hiện cho mức độ tương quan giữa hai dãy số liệu theo xếp hạng.

Hệ số tương quan xếp hạng được tính theo công thức :

Trong đó: D = Sự khác nhau giữa các hạng cho các cặp quan trắc

n = Số các cặp quan trắc.

Hệ số tương quan xếp hạng Spearman dao động trong khoảng -1,0 đến +1,0. Giá trị -1,0 (tương quan âm tuyệt đối) nghĩa là khi giảm giá trị một biến sẽ làm tăng giá trị của biến kia. Giá trị +1,0 (tương quan dương tuyệt đối) nghĩa là khi tăng giá trị một biến sẽ đồng thời làm tăng giá trị của biến còn lại. Khi r = 0 nghĩa là không có sự tương quan giữa hai dãy các hạng.

Cần chú ý rằng tương quan xếp hạng Spearman không thể hiện quan hệ đường thẳng giữa hai biến mà nó thể hiện quan hệ tương quan đường thẳng giữa các hạng của các biến.

Ví dụ 10.4:

Hai nhà nông học cung cấp bảng xếp hạng về sự ưa thích cho 10 loại thuốc diệt cỏ khác nhau mà họ đã sử dụng như sau:

Loại thuốc Xếp hạng do nhà nông học I

Xếp hạng do nhà nông học II

156

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

ABCDEFGHIJ

89631510247

69572481103

Từ kết quả này hãy cho biết có mối tương quan ý nghĩa giữa sự xếp hạng của hai nhà nông học hay không, với = 0,01

Giải;

- Bước 1: Bước này ta sẽ xếp hạng các số liệu, thông thường là từ nhỏ đến lớn. Hạng 1 đại diện cho hạng cao nhất, hạng hai cho thứ 2,... Trong trường hợp có các hạng như nhau (Tied Ranks) sẽ làm tương tự như ở phần trên. Trong ví dụ này, các số liệu đã được xếp hạng ở bảng kết quả, hoặc cột 2 và 3 của bảng 10.4.

Bảng 10.4. Xếp hạng tương quan về sự ưa thích các loại thuốc diệt cỏ khác nhau của hai nhà nông học

Loại thuốc Xếp hạng I

(X)

Xếp hạng II

(Y)

Sự khác biệt

D = (X - Y)

D2 = (X - Y)2

ABCDEFG

89631510

6957248

201-4-112

40116114

157

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

HIJTổng

247

1103

1-640

1361680

- Bước 2: Tính sự khác biệt giữa các hạng (D) như được trình bày ở cột 4 của Bảng 10.4.

- Bước 3: Lấy bình phương giá trị sự khác nhau giữa các hạng và tổng của chúng như ở cột 5 của Bảng 10.4.

- Bước 4: Tính tương quan xếp hạng Spearman theo phương trình [10-4] ta có:

- Bước 5: Kết luận, giá trị rs = 0,52 cho thấy có sự tương quan giữa các hạng nhưng không cao.

Sử dụng hệ số tương quan hạng Spearman là công cụ hữu ích khi các số liệu không được thể hiện ở dạng giá trị cụ thể mà đã được xếp hạng, thường gặp trong nhiều trường hợp như không đủ thời gian, thiếu tiền hoặc không có các thiết bị để đo đạc thích hợp. Tương quan hạng có thể được sử dụng như những dự báo trước cho kiểm định tương quan theo phương pháp bình phương nhỏ nhất. Vì kiểm định tương quan được giả sử rằng các biến có phân bố thường, nên chúng ta có thể sử dụng tương quan hạng để dự báo sơ bộ.

158

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

PHẦN 5. KIỂM TRA SỰ LIÊN KẾT VÀ DỰ ĐOÁN

Chương 11. TƯƠNG QUAN VÀ HỒI QUY ĐƠN GIẢN

11.1. Giới thiệu

Trong nghiên cứu ta thường phải giải các bài toán về mối quan hệ giữa 2 biến ngẫu nhiên X và Y. Ví dụ như nghiên cứu quan hệ giữa lượng chất dinh dưỡng có thể tiêu hoá được và nức tăng trọng của vật nuôi.

Để xác định xem một biến có là những điều kiện cho một biến khác ta dùng kỹ thuật mô hình 2 biến. Đây là mô hình đơn giản nhất cho sự phụ thuộc của biến Y đối với biến X theo quan hệ dường thẳng. Hồi quy đường thẳng đơn giản là kỹ thuật để kiếm định xem có tồn tại mối quan hệ giữa X và Y hay không. Hơn nữa kỹ thuật này còn dùng để ước lượng giá trị trung bình của Y và dự đoán giá trị chưa biết của Y ở mỗi giá trị X cho trước.

Từ mối tương quan giữa X và Y ta xây dựng được phương trình hồi qui (Regression equation). Biến được ước lượng trong phương trình này được gọi là biến phụ thuộc và lấy giá trị ở trục tung (trục Y). Biến dùng để xác định giá trị của Y, nó có ảnh hưởng và giải thích cho sự biến động của biến phụ thuộc Y được gọi là biến độc lập (X). Nó lấy giá trị ở trục hoành (trục X).

Quan hệ đường thẳng giữa 2 biến X và Y đuựơc biểu diễn dưới dạng phương trình:

= a+bx [11-1]

Trong đó:

=Giá trị ước lượng của biến phụ thuộc

a= Hằng số hồi qui hay vị trí cắt trục Y

b= Hệ số hồi qui hay dộ dốc của dường hồi qui

159

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

x=Giá trị cho trước của biến độc lập

Trong phân tích tương quan chúng ta chỉ đơn thuần quan tâm đến mối quan hệ chặt hay không chặt giữa hai biến số.

Phân tích tương quan và hồi qui được tiến hành đồng thời. Một yêu cầu cho biết có mối liên hệ giữa hai biến hay không và một cho biết quan hệ này có chặt chẽ không.

11.2. Phân tích hồi qui (regression analysis)

Như đã nói, phân tích hồi qui là tìm xem giữa hai biến có mối liên hệ với nhau hay không cho nên trước hết cần phải xác định biến độc lập và biến phụ thuộc. Sau đó mô tả quan hệ này qua biểu đồ phân tán các diểm, mỗi điểm là dại diện cho một cặp 2 giá trị quan trắc của các biến độc lập và phụ thuộc. Biểu đó này có 2 mục đích: (1) cho ta cách nhìn trực diện mối quan hệ giữa 2 biến; (2) lựa chọn được dạng mô hình thích hợp.

Ví dụ 11.1 :

Một nhà chăn nuôi xác định năng xuất sản sinh sữa của cừu cái (kg/ngày) thông qua việc cân con cừu con trước và sau khi bú. Các số liệu thu được như sau:

Ngày Lượng sữa Ngày Lượng sữa

10

14

18

22

26

30

34

38

1,78

1,66

1,62

1,59

1,55

1,60

1,58

1,54

42

46

50

54

58

62

66

1,50

1,48

1,43

1,40

1,37

1,35

1,32

160

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Ta có biểu đồ phân bố các điểm thể hiện mối quan hệ giữa 2 biến này (hình 11.1)

Hình 11.1. Biểu đồ phân bố sự quan hệ giữa sữa và thời gian

Sự phụ thuộc giữa hai biến X và Y có thể theo mối quan hệ đường thẳng và cũng có thể có nhiều dạng khác nhau (Hình 11.2).

161

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hình 11.2. Vài ví dụ về các mối quan hệ đường thẳng, đường cong giữa hai biến ngẫu nhiên

- Phương trình hồi qui đường thẳng (linear regression equation)

Phương trình hồi qui đường thẳng được Sir Frances Galton xây dựng từ năm 1877. Phương trình hồi qui được xây dựng trên cơ sở phương pháp toán học bình phương nhỏ nhất (least squares). Phương pháp này đơn giản là giảm thiểu tổng bình phương của các biến động theo phương thẳng đứng quanh một đường thẳng. Vì vậy, phương pháp bình phương nhỏ nhất là phù hợp nhất trong nghĩa rằng (y-Y)2 =0 là nhỏ hơn bất kỳ một đường thẳng có thể khác. Hơn nữa đường hồi qui bình phương nhỏ nhất có tính chất sau:

(Y- ) =0 [11-2]

Tính chất này làm cho tổng các biến động dương và âm sẽ bằng không.

Cần chú ý rằng, phương trình hồi qui đường thẳng (phương trình 11.1) chỉ là sự ước lượng hoặc mối quan hệ giữa 2 biến trong tổng thể được cho trước theo phương trình 11.3:

μyx= a+bX [11-3]

Trong đó μ = Số trung bình của biến Y với một x cho trước

a và b= thông số tổng thể được ước lượng từ các giá trị của mẫu

Phương trình hồi qui có thể được tính theo 2 phương pháp khác nhau. Trước hết là giải 2 phương trình được gọi sự ước lượng thông thường:

Y=na + bX [11-4]162

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

XY = aX + bX2 [11-5]

Giải hệ phương trình [11-4] và [11-5] để tìm a và b rồi xây dựng phương trình hồi qui.

Phương pháp thứ hai là tìm phương trình hồi qui bình phương nhỏ nhất thông qua các phương trình được xem là thích hợp hơn như sau:

Ví dụ 11.2:

Để xác định xem giữa năng suất ngô (Y) và lượng phân bón nitơ (X) có quan hệ với nhau không, một nhà nông học đã làm thí nghiệm đồng ruộng với 10 ô thí nghiệm có cùng diện tích ở các địa phương khác nhau, với lượng phân bón khác nhau cho mỗi ô thí nghiệm. Năng suất ngô và lượng phân bón được ghi nhận như sau:

Năng suất ngô (tạ/ha)

(Y)

Phân bón (kg N/ha)

(X)

50

57

60

62

63

65

68

70

5

10

12

18

25

30

36

40

163

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

69

66

45

48

Giải:

Để xây dựng phương trình hồi qui, từ số liệu ở bảng 11.1 ta thay thế các giá trị tương ứng vào phương trình [11-4] và [11-5] để tính a và b.

Y=na + bX

XY = aX + bX2

630=10 a + 269 b

17.702 =269 a + 9.343 b

Giải hệ phương trình trên ta tìm được a=53,369 và b=0,358

Ta có hệ phương trình hồi qui:

=53,369 + 0,358 X

Bảng 11.1 Tính các giá trị cần thiết để tính phương trình hồi quiNăng suất (Y) Phân bón (X) Y2 XY X2

50

57

60

62

63

65

68

70

5

10

12

18

25

30

36

40

2500

3249

3600

3844

3969

4225

4624

4900

250

570

720

1116

1575

1950

2448

2800

25

100

144

324

625

900

1296

1600

164

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

69

66

630

45

48

269

4761

4356

40028

3168

3168

17702

2025

2308

9943

Hoặc tính theo cách rút gọn ta có:

Thay giá trị b vào phương trình [11-7] ta có:

Ta có:

= 53,369 + 0,359 X

Giá trị a= 53,369 là điểm cắt giữa đồ thị phương trình hồi qui với trục tung (khi x=0), hay năng suất ngô được ước lượng là 53,369 tạ/ha khi không bón phân. Giá trị b=0,359 cho biết độ dốc là dương nghĩa là tăng phân bón thì năng suất ngô cũng tăng theo, và nếu tăng 1 kg phân N năng suất ngô sẽ tăng lên 0,358 tạ/ha trong phạm vi quan trắc thí nghiệm.

Phương trình hồi qui trên cũng được dùng để ước lượng năng suất ngô (biến phụ thuộc) ở bất kỳ lượng phân bón N nào cho trước (biến độc lập). Ví dụ nếu bón 20kg N/ha thì ta có năng suất ngô là:

=53.369 + 0,358 (20)

=53,369+0,716

=54,085 (tạ/ha)

165

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Cần chú ý rằng phương trình hồi qui không dược dùng để dự đoán cho ngoài vùng giá trị của biến độc lập được đưa ra trong nghiên cứu.

11.3. Ước lượng sai số chuẩn

Phương trình hồi qui trước hết sử dụng để ước lượng biến phụ thuộc dựa trên một giá trị cho trước của biến độc lập. Nếu biểu đồ các diểm phân bố sự phụ thuộc giữa 2 biến càng gần với dường hồi qui thì quan hệ giữa 2 biến càng chặt. Ngược lại nếu các điểm phân bố càng tản mát và càng xa đường hồi qui thì phương trình hồi qui là ít tin cậy.

Sai số chuẩn của sự ước lượng được xác định dựa trên sự sai khác giữa các diểm phân bố đo đạc và đường hồi qui. Chỉ có một giá trị sai số chuẩn được sử dụng để xác định độ lệch của các quan trắc riêng rẽ so với giá trị trung bình của chúng. Nếu sai số càng nhỏ thì giá trị ước lượng càng gần với giá trị thực của biến phụ thuộc. Đặc biệt khi mọi điểm nằm trên đường hồi qui, tất cả độ lệch sẽ bằng 0 và Sxy =0. Trong trường hợp này đường hồi qui là biểu diễn giá trị ước lượng thực của biến phụ thuộc. Ngược lại khi các diểm phân tán mạnh, độ lệch lớn (Sxy lớn) thì các giá trị ước lượng của y sẽ có sai số lấy mẫu lớn so với đường hồi qui.

Sai số chuẩn (Sxy) được xác định theo công thức:

Trong đó Y=biến phụ thuộc

=Giá trị ước lượng của biến phụ thuộc

n=Kích thước (cỡ) mẫu

166

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Giá trị (n-2) là số bậc tự do (df) xung quanh đường hồi qui. Nhìn chung, số bậc tự do ở mẫu số là n-k trong đó k là hằng số trong phương trình hồi qui. Trong trường hợp đường hồi qui đường thẳng thì df là 2 khi a và b được dùng để ước lượng trong dường hồi qui của tổng thể. Chúng ta cần xác định sự khác nhau giữa mỗi giá trị và giá trị quan trắc Y như ở Bảng 11.2.

Ví dụ sử dụng 11.2 để tính sai số chuẩn:

Bảng 11.2 Tính các giá trị để xác định sai số chuẩn

Năng suất (Y) Phân bón (X) Y- (Y- )2

50

57

60

62

63

65

68

70

69

66

630

5

10

12

18

25

30

36

40

45

48

269

55,159

56,949

57,665

59,813

62,319

64,109

66,257

67,689

69,479

70,553

630.000

-5,159

0,057

2,335

2,187

0,081

0,891

1,743

2,311

-0,419

-4,553

0,0

26,615

0,003

5,452

4,783

0,464

0,794

3,038

5,341

0,229

20,729

67,488

167

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Vì khối lượng tính cần thiết là rất lớn nên có thể áp dụng cách tính ngắn gọn dể tính sai số ước lượng:

Các giá trị cần thiết đã có ở Bảng 11.1, và các giá trị a và b đã tính như ở phần trên ta có:

(Sự sai khác giữa 2 cách tính Sxy là do làm tròn số)

Về lý thuyết, sai số chuẩn ước lượng cũng tương tự như độ lệch chuẩn và cũng được dùng như nhau khi giải thích các kết quả nghiên cứu. Nếu các giá trị quan trắc có phân bố thông thường và mẫu có kích thước lớn thì khoảng 68% số điểm quan trắc trong biểu đồ sẽ nằm trong khoảng của một lần sai số chuẩn phía trên và dưới đường hồi qui; 95,4% nằm trong khoảng 2 lần sai số chuẩn. Trên thực tế toàn bộ các diểm phía trên và dưới đường hồi qui sẽ nằm trong vùng 3 lần sai số chuẩn (Hình 11.4)

Sai số chuẩn ước lượng được sử dụng để xác định giới hạn tin cậy.

Hình 11.4 Sai số chuẩn ước lượng về dường hồi qui

-Ước lượng khoảng tin cậy:168

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Chúng ta sử dụng phương trình hồi qui để ước lượng giá trị Y tại một điểm X cho trước. Giá trị ước lượng Y1 được tính đơn giản bằng cách thay thế giá trị X1 vào phương trình Y1=a=bX1. Vì Y1 chỉ là giá trị ước lượng ta có thể thêm vào với một độ tin cậy nào đó (sai số chuẩn) để tính khoảng mà trong đó khả năng giá trị Y sẽ nằm trong đó. Vì vậy ước lượng khoảng cho một giá trị Y nào đó ta gọi là Yi. Với kích thước mẫu nhỏ ta sử dụng công thức sau:

Phương trình [11-10] để tính khoảng tin cậy cho một giá trị X cho trước (X0). Hoặc sử dụng phương trình [11-11]. Ví dụ ta có thể dự đoán năng suất ngô khi bón 35 kg N/ha, ta có:

Thay giá trị X là 35 vào phương trình hồi qui ta có:

=53,369 + 0,358(35) = 65,89

Giả sử khoảng dự đoán ở mức 95%, theo công thức [11-11] và các số liệu ở Bảng 11.1, giá trị t cho mức độ tin cậy 95% là 2,306 (xem phụ lục E) ta có khoảng dự đoán như sau:

Hay 58,80< Yi <72,98 (tạ/ha)

169

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Như vậy khoảng dự đoán là 58,80 - 72,98, ta có thể nói rằng nếu sử dụng 35 kg N/ha thì có 98% khả năng năng suất nằm trong vùng dự đoán.

Trong trường hợp kích thước mẫu lớn, khoảng dự đoán cho mỗi gía trị Y là:

11.4. Phân tích tương quan

Phân tích tương quan là xác định mức độ quan hệ chặt hay không chặt giữa 2 biến thông qua hệ số tương quan (Coefficient of correlation). Chúng ta giả thiết rằng cả X và Y đều là những biến ngẫu nhiên có dạng phân số thông thường và độ lệch chuẩn của Ys là tương dương như nhau cho tất cả các giá trị X.

- Xác định hệ số tương quan:

Hệ số tương quan (R2) cho biết mức độ phù hợp giữa đường bình phương nhỏ nhất (least squares line) và các giá trị quan trắc. Sự biến động (độ lệch) tương đối của giá trị Y xung quanh đường hồi qui tương ứng dao động xung quanh giá trị trung bình của biến Y sẽ được giải thích cho mức độ tương quan giữa X và Y. Hình 11.5 mô tả 3 biến động khác nhau là tổng biến động, biến động giải thích được và biến động không giải thích được xuất hiện giữa diểm Y với giá trị trung bình và đường hồi qui.

Khoảng cách thẳng đứng giữa đường hồi qui và đường Y là biến động giải thích được. Khoảng cách thẳng đứng từ giá trị quan trắc Y và đường hồi qui là biến động không giải thích được bằng đường hồi qui. Khoảng cách giữa Y và Y dược gọi là tổng biến động. Tổng biến động là tổng số của các biến động giải thích được và các biến động không giải thích được:

Y- =( - )+(Y- ) [11-13]

Để chuyển thành các biến động có thể đo đạc được, chúng ta lấy tổng bình phương mỗi biến động ở phương trình [11.13] cho tất cả các quan trắc để được độ lệch bình phương. Ta có:

170

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hình 11.5. Tổng biến động, biến động được giải thích được và không được giải thích cho một giá trị quan trắc Y.

Vế bên trái của phương trình [11.14] là tổng bình phương độ lệch giữa các giá trị Y quan trắc và giá trị trung bình của nó . Còn vế bên phải là tổng bình phương của độ lệch giải thích được và không giải thích được.

Từ mối quan hệ trên, hệ số tương quan được xác định như sau:

R2=1-[Tổng bình phương biến động không giải thích được)/Tổng của tổng bình phương các biến động)]

(Unexplained sum of squares)/(Total sum of squares)

Hay:

R2=( Tổng bình phương biến động giải thích được/ Tổng của tổng bình phương các biến động)

Hoặc:

171

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Bảng 11.3. Tính các tổng bình phương khi Y=63Năng suất

(tạ/ha)

Phân bón

(kg/ha)

(Y- )2 ( - )2

50

57

60

62

63

65

68

70

69

66

Tổng 630

5

10

12

18

25

30

36

40

45

48

269

55,159

56,949

57,665

59,813

62,319

64,109

66,257

67,689

69,479

70,553

630,000

169

36

9

1

0

4

25

49

36

9

338

61,48

36,61

28,46

10,15

0,46

1,22

10,60

21,98

41,97

57,04

269,97

Thay các gía trị ở bảng 11.3 vào phương trình [11-15] ta có:

Khi số lượng quan trắc lớn, ta có thể áp dụng công thức rút gọn để tính hệ số tương quan như sau:

172

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hay:

Giá trị r2 = 0,798 có nghĩa là 79,8% tổng độ lệch (tổng các biến động) của năng suất ngô có thể được giẩi thích do mối quan hệ giữa lượngphân bón và năng suất. Ví r có giá trị lớn nhất là1, khi giá trị r càng gần đến 1 thì mức tương quan càng chặt. Trong ví dụ trên cho thấy 2 biến X và Y có tương quan chặt.

Chú ý: Hệ số tương quan r biến thiên trong khoảng ±1. Khi r = ±1 thì các điểm XiYi nằm trên đường thẳng hồi qui, r = +1 ta gọi là tương quan đồng biến; khi r = -1 chỉ tương quan nghịch biến. Khi r = 0 thì giữa X và Y không có mối liên hệ tuyến tính; 0,7 thì 2 biến có sự phụ thuộc tuyến tính chặt. Nếu 0,5 ta có 2 biến có sự phụ thuộc tuyến tính yếu.

Dấu toán học (+) hoặc (-) của hệ số tương quan và của hệ số b trong phương trình hồi qui là giống nhau, nghĩa là nếu b mang dấu (+) thì r cũng mang dấu (+) và ngược lại.

Khi phân tích tương quan như hệ số xác định được trình bày ở trên (r2) chúng ta có thể diễn giải kết quả dưới dạng giá trị số hoặc tỉ lệ phần trăm. Tuy nhiên khi lấy căn bậc 2 (r) ta có hệ số tương quan thì ý nghĩa của nó giảm đi. Vì r2 là giá trị thập phân nên căn bậc 2 của chúng sẽ rất lẻ. Nó có thể sẽ ít gây ấn tượng sự tương quan cao giữa X và Y. Ví dụ khi r=0,70 tức là ở mức tương quan cao hay giữa 2 biến có mối liên hệ chặt chẽ. Tuy nhiên nếu r2 = 0,49 nên làm giảm sự đóng góp trong biến động chỉ còn 49%. Do vậy mặc dù thường dùng hệ số tương quan, nhưng hệ số xác định được (r2) sẽ giải thích tốt hơn mức độ liên hệ giữa và X và Y khi phân tích hồi qui được tiến hành.

- Tính hệ số tương quan khi không phân tích hồi qui:173

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hệ số tương quan có thể tính trực tiếp khi không đồng thời với phân tích hồi qui. Tuy nhiên như trên đã trình bày ý nghĩa của việc sử dụng là hạn chế. Nó thường được áp dụng khi không muốn dự đoán về các số liệu mà chỉ quan tâm xem 2 biến X và Y có mối liên quan đường thẳng hay không. Ví dụ một nhà nghiên cứu quan tâm đến việc tăng liều lượng thuốc có làm giảm các triệu chứng của bệnh. Trong trường hợp này ta dùng công thức tính hệ số tương quan mẫu Pearson (Pearson sample correlation coefficient)

Sử dụng các số liệu ở Bảng 11.2 ta có:

n=10 =26,9 = 63

XY=17,702 X2 =9,343 Y2 =40,028

- Phép suy luận về hồi qui và hệ số tương quan:

Điều chúng ta quan tâm là mức độ tin cậy từ các hệ số này khi chúng không chứa các yếu tố sai số mẫu, và chúng có quan hệ thế nào với các tham số của tổng thể.

Kiểm tra giả thiết hoặc ước lượng khoảng tin cậy thường dược sử dụng để xác địng xem số liệu của mẫu có dủ cơ sở để ước lượng hệ số hồi qui là khác không (0). Nếu chúng ta bác bỏ giả thiết không (H0) thì b sẽ khác không. Chúng ta có thể kết luận rằng X và Y có tương quan đườngthẳng.

Áp dụng phương pháp kiểm tra giả thiết cho hệ số hồi qui, chúng ta sử dụng số liệu ở ví dụ 11.2, ta có các giả thiết sau:

H0= = 0

174

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Hi= 0

Để kiểm tra giả thiết này, ở mức có ý nghĩa 0,05 áp dụng phương pháp kiểm định 2 phía ta có:

Trong đó Sb là sai số chuẩn ước lượng của hệ số hồi qui.

Thay các giá trị tương ứng vào phương trình [11-20] và [11-21] ta có:

Kiểm tra thống kê:

Với =0,05 và df=8, giá trị tới hạn của t là 2,306 (xem bảng phụ lục E). Như vậy t tính (5,966) là lơn hơn t tới hạn (2,306) nên giả thiết không (H0) bị bác bỏ ở mức có ý nghĩa 0,05. Chúng ta có thể kết luận rằng độ dốc của đường hồi qui là khác 0.

Tương tự như vậy, để kiểm tra mức ý nghĩa của b (độ dốc đường hồi qui) chúng ta tiến hành kiểm định mức ý nghĩa của đường thẳng mối liên hệ giữa X và Y để xét xem giữa các mẫu nghiên xứu và tổng thể có liên quan với nhau không.

Ta có các giả thiết:

Ho = =0

175

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

H1 =

Kiểm tra thống kê với các kích thước mẫu nhỏ:

Cũng xét mức có ý nghĩa 0,05 và (n-2) df, giá trị tới hạn t là 2,306 (xem bảng phụ lục E). Giả thiết không (H0) sẽ dược chấp nhận nếu t nằm trong khoảng 2,306.

Vì t tính là 5,52 lớn hơn t tới hạn 2,306 nên giả thiết không (H0) bị bác bỏ. Ta nói rằng X và Y có tương quan đường thẳng

Nếu kích thước của mẫu lớn, kiểm tra mức có ý nghĩa của tương quan được áp dụng theo công thức

- Kiểm tra F:

Thay vì sử dụng phân bố t để kiểm định mức độ có ý nghĩa của hệ số tương quan, ta dùng phân tích tỷ số F. Khi tính các giá trị r2 và Sxy ta chia tổng của tổng bình phương thành tổng bình phương được giải thích và không được giải thích. Để tiến hành phép kiểm định F, trước hết ta phải tiến hành thiết lập bảng phân tích phưpng sai, xác định số bậc tự do và kiểm định F như là kiểm định gỉa thiết.

Ta đặt:

Ho =

176

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

H1 =

Chúng ta kiểm định giả thiết ở mức độ tin cậy 0,05. Bảng 11.4 chỉ ra cách tính tỷ lệ F. Các số liệu của tổng bình phương độ lệch giải thích được và không giải thích được lấy từ Bảng 11.3. Chú ý rằng số bậc tự do luôn luôn là n-1, nên ta có 9 df.

Số bậc tự do liên quan với biến động được giải thích là luôn bằng với các biến độc lập được sử dụng để giải thích sự biến động của biến phụ thuộc (n-k, trong đó k là số các biến độc lập). Vì vậy, trong trường hợp này ta luôn có 1 df cho biến động được giải thích. Số bậc tự do liên quan đến sự biến động không được giải thích được xác định là hiệu số giữa số bậc tự do của tổng bình phương với số bậc tự do của tổng bình phương độ lệch được giải thích. Do vậy, số bậc tự do của tổng bình phương độ lệch không được giải thích sẽ là 8.

F kiểm định là tỷ số giữa biến động được giải thích bởi phép hồi qui. Ta có:

F =Biến động (độ lệch) được giải thích/Biến động không được giải thích [11-24]

Vì giá trị F tính (31,76) lớn hơn rất nhiều so với F tới hạn (5,32) được tra từ bảng phụ lục (F0,05, 1 và 8 df) nên giả thiết H0 cho rằng không có tương quan giữa X và Y bị bác bỏ. Hay có thể nói rằng tương quan đường thẳng giữa lượng phân bón (X) và năng suất ngô (Y) là có ý nghĩa.

Bảng 11.4. Bảng phân tích tương quan cho kiểm định mức ý nghĩa

của tương quan theo tỷ số FNguồn biến động Bậc tự do Tổng bình

phươngĐộ biến động ước lượng

F

Được giải thích

Không được giải thích

Tổng

1

8

9

269,97

68,03

338,00

269,97

8,50

31,76

177

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Chương 12. TƯƠNG QUAN BỘI (HỒI QUI NHIỀU BIẾN)

12.1. Giới thiệu

Trong chương này sẽ giới thiệu quan điểm về tương quan và hồi qui với 2 hoặc nhiều biến độc lập được sử dụng để đánh giá lượng biến phụ thuộc. Trong trường hợp tương quan đường thẳng, chúng ta xét bởi một biến phụ thuộc nhưng có vài biến độc lập. Điều này cho phép không chỉ ước lượng biến phụ thuộc mà còn giải thích đầy đủ hơn các biến động gây ra.

Trước hết, về hồi qui nhiều biến và tương quan bội không chỉ đơn thuần là sự mở rộng tương quan và hồi qui đơn giản mà còn xây dựng phương trình hồi qui nhiều biến. Thứ hai là tính sai số chuẩn của giá trị ước lượng. Cuối cùng là tính hệ số tương quan để xác định mối tương quan có thể giải thích được.

Lợi ích của hồi qui nhiều biến là tăng cường khả năng sử dụng nhiều thông tin sẵn có để ước lượng biến phụ thuộc, để mô tả mói liên hệ giữa biến riêng rẽ giữa Y và vài biến X, ta biểu diễn phương trình hồi qui như sau:

Y=a+b1X1+b2X2+...+bkXk + [12-1]

trong đó Y: biến phụ thuộc

X: Các biến độc lập

: Sai số, đó là sự biến động ngẫu nhiên so với số trung bình bằng 0 và độ lệch chuẩn .....

Các hằng số a và b1 dến bk dược xác định từ dãy số liệu đại diện cho hệ số hồi qui riêng phần. Giả sử cho rằng tương quan hồi qui bội là:

178

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

1) Các biến giải thích (X1, ..., Xk) có thể là ngẫu nhiên hoặc không ngẫu nhiên (cố định).

2) Giá trị Y dự báo có với một giá trị X có thể là độc lập.

3) Sai số ngẫu nhiên có phân bố thông thường với số trung bình bằng 0 và phương sai là .

Với các giả thiết này có nghĩa là giá trị trung bình hoặc giá trị kỳ vọng E (Y) cho một tập hợp các giá trị X1,..., Xk sẽ tương đương với:

E(Y)=a+b1X1+b2X2+...+bkXk [12-2]

Hệ số a là vị trí giao cắt khi giá trị kỳ vọng của tất cả các biến độc lập là 0. Phương trình [12-2] được gọi là mô hình thống kê đường thẳng. Biểu đồ phân bố các điểm cho một trường hợp của 2 biến độc lập là mặt phẳng hồi qui như hình 12.1.

Hình 12.1. Biểu đồ phân bố hồi qui nhiều biến với 2 biến độc lập

12.2. Ước lượng phương trình hồi qui nhiều biến: Phương pháp bình phương nhỏ nhất (least squares method)

179

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Phương trình bình phương nhỏ nhất được xem là phù hợp nhất với mối tương quan đường thẳng, với k biến ta có hệ phương trình sau:

Trong đó b1, b2, b3..., bk là ước lượng của các giá trị 1,2, ..., k và số lượng phương trình sẽ bằng số lượng các biến được ước lượng. Việc tính toán sẽ dễ dàng nếu ta sử dụng các phần mềm máy tính như MINITAB, SPSS, SAS để tìm các hệ số.

Ví dụ 12.1:

Một nhà nông học làm thí nghiệm ảnh hưởng của phân bón và lượng nước tưới đến năng suất ngô. Kết quả thu dược như sau, hãy xác định phương trình hồi qui về sự phụ thuộc của năng suất vào phân bón và lượng mưa

Năng suất ngô

(tạ/ha)

Phân bón

kg N/ha

Lượng nước tưới

(mm)

50

57

60

62

63

65

68

70

5

10

12

18

25

30

36

40

8

10

15

20

25

25

30

30

180

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

69

66

45

48

25

30

Giải:

- Trước hết các giá trị cần htiết cho việc xác định hệ số cho các biến theo bảng 12.1.

Bảng 12.1. Tính các giá trị để xác định hệ số cho các biến

Y X1 X2 X1Y (X1)2 X1X2 X2Y (X2)2 Y2

50

57

60

62

63

65

68

70

69

66

630

5

10

12

18

25

30

36

40

45

48

269

5

10

15

20

25

25

30

30

25

30

215

250

570

720

1116

1575

1950

2448

2800

3105

3168

17 702

25

100

144

324

625

900

1296

1600

2025

2304

9343

25

100

180

360

625

750

1080

1200

1125

1440

6885

250

570

900

1240

1575

1625

2040

2100

1725

1980

14005

25

100

225

400

625

625

900

900

625

900

5325

2500

3249

3600

3844

3969

4225

4624

4900

4761

4356

40028

= 26,9

= 21,5

= 63

Hệ phương trình cho 3 biến là:

181

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Thay các giá trị ở Bảng 12.1 vào ta có:

630=10a + 269 b1 + 215 b2 [12-7]

17702=269a + 9343b1 + 6885 b2 [12-8]

14005=215a + 6885 b1 + 5352 b2 [12-9]

Giải hệ phương trình [12-7] [12-8] [12-9], trước hét ta nhân [12-7] với (hay 26,6), sau đó trừ kết quả với phương trình [12-8]:

17702=269a + 9343b1 + 6885 b2

-16947=-269a-7236,1b1-5783,5 b2

755 = 2106,9b1+1101,5b2 [12-8A]

Bây giờ nhân phương trình [12-7] với (hay 21,5) và trừ đi phương trình [12-9] ta có:

14005=215a + 6885 b1 + 5352 b2

- 13545=-215a-5783b1-4622,5 b2

460=1101,5b1 + 702,5 b2 [12-9A]

Giải hệ phương trình [12-8A] và [12-8b], ta nhân [12-9A] với 1101,5/702,5

755 = 2106,9b1+1101,5b2

- 721,2669=-1727,1206b1-1101,5b2

b1=33.7331/379,7794

= 0,0888

Thay giá trị b1 vào phương trình [12-9A] để tính b2 ta có:

460=1101,5(0,0888)+702,5b2

182

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

460=97,8132+702,5b2

b=362,187/702,5

= 0,5155

Thay giá trị b1 và b2 vào phương trình [12-7] ta có:

630 =10a + 269(0,0888)+215(0,515)

630=10a + 2,8872 + 110,8325

a=495,2803/10

=49,5280

Ta có phương trình:

= 49,53 + 0,089X1 + 0,515X2

Một phương pháp đơn giản khác để xác định phương trình hồi qui nhằm giảm bớt các cột hoặc các mục cần tính như ở bảng 12.1, ta áp dụng các phương trình sau:

183

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trước hết dể tính độ lệch chuẩn, ta tính các giá trị a, b1, b2 theo các phương trình:

Thay các giá trị ở bảng 12.1 vào phương trình từ [12-10] đến [12-17] ta có:

Để tính b1 và b2 ta giải hệ phương trình sau:

Điểm cắt giữa đường hồi qui và trục tung là:

a = – b1 – b2 [12-18]

Thay tổng độ lệch vào phương trình [12-16] và [12-17] ta có:

755=2106 b1 + 1105,5 b2 [12-19]

460=1105b1 + 702,5b2 [12-20]

Nhân phương trình [12-20] với 1,9128 rồi trừ với phương trình [12-19] sẽ có:184

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

755 =2106 b1 + 1105,5 b2

-879,9=2106,9b1-1343b2

-124,9=-2422b2

b2=-124,9/(-242,2)

b2=0,515

Thay giá trị b2 vào phương trình [12=20], ta có:

460=1101,5b1 + 702,5(0,515)

460=1101,5b1+361,8

b1=98,2/1101,5

b1=0,089

Bây giờ sẽ thay giá trị b1 và b2 vào phương trình [12-18] ta có:

a=63-(0,089)(26,9)-(0,515)(21,5)

= 63-2,39-11,07

=49,53

Ta có phương trình hồi qui như sau:

=49,53+0,089X1+0,515X2

Trong đó a là diểm giao cắt giữa đường hồi qui và được trục Y hay giá trị khi cả X1 và X2 đều bằng 0. Giá trị b1 và b2 là hệ số tương quan riêng phần, cho biết sự biến đổi của khi thay dổi một đơn vị X1 hoặc X2. Hoặc có thể nói rằng hệ số b chỉ rõ sự đóng góp của mỗi biến độc lập trong giá trị ước lượng của biến phụ thuộc.

Trong ví dụ trên, giá trị b1=0,089 chỉ ra rằng nếu tăng 1 kg phân bón thì năng suất sẽ tăng 0,189 tạ (nếu không xét đến lượng nước tưới, nghĩa là lượng nước tưới được giữ không đổi), giá trị b2 cho biết nếu tăng lượng nước tưới 1mm thì năng suất sẽ tăng 0,515 tạ (ta coi lượng phân bón là cố định)

185

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Đối với giá trị tổng của tổng bình phương (total sum of squares - SST) được tính theo công thức:

SST = =338

Những biến động được giải thích hoặc tổng bình phương của hồi qui (the explained or regression sum of squares - SSR) được tính như sau:

Thay các giá trị tương ứng vào [12-21], ta có:

SSR=0,089(755)+0,515(460) =304,10

Các biến động không được giải thích hoặc tổng bình phương các sai số ( the unexplained or error sum of squres - SSE) được tính bằng hiệu giữa SST và SSR:

SSE=SST-SSR [12-22]

ta có: SSE=338-304,10=33,90

12.3. Ước lượng sai số chuẩn (Standard error of estimate)

Khi sai số chuẩn (hay độ lệch chuẩn Standard deviation) càng nhỏ chứng tỏ rằng đường hồi qui càng gần với các giá trị quan trắc. Để tính sai số chuẩn ta áp dụng công thức sau:

Trong đó SSE= Tổng bình phương các sai số

n=Số lương các quan trắc

k=Số lượng các thông số

Trong phân tích hồi qui tuyến tính bội bao gồm 2 biến độc lập và 1 biến phụ thuộc ta có ước số là n-3. Thay các giá trị tương ứng vào phương trình [12-23] ta có:

186

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Trong chương trước ta chỉ xét phân bón như là yếu tố để giải thích cho sự biến động năng suất. Nên ta tính sai số chuẩn là 2,93. Ở đây ta đề cập đến cả lượng nước tưới cũng là nguyên nhân làm cho năng suất ngô thay đổi; ta tính được sai số chuẩn là 2,20. Như đã dược đề cập đến ở trên, sai số chuẩn là lượng biến động độc lập hay nó không được giải thích bằng phép phân tích hồi qui. Vì sai số chuẩn của mặt phẳng hồi qui là nhỏ hơn sai số chuẩn của hồi qui đường thẳng, ta có thể nói rằng biến độc lập bổ sung sẽ cho kết quả dự đoán chính xác hơn.

Giả sử rằng năng suất ngô có sự phân bố thông thường, giá trị sai số chuẩn s=2,20 có nghĩa là sẽ có khoảng 68% năng suất nằm trong phạm vi 2,20 tạ xung quanh giá trị ước lượng Y, có 95% năng suất nằm trong phạm vi 2Sy12 và xấp xỉ 99,9% nằm trong phạm vi 3Sy12 xung quanh giá trị ứơc lượng .

12.4. Phân tích tương quan bội (Multiple correlation analasis)

Tương tự như phân tích tương quan đường thẳng đơn giản, hệ số tương quan bội trong trường hợp gồm 2 biến độc lập X1 và X2 là 1 biến phụ thuộc Y dược biểu diễn như sau:

Trong đó SSR : Tổng bình phương hồi qui

(Regression sum of squeres)

SST= : Tổng của tổng bình phương

(Total sum of squares)

Sử dụng các giá trị đã cho ở ví dụ trên:

Nghĩa là có 90% sự biến động của năng suất ngô được giải thích do phân bón và chế độ tưới gây ra. Vì R2y12 không được điều chỉnh theo số bậc tự do (df) do vậy

187

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

có thể vượt quá sự tác động thực tế của các biến độc lập đối với biến phụ thuộc. Do vậy cần phải có sự điều chỉnh Ra

2 (Adjusted R2) để cho kết qủa tốt hơn.

Trong đó Ra2 : Hệ số tương quan bội đã được điều chỉnh

n: Số các quan trắc

k: Tổng số các thông số

Với ví dụ đang xét, ta có:

Nếu so sánh với trường hợp chỉ xét lượng phân bón như là biến độc lập duy nhất ta có r2 =0,76 trong khi đó Ra

2 =0,87. Gía trị sai khác 0,11 giữ r2 và Ra2 cho biết

có khoảng 11% sự biến động năng suất ngô được giải thích bằng chế độ tưới nước gây ra.

- Tương quan riêng phần (partial correlation):

Trong phương trình hồi qui bội chúng ta cần xác định sự đóng góp của mỗi biến khác dược giữa cố định. Tương quan riêng phần sẽ cho khả năng xác định được điều này. Điều quan tâm trước hết để tính toán hệ số tương quan riêng phần là loại trừ ảnh hưởng của tất cả các biến ngoại trừ một biến ta cần quan tâm. Ví dụ với 3 biến (Y, X1, X2) sẽ có 3 mối tương quan đơn giản là ry1, ry1.2, và ry2.1 và r12.y.

Để tính các hệ số tương quan riêng phần, trước hết ta cần xác định các mối tương quan đơn giản ry1 , ry2 và r12.. Chúng dại diện cho mối tương quan giữa Y và X1, Y và X2 , X1 và X2.

188

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Sử dụng các hệ số tương quan đơn giản dể tính tương quan riêng phần giữa Y và X1 khi X2 là cố định, Y và X2 khi X1 cố định, cuối cùng là X1 và X2 khi Y cố định.

Với các giá trị trong thí nghiệm đang xét, ta có:

Tính hệ số tương quan riêng phần:

189

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

- Xác định hệ số riêng phần (Partial coefficient of determination):

Như đã trình bày ở chương 11. Bình phương của hệ số tương quan được gọi là hệ số xác định. Do vậy, ta có các hệ số tương quan riêng phần xác định là:

Hệ số riêng phần cho biết giá trị thực của một biến độc lập được đưa thêm vào. Ví dụ r2

y1.2 chỉ ra rằng sau khi X2 (lượng nước tưới) đã giải thích một cách nhiều nhất cho tổng các biến động của biến phụ thuộc, X1 (lượng phân bón) sẽ giải thích 5,76% sự biến động còn lại Y. Tương tự như vậy ta có thể giải thích cho các hệ số riêng phần khác.

12.5. Thống kê suy luận trong phân tích hồi qui và tương quan

Việc kiểm tra giả thiết nhằm xác định xem các mối liên hệ giữa các biến số là có ý nghĩa hay không. Giả thiết Ho (null hypotheoses) như sau:

H0: 1=2=0

H1: ít nhất một trong hai hệ số là không bằng 0

Giả sử chúng ta kiểm tra giả thiết cho rằng mối liên hệ giữa các biến Y, X1 và X2 ở mức 0,05 là không có ý nghĩa. Như vậy nếu giả thiết H0 là đúng ta sẽ không sử dụng phương trình hồi qui để ước lượng dự đoán các giá trị.

Kiểm tra F (F test):

F = MSR/MSE [12-32]

Trong đó MSR: trung bình bình phương do hồi qui

MSE: trung bình bình phương do sai số

190

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Tổng bình phương, bậc tự do, số trung bình bình phương tương ứng và tỷ số F được giới thiệu trong Bảng 12.2. Giá trị F tới hạn với =0,05 được tra từ bảng phụ lục F với 2 và 7 bậc tự do cho tử số và mẫu số. Ta sẽ quyết định chấp nhận H0 nếu giá trị F tính là 4,74 và bác bỏ H0 nếu F tính 4,74 .

Bảng 12.2. Bảng ANOVA trong phân tích hồi qui để ước đoán năng suất ngô

Nguồn Bậc tự do Tổng bình phương Trung bình bình phương F

Hồi qui

Sai số

Tổng

2

7

9

309,10

33,90

338,00

152,10

4,84

31,41

Vì F tính là 31,41lớn hơn F tra bảng, ta bác bỏ giả thiết H0 và kết luận rằng mối liên hệ giữa năng suất ngô và các biến độc lập (phân bón và chế độ nước) là có ý nghĩa. Hay phương trình hồi qui có thể được sử dụng để ước lượng các giá trị trong phạm vi mẫu.

Ví dụ 12.2:

Giả sử rằng một nhà nông nghiệp trong ví dụ 12.1 bón 40 kg N (X1) và tưới ở mức 15mm (X2). hãy tính năng suất trung bình của ngô.

Giải:

Phương trình hồi qui cho ví dụ 12.1 đã xác định được là:

=49,53+0,089X1+0,515 X2

Để xác định năng suất ngô, ta thay các giá trị X1 và X2 vào phương trình trên:

=49,53+0,089(40)+0,515(15)

= 60,82 (tạ/ha)

191

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Kiểm tra (t) (t test): Kiểm tra F để xác định xem mói liên hệ giữa biến phụ thuộc và các biến độc lập là có ý nghĩa hay không. Kiểm tra F cho biết ít nhất một trong các là không bằng 0. Tuy nhiên các nhà nghiên cứu thường quan tâm xem liệu có những mối liên hệ riêng của một các biến nào đó (b1, b2, ..., bk) là có ý nghĩa hay không.

Kiểm tra t (t test) cho phép ta kiểm tra ý nghĩa của mỗi một hệ số hồi qui riêng rẽ. Giả thiết không (H0) và đối thiết (H1) được kiểm tra cho mỗi một biến độc lập:

H0: i =0

H1: i 0

Trong đó i=1,2, ..., k

Trong đó t=phân bố t với (n-k-1) bậc tự do

io: Giá trị hệ số hồi qui xác định bởi H0

bi : Hệ số hồi qui mẫu

Sbi: sai số chuẩn của hệ số hồi qui

Xác định sai số chuẩn của các hệ số hồi qui Sbi. Với trường hợp 2 biến như trong ví dụ này, sai số chuẩn được ước lượng là b1 và b2 được tính như sau:

Để tính sai số chuẩn của b2 ta tính độ lệch của mẫu quan trắc so với giá trị trung bình. Ta lập bảng 12.3.

192

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

Bảng 12.3. Tính độ lệch của mỗi giá trị quan trắc so với giá trị trung bình

X1 X2 X1- (X1- )2 (X2- ) (X2- )2

5

10

12

18

25

30

36

40

45

48

269

5

10

15

20

25

25

30

30

25

30

215

-21,5

-16,9

-14,9

-8,9

-1,9

3,1

9,1

13,1

18,1

21,1

0,0

479,61

285,61

222,01

79,21

3,61

9,61

82,81

171,61

327,61

445,21

2106,90

-16,5

-11,5

-6,5

-1,5

3,5

3,5

8,5

8,5

3,5

8,5

0,0

272,25

132,25

42,25

2,25

12,25

12,25

72,25

72,25

12,25

72,25

702,50

Ghi chú : =26,9; = 21,5

Tính t

t1 = 0,089 / 0,11=0,80

t2=0,515 / 0,20= 2,57

Với mức =0,05 và (10-2-1)=7 bậc tự do, ta có giá trị t (tra bảng phụ lục E) cho kiểm định 2 phía:

193

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

t 0,05=2,365

Vì giá trị t tính 0,80 là nhỏ hơn giá trị t tới hạn (t bảng) ta chấp nhận giả thiết H0 và kết luận rằng b1 không có sự sai khác 0. Ngược lại t2=2,57 là lớn hơn t bảng =2,365 vì vậy giả thiết H0 bị bác bỏ, ta nói rằng ở mức có ý nghĩa 5%, b2 có sự sai khác có ý nghĩa với giá trị 0.

Tóm lại ta có thể kết luận rằng chế độ tưới nước có ảnh hưởng ý nghĩa đến năng suất ngô, trong khi đó lượng phân bón N không có ý nghĩa thống kê làm tăng năng suất ngô.

-Khoảng tin cậy:

Trong trường hợp kích thước mẫu nhỏ ta có:

Khi kích thước mẫu lớn (n30), ta áp dụng đường phân bố thông thường để thay thế cho phân bố t và sử dụng công thức tính độ lệch z như ở phương trình [12-36].

Ví dụ 12.3:

Hãy tính khoảng tin cậy dự báo ở 95%, khi bón 40 kgN/ha (X1) và nếu lượng nước tưới là 15 mm (X2).

Giải:

Kích thước mẫu n=10, ta có bậc tự do là (10-2-1)=7. Giá trị tới hạn t =t 0,025 =2,365; ta có:

Yi = 60,82 ± 2,365 (2,20)

=60,82±5,46

55,36 Yi 66,28

Như vậy, nếu ta bón 40kgN/ha và tưới ở mức 15 mm, năng suất ngô sẽ vào khoảng 55,36-66,28 tạ/ha với mức tin cậy là 95%.

194

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

12.6. Các giả định và những vấn đề trong tương quan bội dạng đường thẳng

Cũng như tương qun hồi qui đơn giản, phân tích tương quan bội cũng có nhiều giả định khác nhau:

1. Đường hồi qui là đường thẳng hay các dạng khác

E(Y)=a+b1X1+ b2X2 + .... + bkX k [12-37]

2. Giá trị Y là độc lập với các biến khác

3. Các giá trị Y tuân theo phân phối thông thường

4. Sự biến động giá trị Y là giống nhau cho tất cả các biến X1, X2, ..., Xk

Các giả định này sẽ liên quan đến nhiều vấn đề như sự tương quan tự động, các điều kiện không đồng nhất và nhiều đường phức tạp.

- Loạt hoặc tự tương quan (Serial or autocorrelation):

Vấn đề này xuất hiện khi giả sử rằng sự độc lập của giá trị Y là không đúng. Nghiã là có sự phụ thuộc giữa các giá trị kế tiếp nhau. Nó thường được quan sát khi các số liệu được ghi nhận theo thời gian. Để khẳng định rằng không có sự tự tương quan, vẽ các điểm theo thời gian là rất có ích. Hình 12.2 cho thấy dạng tự tương quan, trong đó đường cong lồi và lõm khác nhau. Khi quan sát thấy dạng phân bố này chứng tỏ có dấu hiệu của tự tương quan hoặc chuỗi (loạt).

Hình 12.2. Tự tương quan dương và âm

Cần chú ý rằng, các diểm không nối với nhau theo dạng dường thẳng hoặc đường cong mà ở nhiều dạng phức tạp. Phương pháp phát hiện tương quan chuỗi (serial correlation), chẳng hạn như kiểm định Durbin-Watson, thường được sử dụng. Phương pháp Durbin-Watson kiểm định giả thiết không (Ho) là không tồn tại tự tương quan dương. Vì vậy các giá trị dư là ngẫu nhiên. Hầu hết các chương trình

195

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng________________________________________________________________________

máy tính có MINITAB, SPSS và SAS sẽ cho phép kiểm định Durbin-Watson. Thống kê Durbin-Watson được trình bày ở bảng phụ lục J và dược xác định như sau:

196