Download - Thiet Ke Thi Nghiem Moi Truong Starphic
1Biên soạn: TS.GVC.Chế Đình Lý
Thiết kế thí nghiệmvà xử lý số liệu
môi trườngMoân hoïc daønh cho hoïc vieânngaønh coâng ngheä moâi tröôøng
Thời lượng 45 tiết (20 LT+ 25 TH)
Giáo trình điện tử
2
Mục tiêu môn học
• Giúp người học nhận ra các loại xử lý số liệu thường gặp trong điều tra, nghiên cứu môi trường
• Cung cấp những kiến thức cơ bản về ứng dụng thống kê trong việc xử lý số liệu và trình bày các kết quả điều tra, nghiên cứu về môi trường .
• Cung cấp và kỹ năng để thiết kế và phân tích và trình bày kết quả thí nghiệm trong lĩnh vực môi trường
• Giúp người học phân tích mối liên hệ , thiết lập các mô hình thực nghiệm từ số liệu điều tra khảo sát.
• Rèn luyện kỹ năng sử dụng phần mềm thống kê phổthông nhất trong việc giải quyết xử lý và trình bày số liệu.
3
Nội dung môn học1. Giới thiệu môn học, khái niệm cơ bản XLDL ,2. Giới thiệu phần mềm xử lý thống kê STATGRAPHICS3. Xử lý dữ liệu điều tra khảo sát - Thống kê mô tả4. Lấy mẫu thăm dò, ước lượng, trắc nghiệm giả thiết
ứng dụng trong môi trường5. Thiết kế thí nghiệm một yếu tố – phân tích ANOVA
trong lĩnh vực môi trường tài nguyên6. Thiết kế thí nghiệm hai yếu tố trong lĩnh vực môi
trường tài nguyên7. Phương pháp hồi qui tuyến tính đơn tố và đa tố ứng
dụng trong nghiên cứu môi trường. 8. Phương pháp chọn biến từng bước và chọn mô hình
tối ưu9. Phương pháp nắn mô phỏng và dự báo xử lý dữ liệu
quan trắc môi trường
4
Bài 1. Đặc trưng của dữ liệu môi trường, thốngkê học và các khái niệm cơ bản
1. Sự cần thiết xử lý dữ liệu môi trường
2. Các đặc trưng của dữ liệu môi trường
3. Thống kê học và các khái niệm cơ bản
5
BBààii 2. 2. GiGiớớii thithiệệuu phphầầnn mmềềmm STATGRAPHICS STATGRAPHICS
1. Tổng quan về phần mềm STATGRAPHICS
2. Các kỹ thuật biến đổi dữ liệu trong Statgraphics
6
BBààii 3. 3. XXửử lýlý ddữữ liliệệuu điđiềềuu tratra khkhảảoo ssáátt –– ththốốngng kêkêmômô ttảả
1. Lập file dữ liệu , tạo biến số và các thao tác khác
2. Tình tóan các chỉ tiêu thống kê và vẽ đồ thị
3. Chỉ tiêu thống kê
4. Bảng tần suất, codebook
5. Cách biến đổi biến số
6. Bài tập (nộp file
7
BBààii 4. 4. LLấấyy mmẫẫuu thămthăm dòdò, , ưướớcc lưlượợngng vvàà trtrắắcc nghinghiệệmmgigiảả thithiếếtt ththốốngng kêkê ứứngng ddụụngng trongtrong môimôi trưtrườờngng
1. Ý nghĩa của lấy mẫu và ước lượng và trắc nghiệm giảthiết thống kê trong lĩnh vực môi trường tài nguyên
2. Các khái niệm cơ bản
3. Cỡ mẫu trong ước lượng kết quả khảo sát từ lấy mẫu
4. Nguyên lý, khái niệm trắc nghiệm giả thiết
5. Thực hành xử lý ước lượng và trắc nghiệm thống kêtrong STATGRAPHICS
6) Các kỹ thuật kiểm tra tính chuẩn của phân bố dữ kiệnmẫu thăm dò
8
BBààii 5. 5. ThiThiếếtt kkếế ththíí nghinghiệệmm vvààPhânPhân ttííchch bibiếếnn lưlượợngng ANOVAANOVA
1) Nhu cầu ứng dụng phân tích ANOVA trong lĩnh vực môitrường tài nguyên
2) Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm
3) Các giai đoạn thực hiện thí nghiệm
4) Cơ sở lý thuyết của phân tích biến lượng
9
BBààii 6. 6. ThiThiếếtt kkếế ththíí nghinghiệệmm vvàà phânphân ttííchch kkếếtt ququảảththíí nghinghiệệmm mmộộtt vvàà haihai yyếếuu ttốố
1) Tổng quan về phân tích biến lượng ANOVA trongSTATGRAPHICS
2) Thiết kế thí nghiệm một yếu tố
3) Thực hành xử lý dữ liệu thí nghiệm một yếu tố
4) Thiết kế thí nghiệm hai yếu tố
5) Thực hành xử lý dữ liệu thí nghiệm hai yếu tố
10
BBààii 7. 7. XXửử lýlý hhồồii qui qui tươngtương quanquan đơnđơn bibiếếnn –– đađa bibiếếnn
1. Nhu cầu ứng dụng phương pháp hồi qui trong lĩnh vực môitrường tài nguyên
2. Các khái niệm cơ bản về hồi qui tương quan
3. Các phương pháp phân tích hồi qui tương quan
3.1) Hồi qui tuyến tính đơn giản (Simple regression)
3.2) Phương pháp lọai trừ trị bất thường trong hồi qui tuyếntính đơn giản
3.3) Hồi qui tuyến tính đa biến (Multiple regression)
4. Lập báo cáo phân tích hồi qui
Bài luyện tập
11
8. 8. XXửử lýlý hhồồii qui qui tươngtương quanquan đađa bibiếếnn –– chchọọnn bibiếếnnttừừngng bưbướớcc vvàà chchọọnn mômô hhììnhnh hhồồii qui qui ttốốii ưuưu
1. Phương pháp chọn biến từng bước (stepwise variable selection)
2. Phương pháp chọn lựa mô hình tuyến tính đa tố tối ưu.
3. Phương pháp chuyển đổi hồi qui phi tuyến tính thànhtuyến tính
4. Bài luyện tập
12
BBààii 9. 9. XXửử lýlý ddữữ liliệệuu quanquan trtrắắcc môimôi trưtrườờngngtheotheo ththờờii giangian
1. Nhu cầu ứng dụng phương pháp nắn mô phỏng và dự báotrong lĩnh vực môi trường tài nguyên
2. Khái niệm cơ bản của nắn mô phỏng và dự báo
3. Công cụ xử lý dữ liệu quan trắc môi trường3.1) Nắn mô phỏng theo hàm mũ Brown (Brown’s exponential
smoothing)3.2) Nắn mô phỏng theo hàm mũ tuyến tính Holt (Holt’s linear
exponential smoothing)
3.3) Nắn mô phỏng dữ liệu theo mùa theo phương pháp Winter WINTER’S SEASONAL SMOOTHING
3.4) Phân tích chiều hướng (trend analysis)3.5) Nắn dữ liệu quan trắc theo hàm đa thức (polynomial
smoothing)
4. Bài tập thực hành
13
TTààii liliệệuu thamtham khkhảảoo::+ + TTààii liliệệuu hhọọcc ttậậpp mônmôn hhọọcc ((ChChếế ĐĐììnhnh LýLý))
+ + SSááchch ththốốngng kêkê sinhsinh hhọọcc, , ththốốngng kêkê hhóóaa hhọọcc
+ + www.Google.com.vnwww.Google.com.vn vvớớii ccáácc ttừừ khkhóóaa::
Environmental StatisticsEnvironmental Statistics
Descriptive statistics ; Inference Descriptive statistics ; Inference sattisticssattistics
Sampling; statistical Sampling; statistical hypothesehypothese
ExperimetalExperimetal design; ANOVA analysisdesign; ANOVA analysis
Regression analysisRegression analysis
Forecasting, data smoothingForecasting, data smoothing
EnvironmetalEnvironmetal data monitoringdata monitoring
PhPhầầnn mmềềmm xxửử lýlý::STATGRAPHICS (STATGRAPHICS (HHọọcc viênviên đemđem USB copy)USB copy)
14
BBààii 1. 1. ĐĐẶẶC TRƯNG CC TRƯNG CỦỦA DA DỮỮ LILIỆỆU U MÔI TRƯMÔI TRƯỜỜNG, THNG, THỐỐNG KÊ NG KÊ HHỌỌC VC VÀÀ CCÁÁC KHC KHÁÁI NII NIỆỆM M
CƠ BCƠ BẢẢNNNội dung bài học
1) Sự cần thiết xử lý dữ liệu môi trường
2) Đặc trưng của dữ liệu môi trường
3) Thống kê và các khái niệm cơ bản
15
1. 1. SSựự ccầầnn thithiếếtt ccủủaa phânphânttííchch vvàà xxửử lýlý ddữữ liliệệuu môimôi
trưtrườờngng
16
1.1. 1.1. MMụụcc đđííchch xxửử lýlý ddữữ liliệệuu trongtrong llĩĩnhnh vvựựcc môimôi trưtrườờngng
nn KhKhảảoo ssáátt llấấyy mmẫẫuu vvàà suysuy didiễễnn kkếếtt luluậậnn vvềề hihiệệnn trtrạạngng môimôitrưtrườờngng, , cungcung ccấấpp ssốố liliệệuu ttổổngng hhợợpp trungtrung bbììnhnh hay hay ccựựcc trtrịịccủủaa ccáácc điđiềềuu kikiệệnn môimôi trưtrườờngng..
nn QuanQuan trtrắắcc hay hay mômô ttảả hihiệệnn trtrạạngng ccáácc chchỉỉ ththịị môimôi trưtrườờngngnưnướớcc, , đđấấtt, , khôngkhông khkhíí, , sinhsinh hhọọcc……. . mômô ttảả ssựự phpháátt ththảảii ô ô nhinhiễễmm, , chchứứngng minhminh hay hay khuykhuyếếnn khkhííchch ssựự tuântuân ththủủ ccáácc tiêutiêuchuchuẩẩnn môimôi trưtrườờngng..
nn XXửử lýlý ddữữ liliệệuu môimôi trưtrườờngng nhnhằằmm bbảảoo đđảảmm vvớớii côngcông chchúúngng llààmmứứcc phpháátt ththảảii hay ô hay ô nhinhiễễmm đãđã đưđượợcc kikiểểmm ssóóatat đđầầyy đđủủ..
nn ĐĐáánhnh gigiáá so so ssáánhnh vvớớii tiêutiêu chuchuẩẩnn phpháátt ththảảii chocho phphéépp..
nn GiGiáámm ssáátt chichiềềuu hưhướớngng lâulâu ddààii, , ddựự đođoáánn ccáácc ssựự ccốố môimôitrưtrườờngng đđểể ttììmm nguyênnguyên nhânnhân,,
17
nn ThiThiếếtt kkếế ththíí nghinghiệệmm đđểể ttììmm côngcông nghnghệệ xxửử lýlý ththííchch hhợợpp, , ccááccthôngthông ssốố ttốốii ưuưu ccủủaa côngcông nghnghệệ ((ththờờii giangian, , nnồồngng đđộộ, , llọọaiai côngcôngnghnghệệ. . .). . .)
nn SuySuy didiễễnn vvềề quyquy luluậậtt liênliên hhệệ gigiữữaa ccáácc yyếếuu ttốố môimôi trưtrườờngng, , đđểểddựự đđóóanan tươngtương lailai vvàà quyquy hhọọachach ddààii hhạạnn
nn ĐĐểể nghiênnghiên ccứứuu ssựự vvậậnn chuychuyểểnn ccủủaa chchấấtt ô ô nhinhiễễmm trongtrong môimôitrưtrườờngng qua qua chuchuỗỗii ththứứcc ănăn hay hay đưđườờngng truytruyềềnn qua qua khôngkhông khkhííđđếếnn con con ngưngườờii trongtrong đđáánhnh gigiáá rrủủii roro môimôi trưtrườờngng
nn ĐĐểể xxáácc đđịịnhnh vvàà đđịịnhnh lưlượợngng ccáácc mmốốii quanquan hhệệ nhânnhân ququảả ddóó vaivaitròtrò kikiểểmm ssóóatat ccáácc mmứứcc đđộộ vvàà ssựự bibiếếnn thiênthiên ccủủaa nnồồngng đđộộ ô ô nhinhiễễmm theotheo ththờờii giangian vvàà khôngkhông giangian
nn ĐĐểể đđáánhnh gigiáá ttáácc đđộộngng môimôi trưtrườờngng ccủủaa chuchu trtrììnhnh ssảảnn phphẩẩmm, , đđểể phânphân ttííchch bibiếếnn vvààoo –– bibiếếnn rara, , luluồồngng vvậậtt liliệệuu trongtrong nghiênnghiênccứứuu hhệệ ththốốngng môimôi trưtrườờngng
18
Phaân tíùch hoài qui vaø töông quan(Regression and corelation analysis)
4. Moái lieân heä vaø taùc ñoäng qua laïi giöõacaùc yeáu toá trong cuøng daân soá, Döïñoaùn moái lieân heä giöõa caùc yeáu toáthoâng quan lieân heä töông quan . . .
Caùc phöông phaùp thoáng keâ moâ taû, Lyùthuyeát thaêm doø, öùôùc löôïng vaø traécnghieäm giaû thuyeát thoáng keâ
(Sampling theory, estimation theory, statistical hypothese test, decision theory. . .)
3. Ñieàu tra caùc yeáu toá vaät lyù, hoùa hoïc, sinh hoïc cuûa moâi tröôøng phuïc ñaùnhgiaù taùc ñoäng cuûa moâi tröôøng, ñaùnhgiaù hieäu quaû cuûa moät bieïn phaùp xöûlyù moâi tröôøng.
Phaân tích chuoåi thôøi gian(Time series analysis, Forecasting,
Smoothing)
2 Phaân tích dieån bieán moâi tröôøng qua thôøi gian, döï baùo möùc ñoä oâ nhieãmdöïa treân phaân tích chuoåi soá lieäu theothôøi gian,
Phaân tích bieán löôïng vaø traéc nghieämthoáng keâ, (Analysis of variance, statistical hypothese test)
1. Boá trí thí nghieäm xöû lyù moâi tröôøng
Coâng cuï xử lý chuû yeáuLoaïi vaán ñeà
1.2. 1.2. LoLoạạii vvấấnn đđềề vvàà côngcông ccụụ xxửử lýlý ddữữ liliệệuu
19
2. 2. CCáácc đđặặcc trưngtrưng ccủủaa ddữữ liliệệuumôimôi trưtrườờngng
20
2.1. 2.1. SSựự bibiếếnn thiênthiên vvàà saisai ssốố trongtrong nghiênnghiên ccứứuumôimôi trưtrườờngng
nn DDữữ liliệệuu ô ô nhinhiễễmm môimôi trưtrườờngng thưthườờngng llàà bibiếếnn đđộộngng caocao vvààphphảảii chchịịuu ccáácc kikiểểuu bbấấtt ổổnn đđịịnhnh khkháácc nhaunhau..
nn SSựự bibiếếnn thiênthiên môimôi trưtrườờngng llàà ssựự khkháácc bibiệệtt ởở mmứứcc ô ô nhinhiễễmmttừừ nơinơi nnààyy đđếếnn nnớớii khkháácc . . VVààii yyếếuu ttốố gâygây rara bibiếếnn thiênthiênllàà::
nn KhoKhoảảngng ccááchch, , hưhướớngng vvàà caocao đđộộ tươngtương đđốốii, , didiệệnn ttííchchhay hay ngunguồồnn ô ô nhinhiễễmm didi đđộộngng..
nn SSựự phânphân bbốố khôngkhông đđồồngng nhnhấấtt trongtrong ccáácc môimôi gigiớớii môimôitrưtrườờngng gâygây rara bbởởii đđịịaa hhììnhnh, , ththủủyy vănvăn, , khkhíí tưtượợngng, , ththủủyytritriềềuu vvàà ccáácc cơcơ chchếế ttááii phânphân bbốố vvềề lýlý hhóóaa sinhsinh ccủủaa hhệệsinhsinh ththááii..
21
SSựự đađa ddạạngng trongtrong ththàànhnh phphầầnn loloààii , , gigiốốngng , , ssựự didi đđộộngng vvàà nnớớiitrtrúú ẩẩnn ccủủaa sinhsinh gigiớớii..
SSựự bibiếếnn thiênthiên trongtrong ccấấpp đđộộ nnềềnn ttựự nhiênnhiên theotheo ththớớii giangian vvààkhôngkhông giangian
CCáácc ngunguồồnn phpháátt ththảảii bibiếếnn thiênthiên , , ttốốcc đđộộ dòngdòng vvàà ssựự phânphân ttáánnccáácc thôngthông ssốố theotheo ththờờii giangian
SSựự giagia tăngtăng hay hay gigiảảmm thithiểểuu ccủủaa chchấấtt ô ô nhinhiễễmm theotheo ththờờii giangian
ĐoĐo lưlườờngng chchệệchch vvàà khôngkhông chchắắcc chchắắnn, , saisai ssốố, , llỗỗii llúúcc thuthu ththậậppmmẫẫuu , , phânphân ttííchch ttạạii phòngphòng ththíí nghinghiệệmm , , ssựự rrúútt ggọọnn ssốố liliệệuu, , phânphânttííchch ththốốngng kêkê vvàà mômô hhììnhnh hhóóaa..
22
2.2. 2.2. CCáácc đđặặcc trưngtrưng ccủủaa ddữữ liliệệuu môimôi trưtrườờngngnn GiGiớớii hhạạnn ththấấpp hơnhơn ssốố o. o. KhôngKhông ththểể ccóó trtrịị ssốố âmâm..
nn SSựự hihiệệnn didiệệnn ccủủaa ccáácc trtrịị bbấấtt thưthườờngng ““outliersoutliers””, , đđặặcc bibiệệtt llàà ởởphphííaa trtrịị ssốố llớớnn..
nn PhânPhân bbốố ccủủaa ttậậpp hhợợpp totoàànn ththểể ccóó đđộộ nhnhọọnn dươngdương, , phânphân bbốốkhôngkhông đđốốii xxứứngng..
nn SSựự phânphân bbốố khôngkhông chuchuẩẩnn ccủủaa ddữữ liliệệuu..
nn BBịị can can thithiệệpp –– ddữữ liliệệuu đưđượợcc bbááoo ccááoo dưdướớii vvààii gigiớớii hhạạnn gigiáámm ssáátt((vvìì lýlý do do chchíínhnh trtrịị).).
nn CCóó đđặặcc ttíínhnh theotheo mmùùaa –– thaythay đđổổii theotheo mmùùaa..
nn TươngTương quanquan ttựự đđộộngng hay hay phphụụ thuthuộộcc vvààoo ththờờii giangian ((vdvd: : trtrịị caocaotitiếếpp theotheo trtrịị caocao).).
nn PhPhụụ thuthuộộcc vvààoo ccáácc bibiếếnn ssốố khôngkhông kikiểểmm sosoáátt khkháácc..
nn CCởở mmẫẫuu nhnhỏỏ vvìì lýlý do chi do chi phphíí..
23
2.3. 2.3. ThưThườờngng chchứứaa ccáácc trtrịị bbấấtt thưthườờngng
Các trị bất thường là các số quan sát thu thập được có trịcách xa rất nhiều so với trị thật của dữ liệu. Chúng là cácsự kiện hiếm.
Nếu khoảng cách từ trị quan sát đến hộp vượt qua 1,5 lần phạm vi liên quảng phần tư (theo bất kỳ hướng nào ) thì trị trị quan sát đó có thể được gọi là trị bất thường.
24
NNóóii ccááchch khkháácc --
nn CCÁÁC DC DỮỮ LILIỆỆU MÔI TRƯU MÔI TRƯỜỜNG THƯNG THƯỜỜNG NG LLÀÀ HHỖỖN ĐN ĐỘỘN VN VÀÀ KHÔNG ĐƯ KHÔNG ĐƯỢỢC XC XỬỬ LÝ LÝ TTỐỐT!!T!!
nn CCáácc phươngphương phpháápp phânphân ttííchch ddữữ liliệệuu môimôitrưtrườờngng , , ddùù llàà ccáácc phươngphương phpháápp đơnđơn gigiảảnn hay hay ccáácc qui qui trtrììnhnh phphứứcc ttạạpp, , ccầầnn nhnhậậnn bibiếếtt ccáácc đđặặcctrưngtrưng nnààyy..
25
2.4. 2.4. SSựự ccầầnn thithiếếtt ccủủaa phânphân ttííchch ththốốngng kêkê đđốốii vvớớiiddữữ liliệệuu môimôi trưtrườờngng
nn CCáácc đđặặcc trưngtrưng ccủủaa ddữữ liliệệuu phphảảii đưđượợcc xemxem xxéétt trưtrướớcc khikhichchúúngng đưđượợcc phânphân ttííchch
nn CCáácc gigiảả thithiếếtt saisai liênliên quanquan đđếếnn ddữữ liliệệuu ccóó ththểể ddẫẫnn ttớớii::
nn CCáácc kkếếtt luluậậnn saisai
nn SSựự didiễễnn đđạạtt saisai
nn KhôngKhông điđi đđếếnn kkếếtt luluậậnn
nn CCáácc đđặặcc trưngtrưng ccủủaa ddữữ liliệệuu ssẽẽ qui qui đđịịnhnh ccáácc qui qui trtrììnhnh phânphânttííchch ddữữ liliệệuu tươngtương ứứngng ((ngưngượợcc vvớớii viviệệcc llààmm chocho ddữữ liliệệuu phphùùhhợợpp vvớớii qui qui trtrììnhnh).).
26
nn CCáácc đđặặcc trưngtrưng ccủủaa ddữữ liliệệuu đưđượợcc mômô ttảả bbằằngng ccáácc trtrịị ssốố ththốốngngkêkê ttổổngng hhợợpp vvàà đđồồ ththịị::
nn VdVd: : trungtrung bbììnhnh, max, min, , max, min, phphạạmm vi, vi, bibiếếnn lưlượợngng ququảảngng phphầầnntưtư vvịị . . . . . . KiKiểểuu phânphân bbốố, , xxáácc xuxuấấtt, , đđồồ ththịị hhộộpp . . . .
nn CCáácc trtrịị ssốố phânphân vvịị thưthườờngng llàà phphảảnn ảảnhnh ssốố liliệệuu ttốốtt hơnhơn ccáácc trtrịịththốốngng kêkê ccổổ điđiểểnn: : ddùùngng trungtrung vvịị đđểể bibiểểuu ththịị trtrịị bbììnhnh quânquân
nn VVíí ddụụ: : trungtrung vvịị, , phphạạmm vi vi liênliên ququảảngng phphầầnn tưtư, , đđồồ ththịị hhộộpp ththììphphảảnn ảảnhnh ssốố liliệệuu ttốốtt hơnhơn trtrịị trungtrung bbììnhnh, , đđộộ llệệchch chuchuẩẩnn, , gigiảảnnđđồồ ttầầnn susuấấtt . . . .
27J.P. Hornak, 1051-501, 2004
3. Thống kê học và các kháiniệm cơ bản
28
3.1. 3.1. ThThốốngng kêkê hhọọcc vvàà ththốốngng kêkê môimôi trưtrườờngngThThốốngng kêkê hhọọcc llàà mmộộtt ttậậpp hhợợpp ccáácc kkỹỹ thuthuậậtt ddùùngng đđểể gigiúúpp thuthuththậậpp , , ttổổ chchứứcc , , didiễễnn đđạạtt , , phânphân ttííchch vvàà trtrììnhnh bbààyy ddữữ liliệệuunhnhằằmm mmụụcc đđííchch cungcung ccấấpp thôngthông tin tin phphụụcc vvụụ rara ccáácc quyquyếếttđđịịnhnh ttốốtt hơnhơn..
ThThốốngng kêkê môimôi trưtrườờngng llàà ssựự áápp ddụụngng ththốốngng kêkê đđểể gigiúúpp thuthuththậậpp , , ttổổ chchứứcc , , didiễễnn đđạạtt , , phânphân ttííchch vvàà trtrììnhnh bbààyy ddữữ liliệệuu môimôitrưtrườờngng nhnhằằmm đđáápp ứứngng ccáácc nhunhu ccầầuu thôngthông tin, tin, truytruyềềnn thôngthôngchchấấtt lưlượợngng môimôi trưtrườờngng ccũũngng nhưnhư nghiênnghiên ccứứuu khoakhoa hhọọcc trongtrongllĩĩnhnh vvựựcc môimôi trưtrườờngng..
nn TrongTrong mônmôn hhọọcc nnààyy, , ssẽẽ nghiênnghiên ccứứuu ccáácc cơcơ ssởở ccủủaa viviệệcc xxửử lýlýddữữ liliệệuu vvàà thithiếếtt kkếế ththíí nghinghiệệmm. .
nn MônMôn hhọọcc titiếếpp ccậậnn theotheo hưhướớngng ttậậpp trungtrung vvààoo phươngphương phpháápp xxửửlýlý ddữữ liliệệuu vvàà cungcung ccấấpp ccáácc vvíí ddụụ ththựựcc hhàànhnh , , khôngkhông điđi sâusâu vvààoolýlý thuythuyếếtt ththốốngng kêkê
29
3.2. 3.2. ThThốốngng kêkê hhọọcc cơcơ bbảảnn
Các phương phápthống kê
Thống kêMô tả
Thống kêSuy diễn
Descriptive Statistics Inferential Statistics
30
ThThốốngng kêkê mômô ttảả vvàà ththốốngng kêkê suysuy didiễễnn
n ThThốốngng kêkê mômô ttảản Là các phương pháp lậpbảng biểu, vẽ đồ thị và tínhtoán số nhằm tóm tắt tổnghợp dữ liệu.
BaoBao ggồồmmThu Thu ththậậpp ddữữ liliệệuuSSắắpp ssếếpp ddữữ liliệệuuTTóómm ttắắtt ttổổngng hhợợpp ddữữ liliệệuuDiDiễễnn đđạạtt ddữữ liliệệuuMMụụcc đđííchch llàà mômô ttảả hihiệệnntrtrạạngng hihiệệnn ttạạii
ThThốốngng kêkê suysuy didiễễnn
là tiến trình sử dụng dữliệu từ một nhóm nhỏ cácphần tử (mẫu) để ướclượng và trắc nghiệm giảthiết về các đặc trưng củanhóm phân tử lớn hơn(tập hợp toàn thể).
31
nn ThThốốngng kêkê ccóó thôngthông ssốố
nn LLàà ccáácc kkỹỹ thuthuậậtt ththốốngng kêkêđưđượợcc ddùùngng khikhi ddữữ liliệệuu ggầầnnvvớớii phânphân bbốố chuchuẩẩnn ((normal normal distribution)distribution)
nn MMẫẫuu đđủủ llớớnn saosao chocho ccáácc trtrịịccủủaa mmộộtt bibiếếnn ssốố xxếếpp ththàànhnhđưđườờngng cong cong phânphân bbốố hhììnhnhchuôngchuông) )
nn DDữữ liliệệuu ccóó ththểể đođo xxếếpp theotheollớớpp hay hay ttỉỉ llệệ
nn ĐưĐượợcc ddùùngng đđểể trtrắắcc nghinghiệệmmgigiảả thithiếếtt vvàà suysuy didiễễnn vvềề ccááccthôngthông ssốố ccủủaa ttậậpp hhợợpp totoàànnththểể ttừừ ccáácc trtrịị ththốốngng kêkê ccủủaammẫẫuu
nn ThThốốngng kêkê phi phi thôngthông ssốố
nn LLàà ccáácc kkỹỹ thuthuậậtt ththốốngng kêkê đưđượợccddùùngng khikhi ddữữ liliệệuu ddùùngng trongtrongphânphân ttííchch khôngkhông đđáápp ứứngng gigiảảthithiếếtt ccủủaa ththốốngng kêkê ccóó thôngthông ssốố((khôngkhông xxếếpp theotheo llớớpp đưđượợcc hay hay ttíínhnh ttỉỉ llệệ đưđượợcc))
nn DDữữ liliệệuu đưđượợcc đođo theotheo ccááchch đđịịnhnhloloạạii ((namnam, , nnữữ) hay ) hay theotheo ththứứ bbậậcc((ttốốtt, , trungtrung bbììnhnh, , xxấấuu))
nn KhôngKhông ccầầnn gigiảả thithiếếtt vvềề ccáácc thôngthôngssốố ccủủaa ttậậpp hhợợpp totoàànn ththểể
nn TrongTrong gigiááoo trtrììnhnh nnààyy khôngkhông đđềềccậậpp đđếếnn ththốốngng kêkê phi phi thôngthông ssốố
32
•Loại dữ liệu MT: có hai loại(1) không phụ thuộc thời gian (dữ liệu khảo sát theoyêu cầu)(2) Quan trắc theo thời gian (time series)Kiểu dữ liệu:
Định lượng: (chiều cao, trọng lượng, hàm lượng. .)+ có phân theo lớp (interval) - Vd. qui mô nhà máy
+ tính theo tỉ lệ (ratio) - Vd. Tỉ lệ mắc bệnh
Định tính (nghề nghiệp, vị trí, chủng loại, nhóm, lớp. . .)+ định loại (nominal) - giới tính (nam, nữ)+ phân thứ tự (ordinal) - Vd. Lớn, TB, nhỏ
33
Nguồn gốc dữ liệu MT: có hai loại
(1) Quan sát (không chịu sự kiểm sóat của người thu thậpphân tích)
(2) Thí nghiệm (được thiết kế để nghiên cứu nông nghiệp, y khoa, môi trường ), thu thập trong điều kiện có kiểm soáttiến trình tạo ra dữ liệu.
• Tổng hợp dữ liệu và mô hình hóa dữ liệu- Tổng hợp: mô tả dữ liệu và gợi ra sự liên hệ đến môhình (mô hình hóa).• Hai mục đích của mô hình hóa: Nhận thức quy luật vàdự báo.•Tầm quan trọng của vẽ đồ thị dữ liệu: là việc đầu tiênvà cuối cùng mà nhà phân tích cần làm.
34
nn TTậậpp hhợợpp totoàànn ththểể (Population (universe))(Population (universe))
nn TTậậpp hhợợpp totoàànn bbộộ ccáácc phphầầnn ttửử mmàà tata quanquan tâmtâm nghiênnghiên ccứứuuthuthu ththậậpp ddữữ liliệệuu
nn VdVd: : TTậậpp hhợợpp ddữữ kikiệệnn vvềề ttảảii lưlượợngng nưnướớcc ththảảii ccủủaa ttấấtt ccảả ccááccnhnhàà mmááyy trongtrong ththàànhnh phphốố, , chichiềềuu caocao câycây trtrồồngng, , trtrọọngnglưlượợngng ththúú, , ttỉỉ llệệ câycây nhinhiểểmm bbệệnhnh trêntrên 1 m2 1 m2 đđồồngng ruruộộngng. . . . . . ..llàà ccáácc ttậậpp hhợợpp totoàànn ththểể. .
nn MMẫẫuu (Sample)(Sample)
nn llàà mmộộtt bbộộ phphậậnn ccủủaa dândân ssốố đưđượợcc chchọọnn rara đđểể thuthu ththậậpp ddữữkikiệệnn, , trêntrên cơcơ ssởở ddữữ kikiệệnn thuthu ththậậpp suysuy didiễễnn , , khkhááii ququáátt vvềềccáácc đđặặcc trưngtrưng ccủủaa dândân ssốố..
3.3. 3.3. KhKhááii niniệệmmcơcơ bbảảnn trongtrong
ththốốngng kêkê
35
PhânPhân bbốố ccủủaa TTậậpp hhợợpp totoàànn ththểể
TTậậpp hhợợpp totoàànn ththểể llàà mmộộtt ttậậpp hhợợpp rrấấtt llớớnn ccáácc đơnđơn vvịị ththốốngng kêkê. .
LýLý thuythuyếếtt xxáácc xuxuấấtt bibiểểuu ththịị ttậậpp hhợợpp totoàànn ththểể thôngthông qua qua mmộộtt kikiểểuuphânphân bbốố xxáácc xuxuấấtt lýlý thuythuyếếtt (distribution) (distribution) vvàà ccáácc thôngthông ssốố(parameters) (parameters) ccủủaa phânphân bbốố đđóó: :
PhânPhân bbốố llàà mmộộtt hhììnhnh ththứứcc bibiểểuu ththịị ssựự ssắắpp xxếếpp ddữữ kikiệệnn ccủủaa ttậậpphhợợpp totoàànn ththểể theotheo ccáácc llớớpp hay hay nhnhóómm ((khokhoảảngng trtrịị ccủủaa ddữữ kikiệệnn) ) vvàà xxáácc đđịịnhnh ssốố ccáá ththểể ((ttầầnn susuấấtt tuytuyệệtt đđốốii) hay ) hay ttỉỉ llệệ ccáá ththểể((ttầầnn susuấấtt tươngtương đđốốii) ) thuthuộộcc vvềề mmỗỗii llớớpp hay hay nhnhóómm. .
PhânPhân bbốố ttầầnn susuấấtt tuytuyệệtt đđốốii hay hay tươngtương đđốốii ccóó ththểể trtrììnhnh bbààyy dưdướớiinhinhiềềuu ddạạngng: : BBảảngng ttầầnn susuấấtt hohoặặcc đđồồ ththịị ddạạngng ccộộtt (histogram) (histogram) hay hay bibiểểuu đđồồ đađa gigiáácc ttầầnn susuầầtt (frequency polygon)(frequency polygon)
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [2][2]
36
nn ThôngThông ssốố (Parameter)(Parameter)
nn SSốố đođo ttóómm ttắắtt vvềề ttậậpp hhợợpp totoàànn ththểể
nn ThưThườờngng llàà khôngkhông bibiếếtt hohoặặcc bibiếếtt ttừừ ccáácc ttààii liliệệuu đãđã côngcôngbbốố
nn TrTrịị ththốốngng kêkê ccủủaa mmẫẫuu (Statistics)(Statistics)
nn SSốố đođo ttóómm ttắắtt vvềề mmẫẫuu
nn TTììmm đưđượợcc ttừừ ddữữ liliệệuu ccủủaa mmẫẫuu
nn VdVd: : llấấyy 10 10 mmẫẫuu mưmướớcc , , phânphân ttííchch COD, COD, ccóó trungtrung bbììnhnhCOD COD llàà 28,4 28,4
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [3][3]
37
nn ĐơnĐơn vvịị:: (unit) (unit) đđốốii tưtượợngng ccụụ ththểể đđểể đođo đđếếmm vvàà thuthuththậậpp ddữữ kikiệệnn. . MMộộtt mmẫẫuu thămthăm dòdò ssẽẽ ccóó nhinhiềềuu đơnđơnvvịị..
VdVd: : mmẫẫuu nưnướớcc llấấyy trêntrên sôngsông, , nhnhàà mmááyy, , mmộộtt con, con, mmộộtt câycây llààccáácc đơnđơn vvịị ththốốngng kêkê
nn CCởở mmẫẫuu (sample size):(sample size): còncòn ggọọii llàà dung dung lưlượợngng mmẫẫuullàà ssốố đơnđơn vvịị ccầầnn đođo đđếếmm trongtrong mmộộtt cucuộộcc thămthăm dòdò.).)
VdVd: : llấấyy 20 20 mmẫẫuu nưnướớcc đđểể đđáánhnh gigiáá chchấấtt lưlượợngng nưnướớcc, 20 , 20 llààccởở mmẫẫuu..
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [4][4]
38
Phân bố tần suất
0
2
4
6
8
10
12
14
16
Trung bình
3.3. Khái niệm cơ bản trong thống kê [5]
39
ww NghiênNghiên ccứứuu điđiềềuu tratra-- khkhảảoo ssáátt MTMT
ww Thu Thu ththậậpp ddửử liliệệuu ngongoààii hihiệệnn trưtrườờngng thôngthông qua qua llấấyy mmẫẫuu(sampling)(sampling)
nn ChoCho ccáácc thôngthông tin tin vvềề hihiệệnn trtrạạngng
nn KhôngKhông ththểể ttììmm đưđượợcc thôngthông tin tin vvềề nguyênnguyên nhânnhân
ww NghiênNghiên ccứứuu qua qua ththíí nghinghiệệmm MTMT
ww ChChọọnn mmộộtt nhnhóómm đơnđơn vvịị đđểể ggáánn ccáácc nghinghiệệmm ththứứcc xxửử lýlý theotheommộộtt hay hay vvààii yyếếuu ttốố, , ccáácc yyếếuu ttốố còncòn llạạii gigiữữ gigiốốngng nhaunhau(experiment)(experiment)
nn CCóó ththểể chocho rara ccáácc thôngthông tin tin vvềề nguyênnguyên nhânnhân ccủủaa ccáácchihiệệnn tưtượợngng
nn GiGiúúpp ttììmm rara điđiềềuu kikiệệnn ttốốii ưuưu
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [6][6]
40
LLấấyy mmẫẫuu (sampling)(sampling)
nn VVìì lýlý do chi do chi phphíí, , khôngkhông ththểể ttììmm thôngthông tin tin trêntrên totoàànnbbộộ ttậậpp hhợợpp ttổổngng ququáátt. . VdVd, , khôngkhông ththểể llấấyy hhếếtt nưnướớcctrêntrên sôngsông đđểể phânphân ttííchch..
nn VVìì lýlý do do ththờờii giangian, , khôngkhông ththểể ttììmm thôngthông tin tin trêntrên totoàànnbbộộ ttậậpp hhợợpp totoàànn ththểể. . VdVd, , khôngkhông ththểể đođo nhinhiễễmm đđộộcctrêntrên ttấấtt ccảả đđộộngng vvậậtt..
nn TTậậpp hhợợpp totoàànn ththểể ququáá llớớnn, , vôvô hhạạnn
nn KhiKhi thuthu ththậậpp, , ccóó ththểể hhủủyy hohoạạii đđốốii tưtượợngng nghiênnghiên ccứứuu, , vvìì vvậậyy khôngkhông ththểể ththựựcc hihiệệnn trêntrên ttậậpp hhợợpp totoàànn ththểể..
nn KhôngKhông ththểể titiếếpp ccậậnn ttậậpp hhợợpp totoàànn ththểể
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [7][7]
41
CCáácc kikiểểuu llấấyy mmẫẫuunn LLấấyy mmẫẫuu ngngẫẫuu nhiênnhiên đơnđơn gigiảảnn (Simple Random (Simple Random
Sample)Sample)VdVd: : BBằằngng ccááchch ggáánn ssốố, , bbắắtt thămthăm hay hay bbảảngng ssốố ngngẫẫuu nhiênnhiênnn LLấấyy mmẫẫuu phânphân theotheo llớớpp (Stratified Sample)(Stratified Sample)VdVd: : ChiaChia rara ccáácc nhnhóómm ((LLớớnn, TB, , TB, nhnhỏỏ), ), llấấyy ngngẫẫuu nhiênnhiên trongtrong
ttừừngng nhnhóómmnn LLấấyy mmẫẫuu nhinhiềềuu giaigiai đođoạạnn (Multistage Sampling)(Multistage Sampling)VdVd: : GiaiGiai đođoạạnn 1, 1, llấấyy theotheo gigiớớii ttíínhnh, , giaigiai đođoạạnn 2 2 llấấyy mmẫẫuu theotheo
llớớpp, , giaigiai đođoạạnn 5 5 llấấyy ngngẫẫuu nhiênnhiên trongtrong ttừừngng llớớppnn LLấấyy mmẫẫuu điđiểểnn hhììnhnh (Convenience Sampling)(Convenience Sampling)LLấấyy theotheo chchủủ quanquan , , titiệệnn llợợii chocho viviệệcc llấấyy mmẫẫuu vvàà mmụụcc đđííchch
nghiênnghiên ccứứuu ((llấấyy mmẫẫuu ởở ccửửaa ccốốngng xãxã))nn LLấấyy mmẫẫuu ccóó hhệệ ththốốngngVdVd, qui , qui ưướớcc 2 km 2 km llấấyy mmộộtt mmẫẫuu trêntrên sôngsông, hay 10 , hay 10 xxíí nghinghiệệpp ththìì
chchọọnn 1 1 trongtrong danhdanh ssááchch
42
KhKhááii niniệệmm vvềề ththíí nghinghiệệmm
nn CCáácc yyếếuu ttốố ththíí nghinghiệệm(factorsm(factors): ): llàà bibiếếnn lýlý gigiảảii –– llààđđặặcc trưngtrưng mmàà qua qua ththíí nghinghiệệmm tata mumuốốnn ttììmm ssựự bibiếếnnthiênthiên gigiữữaa ccáácc nhnhóómm hay hay nghinghiệệmm ththứứcc xxửử lýlý(Treatment) . (Treatment) .
VVíí ddụụ, , ththíí nghinghiệệmm ttììmm nnồồngng đđộộ hhóóaa chchấấtt xxúúcc ttáácc ttốốii ưuưutrongtrong xxửử lýlý nưnướớcc . . NNồồngng đđộộ hhóóaa chchấấtt llàà yyếếuu ttốố ththíínghinghiệệmm
nn BBậậcc ththíí nghinghiệệmm (levels) : (levels) : CCáácc trtrịị ccụụ ththểể ccủủaa mmỗỗiinhnhóómm trongtrong ccáácc yyếếuu ttốố ththíí nghinghiệệmm..
nn VVíí ddụụ: : ssửử ddụụngng 5 5 bbậậcc: 0, 5, 10, 15, 20 mg/: 0, 5, 10, 15, 20 mg/LLíítt
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [9][9]
43
YYếếuu ttốố vvàà bbậậcc ththíí nghinghiệệmm
nn VVíí ddụụ: : ThThíí nghinghiệệmm ttììmm ththờờii giangian xxửử lýlý ttốốii ưuưu vvàà nnộộngng đđộộhhóóaa chchấấtt ttốốii ưuưu bbằằngng ccááchch ththíí nghinghiệệmm trêntrên 6 6 nhnhóómm
Không xúc tác
Xúc tác 10 mg/ lít
Xúc tác 20 mg/lít
Xử lý 1 giờ Nhóm I Nhóm II Nhóm III
Xử lý trong 2 giờ
Nhóm IV Nhóm V Nhóm VI
Yếu tố: Thời gian xử lý? Nồng độ xúc tác?Bậc: thời gian 1, 2 giờ và nồng độ 0, 10, 20 mg/l.
3.3. 3.3. KhKhááii niniệệmm cõcõ bbảảnn trongtrong ththốốngng kêkê [10][10]
44
ThiThiếếtt kkếế ththíí nghinghiệệmm
Gán ngẫunhiên
Ng.thứcI
Ng.thức II
Ng.thức VI
Ng.thức IV
Ng.thức V
Ng.thức III
XL 1 giờ, XT 10 mg/l
XL 1 giờ, KhôngXT
So sánhhiệuquảxử lý
XL 1 giờ, XT 20 mg/lXL 2 giờ, Không XT
XL 2 giờ, XT 10 mg/lXL 2 giờ, XT 20 mg/l
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [11][11]
45
CCáácc nguyênnguyên lýlý ccủủaa thithiếếtt kkếế ththíí nghinghiệệmmnn KiKiểểmm sosoáátt ccáácc ttáácc đđộộngng ccủủaa ccáácc bibiếếnn ẩẩnn đđếếnn ssựự đđáápp
ứứngng, , bbằằngng ccááchch so so ssáánhnh hay hay hayhay nhinhiềềuu nghinghiệệmm ththứứcc
nn NgNgẫẫuu nhiênnhiên——SSửử ddụụngng ccáácc cơcơ hhộộii khkhááchch quanquan đđểể ggáánnccáácc nghinghiệệmm ththứứcc
nn SSửử ddụụngng đđủủ ccáácc đơnđơn vvịị trongtrong mmỗỗii nhnhóómm đđểể gigiảảmm ssựựbibiếếnn thiênthiên trongtrong kkếếtt ququảả ((LLặặpp llạạii))
3.3. 3.3. KhKhááii niniệệmm cơcơ bbảảnn trongtrong ththốốngng kêkê [12][12]
nn DDữữ liliệệuu thôthônn CCáácc ddữữ liliệệuu ththốốngng kêkê đưđượợcc thuthu ththậậpp trưtrướớcc khikhi xxửử lýlý hay hay
xxếếpp đđặặtt theotheo ththứứ ttựự ggọọii llàà ddữữ liliệệuu thôthô..
nn DDữữ liliệệuu ththứứ ccấấppnn DDữữ liliệệuu thuthu ththậậpp ttừừ mmộộtt ngunguồồnn đãđã côngcông bbốố, , khôngkhông thuthu
ththậậpp trtrựựcc titiếếpp ttừừ hihiệệnn trưtrườờngng..
46
3.4. 3.4. MôMô ttảả ddữữ liliệệuu môimôi trưtrườờngng((ththốốngng kêkê mômô ttảả))
Đồ thịCột
Số Số
Dữ liệu
Dữ liệuĐịnh tính
Dữ liệuĐịnh lượng
Phương pháp Phương pháp Phương pháp Phương pháp
Đô thị Đô thị
Đồ thịtròn
BảngTổng hợp Điểm Thân
LáTần suất
Rấtnhiều
47
3.4.1) 3.4.1) DDữữ liliệệuu đđịịnhnh ttíínhnh
§§ llàà ccáácc nhãnnhãn hay hay têntên ggọọii ccáácc loloạạii, , llớớpp hay hay nhnhóómm đđểể ththểểhihiệệnn đđặặcc trưngtrưng ccủủaa ccáácc đơnđơn vvịị nghiênnghiên ccứứuu
§§ DDữữ liliệệuu đđịịnhnh ttíínhnh ccóó ththểể llàà ssốố ((bbậậcc) hay ) hay kýký ttựự((têntên, , nhãnnhãn))
VVíí ddụụ: : NưNướớcc ththảảii ccủủaa ccáácc nhnhóómm doanhdoanh nghinghiệệpp: (1) : (1) ddệệtt nhunhuộộmm, (2) , (2) GiGiấấyy, (3) , (3) ChChếế bibiếếnn ththựựcc phphẩẩmm
§§
48
§§ DDùùngng vvẽẽ ddữữ liliệệuu đđịịnhnh ttíínhnh..
§§ TrênTrên trtrụụcc ngangngang , , xxáácc đđịịnhnh nhãnnhãn chocho mmỗỗii loloạạii, , llớớpp..
§§ TTầầnn susuấấtt, , ttầầnn susuấấtt tươngtương đđốốii (hay % (hay % ttầầnn susuấấtt) ) ththểể hihiệệnn trêntrêntrtrụụcc đđứứngng..
§§ DDùùngng ccáácc ccộộtt hay hay thanhthanh ccóó chichiềềuu rrộộngng ccốố đđịịnhnh vvễễ trêntrên nhãnnhãnccủủaa mmỗỗii loloạạii, , llớớpp. . ChiChiềềuu caocao ttùùyy theotheo ttầầnn susuấấtt
§§ CCáácc thanhthanh ttááchch rrờờii nhaunhau đđểể nhnhấấnn mmạạnhnh mmỗỗii loloạạii, , llớớpp phânphânbibiệệtt nhaunhau..
§§CCáácc phphầầnn mmềềmm vvẽẽ ttựự đđộộngng theotheo ssốố liliệệuu
3.4.2) 3.4.2) CCáácc phươngphương phpháápp đđồồ ththịị didiễễnn ttảảddữữ liliệệuu đđịịnhnh ttíínhnh
ĐĐồồ ththịị ccộộtt ((thanhthanh) () (Bar Charts)Bar Charts)
49
VVíí ddụụ GiGiảảnn đđồồ ccộộtt
Giản đồ cột cho 4 loại doanh nghiệp
0
1
2
3
4
5
6
7
8
9
A B C D
Số d
oanh
ngh
iệp
Loại doanhnghiệp
50
00 5050 100100 150150
Xi mXi mạạ
NhuNhuộộmm
DDệệtt
VdVd GiGiảảnn đđồồ thanhthanh ngangngang
CCáác thanh c thanh ngang cho ngang cho ccáác bic biếến n phân lphân lớớpp
ChiChiềều du dàài i thanh chthanh chỉỉttầần sun suấất t hay %hay %
BBềề rrộộng ng 1/21/2 đđếếnn 1 1 bbềề rrộộng ng thanhthanh
CCáác bc bềềrrộộng thanh ng thanh bbằằng nhaung nhau
ĐiĐiểểm trm trịị 00
TTầần sun suấấtt
NgNgàànhnh
% c% cũũng đưng đượợc dc dùùngng
51
CCáácc phươngphương phpháápp đđồồ ththịị didiễễnn ttảả ddữữ liliệệuu đđịịnhnh ttíínhnhĐĐồồ ththịị tròntròn (Pie Charts)(Pie Charts)
§§ DDùùngng didiễễnn ttảả phânphân bbốố ttầầnn susuấấtt tươngtương đđốốii ccủủaa ddữữliliệệuu đđịịnhnh ttíínhnh ((loloạạii, , llớớpp, , nhnhóómm).).
§§ VVẽẽ vòngvòng tròntròn , , ddùùngng ttầầnn susuấấtt tươngtương đđốốii chiachia vòngvòngtròntròn ththàànhnh ccáácc phphầầnn rrẻẻ ququạạtt tươngtương ứứngng vvớớii ttầầnn susuấấtt
tươngtương đđốốii ccủủaa mmỗỗii llớớpp..
§§CCáácc phphầầnn mmềềmm vvẽẽ ttựự đđộộngng theotheo ssốố liliệệuu
52
ĐĐồồ ththịị tròntròn (Pie Charts)(Pie Charts)
Tỉ lệ các loại doanh ngiệp
C40%
D20%
A15%
B25%
Loại DN
53
3.4.4) 3.4.4) CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữliliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngng
§§ ThThểể hihiệệnn bbằằngng sơsơ đđồồ thânthân vvàà lláá (Stem(Stem--andand--Leaf Leaf Displays)Displays)
§§ SơSơ đđồồ điđiểểmm (Dot Plots)(Dot Plots)
§§ PhânPhân bbốố ttầầnn susuấấtt
§§ PhânPhân bbốố ttầầnn susuấấtt tươngtương đđốốii (%)(%)
§§ GiGiảảnn đđồồ ccộộtt phânphân bbốố ttầầnn susuấấtt (Histograms) (Histograms)
3.4.3) 3.4.3) DDữữ liliệệuu đđịịnhnh lưlượợngng§§ ChChỉỉ rara lưlượợngng llàà baobao nhiêunhiêu..
§§ ThưThườờngng llàà ddữữ liliệệuu ssốố..§§ CCáácc xxửử lýlý totoáánn hhọọcc thưthườờngng áápp ddụụngng vvớớii ddữữliliệệuu đđịịnhnh lưlượợngng
54
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuumôimôi trưtrườờngng đđịịnhnh lưlượợngng
SơSơ đđồồ thânthân vvàà lláá (Stem(Stem--andand--Leaf Displays)Leaf Displays)
§§ ChiaChia mmỗỗii trtrịị quanquan ssáátt ccủủaa ttậậpp hhợợpp ddữữ kikiệệnn ththàànhnh 2 2 phphầầnn: : phphầầnn trtrịị ““thânthân”” vvàà phphầầnn trtrịị ““
§§ LiLiệệtt kêkê ccáácc trtrịị ““thânthân”” trongtrong mmộộtt ccộộtt , , bbắắtt đđầầuu vvớớii trtrịị nhnhỏỏnhnhấấtt vvàà kkếếtt ththúúcc vvớớii trtrịị llớớnn nhnhấấtt đđểể xxáácc đđịịnhnh ccáácc ““llớớpp””
§§ LLầầnn lưlượợtt ghighi ccáácc trtrịị ““lláá”” ccủủaa ttừừngng trtrịị quanquan ssáátt vvààoo dòngdòngccủủaa trtrịị thânthân tươngtương ứứngng
§§ SSốố đđếếmm ccủủaa ccáácc trtrịị ““lláá”” ssẽẽ chocho bibiếếtt ttầầnn susuấấtt ccủủaa phphầầnn trtrịị““thânthân””, , LiLiệệtt kêkê ssốố đđếếmm nnààyy chocho mmỗỗii dòngdòng trtrịị ““thânthân””
§§ CCáácc phphầầnn mmềềmm ssẽẽ liliệệtt kêkê ttựự đđộộngng ThânThân vvàà LLáá chocho mmộộtt ttậậppddữữ kikiệệnn..
55
VVíí ddụụ ththểể hihiệệnn ddữữ liliệệuubbằằngng sơsơ đđồồ thânthân vvàà lláá (Stem(Stem--andand--Leaf Displays)Leaf Displays)
nn ThânThân hhààngng chchụụcc llàà ccáácc llớớppnn LLáá llàà hhààngng đơnđơn vvịịnn SSốố đđếếmm llàà ttầầnn susuấấtt ccủủaa ccáácc llớớpp
2. Data: 21, 24, 24, 26, 27, 27, 30, 32, 38, 412. Data: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41
22 144677144677
33 028028
44 11
56
SơSơ đđồồ điđiểểmm (Dot Plot)(Dot Plot)
1.1. CôCô đđặặcc ddữữ liliệệuu bbằằngng ccááchch ggộộpp ccáácc gigiáá trtrịị ggầầnn nhaunhau ththàànhnhnhnhóómm
2.2. TrTrịị ssốố ccủủaa ccáácc ssốố quanquan ssáátt đđặặtt vvààoo mmộộtt điđiểểmm trêntrên mmộộtttrtrụụcc ngangngang
3.3. VVíí ddụụ Data: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41Data: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41
2020 2525 3030 3535 4040 4545
57
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngngPhânPhân bbốố ttầầnn susuấấtt
PhânPhân bbốố ttầầnn susuấấtt llàà ssựự ttóómm ttắắtt ddữữ liliệệuu, , nhnhằằmm trtrììnhnh bbààyy ttầầnn susuấấtt(hay (hay ssốố llầầnn xuxuấấtt hihiệệnn) () (ssốố phphầầnn ttửử quanquan ssáátt ) ) ccóó trongtrong ttừừngng llớớpp
ccủủaa nhinhiềềuu llớớpp ddữữ liliệệuu khkháácc bibiệệtt nhaunhauQui Qui ttắắcc xâyxây ddựựngng phânphân bbốố ttầầnn susuấấtt::
1. 1. XXáácc đđịịnhnh phphạạmm vivi2.2. ChChọọnn ssốố llớớpp
ThưThườờngng gigiữữaa 5 5 –– 15 15 llớớpp3.3. TTíínhnh bbềề rrộộngng llớớpp (width)(width)
4.4. XXáácc đđịịnhnh ccậậnn dưdướớii vvàà trêntrên ccủủaa llớớpp (limits)(limits)5.5. TTíínhnh điđiểểmm gigiữữaa ccủủaa llớớpp
6.6. ĐĐếếmm ssốố quanquan ssáátt vvàà ggáánn ttầầnn susuấấtt chocho ccáácc llớớpp
CCáácc phphầầnn mmềềmm llậậpp bbảảngng vvàà vvẽẽ đđồồ ththịị phânphân bbốố ttầầnn susuấấtt ttựự đđộộngngtheotheo ssựự khaikhai bbááoo bbềề rrộộngng llớớpp vvàà ttậậpp hhợợpp ddữữ liliệệuu tươngtương ứứngng
58
HưHướớngng ddẫẫnn chchọọnn ssốố llớớpp::
KhôngKhông ccóó qui qui đđịịnhnh bbắắtt bubuộộcc ccááchch ththốốngng nhnhấấtt chchọọnn ccáácc llớớpp! !
§§ ccáácc llớớpp phphảảii baobao hhààmm ttấấtt ccảả ddữữ liliệệuu ccầầnn ththểể hihiệệnn..
§§ SSửử ddụụngng gigiữữaa 5 5 vvàà 15 15 llớớpp..
§§ TTậậpp ddựự liliệệuu llớớnn nhinhiềềuu đơnđơn vvịị thưthườờngng ccầầnn ssốố llớớpp nhinhiềềuu hơnhơn..
§§ TTậậpp ddữữ liliệệuu nhnhỏỏ, , íítt đơnđơn vvịị thưthườờngng ccầầnn ssốố llớớpp íítt hơnhơn..
§§ KhiKhi chiachia llớớpp ccầầnn chchọọnn gigiớớii hhạạnn dưdướớii, , gigiớớii hhạạnn trêntrên, , trtrịị gigiữữaaccủủaa llớớpp
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngngPhânPhân bbốố ttầầnn susuấấtt
59
GiGiáá trtrịị ththậậtt TTầầnn susuấấtt ((ssốố llầầnn xuxuấấtt hihiệệnn))
10 and under 2010 and under 20 3320 and under 3020 and under 30 3330 and under 40 30 and under 40 3340 and under 50 40 and under 50 4450 and under 60 50 and under 60 55
60 and under 7060 and under 70 111170 and under 80 70 and under 80 141480 and under 90 80 and under 90 141490 and under 10090 and under 100 44
60 60
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngng
PhânPhân bbốố ttầầnn susuấấtt
60
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngng
PhânPhân bbốố ttầầnn susuấấtt ttííchch llũũyy
Giới hạn Tần suất Tần suấtDưới của lớpNhỏ hơn 20 3 3Nhỏ hơn 30 2 5Nhỏ hơn 40 3 8Nhỏ hơn 50 4 12Nhỏ hơn 60 5 17Nhỏ hơn 70 11 28Nhỏ hơn 80 14 42Nhỏ hơn 90 14 56Nhỏ hơn 100 4 60
61
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngng
PhânPhân bbốố ttầầnn susuấấtt tươngtương đđốốii
KhoảngCách lớp Tần suất Tần suất tương đối10 - 20 3 3/60 = 0.050 = 5.0%20 - 30 2 2/60 = 0.033 = 3.3%30 - 40 3 3/60 = 0.050 = 5.0%40 - 50 4 4/60 = 0.067 = 6.7%50 - 60 5 5/60 = 0.083 = 8.3%60 - 70 11 11/60 = 0.183 = 18.3%70 - 80 14 14/60 = 0.233 = 23.3%80 - 90 14 14/60 = 0.233 = 23.3%90 - 100 4 4/60 = 0.067 = 6.7%
60/60 = 1.000 = 100.0%
62
CCáácc phươngphương phpháápp đđồồ ththịị chocho ddữữ liliệệuu môimôi trưtrườờngng đđịịnhnh lưlượợngngGiGiảảnn đđồồ phânphân bbốố ttầầnn susuấấtt (Histogram)(Histogram)
Là phương pháp thống kê chuẩn để trình bày bảng phân bố tầnsuất
001122334455
TTầầnn susuấấtt
((ttầầnn susuấấtttươngtương đđốốii(%))(%))
00 1515 2525 3535 4545 5555
CCậậnn dưdướớii
CCộộtt bibiểểuu ththịị ttầầnnsusuấấtt
SSốố đđếếmmLớp T.Suất
15 nhưng < 25 3 25 nhưng < 35 5 35 nhưng < 45 2
Lớp T.Suất 15 nhưng < 25 3 25 nhưng < 35 5 35 nhưng < 45 2
63
3.5. 3.5. CaCaùùcc phphööôngông phaphaùùpp sosoáá chocho ddööõõ lielieääuu ññònhònh llööôôïïngng
Döõ lieäu ñònh löôïngÑaëc tính
TrungTrung bbììnhnh
TrungTrung vòvò
MoMoáátt
Chieàu höôùngTaäp trung
PhaPhaïïmm vivi
BieBieáánn llööôôïïngng
SaiSai tieâutieâu chuachuaåånn
Söï bieán thieân
ÑÑooää leleäächch
Dạng phân bố
64
3.5.1) 3.5.1) TrungTrung bbììnhnh (Mean)(Mean)
1.1. ĐoĐo chichiềềuu hưhướớngng ttậậpp trungtrung
2.2. LLàà ssốố đođo thưthườờngng ddùùngng nhnhấấtt
3.3. TTáácc ddụụngng nhưnhư điđiểểmm câncân bbằằngng trongtrong ttậậpp ddựự liliệệuu
4.4. ChChịịuu ảảnhnh hưhưởởngng bbởởii ccáácc trtrịị bbấấtt thưthườờngng ((‘‘outliersoutliers’’), ), thưthườờngng ggặặpp trongtrong ddữữ liliệệuu môimôi trưtrườờngng
CôngCông ththứứcc::
nn
XXXX
nnXX XX XX
nn
iiii nn== ==
++ ++ ++==∑∑
11 11 22 LL
65
VVíí ddụụ vvềề trungtrung bbììnhnh
nn DDữữ liliệệuu thôthô::10.310.34.94.9 8.98.9 11.711.7 6.36.3 7.77.7
XXXX
nnXX XX XX XX XX XXii
ii
nn
== ==++ ++ ++ ++ ++
==++ ++ ++ ++ ++
==
==∑∑
11 11 22 33 44 55 66
66
1010 33 44 99 88 99 111177 66 33 77 7766
88 3030
.. .. .. .. .. ..
.. Các phần mềm tính tự động !!!
66
3.5. 3.5. CCáácc phươngphương phpháápp ssốố chocho ddữữ liliệệuu đđịịnhnhlưlượợngng
Döõ lieäu ñònh löôïngÑaëc tính
TrungTrung bbììnhnh
TrungTrung vòvò
MoMoáátt
Chieàu höôùngTaäp trung
PhaPhaïïmm vivi
BieBieáánn llööôôïïngng
SaiSai tieâutieâu chuachuaåånn
Söï bieán thieân
ÑÑooää leleäächch
Dạngphân bố
67
nn SSốố liliệệuu thôthô:: 1717 1616 2121 1818 1313 1616 1212 1111nn XXếếpp ththứứ ttựự:: 1111 1212 1313 1616 1616 1717 1818 2121
nn VVịị trtríí:: 11 22 33 44 55 66 77 88+ ++ĐiĐiểểmm ttíínhnh vvịị trtríí == == ==nn 1122
88 1122
44,5,5
TrungTrung vvịị ==++
==1616 1616
221616
3.5.2) 3.5.2) TrungTrung vvịị (Median)(Median)nn 1.1. ĐoĐo chichiềềuu hưhướớngng ttậậpp trungtrung
nn 2.2. LLàà trtrịị đđứứngng gigiữữaa khikhi ddữữ liliệệuu xxếếpp ththứứ ttựựnn NNếếuu n n llẻẻ, , TrungTrung vvịị llàà trtrịị đđứứngng gigiữữaann NNếếuu n n chchẵẵnn n, n, TrungTrung vvịị llàà trungtrung bbììnhnh ccủủaa 2 2 trtrịị đđứứngng
gigiữữaa
nn KhôngKhông bbịị ttáácc đđộộngng ccủủaa ccáácc trtrịị bbấấtt thưthườờngng (outliers)(outliers)
68
VVíí ddụụ vvềề TrungTrung vvịịMMẫẫuu ccóó n n llẻẻ
nn :: 24.124.1 22.622.6 21.521.5 23.723.7 22.622.6
nn XXếếpp ththứứ ttựự:: 21.521.5 22.622.6 22.622.6 23.723.7 24.124.1
nn VVịị trtríí:: 11 22 33 44 55
TTíínhnh vvịị trtríí điđiểểmm ==++
==++
==nn 11
2255 11
2233 00..
Trung vị = 22.6
69
VVíí ddụụ vvềề TrungTrung vvịịMMẫẫuu ccóó n n chchẳẳnn
nn Data:Data: 10.310.3 4.94.9 8.98.9 11.711.7 6.36.3 7.77.7nn XXếếpp ththứứ ttựự:: 4.94.9 6.36.3 7.77.7 8.98.9 10.310.3 11.711.7nn VVíí trtríí:: 11 22 33 44 55 66
TTíínhnh vvịị trtríí
TrungTrung vvịị
==++
==++
==
==++
==
nn 1122
66 1122
33 55
77 77 88 9922
88 3030
..
.. .. ..
70
3.5. 3.5. CaCaùùcc phphööôngông phaphaùùpp sosoááchocho ddööõõ lielieääuu ññònhònh llööôôïïngng
Döõ lieäu ñònh löôïngÑaëc tính
TrungTrung bbììnhnh
TrungTrung vòvò
MoMoáátt
Chieàu höôùngTaäp trung
PhaPhaïïmm vivi
BieBieáánn llööôôïïngng
SaiSai tieâutieâu chuachuaåånn
Söï bieán thieân
ÑÑooää leleäächch
Daïng
71
3.5.3) 3.5.3) MMốốtt (Mode)(Mode)
1.1. ĐoĐo chichiềềuu hưhướớngng ttậậpp trungtrung
2.2. LLàà trtrịị xuxuấấtt hihiệệnn nhinhiềềuu llầầnn nhnhấấtt
3.3. KhôngKhông bbịị ttáácc đđộộngng bbởởii trtrịị bbấấtt thưthườờngng
4.4. CCóó ththểể khôngkhông ccóó hohoặặcc ccóó nhinhiềềuu mmốốtt trongtrong mmộộtt ttậậpp ddữữliliệệuu
5.5. CCóó ththểể ddùùngng chocho ddữữ liliệệuu đđịịnhnh lưlượợngng vvàà đđịịnhnh ttíínhnh
VVíí ddụụSSốố liliệệuu thôthô:: 1717 1616 2121 1818 1313 1616 1212 1111XXếếpp ththứứ ttựự:: 1111 1212 1313 1616 1616 1717 1818 2121
72
VVíí ddụụ vvềề MMốốttnnKhôngKhông ccóó mmốốtt
nnDDữữ liliệệuu:: 10.310.3 4.94.9 8.98.9 11.711.7 6.36.3 7.77.7
nnMMộộtt MMốốtt
nn DDữữ liliệệuu :: 6.36.3 4.94.9 8.98.9 6.3 6.3 4.94.9 4.94.9
nnTrênTrên 1 1 MMốốttDDữữ liliệệuu :: 2121 2828 2828 4141 4343 4343
73
TTóómm ttắắtt vvềề ssốố đođo chichiềềuu hưhướớngng ttậậpp trungtrung
SSốố đođo CôngCông ththứứcc MôMô ttảảTrungTrung bbììnhnh Σ Σ XXii / / nn ĐiĐiểểmm câncân bbằằngngTrungTrung vvịị (( nn+1)+1)VVịị trtríí 22
GiGiáá trtrịị ởở gigiữữaakhikhi xxếếpp ththứứ ttụụ
MMốốtt KhôngKhông ccóó TrTrịị ccóó ttầầnn susuấấtt llớớnn nhnhấấtt
74
3.5. 3.5. CaCaùùcc phphööôngông phaphaùùpp sosoááchocho ddööõõ lielieääuu ññònhònh llööôôïïngng
Döõ lieäu ñònh löôïngÑaëc tính
TrungTrung bbììnhnh
TrungTrung vòvò
MoMoáátt
Chieàu höôùngTaäp trung
PhaPhaïïmm vivi
BieBieáánn llööôôïïngng
SaiSai tieâutieâu chuachuaåånn
Söï bieán thieân
ÑÑooää leleäächch
Daïng
75
3.5.4) 3.5.4) PhPhạạmm vivi
nn 1.1. ĐoĐo lưlườờngng đđộộ phânphân ttáánnnn 2.2. LLàà saisai bibiệệtt gigiữữaa ssốố quanquan ssáátt llớớnn nhnhấấtt vvàà nhnhỏỏ nhnhấấtt
nn 3.3. KhôngKhông quanquan tâmtâm đđếếnn ddữữ liliệệuu phânphân bbốố nhưnhư ththếế nnààoo
77 88 99 1010 77 88 99 1010
PhPhạạmm vi vi phânphân bbốố == −−xx xxLLớớnn nhnhấấtt NhNhỏỏ nhnhấấtt
76
3.5.5) Các quảng phần tư (Quatrtiles)
• Chia dữ liệu sau khi đã xếp thứ tự thành 4 quảng
• Vị trí của quảng thứ i
• và là các số đo của sự không tập trung• = Trung vị, Một số đo chiều hướng tập trung
25% 25% 25% 25%
( )1Q ( )2Q ( )3Q
Dữ liệu xếp theo dãy thứ tự: 11 12 13 16 16 17 18 21 22 ( ) ( )
1 1
1 9 1 12 13Position of 2.5 12.5
4 2Q Q
+ += = = =
1Q 3Q2Q
( ) ( )14i
i nQ
+=
Vị trí của
77
3.5.6)Đồ thị hộp và râu (Box and Wisker)
Sự thể hiện các quảng phần tư, phạm vi của tậpdữ liệu trên đồ thị
Trung vị( )
4 6 8 10 12
XLớn nhấtXBé nhất 1Q 3Q2Q
78
• Đo sự biến thiên• Được xem như đo độ phân tán ở giữa dãy dữ
liệu 50%• Là chênh lệch giữa quảng phần tư thứ nhất và
thứ ba
• Không bị tác động bởi các trị bất thường
3 1Interquartile Range 17.5 12.5 5Q Q= − = − =
3.5.7) Phạm vi liên quảng phần tư (InterquartileRange)
Dữ liệu xếp theo dãy thứ tự : 11 12 13 16 16 17 17 18 21IR =
79
3.5. Các phương pháp số đối với dữ liệu định lương
Các đặc trưngDữ liệu số
TrungTrung bbììnhnh
TrungTrung vvịị
ModeMode
Chiều hướngTập trung
PhPhạạmm vivi
BiBiếếnn lưlượợngng
SaiSai tiêutiêu chuchuẩẩnn
Độ biến thiên
ĐĐộộ nhnhọọnn
Hình dạngPhân bố
80
3.5.8) 3.5.8) BiBiếếnn lưlượợngng vvàà đđộộ llệệchch tiêutiêu chuchuẩẩnn
nn 1.1. ĐoĐo đđộộ phânphân ttáánn
nn 2.2. LLàà ssốố đođo phphổổ bibiếếnn nhnhấấtt
nn 3.3. ChChúúngng xemxem xxéétt ddữữ liliệệuu đãđã phânphân bbốố nhưnhư ththếế nnààoo
nn 4.4. ThThểể hihiệệnn bibiếếnn thiênthiên ccủủaa TrungTrung bbììnhnh ((SxSx hay S)hay S)
44 66 88 1010 1212
XX = 8.3= 8.3
81
CôngCông ththứứcc bibiếếnn lưlượợngng ccủủaa mmẫẫuu
nn -- 1 1 trongtrong mmẫẫuu ssốố! ! ((SSửử ddụụngng NN nnếếuu ttíínhnhbibiếếnn lưlượợngng ccủủaa ttậậpphhợợpp tòantòan ththểể
SSXX XX
nn
XX XX XX XX XX XXnn
iiii
nn
nn
22
22
11
1122
2222 22
11
11
==−−
−−
==−− ++ −− ++ ++ −−
−−
==∑∑
LL
82
CôngCông ththứứcc đđộộ llệệchch tiêutiêu chuchuẩẩnn ccủủaa mmẫẫuu
SS SS
XX XX
nn
XX XX XX XX XX XXnn
iiii
nn
nn
==
==−−
−−
==−− ++ −− ++ ++ −−
−−
==∑∑
22
22
11
1122
2222 22
11
11
LL
83
VVíí ddụụ vvềề bibiếếnn lưlượợngng
nn SSốố liliệệuu thôthô::10.310.34.94.9 8.98.9 11.711.7 6.36.3 7.77.7
SSXX XX
nnXX
XX
nn
SS
iiii
nn
iiii
nn
22
22
11 11
2222 22 22
1188 33
1010 33 88 33 44 99 88 33 77 77 88 3366 11
66 368368
==−−
−−== ==
==−− ++ −− ++ ++ −−
−−==
== ==∑∑ ∑∑
TrongTrong đđóó ..
.. .. .. .. .. ..
..
LL
84
SSốố đođo ssựự bibiếếnn thiênthiên
BiBiếếnn lưlượợngng mmẫẫuu
SSốố liliệệuu thôthô:: 1717 1616 2121 1818 1313 1616 1212 1111
SSXX XX
nnXX
XX
nn
SS
iiii
nn
iiii
nn
22
22
11 11
2222 22 22
111515 55
1717 1515 55 1616 1515 55 1111 1515 5588 11
11111414
==−−
−−== ==
==−− ++ −− ++ ++ −−
−−==
== ==∑∑ ∑∑
TrongTrong đđóó ..
.. .. ..
..
LL
85
SSốố đođo ssựự bibiếếnn thiênthiên [2][2]
nn ĐĐộộ llệệchch tiêutiêu chuchuẩẩnn ccủủaa mmẫẫuu
SS SSXX XX
nn
iiii
nn
== ==−−
−−== ====
∑∑22
22
11
1111111414 33 3434.. ..
86
TTóómm ttắắtt vvềề ccáácc ssốố đođo đđộộ bibiếếnn thiênthiên
SSốố đođo CôngCông ththứứcc MôMô ttảả
PhPhạạmm vivi XXLLớớnn nhnhấấtt -- XXNhNhỏỏ nhnhấấtt SSựự phânphân ttáánn tòantòan bbộộ
ĐĐộộ llệệchch tiêutiêu chuchuẩẩnn((ccủủaa mmẫẫuu))
XX XX
nnii −−
−−
(( ))∑∑ 22
11
SSựự phânphân ttáánn vvềềtrungtrung bbììnhnh mmẫẫuu
BiBiếếnn lưlượợngng((CCủủaa mmẫẫuu))
ΣΣ((XXii --XX ))22
nn -- 11BBììnhnh phươngphương phânphân ttáánn vvềềtrungtrung bbììnhnh mmẫẫuu
87
So sánh các sai tiêu chuẩn
Trung bình = 15.5s = 3.33811 12 13 14 15 16 17 18 19
20 21
11 12 13 14 15 16 17 18 19 20 21
Döõ lieäu B
Döõ lieäu A
Trung bình= 15.5s = .9258
11 12 13 14 15 16 17 18 19 20 21
Trung bình = 15.5s = 4.57
Döõ lieäu C
88
3.5. 3.5. CCáácc phươngphương phpháápp ssốố chocho ddữữ liliệệuuđđịịnhnh lưlượợngng
Döõ lieäu ñònh löôïngÑaëc tính
TrungTrung bbììnhnh
TrungTrung vòvò
MoMoáátt
Chieàu höôùngTaäp trung
PhaPhaïïmm vivi
BieBieáánn llööôôïïngng
SaiSai tieâutieâu chuachuaåånn
Söï bieán thieân
ÑÑooää leleäächch
Daïng
89
3.5.10) 3.5.10) DDạạngng phânphân bbốố
nn 1.1. MoâMoâ tataûû ddööõõ lielieääuu phaânphaân boboáá nhnhöö thetheáá nanaøøoonn 2.2. ÑÑoo babaèèngng ññooää leleäächch ((ññooää ññooááii xxöùöùngng))
LeLeäächch tratraùùiiLeLeäächch phaphaûûii ÑÑooááii xxöùöùngngTr.bTr.bììnhnh = = Tr.vòTr.vò = = MoMoááttTrungTrung bbììnhnh TrungTrung vòvòMoMoáátt MoMoáátt TrungTrung vòvò TrungTrung bbììnhnh
90
DDạạngng phânphân bbốố vvàà đđồồ ththịị hhộộpp--râurâu
Lệch tráiLệch phải Đối xứng
1Q 1Q 1Q2Q 2Q 2Q3Q 3Q3Q
91
Freq
uenc
y
DDạạngng ccủủaa gigiảảnn đđồồ ttầầnn susuấấtt(Giản đồ tần suất đối xứng)
Giản đồ tần suất đối xứng hai đỉnh
Điểm giữa Điểm giữa
Giản đồ tần suất đối xứng một đỉnh
92
Với dữ liệu lớn số lớp tăng lên (bề rộnglớp giảm đi, đa giác tần suất trở thànhĐường cong phân bố tần suất.
Đường cong phân bố tần suất
0
2
4
6
8
10
12
14
16
18
15-17 18-20 21-23 24-26 27-29 30-32 33-35 36-38 39-41
Class limits
Freq
uenc
y
Freq
uenc
y
Đa giác tần suất
93
TTóómm ttắắttĐĐặặcc điđiểểmm ddữữ liliệệuu môimôi trưtrườờngng ddễễ bbịị ttáácc đđộộngng ccủủaa trtrịị bbấấtt thưthườờngng
SSửử ddụụngng phươngphương phpháápp đđồồ ththịị chocho trtrììnhnh bbààyy ddữữ liliệệuu đđịịnhnh lưlượợngngvvàà đđịịnhnh ttíínhnh
SSửử ddụụngng ccáácc phươngphương phpháápp ssốố chocho ddữữ liliệệuu đđịịnhnh lưlượợngng::
+ + ĐĐồồ ththịị thânthân lláá , , đđồồ ththịị điđiểểmm , , bbảảngng ttầầnn susuấấtt, , gigiảảnn đđồồ ttầầnn susuấấtt
+ + ĐoĐo chichiềềuu hưhướớngng ttậậpp trungtrung: : TrungTrung bbììnhnh, , trungtrung vvịị, , mmốốtt
+ + ĐoĐo đđộộ phânphân ttáánn: : phphạạmm vvịị, , phphạạmm vvịị liênliên ququảảngng phphầầnn tưtư, , bibiếếnnlưlượợngng, , đđộộ llệệchch tiêutiêu chuchuẩẩnn, , hhììnhnh ddạạngng đđồồ ththịị phânphân bbốố . .
94
BBààii 22GIGIỚỚI THII THIỆỆU PHU PHẦẦN MN MỀỀMM
XXỬỬ LÝ THLÝ THỐỐNG KÊ NG KÊ STATGRAPHICSSTATGRAPHICS
1. Tổng quan về phần mềm STATGRAPHICS
2. Các kỹ thuật biến đổi dữ liệu trong Statgraphics
Nội dung bài học
95
1. Tổng quan về STATGRAPHICS
STATGRAPHICS là phần mềm chuyên dụng về thống kêvà đồ thị , có 6 nhóm công cụ:
1. DATA MANAGEMENT AND SYSTEM UTILITIES
2. PLOTTING AND DESCRIPTIVE STATISTICS
3. ANOVA AND REGRESSION ANALYSIS
4. ADVANCED PROCEDURES
5. TIME SERIES PROCEDURES
6. MATHEMATICAL AND USER PROCEDURES
Đối với người sử dụng statgraphics cho phân tích thốngkê trong lĩnh vực môi trường , chúng ta quan tâm đếncác phương pháp -công cụ từ E đến L.
96
STATGRAPHICS Statistical Graphics STATGRAPHICS Statistical Graphics SystemSystem
DATA MANAGEMENT AND SYSTEM UTILITIES TIME SERIES PROCEDUDATA MANAGEMENT AND SYSTEM UTILITIES TIME SERIES PROCEDURESRESA. Data Management L. FoA. Data Management L. Forecasting recasting B. System Environment M. QB. System Environment M. Quality Control uality Control C. Report Writer and Graphics Replay N. Smoothing C. Report Writer and Graphics Replay N. Smoothing D. Graphics Attributes OD. Graphics Attributes O. Time Series Analysis. Time Series Analysis
PLOTTING AND DESCRIPTIVE STATISTICS ADVANCED PROCEDURESPLOTTING AND DESCRIPTIVE STATISTICS ADVANCED PROCEDURESE. Plotting Functions P. CategorE. Plotting Functions P. Categorical Data Analysis ical Data Analysis F. Descriptive Methods Q. MultivariaF. Descriptive Methods Q. Multivariate Methods te Methods G. Estimation and Testing R. NonparametriG. Estimation and Testing R. Nonparametric Methods c Methods H. Distribution Functions S. Lifetime DaH. Distribution Functions S. Lifetime Data Analysis ta Analysis I. Exploratory Data Analysis T. Experimental I. Exploratory Data Analysis T. Experimental DesignDesign
ANOVA AND REGRESSION ANALYSIS MATHEMATICAL AND USERANOVA AND REGRESSION ANALYSIS MATHEMATICAL AND USER PROCEDURESPROCEDURESJ. Analysis of Variance U. MathematiJ. Analysis of Variance U. Mathematical Functions cal Functions K. Regression Analysis V. Macros and K. Regression Analysis V. Macros and User FunctionsUser Functions
97
A. DATA MANAGEMENT
DATA MANAGEMENT DATA MANAGEMENT 1. Select Data Files 1. Select Data Files
2.2. Data Editor Data Editor 3.3. Execute Expressions Execute Expressions 4.4. File Utilities File Utilities
5.5. Import Data Files Import Data Files 6.6. Export Data Files Export Data Files 7.7. Matrix Utilities Matrix Utilities 8.8. Migrate STATGRAPHICS Migrate STATGRAPHICS
FilesFiles
QUQUẢẢN LÝ DN LÝ DỮỮ LILIỆỆUU
1. 1. ChChọọnn File data File data đđểể xxửử lýlý
2.2. ThaoThao ttáácc ddữữ liliệệuu
3.3. Execute Expressions Execute Expressions
4.4. ThaoThao ttáácc File File
5.5. NhNhậậpp Files Files ttừừ chươngchương trtrììnhnhkhkháácc
6.6. XuXuấấtt Files Files rara CT CT khkháácc
7.7. ThaoThao ttáácc vvớớii ma ma trtrậậnn
8.8. Migrate STATGRAPHICS FilesMigrate STATGRAPHICS Files
98
SYSTEM ENVIRONMENTSYSTEM ENVIRONMENT
1. System Profile1. System Profile2. Screen Colors2. Screen Colors
3. Issue DOS Command 3. Issue DOS Command 4. Temporary Exit to DOS 4. Temporary Exit to DOS 5. Performance Options 5. Performance Options 6. Weekends/Holidays6. Weekends/Holidays
7. Load Operators7. Load Operators
Khai báo môi trường cho hệthống STATGRAPHICS
Syatem Profile : Khai báo cácđường dẫn
B. SYSTEM ENVIRONMENT
99
System ProfileSystem ProfileSystem Path C:System Path C:\\STATG70STATG70\\ ((KhaiKhai bbááoo thưthư mmụụcc STATGRAPHICS STATGRAPHICS đangđang
ởở))Help Path C:Help Path C:\\STATG70STATG70\\ ((KhaiKhai bbááoo thưthư mmụụcc Help STATGRAPHICS )Help STATGRAPHICS )Data Path C:Data Path C:\\STATG70STATG70\\DATADATA\\ ((KhaiKhai bbááoo thưthư mmụụcc ssẽẽ chchứứaa ddữữ liliệệuu))Print Path C:Print Path C:\\STATG70STATG70\\DATADATA\\ ((ThưThư mmụụcc ssẽẽ in in ddữữ liliệệuu ddạạngng file)file)
Import Path C:Import Path C:\\STATG70STATG70\\DATADATA\\ ((KhaiKhai bbááoo thưthư mmụụcc ssẽẽ chchứứaa ddữữ liliệệuussẽẽ nhnhậậpp) )
Available Memory 172928 Available Memory 172928 Tone Duration Tone Duration
Menu Type Menu Type FullscreenFullscreen Bell 300 0 Bell 300 0 Blah 50 2Blah 50 200 00
Expression Evaluation RightExpression Evaluation Right--toto--left Chirp 1737 1 left Chirp 1737 1 Date Variable Format MM/DD/YY (Date Variable Format MM/DD/YY (KhaiKhai ddạạngng ngngààyy ththáángng nămnăm) )
Month Variable Format MM/YY (Month Variable Format MM/YY (KhaiKhai ddạạngng ththááng/ng/nămnăm) ) Time Format HH:MM (Time Format HH:MM (KhaiKhai ddạạngng gigiờờ) )
"Go" Mouse Button Left "Go" Mouse Button Left
100
PLOTTING FUNCTIONS PLOTTING FUNCTIONS
1. X1. X--Y Line and Y Line and ScatterplotsScatterplots2. Multiple X2. Multiple X--Y Plots Y Plots
3. X3. X--YY--Z Line and Z Line and scatterplotsscatterplots4. Multiple X4. Multiple X--YY--Z Plots Z Plots
5. 5. BarchartsBarcharts6. 6. PiechartsPiecharts
7. Component Line Charts7. Component Line Charts
Vẽ đồ thị1. Vẽ đồ thị tuyến X-Y và đồ thị
điểm
2. Vẽ nhiều đồ thị tuyến X-Y
3. Vẽ thị tuyến 3 biến X-Y-Z
4. Vẽ Nhiều đồ thị tuyến X-Y-Z
5. Đồ thị cột
6. Đồ thị tròn (bánh)
7. Vẽ đồ thị tuyến cho dữ liệuquan trắc theo thời gian
E. PLOTTING FUNCTIONS
101
DESCRIPTIVE METHODS DESCRIPTIVE METHODS
1. Summary Statistics 1. Summary Statistics
2. Frequency Tabulation 2. Frequency Tabulation 3. Frequency Histogram 3. Frequency Histogram 4. Weighted Averages 4. Weighted Averages
5. Percentiles 5. Percentiles 6. Codebook 6. Codebook
7. 7. ThreeThree--Dimensional Dimensional
HistogramHistogram
Các phương phápthống kê mô tả
1. Tính các thống kê tổng hợp
2. Lập bảng tần suất
3. Vẽ giản đồ tần suất
4. Tính trung bình trọng số
5. Tính quảng phần trăm
6. Tính thống kê cho dữ liệuphân lớp
7. Giản đồ tần suất 3 chiều
F. DESCRIPTIVE METHODS
102
ESTIMATION AND ESTIMATION AND
TESTINGTESTING
1. 1. OneOne--Sample Analysis Sample Analysis
2. Two2. Two--Sample Analysis Sample Analysis 3. Normal Probability Plot 3. Normal Probability Plot
4. Hanging 4. Hanging HistobarsHistobars5. 5. Comparison of Poisson Comparison of Poisson
RatesRates6. Sample Size6. Sample Size
Ước lượng và trắcnghiệm
1. Phân tích một mẫu
2. So sánh hai mẫu
3. Vẽ Đồ thị xác xuất chuẩn
4. Vẽ đồ thị cột treo
5. So sánh tỷ lệ Poisson
6. Tính cỡ mẫu
G. ESTIMATION AND TESTING
103
DISTRIBUTION DISTRIBUTION
FUNCTIONSFUNCTIONS
1. 1. Distribution Fitting Distribution Fitting
2. Distribution Plotting 2. Distribution Plotting 4.Tail Area Probabilities 4.Tail Area Probabilities
4. Critical Values 4. Critical Values
5. Random Number Generation5. Random Number Generation
Các hàm phân bố
1. Mô phỏng bằng hàmphân bố
2. Vẽ đồ thị phân bố
H. DISTRIBUTION FUNCTIONS
104
ANALYSIS OF ANALYSIS OF
VARIANCEVARIANCE
1. 1. OneOne--Way ANOVA Way ANOVA
2. Multifactor ANOVA2. Multifactor ANOVA3. 3. Nested Designs Nested Designs
4. 4. KruskalKruskal--Wallis Test Wallis Test
5. Friedman Two5. Friedman Two--Way TestWay Test
Phân tích biếnlượng ANOVA
1. ANOVA một yếu tố
2. ANOVA nhiều yếu tố
J. ANALYSIS OF VARIANCE
105
REGRESSION REGRESSION
ANALYSISANALYSIS
1. 1. Simple Regression Simple Regression
2. Outlier Rejection 2. Outlier Rejection 3. Multiple Regression 3. Multiple Regression
4. Stepwise Regression 4. Stepwise Regression 5. Ridge Regression5. Ridge Regression6. Nonlinear Regression6. Nonlinear Regression
7. 7. Regression Model SelectionRegression Model Selection
Phân tích hồi qui1. Hồi qui đơn giản
2. Loại bỏ trị bất thường
3. Hồi qui đa biến số
4. Hồi qui chọn biến từngbước
5. Hồi qui phi tuyến tính
6. Hồi qui phi tuyến tính
7. Chọn lựa mô hình hồi qui
K. REGRESSION ANALYSIS
106
FORECASTING FORECASTING
1. 1. Brown's Brown's ExponExpon. Smoothing . Smoothing 2. Holt's Linear Smoothing 2. Holt's Linear Smoothing
3. Winter's Seasonal 3. Winter's Seasonal Smoothing Smoothing
4. Trend Analysis 4. Trend Analysis
5. Seasonal Decomposition5. Seasonal Decomposition
Dự báo1. Nắn mô phỏng theo hàm
mũ Brown
2. Nắn mô phỏng theo hàmtuyến tính Holt
3. Nắn mô phỏng dữ liệutheo mùa Winter
4. Phân tích chiều hướng
5. Phân tích thành phần dữliệu theo mùa
L. FORECASTING
107
SMOOTHING SMOOTHING 11. Simple Moving Average . Simple Moving Average
2. Weighted Moving Averages 2. Weighted Moving Averages
3. Polynomial Smoothing3. Polynomial Smoothing4. Open and Closed Q4. Open and Closed Q--SplinesSplines
5. Poisson Rate Function Estimation5. Poisson Rate Function Estimation
N. Nắn mô phỏng1. PP Trung bình dịch
chuyển đơn giản
2. PP Trung bình dịchchuyển trọng số
3. Năn mô phỏng đa thức
N.SMOOTHING
108
2. CÁC KỸ THUẬT BIẾN ĐỔI DỮ
LIỆU TRONG STATGRAPHICS
109
1.4.1) Các thuật toán tổng quát:
Các thuật toán sau đây cho phép biến đổi toán học trong các“array” (mảng, dãy số). Trong trình bày, n có thể là số, vectơ, hay ma trận.
___________________________________________________| n hay ABS n: biến đổi thành trị tuyệt đối cho một “array”Lệnh ví dụ: ABS -2 45 -16 -12.5kết quả: 2 45 16 12.5___________________________________________________n + n hay n PLUS n : Cộng hai “array”Lệnh ví dụ: 2 5 8 PLUS 3 6 8Kết quả 5 11 16___________________________________________________n / n hay n DIVIDE n Chia hai “array”Lệnh ví dụ: 256 144 8 / 8Kết quả 32 18 1___________________________________________________
110
1.4.1) Các thuật toán tổng quát:EXP n Tính trị hàm mủ ex
Lệnh ví dụ: EXP 1Kết quả 2,71828____________________________________________n ^ n hay n RAISE n Lũy thừa. Toán tử bên phải được lấy lũy thừa theo bậc được xác định bởi yếu tố bên trái
Lệnh ví dụ: 10 ^ 3 4Kết quả 1000 10000____________________________________________LOG n Cho Logarit tự nhiên (Neper) của “array” n
Lệnh ví dụ: LOG 1 10 100 1000Kết quả 0 2.30259 4.60517 6.90776
111
1.4.1) Các thuật toán tổng quát:
___________________________________________________n - n hay n MINUS n Làm phép trừ cho 2 “array”
Lệnh ví dụ: 10 9 8 - 7 6 5 Kết quả 3 3 3___________________________________________________SQRT n Tính căn bậc 2 cho “array” n
Lệnh ví dụ: SQRT 1 100 10000Kết quả 1 10 100___________________________________________________n * n hay n TIMES n Phép nhân 2 “array”
Lệnh ví dụ: 4 * 8 9 10Kết quả 32 36 40
112
Thuật toán liên hệ và logic
n AND n Phép logic “và”, kết quả “có” cho ra chỉ khi cảhai toán tử ở vế phải và trái đều là “có”.Lệnh ví dụ: 0 0 1 1 AND 0 1 0 1Kết quả 0 0 0 1___________________________________________________n = n hay n EQ n Phép “bằng” . Kết quả “có” cho ra chỉkhi cả hai toán tử ở vế phải và trái bằng nhauLệnh ví dụ: 26 EQ 26 12 25Kết quả 1 0 0___________________________________________________n > n hay n GT n Lớn hơn. Kết quả “có” cho ra khi toán tửở vế phải lớn hơn toán tử vế trái.Lệnh ví dụ: 85 62 34 > 46 62 33Kết quả 1 0 1___________________________________________________
113
Thuật toán liên hệ và logic
__________________________________________________n > n hay n GT n Lớn hơn. Kết quả “có” cho ra khi toán tửở vế phải lớn hơn toán tử vế trái.Lệnh ví dụ: 85 62 34 > 46 62 33Kết quả 1 0 1___________________________________________________n GE n Lớn hơn hay bằng . Kết quả “có” cho ra khi toán tử ở vế phải lớn hơn hay bằng toán tử vế trái.Lệnh ví dụ: 85 62 34 GE 46 62 33Kết quả 1 1 1
n GE n Lớn hơn hay bằng . Kết quả “có” cho ra khi toán tử ở vế phải lớn hơn hay bằng toán tử vế trái.Lệnh ví dụ: 85 62 34 GE 46 62 33Kết quả 1 1 1
114
Thuật toán liên hệ và logic
n < n hay n LT n Nhỏ hơn. Kết quả “có” cho ra khi toán tửở vế phải nhỏ hơn toán tử vế trái.Lệnh ví dụ: 85 62 34 < 46 62 33Kết quả 0 0 0 ___________________________________________________n LE n Nhỏ hơn hay bằng . Kết quả “có” cho ra khi toán tử ở vế phải nhỏ hơn hay bằng toán tử vế trái.Lệnh ví dụ: 85 62 34 GE 46 62 33Kết quả 0 1 0___________________________________________________n NE n Phép “khòng bằng” . Kết quả “có” cho ra chỉ khi cảhai toán tử ở vế phải và trái không bằng nhauLệnh ví dụ: 83 NE 56Kết quả 1___________________________________________________n OR n Phép logic “hay”. Kết quả “có” cho ra khi một trong hai toán tử ở vế phải và trái là “có”
115
2. 3 Các thuật toán biến đổi và chọn lọc:
Các toán tử này cho phép chọn các phần tử của “array” vàbiến đổi số liệu.n . n hay n .[dim] n (catenate: liên kết hai “array” để thay đổi một ma trận, cần chỉ ra chiều trong ngoặc vuông: [1] nghĩa là thêm một dòng mới, [2] nghĩa là thêm một cột mới, Định sẳn là thêm cột mới.Lệnh ví dụ: 86 42 34 . 62Kết quả 86 42 34 62
116
2. 3 Các thuật toán biến đổi và chọn lọc:
n COMPRESS n n bên phải phải là một biểu thức cho ra trị 0 và 1 hay một
vectơ của 0 và 1. Nếu n vế trái là một vectỏ có cùng kích thước với n vế phải, COMPRESS sẽ liên hệ các trị bên vế phải với các trị bên vế trái và xóa tất cả các trị bên vế trái tương ứng với trị0 bên vế phải. Nếu ở vế trái là một ma trận với cùng số cột như ở vế trái, COMPRESS liên kết và xét mỗi cột của ma trận và bỏ đi các cột tương ứng với 0.Lệnh ví dụ: 0 1 0 1 COMPRESS 1 3 5 7 Kết quả 3 7Lệnh ví dụ: 0 1 0 1 COMPRESS 3 4 RESHAPE COUNT 12 Kết quả 2 4
6 810 12
117
2. 3 Các thuật toán biến đổi và chọn lọc:
COUNT n Tạo ra một vectơ với n số nguyên từ 1 đến n.Lệnh ví dụ: COUNT 10Kết quả 1 2 3 4 5 6 7 8 9 10___________________________________________________
DIFF arrayTính sự chênh lệch giữa hai trị nối tiếp nhau trong một “array” . Nếu “array” là một ma trận, DIFF tính toán chênh lệch của các số trong mỗi cột.Lệnh ví dụ: DIFF 1 12 32 13 40 56Kết quả 11 20 -19 27 16
118
2. 3 Các thuật toán biến đổi và chọn lọc:
n DROP arrayCắt bỏ n trị số trong “array” kể từ số hạng đầu (+n) hay kể từ số hạng cuối (-n) của “array” . Nếy “array”là một vectơ, n là một số. Nếu “array” là một ma trận, n sẽ gồm 2 số chỉ ra số hàng và cột cần cắt bỏ.Lệnh ví dụ: 5 DROP 1 2 3 4 5 6 7 8 9 Kết quả6 7 8 9Lệnh ví dụ: -5 DROP 1 2 3 4 5 6 7 8 9 Kết quả1 2 3 4
119
2. 3 Các thuật toán biến đổi và chọn lọc:
vec GETS array
Lủu trử kết quả của một biểu thức ghi ở yếu tố bên trái vào một biến làm việc , xác định bởi yếu tố bên phải của lệnh.Lệnh ví dụ: vec GETS COUNT 50 Kết quả: Các số nguyên từ 1 đến 50 được lưu trong biến vecLệnh ví dụ: vec GETS 5 10 15 Kết quả: Các số 5 10 15 được lưu trong biến vecarray [n] hay array [r;c] array [;c] (chỉ số)Nếu “array” là một vectơ, chọn phần tử thứ n của [n], Nếu “array”là một ma trận, chọn các phần tử trong hàng r và cột c của [r;c] hay các phần tử trong cột c [;c].Lệnh ví dụ: (COUNT 10) [5] Kết quả: 5Lệnh ví dụ: (3 4 RESHAPE COUNT 12) [;3 4] Kết quả: 3 4
7 811 12
120
2. 3 Các thuật toán biến đổi và chọn lọc:
n LAG arrayThay thế bằng mã của trị mất phía trước (+n) hay phía sau (-n), đồng thời xóa bỏ n trị ở phía ngược lại trong “array”.Lệnh ví dụ: 2 LAG 1 2 3 4 5 Kết quả: -32768 -32768 1 2 3Lệnh ví dụ: -2 LAG 1 2 3 4 5 Kết quả: 3 4 5 -32768 -32768MAX array và MIN array Chọn trị lớn nhất (MAX) hay nhỏ nhất (MIN) trong “array”
Lệnh ví dụ: MAX COUNT 50 Kết quả: 50. matrix (ravel)Trả chuyển đổi một ma trận thành một vectơLệnh ví dụ: . 3 4 RESHAPE COUNT 12 Kết quả: 1 2 3 4 5 6 7 8 9 10 11 12--------------------------------------------------------------------n REP arrayTạo ra n trị lặp lại của mỗi phần tử trong 1 array2 2 3 3 REP COUNT 4 Kết quả: 1 1 2 2 3 3 3 4 4 4 4
121
2. 3 Các thuật toán biến đổi và chọn lọc:r c RESHAPE array hay n RESHAPE array1) chuyển đổi dạng của một array thành r dòng và c cột. Nếu sốdòng và cột yêu cầu nhiều hơn các trị mà array chứa, các trị sẽlặp lại theo chu kỳ. Nếu số dòng và cột yêu cầu lại ít hơn các trịcủa array, các trị sẽ bị cắt bỏ từ phía cuối.Lệnh ví dụ: . 3 4 RESHAPE COUNT 5 Kết quả: 1 2 3 4
5 1 2 3 4 5 1 2
2) Mở rộng một vectơ ghi ở phía trái của lệnh thành vectơ có kíchthước ghi ở phía phải của lệnhLệnh ví dụ: 10 RESHAPE COUNT 5 Kết quả: 1 2 3 4 5 1 2 3 4 5variable SELECT conditionThay thế tất cả trị trong một array với mã trị mất (-32768) , ngoạitrừ những trị thỏa mãn những điều kiện liên hệ hay logic xac địnhbởi condition.Lệnh ví dụ: mpg SELECT origin EQ 1
122
2. 3 Các thuật toán biến đổi và chọn lọc:
SIZE array Cho ra kích thước của array. Nếu array là một vectơ,
SIZE cho r a một số cho bièt số lượng các phần tử của array, kể cả các mã trị bị mất. Nếu array là một ma trận, SIZE cho ra2 số, chỉ số dòng và số cột của ma trận.Lệnh ví dụ: SIZE mpg Kết quả: 155____________________________________________________
SUM array Tính tổng các phần tử của array. Nếu array là mo5t ma trận, kết quả sẽ là một vectơ chứa tổng của các cột.Lệnh ví dụ: SUM 1 3 5 7 9 Kết quả: 25
123
2. 3 Các thuật toán biến đổi và chọn lọc:
n TAKE arrayGiống như DROP, nhưng không cắt bỏ mà chọn một số xácđịnh của các trị từ phía trước (+n) hay từ phía sau (-n) củamột array.Lệnh ví dụ: 5 TAKE 1 2 3 4 5 6 7 8 9 Kết quả: 1 2 3 4 5Lệnh ví dụ: -5 TAKE 1 2 3 4 5 6 7 8 9 Kết quả: 5 6 7 8 9____________________________________________________vec WITH vecTạo một ma trận từ 2 vectơ bằng cách dúng yếu tố bên tráilàm cột đầu tiên và yếu tố bên phải làm cột thứ hai.Lệnh ví dụ: 1 3 5 WITH 7 9 11 Kết quả: 1 7
3 95 11
124
1.4.2) Các thuật toán và hàm có thể gọi và sử dụng:Khi cần gán trị cho một biến mới tạo ra (trong File operation, tác vụ j), ta có thể gán công thức để gán trị cho biến mới trêncơ sở số liệu của biến đã lưu trữ.Ví dụ: ta tạo biến LOGD trên cơ sở biến DATA.D bằng cáchgán LOG(DATA.D)Các hàm toán học có thể thực hiện gán như sau:Nhóm các phương pháp mô tả:STATS Tính các đặc trưng thống kê tổng hợp cho một biếnxác định hay một chuổi số.VARIANCE Tính biến lượng cho một biến xác định hay mộtchuổi số.AVERAGE Tính trung bình cho một biến xác định hay mộtchuổi số.MEDIAN Tính số trung vị cho một biến xác định hay mộtchuổi số.
125
Nhóm các hàm toán học trong Statgraphics:
ASIN Cung sinACOS Cung cosinATAN Cung tangCOS Cosin của một cung hay gócEXP10 Mủ cơ số 10FACT Hàm giai thừaGAMMA Hàm Gamma
126
Nhóm các hàm toán học trong Statgraphics:
LOG10 Logarit thập phânROUND Hàm làm tròn sốSIN Sin của một cung hay gócSORTDOWN Xếp thứ tự giảmSORTUP Xếp thứ tự tăngTAN tang của một cung hay gócTRUNCATE Cắt
127
Bài 3
XỬ LÝ DỮ LIỆU ĐIỀU TRA KHẢO SÁT
– THỐNG KÊ MÔ TẢNội dung bài học:1. Lập file dữ liệu , tạo biến số và các thao tác khác2. Tình tóan các chỉ tiêu thống kê và vẽ đồ thị
3. Chỉ tiêu thống kê4. Bảng tần suất, codebook5. Cách biến đổi biến số
6. Bài tập (nộp file)
128
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS
Add additional column
-----------------Name:
Type: N Width: 16
Data management
Data Editor
Hiện ra màn hình – điền tên fileData Editor --------------------------------------------------------------------------------Data directory: C:\STATG70\DATA\
Filename: --------------------------------------------------------------------------------[ ] WORKAREA [ ] AAA [ ] HOIQUI [ ] LAPFILE [ ] MULTINMC [ ]
NMCANH [ ] QUANTRAC [ ] THUNGHIE [ ] TKEMOTA
Khai báo biến số
Tên biến số
Kiểu dữ liệu (số, ký tự. . .)
Bề rộng dữ liệu (mặc định là 16)
Sau khi hoàn tất khai báo biến, bắt đầu nạp dữ liệu
129
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS [2]
Cursor at Row: 1 Data Editor Maximum Rows: 12 Column: 1 File: HOIQUI Number of Cols: 3
Row SS Time DoSau------------------------------------------------------------------------------------------------------
1 135. 20. 2. 2 170. 20. 4. 3 180. 20. 6. 4 90. 40. 2. 5 110. 40. 4. 6 126. 40. 6. 7 75. 60. 2. 8 90. 60. 4. 9 96. 60. 6.
10 48. 120. 2. 11 53. 120. 4. 12 60. 120. 6. 13
-------------------------------------------------------------------------------------------------------Length 12 12 12Typ/Wth N/11 N/11 N/10
130
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS[3]
CÁC LỆNH SỬA ĐỔI BiẾN SỐ KHI NẠP DỮ LiỆU
Modify SS : Sửa đổi biến SSAdd additional column : Thêm cột biến mớiAdd (insert) rows : Thêm (chèn) dòngDelete rows : Xóa bỏ dòngAdd (insert) cells : Thêm (chèn) trị của biếnDelete cells : Xóa bỏ trị của biếnPrint to printer : In bảng số liệu ra máy in Print to file : Lưu bảng số liệu ra file Save without exit : Lưu bảng số liệu và giữ nguyên hiển thịJump to row : Di chuyển đến dòngSort in ascending order : Xếp thứ tự tăng dầnSort in descending order : Xếp thứ tự giảm dần
131
CÁC LỆNH SỬA ĐỔI BiẾN SỐ KHI CẦN SỬA ĐỔIContents of file HOIQUI
--------------------------------------------------------------------------------Variable Width Type Rank Length Date Time Comment --------------------------------------------------------------------------------Select this line to choose variables to edit. SS 8 N 1 12 11/01/06 00:07 Time 8 N 1 12 11/01/06 00:07 DoSau 8 N 1 12 1
dd new variable: Thêm biến mớiAssign values : Gán trị cho biếnCopy variable : Sao một biến thành biến khácDisplay variable : Hiển thị biếnErase variable : Xóa một biếnMove variable : Dịch chuyển biến
| Rename variable/comment : Đổi tên biến/ thêm ghi chú
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS[4]
132
CÁC LỆNH SỬA ĐỔI FILECopy : Sao thành file khác
Erase : Xóa bỏ file Vertical join : Nối hai file theo chiều đứng thành một file (cùngbiến số) Merge : Nối hai file theo chiều ngang (gộp hai file thanhmột file)Combine : Kết hợp các biến trong hai file khác nhauCompress : Nén fileSplit : Chia file thành nhiều filePrint : In file ra máy inRename : Đổi tên fileRecode : Mã hóa lại các biếnBackup : lưu dự phòng
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS[5]
133
NHẬP FILE TỪ CÁC FILE CỦA CÁC PHẦN MỀM KHÁC
Import directory: C:\STATG70\DATA\ (Thư mục để file sẽ nhập)
Input file type: (Kiểu file sẽ nhập) Input file name: (Tên file sẽ nhập)Variable names in first row: Yes Numeric missing value code: -32768
Starting column: 1 Ending column (0 for all columns): 0 Starting row: 1 Ending row (0 for all rows): 0
Field widths (ASCII only): --------------------------------------------------------------------------------
[ ] BAITAP3 [ ] BROWN.DOC [ ] BROWN.TXT [ ] CALC.MAC [ ] CASE1.DAT [ ] CODEBOOK [ ] DATA1.DOC [ ] DATA2.DOC [ ] DATA3.DOC [ ] DATA4.DOC [ ] DATAMANA.DOC [ ] DATMANA.TXT
CHUẨN BỊ FILE DỮ LiỆU TRONG STATGRAPHICS[6]
134
DESCRIPTIVE METHODS
1. Summary Statistics 2. Frequency Tabulation 3. Frequency Histogram4. Weighted Averages
5. Percentiles6. Codebook
7. Three-Dimensional Histogram
Các phương phápthống kê mô tả
1. Tính các thống kê tổng hợp
2. Lập bảng tần suất
3. Vẽ giản đồ tần suất
4. Tính trung bình trọng số
5. Tính quảng phần trăm
6. Tính thống kê cho dữ liệuphân lớp
7. Giản đồ tần suất 3 chiều
CÁC PP THỐNG KÊ MÔ TẢDESCRIPTIVE METHODS
135
1. Tính tóan các chỉ tiêu thống kê của mẫu khảo sát MT
136
Kết quả tính tóan các trị thống kê mẫu
137
2. Lập bảng tần suất cho dữ liệu khảo sát
138
Giá trị thật Tần suất (số lần xuất hiện)
10 and under 20 320 and under 30 330 and under 40 340 and under 50 450 and under 60 560 and under 70 1170 and under 80 1480 and under 90 1490 and under 100 4
60
BBảảngng phânphân bbốố ttầầnn susuấấtt
139
3. Vẽ đồ thị phân bố tần suất
140
GiGiảảnn đđồồ phânphân bbốố ttầầnn susuấấtt (Histogram)(Histogram)
Là phương pháp thống kê chuẩn để trình bày bảng phân bố tầnsuất
001122334455
TTầầnn susuấấtt
SSốố llầầnn xuxuấấtthihiệệnn
00 1515 2525 3535 4545 5555
CCậậnn dưdướớii
CCộộtt bibiểểuu ththịịttầầnn susuấấtt
SSốố đđếếmmLớp T.Suất
15 nhưng < 25 3 25 nhưng < 35 5 35 nhưng < 45 2
Lớp T.Suất 15 nhưng < 25 3 25 nhưng < 35 5 35 nhưng < 45 2
141
4. Phương pháp codebook – tính trị thống kê mẫutheo lớp dữ liệu (theo loại doanh nghiệp, loài)
Ví dụ:
1. Điều tra khảo sát chất lượng nước thải của các nhà máytrong Thành phố, cần tính các trị thống kê của mẫu khảo sátriêng cho từng lọai công nghiệp: xi mạ, dệt nhuộm, chế biếnthủy sản
2. Khảo sát chất lượng không khí tòan thành phố, cần tính trịthống kê chất lượng không khí cho từng loại khu vực: khudân cư, khu công nghiệp, đường giao thông. .
Phương pháp Codebook cho phép tính các trị thống kê mẫuđồng thời cho các nhóm, loại .
142
Phương pháp codebook – tính trị thống kê mẫu theolớp dữ liệu (theo loại doanh nghiệp, loài) [2]
143
Bài luyện tập [1]
1) Kết quả thu thập độ pH về 10 mẫu nước thải của nhà máyVIFON như sau ( 2 lần )
Lần 1: 4,5 ; 5 ; 5,3 ; 5,2 ; 5,4 ; 6 ; 6,2 ; 5 ; 4,4
Lần 2: 4,8 ; 5 ; 6 ; 6,5 ; 5,7 ; 6,2 ; 6 ; 5,8 ; 5,4 ; 5,6
Anh chị lập một báo cáo về kết quả điều tra theo dàn bài:
1. Đặt vấn đề, nhiệm vụ mục tiêu của cuộc điều tra pH. (đánh giá độ chua của nước thải)
2. Phương pháp điều tra khảo sát: (dụng cụ đo, chọn địađiểm đo, ngày đo, phương pháp lưu trữ , xử lý số liệu. . .)
3. Kết quả điều tra pH: (trình bày các bảng kết quả dựa trênkết quả xử lý trên máy tính).
144
2) Trong đợt điều tra đánh giá sự liên hệ của độ chua PH củaao đến sự phát triển của vi sinh vật, trong 10 mẫu thu thập cókết quả như sau:
Mẫu 1 2 3 4 5 6 7 8 9 10
pH 4,5 4,8 5,2 6,2 7,3 5,2 5,2 7,5 6 4,0
N 120 130 135 154 195 140 198 210 150 100
(N = số cá thể vi sinh/cm3)
Tính các chỉ tiêu thống kê của mẫu điều tra về pH, Vi sinh.
Bài luyện tập [2]
145
Bài luyện tập [3]3) Trong một đợt điều tra về sinh viên trường ĐH Bách Khoa, người ta đo chiều cao và trọng lượng của từng sinh viên đượcchọn đo lấy đều từ 2 khoa và năm học.Kết quả ghi lại như sau:
1,55/60 1,73/641,56/60 1,52/651,57/60 1,65/64
1,63/63 1,52/581,70/64 1,58/621,65/65 1,70/68
1,54/53
Năm III
1,55/60 1,58/641,58/72 1,65/651,60/62 1,59/641,59/62 1,65/72
1,62/70 1,72/681,60/72 1,65/651,68/82 1,70/701,60/74 1,58/58
Năm II
1,58/52 1,65/601,53/64 1,75/651,70/52 1,68/561,63/65 1,72/59
1,65/62 1,52/48 1,50/48 1,58/541,70/65 1,62/581,64/58 1,58/56
Năm I
Cơ KhíĐiện, Điện tửKhoa
146
Bài luyện tập [3tt]
Trong lượng tối đa, tốithiểuChiều cao tối đa tối thiểu
Khoảng tin cậy
TB chiều cao (m) TB trọng lượng (kg)
ChungNăm 3 Năm 2Năm 1 Chỉ tiêu
Lập tập tin số liệu trong STATGRAPHICS với các biến: khoa , năm học, chiều cao, trọng lượng.2- Dùng phương pháp thống kê mô tả trình bày kết quả xử lývà điều tra về trọng lượng và chiều cao ở 2 khoa của trường ĐH Bách Khoa theo mẫu sau đây:
147
LẤY MẪU THĂM DÒ, ƯỚC LƯỢNG VÀ TRẮC NGHIỆM
GIẢ THIẾT THỐNG KÊ ỨNG DỤNG TRONG MÔI
TRƯỜNG
Bài 4
148
Nội dung bài học1. ý nghĩa của lấy mẫu và ước lượng và trắc nghiệm giả
thiết thống kê trong lĩnh vực môi trường tài nguyên2. Các khái niệm cơ bản
3. Các kỹ thuật lấy mẫu4. Cỡ mẫu trong khảo sát lấy mẫu5. nguyên lý, khái niệm trắc nghiệm giả thiết
6. Thực hành xử lý ước lượng và trắc nghiệm thống kêtrong STATGRAPHICS
7. Các kỹ thuật kiểm tra tính chuẩn của phân bố dữ kiệnmẫu thăm dò
8. Bài tập thực hành
149
1. ý nghĩa của lấy mẫu và ước lượng vàtrắc nghiệm giả thiết thống kê trong lĩnh
vực môi trường tài nguyên
• Đánh giá định lượng môi trường nước, đất, không khí . . . đều dựa trên kết quả lấy mẫu về phân tích ở phòngthí nghiệm (hay tại hiện trường) => phải sử dụngphương pháp thống kê suy diễn (inferential statistics).
• Phải so sánh các chỉ tiêu đo đạc môi trường như : COD, BOD, Vi sinh, Kim lọai nặng... có vượt quá tiêu chuẩncho phép (ví dụ TCVN) hay không. Khi đó, cần phảithực hiện việc trắc nghiệm giả thiết thống kê vì số đo của chúng ta chỉ là số đo mẫu, không phải là số đo đạidiện cho toàn thể dân số .
• Khi cần đánh giá so sánh chất lượng môi trường vớitiêu chuẩn qui định dựa vào các chỉ tiêu định lượng
150
2. Các khái niệm cơ bản
+ Tập hợp tòan thể và mẫu
+ Lấy mẫu thăm dò (sampling)
+ Mẫu, Cỡ mẫu và Sai số lấy mẫu
151
• Chia tập hợp tòan thể thành các đơn vị gọi là các đơn vị lấymẫu, tạo thành các cơ sở để chọn mẫu.
• Các đơn vị mẫu phải rõ ràng , tách biệt nhau và không đượcđan xen nhau.
• Liệt kê tất cả các đơn vị hoặc dưới dạng định nghĩa, định vị tríhay liệt kê danh sách.
• Hai nguyên tắc: định nghĩa đơn vị nên phù hợp với mục tiêu lấymẫu và có thể thực hiện ngoài thực địa.
2.1) Tập hợp tòan thể và mẫu
152
• Phương pháp suy diễn là phương pháp dựa trên sựsuy diễn kết quả từ một mẫu cho tập hợp toàn thể
• Mẫu— là tập hợp con đại diện cho tập hợp toàn thể.
• Tập hợp toàn thể - toàn bộ tập hợp của các đơn vị(đối tượng) nghiên cứu.
• Sự khái quát hóa— là khả năng suy diễn các đặctrưng của tập hợp toàn thể dự trên đặc trưng thốngkế mẫu.
Tập hợp toàn thể và mẫu [2]
153
2.2) Lấy mẫu
• Lấy mẫu là tiến trình chọn mẫu đại diện đểsuy diễn kết quả khảo sát môi trường.
• Xác định cỡ mẫu :
• Cỡ mẫu = 0.25 x (Yếu tố chắc chắn/Sai sốchấp nhận được)2
– Đối với xác xuất chắc chắn 90%, Yếu tố chắcchắn là 1,645 :
• Cỡ mẫu = 0.25(1.645/0.10)2 = 68
154
Ngẫu nhiên hóa là kỹ thuật lấy mẫu không địnhtrước kiểu hay kế họach chọn mẫu dữ liệu.
Phân lớp (khối) là kỹ thuật lấy mẫu cố gắng giảmbiến lượng của ước lượng bằng cách mở rộng lấymẫu vd, chọn tư liệu bằng công thức và tránh đưara ước lượng quá cao hoặc quá thấp.
155
2.3) Cỡ mẫu và Sai số lấy mẫu
• Sai số lấy mẫu = khác biệt giữa các đặc trưngthống kê mẫu và tham số đặc trưng của tậphợp tòan thể
• Mục đích của kỹ thuật lấy mẫu là giảm sai sốlấy mẫu
• Khi cỡ mẫu tăng, sai số lấy mẫu sẽ giảm
156
2.4) Hai kiểu lấy mẫu
• Lấy mẫu xác suất— Biết được khảnăng xảy ra củabất kỳ đơn vị nàocủa tập hợp tòanthể được chọn
• Lấy mẫu phi xác suất --- Không biết được khảnăng xảy ra của bất kỳđơn vị nào của tập hợptòan thể được chọn.
157
2.5) Lý do phải lấy mẫu2.5) Lý do phải lấy mẫu
• Vì khi thử nghiệm hủy hỏng các đơn vị thửnghiệm
(Kiểm tra chất lượng)
• Cần có kết quả tin cậy và chính xác
• Lý do phí tổn
– Thời gian
– Chi phí
158
4. Thu thập tại hiệntrường Collect data (field work)
5. Chuẩn bị dữ liệu– Lưu trữ– Mã hóa
6. Phân tích dữ liệu7. Diễn đạt kết quả8. Báo cáo các kết quả
1. Xác định mục tiêu
2. Thiết kế bảng thuthập dữ kiện
3. Thiết kế cách chọnmẫul Kiểu lấy mẫul Cỡ mẫu
2.6) Các bước lấy mẫu2.6) Các bước lấy mẫu
159
1. Xác định mục tiêu điều tra khảo sát
Lấy mẫu môi trường và phân tích phải cần nhiều chi phí
Phải xác định rõ mục tiêu điều tra khảo sát là cần biếtthông tin gì: chỉ tiêu gì ? Đối tượng nào?
Dữ liệu môi trường phụ thuộc vào:
+ thời tiết (mùa)
+ thời điểm lấy mẫu (trong ca sản xuất của nhà máy hay bình thường?)
+ Vị trí lấy mẫu (ngay cửa xã thải hay bình thường?)
Cầu xác định mục tiêu khảo sát để chọn mẫu đúng yêucầu.
160
2. Thiết kế bảng thu thập dữ kiệnNội dung bảng thu thập dữ kiện tùy theo từng cuộc khảo
sát . Các thông tin cần là:Giai đọan ở hiện trường+ Tên gọi của cuộc khảo sát điều tra môi trường+ Ngày giờ lấy mẫu+ Địa điểm lấy mẫu+ Người lấy mẫu+ Ký hiệu mẫu (tránh nhầm lẫn khi phân tích sau này)+ Ghi nhận về các đặc điểm địa hình, địa vật của nơi lấy
mẫuGiai đọan phân tích+ Ngày phân tích, người phân tích+ Thiết bị phân tích+ các kết quả của các chỉ thị MT theo yêu cầu cuộc điều
tra khảo sát
161
3. Thiết kế cách chọn mẫu– Kiểu hay kỹ thuật lấy mẫu– Cỡ mẫu (nghiên cứu trong phần tiếp theo)
4. Thu thập tại hiện trường Collect data (field work)Thực hiện theo các qui định kỹ thuật đối với từng lọai : nước,
đất , không khí, lọai vi sinh. . 5. Chuẩn bị dữ liệu (Xem bài 2 giới thiệu STATGRAPHICS)
– Lưu trữ– Mã hóa
6. Phân tích dữ liệuTùy theo mục đích khảo sát:+ Tính các trị thống kê mẫu để suy diễn kết quả cho tòan
thể = phương pháp thống kê mô tả+ So sánh với tiêu chuẩn MT qui định: dùng phương pháp
trắc nghiệm thông kê
162
7. Diễn đạt kết quả
Sử dụng đồ thị
Sử dụng bảng tóm tắt
8. Báo cáo các kết quả:
Mục đích
Phương pháp điều tra khảo sát (cần bảng ghi nêu dữ liệuthô)
Các kết quả xử lý
Có đánh giá về thống kê
Phần phụ lục đưa ra các kết quả xử lý từ phần mềm đểminh chứng
163
3) Các kỹ thuật lấy mẫu3) Các kỹ thuật lấy mẫuKiểu
lấy mẫu
Theo Xác suất
Phi xác xuất
Ngẫunhiên
Phân tầngHệ thống
Tiện lợiHạnngạch
PhánĐoán
164
Các kỹ thuật lấy mẫu (tt)
– Lấy mẫu phi xác súât: Chọn chủ quan cỡ mẫu và cácđơn vị mẫu
– Các kỹ thuật lấy mẫu theo xác suất:
• Lấy mẫu ngẫu nhiên: Mỗi đơn vị mẫu có xác xuấtđược chọn bằng nhau
• Lấy mẫu theo khối hay phân lớp: Chọn mẫungẫu nhiên trong phạm vi mỗi khối hay lớp
• Lấy mẫu hệ thống: Chọn ngẫu nhiên một đơn vịrồi lấy mẫu còn lại cách nhau theo qui tắc địnhtrước, vd, 10 đơn vị lấy 1 theo danh sách, 500 métlấy một mẫu. . .
165
PHƯƠNG PHÁP LẤY MẪU XÁC SUẤT
3.1) Lấy mẫu ngẫu nhiên đơn giản
– Mỗi đơn vị của tập hợp tòan thể có cơ hội đồngđều và độc lập được chọn
– Mẫu cần phải đại diện cho tập hợp tòan thể
166
Lấy mẫu ngẫu nhiên đơn giản (tt)Lấy mẫu ngẫu nhiên đơn giản (tt)
• Mỗi đơn vị của tập hợp tòan thể có cơ hội đượcchọn bằng nhau
• Việc chọn một đối tượng không ảnh hưởng đếnlựa chọn đối tượng khác
• Có thể sử dụng bảng số ngẫu nhiên, rút thăm kiểuxổ số, ‘fish bowl’
167
Bảng số ngẫu nhiênBảng số ngẫu nhiên
Column
00000 00001 11111 11111 Row 12345 67890 12345 67890
01 49280 88924 35779 00283
02 61870 41657 07468 08612
03 43898 65923 25078 86129
Column
00000 00001 11111 11111 Row 12345 67890 12345 67890
01 49280 88924 35779 00283
02 61870 41657 07468 08612
03 43898 65923 25078 86129
16834. Phil17. Bob
50. John D. 33. Daphne16. Larry
49. Alex32. Bruce M.15. Bruce A.
48. Ellie31. Dana14. John S.
47. Genna30. Harry13. Doug
46. Wes29. Jerry12. Nona
45. Cheryl28. Phyllis11. Susie
44. Debbie27. Sy10. Terrill
43. Heather26. Cindy9. Jim
42. Peggy25. Misty8. Joan
41. Nathan24. Clenna7. Terri
40. Mike G.23. Chitra6. Sara
39. Tom22. Jerry5. Micah
38. Ed M.21. Ed. T.4. Leni
37. Doug20. Marvin3. Harriet
36. Mike19. Sam2. Bill
35. Fred18. Steve1. Jane
1. Xác định tập hợptòan thể
2. Liệt kê tất cả đơnvị của tập hợp tòanthể
3. Gán các số cho mỗiđơn vị của tập hợptòan thể
4. Sử dụng các tiêuchi để chọn mẫu
Chọn một mẫu ngẫu nhiên đơn giản
169
1. Chọn một điểm bắtđầu
2. Không dùng hai sốnguyên hàng đơnvị đầu tiên là 68 (không dùng)
3. Số tiếp theo sẽđược dùng 48
4. Tiếp tục cho đếnkhi hòan tất lấymẫu
23157 48559 01837 25993
05545 50430 10537 43508
14871 03650 32404 36223
38976 49751 94051 75853
97312 17618 99755 30870
11742 69183 44339 47512
43361 82859 11016 45623
93806 04338 38268 04491
49540 31181 08429 84187
36768 76233 37948 21569
Sử dụng bảng số ngẫu nhiên để chọnmẫu
170
Các điểm lưu ý trong lấy mẫu ngẫu nhiên đơn giản
• Phân bố các số trong bảng số ngẫu nhiên
• Các đơn vị lấy mẫu của tập hợp tòan thể được liệt kêmột cách ngẫu nhiên
• Các tiêu chí chọn mẫu không nên có liên hệ với cácyếu tố cần nghiên cứu. Vd, Yếu tố quan tâm là chấtlượng nước, tiêu chí lấy mẫu là lấy mẫu ở độ sâucách mặt nước 20 cm, không chọn tiêu chí là trướccống xã.
171
3.2) Lấy mẫu hệ thống3.2) Lấy mẫu hệ thống
• Từng đơn vị thứ k được chọn sau khichọn một đơn vị đầu tiên trong k đơnvị. Khỏang cách lấy mẫu, k, là
K = Qui mô tập hợp tòan thể/ Cỡ mẫu
• Được dùng trong khảo sát qua điệnthọai (chọn doanh nghiệp…)
172
1. Chia tập hợp tòan thểthành các nhóm có cỡmẫu theo theo cầu: vd., 50/10 = 5
2. Chọn một điểm ban đầu một cách ngẫunhiên: e.g., 43 = Heather
3. Chọn các tên cáchnhau 5 tên kể từ điểmban đầu
LẤY MẪU HỆ THỐNG
34. Phil17. Bob
50. John D. 33. Daphne16. Larry
49. Alex32. Bruce M.15. Bruce A.
48. Ellie31. Dana14. John S.
47. Genna30. Harry13. Doug
46. Wes29. Jerry12. Nona
45. Cheryl28. Phyllis11. Susie
44. Debbie27. Sy10. Terrill
43. Heather26. Cindy9. Jim
42. Peggy25. Misty8. Joan
41. Nathan24. Clenna7. Terri
40. Mike G.23. Chitra6. Sara
39. Tom22. Jerry5. Micah
38. Ed M.21. Ed. T.4. Leni
37. Doug20. Marvin3. Harriet
36. Mike19. Sam2. Bill
35. Fred18. Steve1. Jane
173
3.3) Lấy mẫu phân lớp3.3) Lấy mẫu phân lớp
• Chia tập hợp tòan thể thànhcác nhóm phụ– Tách biệt hòan tòan
– Tất cả mọi khía cạnh
– Tối thiểu có một đặc trưngchung
• Chọn mẫu ngẫu nhiên đơngiản trong các nhóm phụ
TTấấtt ccảả SVSV
NgNgọọaiai ththàànhnh NNộộii ththàànhnh
MMẫẫuu
174
Lấy mẫu phân lớp (tt)• Mục đích của lấy mẫu là chọn một mẫu đại
diện cho tập hợp tòan thể
• Nhưng giả định rằng—– Các đơn vị lấy mẫu có khác biệt nhau một cách có
hệ thống theo một vài đặc trưng. Vd, các doanhnghiệp khác nhau về qui mô.
– Và các đặc trưng này liên quan đến các yếu tốđược nghiên cứu?
• Vì vậy lấy mẫu theo lớp là một giải pháp
175
Lấy mẫu phân lớp (tt)
• Các đặc trưng cần nghiên cứu được xác định (Vd, giới tính)
• Các đơn vị cá thể của tập hợp tòan thể được liệt kêphân biệt nhau tùy theo sự phân lớp của chúng (Vídụ: Nam , Nữ)
• Các đại diện tỉ lệ với cỡ của mỗi lớp được xác định(vd., 40% nữ & 60% nam)
• Lấy mẫu ngẫu nhiên được thực hiện phản ảnh tỉ lệcủa lớp trong tập hợp tòan thể, (vd., 4 nữ & 6 nam)
176
3.4) Lấy mẫu theo cụm• Thay thế cho việc chọn các cá thể một cách
ngẫu nhiên– Các đơn vị đối tượng nhóm được xác định
– Thực hiện lấy mẫu ngẫu nhiên của các nhóm đựocchọn
– Các cá thể đơn vị trong mỗi nhóm được gán chomột trong các điều kiện xử lý
• Các đơn vị nhóm phải đồng nhất nhằm tránhkhỏi lấy mẫu chệch.
177
• Chia tập hợp tòan thểthành các cụm– Nếu các nhà quản lý là
các đơn vị thì các công tylà các cụm
• Chọn các cụm một cáchngẫu nhiên
• Khảo sát tất cả hay mộtmẫu ngẫu nhiên của cácđơn vị trong cụm
CCáácc côngcông tyty ((CCụụmm))
MMẫẫuu
Lấy mẫu theo cụm (tt)
178
3.5) Các cách lấy mẫu phi xác xuất3.5) Các cách lấy mẫu phi xác xuất
• Theo phán đóan (Judgment)– Tập hợp tòan thể được lấy mẫu dễ
dàng– Không ngẫu nhiên– Kém đại diện– Sử dụng kinh nghiệm để chọn mẫu– Ví dụ: Lấy mẫu ở nơi nước bị ô nhiễm
179
Các cách lấy mẫu phi xác xuất(tt)
Các cách lấy mẫu phi xác xuất(tt)
• Theo hạn ngạch (quota)– Khi không thể lấy mẫu phân lớp theo tỉ lệ theo
yêu cầu– Tương tự như lấy mẫu phân nhóm nhưng
không lấy mẫu ngẫu nhiên mà lấy theo qui mônhóm
– Chọn các đơn vị với các đặc trưng cần nghiêncứu theo cách chọn không ngẫu nhiên cho đếnkhi đủ số hạnh ngạch qui định
– Theo sự tiện lợi (convenience)Sử dụng các đơn vị có sẵn để làm mẫu
180
3.6) Ví dụ về sai số gây ra do lấy mẫu3.6) Ví dụ về sai số gây ra do lấy mẫu
181
4. Cỡ mẫu trong khảo sát lấy mẫu
Các thành phần cần thiết:1. Chỉ tiêu (số đo) tổng hợp cần nghiên cứu (tỉ lệhay trị trung bình).2. Mức tin cậy theo yêu cầu (1-α).3. Mức chính xác theo yêu cầu (d).4. Độ biến động dựđoán trong nghiên cứu tậphợp toàn thể :
Đối với trị trung bình (σ).Đối với tỉ lệ (P).
182
4.1) Ý nghĩa của xác định cỡ mẫu
• Mục đích là chọn được mẫu đại diện—– Các mẫu lớn thường có tính đại diện cao hơn– Nhưng mẫu lớn hơn cũng thường tốn kém hơn– Mẫu lớn hơn thường không xem xét năng lực của
sự suy diễn khoa học
Tổng quát, Mẫu lớn cần thiếtkhi:– Biến thiên trong mỗi nhóm lớn– Khác biệt giữa các nhóm nhỏ hơn
• Vì– Khi một nhóm có trị biên thiên và đa dạng, thì cần
nhiều điểm dữ liệu để diễn đạt nhóm
183
4.2) Công thức tính cỡ mẫu
2
=
xhzsn ,size Sample
h = mức chính xác (%) yêu cầu khảo sát , diển đạt dạng số thập phân (5% = 0.05)
z = Số độ lệch tiêu chuẩn đối với mức tin tưởng theo yêu cầu của khảo sát
s = độ lệch tiêu chuẩn của mẫu thăm dò ban đầu
x = Trung bình của mẫu thăm dò ban đầu( )
1−−
= ∑ 2
nxxs :Note i
Cỡ mẫu
Ghi chú
184
4.3) Trị z trong công thức tính cỡ mẫu
Mức tin tưởng theo yêu cầu (%)
Trị Z
90.0 1.65
95.0 1.96 95.4 2.00 99.0 2.58 99.7 3.00
99.0
185
4.4) Cỡ mẫu trong thăm dò trị tỉ lệ
( )2
2 −1=
hppzn
p = trị ước lượng của tỉ lệ tính từ mẫu
h = mức chính xác (%) yêu cầu khảo sát , diển đạt dạng số thập phân (5% = 0.05)
186
4.5) Sự tin tưởng trong lấy mẫu
• Sự tin tưởng hay tin cậy (Confidence) quantrọng đối với việc xác định cỡ mẫu.
• Độ tin tưởng càng lớn, cỡ mẫu càng lớn.• Vd muốn mức tin tưởng 95% cần lấy mẫu
nhiều hơn ở mức 80%
187
4.6) Tính tóan độ chính xác trong lấy mẫu
(1) Độ lệch tiêu chuẩnΣ (x – x )2
(n – 1)
(2) Tri số Student gắn liền với mức tin tưởng(Có trong các sách thống kê, t=1,96 ở mức 95%)
(3) Cỡ mẫu đề nghị sơ bộ.
• Sai số lấy mẫu cho trị trung bình = t * Độ lệch tiêu chuẩn
n
188
4.7) Tính toán cỡ mẫu
• n = t 2 * SD 2
(E)2
Trong phần mềm STATGRAPHICS Cho phép tính tự động cỡ mẫu
189
4.8) Tính tóan cỡ mẫu trong STATGRAPHICS(Dữ liệu có phân bố chuẩn)
190
5. nguyên lý, khái niệm trắcnghiệm giả thiết
• Trắc nghiệm giả thiết là sự kết luận về dạnghay các đặc trưng của phân bố, của một hay vài chỉ tiêu thống kê.
• Trắc nghiệm một giả thiết thống kê làphương pháp dựa trên lấy mẫu thăm dò ngẫunhiên, chúng ta kiểm chứng rằng giả thiết cógiá trị hay không.
191
5.1) Trắc nghiệm thông số và phi thông số• Giả thiết liên quan đến trị của các thông số của
phân bố (trung bình, biến lượng. . ) gọi là trắcnghiệm thông số.
• Sự khẳng định về quy luật phân bố của dân số khôngcần biết đến các thông số của phân bo, gọi là trắcnghiệm phi thông số.
• Nguyên lý chung về trắc nghiệm giả thiết thống kêthường có 3 nhóm vấn đề:
• Trắc nghiệm giả thiết về trị trung bình của phân bốchuẩn Ho: m = mo
• Trắc nghiệm giả thiết về sự khác biệt của hai trungbình của 2 mẫu m1 = m2
• Trắc nghiệm t hai mẫu sánh đôi (bắt cặp)
192
5.2) Giả thiết Ho và đối thuyết H1
• Giả thiết thống kê được trắc nghiệm thường được gọilà giả thiết Ho . Cùng với Ho, thuờng xem xét đốithuyết H1, là giả thiết được chấp nhận khi chúng tabác bỏ giả thiết Ho.
• Liên quan đến giả thiết Ho và H1 trong trắc nghiệm làthông số q (trung bình, biến lượng) của phân bố củatập hợp toàn thể và Nếu Ho là giả thiết rằng thông sốq bằng với trị qo nghĩa là
• Ho:
θ θ= 0
193
Giả thiết Ho và đối thuyết H1 (tt)• hình thành đối thuyết bằng hai cách:
• 1. H1: : trắc nghiệm hai phía (hai đuôi) (hình c)
• 2. H1: q > qo đối thuyết phía phải hay H1: q < qo- đối thuyết phía trái. (hình a, b)
Xác
súât
1- a 1- aaa
Xác
suất
C
ab
Lựa chọn đối thuyết là hai phía hay một phía, tùy theo tình hình cụ thể của nhiệm vụnghiên cứu.
194
5.3) Sai lầm loại 1, 2
Sai lầm lọai II (b)
Quyết địnhđúng
Không bácbỏ Ho
Quyết địnhđúng
Sai lầm lọai I (a)
Bác bỏ HoQuyếtđịnh
kếtluận
Ho SaiHo ĐúngThực tế diển ra
Khi trắc nghiệm, chúng ta có thể mắc một trong hai sai lầm: Bác bỏ Ho khi nó đúng (sai lầm loại 1), hoặc không bác bỏ Ho khi nó không đúng (sai lầm loại 2).Quyết định về giá trị của Ho hay H1, chúng ta dựa vào nguyên tắc xác định miền giới hạn W là miền bác bỏ giảthiết Ho và miền chấp nhận Ho “X - W”, X là tập hợp các trường hợp có thể. X là tập hợp các mẫu có thể có khi lấy mẫu, W là tập hợp con chứa các mẫu không chấp nhận Ho.
195
Sai lầm loại 1, 2 (tt)chúng ta phải xác định miền giới hạn sao cho xác suất xảy ra
của cả hai loại sai lầm là thấp nhất. Trong một cở mẫu thăm dò nào đó, chúng ta không thể đồng thời làm cho bé nhất cảhai loại sai lầm.
Trong thực tế, trước hết chúng ta cần giới hạn sai lầm loại 1. Để làm điều đó, chúng ta chọn một số a trong khoảng (0,1) , gọi là mức ý nghĩa và tìm miền giới hạn sao cho xác xuất sai lầm loại 1 lớn nhất là bằng a và theo đó, xác xuất sai lầm loại 2 (ký hiệu là b ) là bé nhất. ( Xác xuất 1- b được goi làhiệu lực của trắc nghiệm).a càng bé, Ho càng dễ bị bác bỏ.
Trong thực tế, thường chọn a = 0,05, khi cần trắc nghiệm chặt chẻ hơn, chọn a = 0,01 hay 0,001, là các mức ý nghĩa đáp ứng được hai yêu cầu: tối thiểu sai lầm loại 1 và xác xuất mắc sai lầm loại 2 chấp nhận được.
196
5.4) Tiêu chuẩn trắc nghiệmTrong thực tế, nhờ kế thừa kết quả nghiên cứu cuả các nhà
toán học thống kê, đối với các trắc nghiệm áp dụng trong sinh học, chúng ta sẽ xác định miền giới hạn W nhờ vào các tiêu chuẩn trắc nghiệm T = T(x1, x2, . . .,xn). Tiêu chuẩn trắc nghiệm T sẽ thay đổi tùy theo bài toán trắc nghiệm cụ thể.Trong tập hợp các trị có thể của tiêu chuẩn trắc nghiệm T, chúng ta xác định tập hợp K sao cho xác xuất P ( T e K / Ho) <= a. Như vậy miền giới hạn W có thể viết dưới dạng:W = [ (x1, x1, ..., xn) : T(x1, x2, ....,xn) e K } . Vậy điều kiện (x1, x2, ....,xn) e W tương đương với điều kiện T(x1, x2, ....,xn) e K. Do các tiêu chuẩn trắc nghiệm T thường được nghiên cứu lập thành bảng, chúng ta có thể xác định miền giới hạn W thông qua xác định tập hợp K bằng cách tra từ các bảng thống kê của T.
Các phần mềm đều tính toán tự động việc tra bảng tiêuchuẩn trắc nghiệm đã được lập trình sẵn
197
5.5) Qui trình trắc nghiệm giả thiết thống kê
Các phần mềm đều tính toán tự động việc tra bảngtiêu chuẩn trắc nghiệm đã được lập trình sẵn
1. Hình thành giả thiết Ho và đối thuyết HA
2. Chọn mức ý nghĩa a
3. Chọn tiêu chuẩn trắc nghiệm T
4. Xác định miền giới hạn K bác bỏ Ho
5. Tính trị “tiêu chuẩn trắc nghiệm” từ mẫu thăm dò
6. Quyết định thống kê: nếu trị “tiêu chuẩn trắc nghiệm”tính được rơi vào miền bác bỏ, bác Ho, ngược lại, khôngbác bỏ.
198
Trắc nghiêm so sánh hai kết quả đo đạc môitrường của hai địa điểm hoặc hai nhà máy
Tần
suất
1X 2X
|| 21 XX −=δ
Mẫu 2Mẫu 1
199
6. Thực hành xử lý ước lượng và trắcnghiệm thống kê trong
STATGRAPHICS
+ Estimation and Testing: Ước lượng và trắc nghiệm
One-Sample Analysis : Phân tích một mẫuTwo-Sample Analysis: Phân tích hai mẫu
Sample size: Tính tóan cỡ mẫu
200
One-Sample Analysis ---------------------------------------------------------
Data: TKEMOTA.pH
Bước 1: Chuẩn bị biến số, sẳn sàng chờ xử lý.(Xem bàithực hành số 1)Bước 2: Mở Estimation and testing; One sample analysis; Khai báo các mục Data vector: Ghi vào tên biến số vectơchứa dữ kiện mà bạn muốn nghiên cứu. (viết trực tiếp hay bấm F7 , chọn từ danh mục biến số). Bấm F6 để xử lý.
6.1) Phân tích một mẫu One-Sample Analysis
201
Kết quả hiện ra gồm:Sample Statistics: Number of Obs.: xxx Số đơn vị có trongmẫu (cở mẫu)Average: xxxx Trị trung bình của mẫu đang xử lý,Variance: xxxx Biến lượng của mẫu đang xử lý,Std. deviation: xxxx Sai số tiêu chuẩn của mẫu đang xửlý,Median: xxxx Số trung vị của mẫu đang xử lý,Confidence Interval for mean: 95 Percent: (Mức trắcnghiệm (1- a)% cho khoảng tin cậy,)
Sample 1: xxxxx xxxxx xxx D.F(Các trị biểu thị khoảng tin cậy và số độ tự do)Confidence Interval for mean: 95 Percent: (Mức ý nghĩa1- a cho khoảng tin cậy,
Sample 1: xxxxx xxxxx xxx D.F
Phân tích một mẫu One-Sample Analysis (tt)
202
Hypothesis Test for Mean = xxxx (*) (trị gán cho giả thiết Ho)Computed t statistics = xxxxx (trị t tính cho tiêu chuẩn trắcnghiệm)vs Alt: NE (hoặc GT hay LT) : Trắc nghiệm hai phía hay mộtphiáSig. Level = mức ý nghĩa, diển đạt trị xác xuất p bảo đảm chotrị thống kê Student t lớn hơn hoặc bằng t tính ở mức trắcnghiệm a. Mức ý nghĩa hay xác xuất p trong statgraphics đượctính theo phương pháp phân giải Gram- Schmidt. Chúng ta cóthể hiểu p là xác xuất để giả thuyết Ho: mx = (*) là đúng. (Nếu (*) = trung bình của mẫu đang nghiên cứu mx, p # 1 )
at Alpha = 0,05 (hay 0,01 ; 0,10)Kết luận trắc nghiệm về trung bình của dân số: reject Ho: bácbỏ Ho, do not reject Ho: bác bỏ Ho.( statgraphics tự động đốichiếu với trị tbảng trong phân bố Student ở độ tự do tươngứng).
Phân tích một mẫu One-Sample Analysis (tt)
203
Ghi chú:
NE (Not equal): Trắc nghiệm hai phía, nếu ta muốn đặt giảthiết H1 đối lại với Ho là trị trung bình của mẫu đang tính“khác” với trị (*) đã ghi trên giòng Hypothesis Test for Mean. “Khác” có nghĩa là có thể lớn hơn và có thể nhỏ hơn. Nếu bácbỏ Ho, chấp nhận đối thuyết H1.
GT (Greater than): Trắc nghiệm một phía phải, khi ta muốnđặt giả thiết H1 đối lại với Ho là trị trung bình của mẫu đangtính “lớn hơn” với trị (*) đã ghi trên giòng Hypothesis Test for Mean. Nếu bác bỏ Ho, chấp nhận đối thuyết H1.
LT (Less than): Trắc nghiệm một phía trái, khi ta muốn đặt giảthiết H1 đối lại với Ho là trị trung bình của mẫu đang tính “nhỏhơn” với trị (*) đã ghi trên giòng Hypothesis Test for Mean. Nếu bác bỏ Ho, chấp nhận đối thuyết H1.
Phân tích một mẫu One-Sample Analysis (tt)
204
One-Sample Analysis Results -----------------------------------------------------------------
TKEMOTA.pHSample Statistics: Number of Obs. 15
Average 5.92 Variance 0.976 Std. Deviation 0.987927 Median 6.4
Confidence Interval for Mean: 95 Percent Sample 1 5.37277 6.46723 14 D.F.
Confidence Interval for Variance: 0 Percent Sample 1
Hypothesis Test for H0: Mean = 6.4 Computed t statistic = -1.88175
vs Alt: LT Sig. Level = 0.0404131 at Alpha = 0.05 so reject H0.
Kết quả xử lý ước lượng và trắc nghiệm với một mẫu
205
Two-Sample Analysis ---------------------------------------------------------
Sample 1: ESTI2.pHA Sample 2: ESTI2.pHB
6.2) Ước lượng khoảng tin cậy và trắc nghiệmgiả thiết về hai mẫu bắt cặp sánh đôi:
Mở One-Sample Analysis như trên, nhưng khai báo Data vector theo một trong hai cách:
1) Tên biến 1 - Tên biến 2. Ví dụ: DATA.MAUCAP1 -DATA.MAUCAP2.2) Ghi trực tiếp hai vectơ số liệu cách nhau dấu -. Ví dụ: 12 38 82 53 - 13.1 36.9 85 55
206
Ước lượng khoảng tin cậy và trắc nghiệm giả thiết về haimẫu bắt cặp sánh đôi (tt)
Phần kết quả sẽ hiện ra:+ Average : trung bình của sai biệt d= Xi -Xj trong các cặp dữ kiện.
+ Variance: xxxx Biến lượng của sai biệt d= Xi -Xj trong các cặp dữ kiện.Std. deviation: xxxx Sai số tiêu chuẩn của sai biệt d= Xi -Xj trong các cặp dữ
kiện.Median: xxxx Số trung vị của sai biệt d= Xi -Xj trong các cặp dữ kiện.
Confidence Interval for mean: 95 Percent: (Mức trắc nghiệm (1- a)% chokhoảng tin cậy,)
Sample 1: xxxxx xxxxx xxx D.F(Các trị biểu thị khoảng tin cậy của sai biệt d= Xi -Xj trong các cặp dữ kiện.
và số độ tự do)Confidence Interval for mean: 95 Percent: (Mức ý nghĩa 1- a cho khoảng tin
cậy,Sample 1: xxxxx xxxxx xxx D.F(Dành cho xử lý 2 mẫu )
Hypothesis Test for Mean = xxxx (*) (trị gán cho giả thết Ho về sai biệt di)Computed t statistics = xxxxx ( trị t tính cho tiêu chuẩn trắc nghiệm)
vs Alt: NE (hoặc GT hay LT) : Trắc nghiệm hai phía hay một phiáCác nội dung khác tương tự như trắc ngiệm về trung bình một mẫu.
207
6.3) Ước lượng khoảng tin cậy và trắc nghiệmgiả thiết về hai mẫu khác nhau:
+ Mở Two-Sample Analysis như trên, khai báo hai data vector là hai biến cần nghiên cứu: Sample 1 và sample 2. Bấm F6 để
xử lý. Kết quả sẽ cung cấp:Các trị thống kê cho từng mẫu và mẫu tính gộp chung (Pooled)Sample Statistics: Number of Obs.: xxx Số đơn vị có trong mẫu
(cở mẫu)Average: xxxx Trị trung bình của mẫu đang xử lý,
Variance: xxxx Biến lượng của mẫu đang xử lý,Std. deviation: xxxx Sai số tiêu chuẩn của mẫu đang xử lý,
Median: xxxx Số trung vị của mẫu đang xử lý,
208
6.4) Ước lượng khoảng tin cậy và trắc nghiệmgiả thiết về hai mẫu khác nhau (tt):
Confidence Interval for Diff. in mean: 95 Percent: (Mức trắcnghiệm (1- a)% cho khoảng tin cậy,)
(Equal vars.) Sample 1- Sample 2: xxxxx xxxxx xxx D.F
Khoảng tin cậy của chênh lệch giữa hai trung bình của hai mẫuvới giả giả định các biến lượng mẫu bằng nhau. D.F là độ tự do.
(Equal vars.) Sample 1- Sample 2:Khoảng tin cậy của chênh lệch giữa hai trung bình của hai mẫuvới giả giả định các biến lượng khác nhau nhau. D.F là độ tự do.Confidence Interval for mean: 95 Percent: (Mức ý nghĩa 1-
a cho khoảng tin cậy,Sample 1 + Sample 2
209
Khoảng tin cậy cho tỉ số giữa hai biến lượng.Hypothesis Test for Mean: Diff = xxxx (*) (trị gán chogiả thết Ho về chênh lệch giữa hai trung bình mẫu)Computed t statistics = xxxxx ( trị t tính cho tiêuchuẩn trắc nghiệm)
vs Alt: NE (hoặc GT hay LT) : Trắc nghiệm hai phía hay một phía.
Sig. Level = mức ý nghĩa, diển đạt trị xác xuất p bảođảm cho trị thống kê Student t lớn hơn hoặc bằng t tính ở mức trắc nghiệm a.Kết luận trắc nghiệm về trung bình của dân số: reject Ho: bác bỏ Ho, do not reject Ho: bác bỏ Ho.( statgraphics tự động đối chiếu với t trong phân bốStudent ở độ tự do tương ứng).
Ước lượng khoảng tin cậy và trắc nghiệm giả thiết về haimẫu khác nhau (tt)
210
Ghi chú:NE (Not equal): Trắc nghiệm hai phía, nếu ta muốn đặt giảthiết đối lại với Ho là hiệu số giữa hai trị trung bình của 2 mẫuđang so sánh “khác” với trị (*) đã ghi trên giòng Hypothesis Test for Mean Diff = (*). “Khác” có nghĩa là có thể lớn hơn vàcó thể nhỏ hơn. Nếu bác bỏ Ho, chấp nhận đối thuyết H1.GT (Greater than): Trắc nghiệm một phía phải, khi ta muốnđặt giả thiết H1 đối lại với Ho là hiệu số giữa hai trị trung bìnhcủa 2 mẫu đang so sánh “lớn hơn” với trị (*) đã ghi trên giòngHypothesis Test for Mean. Nếu bác bỏ Ho, chấp nhận đốithuyết H1.LT (Less than): Trắc nghiệm một phía trái, khi ta muốn đặtgiả thiết H1 đối lại với Ho là hiệu số giữa hai trị trung bình của2 mẫu đang so sánh “nhỏ hơn” với trị (*) đã ghi trên giòngHypothesis Test for Mean. Nếu bác bỏ Ho, chấp nhận đốithuyết H1.
Ước lượng khoảng tin cậy và trắc nghiệm giả thiết về haimẫu khác nhau (tt)
211
Two-Sample Analysis Results --------------------------------------------------------------------------------
ESTI2.pHA ESTI2.pHB Pooled
Sample Statistics: Number of Obs. 10 10 20 Average 5.23 5.7 5.465 Variance 0.322333 0.275556 0.298944
Std. Deviation 0.567744 0.524934 0.546758 Median 5.25 5.75 5.4
Difference between Means = -0.47 Conf. Interval For Diff. in Means: 95 Percent (Equal Vars.) Sample 1 - Sample 2 -0.983838 0.0438383 18 D.F. (Unequal Vars.) Sample 1 - Sample 2 -0.984064 0.0440639 17.9 D.F.
Ratio of Variances = 1.16976 Conf. Interval for Ratio of Variances: 0 Percent
Sample 1 ö Sample 2
Hypothesis Test for H0: Diff = 0 Computed t statistic = -1.92215 vs Alt: NE Sig. Level = 0.0705603
at Alpha = 0.05 so do not reject H0.
212
7) Các kỹ thuật kiểm tra tính chuẩn củaphân bố dữ kiện mẫu thăm dò
7.1) Giản đồ xác xuất chuẩn (Normal Probability plot)
7.2) Giản đồ thanh treo (Hanging Histobars)
7.3) Giản đồ căn thức treo (Suspend Rootogram)
213
7.1) Giản đồ xác xuất chuẩn (Normal Probability plot)
Đồ thị xác xuất chuẩn (Normal Probability plot) cho phépkiểm tra xem một mẫu dữ kiện có phân bố chuẩn hay không?. Trục tung biểu thị tần suất tích lũy (cumulative percent) , trụchoành biểu thị trị của các đơn vị trong mẫu từ thấp đến cao.Đường thẳng có độ dốc biểu thị cho phân bố chuẩn có thông số(m, s ) diển đạt dưới dạng tuyến tính.Nếu các điểm dữ kiện quan sát phân bố “chập” với đường thẳngphân bố chuẩn, mẫu đang trắc nghiệm tiệm cận với phân bốchuẩn.Nếu các điểm dữ kiện ở đẩu đường xác xuất tích lũy phân bốchệch về phía dưới, Đường cong phân bố của mẫu lệch phải vàngươc lại.Để thực hiện việc kiểm tra tính chuẩn cho một mẫu thăm dò, chúng ta mở:+ Estimation and testing ; Normal Probability plot; sau đó, khaibáo Dtata vector; bấm F6, đồ thị sẽ hiện ra.
214
7.2) Giản đồ thanh treo (Hanging Histobars)
Giản đồ thanh treo trình bày tần suất xuất hiện của các lớp dữkiện Xi , + Thay vì vẽ các thanh xuát phát từ trục hoành, Giản đồ thanhtreo vẽ các thanh biểu thị tần suất xuất phát từ một đường cong hình chuông, biểu thị cho phân bố chuẩn tiêu biểu cho mẩu thămdò. Trục tung diển đạt sai lệch giữa dữ kiện quan sát và tần suấtước lượng theo phân bố chuẩn.Nếu dữ kiện có phân bố theo dạng chuẩn, các đáy của các thanhbiểu thị tần suất sẽ phân bố ngẫu nhiên xung quanh đườngngang ở trị số 0.Nếu phân bố của mẫu thăm dò không có tính chuẩn, các đáy củacác thanh sẽ phân bố lệch trên hoặc dưới đường ngang .Thực hiện:+ Estimation and testing ; Hanging histobars; sau đó, khai báoData vector; bấm F6, đồ thị sẽ hiện ra.
215
7.3) Giản đồ căn thức treo (Suspend Rootogram)
Đồ thị căn thức treo cho phép đánh giá tình trạng phân bố của dữkiện từ mẫu thăm dò:
Trục tung biểu thị sai biệt giữa căn bậc hai của tần suất thựcnghiệm và tần suất lý thuyết tính từ phân bố lý thuyết tiêu biểunhất cho mẫu thăm dò.
Trục hoành hiển thị trị của các đơn vị quan sát của mẫu.Nếu phân bố dữ kiện của mẫu thăm dò tiệm cận với phân bốchuẩn, các thanh treo sẽ xuất hiện tương đối đều ở hai bênđường thẳng độ lệch = 0
216
Giản đồ căn thức treo (Suspend Rootogram) (tt)
Để thực hiện việc kiểm tra tính chuẩn cho một mẫu thăm dò bằngđồ thị căn thức treo, chúng ta mở:
Exploratory Data Analysis ; Suspend Rootogram; sau đó, khai báoData vector; bấm F6. Một bảng khai báo chi tiết cho đồ thị sẽ hiệnra.Các nội dung khai báo gồm:Lower Limit: Giới hạn dưới cho lớp dữ kiện đầu tiên (Dùng cho dữkiện rời rạc hoặc liên tục.Upper Limit: Giới hạn trên cho lớp dữ kiện cuối cùng (lớn nhất)No. of Classes: Số lớp dữ kiện dự kiến phân chia trong phạm vi sốliệu. Top title: Tựa cho đồ thị (có thể viết thành hai dòng)(2 lines)X-axis title: Tên gọi cho trục hoành, X-axis title Tên gọi cho trụctung.Sau khi khai báo xong, bấm F6 để vẽ đồ thị căn thức treo..
217
8. Bài tập thực hành• Kết quả thu thập độ pH về 10 mẫu nước thải của nhà
máy VIFON như sau ( 2 lần )• Lần 1: 4,5 ; 5 ; 5,3 ; 5,2 ; 5,4 ; 6 ; 6,2 ; 5 ; 4,4 • Lần 2: 4,8 ; 5 ; 6 ; 6,5 ; 5,7 ; 6,2 ; 6 ; 5,8 ; 5,4 ; 5,6 • Anh chị lập một báo cáo về kết quả điều tra theo dàn
bài:• 1) Đặt vấn đề, nhiệm vụ mục tiêu của cuộc điều tra pH.
(đánh giá độ chua của nước thải)• Phương pháp điều tra khảo sát: (dụng cụ đo, chọn địa
điểm đo, ngày đo, phương pháp lưu trữ , xử lý số liệu. . .)
• Kết quả điều tra pH: (trình bày các bảng kết quả dựatrên kết quả xử lý trên máy tính).
218
Bài tập suy diển kết quả điều tra từ mẫubằng khoảng tin cậy
Kết quả thu thập về 10 mẩu nước thải, (lấymẫu theo phương pháp ngẫu nhiên về thờigian lấy mẫu trên cống xã nước thải) của mộtnhà máy như sau PH = 6,6 ; 5,2 ; 5,4 ; 6,0 ; 4,6 ; 5,5 ; 6,4 ; 6,1 ; 5,9 ; 5,4 Tính pH trungbình và khoảng tin cậy khi kết luận về pH nước thải của nhà máy.
219
Bài tập so sánh kết quả điều tra ở hai địa điểm
• Kết quả thu thập độ pH về 10 mẫu nước thải của nhàmáy VIFON như sau ( 2 lần )
• Lần 1: 4,5 ; 5 ; 5,3 ; 5,2 ; 5,4 ; 6 ; 6,2 ; 5 ; 4,4 • Lần 2: 4,8 ; 5 ; 6 ; 6,5 ; 5,7 ; 6,2 ; 6 ; 5,8 ; 5,4 ;
5,6 • * Anh chị lập bảng trình bày kết quả 2 đợt điêu tra• * Sử dụng phương pháp trắc nghiệm thống kê hãy
kết luận rằng kết quả 2 lần đó có khác nhau hay không ?
220
Bài tập so sánh kết quả điều travà tiêu chuẩn qui định
• Kết quả thu thập về 10 mẩu nước thải, (lấy mẫutheo phương pháp ngẫu nhiên về thời gian lấy mẫutrên cống xã nước thải) của một nhà máy như sauPH = 6,6 ; 5,2 ; 5,4 ; 6,0 ; 4,6 ; 5,5 ; 6,4 ; 6,1 ; 5,9 ; 5,4
• Tính pH trung bình và khoảng tin cậy khi kết luậnvề pH nước thải của nhà máy.
• Nnếu tiêu chuẩn cho phép là 6,4 ; anh chị dùngphương pháp trắc nghiệm giả thiết thống kê để kếtluận là nhà máy có cần phải xử lý nước thải để bảođảm độ pH nước thải trên tiêu chuẩn cho phép hay không ?
221
BÀI LUYỆN TẬP (1)
1) Khi nghiên cứu độ chính xác của một phương pháp xácđịnh “arproncid “ trong hỗn hợp thức ăn gia súc, 6 kết đonồng độ arprinocid của một hỗn hợp TĂGS chứa 10,2% arprinocid như sau: 10,4 10,4 10,6 10,3 10,5 (%)Tính trung bình, độ lệch tiêu chuẩn và khoảng tin cậy95% và 99% để kết luận. Nồng độ qui định 10,2 % cónằm trong khoảng tin cậy 95% và 99% đó không?
2) Một mẫu điều tra có kết quả sau:11,68 11,12 8,92 8,82 10,31 11,88 9,84 11,69 9,53 10,30 9,17 10,04 10,65 10,91 10,32 8,71 9,83 8,90 10,40Dùng phần mềm STAGRAPHICS hãy vẽ phân bố tần suấtcủa kết quả điều tra nói trên. Phân bố đó có gần với phânbố chuẩn hay không?
222
BÀI LUYỆN TẬP (2)
3) Dưới đây là các kết quả đo % nước hữu dụng theođộ sâu tầng đất, (đất cát):
69,877,666,765,270,472,523
74,572,570,973,668,773,216
46,543,845,447,745,243,68
33,331,038,135,733,333,37
% lượng nước hữu dụngĐộsâu(m)
Chứng minh rằng giữa các độ sâu khác nhau, % nước hữudụng sẽ khác nhau rất có ý nghĩa?
4) Đo nồng độ tích tụ albumin của 8 thanh niên nam và 8 thanh niên nữ ở lứa tuổi 16, có kết quả sau:Nam : 37 39 37 42 39 45 42 39 g/lítNữ: 44 40 39 45 47 47 43 41 g/lítTrắc nghiệm xem nồng độ tích tụ albumin giữa nam và nữtuổi 16 có khác nhau có ý nghĩa không?
223
BÀI LUYỆN TẬP (3)
5) Hai phương pháp xác định nồng độ phenylbutazone(%) có kết quả sau:
Phương pháp mới Phương pháp hiệndùngTrung bình 99,35 99,53Biến lượng 0,185 0,152Cở mẫu 3 3Dùng các trắc nghiệm thống kê, kiểm nghiệm xem kết quảtrung bình của hai phương pháp có khác nhau một cách cóý nghĩa hay không?
224
BÀI LUYỆN TẬP (4)
6) Một mẫu điều tra pH nước thải tại 7 điểm nước thải củanhà máy Vifon. phân tích pH có kết quả: 5,12 5,20 5,15 5,17 5,16 5,19 5,15Tính khoảng tin cậy ở mức 95% và 99% cho kết luận vềkết quả điều tra.
7) Một mẫu điều tra có kết quả sau:11,68 11,12 8,92 8,82 10,31 11,88 9,84 11,69 9,53 10,30 9,17 10,04 10,65 10,91 10,32 8,71 9,83 8,90 10,40Dùng phần mềm STAGRAPHICS hãy vẽ phân bố tần suấtcủa kết quả điều tra nói trên. Phân bố đó có gần với phânbố chuẩn hay không?
225
BBààii 5 5 THITHIẾẾT KT KẾẾ THTHÍÍ NGHINGHIỆỆM VM VÀÀPHÂN TPHÂN TÍÍCH BICH BIẾẾN LƯN LƯỢỢNG NG
ANOVAANOVA
1) Nhu cầu ứng dụng phân tích ANOVA trong lĩnh vực môitrường tài nguyên
2) Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm3) Các giai đoạn thực hiện thí nghiệm4) Cơ sở lý thuyết của phân tích biến lượng5) Bài luyện tập
Nội dung bài học
226
1. Trong các thí nghiệm tìm nghiệm thức tối ưu trong quá trình nghiên cứu công nghệ môi trường như: tối ưu về thơi gian xử lý, chọn lựa chất phụ gia tối
ưu, chọn công nghệ tối ưu.
2. Trong các thí nghiệm nghiên cứu vi sinh môi trường, thí nghiệm sinh học môi trường
3. So sánh sự khác biệt giữa nhiều nhóm dữ liệu
(trên 2 nhóm). Ví dụ so sánh các chỉ tiêu chất lượng nước giữa các loại chất thải từ các công nghiệp khác nhau.
1. Nhu cầu ứng dụng phân tích ANOVA trong lĩnh vực môi trường tài nguyên
227
2. Nguyên lý, khái niệm cơbản trong thiết kế thí nghiệm
228
Thí nghiệm là thực hiện quan sát một hiện tượng trong điều kiện có kiểm soát.
Các yếu tố quan sát được cho thay đổi (nồng độ, độdài thơi gian, các hơp chất khác nhau. . .) và các trường hơp thay đổi được gọi tên bằng các nghiệm thức (treatment) khác nhau.
Những nguyên nhân khác không thuộc về mục tiêu thí nghiệm có thể có ảnh hưởng đến kết quả được giữ ở mức bình thường và đồng nhất trong các nghiệm thức. Nguyên tắc chung của thí nghiệm là trên cơ sơ quan sát và đánh giá các nghiệm thức, chọn ra nghiệm thức tối ưu và suy diển, kết luận chung theo quy tắc qui nạp.
2. Nguyên lý, khái niệm cơ bản trong thiếtkế thí nghiệm
229
2. Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm (tt)
• Các yếu tố thí nghiệm(factors): là biếnlý giải – là đặc trưng mà qua thí nghiệm tamuốn tìm sự biến thiên giữa các nhóm hay nghiệm thức xử lý (Treatment) .
Ví dụ, thí nghiệm tìm nồng độ hóa chất xúc tác tối ưutrong xử lý nước . Nồng độ hóa chất là yếu tố thínghiệm
• Bậc thí nghiệm (levels) : Các trị cụ thểcủa mỗi nhóm trong các yếu tố thí nghiệm.
• Ví dụ: sử dụng 5 bậc: 0, 5, 10, 15, 20 mg/Lít
230
2. Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm (tt)
• Ví dụ: Thí nghiệm tìm thời gian xử lý tối ưu và nộng độhóa chất tối ưu bằng cách thí nghiệm trên 6 nhóm
Không xúc tác
Xúc tác 10 mg/ lít
Xúc tác 20 mg/lít
Xử lý 1 giờ Nhóm I Nhóm II Nhóm III
Xử lý trong 2 giờ Nhóm IV Nhóm V Nhóm VI
Yếu tố: Thời gian xử lý? Nồng độ xúc tác?Bậc: thời gian 1, 2 giờ và nồng độ 0, 10, 20 mg/l.
231
Thiết kế thí nghiệm
Gán ngẫunhiên
Ng.thứcI
Ng.thức II
Ng.thức VI
Ng.thức IV
Ng.thức V
Ng.thức III
XL 1 giờ, XT 10 mg/l
XL 1 giờ, KhôngXúc tácT
So sánhhiệuquảxử lý
XL 1 giờ, XT 20 mg/lXL 2 giờ, KhôngXT
XL 2 giờ, XT 10 mg/lXL 2 giờ, XT 20 mg/l
232
2. Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm (tt)
• Kiểm soát các tác động của các biếnẩn đến sự đáp ứng, bằng cách so sánhhay hay nhiều nghiệm thức
• Ngẫu nhiên—Sử dụng các cơ hộikhách quan để gán các nghiệm thức
• Sử dụng đủ các đơn vị trong mỗi nhómđể giảm sự biến thiên trong kết quả(Lặp lại)
233
a- Laëp laïi (Replication)
Không thể suy diển kết quả từ chỉ một mẫu quan sát (một đơn vị thí nghiệm là một đơn vị nhận một nghiệm thức thínghiệm).
Mỗi đơn vị thí nghiệm phải hiện diện nhiều lần trong một cuộc thí nghiệm, đó là sự lặp lại.
Một lô thí nghiệm không lặp lại không đo được sự biến thiên,
từ đó không thể tính toán được mức tin tưởng của các kết luận.
234
a- Laëp laïi (Replication) (tt)Lặp lại càng nhiều, trung bình và sai số tiêu chuẩn tính cho
mỗi nghiệm thức càng tin cậy.
Tăng số lần lặp lại
Tăng diện tích thí nghiệm
Giảm kính thước của đơn vị thí nghiệm => nhiều yếu tốkhông kiểm soát (không thuộc mục tiêu thí nghiệm) sẽ xen vào kết quả và sẽ làm giảm độ chính xác của thí nghiệm.
Lặp lại nhiều sẽ tăng thơi gian, phí tổn thí nghiệm. Thườngthực hiện lặp lại 4 - 10 lần tùy theo loại thí nghiệm.
235
Nghiệm thức là tình trạng khác nhau (hay các bậc = level) của một yếu tố mà ta muốn nghiên cứu. Nghiệm thức có thểlà nồng độ hóa chất, các giống vi sinh, các thơi gian xử lý.
Số liệu thu thập từ thí nghiệm sẽ tăng lên quá nhiều nếu áp đặt quá nhiều nghiệm thức và thiều hiểu biết cơ bản vềyếu tố nghiên cứu.
Hiểu biết sơ bộ về nguyên liệu thí nghiệm hay mức độ ảnh hưởng của yếu tố đang xem xét có thể giúp hạn chế các nghiệm thức không cần thiết vốn làm tăng chi phí thínghiệm.
Ví dụ: nếu biết sơ bộ về tác động của nồng độ một hóa chất, chúng ta có thể chỉ đặt các nghiệm thức trong phạm vi nồng độ tối thiểu và nồng độ tối đa cần thiết.
Thường chúng ta phân các nghiệm thức theo cấp số cộng hay cấp số nhân: 0 25 50 75 100
b- Choïn löïa nghieäm thöùc
236
Là đơn vị cơ bản về mặt hình thức khi tổ chức một thínghiệm: một lô đất có kích thước cố định và định trước, vd, 2 m x 2 m . Liếp trồng cây, một ống nghiệm, một người, một cây hay một ống nghiệm . . .
Một lần “chạy mô hình” (Một “mẻ xử lý).Một đơn vị thí nghiệm sẽ nhận một nghiệm thức xử lý. Nghiệm thức có thể là một nồng độ hóa chất, một biện pháp
xử lý kỹ thuật, một hhơi gian xử lý, hay hỗn hơp các yếu tốcần thí nghiệm trong trường hơp thí nghiệm nhiều yếu tố. ... Mỗi đơn vị thí nghiệm chỉ được nhận một nghiệm thức thí nghiệm.
Nghiệm thức (treatment) có thể là một hỗn hơp hai hay nhiều nghiệm thức đơn lẻ.
Ví dụ, thí nghiệm 5 mức bón phân (N0, N1, N2, N3, N4) trên ba giống lúa (V1, V2, V3), một đơn vị nhận một nghiệm thức hổn hơp ví dụ V0N1
c) Ñôn vò thí nghieäm
237
Nếu muốn nghiên cứu nhiều yếu tố cùng một lúc, chúng ta phải có các hoạch định thí nghiệm đặc biệt gọi là thí
nghiệm nhiều yếu tố (factorial experiment).
Ví dụ nếu muốn nghiên cứu ảnh 4 mức nồng độ hóa chất dùng trong một công nghệ xử lý nước thải và 3 biện pháp
khuấy trộn, chúng ta phải đặt 3 x 4 = 12 nghiệm thức.
c) Thí nghieäm nhieàu yeáu toá:
238
3. Các giai đoạnthực hiện thí nghiệm
239
Có 6 giai đoạn Giai đoạn 1: Xác định mục tiêu thí nghiệmGiai đoạn 2: Bố trí kiểu thí nghiệm
Giai đoạn 3: Thu thập dữ liệuGiai đoạn 4 : Nạp và lưu trữ kết quả thí nghiệmGiai đoạn 5: Xử lý số liệu thí nghiệmGiai đoạn 6: Phân tích, đánh giá kết quả và trình bày báo cáo
về thí nghiệm.
3. Các giai đoạn thực hiện thí nghiệm
240
Là việc quan trọng đầu tiên, chúng ta phải đặt ra các câu hỏi cần phải giải đáp, thường là tìm kết luận về nồng độ, kết luận về một giả thiết ảnh hưởng của một yếu tố . . .
Xác định phạm vi dân số mà chúng ta dự định sẽ áp dụng kết quả suy diển từ cuộc thí nghiệm và lấy mẫu trong phạm vi của dân số đó.
Ví dụ thí nghiệm về tác động của chất thải trong phạm vi một nhà máy hay cả thành phố Hồ Chí Minh.
Giai ñoaïn 1: Xaùc ñònh muïc tieâu thí nghieäm
241
Tùy theo số yếu tố cần quan sát , theo dõi và kết luận trong mục tiêu thí nghiệm, chúng ta có 3 kiểu thí nghiệm cơ bản:
* Thí nghiệm một yếu tố (single-factor experiment)* Thí nghiệm hai yếu tố (two - factor experiment)Thí nghiệm ba hay nhiều yếu tố (three or more factor
experiment)
Giai ñoaïn 2: Boá trí kieåu thí nghieäm
242
Khi thu thập số liệu, có các nguyên tắc sau đây cần tôn trọng:
+ Đo đếm kết quả đúng lúc và chính xác:
- Cần phải thức hiện đo đếm một cách đồng nhất giữa các nghiệm thức vì đo không đòng nhất sẽ làm tăng sự sai biệt gây ra do các yếu tố không kiểm soát, vì vậy sẽ làm tăng
sai số thí nghiệm. Khi đo đếm, phải dùng một thiết bị đồng nhất, giữa các nghiệm thức phải cùng do một người hay một nhóm đo.
- Thơi điểm đo đếm cũng rất quan trọng. Vd, đôi khi ngoài các
số liệu định lượng như tỉ lệ nẩy mầm của hạt giống, ta còn cần biết thời điểm nẩy mầm. Vì vậy phải đo đếm liên tục từlúc hạt nẩy mầm cho đến khi nẩy mầm hoàn toàn.
Giai ñoaïn 3: Thu thaäp döõ lieäu
243
Trong các thí nghiệm đặt trên đất hay trong đất, hoặc các thí nghiệm liên quan đến chất lỏng (nước thải), các lô thí
nghiệm đặt cạnh nhau có thể bị sai lệch do nước chảy lan sang lô bên cạnh.
Ngoài ra gió, ánh sáng có thể có ảnh hưởng đến kết quả.
Để cho kết quả được trung thực, ta loại bỏ hiệu ứng biên (bordure effect) bằng cách chừa bỏ một luống xung quanh các lô thí nghiệm hoặc một hàng cây chung quanh lô tùy
theo vị trí. Ví dụ, trồng 8 x 10 hàng cây trong một lô, chỉ đo 4 x 6 hàng trong lô.
Giai ñoaïn 3: Thu thaäp döõ lieäu (2)
244
Dù bố trí thí nghiệm vơi hình thức nào, một nguyên tắc chung
trong việc nạp lưu trữ có thể thực hiện như sau:
+ Sử dụng các phần mềm bảng tính điện tử (worksheet) , trong dòng đầu tiên, ta đặt và nạp tên các biến (variables), tên biến tuỳ chọ theo nội dung kỹ thuật của thí nghiệm
nhưng nhất thiết phải có các thành phần biến như sau:
+ Tên nghiệm thức, lặp lại, yếu tố 1, yếu tố 2, yếu tố 3. . . .
Giai ñoaïn 4 : Naïp vaø löu tröõ keát quaû thí nghieäm
245
Khi xử lý số liệu thí nghiệm, có thể có nhiều cách:+ Sử dụng các phần mềm để xử lý: STATGRAPHICS, MSTATC,
MINITAB. . . Cách này đơn giản, dễ sử dụng , ít bị nhầm lẫn
trong tính toán.+ Theo nguyên lý, sử dụng các phần mềm bảng tính điện tử
như EXCEL, LOTUS, QUATTRO. . . lập các bảng tính theo
các cơ sơ toán học thống kê thích hơp cho từng phương pháp. Cách này có lơi cho các thí nghiệm đòi hỏi kiểu bố trí đặc biệt như: có lô phụ, khối đầy đủ.
Giai ñoaïn 5: Xöû lyù soá lieäu thí nghieäm
246
Tùy theo nội dung báo cáo khoa học, mỗi thí nghiệm cầnphải nêu rõ các phần sau:
Mục tiêu của thí nghiệm,Vd: Tìm thời gian xử lý tối ưu, tìm chủng vi sinh xử lýđộc chất. . .
Phương pháp và vật liệu thí nghiệmVd: Nước thải đưa vào xử lý lấy từ nhà máy nào, tại đâu?
Vào thời gian nào? Chạy mô hình gì? (vd, USBA) , COD được đo bằng thiết bị gì?, thí nghiệm thực hiện trongthời gian nào?..
Các kết luận thống kê và kết luận về thí nghiệm.(xem chi tiết trong từng kiểu thí nghiệm)
Giai ñoaïn 6: Phaân tích, ñaùnh giaù keát quaû vaøtrình baøy baùo caùo veà thí nghieäm.
247
4. Cơ sở lý thuyết củaphân tích biến lượng
ANOVA
248
4. Cơ sở lý thuyết của phân tích biến lượng
Biến thiên của tất cả các trịquan sát:
∑ − 2)( YYij
Được gọi là “Tổng bình phương “(corrected) total sum of squares” or SST)Có thể chia làm 2 phần:
• Độ lệch của các trị quan sát so với trung bìnhmẫu của nó• Độ lệch của các trung bình mẫu so với trungbình tổng thể (tòan bộ)
)()( YYYYYY iiijij −+−=−Similar to regression
249
)( YYi −
)( iij YY − Đo biến thiên trong nội bộ mẫu
Mỗi số đo có tổng bình phương tương ứng
∑ − 2)( iij YY
∑ − 2)( YYi
Tổng bình phương trong nội bộ (SSW)
Tổng bình phương giữa các mẫu (SSB)
Đo biến thiên giữa các mẫu
4. Cơ sở lý thuyết của phân tích biến lượng
250
Mỗi số đo có độ tự do tương ứng(DF)
SST = n-1 dfSSB = k-1 dfSSW = (n-1) - (k-1) = n-k df
Tỷ số giữa tổng bình phương với độ tự do cho ra Trung bình bình phương
MSW = SSW / (n-k) = là biến thiên trung bình trong nội bộk mẫu
MSB = SSB / (k-1) = là biến thiên trung bình giữa k mẫu
4. Cơ sở lý thuyết của phân tích biến lượng
251
MSW là ước lượng của tổng biến lượng, σ2
MSW = SSW/(n-k)
SSW =
Biến lượng trong mẫu của nhóm i, ∑ − 2)( iij YY
1)( 2
2
−
−= ∑
i
iiji n
YYs
22 )1()( iiiij snYYSSW −=−= ∑
∑∑
−−
=)1(
)1( 2
i
ii
nsn
MSW = là biến lượng hỗn hợp của k nhóm
4. Cơ sở lý thuyết của phân tích biến lượng
252
Giả thiết Ho được trắc nghiệm bằng cách xem xét tỷ số F
F = MSB/MSW, so sánh với Ftính Phân bố F ở k-1, n-k df
Nếu biến thiên giữa các nhóm lớn hơn nhiều so vớibiến thiên trong nội bộ của các nhóm
F >> 1, bác bỏ giả thiết Ho
F ≈ 1, Không bác bỏ giả thiết Ho
4. Cơ sở lý thuyết của phân tích biến lượng
253
ANOVA Trắc nghiệm F
• So sánh biến thiêngiữa các nhóm vớibiến thiên trong nộibộ nhóm
sF =
Biến thiên trongnội bộ nhóm
Biếnthiêngiữacácnhóm
∑ − 2)( YYi
p2
254
Kết quả thường diễn đạt trong bảng ANOVA
Source SS df MS F p-value
Between SSB k-1 MSB MSB/MSW p
Within SSW n-k MSW
Total SST n-1
STATGRAPHICS dùng “Model” cho “giữa các nhóm(between)”Và “Error” cho “nội bộ (within)”
4. Cơ sở lý thuyết của phân tích biến lượng
255
4. Cơ sở lý thuyết của phân tích biến lượng
256
Các kỹ thuật so sánh đa yếu tố trongSTATGRAPHICS
So ánh dựa trên khoảng tin cậySo sánh bằng hiệu số có nghĩa bé nhất FISHER’S LSD (LSD)
So sánh bằng hiệu số có nghĩa BONFERRONI (BON)
4. Cơ sở lý thuyết của phân tích biến lượng
Xử lý bằng trắc nghiệm F cho mức ý nghĩa tổng thểChỉ sử dụng LSD khi F có nghĩa
HiHiệệuu ssốố ccóó nghnghĩĩaa bbéé nhnhấấtt Fisher (LSD)Fisher (LSD)
4. Cơ sở lý thuyết của phân tích biến lượng
So sánh đa trị Bonferroni (BSD)
Number of Pairwise Comparisons( -1)
2t tm =
α≤Experiment-wise errror rateTỉ lệ sai số thí nghiệm
4. Cơ sở lý thuyết của phân tích biến lượng
259
Tóm tắt chương 5• Thiết kế thí nghiệm cần cho nghiên cứu công nghệ nhằm tìm
các thông số tối ưu cho các tiến trình xử lý (thời gian, nồngđộ, chủng vi sinh. . . )
• Có 6 giai đoạn thực hiện một thí nghiệm– Giai đoạn 1: Xác định mục tiêu thí nghiệm– Giai đoạn 2: Bố trí kiểu thí nghiệm– Giai đoạn 3: Thu thập dữ liệu– Giai đoạn 4 : Nạp và lưu trữ kết quả thí nghiệm– Giai đoạn 5: Xử lý số liệu thí nghiệm– Giai đoạn 6: Phân tích, đánh giá kết quả và trình bày báo cáo về thí
nghiệm.• Phân tích biến lượng ANOVA có nhiều ứng dụng trong việc
so sách các nhóm dữ liệu và giúp phân tích kết quả thínghiệm trong lĩnh vực môi trường tài nguyên.
260
Bài luyện tập 1
5,82 X24,15 Xo5,26 X35,05 X14,61 Xo5,11 X35,04 X16,02 X26,52 X15,61 X24,52 Xo5,41 X35,22 X35,01 X16,23 X24,23 Xo
4.1) Trong thí nghiệm tìm nồng độ ở bài 15, nếu bố trí theo kiểu bìnhphương latinh với kết quả đo pH nước sau xử lý như sau:
* Lập một bảng kê ghi lại kết quả thí nghiệm trước khi ghi vào đĩa.- Sau khi lập một tập tin kết quả, sử dụng kỹ thuật phân tích biến lượng 1
yếu tố trong STATGRAPHIC để xử lý kết quả* Căn cứ vào kết quả trên máy, viết lại báo cáo về thí nghiệm.
1- Mục đích của thí nghiệm2- Phương pháp thí nghiệm3- Kết quả tính toán , phân tích ANOVA4- Kết luận thống kê và kết luận nồng độ nàoxử lý có kết quả nhất?
261
Bài luyện tập 2Dưới đây là các kết quả đo % nước hữu dụng theo độ sâu
tầng đất, (đất cát):
dùng kỹ thuật phân tích biến lượng ANOVA, chứng minh rằnggiữa các độ sâu khác nhau, % nước hữu dụng sẽ khác nhaurất có ý nghĩa?
69,877,666,765,270,472,523
74,572,570,973,668,773,216
46,543,845,447,745,243,68
33,331,038,135,733,333,37
% lượng nước hữu dụngĐộ sâu(m)
262
BBààii 6.6.
THITHIẾẾT KT KẾẾ THTHÍÍ NGHINGHIỆỆM VM VÀÀPHÂN TPHÂN TÍÍCH KCH KẾẾT QUT QUẢẢTHTHÍÍ NGHINGHIỆỆM MM MỘỘT VT VÀÀ
HAI YHAI YẾẾU TU TỐỐ
263
1) Tổng quan về các phân tích biến lượng ANOVA trongSTATGRAPHICS
2) Thiết kế thí nghiệm một yếu tố
3) Thực hành xử lý dữ liệu thí nghiệm một yếu tố
4) Thiết kế thí nghiệm hai yếu tố
5) Thực hành xử lý dữ liệu thí nghiệm hai yếu tố
6) Bài luyện tập
NỘI DUNG BÀI HỌC
264
1. Tổng quan về Phân tích biến lượngANOVA trong STATGRAPHICS
Có hai kỹ thuật phân tích ANOVA thường dùng:1)One-Way Analysis of Variance,ANOVA một yếu tố: phân tích ảnh hưởng hay so sánh sự
khác nhau giữa các nghiệm thức, các kiểu, các loại củamột yếu tố (một mã bậc) đối vơi một biến hệ quả .
Ví dụ So sánh kết quả phân tích pH nước thải (biến hệ quả) giữa các phương pháp xử lý khác nhau được ghi trongbiến mã bậc.
265
Tổng quan về Phân tích biến lượngANOVA trong STATGRAPHICS (2)
2) Multiple Analysis of Variance,ANOVA đa yếu tố: phân tích tác động, so sánh sự khác biệt
của một hay nhiều yếu tố mã bậc trên cùng một biến hệquả. Ví dụ: so sánh Năng suất cây trồng giữa các cách làm đất(cày, không cày, cày và bừa) và các mức độ phân bón(không bón, bón 100 kg phân Urê /ha, bón 200 phânUrê/ha). Năng suất cây trồng là hệ quả vừa của biện pháp làm đất , vừa của biện pháp bón phân.
Phương pháp Multiple Analysis of Variance cho phép đánhgiá tác động tương hỗ giữa hai yếu tố.
266
2. Thiết kế thí nghiệmmột yếu tố
(single-factor experiment)
267
Chæ xem xeùt vaø ñi ñeán keát luaän ñoái vôùi giaû thieát veà moät yeáu toá, caùc yeáu toá khaùc coù aûnh höôûng ñeán keát quaû ñeàu phaûi ñöôïcthöïc hieän ñoàng nhaát trong caùc ñôn vò thí nghieäm goïi laø thínghieäm moät yeáu toá.
Ví duï, nghieân cöùu taùc ñoäng cuûa noàng ñoä hoùa chaát, ñaët ra caùcnghieäm thöùc ñoái vôùi noàng ñoä, caùc yeáu toá khaùc nhö loaïi nöôùcthaûi, coâng ngheä, thôøi gian xöû lyù ñeàu ñoàng nhaát trong caùcnghieäm thöùc.
2) Thí nghieäm moät yeáu toá (single-factor experiment)
268
Có hai nhóm phương pháp bố trí thí nghiệm áp dụng chothí nghiệm một yếu tố:
+ kiểu khối đầy đủ (complete block design)
* Hoàn toàn ngẫu nhiên
* Khối đầy đủ hoàn toàn ngẫu nhiên
* Hình vuông la tinh
+ Kiểu khối không đầy đủ (incomplete block design)
* Lưới Ô vuông cân bằng (Balanced Lattice designs)
* Nhóm khối cân bằng (group balanced block designs)
Thí nghieäm moät yeáu toá (single-factor experiment) (2)
269
Caùc böôùc thöïc hieän thí nghieäm vaø tính toaùn soá lieäu:Böôùc 1): Xaùc ñònh toång soá loâ (ñôn vò) thí nghieäm n = soá nghieäm
thöùc (t) x soá laàn laëp laïi (r) = t x rBöôùc 2): gaùn cho moãi loâ (ñôn vò) thí nghieäm moät soá thöù töï hay
kyù töï, choïn moät caùch gaùn ngaãu nhieân baèng caùch ruùt thaêm, baûng soá ngaãu nhieân, chia baøi ngaãu nhieân hay moät caùch gaùncaùc nghieäm thöùc ngaãu nhieân khaùc.Ví duï 4 nghieäm thöùc, 3 laànlaëp laïi:
2.1) Boá trí thí nghieäm kieåu hoaøn toaøn ngaãu nhieân(Complete randomized experimental design)
CABBACACBCBA
270
Böôùc 3): Thu thaäp soá lieäu, löu tröõ
xxxxxTB chung
xxxxxToångchung
D
C
B
A
Trung bìnhnghieämthöùc
Toångnghieämthöùc
Laëplaïi 3
Laëp laïi2
Laëp laïi1
Nghieämthöùc
271
Böôùc 4): Thu thaäp soá lieäu, löu tröõ (2)
0.11210.91B
0.32113.83A
0.28911.22A
0.25612.51A
Chitieu2Chitieu1
LaplaiNgthuc
272
Caùc ñôn vò thí nghieäm coù hi voïng ñoàng ñeàu trong vieäc nhaän moätnghieäm thöùc naøo ñoù.
Lôïi:
linh hoaït, vì soá nghieäm thöùc vaø soá laàn laëp laïi chæ bò haïn cheá bôûisoá ñôn vò thí nghieäm.
Soá laàn laëp laïi coù theå khaùc nhau töø nghieäm thöùc naøu ñeán nghieämthöùc khaùc. Neáu ñôn vò thí nghieäm bò maát thì vieäc xöû lyù vaøphaân tích cuõng ñôn giaûn vaø khoâng bò aûnh höôûng.
Haïn cheá :
sai soá thí nghieäm goàm toaøn theå söï bieán thieân giöõa caùc ñôn vòthí nghieäm neân sai soá trong keát luaän töông ñoái lôùn.
Boá trí thí nghieäm kieåu hoaøn toaøn ngaãu nhieân (Complete randomized experimental design) (2)
273
Thí nghiệm hoàn tòan ngẫu nhiênThí nghiệm hoàn tòan ngẫu nhiên
A
A
B B
CC
B
A
C
CB
A
A
B
C
t = 3 chủng vi sinhn = 5 lần lặp lại
15 lô thí nghiệm đượcchọn ngẫu nhiên
274
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
Kiểu bố trí hoàn toàn ngẫu nhiên áp dụng thích hợp khingười ta không biết có nguyên nhân biến thiên nào khácngoài biến thiên do nghiệm thức khác nhau. Trong nhiềutrường hợp, người ta biết trước rằng vài đơn vị thí nghiệm , nhận cùng một nghiệm thức nhưng sẽ cho kết quả rất khácnhau. Vd, khi thí nghiệm trên đất, 2 lô ở xa nhau sẽ cho kếtquả khác nhau hơn là hai lô ở gần nhau. Các kết quả đotrong cùng một ngày thường giống nhau hơn là kết quả đotrong những ngày khác nhau.. . . Khi ta biết trước thái độkhác nhau của cácđơn vị thí nghiệm như trên, nên áp dụngkiểu bố trí khối đầy đủ để loại ra khỏi sai số thí nghiệm tácđộng của các nguyên nhân ngoài các yếu tố đã xác lậpnghiệm thức.
275
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
Kiểu khối đầy đủ áp dụng khi các đơn vị thí nghiệm có thểgom lại thành khối, mỗi khối có số đơn vị bằng số nghiệmthức và số khối bằng số lần lặp lại.Mục đích của việc gom các đơn vị thí nghiệm trong một khốiđồng nhất nhau nhằm làm cho sự sai biệt chỉ do sự khácnhau về nghiệm thức. Sự sai biệt giữa các khối không ảnhhưởng đến sự sai biệt giữa các nghiệm thức vì mỗi nghiệmthức đều có mặt trong mỗi khối. Khối có thể là nhóm lô , xếptheo hình vuông hay hình chữ nhật.Mỗi nghiệm thức chỉ hiện diện một lần trong mỗi khối và mỗikhối có đủ tất cả các nghiệm thức. Kiểu khối đầy đủ chínhxác hơn kiểu hoàn toàn ngẫu nhiên , không bị hạn chế về sốnghiệm thức và số khối.
276
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
Các bước thực hiện thí nghiệm và tính toán số liệu:Bước 1): Xác định tổng số lô (đơn vị) thí nghiệm n = sốnghiệm thức (t) x số lần lặp lại cũng là số khối (r) n = t x rBước 2): bố trí các nghiệm thức vào các khối, trong từngkhối, thực hiện bố trí hoàn toàn ngẫu nhiên theo cách thứcbố trí ngẫu nhiên.Ví dụ 1 , thí nghiệm với 6 nghiệm thức A, B, C, D, E, F với 4 lần lặp lại, chúng ta tổ chức thành 4 khối, mỗi khối có 6 lô thínghiệm, mỗi thí nghiệm nhận 1 nghiệm thức:
277
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
24D
21C
18A
15F
12E
9D
6B
3C
23B
20E
17D
14C
11F
8A
5A
2E
22F
19A
16E
13B
10B
7C
4F
1B
278
Bố trí thí nghiệm khối đầy đủ ngẫu nhiênBố trí thí nghiệm khối đầy đủ ngẫu nhiên
B | A | C
A | C | B
C | A | B
A | B | C C | B | A
t = 3 chủng vi sinh
- Chọn ngẫu nhiên 5 khối- Gán ngẫu nhiên 3 nghiệmthức cho mỗi khối
Ghi chú: 3 “lô thí nghiệm” trong mỗi khối cóđiều kiện tương tự nhau về
- kiểu đất ô nhiễm, ánh sáng, nước, etc
Ví dụ 2
279
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
Bước 3): Thu thập số liệu, lưu trữ
xxxxxTB chung
xxxxxT ngchung
xxxxxxxxxxxxxxxT ng l pl i
D
C
B A
Trung bìnhnghi m th c
T ngnghi m th c
L p l i 3L p l i 2L p l i 1Nghi mth c
280
4.4.2 Bố trí thí nghiệm kiểu khối đầy đủ (Randomized complete block experimental design)
Khi lưu trữ để xử lý trong STATGRAPHICS:
0.11210.91B
0.32113.83A
0.28911.22A
0.25612.51A
Chitieu2Chitieu1LaplaiNgthuc
281
Trong trường hợp kết quả thí nghiệm thay đổi theo hai chiều, ví dụ, thí nghiệm về thuốc xử lý bệnh cho thú có thể thay đổitùy theo dòng thú và thay đổi theo kiểu chuồng trại; hoặc cácthí nghiệm thực hiện trên đất dốc ngoài đồng, không rõ chiềuhướng biến thiên, khi đó nên dùng kiểu bình phương la tinh.Kiểu bố trí bình phương la tinh cũng có thể áp dụng cho cácđơn vị thí nghiệm có tính chất thời gian. Vd muốn thử hiệunghiệm của nhạc trên năng suất thợ với 4 chương trình nhạcvà một nghiệm thức đối chứng không có nhạc trong lúc làmviệc (A,B,C,D,E) . Để tránh ảnh hưởng của ngày đầu tuần, cuối tuần và tuần đầu tháng, cuối tháng.. . Ta có thể bố trí 5 chương trình nhạc trong 5 ngày và xoay dần 5 chương trìnhtrong 5 tuần.Kiểu bình phương la tinh có một hạn chế là bắt buột số “hàng”và “cột” phải bằng nhau.
2.3 Bố trí thí nghiệm kiểu hình vuông la tinh (Latin square experimental design) [1]
282
Số lần lặp lại nên từ 4 - 8. Cách phân bố các nghiệm thứctrên các đơn vị thí nghiệm có thể làm theo nhiều cách:+ Lần thứ nhất bố trí ngẫu nhiên các nghiệm thức vào hìnhvuông, lần lặp lại tiếp theo bố trí theo thứ tự như trướcnhưng thụt vào 1 hay hai hàng:
CDAB
ABDC
BACD
DCBA
ADCB
CBAD
BADC
DCBA
BADC
ADCB
CBAD
DCBA
+ Xáo trộn ngẫu nhiên giữa các hàng,+ Rút thăm phân phối các nghiệm thức
Bố trí thí nghiệm kiểu hình vuông la tinh (Latin square experimental design) [2]
283
Các bước thực hiện và tính toán số liệu:Bước 1): Xác định tổng số lô (đơn vị) thí nghiệm n = bìnhphương số nghiệm thức (t) [ n = t x t]Bước 2): Trong kiểu này, số lần lặp lại bằng số nghiệm thứcvà số đơn vị thí nghiệm bằng bình phương số nghiệm thức. Các đơn vị thí nghiệm sẽ được xếp theo hình vuông, mỗihàng , mỗi cột đều phải có đủ các nghiệm thức, mỗi nghiệmthức xuất hiện một lần. Việc bố trí các nghiệm thức trongmột hàng hay cột được thực hiện ngẫu nhiên.
CDAB
ABDC
BACD
DCBA
Bố trí thí nghiệm kiểu hình vuông la tinh (Latin square experimental design) [3]
284
4.4.3 Bố trí thí nghiệm kiểu hình vuông la tinh (Latin square experimental design) [4]Bước 3): Thu thập số liệu, lưu trữ
xxxxxT ngchung
xxxxxxxxxxxxxxxxxxxxT ng c t
xxxxCDAB4
xxxxABDC3
xxxxBACD2
xxxxDCBA1
T nghàng
C t 4C t 3C t 2C t 1S hàng
285
Böôùc 3): Thu thaäp soá lieäu, löu tröõ (2)
0.11210.91B
0.32113.83A
0.28911.22A
0.25612.51A
Chitieu2Chitieu1
HangNgthuc
286
3. Thực hành phân tích biếnlượng một yếu tố trong
STATGRAPHICS
287
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá
Analysis of variance --------------------------------------------------------------------------------Source of variation Sum of Squares d.f. Mean square F-ratio Sig. level--------------------------------------------------------------------------------Between groups 0.9212063 3 0.3070688 6.484 0.0010 Within groups 2.0838750 44 0.0473608 --------------------------------------------------------------------------------Total (corrected) 3.0050813 47
0 missing value(s) have been excluded.
288
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [2]
( )∑ ∑=
=k
ii yxbSSR
1
.)( SSR k/ ( )
SSE y SSR= −∑ 2
)1/( −− knSSE
(SSR+SSE)/(n-1)
SSR + SSEn-1Toång coäng
(B)n-k-1Noäi boä nhoùm
(A) / B)
(A)kGiöõa caùc nhoùm
FTrung bìnhbình phöông
Toång soá bình phöôngÑoä töï doNguoàn bieùn thieân
289
Phaân tích bieán löôïng ANOVA
Nếu F tính < F bảng ở độ tự do k và n-k-1 : chấp nhận giảthiết Ho: R2 = 0, biến thiên do ngẫu nhiên (do các nhân tốkhác) chiếm tỉ trọng lơn do vơi biến thiên giữa các bậc. Giữa các bậc không có khác nhau về mặt thống kê ở mức ý nghĩa
a = 0,05 hoặc 0,01.Nếu F tính > Fbảng ở độ tự do k và n-k : bác bỏ giả thiết Ho, chấp nhận HA: R2 <> 0, biến thiên do ngẫu nhiên
(trong nội bộ nhóm) chiếm tỉ trọng nhỏ so vơi biến thiên giữa các trung bình mã bậc. Sự khác nhau giữa các trung
bình mã bậc thật sự tồn tại vơi xác xuát 1-a chứng tỏ yếu tốphân tích có ảnh hưởng đến biến hệ quả.
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [3]
290
Nếu F tính < Fbảng ở độ tự do k và n-k-1 : chấp nhận giảthiết Ho: R2 = 0, biến thiên do ngẫu nhiên (do các nhân tốkhác) chiếm tỉ trọng lơn do vơi biến thiên giữa các bậc. Giữa các bậc không có khác nhau về mặt thống kê ở mức ý nghĩa
a = 0,05 hoặc 0,01.Nếu F tính > Fbảng ở độ tự do k và n-k : bác bỏ giả thiết Ho, chấp nhận HA: R2 <> 0, biến thiên do ngẫu nhiên
(trong nội bộ nhóm) chiếm tỉ trọng nhỏ so vơi biến thiên giữa các trung bình mã bậc. Sự khác nhau giữa các trung
bình mã bậc thật sự tồn tại vơi xác xuát 1-a chứng tỏ yếu tốphân tích có ảnh hưởng đến biến hệ quả.
Mức ý nghĩa (significant level) chỉ ra mức ý nghĩa alpha. Nếu alpha lơn hơn 0,05 thì chấp nhận giả thiết Ho.
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [4]
291
1) Baûng tính trung bình cho caùc maõ baäc
Table of means for ANOVA.survival by ANOVA.treatment----------------------------------------------------------------------------------------------------
Stnd. Error Stnd. Error 95 % LSD Level Count Average (internal) (pooled s) intervals for mean
----------------------------------------------------------------------------------------------------1 12 0.3141667 0.0295281 0.0628230 0.2246183 0.40371512 12 0.6766667 0.0926163 0.0628230 0.5871183 0.76621513 12 0.3925000 0.0482124 0.0628230 0.3029516 0.48204844 12 0.5341667 0.0633468 0.0628230 0.4446183 0.6237151
----------------------------------------------------------------------------------------------------Total 48 0.4793750 0.0314115 0.0314115 0.4346008 0.5241492
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [5]
292
2) Vẽ đồ thị so sách các trung bình mã bậc
Đồ thị đơn giản (means plot),
Đồ thị hộ đa bậc (multiple boxplot),
Đồ thị hộp thắt nút (Notched boxplot) ;
Vẽ đồ thị biểu thị sai biệt (residual plots)
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [6]
293
3) Traéc nghieäm so saùnh caùc trung bình (multiple range tests)STATGRAF thöïc hieän so saùnh caùc trò trung bình cuûa bieán maõ baäc (trung bìnhcaùc nghieäm thöùc) vaø bieåu thò keát quaû phaân nhoùm thuaàn nhaát (homogenous groups) Multiple range analysis for ANOVA.survival by ANOVA.treatment--------------------------------------------------------------------------------Method: 95 percent LSD
Level Count Average Homogenous group--------------------------------------------------------------------------------1 12 0.3141667 *2 12 0.6766667 *3 12 0.3925000 * 4 12 0.5341667 *
--------------------------------------------------------------------------------
3.1 Keát quaû xöû lyù Söû duïng statgraphics phaân tích bieánlöôïng moät yeáu toá [7]
294
4.Thiết kế thí nghiệmnhiều yếu tố
295
4. THÍ NGHIỆM NHIỀU YẾU TỐ
Xem xét và đi đến kết luận đối với giả thiết về ảnh hưởngcủa nhiều (2 hay 3) yếu tố. Mỗi yếu tố có các bậc (level) khác nhau . Bậc chính là cácnghiệm thức đối với một yếu tố. Bậc có thể là các nồng độ khác nhau (10 ppm, 20 ppm 30 ppm), các tình trạng khác nhau (không làm cỏ và đốt, làmcỏ và không đốt, làm cỏ và đốt), Số nghiệm thức cần có trong thí nghiệm nhiều yếu tốbằng tích số của số bậc trong các yếu tốThí dụ: Thí nghiệm xét 3 yếu tố: Phân bón (3 bậc) x Khoảng cách trồng (3 bậc) và lượng thuốc trừ sâu (2 bậc) sẽ có số nghiệm thức của một lần lập lại là 18 nghiệmthức, nếu lặp lại 3 lần sẽ có 54 đơn vị thí nghiệm.
296
Được dùng khi ta không biết mức tối ưu của những yếutố dùng đồng thời và không biết yếu tố nào quan trọnghơn yếu tố nào.Nhờ các thí nghiệm nhiều yếu tố, chúng ta biết được:Tác động cộng hưởng (interaction) giữa các yếu tố, Sự khác biệt trong phản ứng đối với các bậc của một yếutố nào đó giống nhau hay khác nhau ở những bậc khácnhau của một yếu tố khác.Điều này rất quan trọng khi ta cần thí nghiệm về một yếutố nào đó, đem ra áp dụng trong những điều kiện khácnhau .Có thể bố trí các kiểu thí nghiệm sau đây:+ Kiểu khối đầy đủ (Complete block design),+ Kiểu thí nghiệm có lô phụ (Split - Plot Design)
297
4.1 Thí nghiệm hai yếu tố kiểu khối đầy đủ (Complete block design),
Bước 1): Dữ kiện: + Yếu tố A có a bậc , yếu tố B có b bậc , số lần lặp lại làr => tổng số đơn vị (lô thí nghiệm) là n = a . b. rBước 2): Bố trí các nghiệm thức, ví dụ mẫu về bố trí cácnghiệm thức của thí nghiệm yếu tố V có 3 bậc x yếu tố N có 5 bậc với 4 lần lặp lại:
298
4.1 Thí nghiệm hai yếu tố kiểu khối đầy đủ (Complete block design) [2]
V1N0V2N0V2N0V3N1V2N4
V1N2V3N4V3N4V1N3V3N0
V1N1V1N4V1N4V2N1V3N2
V3N0V3N1V2N2V3N4V1N0
V2N4V1N4V1N2V3N2V1N3
V2N1V2N0V1N1V3N3V2N3
V3N3V2N3V2N1V3N2V2N0
V3N4V2N4V1N3V1N2V2N2
V1N4V3N1V1N0V3N0V1N1
V3N4V3N3V3N2V2N1V3N0
V2N3V1N1V1N4V3N1V1N3
V2N0V1N0V2N4V2N2V1N2
299
4.1 Thí nghiệm hai yếu tố kiểu khối đầy đủ (Complete block design),[3]
131121111140130120110
Chitieu2Chitieu1laplaiYeuto VYeuto N
Bước 3): Dạng file lưu trữ dữ liệu:
300
4.2 Thí nghiệm hai yếu tố kiểu có lô phụ (Split -plot design),
Bước 1: Xác lập dữ kiện: + Yếu tố A có a bậc , mỗi bậc bố trí trong 1 lô chính , yếu tố B có b bậc bố trí trong các lô phụ nằm tronglô chính, số lần lặp lại là r => tổng số đơn vị (lô thínghiệm) là n = a . b. r
Bước 2): Bố trí các nghiệm thức , ví dụ mẫu về bố trícác nghiệm thức của thí nghiệm yếu tố N có 6 bậc vàyếu tố V có 6 bậc với 3 lần lặp lại:+ Mỗi lần lặp lại có 6 lô chính, mỗi lô chính có 4 lôphụ
301
4.2 Thí nghiệm hai yếu tố kiểu có lô phụ (Split -plot design),[2]
LAËP LAÏI 3LAËP LAÏI 2LAËP LAÏI 1
V2V2V4V4V1V3V1V4V3V4V1V4V2V1V1V1V3V4
V4V1V1V3V4V1V3V1V1V1V3V3V4V3V3V2V2V3
V1V3V3V2V3V2V2V3V2V2V4V2V3V2V4V4V4V1
V3V4V2V1V2V4V4V2V4V3V2V1V1V4V2V3V1V2
N2N3N5N4N1N0N2N4N3N6N0N1N6N5N0N1N3N4
302
4.2 Thí nghiệm hai yếu tố kiểu có lô phụ (Split -plot design),[3]
Bước 3): Dạng file lưu trữ dữ liệu:
131121111140130120110
Chitieu2Chitieu1laplaiYeuto VYeuto N
303
5. Thực hành phân tích biếnlượng hai yếu tố trongSTATGRAPHICS
304
5. Söû duïng statgraphics phaân tích bieán löôïngña yeáu toá [1]
Multifactor Analysis of Variance --------------------------------------------------------------------------------Data: ANOVA.survivalFactors: A: ANOVA.treatment Interactions
B: ANOVA.poison ABCDEFGHIJKL C: D: E: F: G: H: I: J:
Covariates: (optional) Means plot: LSD Confidence level: 95
Ignore interactions higher than order: 1 Type III
305
5 Söû duïng statgraphics phaân tích bieán löôïng ñayeáu toá [2]
Analysis of Variance for ANOVA.survival - Type III Sums of Squares ------------------------------------------------------------------------------------------------------Source of variation Sum of Squares d.f. Mean square F-ratio Sig. level------------------------------------------------------------------------------------------------------MAIN EFFECTS
A:ANOVA.treatment 0.9212063 3 0.3070688 12.273 0.0000 B:ANOVA.poison 1.0330125 2 0.5165062 20.643 0.0000
RESIDUAL 1.0508625 42 0.0250205 ------------------------------------------------------------------------------------------------------TOTAL (CORRECTED) 3.0050813 47 ------------------------------------------------------------------------------------------------------0 missing values have been excluded. All F-ratios are based on the residual mean square error.
306
5 Söû duïng statgraphics phaân tích bieán löôïng ñayeáu toá [3]
Nếu F tính < Fbảng ở độ tự do k và n-k-1 : chấp nhận giảthiết Ho: R2 = 0, biến thiên do ngẫu nhiên (do các nhân tố
khác) chiếm tỉ trọng lơn do vơi biến thiên giữa các bậc. Giữa các bậc không có khác nhau về mặt thống kê ở mức ý nghĩa a = 0,05 hoặc 0,01.Nếu F tính > Fbảng ở độ tự do k và n-k : bác bỏ giả thiết Ho,
chấp nhận HA: R2 <> 0, biến thiên do ngẫu nhiên (trong nội bộ nhóm) chiếm tỉ trọng nhỏ so vơi biến thiên giữa các trung bình mã bậc. Sự khác nhau giữa các trung bình mã bậc thật sự tồn tại vơi xác xuát 1-a chứng tỏ yếu tố phân tích có ảnh
hưởng đến biến hệ quả.
307
5 Söû duïng statgraphics phaân tích bieán löôïng ñayeáu toá [4]
Mức ý nghĩa (significant level) chỉ ra mức ý nghĩa a.
Nếu a lơn hơn 0,05 thì chấp nhận giả thiết Ho.
Nếu khi khai báo trên màn hình dữ liệu, chúng ta
khai báo mục xem xét tác động tương hỗ
(interactions) và đồng biến lượng (covariates), kết
quả phân tích sẽ hiển thị kết quả đánh giá đồng biến
lượng và tác động tương hỗ giữa các yếu tố.
308
5.1) Keát quaû phaân tích bieán löôïng ña yeáu toátrong Statgraphics
Means table: bảng trị các trung bình
Means plot : Vẽ đồ thị so sánh các trung bình
Interaction plots: vẽ đồ thị so sánh tác động tương hỗ
Multiple boxplot: Vẽ đồ thị hộp , so sánh các trung bình,
Notched boxplot: Vẽ đồ thị hộp thắt nút, so sánh các trung
bình,
Residual plots : Vẽ đồ thị sai biệt
Multiple range tests : Hiển thị bản phân tích so sánh và phân
nhóm thuần nhất giữa các trung bình.
Save residuals: Lưu trữ các tính toán sai biệt.
309
5.1 Keát quaû phaân tích bieán löôïng ña yeáu toátrong Statgraphics [2]
Table of Least Squares Means for ANOVA.survival--------------------------------------------------------------------------------------------------------
95% Confidence Level Count Average Stnd. Error for mean --------------------------------------------------------------------------------------------------------GRAND MEAN 48 0.4793750 0.0228311 0.4332893 0.5254607A:ANOVA.treatment1 12 0.3141667 0.0456623 0.2219952 0.40633812 12 0.6766667 0.0456623 0.5844952 0.76883813 12 0.3925000 0.0456623 0.3003286 0.48467144 12 0.5341667 0.0456623 0.4419952 0.6263381
B:ANOVA.poison1 16 0.6175000 0.0395447 0.5376772 0.69732282 16 0.5443750 0.0395447 0.4645522 0.62419783 16 0.2762500 0.0395447 0.1964272 0.3560728
----------------------------------------------------------------------------------------------------------
310
5.1) Keát quaû phaân tích bieán löôïng ña yeáu toátrong Statgraphics [3]
Multiple range analysis for ANOVA.survival by ANOVA.treatment--------------------------------------------------------------------------------Method: 95 Percent LSD Level Count LS Mean Homogeneous Groups --------------------------------------------------------------------------------1 12 0.3141667 X 3 12 0.3925000 X 4 12 0.5341667 X 2 12 0.6766667 X
--------------------------------------------------------------------------------contrast difference +/- limits 1 - 2 -0.36250 0.13035 * 1 - 3 -0.07833 0.13035 1 - 4 -0.22000 0.13035 * 2 - 3 0.28417 0.13035 * 2 - 4 0.14250 0.13035 * 3 - 4 -0.14167 0.13035 * --------------------------------------------------------------------------------
* denotes a statistically significant difference.
311
BÀI LUYỆN TẬP (1)1 Người ta thử 3 mức phân bón: 0 = không bón, 1 = bón 100 kg/ha; 2 = bón 200 kg/ha đối với 3 loài cây A, B, C. Tổng số nghiệm thức là 9, lập lại 3 lần. Bố trí theo kiểu khối đầy đủ. Kết quả tăng trưởng tính bằng tấn/ha ghittrong bảng dưới đây:
2120172
1925201C
3943370
1523182
1918211B
2935240
1714242
2818171A
3740450
Khối 3Khối 2Khối 1Nghiệm thứcLoại cây
Dùng phương pháp ANOVA, tìm xem mức bón phân nào đem lại năng suất caonhất đối với từng loài. Loài nào cho năng suất cao nhất trong 3 loài đã thínghiệm.
312
BÀI LUYỆN TẬP (2)
Để tìm loài cây thích nghi với môi trường tại một vùng, người ta trồng 3 loại Thông trong các lô 10 x 10 mét . Mỗiloại trồng 5 lô , tổng cộng 15 lô, bố trí ngẫu nhiên. Sau 5 năm , người ta đo chiều cao trong bình của từng lô, kết quảghi trong bảng sau:
Dùng phân tích ANOVA, tìm xem có sự khác biệt giữa các loại Thông hay không? loài nào thích hợp cho vùng đất đã thử nghiệm.
101413
121513
111312
121414
131615
C BA
313
Bài 7PHƯƠNG PHÁP
HỒI QUI TUYẾN TÍNH ĐƠN TỐ VÀ ĐA TỐỨNG DỤNG TRONG
NGHIÊN CỨU MÔI TRƯỜNG
314
1. Nhu cầu ứng dụng phương pháp hồi qui trong lĩnh vực môitrường tài nguyên
2. Các khái niệm cơ bản về hồi qui tương quan
3. Các phương pháp phân tích hồi qui tương quan
3.1) Hồi qui tuyến tính đơn giản (Simple regression)
3.2) Phương pháp lọai trừ trị bất thường trong hồi qui tuyếntính đơn giản
3.3) Hồi qui tuyến tính đa biến (Multiple regression)
4. Lập báo cáo phân tích hồi qui
Bài luyện tập
Nội dung bài học
315
1. NHU CẦU ỨNG DỤNG PHƯƠNG PHÁP HỒI QUI TRONG LĨNH VỰC MÔI TRƯỜNG TÀI NGUYÊN
• Dùng mô tả dữ liệu , các mối quan hệ hay các tiếntrình môi trường:
Các mô hình mô phỏng có thể cho ra các hình ảnh tómtắt đơn giản, dễ hiểu về các quá trình hay các mốiquan hệ.
• Dùng dự báo diển biến các yếu tố môi trường:• Sử dụng mô hình để ước lượng một biến phụ thuộc Y đối với giá trị của biến độc lập X. Từ đó, có thể ngọai suyY và dự báo Y nếu X đạt một giá trị nào đó
• Dùng trắc nghiệm các mối liên hệ lý thuyết trong sinhthái:
• Phương pháp hồi qui dùng khảo nghiệm lại mối quan hệchức năng giữa biến phụ thuộc Y với một hay nhiều biếnđộc lập Xi đã được giả thiết về mặt lý thuyết
•
316
NHU CẦU ỨNG DỤNG PHƯƠNG PHÁP HỒI QUI TRONG LĨNH VỰC MÔI TRƯỜNG TÀI NGUYÊN (tt)
• Dùng xây dựng mô hình• Việc xây dựng các mô hình hệ thống trong lĩnh
vực môi trường thường cần các mô hình của cáctiến trình phụ (thành phần) và các mô hình nàythường là các phương trình hồi qui
• Dùng phương trình hồi qui để suy đóan trịcủa các biến khó đo đạc
• Thông qua các hàm hồi qui, có thể cho phép suyđoán trị của các biến số là các yếu tố kho đohoặc đo đạc tốn kém, thông qua mối liên hệ củayếu tố này với các yếu tố môi trường khác , dễđo.
317
2. Các khái niệm cơ bảnliên quan đến phân tích
hồi qui – tương quan
318
2.1. Mô hình lý thuyết và mô hình kinh nghiệm
• Với sự tiến bộ khoa học , có mô hình lýthuyết mô tả quan hệ giữa các biến số.
• Khi chưa có lý thuyết, dự trên số liệu thựcnghiệm, vẽ lên đồ thị điểm , bằng phươngpháp phân tích hồi qui tương quan, tạo ramô hình thực nghiệm.
• Mô hình thực nghiệm là mô hình xây dựngtrên số liệu khảo sát thực tế hoặc số liệutừ kết quả thí nghiệm
319
2.2. Phân tích hồi qui
• Là kỹ thuật mô hình hóa và nghiên cứu mối liênhệ giữa hai hay nhiều biến số.
• Phân tích hồi qui có thể được dùng để mô tảmối liên hệ cũng như dự báo trị của một biếnxem như là hàm của các biến khác.
• Biến số phụ thuộc Y liên hệ với một hay nhiềubiến độc lập Xi
• Phân tích hồi qui hữu dụng trong xử lý nhiềubiến số đồng thời
320
2.3. Tương quan và hồi qui
• Cả 2 biến số được xử lý như nhau trong tươngquan, trong hồi qui có một trị dự báo và một hoặcnhiều trị từ thu thập
• Trong phân tích hồi qui biến x được giả định là biếnkhông ngẫu nhiên và được đo không có sai số
• Phân tích tương quan được dùng để tìm kiếm mốiquan hệ , phân tích hồi qui dùng để dự đoán
321
Ví dụ• Lượng hơi nước sử dụng hàng tháng của
một nhà máy hóa chất được xem là có liênhệ với nhiệt độ trung bình chung quanh củatháng đó.
• Chúng ta có dữ liệu sử dụng hơi nước vànhiệt độ trong năm qua.
• Thông tin này có thể tóm tắt trong đồ thịđiểm (scatter diagram).
322
2.3. Chiều hướng tương quanHai yêu cầu thông tin :• Mức độ chặt chẽ của mối liên hệ• Chiếu hướng của mối liên hệTương quan thuận: trị số cao của một biến tươngứng với trị số cao của biến khác
Ví dụ: trọng lượng càng cao, chiều cao càng lớn
Tương quan nghịch: trị số cao của một biến tươngứng với trị số thấp của biến khác
323
2.4. Mức độ chặt chẽ của mối liên hệ• Hệ số xác định hay đồng biến lượng =
• (∑(Xi-X)*(Yi- Y))/n-1
• Hệ số tương quan (Denominator) = √(sx* sy)/n-1• sx= √ (∑(Xi-X)2)/n-1 (sai tiêu chuẩn của x)
• sy= √( ∑(Yi-Y)2)/n-1 (sai tiêu chuẩn của y)• Hệ số tương quan chuẩn hóa hay số đo không phụ
thuộc đơn vị• Hệ số tương quan = 0, Không có liên hệ
• Hệ số tương quan = 1 or -1, liên hệ hoàn toàn
324
2.5. Lập mô hình = tìm ra thông số
• Trong phân tích hồi qui, quan tâm đến xác lậpquan hệ tóan học của một hiện tượng môitrường, biệu thị mối liên hệ giữa biến Y với X.
• Nhiệm vụ của phân tích hồi qui là xác lập cáctham số của mối qua hệ tóan học đó.
• Tìm đường biểu thị dữ liệu tốt nhất sao cho bìnhphương các độ lệch của các điểm dữ liệu đếnđường mô hình là bé nhất (Phương pháp bìnhphương bé nhất)
• Yi= trị thực tế Y
• Ypred= Y dự đoán
325
2.6. Khái niệm về đường hồi qui phù hợpnhất - Phương pháp bình phương bé nhất
Empathy of Provider (X)
Predicted Service Quality (Y hat)
Intercept, ao
Yi - Y pred(SSU)
b
Service Quality (Y)
Yi-Y (SST)
Y
Yhat-Y(SSR)
326
2.7. Nhắc lại ANOVA • SST= Σ (Yi-Yi)2 (Tổng bình phương; Y trừ đi
Y trung bình)
• SSU= Σ (Yi-Ypred)2 (Tổng bình phương do saisố ngẫu nhiên, không giải thích được); Y thựctế trừ Y dự đoán)
• SSR= Σ(Ypred-Y)2 (Tổng bình phương do môhình; Y dự đoán trừ Y trung bình)
327
2.8. Ghi nhớ• Tương quan không nói lên liên hệ nhân quả
giữa các biến số
• Sự suy diễn nhân quả được thực hiện dựatrên kiến thức và lý thuyết
• Các hệ số tương quan có thể bị tác động bởicác trị bất thường (vì vậy trước khi thực hiệncần dùng đồ thị điểm (scatterplots))
• Liên hệ có thể là tuyến tính hay phi tuyến tính
328
2.9. Đồ thị điểm
• Một đồ thị trình bày các trị tương ứng của haibiến số .
• Để chuẩn bị phân tích hồi qui, biến độc lập diễntả trên trục ngang, biến phụ thuộc trên trụcđứng.
• Biến phụ thuộc còn gọi là biến lý giải, ký hiệu làx.
• Biến phụ thuộc còn gọi là biến đáp ứng hay biếnhệ quả , ký hiệu là y
329
Đồ thị điểm - Scatter Diagram
0
100
200
300
400
500
600
700
800
0 20 40 60 80
Temperature
Usag
e (1
000'
s)
330
Đồ thị điểm - Scatter Diagram
331
2.10. Kiểm nghiệm mô hình
• Các trị sai biệt
• Các trị bất thường
• Cách xử lý đối với dữ liệu có trị bất
thường
332
Kiểm nghiệm mô hình – Các trị sai biệt
• Các trị dự đóan cho “y” (biến phụ thuộc)
b1x1 + b2x2 + … + a
• Trị thực tế (quan sát) cho trị “y”
Sai biệt là hiệu số giữa Y dự đóan với Y
thực tế
333
Kiểm tra mô hình - Các sai biệt
Mô hình biểu thị tốt
⇒ Sai biệt thấp
Mô hình biểu thị trung bình⇒ Sai biệt cao
0
20
40
60
80
100
120
140
160
180
0 50 100 150 200 250
Drug A (dose in mg)
Sym
ptom
Inde
x
0
20
40
60
80
100
120
140
160
0 50 100 150 200 250
Drug B (dose in mg)
Sym
ptom
Inde
x
334
Các sai biệt cần:• Có phân bố chuẩnMột vài to, một vài trị nhỏ, hầu hết là trị trung bình
• Độc lập lẫn nhau– Không đồng biến thiên lẫn nhau
• Hầu hết biểu thị qua biến lượng– Không liên quan đến trị của biến phụ thuộc và biếnđộc lập
Kiểm tra mô hình - Các sai biệt
335
Standardized Residual Plot
-2
-1
0
1
2
200 300 400 500
Selling Price
Sta
ndar
dize
d R
esid
uals
Standardized Residual Plot
-3
-2
-1
0
1
2
3
200 300 400 500
x
Res
idua
ls
Standardized Residuals vs Fitted orPredicted Values
Predicted Values
-3
-2
-1
0
1
2
20 25 30 35 40
Các dạng đồ thị sai biệt trong các phần mềm xử lý thống kê
336
2.11. Các trị bất thường
• Các trị bất thường có thể ảnh hưởngbất thường đến kết quả hồi qui tươngquan
• Có thể phát hiện trị bất thường với đồthị điểm
• Có thể loại bỏ và báo cáo lại trongđánh giá kết quả nghiên cứu
337
Các trị bất thường (2)
• Ví dụ• Hồi qui tuyến
tính sẽ biểu thị tốtdữ liệu nếu khôngcó sự hiện diện của3 trị bất thường
ANXIETY
20100E
XA
M
80
70
60
50
40
30
20
10
338
2.12. Xử lý với trị bất thường
• Thực hiện phân tích hồi qui• Vẽ dữ liệu lên đồ thị điểm• Loại bỏ các trị bất thường trong data editor trong
STATGRAPHICS (nếu có)• Chay phân tích hồi qui lần nữa• Ghi lại sự khác biệt về định tính:
– Nếu có sự khác biệt về đặc tính của mối liên hệ, kiểm tra lại số liệu. Nếu không có sai sót, báo cáocả hai lần phân tích
– Nếu chỉ có sự khác biệt về định lượng (dạngkhông đổi)
– Loại bỏ luôn trị bất thường và chỉ ghi nhận lại sựcó mặt của chúng
339
• Lọai bỏ trị bấtthường
• Vẽ ra số liệu cóthể chỉ ra một vài trịquan sát trong dữliệu thuộc về mộttập hợp mẫu dữ liệukhác
ANXIETY
20100
EX
AM
80
70
60
50
40
30
20
10
340
• Đồ thị chuẩn cho sai biệt• Kiểm tra rằng phân bố tần suất
của sai biệt tạo thành một phânbố chuẩn
2.13. Các kiểm tra mô hình khác
341
3. CÁC PHƯƠNG PHÁP PHÂN TÍCH HỒI QUI – TƯƠNG QUAN
PHÂN TÍCH HỒI QUI
Tuyến tính Phi tuyến tính
Đơn tố Đa tố Đơn tố Đa tố
Chọn biến từng bước, Chọn mô hình tốt nhất
342
3.1) Phân tích hồi qui đơn (simple regression) trong
statgraphics
343
Các dạng tương quan đơn: (Simple Regression) Y = A + B X.
1Y
A B X= + . YA B X
=+
1.
Dạng tương quan nghịch đảo biến đổi(Reciprocal)
Y = e (A + B.X) => Log Y = A + B.X
Dạng tương quan mủbiến đổi (exponential):
Y = A. X^b => LogY = LogA + b . Log
X
Dạng tương quan bộibiến đổi (multiplicative)
Y = A + B.XDạng thuần tuyến tính(linear)
344
Phân tích hồi qui đơn (simple regression) trong statgraphics
• Sau khi mở chương trình statgraphics, khai báo thưmục làm việc. . .Bạn mở Anova and RegressionAnalysis; chọn Simple Regression. Khai báo dữ kiện:
• Dependent variable: Tên biến phụ thuộc Y
• Independent variable: Tên biến độc lập X• Model: Dùng phím cách (trống) chuyển đổi để chọn một
trong 4 mô hình tương quan:
• Dạng thuần tuyến tính (linear); tương quan bội biến đổi(multiplicative); dạng tương quan mủ biến đổi(exponential); dạng tương quan nghịch đảo biến đổi(Reciprocal). (Xem công thức trong bảng trên đây)
345
Phân tích hồi qui đơn (simple regression) trong statgraphics (2)
– Confidence limits: Giới hạn tin tưởng cho trị dự đoán Y’tương ứng với mỗi trị quan sát Xi. Thường dùng các giớihạn tin tưởng 90, 95, 99.
– Trên đường hồi qui trên đồ thị, hai đường cong nằm sáthai bên đường hồi qui sẽ thể hiện giới hạn tin tưởng này. Nếu không muốn thể hiện trên đồ thị giới hạn tin tưởng, khai báo số 0.
– Prediction limits: Giới hạn tin tưởng cho trị dự đoántương ứng với trị Xi bất kỳ, ngoài các trị đã quan sát. Thường dùng các giới hạn tin tưởng 90, 95, 99.
– Trên đồ thị, hai đường cong nằm xa hai bên đường hồiqui thể hiện giới hạn tin tưởng này. Nếu không muốn thểhiện trên đồ thị giới hạn tin tưởng, khai báo số 0.
346
Point labels: nếu bạn muốn ghi chú trị X hoặc Y cho cácđiểm trên đồ thị, bạn khai tên biến chứa các trị (X hoặcY).
Sau khi vẽ đồ thị ra màn hình, bấm Esc rồi F5, một menu hiện ra,chọn Set point labels, Statgraphics sẽ yêu cầughi tên biến chứa trị cần ghi chú, khai báo xong, bấm F6, trở lại menu, chọn Replot.
Đồ thị hiện ra, , bấm Esc , sau đó, bấm F2 để chuyển sang trạng thái tương tác , khi đó, có một hình dấu + , bạnchuyển hình dấu + đến điểm nào muốn ghi chú, bạn bấmphím Q, trị ghi chú sẽ hiện ra trên màn hình.
• Nếu không muốn ghi chú, bạn bỏ trống mục Point labels.
Phân tích hồi qui đơn (simple regression) trongstatgraphics (3)
347
Regression Analysis - Linear model: Y = a+bX-----------------------------------------------------------------------------------------------------------------Dependent variable: HOIQUI.SS Independent variable: HOIQUI.Time-----------------------------------------------------------------------------------------------------------------
Standard T Prob. Parameter Estimate Error Value Level ------------------------------------------------------------------------------------------------------------------Intercept 160.821 11.9857 13.4178 .00000 Slope -0.967857 0.169504 -5.70995 .00020 ------------------------------------------------------------------------------------------------------------------
Analysis of Variance --------------------------------------------------------------------------------- ---------------------------------Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 15737.357 1 15737.357 32.60 .00020 Residual 4826.8929 10 482.6893 -----------------------------------------------------------------------------------------------------------------Total (Corr.) 20564.250 11 Correlation Coefficient = -0.874801 R-squared = 76.53 percent Stnd. Error of Est. = 21.9702
Phân tích hồi qui đơn (simple regression) trongstatgraphics (4)
348
Simple Regression---------------------------------------------------------------------------------------------------------Dependent variable: HOIQUI.SS
Independent variable: HOIQUI.Time
Model: Linear
Confidence limits: 95.00
Prediction limits: 95.00 Plot fitted line : Vẽ đường hồi qui
Point labels: Plot residuals : Vẽ đồ thị sai biệtSave residuals : Lưu trị sai biệtSave results : Lưu kết quảLack-of-fit test : Trắc nghiệm “Lack of Fit”Make predictions: Thực hiện dự đoán
Phân tích hồi qui đơn (simple regression) trongstatgraphics (5)
349
3.2) Interactive Outlier Rejection : Loạibỏ trị bất thường bằng cách tương táctrên màn hình đồ thị
350
Interactive Outlier Rejection ----------------------------------------------------------------------------------------------------------------
Dependent variable: HOIQUI.SS
Independent variable: HOIQUI.Time
Confidence limits: 95.00
Prediction limits: 95.00
Point labels:
Loại bỏ trị bất thường bằng cách tương táctrên màn hình đồ thịCho phép loại bỏ các trị bất thường theo cách tương tácngay trên màn hình đồ thị. Cho ngay kết quả đường hồiqui mới sau khi loại bỏ một trị bất thường (bằng cách đưacon trỏ đến nơi, bấm Enter)
351
3.3) Hồi qui và tương quantuyến tính đa tố
(multiple linear regression)
352
3.3) Hồi qui và tương quan tuyến tính đa tố (multiple linear)
• Phân tích tác động của nhiều biến độc lập Xi đối với biếnphụ thuộc Y theo kiểu tuyến tính:
•• Để có thể phân tích hồi qui bội tuyến tính, chúng ta cần
có k biến độc lập Xi và một biến phụ thuộc Y có cùng cởn.
• Các dữ kiện quan sát thường được lưu trử trong cácbảng (Worksheet) hay các cơ sở dữ liệu (database).
• Sử dụng chương trình Statgraphics, chúng ta không cầnsử dụng phương pháp cổ điển trong việc lập các phươngtrình tiêu chuẩn để tìm các thông số a, bi.
Y X X Xk k= + + + +α β β β1 1 2 2 . . . . .
353
Qui trình xác lập tương quan tuyến tính đa biến ứng dụngtrong nghiên cứu nông nghiệp trong chương trìnhstatgraphics có thể theo các bước sau đây:
Bước 1:
Phân tích các quan hệ trên cơ sở các hiểu biết sinhhọc về mối quan hệ giữa các yếu tố cần phân tích tươngquan.
Bước 2:
Chuẩn bị các biến số để sẳn sàng sử lý trongstatgraphics (xem phần các kỹ thuật biến đổi số liệu trongstatgraphics)
354
Bước 3:
Mở statgraphics, chọn ANOVA AND REGRESSION ANALYSIS; K. regression analysis; Multiple regression. Khaibáo các biến:
Dep. vars: bấm F7, chọn đúng tên biến phụ thuộc, là yếu tốchúng ta cần dự đoán kết quả với sự tác động của các yếu tốtham gia mô hình toán.
Ind. vars: bấm F7, lần lượt chọn tên các biến phụ thuộc, làyếu tố tham gia tác động đến sự thay đổi của biến phụ thuộc.
Multiple Regression-----------------------------------------------------------------------------------------------Dep. var.: HOIQUI.SS Ind. vars.: HOIQUI.Time
HOIQUI.DoSau
355
Ghi chú: trong việc khai báo biến độc lập, bạn có thể đưa vàotrực tiếp tên của các biến theo cách ghi như sau:
Viết liên tục trên cùng một dòng: “Tên tập tin”. “Tên biến 1” & “Tên tập tin”. “Tên biến 2” & “Tên tập tin”. “Tên biến 3”v..v.. Ví dụ: DATA.DK & DATA.MATDO & DATA.TRLUONG
Viết rời trên từng dòng khai báo, mỗi dòng một biến cũng theocách như trên, không dùng ký tự &
Weights: Đưa vào tên biến chứa yếu tố đối trọng mà chúng tamuốn statgraphics áp dụng trong tính toán sai lệch khiước lượng các hệ số phương trình hồi qui. (nếu khôngcần, chúng ta bỏ qua, để trống)
356
Constant: Dùng phím trống , chuyển đổi:
YES: trong phương trình hồi qui sẽ có hệ số hằng số a.
NO: trong phương trình hồi qui sẽ không có hệ số hằng số a
Vertical bars: Dùng phím trống , chuyển đổi:
YES: vẽ các thanh đứng, biểu thị sai lệch giữa dự đoán vàquan sát trên đồ thị hồi qui.(NO: không)
Conf. level: Đưa vào mức giới hạn tin tưởng cho các hệ sốhồi qui và đồ thị. Các mức chung thường dùng là 90, 95 và99 (tính bằng % = 1-a, trong đó a là mức ý nghĩa 0,1; 0,05; 0,01 theo lý thuyết ước lượng)
Sau khi khai báo các mục trên, bấm F6 để hệ thống tiến hànhxử lý.
357
3.3.1) Kết quả ước lượng hệ số của hàm hồi qui (1)
Model fitting results for: LOG(BAI1.Tt2IH) ---------------------------------------------------------------------------------------Independent variable coefficient std. error t-value sig.level
---------------------------------------------------------------------------------------
CONSTANT 5.716707 0.069773 81.9331 0.0000
BAI1.Tt 0.007556 0.001494 5.0575 0.0000
BAI1.Tt2 5.795466 E-7 6.882662 E-6 0.0842 0.9334
---------------------------------------------------------------------------R-SQ. (ADJ.) = 0.9495 SE= 0.091070 MAE= 0.064242 DurbWat= 0.798
Previously: 0.0000 0.000000 0.000000 0.000
36 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Qua kết quả trên đây, mô hình hồi qui dự đoán cho Y như sau:Y = 5,716707 + 0.007556 (Tt) + 5.795466 (Tt2)
358
3.3.2) Kết quả ước lượng hệ số của hàm hồi qui [1]
Cột tên biến độc lập: CONSTANT là hằng số a, các dòngcòn lại là tên các biến độc lập đã khai báo.
Cột coeficient là trị ước lượng của các hệ số
Cột Std.error là sai tiêu chuẩn của ước lượng của các biếnđộc lập
Cột t-value = trị của hệ số/ sai tiêu chuẩn
Cột Si.level: mức ý nghĩa cho mỗi trị t, là xác xuất để một trịtuyệt đối t lớn hơn sẽ xảy ra nếu không có sự tham giatừng phần (marginal contribution) của biến số tương ứng).
Trong thực tế, thường bạn chỉ tiêu này nhủ sau: mức ý nghĩa càng lớn, trị t càng không có ý nghĩa, có tương quanrất cao với biến phụ thuộc.
359
Kết quả ước lượng hệ số của hàm hồi qui [2]
R-SQ. (ADJ.) = 0.9495 là hệ số xác định, bình phương củahệ số tương quan, đã được hiệu chỉnh.SE= 0.091070 Standard error Sai số tiêu chuẩn của trị dựđoán Yi‘MAE= 0.064242: Mean absolute error : Sai số tuyệt đốitrung bình của trị dự đoán Yi‘,
DurbWat= 0.798 : chỉ tiêu thống kê Durbin wattson.
Nếu chúng ta trở về khai báo và thực hiện khai báo biến vàxử lý lại, kết quả lần xử lý trước đó sẽ lưu lại ở dòngPreviously.36 observations fitted, forecast(s) computed for 0 missing val. of dep. var. là dòng thông báo bao nhiêu đơn vị quan sát đã dùng, baonhiêu dữ kiện đã bị mất ở biến phụ thuộc.
360
3.3.3) Phân tích biến lượng (Analysis of variance):
Cho kết quả phân tích biến lượng cho hồi qui toàn phần: Phântích biến lượng cho hồi qui toàn phần dùng trắc nghiệm sự tồntại của hệ số xác định R2 , giả thiết Ho: R2 = 0.Analysis of Variance for the Full Regression --------------------------------------------------------------------------------Source Sum of Squares DF Mean Square F-Ratio P-value--------------------------------------------------------------------------------Model 5.47727 2 2.73863 330.202 .0000Error 0.273696 33 0.00829380 --------------------------------------------------------------------------------Total (Corr.) 5.75096 35 R-squared = 0.952409 Stnd. error of est. =
361
Phân tích biến lượng (Analysis of variance) [2]
( )SSR b x yii
k
= ∑∑=
( ) .1 SSR k/ ( )
SSE y SSR= −∑ 2 SSE n k/ ( )− −1
(SSR+SSE)/(n-1)SSR + SSEn-1Tổng cộng
(B)n-k-1Do Sailệch
(A) / (B)
(A)kDo hồi qui
FTrung bình bìnhphương
Tổng số bìnhphương
Độ tựdo
Nguồnbién thiên
362
Phân tích biến lượng (Analysis of variance) [3]
Cột source: ghi nguồn gốc biến thiên của dữ kiện gồm biếnthiên do trị dự đoán (model) và biến thiên do sai lệch giữa trịdự đoán và trị quan sát (error). Dòng thứ ba ghi tổng cộngbiến thiên (Total).
Kềt luận về phân tích biến lượng như sau:
Nếu F tính < Fbảng ở độ tự do k và n-k-1 : chấp nhận giảthiết Ho: R2 = 0, biến thiên do sai lệch chiếm tỉ trọng lớn do với biến thiên do tương quan. R2 của hồi qui không thật sựtồn tại về mặt thống kê ở mức ý nghĩa a = 0,05 hoặc 0,01.
363
Phân tích biến lượng (Analysis of variance) [4]
Nếu F tính > Fbảng ở độ tự do k và n-k : bác bỏ giả thiết Ho, chấpnhận HA: R2 <> 0, biến thiên do sai lệch chiếm tỉ trọng nhỏ so vớibiến thiên do tương quan. R2 của hồi qui thật sự tồn tại với xácxuát 1-a chứng tỏ tổ hợp tuyến tính của k yếu tố góp phần có ý nghĩa vào sự biến thiên của biến phụ thuộc Y.
R-squared = 0.952409 : Hệ số xác định, bình phương hệ sốtương quan.R-squared (Adj. for d.f.) = 0.949524 là trị R2 đã hiệu chỉnh cho sốbiến độc lập trong hồi qui. Không như R, R2 hiệu chỉnh có thểgiảm nếu một biến độc lập đưa vào không góp phần gia tăng ý nghĩa cho mô hình dự đoán.Stnd. error of est. = 0.0910703: Sai tiêu chuẩn của trị dự đoán choY,
Sai số tiêu chuẩn = Durbin-Watson statistic = 0.797618 Trị thốngkê Durbin-Watson (dùng ở Hoa Kỳ)
364
3.3.4) Vẽ đồ thị các trị dự đoán:(Plot predict values)
Statgraphics vẽ trục tung biểu thị các trị quan sát, trục hoànhbiểu thị các trị dự đoán tương ứng.
Cách đánh giá: lấy đường chéo làm chuẩn, nếu các điểmcàng phân bố trùng với đường chéo, hồi qui càng thể hiệnsự dự đoán tốt các trị quan sát. Nếu các điểm trên đồ thịcàng xa đường chéo, hàm hồi qui không thể dùng dự đoántrị quan sát.
365
3.3.5) Tính tổng bình phương điều kiện: (Conditional sum of squares) hay xét ý nghĩa các biến độc lập
Trình bày bảng phân tích biến lượng bổ sung, dùng trắcnghiệm F để kiểm tra ý nghĩa của từng biến độc lập trongviệc tham gia riêng phần vào hồi qui:
Further ANOVA for Variables in the Order Fitted --------------------------------------------------------------------------------Source Sum of Squares DF Mean Sq. F-Ratio P-value--------------------------------------------------------------------------------BAI1.Tt 5.47721007 1 5.4772101 660.40 .0000BAI1.Tt2 .00005881 1 .0000588 .01 .9343--------------------------------------------------------------------------------Model 5.47726887 2
366
Tính tổng bình phương điều kiện: (Conditional sum of squares) hay xét ý nghĩa các biến độc lập [2]
Nếu F tính < Fbảng ở độ tự do k và n-k-1 : chấp nhận giảthiết Ho: Ri2 = 0, biến thiên do sai lệch chiếm tỉ trọng lớn do với biến thiên do tương quan. Ri2 của biến độc lập i khôngthật sự tồn tại ở mức ý nghĩa a = 0,05 hoặc 0,01, có thể bỏbiến i mà không ảnh hưởng đến ý nghĩa của hệ số tươngquan toàn phần.
Nếu F tính > Fbảng ở độ tự do k và n-k : bác bỏ giả thiết Ho, chấp nhận HA: Ri2 <> 0, biến thiên do sai lệch chiếm tỉ trọngnhỏ so với biến thiên do tương quan. Ri2 của biến i thật sựtồn tại với xác xuát 1-a chứng tỏ sự tham gia của biến i vàohồi qui góp phần có ý nghĩa vào hồi qui chung.
367
3.3.6) Vẽ đồ thị sai biệt (Plot residuals):
Đồ thị sai lệch có thể vẻ theo 3 cách:
+ Vẻ theo trị dự đoán (predict values) (dùng đánh giá chungvề xu hướng dự đoán, lệch âm hay lệch dương)
+ Vẻ theo chỉ số thứ tự điểm quan sát (index) (Dùng nhìnthấy các điểm gây sai lệch trong hồi qui)
+ Vẻ sai lệch riêng phần theo từng biến (Variable) ( Dùngđánh giá tác dụng của từng biến trong hồi qui chung)
Cách đánh giá:
Đường thẳng ngang diển đạt trị của sai lệch = 0.. Nếuhồi qui biểu thị tốt biến thiên của Y, sự phân bố điểm trên đồthị phân bố đều hai bên đường thẳng ngang một cách ngẫunhiên.
368
3.3.7) Tổng hợp các thông tin về sai biệt (Summarize residuals)
Residual Summary --------------------------------------------------------------------------Number of observations = 36 (0 missing values excluded): Số đơn vị quan sátResidual average = 1.85037E-1 : Trung bình của sai biệtResidual variance = 8.2938E-3 : Biến lượng của sai biệtResidual standard error = 0.0910703 :Sai số tiêu chuẩn của sai lệchCoeff. of skewness = 0.861599 standardized value = 2.11048 (Hệ số độ nhọn thực tế) (Hệ số độ nhọn qui chuẩn)Coeff. of kurtosis = 1.32211 standardized value = 1.61925 (Hệ số độ lệch thực tế) (Hệ số độ lệch qui chuẩn)
369
3.3.8) Vẽ đồ thị ảnh hưởng của các thành phần: (Component effects plot)
Trục tung: Sai lệch tạo ra do biến độc lập muốn xem xét, cóthể vẻ cho tất cả các biến độc lập đã khai báo.Trục hoành: Trị của biến độc lập đang xét,Đường thẳng trên đồ thị được định nghĩa bởi: y= Bj (Xij - Xj); x= XijBj: hệ số hồi qui của biến j; Xij: trị của biến j tương ứng vớiđiểm Xi của biến j. Đồ thị này hữu ích trong việc đánh giá tầm quan trọng tươngđối của sai lệch về phương diện giải thích hiệu lực của biếnsố.Đường thẳng thể hiện trị của sai lệch = 0 tương ứng vớitừng trị của biến đang xem xét.Cách đánh giá: Nếu các điểm phân bố đều hai bên đườngthẳng , biến đang xem xét góp phần tốt vào hồi qui dự đoánY. Nếu phân bố không đều, biến độc lập không thể hiện tốttrong việc tham gia dự đoán Y.
370
3.3.9) Vẽ đồ thị xác xuất (Probability plot):Dùng để đánh giá sự thích hợp củ mô hình hồi qui. Đồ thịtrình bày đồ thị xác xuất chuẩn cho phân bố của các sai lệch.Cách đánh giá: nếu các điểm chập với đường thẳng chuẩn, phân bố của sai lệch đồng nhất vơi phân bố chuẩn. Nếu cácđiểm phân bố tách rởi đường thẳng chuẩn, phân bố của sailệch phông phù hợp với phân bố chuẩn, hàm hồi qui sẽ chora các dự đoán chệch.
3.3.10) Correlation matrix : Ma trận tương quan:
Hiển thị các hệ số tương quan Pearson cho các hệ số được ước lượng trong mô hình hồi qui.Confidence intervals: Hiển thị khoảng tin cậy cho các ước lượng hệ số ở mức ý nghĩa mà bạn đã chọn trước khi phântích. (90, 95, 99 %)
371
3.3.11) Vẽ đồ thị giới hạn tin tưởng (Interval plot)
Vẽ các khoảng tin cậy cùng trị dự đoán theo 3 cách nhủphần vẽ sai lệch.
Trong từng phần kết quả xử lý trên đây, chúng ta có thể lưutrữ trên đĩa hay in ra máy in để dùng lâu dài:
+ Đối với bảng, dạng văn bản: bấm F4 hoặc F5 lưu trên đĩa hoặc in ra máy in,
+ Đối với đồ thị: bấm Esc , hoặc Bấm F4 để: in ra máy in, inra máy vẻ (plotter) , lưu dưới dạng tập tin Meta, hay trở về đồ thị, hoặc bấm F3 để lưu đồ thị dưới dạng tập tin đồ thị độc lập, dùng để ghép nhiếu đồ thị vào một trang giấy.
.
372
Vẽ đồ thị giới hạn tin tưởng (Interval plot) [2]
Statgraphics cũng cung cấp phương pháp lưu kết quả(Save results), bao gồm:
+ Các trị quan sát, (Observed values),
+ Các trị dự đoán (Fitted values),+ Các trị sai lệch (residuals), Các trị sai lệch đã chuẩn hóa(standardized residuals),
+ các trị dự báo ( Forecasts),
+ Các trị X chuyển đổi nghịch đảo,+ Các hệ số hồi qui đã ước lượng,
+ Matrận tương quan, tên các biến,
+ Ma trận của các biến độc lập và các chỉ tiêu thống kê khác.
373
11/01/06 12:34:04 AM Page 1
Model fitting results for: HOIQUI.SS ----------------------------------------------------------------------------------------------------------Independent variable coefficient std. error t-value sig.level----------------------------------------------------------------------------------------------------------CONSTANT 132.321429 16.84666 7.8545 0.0000HOIQUI.Time -0.967857 0.145533 -6.6504 0.0001HOIQUI.DoSau 7.125 3.334579 2.1367 0.0613----------------------------------------------------------------------------------------------------------R-SQ. (ADJ.) = 0.8097 SE= 18.863230 MAE= 14.595238 DurbWat= 1.238 Previously: 0.0000 0.000000 0.000000 0.000 12 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Vd: Kết quả xử lý lập mô hình tuyến tính đa tố
374
Multiple Regression--------------------------------------------------------------------------------Dep. var.: HOIQUI.SS
Ind. vars.: HOIQUI.Time Analysis of variance Phân tích biến lượngHOIQUI.DoSau Conditional sums of squares Tổng bình phương sai biệt
Plot residuals Đồ thị sai biệtSummarize residuals Tóm tắt về sai biệtPlot predicted values Probability plot Vẽ đồ thị xác xuất sai biệt
Component effects plot Vẽ đồ thị ảnh hưởng từng biếnđộc lập
Influence measures Các số đo ảnh hưởngCorr. mat. of est. coeffs. Ma trận tương quanGenerate reports Kết xuất báo cáoConfidence intervals Khoảng tin cậyInterval plots Đồ thị khoảng tin cậyMake predictions Thực hiện dự đoánSave results Lưu kết quả
Weights:Constant: Yes Vertical bars: No Conf. level: 95
Vd: Các mục lệnh hiển thị kết quả hồi qui
375
Analysis of Variance for the Full Regression --------------------------------------------------------------------------------------------------------Source Sum of Squares DF Mean Square F-Ratio P-value--------------------------------------------------------------------------------------------------------Model 17361.9 2 8680.93 24.3969 .0002Error 3202.39 9 355.821 --------------------------------------------------------------------------------------------------------Total (Corr.) 20564.3 11
R-squared = 0.844274 Stnd. error of est. = 18.8632R-squared (Adj. for d.f.) = 0.809668 Durbin-Watson statistic = 1.23818
Vd: Phân tích ANOVA cho toàn phương trình hồi qui
376
11/01/06 12:35:03 AM Page 1Further ANOVA for Variables in the Order Fitted
----------------------------------------------------------------------------------------------Source Sum of Squares DF Mean Sq. F-Ratio P-value----------------------------------------------------------------------------------------------HOIQUI.Time 15737.3571 1 15737.357 44.23 .0001HOIQUI.DoSau 1624.5000 1 1624.500 4.57 .0613----------------------------------------------------------------------------------------------Model 17361.8571 2
Vd: Phân tích ANOVA cho từng biến độc lập
377
Residual Summary --------------------------------------------------------------------------------Number of observations = 12 (0 missing values excluded) Residual average = -3.4639E-14 Residual variance = 355.821 Residual standard error = 18.8632
Coeff. of skewness = 0.475702 standardized value = 0.672744 Coeff. of kurtosis = -1.23799 standardized value = -0.87539
Durbin-Watson statistic = 1.23818
Vd: Tổng hợp về sai biệt
378
11/01/06 12:36:04 AM Page 195 percent confidence intervals for coefficient estimates
----------------------------------------------------------------------------------------------------Estimate Standard error Lower Limit Upper Limit
CONSTANT 132.321 16.8467 94.2013 170.442HOIQUI.Time -0.96786 0.14553 -1.29717 -0.63855HOIQUI.DoSau 7.12500 3.33458 -0.42040 14.6704-----------------------------------------------------------------------------------------------------
Vd. Khoảng tin cậy cho các tham số của mô hình
379
Make Predictions ----------------------------------------------------------------------------------------------Dependent variable: HOIQUI.SS
Independent variables New independent variable values -------------------------------------+---------------------------------------------------------1: HOIQUI.Time | 2: HOIQUI.DoSau |
Vd. Thực hiện dự báo
Dựa vào mô hình tìm được, STATGRAPHICS giúp tính trị dựbáo biến phụ thuộc từ trị của các biến độc lập mới thu thập
380
Enter variable(s) in which to save the data: File: WORKAREA Variable(s): OBSERVED - Observed values
FITTED - Fitted values RESIDS - Residuals XTXINV - X transpose X inverse COEFF - Estimated coefficients LEVERAGE - Leverages COVM - Covariance matrix
(use cursor keys to scroll)
Vd. Lưu lại các kết quả xử lý
381
4.Lập báo cáo phân tích hồi qui• Mô tả đặc trưng của mô hình• Mô tả ý nghĩa của mối liên hệ về mặt thống kê.
1. Hệ số xác định R2, R2adj - mô hình đã mô tả tốt thựcngiệm như thế nào?
2. Fm,n là ý nghĩa của mối liên hệ?
3. Phương trình hồi qui (Regression equation) (hàmtóan học, với tham số cụ thể) chỉ ra cách tính trị của biếnphụ thuộc (trị dự đóan khi biết các trị của biến độc lập?)
382
• Ví dụ: Ta muốn dự đoán chỉ số IQ • sử dụng kích thước não (MRI), chiếu cao (h) and giới tính (g) là các biến độc lập (đầu vào của môhình)
y = b1x1 + b2x2 + b3x3 + b4x4 + a
• Đơn vị tính:
– IQ: điểm IQ
– Kích thước não (MRI): pixels (trên hình scan của não)
– Chiều cao (h): centimetres
– Giới tính : 0 = nam, 1 = nữ
Ví dụ về Báo cáo kết quả phân tích hồi qui
383
• Kết quả từ STATGRAPHICS cho thấy:
R2 = 21.7% R2adj = 14.6%
Báo cáo kết quả phân tích hồi qui (1)
384
Kết quả từ STATGRAPHICS cho thấy
F 3,33 = 3.051, p < 0.05
Báo cáo kết quả phân tích hồi qui (2)
385
Mô hình dự đoán IQ: y = b1x1 + b2x2 + b3x3 + b4x4 + a
IQ = 1.824x10-4 MRI – 0.316 h + 2.426 g + (-6.411)
= 0.0001824 MRI – 0.316 h + 2.426 g + (-6.411)
= 0.0002 MRI – 0.316 h + 2.426 g - 6.411
Báo cáo kết quả phân tích hồi qui (3)
386
• “Hồi qui chưa mô tả tốt dữ liệu, chỉ mô tả 21.7% của biếnlượng của IQ (R2adj= 14.6%), nhưng mối liên hệ tổngthể là có ý nghĩa về mặt thống kê (F3,33= 3.05, p<0.05).”
• “Giữ các biến số khác không đổi, chỉ số IQ liên hệ nghịchvới chiều cao, mỗi cm tăng lên chiều cao chỉ số IQ giamđi 0.32 điểm.
• IQ liên hệ thuận với kích thước não, IQ tăng 0.0002 điểmkhi não tăng thêm 1 pixel trong hình scan của não. Nữ cóchỉ số IQ cao hơn Nam khoảng 2.43 điểm.
• Tuy nhiên ảnh hưởng của kích thước não (MRI) chỉ tácđộng có ý nghĩa (t ở độ tự do 33 = 2.75, p=0.01)”
Báo cáo kết quả phân tích hồi qui (4)
387
Ghi nhớ: Các giới hạn phạm vi • Phân tích hồi qui không nên dùng dự đoán với
dữ liệu ngoài phạm vi dữ liệu đã thu thập.
• Khi biến lượng thấp trong một biến độc lập cótrong dữ liệu, nó sẽ không có liên hệ với biếnphụ thuộc
Các mô hình có thể dùng để dự đoán , biếnlượng của sai số phải bé, tốt nhất là ít hơn 10% của y
388
Bài thực hành
100150210198140195154135130120số cá thể vi sinh/cm3
N
4,56,37,05,64,86,76,45,64,54,2pHpH
10987654321Mẫuký hiệu
Trong đợt điều tra đánh giá sự liên hệ của độ chua PH của ao đến sự pháttriển của vi sinh vật, trong 10 mẫu thu thập có kết quả như sau:
1- Sử dụng phương pháp hồi quy đa tố phi tuyến tính, anh chị hãy xác lập môhình liên hệ giữa PH nước ao và lượng cá thể vi sinh trên 1 cm3 theo dạng : N = a.(pH)2 + b.(pH) +ctrong đó : N là lượng cá thể vi sinh trên 1 cm3
pH độ chua pH của nước aoa, b. c là các thông số của mô hình cần tìm
Trình bày báo cáo nghiên cứu nói trên theo dàn bài:1- Mục đích nghiên cứu2- Phương pháp nghiên cứu3- Các kết quả xử lý thống kê và các nhận xét kết luậnChiều hướng liên hệ pH/N, số vi sinh vật phát triển tối đa ở pH là bao nhiêu?
389
Bài 8PHƯƠNG PHPHƯƠNG PHÁÁP CHP CHỌỌN N BiBiẾẾNN
TTỪỪNG BƯNG BƯỚỚC VC VÀÀCHCHỌỌN MÔ HÌNH HN MÔ HÌNH HỒỒI QUI I QUI
TUYTUYẾẾN TN TÍÍNH ĐA TNH ĐA TỐỐ TTỐỐI ƯU I ƯU
390
1. Phương pháp chọn biến từng bước (stepwise variable selection)
2. Phương pháp chọn lựa mô hình tuyến tính đa tố tối ưu.
3. Phương pháp chuyển đổi hồi qui phi tuyến tính thành tuyếntính
4. Bài luyện tập
Nội dung bài 8
391
1. Phương phápchọn biến từng bước
(stepwise variable selection)
392
1. Khái niệm Chọn biến từng bước (stepwise variable selection)
• Trong môi trường, một yếu tố hệ quả (biến phụ thuộc) thay đổi phụ thuộc vào nhiều yếu tố.
• Có những yếu tố có liên hệ chặt chẻ và chi phối sự biếnđổi của biến phụ thuộc nhiều hơn.
• Statgraphics cung cấp phương pháp “chọn biến từngbước giúp bạn chọn và kiểm soát biến độc lập trong quátrình xác lập mô hình hồi qui.
• Phương pháp này áp dụng trong trường hợp có nhiềubiến độc lập, có tác động ít nhiều với sự thay đổi củabiến phụ thuộc mà bạn không rõ mối liên hệ nào có ý nghĩa hơn.
393
• Phương pháp luận chọn biến từng bước
Lựa chọn và lần lượt đưa vào (Forward selection)Có danh sách biến độc lập , chọn biến phù hợp đưa
vào mô hình hồi qui .
– Bắt đầu với việc đưa một biến vào mô hình, kiểm tramối liên hệ và ý nghĩa của biến trong mô hình bằngtrắc nghiệm F. Nếu biến có nghĩa, sẽ được giữ lại. Sau đó tiếp tục đưa vào mô hình biến thứ hai, tiếp tụctrắc nghiệm lại ý nghĩa của biến trước đó lẫn biếnmới, biến nào có ý nghĩa sẽ được giữ lại. Các bướcchọn biến sẽ được thực hiện cho đến khi kiểm tra tấtcả các biến
394
– Lựa chọn và lần lượt loại ra (Backward elimination)
• Lập trước mô hình với 1 danh sách biến độc lập, chọnbiến không phù hợp đưa ra khỏi mô hình hồi qui .
• Bắt đầu với tất cả các biến đều đưa vào mô hình hồi qui. Statgraphics sẽ loại trừ các biến kém ý nghĩa thống kê. Việc đưa vào, loại ra có thể lập lại tùy theo mức ý nghĩathống kê của biến khi tham gia tổ hợp biến độc lập.
• Phương pháp chọn biến từng bước có bản chất của hồiqui tuyến tính đa tố.
• Sử dụng nguyên tắc bình phương tối thiểu để tìm môhình hồi tốt nhất.
395
Khai báo dữ kiện:
• + Trong 6 mục đầu tiên, giống như phần hồi qui bộituyến tính (Multiple regression)
• + Các mục cần khi báo khác là:
• Method: bằng phím cách, có thể chọn một trong 3 trường hợp:
• Forward: ban đầu không có, chọn biến đưa vào,
• Backward: Đưa vào trước, chọn loại ra các biến khôngcó ý nghĩa.
• None: Không dùng phương pháp chọn biến, xử lý hồiqui bội tuyến tính (Multiple regression) bìnhthường.(Tất cả biến khai báo đầu đưa vào mô hình, không chọn lọc).
396
Khai báo dữ kiện:
• F-enter: Chọn trị cho tỉ số F (Biến thiên do tương quan/ biến thiến do ngẫu nhiên) làm mức tối thiểu để cho mộtbiến được chấp nhận đưa vào mô hình.
• F- remove: Chọn trị cho tỉ số F làm mức tối đa mà mộtbiến sẽ được giữ lại trong mô hình hồi qui. F-remove phải bé hơn hay bằng F-enter.
• Max.steps: Số bước nhiều nhất phải thực hiện trướckhi dừng quá trình chọn biến
• Control: Cách thức kiểm soát việc đưa biến số vào - ra: • + Automatic: chọn tự động, statgraphics sẽ chọn các
biến có ý nghĩa nhất theo các trị F đã khai báo và đưara kết quả.
397
Khai báo dữ kiện:
• + Sau khi khai báo, bấm F6 để hình thành kết quả.
• + Mannual: cho phép chọn theo ý muốn, có thể đưa vàomô hình các biến độc lập theo ý muốn người nghiêncứu. Khi đưa vào hoặc ra theo ý muốn, phải bấm Enter để statgraphics thi hành lệnh. Sau mỗi lần đưa vàohoặc ra, cần bấm F5 để chọn một trong hai trườnghợp:
• + Force variable into model: Đưa một biến vào tham giamô hình, cần ghi số thứ tự của biến cần đưa vào (sốthứ tự có trong danh sách biến).
• + Remove variable from model: Loại một biến ra khỏimô hình hồi qui bằng cách ghi số thứ tự như trên.
398
Khai báo dữ kiện:
• Sau khi đưa vào hay loại ra, bấm F6 để statgraphicsxác lập mô hình hối qui và đưa ra kết quả.
• Các kết quả trong chọn biến từng buớc cũng tương tựnhư hồi qui bội tuyến tính (Multiple regression), chỉkhác là trong mô hình hồi qui qua chọn lọc biến số chỉcó sự tham gia của các biến có ý nghĩa thống kê.
399
Stepwise Regression --------------------------------------------------------------------------------Dep. var.: HOIQUI.SS
Ind. vars.: HOIQUI.TimeHOIQUI.DoSau
400
Stepwise Selection for HOIQUI.SS ----------------------------------------------------------------------------------------------------------------Selection: Forward Maximum steps: 500 F-to-enter: 4.00 Control: Manual Step: 0 F-to-remove: 4.00
R-squared: .00000 Adjusted: .00000 MSE: 1869.48 d.f.: 11
Variables in Model Coeff. F-Remove Variables Not in Model P.Corr. F-Enter----------------------------------------------------------------------------------------------------------------
1. HOIQUI.Time .8748 32.60352. HOIQUI.DoSau .2811 .8577
401
Regression model results for: HOIQUI.SS
Adjusted Included SSE MSE R-squared R-squared Cp ind. vars.
-----------------------------------------------------------------------------------------------4826.89 482.69 0.76528 0.74181 5.5655 A
18939.75 1893.98 0.07900 0.00000 45.2282 B 3202.39 355.82 0.84427 0.80967 3.0000 AB
------------------------------------------------------------------------------------------------A= HOIQUI.TimeB= HOIQUI.DoSau
402
2. Phương pháp tìmmô hình hồi qui tuyếntính đa tố tối ưu nhất
403
Trong môi trường thường có nhiều yếu tố có liên hệ với biếnphụ thuộcChưa biết biến nào tham gia mô hình có ý nghĩa hơnModel selection của STATGRAPHICS cho phép tìm tổ hợp tốiưu nhất dựa vào các trắc nghiệm tính toán tự động
Tạo ra tất cả các tổ hợp hồi qui có thể có từ một số biến độclập dùng để dự đoán biến phụ thuộc. STATGRAPHICS sẽtính Tổng sai số (SE), Trung bình sai số (MSE), Hệ số xácđịnh R2,R2 hiệu chỉnh, hệ số Mallow Cp cho mỗi tổ hợp biến.
Ý nghĩa của việc tìm mô hình tuyến tính đa tố tối ưu
404
Các mục điền vào:
Dep. Var. - Biến số phụ thuộc (cần dự đoán)
Ind. Vars. – Các biến số độc lập (hay ma trận chứa nhiềubiến). Tất cả các biến phải có cùng cỡ.
Min. no. of ind. vars. in subset models – Số lượng tổ hợpbiến tối thiểu mong muốn tìm.
Max. no. of ind. vars. in subset models – Số lượng tổ hợpbiến tối đa mong muốn tìm.
Force select variables into model – Cho phép thêm hay bớt bất kỳ biến độc lập nào vào từ mô hình đã được tính toán
Method: Tối đa R2 hiệu chỉnh hay tối thiểu hệ số Mallow Cp
Khai báo biến để tìm mô hình tuyến tính đa tố tối ưu nhất
405
Khai báo biến để tìm mô hình tuyến tính đa tố tối ưu nhất
406
Kết quả các tổ hợp biến độc lập
407
Best subsets Tổ hợp biến tốt nhất
Plot adjusted R-squared Vẽ đồ thị R2 hiệu chỉnh
Plot Mallows' Cp Vẽ đồ thị hệ số Mallow Cp
Plot MSE Vẽ đồ thị Trung bình sai tiêu chuẩn
Plot R-squared Vẽ đồ thị hệ số tương quan
Save results Lưu lại kết quả
Các kết quả có thể kết xuất
408
Kết quả tìm tổ hợp biến độc lập tối ưu nhất
409
3. Biến đổi tương quanphi tuyến tính
thành tuyến tính
410
HỒI QUI VÀ TƯƠNG QUAN PHI TUYẾN TÍNH ĐA TỐ (MULTIPLE NONLINEAR)
Ap dụng trong trường hợp liên hệ giữa biến phụ thuộc Y và k biến độc lập X1, X2, ..., Xk, (k >1)
Liên hệ phi tuyến tính đa biến xảy ra khi :
+ Ít nhất một trong các biến độc lập thể hiện liên hệ phi tuyếntính với biến phụ thuộc Y. Ví dụ, Với 2 biến độc lập X1 vàX2. Liên hệ phi tuyến tính xuất hiện khi một hoặc cả haibiến thể hiện liên hệ phi tuyến tính với Y. Nếu cả hai biếnđều liên hệ với Y theo lũy thừa, phương trình hồi qui phi tuyến tính thể hiện cho Y là:
Y = a + b1.X1 + b2.X2 + b3.X2 + b4.X22
411
5.6. HỒI QUI VÀ TƯƠNG QUAN PHI TUYẾN TÍNH ĐA TỐ(MULTIPLE NONLINEAR)
+ Có ít nhất hai biến độc lập có quan hệ tương hổ lẫn nhau. Ví dụ: Với 2 biến độc lập X1 và X2
, mỗi biến đều tác động đến Y theo kiểu tuyến tính, phươngtrình hồi qui đa biến sẽ là phi tuyến tính nếu ảnh hưởngcủa yếu tố X1 lên Y thay đổi theo mức độ thứ bậc của biếnX2 và ngược lại.
Trong trường hợp đó, phương trình hồi qui phi tuyến tính đabiến có thể diển đạt như sau:
Y = a + b1.X1 + b2.X2 + b3.X1.X2 .
Số hạng b 3.X1.X2 .biểu thị cho sự tác động lẫn nhau của haibiến.
412
5.6. HỒI QUI VÀ TƯƠNG QUAN PHI TUYẾN TÍNH ĐA TỐ(MULTIPLE NONLINEAR)
• + Cả hai trường hợp trên đây đều xảy ra đồng thời: có ítnhất một trong các biến độc lập có liên hệ phi tuyến tínhvới Y, và ít nhất hai biến độc lập có liên hệ tương hổ. Phương trình hồi qui sẽ có dạng:
• Y = a + b1.X1 + b2.X12 + b3.X2 + b4.X2
2 + b5.X1.X2
• Hoặc dạng tổng quát:
• Y = a + b1.X1 + b2.X12 + b3.X2 + b4.X2
2 + b5.X1.X2 + b6.X1
2.X2 + b7. X1.X22 + b8.X1
2 .X22
• Ngoài các dạng trên, hồi qui phi tuyến tính đa biến còncó những dạng chứa các liên hệ có những tính chất củahàm logarit, hàm mủ, hàm hyperbol. .
413
3.1) Chuyển đổi tương quan phi tuyến tính đơn tố thành tuyếntính = biến đổi biến số
Y e X= α β. .
Y X= α β.
1Y
X= +α β .
YX
= +αβ
YX
= +
−
αβ 1
Y ea b X= + . Y’ = a + b.Xln: logarit neper(tự nhiên)
Y = ln Y
Y’ = a + b.X’X = 1/ XY’ = 1/Y
Y = a + b.X’X = 1/ X
Y’ = a + b.XY’ = 1/Y
Y’ = a’ + b'.Xb’ = log blog:log.thập
phân
a’ = log aY’=logY
Y’ = a’ + b.Xln: logaritneper (tự
nhiên)
a’ = ln ae:cơ số e (Neper)
Y’ = ln Y
Dạng tuyếntính
Thực hiện biến đổiDạng phi tuyến tính
414
• Trong nghiên cứu môi trường, một vài liên hệ phi tuyếntính có thể được tuyến tính hóa bằng cách tạo ra một hay nhiều biến số mới sao cho không còn thành phần phi tuyến tính trong hàm nguyên thủy. Ví dụ, trường hợp hàmđa thức bậc k:
• có thể tạo ra k biến Z1, Z2, . . . .,Zk để hình thànhphương trình tuyến tính dưới dạng: (*)
• trong đó :
• Z1 = X , Z2 = X2 ,. . . . ., Zk = Xk.
• Hàm (*) có dạng hồi qui tuyến tính đa biến, từ đó, có thểáp dụng phương pháp hồi qui tuyến tính.
3.1) Chuyển đổi tương quan phi tuyến tính đơn tố thành tuyếntính = Tạo ra biến số mới
415
• Ví dụ1: Tuyến tính hóa phương trình Cobb-Douglass:
• Thay thế các biến mới:
• Y’ = log Y ; a’ = log a ; b'i = log bi (i= 1,2 .... k) ; khi đó dạng tuyến tính sẽ thành:
• Y’ = a’ + b’1.X1 + b’2.X2 + . . . . + b’k.Xk
• Ví dụ2: Y = a + b1.X1 + b2.X2 + b3.X1.X2 . ĐặtZ = X1.X2 dạng tuyến tính là:
• Y = a + b1.X1 + b2.X2 + b3.Z
3.1) Chuyển đổi tương quan phi tuyến tính đơn tố thành tuyếntính = Tạo ra biến số mới [2]
416
Bài thực hành
100150210198140195154135130120số cá thể vi sinh/cm3
N
4,56,37,05,64,86,76,45,64,54,2pHpH
10987654321Mẫuký hiệu
Trong đợt điều tra đánh giá sự liên hệ của độ chua PH của ao đến sự pháttriển của vi sinh vật, trong 10 mẫu thu thập có kết quả như sau:
1- Dùng phép biến đổi biến số , sử dụng phương pháp chọn biến từng bước vàchọn mô hình tối ưu nhằm xác lập mô hình liên hệ giữa PH nước ao và lượngcá thể vi sinh trên 1 cm3. trong đó : N là lượng cá thể vi sinh trên 1 cm3
pH độ chua pH của nước aoa, b. c là các thông số của mô hình cần tìm
Trình bày báo cáo nghiên cứu nói trên theo dàn bài:1- Mục đích nghiên cứu2- Phương pháp nghiên cứu3- Các kết quả xử lý thống kê và các nhận xét kết luậnChiều hướng liên hệ pH/N, số vi sinh vật phát triển tối đa ở pH là bao nhiêu?
417
Bài 9NẮN MÔ PHỎNG
VÀ DỰ BÁOXỬ LÝ DỮ LIỆU
QUAN TRẮC MÔI TRƯỜNG
418
1. Nhu cầu ứng dụng phương pháp nắn mô phỏng và dựbáo trong lĩnh vực môi trường tài nguyên
2. Khái niệm cơ bản của nắn mô phỏng và dự báo3. Công cụ xử lý dữ liệu dạng chuỗi thời gian3.1) Nắn mô phỏng theo hàm mũ Brown (Brown’s
exponential smoothing)3.2) Nắn mô phỏng theo hàm mũ tuyến tính Holt (Holt’s
linear exponential smoothing)3.3) Nắn mô phỏng dữ liệu theo mùa theo phương pháp
Winter WINTER’S SEASONAL SMOOTHING3.4) Phân tích chiều hướng (trend analysis)3.5) Nắn dữ liệu quan trắc theo hàm đa thức (polynomial
smoothing)4. Bài tập thực hành
Nội dung bài học
419
1. NHU CẦU ỨNG DỤNG PHƯƠNG PHÁP NẮN MÔ PHỎNG VÀ DỰ BÁO TRONG LĨNH VỰC MTTN
Quan trắc môi trường thu thập dữ liệu định kỳ theo nhữngquảng thời gian cách đều. Các dữ liệu này, cần phải được xử lýđể biến thành thông tin môi trường, giúp cho dự báo và đưa racác quyết định ngăn ngừa ô nhiễm môi trường.
Nhu cầu ứng dụng các phương pháp nắn mô phỏng và dự báotrong môi trường thường là:+ Dữ liệu khí hậu, thời tiết+ Dữ liệu thủy văn+ Dữ liệu dao động của các chỉ tiêu chất lượng môi trường đất, nước, không khí.
Chương này nghiên cứu các phương pháp xử lý dữ liệu chuỗithời gian và dự báo , giúp xử lý dữ liệu quan trắc môi trường.
420
2. NGUYÊN LÝ, KHÁI NIỆM CƠ BẢN CỦA NẮN MÔ PHỎNG VÀ DỰ BÁO
Một chuỗi thời gian là một bộ số liệu mà thứ tự hay chuỗi thứ tựsố là có ý nghĩa quan trọng ví dụ những yêu cầu quá khứ. Phân tích chuỗi thời gian là phân tích kiểu biểu thị chuỗi thời gian. Khi các kiểu được xác định, chúng có thể được dùng để xâydựng một dự báo:Trung bình chuyển dịch đơn giản (Simple moving average)Trung bình chuyển dịch có trọng số ( Weighted moving average)Nắn mô phỏng theo hàm mũ hay trung bình chuyển dịch có trọng
số theo hàm mũ (Exponential smoothing (exponentially weighted moving average)) bao gồm:Nắn mô phỏng theo hàm mũ với dao động ngẫu nhiên(Exponential smoothing with random fluctuations)Nắn mô phỏng theo hàm mũ với chiều hướng, ngẫu nhiên(Exponential smoothing with random and trend)Nắn mô phỏng theo hàm mũ với thành phần ngẫu nhiên theo mùa(Exponential smoothing with random and seasonal component)
421
Số liệu thu thập nhiều lần ở một nơi với một quảng thời gian cáchđều) .Các dữ kiện này trong thống kê thường gọi là số liệu chuổithời gian (time series). Cần nghiên cứu các phương pháp dự báo (forecasting), nắn môphỏng (smoothing) và các phương pháp phân tích chuổi thời gian(Time series analysis).
Ví dụ về số liệu chuổi thời gian
19,118,916,812,815,714,613,512,911,211,813,212,1
199219901988198619841982198019781976197419721970
422
Nắn mô phỏng (smoothing ) là một phương pháp áp dụng để xửlý với số liệu chuổi thời gian.
Các dữ kiện chuổi thời gian thường biến thiên rất lớn, cần phảinắn mô phỏng sao cho tối thiểu hóa các tác động bất thường củacác biến thiên ngẫu nhiên.
Kỹ thuật nắn mô phỏng của STATGRAPHICS cho phép ta ướclượng một hàm số hay chuẩn bị số liệu cho các phương phápthống kê khác.
Sau khi nắn mô phỏng, số liệu đã qua nắn có thể dùng vào cácphân tích thống kê khác.
Mục đích của nắn mô phỏng là loại bỏ các trị bất thường trongchuổi số liệu, tránh những kết luận sai do các trị bất thường.
423
3. CÔNG CỤ XỬ LÝ DỮ LiỆUQUAN TRẮC THEO THỜI GIAN
424
3.1) Nắn mô phỏng theo hàm mũ Brown (Brown’s exponential smoothing)Phương pháp này sử dụng kỹ thuật nắn mô phỏng đơngiản (simple smoothing), hoặc mô phỏng tuyến tính (linear smoothing) hoặc nắn mô phỏng bậc hai (quadratic) để kếtxuất :
+ Các chỉ tiêu thống kê tổng hợp
+ Số liệu đã được nắn mô phỏng
+ Số liệu dự báo cho từng thời điểm trên cơ sở kết quảnắn mô phỏng,
+ Vẽ đồ thị dự báo
Các chỉ tiêu thống kê tổng hợp gồm có:
+ Sai số trung bình (mean error = M.E) càng bé, mô phỏngvà dự báo càng chính xác.
425
3.1) Nắn mô phỏng theo hàm mũ Brown (Brown’s exponential smoothing) (tt)
+ Sai số trung bình bình phương (Mean square error = M.S.E) và Sai số trung bình tuyệt đối (Mean Absolute error = M.A.E) dùng để so sánh các phương pháp dự báo khácnhau. Một cách tổng quát, M.S.E và M.A.E càng nhỏ , phương pháp dự báo từ dự kiện quá khứ càng tốt.
+ Sai số phần trăm trung bình tuyệt đối (Mean absolute percentage error = M.A.P.E) và sai số phần trăm trungbình (mean percentage error = M.P.E) được tính từ mộttrong các sai số trên đây chia cho số quan sát. Chúng chỉđược thể hiện khi tất cả các số quan sát có tham gia lớnhơn 0.
426
3.2) Nắn mô phỏng theo hàm mũ tuyến tính Holt (Holt’s linear exponential smoothing)
Phương pháp nắn mô phỏng này tương tự như Brown’s Exponential Smoothing, chỉ khác là sử dụng hai hằng số nắnmô phỏng khác nhau: alpha dùng nắn mô phỏng ước lượngcủa bậc và beta dùng nắn ước lượng của chiều hướng thay đổi(estimate of the trend).
Các kết xuất tương tự như phương pháp trên.
Phương pháp nắn dữ liệu quan trắc theo hàm mũ tuyến tínhHolt
Tương tự như phương pháp nắn dữ liệu quan trắc theo hàmmũ Brown nhưng dùng đến 2 hằng số nắn: alpha và beta.
Hệ thống sử dụng alpha để nắn các ước lượng của bậc, dùnghệ số beta để ước lượng chiếu hướng. Phương pháp này chophép bạn gạn lọc các dao động cục bộ trong dữ liệu chuỗi thờigian để giúp bạn có thể dự báo các trị dữ kiện chính xác hơn.
427
3.3) Nắn mô phỏng dữ liệu theo mùa theo phương phápWinter WINTER’S SEASONAL SMOOTHING
Thích hợp cho các chuổi thời gian có nhịp điệu theomùa.
Các kết xuất tương tự như phương pháp trên.
Sử dụng ba hằng số nắn phân biệt nhau để nắn số liệuchuỗi thời gian.
Hệ thống sử dụng alpha để nắn các ước lượng củabậc, dùng hệ số beta để ước lượng chiều hướng tuyếntính và hằng số nắn Gamma để nắn yếu tố nhân bộitheo mùa. Qui trình này thích hợp với các dữ liệu chuỗithời gian theo mùa.
428
3.4) Phân tích chiều hướng (trend analysis)
Cho phép mô phỏng số liệu chuổi thời gian theo đường thẳng(tuyến tính), đường cong hàm parabol (quadratic) hay hàm mũ(exponential power curve) hay S-curve.Các hàm tương ứng như sau:đường thẳng (tuyến tính): Y - a + b. tđường cong hàm parabol (quadratic): Y = a + b.t + c.t2hàm mũ (exponential power curve): Z = Exp( a + b.t)S-curve: Z = Exp (a + b / t)Các kết xuất cũng gồm: các chỉ tiêu thống kê, Vẽ đồ thị dự báo, lực trị dự báo và lưu trị nắn mô phỏng.Phương pháp phân tích chiều hướng dữ liệuLập mô hình diễn đạt dữ liệu chuỗi thời gian theo một trong 4 dạng:Tuyến tính (Linear) Z(t) = a + btBậc 2 (Quadratic) Z(t) = a + bt + ct^2 Hàm mũ (Exp. Power) Z(t) = exp (a + bt) Hàm S (S-Curve) Z(t) = exp (a + b/t).
429
3.5) Nắn dữ liệu quan trắc theo hàm đa thức (polynomial smoothing)
Nắn các biến chuỗi thời gian bằng một đa thức. Hệ thốngsẽ nắn dữ liệu chuỗi thời gian bằng một đa thức bậc k bằng phương pháp bình phương tối thiểuHệ thống STATGRAPHICS sẽ vẽ ra số liệu gốc và đườngcong nắn.Nắn dữ liệu bằng đa thức có thể dùng khi chúng ta cần xâydựng mô hình mô phỏng.Từ một mô hình đã nắn của dữ liệu thực, chúng ta có thểkết xuất ra các trị đầu vào mà với các trị đó, ta khảo sátđộng thái đáp ứng của hệ thống. Nắn bằng đa thức cũngđược dùng trong lĩnh vực điện tử để phân biệt một tín hiệuvới tiếng ồn.Khảo sát sự phù hợp giữa đường cong đã nắn và vẽ dữliệu chuỗi thời gian nhằm xác định bậc của đa thức mà tacần tìm cho mô hình chính xác của dữ liệu.
430
Số liệu theo dõi độ mặn nước trên sông Hậu giang tại bến Ninh Kiềuhàng tháng được ghi lại như sau:
4,23,213,254,525,846,927,188,4210,29,215,735,721998
3,843,153,143,114,525,826,27,2112,48,615,855,341997
4,03,073,823,653,845,178,878,3114,87,535,415,441996
3,412,93,203,844,635,186,558,2212,56,525,605,811995
4,022,803,013,124,516,217,189,5810,55,915,815,621994
121110987654321Tháng
Sử dụng các phương pháp- Brow’ s Exponential Smoothing- Holt’ s Linear Exponential Smoothing
với các kỷ thuật:+ nắn mô phỏng đơn giản ( Simple Smoothing )+ mô phỏng tuyến tính ( Linear Smoothing )+ mô phỏng bậc 2 ( Quadratic )
4. Vấn đềthực hành: