chương 5: nội dung cơ bản của phân tích hồi qui · pdf fileđường...
TRANSCRIPT
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 1
CHƯƠNG 5
NỘI DUNG CƠ BẢN CỦA
PHÂN TÍCH HỒI QUY:
MÔ HÌNH HAI BIẾN @ Phùng Thanh Bình, MB
Để xây dựng một mô hình cho một hiện tượng kinh tế, các nhà kinh tế lượng sử sụng
một kỹ thuật thống kê hết sức quan trọng là phân tích hồi quy. Mục đích của chương
này là giới thiệu các vấn đề cơ bản của phân tích hồi quy dưới dạng mô hình hồi quy
tuyến tính đơn giản nhất, đó là mô hình hai biến. Cụ thể, chương này sẽ tập trung làm
rõ các nội dung sau đây:
• Ý nghĩa của phân tích hồi quy
• Phương trình hồi quy tổng thể
• Đường hồi quy tổng thể
• Khái niệm hạn nhiễu ngẫu nhiên
• Phương trình hồi quy mẫu
• Đường hồi quy mẫu
• Khái niệm phần dư
• Khái niệm hồi quy tuyến tính
• Hồi quy đơn và hồi quy bội
Ý NGHĨA HỒI QUY
Có rất nhiều cách giải thích khác nhau về phân tích hồi quy1, nhưng chung quy lại
chúng ta có thể hiểu phân tích hồi quy là việc nghiên cứu mối quan hệ giữa một biến,
được gọi là biến phụ thuộc với một hay nhiều biến, được gọi là biến độc lập hay biến
giải thích. Chẳng hạn, ta có thể quan tâm đến việc nghiên cứu mối quan hệ giữa lượng
cầu nước đóng chai Aquafina tại TP.HCM theo giá bán, thu nhập của người tiêu dùng,
giá của các hàng hóa thay thế, số người trong hộ gia đình, và chất lượng nước máy.
Hay, ta có thể quan tâm đến việc tìm hiểu doanh số của một nhãn hiệu thời trang có
mối quan hệ như thế nào với giá bán, chi phí quảng cáo, và trình độ đội ngủ bán hàng.
Hoặc, ta muốn xem xét mối quan hệ giữa chỉ số giá chứng khoán VN-Index với các
biến kinh tế vĩ mô như GDP, lạm phát, lãi suất, và cung tiền. Hoặc ước lượng hệ số
bêta trong mô hình định giá tài sản vốn (CAPM), v.v. Nói chung, như đã trình bày ở
chương 1, trong tất cả các trường hợp, để xác định mô hình kinh tế lượng thích hợp,
trước hết người nghiên cứu phải dựa trên cơ sở lý thuyết kinh tế nền tảng để xác định
biến phụ thuộc và các biến giải thích thích hợp. Để đơn giản, từ đây ta gọi Y là biến
1 Regression analysis
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
2
phụ thuộc và X là biến độc lập. Nếu có nhiều biến giải thích, ta sẽ ký hiệu các biến
này là X2, X3, X3, … Ngoài ra, nếu mô hình có các biến giải thích là loại biến định
tính ta sẽ ký hiệu các biến này là D2, D3, …
Điều quan trọng cần lưu ý là, mặc dù phân tích hồi quy là xem xét mối quan hệ
giữa một biến phụ thuộc với một hoặc một số biến độc lập, nhưng không nhất thiết
hàm ý phân tích mối quan hệ nhân quả, trong đó biến giải thích là nguyên nhân và
biến phụ thuộc là kết quả. Nếu có tồn tại mối quan hệ nhân quả, ta phải biện minh rõ
ràng trên cơ sở lý thuyết kinh tế.
Phân tích hồi quy có thể có một trong các mục tiêu sau đây:
• Ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc
các biến giải thích.
• Kiểm định các giả thiết về bản chất của sự phụ thuộc giữa biến độc lập và biến
phụ thuộc. Lưu ý, các giả thiết phải được dựa trên một cơ sở lý thuyết kinh tế
nền tảng. Ví dụ, ta muốn kiểm định xem liệu ngành sản xuất cao su ở Việt Nam
có hiệu quả kinh tế không đồi theo quy mô không, hay hệ số bêta của ngành
phần mềm máy tính có phải bằng 2 hay không, v.v.
• Dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các
biến giải thích. Như sẽ được trình bày ở cuối chương, có hai loại dự báo bằng
phân tích hồi quy: dự báo giá trị trung bình của biến phụ thuộc khi biết giá trị
của biến giải thích và dự báo một giá trị cá biệt của biến phụ thuộc khi biết giá
trị của biến giải thích. Dựa vào suy diễn thống kê ta không chỉ có thể dự báo
điểm mà còn có thể dự báo khoảng.
• Kết hợp các mục tiêu trên trong cùng một nghiên cứu.
ĐỊNH NGHĨA HÀM HỒI QUY TỔNG THỂ
Giả sử ta xét đường cầu nước khoáng đóng chai tại một ốc đảo xinh đẹp chỉ có vỏn
vẹn 55 hộ gia đình. Qua khảo sát ta có kết quả như trong Bảng 5.1:
BẢNG 5.1: Đường cầu nước đóng chai tại ốc đảo với 55 hộ gia đình
Giá
X
Lượng cầu
Y
Số người tiêu
dùng
Lượng cầu trung
bình (YXi)
1 45, 46, 47, 48, 49, 50, 51 7 48
2 44, 45, 46, 47, 48 5 46
3 40, 42, 44, 46, 48 5 44
4 35, 38, 42, 44, 46, 47 6 42
5 36, 39, 40, 42, 43 5 40
6 32, 35, 37, 38, 39, 42, 43 7 38
7 32, 34, 36, 38, 40 5 36
8 31, 32, 33, 34, 35, 36, 37 7 34
9 28, 39, 32, 34, 36 5 32
10 29, 30, 31 3 30
Tổng 55
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 3
Các con số trong Bảng 5.1 có nghĩa như sau. Tại mức giá bằng X = 1 có bảy người
tiêu dùng sẵn lòng mua nước khoáng với các lượng Y tương ứng lần lượt là 45, 46, 47,
48, 49, 50, và 51 đơn vị, và trung bình là 48 đơn vị [E(YX=1)]. Tại mức giá bằng 2
có năm người tiêu dùng sẵn lòng trả các lượng Y tương ứng lần lượt là 44, 45, 46, 47,
và 48, và trung bình là 46 đơn vị [E(YX=2)]. Tại mức giá bằng 6 có bảy người tiêu
dùng sẵn lòng trả các lượng Y tương ứng lần lượt là 32, 35, 37, 38, 39, 42, và 43, và
trung bình 38 đơn vị [E(YX=6)]. Tại mức giá bằng 10 có ba người tiêu dùng sẵn lòng
trả các lượng Y tương ứng lần lượt là 29, 30, và 31, và trung bình là 30 đơn vị
[E(YX=10)]. Giải thích tương tự cho các mức giá khác và ta sẽ có các giá trị trung
bình của Y cho từng mức giá, được gọi là giá trị kỳ vọng có điều kiện, như ở cột cuối
của Bảng 5.1. Nói chung, tại mỗi mức giá, lượng cầu có khác nhau đáng kể, nhưng
trung bình, khi giá tăng thì lượng cầu giảm. Điều này phản ánh đúng quy luật cầu. Các
con số trong Bảng 5.1 có thể được biểu diễn lại một cách hệ thống hơn như sau:
BẢNG 5.2: Giá trị kỳ vọng của lượng cầu tại mỗi mức giá
1 2 3 4 5 6 7 8 9 10
Lượng cầu Y
tại mỗi mức
giá
45
46
47
48
49
50
51
44
45
46
47
48
-
-
40
42
44
46
48
-
-
35
38
42
44
46
47
-
36
39
40
42
43
-
-
32
35
37
38
39
42
43
32
34
36
38
40
-
-
31
32
33
34
35
36
37
28
29
32
34
36
-
-
29
30
31
-
-
-
-
Tổng 336 230 220 252 200 266 180 238 160 90
E(YX) 48 46 44 42 40 38 36 34 32 30
Lưu ý, tại mỗi mức giá, lượng cầu là một biến ngẫu nhiên nên để tính giá trị kỳ vọng
có điều kiện của lượng cầu ta phải tính xác xuất có điều kiện tương ứng với từng
lượng cầu.
Bây giờ sử dụng tập tin Chapter5.1.wf1 để vẽ đường biểu diễn mối quan hệ giữa
biến phụ thuộc Y, giá trị kỳ vọng có điều kiện của biến phụ thuộc E(YXi) theo mỗi
giá trị cố định của biến giải thích Xi. Sau khi mở tập tin, chọn và mở dạng nhóm ba
biến Y, EY và X, ta sẽ thấy xuất hiện một bảng tính như sau:
X Y
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
4
Từ bảng tính này, chọn View/Graph, ta sẽ thấy xuất hiện một hộp thoại Graph
Options. Trong hộp thoại này, ở phần loại đồ thị (graph type), ta chọn scatter, và phần
chi tiết (details), ta chọ dạng đường thẳng đi qua các điểm trung bình (fit lines) là
dạng đường hồi quy (regression line). Ta sẽ có kết quả như sau:
HÌNH 5.1: Đường hồi quy tổng thể1
25
30
35
40
45
50
55
0 2 4 6 8 10 12
Price per bottle of Aquafina
Aquafina quantity demanded
E(Y/X)
Trên đồ thị ta thấy tại mỗi giá trị X có rất nhiều giá trị Y2, và từ các giá trị Y đó ta tính
được giá trị Y trung bình có điều kiện. Đường thẳng đi qua các điểm trung bình có
điều kiện, E(Y/X) được gọi là đường hồi quy tổng thể (PRL)3. Theo Gujarati (2006),
đường hồi quy tổng thể là một đường thẳng cho biết giá trị trung bình của biến phụ
thuộc (lượng cầu nước đóng chai) theo từng giá trị tương ứng của biến độc lập (giá
nước đóng chai) trong toàn bộ tổng thể.
Đường hồi quy tổng thể ở đồ thị trên có vẻ có dạng tuyến tính, nên ta có thể biểu
diễn giá trị trung bình có điều kiện E(YXi) dưới dạng một hàm của Xi như sau:
E(YXi) = B1 + B2Xi (5.1)
Phương trình (5.1) là một phương trình toán của đường thẳng ở đồ thị trên. Trong đó, i
là ký hiệu của hộ gia đình thứ i trong tổng thể. Như vậy, E(Y/Xi) là một hàm của Xi
(trong trường hợp này có dạng tuyến tính). Điều này có nghĩa rằng sự phụ thuộc của Y
1 Lưu ý, trên thực tế ta chỉ ước lượng một ‘đoạn’ nào đó của đường cầu, nên thông thường đường hồi quy
không cắt trục tung. Tuy nhiên, ở đây chỉ với mục đích minh họa, ta có đưa mức giá bằng 0 vào mô hình và
đường hồi quy có cắt trục tung. 2 Như vậy, Y tại mỗi X là một biến ngẫu nhiên và X được xem như có giá trị cho trước 3 Population regression line
Đường hồi quy tổng thể
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 5
theo Xi, về mặt kỹ thuật được gọi là hồi quy Y theo X, có thể được định nghĩa đơn
giản như trung bình của phân phối các giá trị Y theo giá trị X cho trước. Phương trình
(5.1) được gọi là hàm hồi quy tổng thể (PRF)1. Trong đó, B1 và B2 là các tham số2
hay các hệ số hồi quy3. B1 được gọi là hệ số cắt4 và B2 là độ dốc5. Hệ số độ dốc đo tỷ
lệ thay đổi trong giá trị trung bình (có điều kiện) của Y theo một đơn vị thay đổi trong
X. Để đơn giản trong từ ngữ cũng như cách ký hiệu, từ đây về sau ta thay ký hiệu
E(YXi) bằng E(Y), và gọi là giá trị kỳ vọng của Y.
HÀM HỒI QUY TỔNG THỂ NGẪU NHIÊN
Hàm hồi quy tổng thể ở phương trình (5.1) cho biết giá trị trung bình của biến phụ
thuộc theo mỗi giá trị của biến độc lập. Ví dụ, khi X = 5, thì Y trung bình là 40.
Nhưng nếu ta lấy một hộ ngẫu nhiên trong năm hộ ở mức giá này, thì có thể lượng cầu
sẽ không bằng giá trị trung bình 40. Ví dụ, nếu đó là hộ thứ nhất thì Y là 36 và hộ thứ
4 thì Y là 42. Điều này cho thấy có sự chênh lệch giữa giá trị Y trung bình và từng giá
trị Y cá biệt trong mỗi nhóm. Như vậy, ta sẽ giải thích lượng cầu của một hộ nào đó
theo giá như thế nào? Có thể cách tốt nhất để giải thích lượng cầu của một hộ theo giá
bằng lượng cầu trung bình của nhóm đó cộng hoặc trừ một lượng sai số nào đó. Ta có
thể biễu diễn dưới dạng hàm số như sau:
Yi = B1 + B2Xi + ui (5.2)
E(Y/Xi) + ui
Trong đó, u được gọi là hạng nhiễu ngẫu nhiên6, hay có thể gọi một cách đơn giản là
hạn nhiễu. Hạn nhiễu là một biến ngẫu nhiên7 vì giá trị của nó không thể được kiểm
soát hoặc không được biết trước là bao nhiêu. Như vậy, biến ngẫu nhiên u sẽ theo một
phân phối xác suất của nó (ví dụ phân phối chuẩn hoặc phân phối t). Để minh họa
phương trình (5.2) ta có thể viết năm phương trình tại mức giá bằng 3 như sau:
Y1 = 40 = B1 + B2(3) + u1
Y2 = 42 = B1 + B2(3) + u2
Y3 = 44 = B1 + B2(3) + u3 (5.3)
Y4 = 46 = B1 + B2(3) + u4
Y5 = 48 = B1 + B2(3) + u5
Phương trình (5.2) có thể được giải thích như sau. Mối quan hệ giữa lượng cầu của hộ
gia đình thứ i theo một mức giá nhất định có thể được thể hiện là tổng của hai thành
phần sau đây:
1 Population regression function 2 Parameter. Các giáo trình kinh tế lượng thường ký hiệu các hệ số hồi quy tổng thể bằng (beta), nhưng để
tiện lợi cho việc đánh máy nên tôi xin được thay bằng B. 3 Regression coefficient 4 Intercept 5 Slope 6 Stochastic/random error term 7 Giống như Y, tại mỗi X có nhiều giá trị u, nên u tại mỗi X cũng là một biến ngẫu nhiên (như Y)
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
6
• Thành phần thứ nhất là (E(Y/Xi) = B1 + B2Xi), tức giá trị trung bình của lượng
cầu tại một mức giá nhất định. Và đó chính là một điểm trên đường PRL.
Thành phần này được gọi là thành phần xác định hay thành phần hệ thống1.
• Thành phần thứ hai là (ui), được gọi là thành phần phi hệ thống hay thành
phần ngẫu nhiên2, và được xác định bởi các yếu tố khác ngoài giá nước đóng
chai. Thành phần này cũng được gọi là thành phần nhiễu3. Một điều quan
trọng cần lưu ý là E(uXi) = 0.
Để minh họa hai thành phần này, ta xem đồ thị 5.2 được vẽ từ dữ liệu ở Bảng 5.1. Ở
mức giá là 4 có một hộ gia đình tiêu dùng 47 đơn vị, và lượng cầu trung bình ở mức
giá này là 42. Điều này có nghĩa hộ gia đình này tiêu dùng nhiều hơn thành phần hệ
thống là 5 đơn vị. Như vậy, thành phần ngẫu nhiên u của hộ gia đình này sẽ là +4 đơn
vị. Ngược lại, ở mức giá là 6 có một hộ gia đình tiêu dùng 32 đơn vị, trong khi lượng
cầu trung bình ở mức giá này là 38. Vậy hộ gia đình này tiêu dùng ít hơn thành phần
hệ thống là 6 đơn vị, hay thành phần ngẫu nhiên của hộ này sẽ là -6 đơn vị.
HÌNH 5.2: Hạng nhiễu ngẫu nhiên ui
25
30
35
40
45
50
55
0 2 4 6 8 10 12
Price per bottle of Aquafina
Aq
ua
fin
a q
ua
nti
ty d
em
an
de
d
Phương trình (5.2) được gọi là hàm hồi quy tổng thể ngẫu nhiên4, và phương trình
(5.1) được gọi là hàm hồi quy tổng thể xác định hay phi ngẫu nhiên.
Vậy bản chất của thành phần ngẫu nhiên là gì?
1 Deterministic/systematic 2 Nonsystematic/random 3 Noise component 4 Stochastic PRF
47
32
•
•
u
u
42
38
•
•
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 7
BẢN CHẤT CỦA HẠN NHIỄU NGẪU NHIÊN
Hạn nhiễu ngẫu nhiên ui ở phương trình (5.2) có các đặc điểm sau đây:
• Ta biết rằng, cơ sở lý thuyết kinh tế sẽ hướng dẫn cách xác định các biến thích
hợp có ảnh hưởng đến biến phụ thuộc. Tuy nhiên, lý thuyết có thể vẫn không
thực sự đầy đủ, nên có thể bỏ sót một số biến có ảnh hưởng đến biến phụ thuộc.
Chính vì thế, hạng nhiễu ngẫu nhiên có thể được sử dụng như một đại diện cho
ảnh hưởng của các biến không được hiển thị trong mô hình như thu nhập, giá
hàng hóa khác, số người trong hộ, chất lượng nước máy, thời tiết, v.v.
• Thậm chí nếu ta đã đưa tất cả các biến thích hợp có ảnh hưởng đến lượng cầu
nước đóng chai vào mô hình thì vẫn tồn tại hạn nhiễu ngẫu nhiên do ta không
thể hoàn toàn dự đoán được hết hành vi của con người. Vì vậy, hạng nhiễu
ngẫu nhiên phản ánh tính ngẫu nhiên vốn có trong hành vi con người. Giả sử
hai hộ gia đình giống nhau về mọi thứ nhưng chắc gì họ đã chi tiêu cho nước
đóng chai như nhau.
• Thậm chí nếu ta biết các biến bị bỏ sót trong mô hình và tiến hành thực hiện
hồi quy bội thay vì hồi quy đơn. Tuy nhiên, có thể ta không có sẵn thông tin
định lượng về các biến này hoặc việc thu thập thông tin quá tốn kém, v.v. Cho
nên, mặc dù ta biết các biến đó là quan trọng nhưng ta buộc phải loại nó ra khỏi
mô hình.
• Hạng nhiễu cũng có thể phản ánh các sai sót do đo lường, có thể do ta làm tròn
giá trị của lượng cầu hay do một số hộ không nhớ chính xác họ đã sử dụng bao
nhiêu trong một khoảng thời gian cụ thể. Hoặc trong nhiều trường hợp ta không
thể có được dữ liệu của các biến như mong muốn (có thể không quan sát được)
mà phải chọn các biến khác làm biến đại diện. Chính vì vậy, các biến đại diện
này có thể không đúng bằng các biến mong muốn. Ví dụ, rất khó có thể thu
thập được thông tin chính xác về thu nhập của hộ gia đình và ta sử dụng thông
tin về chi tiêu hoặc tiền lương.
• Do các nhà nghiên cứu kinh tế lượng có khuynh hướng thích mô hình càng đơn
giản càng tốt, nên ta hay xem ảnh hưởng của các yếu khác lên biến phụ thuộc
không đáng kể.
• Thâm chí nếu ta có đầy đủ các biến chính xác về mặc lý thuyết và ta có thể thu
thập thông tin của các biến đó, nhưng có thể ta không biết dạng hàm của mối
quan hệ giữa biến phụ thuốc và các biến giải thích. Cho nên, việc chọn sai dạng
hàm cũng là một nguyên nhân tồn tại hạn nhiễu ui.
Như vậy, hạn nhiễu luôn tồn tại trong mô hình hồi quy tổng thể và được xem như một
biến đại diện cho rất nhiều yếu tố có ảnh hưởng đến Y nhưng không được đưa vào mô
hình. Đây là cơ sở nền tảng để giả định rằng hạn nhiễu u là một biến ngẫu nhiên có
phân phối chuẩn. Như ta sẽ thấy ở các chương sau, với giả định hạn nhiễu có phân
phối chuẩn sẽ có ý nghĩa rất quan trọng cho việc suy diễn thống kê các ước lượng
OLS vì các ước lượng này là một hàm tuyến tính của hạn nhiễu u.
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
8
PHƯƠNG TRÌNH HỒI QUY MẪU
Ta sẽ ước lượng phương trình (5.1), nghĩa là tìm các giá trị của B1 và B2 như thế nào?
Nếu ta có sẵn dữ liệu trong Bảng 5.1, tức toàn bộ tổng thể, thì việc ước lượng các hệ
số này sẽ rất trở nên dễ dàng. Như vừa trình bày, việc ta phải làm là tìm các giá trị
trung bình có điều kiện của Y tương ứng với mỗi giá trị X và rồi nối các giá trị trung
bình này lại. Tuy nhiên, trên thực tế hiếm khi ta có được dữ liệu của toàn bộ tổng thể
như vậy1. Thông thường ta chỉ có một mẫu lấy một cách ngẫu nhiên từ tổng thể đó.
Nhiệm vụ của ta là ước lượng hàm hồi quy tổng thể trên cơ sở thông tin mẫu. Giả sử
ta có sẵn thông tin của hai mẫu như sau:
BẢNG 5.2: Hai mẫu ngẫu nhiên từ tổng thể 55 hộ gia đình
Giá Lượng cầu (mẫu 1) Lượng cầu (mẫu 2)
1 51 51
2 48 47
3 48 46
4 46 42
5 42 40
6 34 37
7 32 36
8 30 35
9 29 32
10 28 30
Không giống Bảng 5.1, bây giờ ta chỉ có một giá trị Y tương ứng với mỗi giá trị X.
Câu hỏi quan trọng ở đây là từ dữ liệu mẫu như ở Bảng 5.2, liệu ta có thể ước lượng
lượng cầu trung bình trong toàn bộ tổng thể tương ứng với mỗi giá trị X hay không.
Nói cách khác, liệu ta có thể ước lượng hàm hồi quy tổng thể từ dữ liệu mẫu hay
không? Câu trả lời là ta không thể ước lượng hàm hồi quy tổng thể một cách chính xác
do có dao động mẫu hoặc sai số mẫu2. Nói cách khác, nếu ta có thể lấy một cách ngẫu
nhiên k mẫu từ một tổng thể, mỗi mẫu có n quan sát thì giá trị các mẫu sẽ khác nhau
từ mẫu này qua mẫu khác.
1 Mục tiêu của bất kỳ nghiên cứu nào cũng nhằm tìm hiểu hành vi của tổng thể chứ không phải một mẫu giới
hạn. Nếu nhờ một phép màu nào đó mà ta có thể có toàn bộ thông tin tổng thể cần nghiên cứu một cách nhanh
chóng, thì ta không cần khổ sở với các môn thống kê và kinh tế lượng nữa. 2 Sampling error đã được trình bày ở chương 4
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 9
HÌNH 5.3: Đường hồi quy mẫu
28
32
36
40
44
48
52
56
0 2 4 6 8 10 12
Price per bottle of Aquafina
Sample 1
Sample 2
Hình 5.3 là đồ thị phân tán giữa lượng cầu và giá nước đóng chai của hai mẫu độc lập
như ở Bảng 5.2. Hai đường thẳng phù hợp nhất qua các điểm phân tán trong từng mẫu
được gọi là đường hồi quy mẫu1 (SRL1 và SRL2). Vấn đề đặt ra ở đây là, giữa hai
đường hồi quy mẫu này, đường nào đại diện tốt nhất cho đường hồi quy tổng thể?
Điều này hoàn toàn không chắc, vì nếu ta có k mẫu khác nhau, ta sẽ có k đường hồi
quy mẫu khác nhau, và các đường hồi quy mẫu này sẽ không thể đồng thời giống
nhau.
Tương tự như đường hồi quy tổng thể, ta có khái niệm hàm hồi quy mẫu (SRF)
thể hiện cho đường hồi quy mẫu như sau:
iY = b1 + b2Xi (5.4)
Trong đó,
iY là ước lượng của E(YXi)
b1 là ước lượng2 của B1
b2 là ước lượng của B2
Nhắc lại, một ước lượng hay một thống kê mẫu là một quy tắc hay một công thức cho
biết ta có thể ước lượng tham số tổng thể như thế nào. Một giá trị bằng số cụ thể tính
từ ước lượng được gọi là một giá trị ước lượng.
1 Sample regression line
2 Lưu ý, các giáo trình kinh tế lượng thường sử dụng ký hiệu và u , nhưng để tiện lợi trong việc đánh máy
chúng tôi xin thay bằng b và e.
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
10
Nếu quan sát đồ thị ở Hình 5.3 ta sẽ thấy rằng không phải tất cả các dữ liệu mẫu nằm
chính xác trên đường hồi quy mẫu tương ứng. Tương tự hàm hồi quy tổng thể ngẫu
nhiên, ta cần xây dựng hàm hồi quy mẫu ngẫu nhiên như sau:
Yi = b1 + b2Xi + ei (5.5)
Trong đó,
ei là ước lượng của hạng nhiễu ngẫu nhiên ui
Ta gọi ei là phần dư1. Về mặt khái niệm, ei cũng tương tự như ui và được xem như một
ước lượng của ui. Ta đưa ei vào phương trình (5.5) với các lý do giống như việc đưa ui
vào phương trình hồi quy tổng thể ngẫu nhiên (5.2). Nói một cách đơn giản, ei là
chênh lệch giữa giá trị Y thực tế và giá trị ước lượng từ đường hồi quy mẫu.
ei = Yi - iY (5.6)
Do ei là một ước lượng của ui, nên ở các phần sau chúng ta sẽ thấy rằng việc kiểm
định phần dư có phân phối chuẩn hay không có ý nghĩa rất quan trọng cho việc kiểm
định giả thiết các ước lượng OLS. Như đã giới thiệu ở chương 2 và chương 3, để kiểm
định xem một biến ngẫu nhiên có phân phối chuẩn hay không thì ta kiểm định xem S
có bằng 0 và K có bằng 3 hay không. Và thống kê thường dùng để kiểm định giả thiết
này là thống kê 2 (JB được xem có phân phối 2 với bậc tự do là 2.
Tóm lại, mục tiêu chính trong phân tích hồi quy là ước lượng hàm hồi quy tổng thể
ngẫu nhiên sau đây:
Yi = B1 + B2Xi + ui
trên cơ sở hàm hồi quy mẫu:
Yi = b1 + b2Xi + ei
Nhưng do luôn có sự biến thiên mẫu2, nên giá trị ước lượng của hàm hồi quy tổng thể
dựa trên hàm hồi quy mẫu chỉ là ước lượng gần đúng. Và sự ước lượng gần đúng này
được minh họa trên Hình 5.4. Lưu ý rằng ta thật sự không thể quan sát được B1, B2, và
u, ta chỉ có thể quan sát được các đại diện của chúng là b1, b2, và e một khi ta có sẵn
một mẫu nhất định.
1 Residual. Một số tài liệu kinh tế lượng ký hiệu phần dư là iu . Tuy nhiên, để thuận lợi cho việc đánh máy,
toàn bộ các chương trong cuốn sách này sẽ ký hiệu là ei. 2 Sampling variation
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 11
HÌNH 5.4: Đường hồi quy tổng thể và đường hồi quy mẫu
20
25
30
35
40
45
50
55
0 1 2 3 4 5 6 7 8 9 10
Với một giá trị Xi nhất định, ta có một quan sát mẫu Yi, và Yi được thể hiện như sau:
Yi = iY + ei (5.7)
Và dưới dạng hàm hồi quy tổng thể Yi có thể được biểu diễn như sau:
Yi = E(YXi) + ui (5.8)
Từ đồ thị ta nhận thấy, bất kỳ Xi nào bên phải điểm A, hàm hồi quy mẫu sẽ ước lượng
quá thấp hàm hồi quy tổng thể. Ngược lại, với bất kỳ Xi bên trái điểm A, hàm hồi quy
mẫu sẽ ước lượng quá cao hàm hồi quy tổng thể. Khả năng ước lượng thấp hay ước
lượng cao như vậy là không thể tránh khỏi do luôn tồn tại sai số mẫu.
Đến đây một câu hỏi quan trọng cần làm rõ như sau. Cứ coi hàm hồi quy mẫu chỉ
là một ước lượng gần đúng của hàm hồi quy tổng thể, vậy liệu ta có thể tìm ra một
phương pháp nào đó có thể làm cho ước lượng gần đúng này càng gần với hàm hồi
quy tổng thể hay không? Nói cách khác, làm sao ta có thể xây dựng hàm hồi quy mẫu
sao cho b1 càng gần B1 và b2 càng gần B2 hay không, bởi vì thực sự ta không thể nào
có được thông tin của toàn bộ tổng thể. Câu trả lời là có. Phương pháp dùng để ước
lượng hàm hồi quy mẫu phù hợp nhất nhằm phản ánh càng trung thực hàm hồi quy
tổng thể càng tốt chính là phương pháp bình phương bé nhất thông thương (OLS) và
sẽ đước trình bày chi tiết ở chương 6.
X
Y
PRL
SRL
A
•
•
•
•
•
•
Y8
8
^
Y
Y2
2
^
Y
e2
u2
e8
u8
CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN
12
HỒI QUY TUYẾN TÍNH
Do hầu như toàn bộ nội dung kinh tế lượng căn bản chỉ quan tâm đến các mô hình hồi
quy tuyến tính, như phương trình (5.1). Cho nên, ta cần làm rõ khái niệm hồi quy
tuyến tính. Theo Gujarati (2006), khái niệm tuyến tính có thể được giải thích theo hai
cách khác nhau như sau.
Tuyến tính ở biến số
Trung bình có điều kiện của biến phụ thuộc là một hàm tuyến tính của các biến độc
lập như ở các phương trình (5.1) và (5.2) hay ở các phương trình hồi quy mẫu (5.3) và
(5.4). Một hàm Y = f(X) được cho là tuyến tính ở X nếu (i) X chỉ có lũy thừa bậc một
(ví dụ X2 hoặc X không phải lũy thừa bậc một); và (ii) X không được nhân hay chia
với một biến khác (ví dụ X.Z và X/Z). Theo cách giải thích này, các phương trình sau
đây không phải là hàm tuyến tính ở biến số:
E(Y) = B1 + B2X2i (5.9)
E(Y) = B1 + B2
ix
1 (5.10)
Đối với các mô hình hồi quy tuyến tính ở biến giải thích, thì tỷ lệ thay đổi trong biến
phụ thuộc theo một đơn vị thay đổi trong biến giải thích (độ dốc) là cố định. Trong khi
đó, các mô hình hồi quy phi tuyến ở biến giải thích, thì độ dốc thay đổi, ví dụ đạo hàm
bậc nhất của Y theo X ở phương trình (5.9) và (5.10) lần lượct là 2B2Xi và –B2(1/Xi2),
rõ ràng là phụ thuộc vào giá trị của X.
Tuyến tính ở tham số
Trung bình có điều kiện của biến phụ thuộc là một hàm tuyến tính của các hệ số hồi
quy; nhưng có thể tuyến tính hoặc phi tuyến ở biến số. Nghĩa là, các hệ số hồi quy
(Bs) chỉ có lũy thừa bậc một. Giống như hàm hồi quy tuyến tính ở biến số, một hàm
hồi quy tuyến tính ở tham số, ví dụ B2, nếu B2 có lũy thừa bậc một. Như vậy, hai mô
hình ở (5.9) và (5.10) đều là các mô hình tuyến tính ở tham số. Tuy nhiên, mô hình
sau đây không tuyến tính ở tham số:
E(Y) = B1 + B22Xi (5.11)
Trong cuốn sách này, ta chủ yếu quan tâm đến các mô hình tuyến tính ở tham số. Vì
thế, từ đây về sau khi nói đến hồi quy tuyến tính là tuyến tính ở tham số.
HỒI QUY ĐƠN VÀ HỒI QUY BỘI
Cho đến đây ta chỉ mới đề cập đến các mô hình hồi quy hai biến, hay còn gọi là các
mô hình hồi quy đơn trong đó biến phụ thuộc là một hàm của chỉ một biến giải thích.
Phân tích hồi quy đơn thông thường chỉ nhằm làm rõ các ý tưởng cơ bản trong phân
tích hồi quy vì nó vừa đơn giản vừa có khả năng mở rộng cho các trường hợp tổng
quát khác. Nhưng khái niệm hồi quy có thể được mở rộng dễ dàng cho các trường hợp
biến phụ thuộc là một hàm của nhiều hơn một biến giải thích. Ví dụ, nếu ta xem lượng
cầu nước đóng chai Aquafina là một hàm của giá bán (X2), thu nhập của hộ gia đình
PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 13
(X3), và giá của nước đóng chai Lavi (X4), thì ta có thể viết phương trình đường cầu
như sau:
E(Y) = B1 + B2X2i + B3X3i + B4X4i (5. 12)
Lưu ý, E(Y) = E(Y/X2i, X3i, X4i)
Phương trình (5.12) là một ví dụ của một mô hình hồi quy tuyến tính đa biến. Hàm
hồi quy tuyến tính của một hộ gia đình cụ thể có thể được viết như sau:
Yi = B1 + B2X2i + B3X3i + B4X4i + ui (5.13)
= E(Y) + ui
Ước lượng và kiểm định mô hình hồi quy đa biến sẽ được trình bày chi tiết ở các
chương 8.