chương 5: nội dung cơ bản của phân tích hồi qui · pdf fileđường...

PHẦN II: MÔ HÌNH HỒI QUY TUYẾN TÍNH 1

CHƯƠNG 5

NỘI DUNG CƠ BẢN CỦA

PHÂN TÍCH HỒI QUY:

MÔ HÌNH HAI BIẾN @ Phùng Thanh Bình, MB

Để xây dựng một mô hình cho một hiện tượng kinh tế, các nhà kinh tế lượng sử sụng

một kỹ thuật thống kê hết sức quan trọng là phân tích hồi quy. Mục đích của chương

này là giới thiệu các vấn đề cơ bản của phân tích hồi quy dưới dạng mô hình hồi quy

tuyến tính đơn giản nhất, đó là mô hình hai biến. Cụ thể, chương này sẽ tập trung làm

rõ các nội dung sau đây:

• Ý nghĩa của phân tích hồi quy

• Phương trình hồi quy tổng thể

• Đường hồi quy tổng thể

• Khái niệm hạn nhiễu ngẫu nhiên

• Phương trình hồi quy mẫu

• Đường hồi quy mẫu

• Khái niệm phần dư

• Khái niệm hồi quy tuyến tính

• Hồi quy đơn và hồi quy bội

Ý NGHĨA HỒI QUY

Có rất nhiều cách giải thích khác nhau về phân tích hồi quy1, nhưng chung quy lại

chúng ta có thể hiểu phân tích hồi quy là việc nghiên cứu mối quan hệ giữa một biến,

được gọi là biến phụ thuộc với một hay nhiều biến, được gọi là biến độc lập hay biến

giải thích. Chẳng hạn, ta có thể quan tâm đến việc nghiên cứu mối quan hệ giữa lượng

cầu nước đóng chai Aquafina tại TP.HCM theo giá bán, thu nhập của người tiêu dùng,

giá của các hàng hóa thay thế, số người trong hộ gia đình, và chất lượng nước máy.

Hay, ta có thể quan tâm đến việc tìm hiểu doanh số của một nhãn hiệu thời trang có

mối quan hệ như thế nào với giá bán, chi phí quảng cáo, và trình độ đội ngủ bán hàng.

Hoặc, ta muốn xem xét mối quan hệ giữa chỉ số giá chứng khoán VN-Index với các

biến kinh tế vĩ mô như GDP, lạm phát, lãi suất, và cung tiền. Hoặc ước lượng hệ số

bêta trong mô hình định giá tài sản vốn (CAPM), v.v. Nói chung, như đã trình bày ở

chương 1, trong tất cả các trường hợp, để xác định mô hình kinh tế lượng thích hợp,

trước hết người nghiên cứu phải dựa trên cơ sở lý thuyết kinh tế nền tảng để xác định

biến phụ thuộc và các biến giải thích thích hợp. Để đơn giản, từ đây ta gọi Y là biến

1 Regression analysis

CHƯƠNG 5: NỘI DUNG CƠ BẢN CỦA PHÂN TÍCH HỒI QUI: MÔ HÌNH HAI BIẾN

2

phụ thuộc và X là biến độc lập. Nếu có nhiều biến giải thích, ta sẽ ký hiệu các biến

này là X2, X3, X3, … Ngoài ra, nếu mô hình có các biến giải thích là loại biến định

tính ta sẽ ký hiệu các biến này là D2, D3, …

Điều quan trọng cần lưu ý là, mặc dù phân tích hồi quy là xem xét mối quan hệ

giữa một biến phụ thuộc với một hoặc một số biến độc lập, nhưng không nhất thiết

hàm ý phân tích mối quan hệ nhân quả, trong đó biến giải thích là nguyên nhân và

biến phụ thuộc là kết quả. Nếu có tồn tại mối quan hệ nhân quả, ta phải biện minh rõ

ràng trên cơ sở lý thuyết kinh tế.

Phân tích hồi quy có thể có một trong các mục tiêu sau đây:

• Ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc

các biến giải thích.

• Kiểm định các giả thiết về bản chất của sự phụ thuộc giữa biến độc lập và biến

phụ thuộc. Lưu ý, các giả thiết phải được dựa trên một cơ sở lý thuyết kinh tế

nền tảng. Ví dụ, ta muốn kiểm định xem liệu ngành sản xuất cao su ở Việt Nam

có hiệu quả kinh tế không đồi theo quy mô không, hay hệ số bêta của ngành

phần mềm máy tính có phải bằng 2 hay không, v.v.

• Dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các

biến giải thích. Như sẽ được trình bày ở cuối chương, có hai loại dự báo bằng

phân tích hồi quy: dự báo giá trị trung bình của biến phụ thuộc khi biết giá trị

của biến giải thích và dự báo một giá trị cá biệt của biến phụ thuộc khi biết giá

trị của biến giải thích. Dựa vào suy diễn thống kê ta không chỉ có thể dự báo

điểm mà còn có thể dự báo khoảng.

• Kết hợp các mục tiêu trên trong cùng một nghiên cứu.

ĐỊNH NGHĨA HÀM HỒI QUY TỔNG THỂ

Giả sử ta xét đường cầu nước khoáng đóng chai tại một ốc đảo xinh đẹp chỉ có vỏn

vẹn 55 hộ gia đình. Qua khảo sát ta có kết quả như trong Bảng 5.1:

BẢNG 5.1: Đường cầu nước đóng chai tại ốc đảo với 55 hộ gia đình

Giá

X

Lượng cầu

Y

Số người tiêu

dùng

Lượng cầu trung

bình (YXi)

1 45, 46, 47, 48, 49, 50, 51 7 48

2 44, 45, 46, 47, 48 5 46

3 40, 42, 44, 46, 48 5 44

4 35, 38, 42, 44, 46, 47 6 42

5 36, 39, 40, 42, 43 5 40

6 32, 35, 37, 38, 39, 42, 43 7 38

7 32, 34, 36, 38, 40 5 36

8 31, 32, 33, 34, 35, 36, 37 7 34

9 28, 39, 32, 34, 36 5 32

10 29, 30, 31 3 30

Tổng 55


Các con số trong Bảng 5.1 có nghĩa như sau. Tại mức giá bằng X = 1 có bảy người

tiêu dùng sẵn lòng mua nước khoáng với các lượng Y tương ứng lần lượt là 45, 46, 47,

48, 49, 50, và 51 đơn vị, và trung bình là 48 đơn vị [E(YX=1)]. Tại mức giá bằng 2

có năm người tiêu dùng sẵn lòng trả các lượng Y tương ứng lần lượt là 44, 45, 46, 47,

và 48, và trung bình là 46 đơn vị [E(YX=2)]. Tại mức giá bằng 6 có bảy người tiêu

dùng sẵn lòng trả các lượng Y tương ứng lần lượt là 32, 35, 37, 38, 39, 42, và 43, và

trung bình 38 đơn vị [E(YX=6)]. Tại mức giá bằng 10 có ba người tiêu dùng sẵn lòng

trả các lượng Y tương ứng lần lượt là 29, 30, và 31, và trung bình là 30 đơn vị

[E(YX=10)]. Giải thích tương tự cho các mức giá khác và ta sẽ có các giá trị trung

bình của Y cho từng mức giá, được gọi là giá trị kỳ vọng có điều kiện, như ở cột cuối

của Bảng 5.1. Nói chung, tại mỗi mức giá, lượng cầu có khác nhau đáng kể, nhưng

trung bình, khi giá tăng thì lượng cầu giảm. Điều này phản ánh đúng quy luật cầu. Các

con số trong Bảng 5.1 có thể được biểu diễn lại một cách hệ thống hơn như sau:

BẢNG 5.2: Giá trị kỳ vọng của lượng cầu tại mỗi mức giá

1 2 3 4 5 6 7 8 9 10

Lượng cầu Y

tại mỗi mức

giá

45

46

47

48

49

50

51

44

45

46

47

48

-

-

40

42

44

46

48

-

-

35

38

42

44

46

47

-

36

39

40

42

43

-

-

32

35

37

38

39

42

43

32

34

36

38

40

-

-

31

32

33

34

35

36

37

28

29

32

34

36

-

-

29

30

31

-

-

-

-

Tổng 336 230 220 252 200 266 180 238 160 90

E(YX) 48 46 44 42 40 38 36 34 32 30

Lưu ý, tại mỗi mức giá, lượng cầu là một biến ngẫu nhiên nên để tính giá trị kỳ vọng

có điều kiện của lượng cầu ta phải tính xác xuất có điều kiện tương ứng với từng

lượng cầu.

Bây giờ sử dụng tập tin Chapter5.1.wf1 để vẽ đường biểu diễn mối quan hệ giữa

biến phụ thuộc Y, giá trị kỳ vọng có điều kiện của biến phụ thuộc E(YXi) theo mỗi

giá trị cố định của biến giải thích Xi. Sau khi mở tập tin, chọn và mở dạng nhóm ba

biến Y, EY và X, ta sẽ thấy xuất hiện một bảng tính như sau:

X Y


4

Từ bảng tính này, chọn View/Graph, ta sẽ thấy xuất hiện một hộp thoại Graph

Options. Trong hộp thoại này, ở phần loại đồ thị (graph type), ta chọn scatter, và phần

chi tiết (details), ta chọ dạng đường thẳng đi qua các điểm trung bình (fit lines) là

dạng đường hồi quy (regression line). Ta sẽ có kết quả như sau:

HÌNH 5.1: Đường hồi quy tổng thể1

25

30

35

40

45

50

55

0 2 4 6 8 10 12

Price per bottle of Aquafina

Aquafina quantity demanded

E(Y/X)

Trên đồ thị ta thấy tại mỗi giá trị X có rất nhiều giá trị Y2, và từ các giá trị Y đó ta tính

được giá trị Y trung bình có điều kiện. Đường thẳng đi qua các điểm trung bình có

điều kiện, E(Y/X) được gọi là đường hồi quy tổng thể (PRL)3. Theo Gujarati (2006),

đường hồi quy tổng thể là một đường thẳng cho biết giá trị trung bình của biến phụ

thuộc (lượng cầu nước đóng chai) theo từng giá trị tương ứng của biến độc lập (giá

nước đóng chai) trong toàn bộ tổng thể.

Đường hồi quy tổng thể ở đồ thị trên có vẻ có dạng tuyến tính, nên ta có thể biểu

diễn giá trị trung bình có điều kiện E(YXi) dưới dạng một hàm của Xi như sau:

E(YXi) = B1 + B2Xi (5.1)

Phương trình (5.1) là một phương trình toán của đường thẳng ở đồ thị trên. Trong đó, i

là ký hiệu của hộ gia đình thứ i trong tổng thể. Như vậy, E(Y/Xi) là một hàm của Xi

(trong trường hợp này có dạng tuyến tính). Điều này có nghĩa rằng sự phụ thuộc của Y

1 Lưu ý, trên thực tế ta chỉ ước lượng một ‘đoạn’ nào đó của đường cầu, nên thông thường đường hồi quy

không cắt trục tung. Tuy nhiên, ở đây chỉ với mục đích minh họa, ta có đưa mức giá bằng 0 vào mô hình và

đường hồi quy có cắt trục tung. 2 Như vậy, Y tại mỗi X là một biến ngẫu nhiên và X được xem như có giá trị cho trước 3 Population regression line

Đường hồi quy tổng thể


theo Xi, về mặt kỹ thuật được gọi là hồi quy Y theo X, có thể được định nghĩa đơn

giản như trung bình của phân phối các giá trị Y theo giá trị X cho trước. Phương trình

(5.1) được gọi là hàm hồi quy tổng thể (PRF)1. Trong đó, B1 và B2 là các tham số2

hay các hệ số hồi quy3. B1 được gọi là hệ số cắt4 và B2 là độ dốc5. Hệ số độ dốc đo tỷ

lệ thay đổi trong giá trị trung bình (có điều kiện) của Y theo một đơn vị thay đổi trong

X. Để đơn giản trong từ ngữ cũng như cách ký hiệu, từ đây về sau ta thay ký hiệu

E(YXi) bằng E(Y), và gọi là giá trị kỳ vọng của Y.

HÀM HỒI QUY TỔNG THỂ NGẪU NHIÊN

Hàm hồi quy tổng thể ở phương trình (5.1) cho biết giá trị trung bình của biến phụ

thuộc theo mỗi giá trị của biến độc lập. Ví dụ, khi X = 5, thì Y trung bình là 40.

Nhưng nếu ta lấy một hộ ngẫu nhiên trong năm hộ ở mức giá này, thì có thể lượng cầu

sẽ không bằng giá trị trung bình 40. Ví dụ, nếu đó là hộ thứ nhất thì Y là 36 và hộ thứ

4 thì Y là 42. Điều này cho thấy có sự chênh lệch giữa giá trị Y trung bình và từng giá

trị Y cá biệt trong mỗi nhóm. Như vậy, ta sẽ giải thích lượng cầu của một hộ nào đó

theo giá như thế nào? Có thể cách tốt nhất để giải thích lượng cầu của một hộ theo giá

bằng lượng cầu trung bình của nhóm đó cộng hoặc trừ một lượng sai số nào đó. Ta có

thể biễu diễn dưới dạng hàm số như sau:

Yi = B1 + B2Xi + ui (5.2)

E(Y/Xi) + ui

Trong đó, u được gọi là hạng nhiễu ngẫu nhiên6, hay có thể gọi một cách đơn giản là

hạn nhiễu. Hạn nhiễu là một biến ngẫu nhiên7 vì giá trị của nó không thể được kiểm

soát hoặc không được biết trước là bao nhiêu. Như vậy, biến ngẫu nhiên u sẽ theo một

phân phối xác suất của nó (ví dụ phân phối chuẩn hoặc phân phối t). Để minh họa

phương trình (5.2) ta có thể viết năm phương trình tại mức giá bằng 3 như sau:

Y1 = 40 = B1 + B2(3) + u1

Y2 = 42 = B1 + B2(3) + u2

Y3 = 44 = B1 + B2(3) + u3 (5.3)

Y4 = 46 = B1 + B2(3) + u4

Y5 = 48 = B1 + B2(3) + u5

Phương trình (5.2) có thể được giải thích như sau. Mối quan hệ giữa lượng cầu của hộ

gia đình thứ i theo một mức giá nhất định có thể được thể hiện là tổng của hai thành

phần sau đây:

1 Population regression function 2 Parameter. Các giáo trình kinh tế lượng thường ký hiệu các hệ số hồi quy tổng thể bằng (beta), nhưng để

tiện lợi cho việc đánh máy nên tôi xin được thay bằng B. 3 Regression coefficient 4 Intercept 5 Slope 6 Stochastic/random error term 7 Giống như Y, tại mỗi X có nhiều giá trị u, nên u tại mỗi X cũng là một biến ngẫu nhiên (như Y)


6

• Thành phần thứ nhất là (E(Y/Xi) = B1 + B2Xi), tức giá trị trung bình của lượng

cầu tại một mức giá nhất định. Và đó chính là một điểm trên đường PRL.

Thành phần này được gọi là thành phần xác định hay thành phần hệ thống1.

• Thành phần thứ hai là (ui), được gọi là thành phần phi hệ thống hay thành

phần ngẫu nhiên2, và được xác định bởi các yếu tố khác ngoài giá nước đóng

chai. Thành phần này cũng được gọi là thành phần nhiễu3. Một điều quan

trọng cần lưu ý là E(uXi) = 0.

Để minh họa hai thành phần này, ta xem đồ thị 5.2 được vẽ từ dữ liệu ở Bảng 5.1. Ở

mức giá là 4 có một hộ gia đình tiêu dùng 47 đơn vị, và lượng cầu trung bình ở mức

giá này là 42. Điều này có nghĩa hộ gia đình này tiêu dùng nhiều hơn thành phần hệ

thống là 5 đơn vị. Như vậy, thành phần ngẫu nhiên u của hộ gia đình này sẽ là +4 đơn

vị. Ngược lại, ở mức giá là 6 có một hộ gia đình tiêu dùng 32 đơn vị, trong khi lượng

cầu trung bình ở mức giá này là 38. Vậy hộ gia đình này tiêu dùng ít hơn thành phần

hệ thống là 6 đơn vị, hay thành phần ngẫu nhiên của hộ này sẽ là -6 đơn vị.

HÌNH 5.2: Hạng nhiễu ngẫu nhiên ui

25

30

35

40

45

50

55

0 2 4 6 8 10 12


Aq

ua

fin

a q

ua

nti

ty d

em

an

de

d

Phương trình (5.2) được gọi là hàm hồi quy tổng thể ngẫu nhiên4, và phương trình

(5.1) được gọi là hàm hồi quy tổng thể xác định hay phi ngẫu nhiên.

Vậy bản chất của thành phần ngẫu nhiên là gì?

1 Deterministic/systematic 2 Nonsystematic/random 3 Noise component 4 Stochastic PRF

47

32

•

•

u

u

42

38

•

•


BẢN CHẤT CỦA HẠN NHIỄU NGẪU NHIÊN

Hạn nhiễu ngẫu nhiên ui ở phương trình (5.2) có các đặc điểm sau đây:

• Ta biết rằng, cơ sở lý thuyết kinh tế sẽ hướng dẫn cách xác định các biến thích

hợp có ảnh hưởng đến biến phụ thuộc. Tuy nhiên, lý thuyết có thể vẫn không

thực sự đầy đủ, nên có thể bỏ sót một số biến có ảnh hưởng đến biến phụ thuộc.

Chính vì thế, hạng nhiễu ngẫu nhiên có thể được sử dụng như một đại diện cho

ảnh hưởng của các biến không được hiển thị trong mô hình như thu nhập, giá

hàng hóa khác, số người trong hộ, chất lượng nước máy, thời tiết, v.v.

• Thậm chí nếu ta đã đưa tất cả các biến thích hợp có ảnh hưởng đến lượng cầu

nước đóng chai vào mô hình thì vẫn tồn tại hạn nhiễu ngẫu nhiên do ta không

thể hoàn toàn dự đoán được hết hành vi của con người. Vì vậy, hạng nhiễu

ngẫu nhiên phản ánh tính ngẫu nhiên vốn có trong hành vi con người. Giả sử

hai hộ gia đình giống nhau về mọi thứ nhưng chắc gì họ đã chi tiêu cho nước

đóng chai như nhau.

• Thậm chí nếu ta biết các biến bị bỏ sót trong mô hình và tiến hành thực hiện

hồi quy bội thay vì hồi quy đơn. Tuy nhiên, có thể ta không có sẵn thông tin

định lượng về các biến này hoặc việc thu thập thông tin quá tốn kém, v.v. Cho

nên, mặc dù ta biết các biến đó là quan trọng nhưng ta buộc phải loại nó ra khỏi

mô hình.

• Hạng nhiễu cũng có thể phản ánh các sai sót do đo lường, có thể do ta làm tròn

giá trị của lượng cầu hay do một số hộ không nhớ chính xác họ đã sử dụng bao

nhiêu trong một khoảng thời gian cụ thể. Hoặc trong nhiều trường hợp ta không

thể có được dữ liệu của các biến như mong muốn (có thể không quan sát được)

mà phải chọn các biến khác làm biến đại diện. Chính vì vậy, các biến đại diện

này có thể không đúng bằng các biến mong muốn. Ví dụ, rất khó có thể thu

thập được thông tin chính xác về thu nhập của hộ gia đình và ta sử dụng thông

tin về chi tiêu hoặc tiền lương.

• Do các nhà nghiên cứu kinh tế lượng có khuynh hướng thích mô hình càng đơn

giản càng tốt, nên ta hay xem ảnh hưởng của các yếu khác lên biến phụ thuộc

không đáng kể.

• Thâm chí nếu ta có đầy đủ các biến chính xác về mặc lý thuyết và ta có thể thu

thập thông tin của các biến đó, nhưng có thể ta không biết dạng hàm của mối

quan hệ giữa biến phụ thuốc và các biến giải thích. Cho nên, việc chọn sai dạng

hàm cũng là một nguyên nhân tồn tại hạn nhiễu ui.

Như vậy, hạn nhiễu luôn tồn tại trong mô hình hồi quy tổng thể và được xem như một

biến đại diện cho rất nhiều yếu tố có ảnh hưởng đến Y nhưng không được đưa vào mô

hình. Đây là cơ sở nền tảng để giả định rằng hạn nhiễu u là một biến ngẫu nhiên có

phân phối chuẩn. Như ta sẽ thấy ở các chương sau, với giả định hạn nhiễu có phân

phối chuẩn sẽ có ý nghĩa rất quan trọng cho việc suy diễn thống kê các ước lượng

OLS vì các ước lượng này là một hàm tuyến tính của hạn nhiễu u.


8

PHƯƠNG TRÌNH HỒI QUY MẪU

Ta sẽ ước lượng phương trình (5.1), nghĩa là tìm các giá trị của B1 và B2 như thế nào?

Nếu ta có sẵn dữ liệu trong Bảng 5.1, tức toàn bộ tổng thể, thì việc ước lượng các hệ

số này sẽ rất trở nên dễ dàng. Như vừa trình bày, việc ta phải làm là tìm các giá trị

trung bình có điều kiện của Y tương ứng với mỗi giá trị X và rồi nối các giá trị trung

bình này lại. Tuy nhiên, trên thực tế hiếm khi ta có được dữ liệu của toàn bộ tổng thể

như vậy1. Thông thường ta chỉ có một mẫu lấy một cách ngẫu nhiên từ tổng thể đó.

Nhiệm vụ của ta là ước lượng hàm hồi quy tổng thể trên cơ sở thông tin mẫu. Giả sử

ta có sẵn thông tin của hai mẫu như sau:

BẢNG 5.2: Hai mẫu ngẫu nhiên từ tổng thể 55 hộ gia đình

Giá Lượng cầu (mẫu 1) Lượng cầu (mẫu 2)

1 51 51

2 48 47

3 48 46

4 46 42

5 42 40

6 34 37

7 32 36

8 30 35

9 29 32

10 28 30

Không giống Bảng 5.1, bây giờ ta chỉ có một giá trị Y tương ứng với mỗi giá trị X.

Câu hỏi quan trọng ở đây là từ dữ liệu mẫu như ở Bảng 5.2, liệu ta có thể ước lượng

lượng cầu trung bình trong toàn bộ tổng thể tương ứng với mỗi giá trị X hay không.

Nói cách khác, liệu ta có thể ước lượng hàm hồi quy tổng thể từ dữ liệu mẫu hay

không? Câu trả lời là ta không thể ước lượng hàm hồi quy tổng thể một cách chính xác

do có dao động mẫu hoặc sai số mẫu2. Nói cách khác, nếu ta có thể lấy một cách ngẫu

nhiên k mẫu từ một tổng thể, mỗi mẫu có n quan sát thì giá trị các mẫu sẽ khác nhau

từ mẫu này qua mẫu khác.

1 Mục tiêu của bất kỳ nghiên cứu nào cũng nhằm tìm hiểu hành vi của tổng thể chứ không phải một mẫu giới

hạn. Nếu nhờ một phép màu nào đó mà ta có thể có toàn bộ thông tin tổng thể cần nghiên cứu một cách nhanh

chóng, thì ta không cần khổ sở với các môn thống kê và kinh tế lượng nữa. 2 Sampling error đã được trình bày ở chương 4


HÌNH 5.3: Đường hồi quy mẫu

28

32

36

40

44

48

52

56

0 2 4 6 8 10 12


Sample 1

Sample 2

Hình 5.3 là đồ thị phân tán giữa lượng cầu và giá nước đóng chai của hai mẫu độc lập

như ở Bảng 5.2. Hai đường thẳng phù hợp nhất qua các điểm phân tán trong từng mẫu

được gọi là đường hồi quy mẫu1 (SRL1 và SRL2). Vấn đề đặt ra ở đây là, giữa hai

đường hồi quy mẫu này, đường nào đại diện tốt nhất cho đường hồi quy tổng thể?

Điều này hoàn toàn không chắc, vì nếu ta có k mẫu khác nhau, ta sẽ có k đường hồi

quy mẫu khác nhau, và các đường hồi quy mẫu này sẽ không thể đồng thời giống

nhau.

Tương tự như đường hồi quy tổng thể, ta có khái niệm hàm hồi quy mẫu (SRF)

thể hiện cho đường hồi quy mẫu như sau:

iY = b1 + b2Xi (5.4)

Trong đó,

iY là ước lượng của E(YXi)

b1 là ước lượng2 của B1

b2 là ước lượng của B2

Nhắc lại, một ước lượng hay một thống kê mẫu là một quy tắc hay một công thức cho

biết ta có thể ước lượng tham số tổng thể như thế nào. Một giá trị bằng số cụ thể tính

từ ước lượng được gọi là một giá trị ước lượng.

1 Sample regression line

2 Lưu ý, các giáo trình kinh tế lượng thường sử dụng ký hiệu và u , nhưng để tiện lợi trong việc đánh máy

chúng tôi xin thay bằng b và e.


10

Nếu quan sát đồ thị ở Hình 5.3 ta sẽ thấy rằng không phải tất cả các dữ liệu mẫu nằm

chính xác trên đường hồi quy mẫu tương ứng. Tương tự hàm hồi quy tổng thể ngẫu

nhiên, ta cần xây dựng hàm hồi quy mẫu ngẫu nhiên như sau:

Yi = b1 + b2Xi + ei (5.5)

Trong đó,

ei là ước lượng của hạng nhiễu ngẫu nhiên ui

Ta gọi ei là phần dư1. Về mặt khái niệm, ei cũng tương tự như ui và được xem như một

ước lượng của ui. Ta đưa ei vào phương trình (5.5) với các lý do giống như việc đưa ui

vào phương trình hồi quy tổng thể ngẫu nhiên (5.2). Nói một cách đơn giản, ei là

chênh lệch giữa giá trị Y thực tế và giá trị ước lượng từ đường hồi quy mẫu.

ei = Yi - iY (5.6)

Do ei là một ước lượng của ui, nên ở các phần sau chúng ta sẽ thấy rằng việc kiểm

định phần dư có phân phối chuẩn hay không có ý nghĩa rất quan trọng cho việc kiểm

định giả thiết các ước lượng OLS. Như đã giới thiệu ở chương 2 và chương 3, để kiểm

định xem một biến ngẫu nhiên có phân phối chuẩn hay không thì ta kiểm định xem S

có bằng 0 và K có bằng 3 hay không. Và thống kê thường dùng để kiểm định giả thiết

này là thống kê 2 (JB được xem có phân phối 2 với bậc tự do là 2.

Tóm lại, mục tiêu chính trong phân tích hồi quy là ước lượng hàm hồi quy tổng thể

ngẫu nhiên sau đây:

Yi = B1 + B2Xi + ui

trên cơ sở hàm hồi quy mẫu:

Yi = b1 + b2Xi + ei

Nhưng do luôn có sự biến thiên mẫu2, nên giá trị ước lượng của hàm hồi quy tổng thể

dựa trên hàm hồi quy mẫu chỉ là ước lượng gần đúng. Và sự ước lượng gần đúng này

được minh họa trên Hình 5.4. Lưu ý rằng ta thật sự không thể quan sát được B1, B2, và

u, ta chỉ có thể quan sát được các đại diện của chúng là b1, b2, và e một khi ta có sẵn

một mẫu nhất định.

1 Residual. Một số tài liệu kinh tế lượng ký hiệu phần dư là iu . Tuy nhiên, để thuận lợi cho việc đánh máy,

toàn bộ các chương trong cuốn sách này sẽ ký hiệu là ei. 2 Sampling variation


HÌNH 5.4: Đường hồi quy tổng thể và đường hồi quy mẫu

20

25

30

35

40

45

50

55

0 1 2 3 4 5 6 7 8 9 10

Với một giá trị Xi nhất định, ta có một quan sát mẫu Yi, và Yi được thể hiện như sau:

Yi = iY + ei (5.7)

Và dưới dạng hàm hồi quy tổng thể Yi có thể được biểu diễn như sau:

Yi = E(YXi) + ui (5.8)

Từ đồ thị ta nhận thấy, bất kỳ Xi nào bên phải điểm A, hàm hồi quy mẫu sẽ ước lượng

quá thấp hàm hồi quy tổng thể. Ngược lại, với bất kỳ Xi bên trái điểm A, hàm hồi quy

mẫu sẽ ước lượng quá cao hàm hồi quy tổng thể. Khả năng ước lượng thấp hay ước

lượng cao như vậy là không thể tránh khỏi do luôn tồn tại sai số mẫu.

Đến đây một câu hỏi quan trọng cần làm rõ như sau. Cứ coi hàm hồi quy mẫu chỉ

là một ước lượng gần đúng của hàm hồi quy tổng thể, vậy liệu ta có thể tìm ra một

phương pháp nào đó có thể làm cho ước lượng gần đúng này càng gần với hàm hồi

quy tổng thể hay không? Nói cách khác, làm sao ta có thể xây dựng hàm hồi quy mẫu

sao cho b1 càng gần B1 và b2 càng gần B2 hay không, bởi vì thực sự ta không thể nào

có được thông tin của toàn bộ tổng thể. Câu trả lời là có. Phương pháp dùng để ước

lượng hàm hồi quy mẫu phù hợp nhất nhằm phản ánh càng trung thực hàm hồi quy

tổng thể càng tốt chính là phương pháp bình phương bé nhất thông thương (OLS) và

sẽ đước trình bày chi tiết ở chương 6.

X

Y

PRL

SRL

A

•

•

•

•

•

•

Y8

8

^

Y

Y2

2

^

Y

e2

u2

e8

u8


12

HỒI QUY TUYẾN TÍNH

Do hầu như toàn bộ nội dung kinh tế lượng căn bản chỉ quan tâm đến các mô hình hồi

quy tuyến tính, như phương trình (5.1). Cho nên, ta cần làm rõ khái niệm hồi quy

tuyến tính. Theo Gujarati (2006), khái niệm tuyến tính có thể được giải thích theo hai

cách khác nhau như sau.

Tuyến tính ở biến số

Trung bình có điều kiện của biến phụ thuộc là một hàm tuyến tính của các biến độc

lập như ở các phương trình (5.1) và (5.2) hay ở các phương trình hồi quy mẫu (5.3) và

(5.4). Một hàm Y = f(X) được cho là tuyến tính ở X nếu (i) X chỉ có lũy thừa bậc một

(ví dụ X2 hoặc X không phải lũy thừa bậc một); và (ii) X không được nhân hay chia

với một biến khác (ví dụ X.Z và X/Z). Theo cách giải thích này, các phương trình sau

đây không phải là hàm tuyến tính ở biến số:

E(Y) = B1 + B2X2i (5.9)

E(Y) = B1 + B2

ix

1 (5.10)

Đối với các mô hình hồi quy tuyến tính ở biến giải thích, thì tỷ lệ thay đổi trong biến

phụ thuộc theo một đơn vị thay đổi trong biến giải thích (độ dốc) là cố định. Trong khi

đó, các mô hình hồi quy phi tuyến ở biến giải thích, thì độ dốc thay đổi, ví dụ đạo hàm

bậc nhất của Y theo X ở phương trình (5.9) và (5.10) lần lượct là 2B2Xi và –B2(1/Xi2),

rõ ràng là phụ thuộc vào giá trị của X.

Tuyến tính ở tham số

Trung bình có điều kiện của biến phụ thuộc là một hàm tuyến tính của các hệ số hồi

quy; nhưng có thể tuyến tính hoặc phi tuyến ở biến số. Nghĩa là, các hệ số hồi quy

(Bs) chỉ có lũy thừa bậc một. Giống như hàm hồi quy tuyến tính ở biến số, một hàm

hồi quy tuyến tính ở tham số, ví dụ B2, nếu B2 có lũy thừa bậc một. Như vậy, hai mô

hình ở (5.9) và (5.10) đều là các mô hình tuyến tính ở tham số. Tuy nhiên, mô hình

sau đây không tuyến tính ở tham số:

E(Y) = B1 + B22Xi (5.11)

Trong cuốn sách này, ta chủ yếu quan tâm đến các mô hình tuyến tính ở tham số. Vì

thế, từ đây về sau khi nói đến hồi quy tuyến tính là tuyến tính ở tham số.

HỒI QUY ĐƠN VÀ HỒI QUY BỘI

Cho đến đây ta chỉ mới đề cập đến các mô hình hồi quy hai biến, hay còn gọi là các

mô hình hồi quy đơn trong đó biến phụ thuộc là một hàm của chỉ một biến giải thích.

Phân tích hồi quy đơn thông thường chỉ nhằm làm rõ các ý tưởng cơ bản trong phân

tích hồi quy vì nó vừa đơn giản vừa có khả năng mở rộng cho các trường hợp tổng

quát khác. Nhưng khái niệm hồi quy có thể được mở rộng dễ dàng cho các trường hợp

biến phụ thuộc là một hàm của nhiều hơn một biến giải thích. Ví dụ, nếu ta xem lượng

cầu nước đóng chai Aquafina là một hàm của giá bán (X2), thu nhập của hộ gia đình


(X3), và giá của nước đóng chai Lavi (X4), thì ta có thể viết phương trình đường cầu

như sau:

E(Y) = B1 + B2X2i + B3X3i + B4X4i (5. 12)

Lưu ý, E(Y) = E(Y/X2i, X3i, X4i)

Phương trình (5.12) là một ví dụ của một mô hình hồi quy tuyến tính đa biến. Hàm

hồi quy tuyến tính của một hộ gia đình cụ thể có thể được viết như sau:

Yi = B1 + B2X2i + B3X3i + B4X4i + ui (5.13)

= E(Y) + ui

Ước lượng và kiểm định mô hình hồi quy đa biến sẽ được trình bày chi tiết ở các

chương 8.

chương 5: nội dung cơ bản của phân tích hồi qui · pdf fileđường...

Documents