
Kinh tÕ l−îng n©ng cao
BÀI 1 (tiếp theo)
HỒI QUY VỚI BIẾN GIẢ
3. HỒI QUY VỚI BIẾN PHỤ THUỘC LÀ ĐỊNH TÍNH.
Có nhiều hiện tượng kinh tế mà biến phụ thuộc lại là định tính nên phải dùng biến giả để đặc
trưng cho chúng. Chẳng hạn , có nhà hay không có nhà, có xe máy hay không có...
3.1. Mô hình xác suất tuyến tính - LPM.
a. Mô hình:
Xét mô hình sau:
Yi = β1 + β2Xi + ui (1)
Trong đó Xi là biến giải thích,
Yi là biến phụ thuộc rời rạc, chỉ nhận hai giá trị bằng 0 hoặc 1.
Mô hình (1) gọi là mô hình LPM.
Ký hiệu: Pi = P(Y = 1/Xi)
1 - Pi = P(Y = 0/Xi)
⇒ Yi ∼ A(Pi)
Với giả thiết E(Ui) = 0
E( Y/Xi) = β1 + β2Xi
Mặt khác do Yi ∼ A(Pi) nên
E(Y/Xi) = Pi
⇒ Pi = β1 + β2Xi = E(Y/Xi)
⇒ Do 0 ≤ Pi ≤ 1 nên 0≤ E(Y/Xi) ≤ 1
b. Các giả thiết của OLS trong mô hình LPM.
• Trong mô hình LPM phương sai của sai số ngẫu nhiên không đồng đều.
Thật vậy, ui = Yi - β1 - β2Xi
⇒ Var(ui) = Var( Yi - β1 - β2Xi) = Var(Yi)
Do Yi ∼ A(Pi) ⇒ Var(Yi) = Pi(1 - Pi)
⇒ Var(ui) = Pi(1 - Pi)
• Các sai số ngẫu nhiên không phân phối chuẩn. Phương pháp OLS không đòi hỏi ui phân phối
chuẩn, song để tiến hành các suy diễn thống kê thì cần đến giả thiết này. Trong LPM thì ui là
biến ngẫn nhiên rời rạc với bảng phân phối xác suất như sau:

Kinh tÕ l−îng n©ng cao
ui - β1 - β2Xi 1 - β1 - β2Xi
Pi 1 - Pi Pi
Tuy nhiên dù ui không phân phối chuẩn thì các ước lượng OLS vẫn là không chệch, và với
mẫu lớn thì ui sẽ tiệm cận chuẩn. Do đó có thể dùng OLS để ước lượng (1).
* Các ước lượng của E(Y/Xi) là Yˆi chưa chắc đã thoả mãn điều kiện 0 ≤ Yˆi ≤ 1.
• Ước Lượng của hệ số xác định R2 có thể thấp hơn thực tế.
c. Ước lượng mô hình.
Với các đặc điểm trên, thủ tục ước lượng mô hình LPM như sau
Bước 1. Dùng OLS ước lượng (1) thu được Yˆi.
Bước 2. Do ui có phương sai của sai số thay đổi nên phải khắc phục bằng phép đổi biến số.
Do chưa biết Pi nên dùng ước lượng của nó là Yˆi. Trước hết phải loại đi các quan sát có Yˆi <
0 và Yˆi > 1 và đặt:
Wi = Yˆi(1 - Yˆi)
đổi biến số và ước lượng mô hình sau:
Yi/Wi¦ = β1(1/ W
i
) + β2(Xi/W
i
) + ui/W
i
(2)
Từ kết quả ước lượng (2) suy ra ước lượng của mô hình xuất phát.
Ví dụ: điều tra ngẫu nhiên 40 gia đình theo hai chỉ tiêu:
Y = 1 nếu có nhà riêng
Y = 0 nếu không có nhà riêng
X là thu nhập ( ngàn USD/ năm)
GD Y X GD Y X
1 0 8 21 1 22
2 1 16 22 1 16
3 1 18 23 0 12
4 0 11 24 0 11
5 0 12 25 1 16
6 1 19 26 0 11
7 1 20 27 1 20

Kinh tÕ l−îng n©ng cao
8 0 13 28 1 18
9 0 9 29 0 11
10 0 10 30 0 10
11 1 17 31 1 17
12 1 18 32 0 13
13 0 14 33 1 21
14 1 20 34 1 20
15 0 6 35 0 11
16 1 19 36 0 8
17 1 16 37 1 17
18 0 10 38 1 16
19 0 8 39 0 7
20 1 18 40 1 17
Hãy ước lượng mô hình LPM và cho nhận xét.
2. Mô hình logit.
Như đã phân tích, mô hình LPM có nhiều nhược điểm. Mặc dù các nhược điểm này có thể
khắc phục được song nhược điểm lớn nhất là trong mô hình LPM ta đã giả thiết Pi phụ thuộc
tuyến tính vào Xi. Đó là điều không thực tế vì thông thường Pi phụ thuộc phi tuyến vào Xi.
Như vậy cần xây dựng mô hình thoả mãn hai điều kiện:
• Khi Xi tăng thì Pi cũng tăng song Pi∈ [0,1]
• Pi phụ thuộc phi tuyến vào Xi.
Có hai loại mô hình thoả mãn được các điều kiện trên là mô hình LOGIT và mô hình
PROBIT.
2.1. Mô hình LOGIT và phương pháp Berkson
( Phương pháp moment)
Trong mô hình LOGIT ta giả thiết rằng:
1
E(Y/Xi) = Pi = ---------------------- (3)
1 + e -(β1 + β2Xi)
Nếu đặt Zi = β1 + β2Xi thì (11) có dạng
1
Pi = ---------------- (4)

Kinh tÕ l−îng n©ng cao
1 + e - Zi
Phương trình (4) được gọi là hàm phân bố Logistic.
Biểu thức (4) có thể viết dưới dạng:
e Zi
Pi = ----------------
1 + e Zi
1
⇒ 1 - Pi = ----------------
1 + e Zi
Vì vậy Pi
------------ = e Zi (5)
1 - Pi
Lúc đó Pi/( 1 - Pi) là tỷ lệ cá cược có lợi cho việc chọn Y = 1. Chẳng hạn nếu Pi = 0.8 thì có
nghĩa là tỷ lệ cá cược là 4 ăn 1 cho việc chọn Y = 1.
Từ (5) ta có:
Ln(Pi/(1 - Pi)) = Zi = β1 + β2Xi
Đặt Li = ln(Pi/(1 - Pi)) = β1 + β2Xi + ui (6)
thì lúc đó Li không chỉ tuyến tính đối với biến số mà cả đối với tham số. Với mô hình (6) ta có
các nhận xét sau:
• Khi Z biến thiên từ -∞ đến +∞ , P biến thiên từ 0 đến 1 và L biến thiên từ -∞ đến +∞ , như vậy
dù P phải thuộc [0,1] song L vẫn không bị giới hạn.
• Dù L là hàm tuyến tính của X nhưng P không phải là hàm tuyến tính của X.
• Các hệ số của mô hình được giải thích như sau: β2 đo sự thay đổi của L khi X thay đổi một
đơn vị, β1 đo L khi X = 0.
* ƯƠC LƯƠNG MÔ HìNH
Do chưa biết Pi nên ta dùng ước lượng của chúng.Giả sử ứng với giá trị Xi trong mấu có Ni
phần tử, trong đó có ni phần tử(ni ≤ Ni) mà Yi = 1. Khi đó ước lượng điểm của Pi là tần suất:
ni
f
i = --------- (7)
Ni

Kinh tÕ l−îng n©ng cao
Dùng fi ước lượng được mô hình (6). Tuy nhiên do (6) có phương sai của sai số thay đổi vì fi
có phân phối nhị thức với E(fi) = Pi và Var(fi) = Pi(1 - Pi)/Ni và sẽ hội tụ chuẩn khi Ni khá
lớn. Từ đó có thể chứng minh rằng ui cũng phân phối xấp xỉ chuẩn với E(ui) = 0 và Var(ui) =
1/NiPi(1 - Pi).
Như vậy mô hình Logit cũng có phương sai của sai số thay đổi nên phải đổi biến số, trong
đó thay Var(ui) bằng ước lượng:
1
---------------------
Nifi(1 - fi)
Như vậy thủ tục ước lượng mô hình Logit bằng phương pháp Moment như sau:
Bước 1: Với mỗi Xi tính fi = ni/Ni , Li = Ln(fi/(1 - fi))
Và Wi = Nifi(1 - fi)
Bước 2: Dùng OLS hồi quy mô hình
Wi¦Li = β1W
i
+ β2W
i
Xi + W
i
ui (8)
Ví dụ: Cho các số liệu sau về thu nhập Xi( ngàn USD/năm),Ni là số gia đình có thu nhập tương
ứng và ni là số gia đình có nhà riêng:
X
i N
i n
i
6 40 8
8 50 12
10 60 18
13 80 28
15 100 45
20 70 36
25 65 39
30 50 33
35 40 30
40 25 20
Từ kết quả hồi quy, với mỗi Xi có thể tìm được các Pi tương ứng( ví dụ, với Xi = 10).
2.2 Phương pháp Golberger (phương pháp ước lượng hợp lý tối đa).
Phương pháp Berkson có hạn chế là đòi hỏi điều kiện 0 < fi < 1. Nếu có fi = 0 hoặc bằng 1
thì Ln(fi/(1 - fi)) là vô nghĩa. Lúc đó phải áp dụng phương pháp ước lượng hợp lý tối đa.
Trước hết viết lại mô hình Logit dưới dạng:
exp(β1 + β2X2i)
Pi = ----------------------------

