Chương 5: Một vài mô hình phi tuyến
Khi biến phụ thuộc là biến giả, chúng ta muốn tìmxác suất mà một sự kiện nào đó xảy ranên gọi là mô hình xác suất
Ví dụ:
Y =
1 nếu một sinh viên tốt nghiệp ra trường 0 nếu không tốt nghiệp
Y =
1 nếu một gia đình có vay được vốn từ ngân hàng 0 nếu không vay được
Mô hình xác suất tuyến tính - LPM
Chúng ta viết mô hình xác suất tuyến tính dưới dạng hồi qui thông thường như sau: Pi = Pr(Yi = 1|Xi) = E(Yi|Xi) = 1 +2Xi với E(Ui) = 0.
Kỳ vọng có điều kiện E(Yi|Xi) được giải thích như là xác suất có điều kiện để sự kiện khi biến Xi đã xảy ra.
Mô hình xác suất tuyến tính
Gọi:
Pi là xác suất Yi = 1 (sự kiện xảy ra), (1 – Pi) là xác suất Yi = 0 (sự kiện không xảy ra)
Vậy Yi theo phân phối Bernoulli, có kỳ vọng:
E(Yi) = 1.Pi + 0.(1 – Pi) = Pi E(Yi|Xi) = Pi
Vì E(Yi|Xi) là một xác suất nên: 0 E(Yi|Xi) 1
Mô hình xác suất tuyến tính
Ui = Yi - 1 - 2Xi Khi Yi = 1, Ui = 1 - 1 - 2Xi, với xác suất Pi, Khi Yi = 0, Ui = -1 -2Xi, với xác suất 1- Pi, Có hiện tượng phương sai sai số thay đổi, do
ui theo phân phối Bernoulli nên:
Var(Ui) = Pi(1 – Pi)
E(Yi|Xi)= 1 + 2Xi có thể vượt khoảng (0,1)
nếu Xi có giá trị lớn.
Mô hình Probit và Logit
Trong mô hình LPM Pi là phân phối tuyến tính
nên có nhiều nhược điểm, để khắc phục người ta đưa ra 2 trường hợp: Probit Logit Khi đó, chắc chắn 0 E(Yi|Xi) 1.
Mô hình logit và probit
YYE i i
P i
X
)
1 1 ( 2
i
Trong mô hình LPM Pi là phân phối tuyến tính nên có nhiều nhược điểm, để khắc phục người ta đưa ra 2 trường hợp: Mô hình logit:
e
1 z i
e
1
z i
z i
1
e
e
1
dt
P i
Mô hình probit: phân phối chuẩn tắc.
2 t 1 2 e 2
iz
Đây là các mô hình phi tuyến tính nên ước lượng bằng phương pháp ML (Maximum Likelihood)
Mô hình logit
z i
e
YYE i i
X
)
i
z i
z i
P i 1 1 ( 1 2 e 1 e 1 e
z i
1 z i 1
1
i
z i
i P
i P
i
i
Vế trái của phương trình này được gọi là tỉ số
log-odds.
Ui gọi là phân phối logistic
e Ln X L i z i 2 e P 1 1 P 1 e
Mô hình Probit
2
t 2
P
e
dt
X
i
2
1
i
1 2
z i
Pi có phân phối chuẩn tắc.
Mô hình Logic
. logit vayNH sex tuoichuho hocvanchuho sotienvay certificate
Iteration 0: log likelihood = -377.64138 Iteration 1: log likelihood = -348.64089 Iteration 2: log likelihood = -345.98255 Iteration 3: log likelihood = -345.75513 Iteration 4: log likelihood = -345.75429 Iteration 5: log likelihood = -345.75429
Logistic regression Number of obs = 696 LR chi2(5) = 63.77 Prob > chi2 = 0.0000 Log likelihood = -345.75429 Pseudo R2 = 0.0844
vayNH Coef. Std. Err. z P>|z| [95% Conf. Interval] sex -.1574344 .2402198 -0.66 0.512 -.6282566 .3133878 tuoichuho .0267135 .0079306 3.37 0.001 .0111698 .0422573 hocvanchuho .1134872 .0346411 3.28 0.001 .0455918 .1813826 sotienvay .0000178 8.54e-06 2.09 0.037 1.10e-06 .0000346 certificate .9645379 .2082512 4.63 0.000 .556373 1.372703 _cons -1.364872 .5362911 -2.55 0.011 -2.415983 -.3137609
Mô hình Probit
. probit vayNH sex tuoichuho hocvanchuho sotienvay certificate
Iteration 0: log likelihood = -377.64138 Iteration 1: log likelihood = -348.44045 Iteration 2: log likelihood = -348.19093 Iteration 3: log likelihood = -348.19084 Iteration 4: log likelihood = -348.19084
Probit regression Number of obs = 696 LR chi2(5) = 58.90 Prob > chi2 = 0.0000 Log likelihood = -348.19084 Pseudo R2 = 0.0780
vayNH Coef. Std. Err. z P>|z| [95% Conf. Interval] sex -.1200863 .1407926 -0.85 0.394 -.3960347 .1558622 tuoichuho .0162634 .0044407 3.66 0.000 .0075599 .024967 hocvanchuho .0712805 .019712 3.62 0.000 .0326457 .1099154 sotienvay 2.18e-06 1.80e-06 1.21 0.225 -1.35e-06 5.71e-06 certificate .5972062 .1242241 4.81 0.000 .3537314 .8406809 _cons -.7370974 .3123964 -2.36 0.018 -1.349383 -.1248117