Chương 5: Một vài mô hình phi tuyến

 Khi biến phụ thuộc là biến giả, chúng ta muốn tìmxác suất mà một sự kiện nào đó xảy ranên gọi là mô hình xác suất

 Ví dụ:

Y =

1 nếu một sinh viên tốt nghiệp ra trường 0 nếu không tốt nghiệp

Y =

1 nếu một gia đình có vay được vốn từ ngân hàng 0 nếu không vay được

Mô hình xác suất tuyến tính - LPM

 Chúng ta viết mô hình xác suất tuyến tính dưới dạng hồi qui thông thường như sau: Pi = Pr(Yi = 1|Xi) = E(Yi|Xi) = 1 +2Xi với E(Ui) = 0.

 Kỳ vọng có điều kiện E(Yi|Xi) được giải thích như là xác suất có điều kiện để sự kiện khi biến Xi đã xảy ra.

Mô hình xác suất tuyến tính

 Gọi:

 Pi là xác suất Yi = 1 (sự kiện xảy ra),  (1 – Pi) là xác suất Yi = 0 (sự kiện không xảy ra)

 Vậy Yi theo phân phối Bernoulli, có kỳ vọng:

E(Yi) = 1.Pi + 0.(1 – Pi) = Pi E(Yi|Xi) = Pi

 Vì E(Yi|Xi) là một xác suất nên: 0  E(Yi|Xi)  1

Mô hình xác suất tuyến tính

Ui = Yi - 1 - 2Xi Khi Yi = 1, Ui = 1 - 1 - 2Xi, với xác suất Pi, Khi Yi = 0, Ui = -1 -2Xi, với xác suất 1- Pi,  Có hiện tượng phương sai sai số thay đổi, do

ui theo phân phối Bernoulli nên:

Var(Ui) = Pi(1 – Pi)

 E(Yi|Xi)= 1 + 2Xi có thể vượt khoảng (0,1)

nếu Xi có giá trị lớn.

Mô hình Probit và Logit

 Trong mô hình LPM Pi là phân phối tuyến tính

nên có nhiều nhược điểm, để khắc phục người ta đưa ra 2 trường hợp:  Probit  Logit Khi đó, chắc chắn 0  E(Yi|Xi)  1.

Mô hình logit và probit

 YYE i i

 P i

X

)

1 1   ( 2

i

Trong mô hình LPM Pi là phân phối tuyến tính nên có nhiều nhược điểm, để khắc phục người ta đưa ra 2 trường hợp: Mô hình logit:

e

1  z i

e

1 

z i

z i

1

e

e

1

dt

P i

Mô hình probit: phân phối chuẩn tắc.

 2 t  1 2 e  2

iz  

Đây là các mô hình phi tuyến tính nên ước lượng bằng phương pháp ML (Maximum Likelihood)

Mô hình logit

z i

e

 

 YYE i i

X

)

i

z i

z i

 P i 1  1   ( 1 2 e 1   e 1  e

z i

1 z i 1 

1

i

z i

i P

i P

i

i

 Vế trái của phương trình này được gọi là tỉ số

log-odds.

 Ui gọi là phân phối logistic

  e Ln  X L i z i   2 e  P  1 1 P  1  e      

Mô hình Probit

2

 t 2

P

e

dt

X

i

  2

1

i

1  2

z i  

 Pi có phân phối chuẩn tắc.

Mô hình Logic

. logit vayNH sex tuoichuho hocvanchuho sotienvay certificate

Iteration 0: log likelihood = -377.64138 Iteration 1: log likelihood = -348.64089 Iteration 2: log likelihood = -345.98255 Iteration 3: log likelihood = -345.75513 Iteration 4: log likelihood = -345.75429 Iteration 5: log likelihood = -345.75429

Logistic regression Number of obs = 696 LR chi2(5) = 63.77 Prob > chi2 = 0.0000 Log likelihood = -345.75429 Pseudo R2 = 0.0844

vayNH Coef. Std. Err. z P>|z| [95% Conf. Interval] sex -.1574344 .2402198 -0.66 0.512 -.6282566 .3133878 tuoichuho .0267135 .0079306 3.37 0.001 .0111698 .0422573 hocvanchuho .1134872 .0346411 3.28 0.001 .0455918 .1813826 sotienvay .0000178 8.54e-06 2.09 0.037 1.10e-06 .0000346 certificate .9645379 .2082512 4.63 0.000 .556373 1.372703 _cons -1.364872 .5362911 -2.55 0.011 -2.415983 -.3137609

Mô hình Probit

. probit vayNH sex tuoichuho hocvanchuho sotienvay certificate

Iteration 0: log likelihood = -377.64138 Iteration 1: log likelihood = -348.44045 Iteration 2: log likelihood = -348.19093 Iteration 3: log likelihood = -348.19084 Iteration 4: log likelihood = -348.19084

Probit regression Number of obs = 696 LR chi2(5) = 58.90 Prob > chi2 = 0.0000 Log likelihood = -348.19084 Pseudo R2 = 0.0780

vayNH Coef. Std. Err. z P>|z| [95% Conf. Interval] sex -.1200863 .1407926 -0.85 0.394 -.3960347 .1558622 tuoichuho .0162634 .0044407 3.66 0.000 .0075599 .024967 hocvanchuho .0712805 .019712 3.62 0.000 .0326457 .1099154 sotienvay 2.18e-06 1.80e-06 1.21 0.225 -1.35e-06 5.71e-06 certificate .5972062 .1242241 4.81 0.000 .3537314 .8406809 _cons -.7370974 .3123964 -2.36 0.018 -1.349383 -.1248117