Hồi qui logistic
1
Các nội dung chính
Hồi qui của một biến lưỡng phân
Tỷ lệ (odds)
Mô hình logistic
Ước lượng của mô hình
Tỷ số tỉ lệ Odds ratio
2
Hồi qui của một biến lưỡng phân
Xem xét mối liên hệ :
Thành công hoặc thất bại của một doanh
nghiệp mới (y)
với các đặc điểm của chủ doanh nghiệp :
Tuổi (x1) Năm kinh nghiệm (x2) Học vấn (x3)
3
Thiết lập mô hình thứ nhất
Mã hoá của y:
y=1 nếu thành công
y=0 nếu thất bại
Mô hình tuyến tính nói chung có dạng: b y
b
bb 0
x 33
x 22
x 11
Ý nghĩa :
E(y)=P(y=1)=
4
Các vấn đề
Vấn đề 1: Yêu cầu về phân phối chuẩn của các số sai số của mô hình (error) không được tôn trọng.
Vấn đề 2: Giả thiết về không có tự tương quan và phương sai không giống nhau của các sai số của mô hình (homoscédasticité) không được tôn trọng.
Vấn đề 3: y thể hiện một trị xác suất có giá trị từ 0 đến 1. Hàm hồi qui không thể đảm bảo điều đó.
5
Lựa chọn khác : phân tích tách biệt (discriminant)
X2
X1
Z=a1X1 + a2X2
6
Tỉ lệ (Odds)
Tỷ tỉ lệ giữa xác suất quan sát một sự kiện trên
oddsE
xác suất không quan sát nó )E(P )E(P1
Ví dụ:
4
oddss
8,0 2,0
Nếu xác suất thành công của doanh nghiệp mới là )S(P 0,8, thì: )S(P1
Cơ hội để doanh nghiệp thành công gấp 4 lần so
với thất bại
7
Hàm lũy tích
F(x1)=P(X f(X) 1 1 x1 0 X 0 8 Hồi qui logistic Thiết lập phương trình Giải pháp là tìm ra mối liên hệ giữa y với x1, x2 và x3, mối
liên hệ bảo đảm rằng y sẽ nằm trong khoảng giữa 0 và 1. Chúng ta thiết lập mô hình logarít của tỉ lệ (odds) : b b x
11 x
33 1
ln
bb
0
2 )1y(P)y(E 1 b
b
x
22
bb
exp
x
11
0
bb
x
exp
1 0
x
2
b
x
2
2 1 9 Mô hình logistic exp x 0 1
)(
yE (
yP )1 x 1 0 1
bb
bb
exp
E(y) 1 x 0 Xác suất, tỉ lệ (odds), logarít là 3 dạng khác nhau của cùng một thứ 10 Mô hình logistic tiếp E(y) E(y) 1 1 x x 0 0 11 Hồi qui logistic tiếp Giả sử rằng ta có một biến phụ thuộc y có các giá trị
là 0 và 1 mà ta cần giải thích bằng 3 biến độc lập liên
tục x1, x2 và x3. Có một biến ngầm (cơ bản) y* không thể quan sát được như sau đây : 0 y=1 với y*>0 12 y=0 nếu y*<=0 Hồi qui logistic tiếp 0 1 1 2 2 3 3 yP
( )1 P bbbb
(
x x x )0 1 1 2 2 3 3 0 yP
( )1 P bbbb
(
x x x ) 0 1 1 2 2 3 3 yP
( 1)1 F (
bbbb x x x ) 1 1 2 2 3 3 0 Vậy, vấn đề trở thành việc xác định dạng của F 13 yP
( )1 F
bbbb
( x x x ) Hồi qui logistic tiếp Trong số các dạng có thể, có : y(P )1 1 Hàm logistic (Mô hình logit)
bb
exp
x
11
0
bb
x
exp
1 0 b
x
2
2
b
x
2
2
b
x
3
3
3
b
x
3 1 ln
bbbb x x x 2 2 1 1 3 3 0
YP
(
YP
( )1
)1 1
Hàm tích lũy của luật phân phối chuẩn (mô hình probit) b b yP
( )1 x x 0 1 2 3
bb 1 2 3
x 14 Cực đại hàm hợp lý Cho X là một biến phân phối với tham số
Cho X1, X2, …, Xn là một số quan sát để từ đó ta tìm cách xác định Phương pháp cực đại hợp lý coi giá trị này của
phải là giá trị làm cực đại xác suất đạt được các giá
trị quan sát trên X. Qui trình: Xác định hàm của , FV(), được gọi là hàm hợp lý, nó cho
phép mô tả xác suất đạt được các giá trị quan sát của X Cực đại hóa hàm này đối với 15 Cực đại hàm hợp lý tiếp FV()=f(X1;)xf(X2;)x…xf(Xn;) Nếu X là một biến rời rạc, FV() là tích các xác suất Nếu X là một biến liên tục, FV() là tích các hàm mật độ xác suất Cực đại hóa FV() hoặc hàm hợp lý FV() đạt cực đại với giá trị của khi giá trị này bỏ đạo hàm bậc nhất 0 FV
)(
16 Cực đại hàm hợp lý tiếp Nhìn chung, việc thực hiện một phép biến đổi
logarít của FV() khi nó có dạng là một tổng hàm
của sẽ tiện lợi hơn khi FV() là một tích. Vậy ta chỉ tính toán trên L()=logFV() mà người ta gọi là hàm logarit hợp lý L() và FV() đạt cực đại với cùng giá trị 0 Vậy ta sẽ giải như sau:
L
)(
17 Cực đại hàm hợp lý tiếp Ví dụ về qui luật chuẩn Cho X là một biến phân phối chuẩn với các tham số et 2 Ta có một mẫu với n quan sát X1, X2, …, Xn
Hàm mật độ của một biến X phân phối chuẩn là: 2 ( X
) 1
2
2 Xf
( ) e
. 1
2 18 Cực đại hàm hợp lý tiếp Đối với một giá cụ thể của Xi 1 2 (
) iX 2
2 Xf
( ) e
. i 1
2 Hàm hợp lý n n 2 (
) iX n 1
2
2 2 i 1
FV
,
( ) (
Xf ) .
e i i 1
1
2
19 Cực đại hàm hợp lý tiếp Hàm logarit hợp lý n n 2 2
(
L
, ) log (
Xf ) n log ( X
) i i 2 i 1 i 1
1
2 2 1
2 n n Lấy đạo hàm
)
L
log (
Xf ) ( X
) 0 i i 2 i 1
i 1
1
2 n L ) 2 ( X
) 0 i 2 2 4 i 1
(
,
(
,
n
n
2 2 20 Cực đại hàm hợp lý tiếp Đánh giá cực đại của hàm hợp lý n
ˆ X X
i i 1
n 2 2
ˆ ( X X ) i i 1
1
n
1
n 21 Ví dụ Trong 700 người vay tiền ngân hàng, ta có thông tin sau : Người (y) khó khăn khi hoàn trả (1) hoặc không khó khăn (0) Số năm làm việc với cùng một ông chủ (employ) Tỷ số nợ so với thu nhập (nợ). 22 Ví dụ tiếp 23 Ví dụ tiếp 24 Ước lượng tổng quát của mô
hình Việc tính các hệ số được làm với sự trợ giúp của
phép logarit lặp lại nhiều lần dựa trên phương
pháp cực đại hàm hợp lý Ứơc lượng tổng quát được làm với sự trợ giúp của c2 (bậc tự do=số các biến độc lập)
c2 này kiểm định giả thiết không : H0: b1=b2=0 df Sig. Step 1 Step
Block
Model Chi-square
173,282
173,282
173,282 2
2
2 ,000
,000
,000 Mô hình này có ý nghiã về mặt tổng quát 25 Ước lượng tổng quát của mô
hình tiếp R2 của Nagelkerke (tương tự như hệ số xác định) Khi le –2 LL (log likelihood) càng nhỏ, thì mô hình càng tốt -2 Log
likelihood Cox & Snell
R Square Nagelkerke
R Square Step
1 631,083a ,219 ,321 a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than ,001. 26 Lợi ích của mô hình Mô hình là thú vị khi nó có một sự giải thích đối với cách phân loại ngẫu nhiên đơn giản. Predicted difficulté à rembourser Non Oui Percentage
Correct Step 1 Observed
difficulté à rembourser Non
Oui 481
110 36
73 Overall Percentage 93,0
39,9
79,1 a. The cut value is ,500 27 Lợi ích của mô hình tiếp df Sig. Step
1 Chi-square
4,158 8 ,843 Một điều chỉnh tốt giữa các giá trị dự đoán
và các giá trị thực tế được chỉ ra ra bởi một
hệ số c2 không có nghĩa. 28 Các tiêu chí khác của việc so
sánh Tiêu chí cực đại các cơ hội cốt là để xem rằng chúng ta dùng tất cả các quan sát cho lớp có kích thước lớn nhất như vậy, trong ví dụ về lớp « không khó khăn »;
phần trăm các quan sát được phân lớp rõ ràng sẽ
là :
(517/700)x100=73.93% Tiêu chí sử dụng ngẫu nhiên cốt là xem rằng chúng ta sử dụng tất cả các quan sát một cách ngẫu nhiên như vậy, phần trăm các quan sát được sắp xếp rõ 29 ràng sẽ là:
(517/700)2+(183/700)2=0.04 soit 4% Ý nghĩa của tiêu chí cực đại
các cơ hội Ta sử dụng một kiểm định tỉ lệ (một phía bên phải): z pp
0
p1p
0
0
n n=kích thước mẫu p=tỉ lệ các quan sát được phân lớp rõ ràng
p0=tỉ lệ các quan sát được phân lớp rõ ràng theo tiêu chí cực đại các cơ
hội z 3.13
0.791
0.739
1
0.739
0.739
700 30 Các dự đoán có ý nghĩa tốt nhất khi sử dụng ở nhóm có
kích thước lớn hơn (giá trị tới hạn của z với mức 1%=2.05) Q de Press Cho phép kiểm định mức ý nghĩa của việc sử dụng ngẫu 2 nhiên de Q Press
k*nN
1kN
N=kích thước mẫu n= số các quan sát được phân lớp rõ ràng 2
k=số các nhóm
700
de Q
Press 237.81
554
2*
700
12 Theo một c2 với 1 bậc tự do 31 Các dự đoán chỉ có ý nghĩa tốt hơn với phân lớp ngẫu nhiên
đơn (giá trị tới hạn của c2 với mức 1% cho 1 bậc TD=6.63) Ý nghĩa của các hệ số Kiểm định mức ý nghĩa của các hệ số được
thực hiện dựa vào phép tính c2 cụ thể với 1
bậc tự do, c2 của Wald c2 này kiểm định giả thiết không : H0: bi=0 cho mỗi hệ số S.E. df Sig. Exp(B) Step
a
1 employ
dette
Constant B
-,141
,145
-1,693 ,019
,016
,219 Wald
53,755
87,231
59,771 1
1
1 ,000
,000
,000 ,868
1,156
,184 a. Variable(s) entered on step 1: employ, dette. 32 Cả hai hệ số này có ý nghĩa Diễn giải các hệ số Đối loga (antilog) cuả hệ số bi ước lượng sự thay đổi trong
tỉ lệ (odds) quan sát y=1 khi xi tăng lên 1 đơn vị, mọi thứ
đều như nhau. (eb1)-1= -.132 eb1=.868 Thông thường, ta tính (ebi)-1, chỉ tiêu này chỉ ra phần trăm
biến thiên trong tỉ lệ (odds). Các giá trị dương cho thấy
một sự tăng lên trong tỉ lệ. Như vậy các giá trị âm cho thấy
sự giảm đi
b1=-0.141
Cứ mỗi năm làm việc với cùng một ông chủ tăng thêm, sẽ
làm giảm tỉ lệ khó khăn hoàn trả nợ là 13.2%. Vậy có nhiều
cơ hội hơn để người vay tiền hoàn trả nợ mà không gặp vấn
đề gì. (eb2)-1=.156 eb2=1.156 33 b2=0.145
Mức tăng 1% của chỉ số nợ làm tăng lên tỉ lệ khó khăn hoàn trả nợ là 15.6%. Vậy có nhiều cơ hội (khả năng) hơn để người
vay tiền gặp khó khăn khi trả nợ. Quay lại các bảng chéo Giao nhau giữa loại công việc (nhà quản lý=1 nghề khác=0) và giới tính (nam giới=1 phụ nữ=0) Count Giới tính2 Nam giới (1) Toal công việc nghề khác (0) phụ nữ (0)
206 184 390 nhà quản lý (1) 10 74 84 Tổng 216 258 474 34 Tỷ số tỉ lệ (Odds ratio) Đối với nam giới, tỉ lệ làm quản lý là : 74 .0 402 258
74 1 258 Đối với phụ nữ, tỉ lệ làm quản lý là : 10 .0 049 216
10 1 216 Chỉ số tỉ lệ: 35 0.402/0.049=8.20
Vậy ta có cơ hội nhiều hơn gấp 8 lần để làm nhà
quản lý nếu ta là nam giới. Hồi qui logistic df Sig. Step 1 Step
Block
Model Chi-square
52,640
52,640
52,640 1
1
1 ,000
,000
,000 Nagelkerke
R Square Step
1 -2 Log
likelihood
390,213 Cox & Snell
R Square
,105 ,173 36 Hồi qui logistic tiếp Predicted EMPLOI Percentage
Correct Step 0 Observed
EMPLOI autre (0)
manager (1) autre (0)
390
84 manager (1)
0
0 Overall Percentage 100,0
,0
82,3 a. Constant is included in the model. b. The cut value is ,500 S.E. df Sig. Exp(B) Step
a
1 SEXE2
Constant B
2,114
-3,025 ,352
,324 Wald
36,112
87,287 1
1 ,000
,000 8,285
,049 a. Variable(s) entered on step 1: SEXE2. 37 Các biến độc lập lưỡng phân Đối loga (antiloga) của hệ số bi cho ta chỉ số tỉ lệ, có nghĩa
là, có khả năng biến phụ thuộc nhận giá trị 1 nhiều hơn giá
trị 0 nếu biến độc lập cũng nhận giá trị 1 so với trường hợp
mà nó đáng lẽ nhận giá trị 0. 38 Phép biến đổi để mô hình là tuyến tính
suite b X e Y Hàm b X 'Y Phép biến đổi
e1
Y
ln
Y1 'Y b X 39 Dạng đường thẳng
x
33
33
b
x
*y
bbb
b
x
11
x
22
x
33
Omnibus Tests of Model Coefficients
Model Summary
Classification Tablea
Hosmer and Lemeshow Test
Variable s in the Equation
EMPLOI * SEXE2 Crosstabulation
Omnibus Tests of Model Coefficients
Model Summary
Classification Tablea,b
Variable s in the Equation