Hồi qui logistic

1

Các nội dung chính

Hồi qui của một biến lưỡng phân

Tỷ lệ (odds)

Mô hình logistic

Ước lượng của mô hình

Tỷ số tỉ lệ Odds ratio

2

Hồi qui của một biến lưỡng phân

 Xem xét mối liên hệ :

 Thành công hoặc thất bại của một doanh

nghiệp mới (y)

với các đặc điểm của chủ doanh nghiệp :

 Tuổi (x1)  Năm kinh nghiệm (x2)  Học vấn (x3)

3

Thiết lập mô hình thứ nhất

Mã hoá của y:

 y=1 nếu thành công

 y=0 nếu thất bại



Mô hình tuyến tính nói chung có dạng: b y

b

bb  0

x 33

x 22

x 11

Ý nghĩa :

E(y)=P(y=1)=

4

Các vấn đề

Vấn đề 1: Yêu cầu về phân phối chuẩn của các số sai số của mô hình (error) không được tôn trọng.

Vấn đề 2: Giả thiết về không có tự tương quan và phương sai không giống nhau của các sai số của mô hình (homoscédasticité) không được tôn trọng.

Vấn đề 3: y thể hiện một trị xác suất có giá trị từ 0 đến 1. Hàm hồi qui không thể đảm bảo điều đó.

5

Lựa chọn khác : phân tích tách biệt (discriminant)

X2

X1

Z=a1X1 + a2X2

6

Tỉ lệ (Odds)

 Tỷ tỉ lệ giữa xác suất quan sát một sự kiện trên

oddsE

xác suất không quan sát nó )E(P )E(P1 

 Ví dụ:

4

oddss

8,0 2,0

Nếu xác suất thành công của doanh nghiệp mới là )S(P 0,8, thì: )S(P1 

 Cơ hội để doanh nghiệp thành công gấp 4 lần so

với thất bại

7

Hàm lũy tích

F(x1)=P(X

f(X)

1

1

x1

0

X

0

8

Hồi qui logistic

 Thiết lập phương trình

Giải pháp là tìm ra mối liên hệ giữa y với x1, x2 và x3, mối liên hệ bảo đảm rằng y sẽ nằm trong khoảng giữa 0 và 1.

 Chúng ta thiết lập mô hình logarít của tỉ lệ (odds) :

b

b

x 11

x 33

1

 

 ln  

 bb 0 

2



)1y(P)y(E

1

b 

b 

x 22  bb   exp x 11 0  bb x  exp 1

0

 x 2 b x 2 2

 x 33 33 b x

1

9

Mô hình logistic

exp

x

0

1

  

)( yE

( yP

)1

x

1

0

1

 bb    bb  exp   

  

E(y)

1

x

0

Xác suất, tỉ lệ (odds), logarít là 3 dạng khác nhau của

cùng một thứ

10

Mô hình logistic

tiếp

E(y)

E(y)

1

1

x

x

0

0

11

Hồi qui logistic

tiếp

 Giả sử rằng ta có một biến phụ thuộc y có các giá trị là 0 và 1 mà ta cần giải thích bằng 3 biến độc lập liên tục x1, x2 và x3.

 Có một biến ngầm (cơ bản) y* không thể quan sát được

như sau đây :

*y

bbb

b



x 11

0

x 22

x 33

 y=1 với y*>0

12

 y=0 nếu y*<=0

Hồi qui logistic

tiếp

0

1

1

2

2

3

3

yP (  )1  P bbbb ( x     x x )0

1

1

2

2

3

3

0

yP (  )1  P bbbb ( x     x x )

0

1

1

2

2

3

3

yP (  1)1  F (   bbbb   x x x )

1

1

2

2

3

3

0

 Vậy, vấn đề trở thành việc xác định dạng của F

13

yP (  )1  F  bbbb (   x x x )

Hồi qui logistic

tiếp

 Trong số các dạng có thể, có :

y(P

)1

1

 Hàm logistic (Mô hình logit)  bb   exp x 11 0  bb x  exp 1

0

b  x 2 2 b x  2 2

 b x 3 3 3 b  x 3

1

ln

 bbbb

x

x

x

2

2

1

1

3

3

0

 YP ( YP  (

)1 

)1

1

  

  

 Hàm tích lũy của luật phân phối chuẩn (mô hình probit)

b

b

yP (



)1

x

x

0

1

2

3

 bb

1

2

3 x

14

Cực đại hàm hợp lý

 Cho X là một biến phân phối với tham số   Cho X1, X2, …, Xn là một số quan sát để từ đó ta

tìm cách xác định 

 Phương pháp cực đại hợp lý coi giá trị này của  phải là giá trị làm cực đại xác suất đạt được các giá trị quan sát trên X.

 Qui trình:

 Xác định hàm của , FV(), được gọi là hàm hợp lý, nó cho phép mô tả xác suất đạt được các giá trị quan sát của X

 Cực đại hóa hàm này đối với 

15

Cực đại hàm hợp lý

tiếp

 FV()=f(X1;)xf(X2;)x…xf(Xn;)

 Nếu X là một biến rời rạc, FV() là tích các xác suất

 Nếu X là một biến liên tục, FV() là tích các hàm mật độ

xác suất

 Cực đại hóa FV() hoặc hàm hợp lý

 FV() đạt cực đại với giá trị của  khi giá trị này bỏ đạo

hàm bậc nhất

0

FV )(  

16

Cực đại hàm hợp lý

tiếp

 Nhìn chung, việc thực hiện một phép biến đổi logarít của FV() khi nó có dạng là một tổng hàm của  sẽ tiện lợi hơn khi FV() là một tích.

 Vậy ta chỉ tính toán trên L()=logFV() mà người

ta gọi là hàm logarit hợp lý

 L() và FV() đạt cực đại với cùng giá trị 

0

 Vậy ta sẽ giải như sau: L )(  

17

Cực đại hàm hợp lý

tiếp

 Ví dụ về qui luật chuẩn

 Cho X là một biến phân phối chuẩn với các tham số

 et 2

 Ta có một mẫu với n quan sát X1, X2, …, Xn  Hàm mật độ của một biến X phân phối chuẩn là:

2

(

X

 )

1 2 

2

Xf (

)

e .

1  2

18

Cực đại hàm hợp lý

tiếp

 Đối với một giá cụ thể của Xi

1

2

(

 )

iX

2

 2

Xf (

)

e .

i

1  2

 Hàm hợp lý

n

n

2

(

 )

iX

n

1 2  2

2

i

1 

FV

 , (

)

( Xf

)

. e

 

i

i

1 

1  2

  

  

19

Cực đại hàm hợp lý

tiếp

 Hàm logarit hợp lý

n

n

2

2

 ( L ,

)

log

( Xf

)

n

log

(

X

 )

i

i

2

i

1

i

1 

1 2

2

1       

2

n

n

 Lấy đạo hàm ) L 

log

( Xf

)

(

X

 )

0

i

i

2

i

1 

i

1 

1 

2

n

L

)

2



(

X

 )

0

i

2

2

4

i

1 

 ( ,    ( ,  

n n   2

2

20

Cực đại hàm hợp lý

tiếp

Đánh giá cực đại của hàm hợp lý

n

 ˆ

X

X  

i

i

1 

n

2

2

 ˆ

(

X

X

)

i

i

1 

1 n 1 n

21

Ví dụ

 Trong 700 người vay tiền ngân hàng, ta có

thông tin sau :

 Người (y) khó khăn khi hoàn trả (1) hoặc

không khó khăn (0)

 Số năm làm việc với cùng một ông chủ

(employ)

 Tỷ số nợ so với thu nhập (nợ).

22

Ví dụ

tiếp

23

Ví dụ

tiếp

24

Ước lượng tổng quát của mô hình

Việc tính các hệ số được làm với sự trợ giúp của phép logarit lặp lại nhiều lần dựa trên phương pháp cực đại hàm hợp lý

Ứơc lượng tổng quát được làm với sự trợ giúp của

c2 (bậc tự do=số các biến độc lập)  c2 này kiểm định giả thiết không :

Omnibus Tests of Model Coefficients

H0: b1=b2=0

df

Sig.

Step 1

Step Block Model

Chi-square 173,282 173,282 173,282

2 2 2

,000 ,000 ,000

Mô hình này có ý nghiã về mặt tổng quát

25

Ước lượng tổng quát của mô hình

tiếp

R2 của Nagelkerke (tương tự như hệ số xác định)

Khi le –2 LL (log likelihood) càng nhỏ, thì mô hình

càng tốt

Model Summary

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

Step 1

631,083a

,219

,321

a.

Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

26

Lợi ích của mô hình

Mô hình là thú vị khi nó có một sự giải thích đối với

cách phân loại ngẫu nhiên đơn giản.

Classification Tablea

Predicted

difficulté à rembourser

Non

Oui

Percentage Correct

Step 1

Observed difficulté à rembourser

Non Oui

481 110

36 73

Overall Percentage

93,0 39,9 79,1

a.

The cut value is ,500

27

Lợi ích của mô hình

tiếp

Hosmer and Lemeshow Test

df

Sig.

Step 1

Chi-square 4,158

8

,843

 Một điều chỉnh tốt giữa các giá trị dự đoán và các giá trị thực tế được chỉ ra ra bởi một hệ số c2 không có nghĩa.

28

Các tiêu chí khác của việc so sánh

 Tiêu chí cực đại các cơ hội

 cốt là để xem rằng chúng ta dùng tất cả các quan

sát cho lớp có kích thước lớn nhất

 như vậy, trong ví dụ về lớp « không khó khăn »; phần trăm các quan sát được phân lớp rõ ràng sẽ là : (517/700)x100=73.93%

 Tiêu chí sử dụng ngẫu nhiên

 cốt là xem rằng chúng ta sử dụng tất cả các quan

sát một cách ngẫu nhiên

 như vậy, phần trăm các quan sát được sắp xếp rõ

29

ràng sẽ là: (517/700)2+(183/700)2=0.04 soit 4%

Ý nghĩa của tiêu chí cực đại các cơ hội

 Ta sử dụng một kiểm định tỉ lệ (một phía bên phải):

z

pp  0  p1p  0 0 n

n=kích thước mẫu

p=tỉ lệ các quan sát được phân lớp rõ ràng p0=tỉ lệ các quan sát được phân lớp rõ ràng theo tiêu chí cực đại các cơ hội

z

3.13

 0.791 0.739  1  0.739 0.739 700

30

Các dự đoán có ý nghĩa tốt nhất khi sử dụng ở nhóm có kích thước lớn hơn (giá trị tới hạn của z với mức 1%=2.05)

Q de Press

 Cho phép kiểm định mức ý nghĩa của việc sử dụng ngẫu

2

nhiên

de Q

Press

   k*nN   1kN 

N=kích thước mẫu

n= số các quan sát được phân lớp rõ ràng

2

 

k=số các nhóm  700 de Q Press

237.81

  554 2*   700  12

 Theo một c2 với 1 bậc tự do

31

Các dự đoán chỉ có ý nghĩa tốt hơn với phân lớp ngẫu nhiên đơn (giá trị tới hạn của c2 với mức 1% cho 1 bậc TD=6.63)

Ý nghĩa của các hệ số

 Kiểm định mức ý nghĩa của các hệ số được thực hiện dựa vào phép tính c2 cụ thể với 1 bậc tự do, c2 của Wald

 c2 này kiểm định giả thiết không :

Variable s in the Equation

H0: bi=0 cho mỗi hệ số

S.E.

df

Sig.

Exp(B)

Step a 1

employ dette Constant

B -,141 ,145 -1,693

,019 ,016 ,219

Wald 53,755 87,231 59,771

1 1 1

,000 ,000 ,000

,868 1,156 ,184

a.

Variable(s) entered on step 1: employ, dette.

32

 Cả hai hệ số này có ý nghĩa

Diễn giải các hệ số

 Đối loga (antilog) cuả hệ số bi ước lượng sự thay đổi trong tỉ lệ (odds) quan sát y=1 khi xi tăng lên 1 đơn vị, mọi thứ đều như nhau.

(eb1)-1= -.132

eb1=.868

 Thông thường, ta tính (ebi)-1, chỉ tiêu này chỉ ra phần trăm biến thiên trong tỉ lệ (odds). Các giá trị dương cho thấy một sự tăng lên trong tỉ lệ. Như vậy các giá trị âm cho thấy sự giảm đi  b1=-0.141  Cứ mỗi năm làm việc với cùng một ông chủ tăng thêm, sẽ làm giảm tỉ lệ khó khăn hoàn trả nợ là 13.2%. Vậy có nhiều cơ hội hơn để người vay tiền hoàn trả nợ mà không gặp vấn đề gì.

(eb2)-1=.156

eb2=1.156

33

 b2=0.145  Mức tăng 1% của chỉ số nợ làm tăng lên tỉ lệ khó khăn hoàn

trả nợ là 15.6%. Vậy có nhiều cơ hội (khả năng) hơn để người vay tiền gặp khó khăn khi trả nợ.

Quay lại các bảng chéo

 Giao nhau giữa loại công việc (nhà quản lý=1 nghề khác=0)

và giới tính (nam giới=1 phụ nữ=0)

EMPLOI * SEXE2 Crosstabulation

Count

Giới tính2

Nam giới (1)

Toal

công việc

nghề khác (0)

phụ nữ (0) 206

184

390

nhà quản lý (1)

10

74

84

Tổng

216

258

474

34

Tỷ số tỉ lệ (Odds ratio)

 Đối với nam giới, tỉ lệ làm quản lý là :

74

.0

402

258 74

1

258

 Đối với phụ nữ, tỉ lệ làm quản lý là :

10

.0

049

216 10

1

216

 Chỉ số tỉ lệ:

35

0.402/0.049=8.20 Vậy ta có cơ hội nhiều hơn gấp 8 lần để làm nhà quản lý nếu ta là nam giới.

Hồi qui logistic

Omnibus Tests of Model Coefficients

df

Sig.

Step 1

Step Block Model

Chi-square 52,640 52,640 52,640

1 1 1

,000 ,000 ,000

Model Summary

Nagelkerke R Square

Step 1

-2 Log likelihood 390,213

Cox & Snell R Square ,105

,173

36

Hồi qui logistic

tiếp

Classification Tablea,b

Predicted

EMPLOI

Percentage Correct

Step 0

Observed EMPLOI

autre (0) manager (1)

autre (0) 390 84

manager (1) 0 0

Overall Percentage

100,0 ,0 82,3

a.

Constant is included in the model.

b.

The cut value is ,500

Variable s in the Equation

S.E.

df

Sig.

Exp(B)

Step a 1

SEXE2 Constant

B 2,114 -3,025

,352 ,324

Wald 36,112 87,287

1 1

,000 ,000

8,285 ,049

a.

Variable(s) entered on step 1: SEXE2.

37

Các biến độc lập lưỡng phân

 Đối loga (antiloga) của hệ số bi cho ta chỉ số tỉ lệ, có nghĩa là, có khả năng biến phụ thuộc nhận giá trị 1 nhiều hơn giá trị 0 nếu biến độc lập cũng nhận giá trị 1 so với trường hợp mà nó đáng lẽ nhận giá trị 0.

38

Phép biến đổi để mô hình là tuyến tính suite

b

X

e

Y

Hàm

b

X

'Y

Phép biến đổi

 e1 Y ln  Y1

'Y

b

X

39

Dạng đường thẳng