intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng thể nhân

Chia sẻ: Badkid Badkid | Ngày: | Loại File: PDF | Số trang:18

462
lượt xem
165
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mô hình định mức tín nhiệm thể nhân được đặt ra cách đây 50 năm nhằm xây dựng phương pháp lượng hóa khả năng thanh toán và mức độ tín nhiệm của khách hàng trong giao dịch. Công tác này giúp ngân hàng và các tổ chức tín dụng quyết định có hay không cung cấp các dịch vụ cho khách hàng.

Chủ đề:
Lưu

Nội dung Text: Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng thể nhân

  1. Phương Pháp Th ng Kê Xây D ng Mô Hình Đ nh M c Tín Nhi m Khách Hàng Th Nhân Vương Quân Hoàng∗ Đào Gia Hưng† Nguy n Văn H u‡ , , , § ¶ Tr n Minh Ng c, Lê H ng Phương Ngày 10 tháng 5 năm 2006 Tóm t t n i dung In this paper, we consider the problem of credit scoring for personal customer. The main statistical tools used to establish credit scoring sys- tem are theory of classification and discrimination. Our method is illus- trated on the credit customer dataset of a Trade Bank. 1 Gi i thi u Mô hình đ nh m c tín nhi m th nhân đư c đ t ra cách đây 50 năm nh m xây d ng phương pháp lư ng hoá kh năng thanh toán và m c đ tín nhi m c a khách hàng trong giao d ch. Công tác này giúp các ngân hàng và t ch c tín d ng quy t đ nh có hay không cung c p các d ch v cho khách hàng. L i ích c a mô hình đem l i r t rõ nét, n i b t là gi m thi u chi phí phân tích thông tin (nh t là khi s lư ng ngư i s d ng các d nh v ngân hàng ngày càng l n); giúp đưa ra quy t đ nh nhanh chóng, chính xác và khách quan; gi m thi u r i ro tín d ng, đ m b o t i đa vi c thu h i tài chính. M t trong các phương pháp ti p c n mô hình đ nh m c tín nhi m khách hàng là gi i quy t bài toán phân tích phân bi t, nh n bi t hay là x p m t cá th vào m t trong các nhóm khách hàng mà có s khác nhau tương đ i gi a các nhóm. Bài toán phân nhóm m t t p h p đư c Fisher gi i thi u l n đ u tiên vào năm 1936 khi ti n hành phân lo i đ c tính cây Irit d a trên s li u v kích thư c bên ngoài c a cây. David Duran (1941) là ngư i đ u tiên ng d ng ∗ Email: qvuong@ulb.ac.be; Centre Emile Bernheim, ULB, 21 F.D.Roosevelt, B-1050, Bruxelles † Ngân hàng Techcombank ‡ Email:huunv@vnu.edu.vn; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN § Email:ngoctm@vnu.edu.vn; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN ¶ Email:phuonglh@vnu.edu.vn; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN 1
  2. 2 phương pháp đó vào vi c phân bi t các kho n n t t và kho n n x u. Sau đó nhi u công ty tín d ng đã xây d ng các hình th c sơ khai c a h th ng đ nh m c tín nhi m th nhân d a trên các nguyên lý th ng kê, và các h th ng này đã nhanh chóng t rõ s c m nh c a nó trong vi c giúp các t ch c tín d ng ra quy t đ nh. S ki n đánh d u t m quan tr ng c a mô hình đ nh m c tín nhi m th nhân là vi c thông qua đ o lu t Cơ H i Tín D ng Ngang B ng M năm 1975-1976, n i dung ch y u c a đ o lu t này là c m s phân bi t đ i x trong vi c c p tín d ng tr khi nó đư c ch ng minh trên cơ s th ng kê. Có th hình dung mô hình như sau. M i khách hàng đ n giao d ch xin c p tín d ng s đư c yêu c u cung c p các thông tin b n thân. Thông tin là m t vector k-chi u (k d u hi u) X = (X1, ..., Xk) bao g m các d u hi u như tu i tác, trình đ h c v n, m c thu nh p, tình tr ng hôn nhân, chênh l ch thu chi, dư n hi n t i,... Và phương pháp chúng tôi đ xu t (g i là phương pháp I) gi i quy t bài toán đ nh m c tín nhi m th nhân s bao g m các bài toán 1. Xác đ nh các d u hi u nên đưa vào đ l y thông tin v khách hàng, nên hay không nên đưa vào d u hi u nào? 2. Xây d ng thang đi m cho các d u hi u. 3. T m u N khách hàng, phân chia thành các nhóm, ch ng h n "t t", "t t v a", "x u",.. Đây chính là n i dung c a bài toán phân lo i. 4. V i m t khách hàng X, xây d ng quy t c ra quy t đ nh x p X vào nhóm nào? Và đây chính là n i dung c a bài toán phân tích phân bi t. Chú ý. Ngoài phương pháp trên, chúng ta có th xét phương pháp khác (s g i là phương pháp II), mà khác cơ b n phương pháp trên như sau: Bài toán 1 và 2 như trên và 3’. Xác đ nh tr ng s cho m i d u hi u, tr ng s này đ c trưng cho t m quan tr ng c a d u hi u đó đ i v i kh năng thanh toán c a khách hàng. Gi s βl là tr ng s c a d u hi u Xl, và n u g i s(X) là hàm đi m tín d ng c a khách hàng X = (X1, ..., Xk) thì s(X) = β1X1 + ... + βk Xk . 4’. Xây d ng mô hình ra quy t đ nh tín d ng d a trên hàm đi m tín d ng s(X). V i bài toán 1, yêu c u đ u tiên v các d u hi u đưa vào là các d u hi u không tương quan v i nhau, sau đó là yêu c u đưa vào các d u hi u sao cho đ c trưng đư c nhi u nh t thông tin v kh năng tín d ng c a khách hàng.
  3. 3 Sau cùng có th tính đ n các yêu c u như các d u hi u đó giúp khách hàng d tr l i, ngân hàng d ch ng th c tính đúng đ n,... Ví d t i ngân hàng Techcombank các d u hi u đư c đưa vào như: tu i tác, trình đ h c v n, lo i hình công vi c, m c thu nh p, chênh l ch thu chi, tình tr ng hôn nhân, s ngư i s ng ph thu c, nơi cư trú, th i gian cư trú, phương ti n đi l i, phương ti n thông tin, uy tín trong giao d ch, quan h v i Techcombank, dư n ,... Bài toán th 2 s r t quan tr ng n u chúng ta xét phương pháp II b i nó nh hư ng r t nhi u đ n hàm đi m tín d ng s(X) và nó đòi h i nhi u k thu t ph c t p trong vi c l p thang đi m cho m i d u hi u. Tuy nhiên v i phương pháp I, bài toán này có l không đòi h i các k thu t tinh t l m, b i ta ch c n xác đ nh thang đi m sao cho d n đ n s khác nhau tương đ i gi a các nhóm khách hàng mà s đư c phân l p trong bài toán 3. Trong các bài toán đư c đ t ra trên có th nói bài toán 3 và bài toán 4 là quan tr ng nh t và cũng ph c t p nh t. Trong bài báo này chúng tôi t p trung gi i quy t hai bài toán đó. C u trúc bài báo như sau. M c 2 gi i quy t bài toán 3, bài toán phân l p khách hàng. M c 3 trình bày l i gi i bài toán 4: xây d ng quy t c đánh giá m c tín nhi m khách hàng. M c 4 trình bày các k t qu tính toán t d li u các khách hàng c a ngân hàng Techcombank cùng v i m t vài nh n xét và bình lu n. 2 Phân l p khách hàng Xét m t m u g m N khách hàng (cá th ), khách hàng th i có vector d u hi u là X (i) = (Xi1 , ..., Xik), i = 1, ..., N. Vi c phân nhóm các cá th s đư c th c hi n d a trên khái ni m kho ng cách đo s khác nhau gi a các cá th , ta s ký hi u d(i, j) là kho ng cách gi a cá th th i và th j d a trên d u hi u X (i), X (j) tương ng. Có nhi u đ nh nghĩa cho kho ng cách gi a các cá th , thư ng s d ng các kho ng cách sau: Kho ng cách Euclide k 1/2 2 d1 (i, j) = (Xil − Xjl ) . l=1 Kho ng cách th ng kê 1/2 d2 (i, j) = (X (i) − X (j))A(X (i) − X (j))T trong đó A là m t ma tr n đ i x ng xác d nh dương c p N , và thư ng đư c ch n là S −1 v i S là ma tr n hi p phương sai m u.
  4. 4 Kho ng cách đ nh tính 1 d3(i, j) = 1 + s(i, j) trong đó k l=1 Xil δ(Xil − Xjl) s(i, j) = k k , l=1 Xil δ(Xil − Xjl ) + l=1 (1 − δ(Xil − Xjl )) v i δ(x − y) = 1 n u x = y và 0 n u x = y, là h s tương t đo s g n nhau c a cá th i và j. Nh n xét. Kho ng cách d1, d2 thư ng đư c dùng đ tính toán cho các d u hi u đ nh lư ng, còn d3 đư c dùng v i các d u hi u đ nh tính. N u vector các d u hi u khách hàng X (i) bao g m c các d u hi u đ nh lư ng và đ nh tính thì kho ng cách s là t ng c a hai kho ng cách đ nh lư ng và đ nh tính. Ta ký hi u D = (d(i, j))i,j=1,...,N là ma tr n kho ng cách. Có nhi u phương pháp phân l p d a trên ma tr n kho ng cách D, như phương pháp phân l p theo th b c, phương pháp K- trung bình. Theo kinh nghi m c a chúng tôi, trong trư ng h p này nên dùng phương pháp K-trung bình, khi đó các nhóm k t qu nh n đư c s khác nhau tương đ i v b n ch t, đ c trưng cho các nhóm khách hàng "t t", "x u". Phương pháp K-trung bình đư c J. B. MacQueen đưa ra năm 1967. Thu t toán có 3 bư c 1. Phân chia (ng u nhiên) các cá th vào K nhóm. 2. Tính tâm c a t ng nhóm. Phân ph i l i các cá th : x p m t cá th vào nhóm có tâm g n nó nh t. Có nhi u khái ni m tâm c a nhóm, và thư ng là vector trung bình các d u hi u c a nhóm, còn kho ng cách thư ng dùng là kho ng cách Euclide. 3. L p l i bư c 2 cho đ n khi không còn s phân ph i l i các cá th . M t v n đ đ t ra là khi nào hai l p đư c xem là đ khác nhau? Hay nói cách khác, chúng ta c n ph i th c hi n bài toán ki m đ nh s khác nhau gi a các l p. Xét hai l p A và B v i các cá th c a l p A là (xj1 , ..., xjk), j = 1, ..., n1 và các cá th c a l p B là (yj1 , ..., yjk), j = 1, ..., n2.
  5. 5 G i X, Y l n lư t là tâm c a nhóm A và B: X = (x1, ..., xk ), Y = (y 1, ..., yk ) trong đó n1 n2 1 1 xl = xjl , y l = yjl , l = 1, ..., k. n1 n2 j=1 j=1 Đ t (1) (2) S (1) = (sij )i,j=1,...,k , S (2) = (sij )i,j=1,...,k l n lư t là ma tr n hi p phương sai m u c a hai nhóm, trong đó n1 n2 (1) 1 (2) 1 sij = xil xjl − xi xj , sij = yil yjl − y i y j . n1 n2 l=1 l=1 Xét kho ng cách Hotelling đư c đ nh nghĩa b i T 2 = (X − Y )T S −1 (X − Y ) trong đó 1 S= [n1S (1) + n2 S (2)]. n1 + n 2 Ngư i ta ch ng minh đư c r ng n u hai nhóm A, B là m t nhóm thì khi n1 , n2 l n T 2 s có phân ph i x p x phân ph i χ2 v i k b c t do. T đó ta có quy t c sau: N u T 2 > χ2 (α) thì hai l p A, B đư c coi là tách bi t nhau k m t cách có ý nghĩa. 3 Phân bi t khách hàng D a trên k t qu phân l p trong m c trên, trong m c này chúng tôi gi i quy t bài toán ti p theo: V i m t khách hàng có vector d u hi u x, xây d ng quy t c x p nhóm cho khách hàng đó. Chúng tôi trình bày hai phương pháp gi i quy t bài toán đó trong hai m c tương ng, M c 3.1 và M c 3.2. 3.1 Phương pháp h i quy v i bi n ph thu c nh nguyên Gi s t p các khách hàng đư c đánh s 1, 2, . . ., N đã đư c phân chia thành 2 nhóm A và B. D u hi u Xl nh n giá tr trong t p h u h n El = {el1 , el2, . . . , elml }, l = 1, ..., k. Nhóm A g m các khách hàng “t t”, nhóm B g m các khách hàng “không t t”. Đ t s cá th thu c nhóm A π= N
  6. 6 là t l khách hàng thu c nhóm A; 1 − π là t l khách hàng thu c nhóm B. Ta có th dùng bi n Z đ đ c trưng cho khách hàng thu c nhóm A ho c nhóm B: 1, n u khách hàng thu c nhóm A, Z= 0, n u khách hàng thu c nhóm B. Như v y khách hàng th i s có đ c trưng là Zi v i 1, n u i ∈ A, Zi = 0, n u i ∈ B. Gi s x = (x1, x2, . . . , xk ) là véc-tơ d u hi u c a m t khách hàng. Ta c n tính xác su t sau: P (Z = 1|X = x) := P (x), (1) đây là xác su t khách hàng có vector d u hi u x thu c nhóm A. Ta có công th c sau P (Z = 1).P (X = x|cá th thu c nhóm A) P (x) = P (X = x) πP (X = x|A) = , (2) πP (X = x|A) + (1 − π)P (X = x|B) trong đó kí hi u P (X = x|A) = P (X = x|cá th thu c nhóm A). Có P (Z = 0|X = x) = 1 − P (x). Ta mong mu n ư c lư ng xác su t P (x) d a trên m u (Zi, X (i)), i = 1, 2, . . ., N . V i các d u hi u có giá tr đư c phân thành t ng kho ng (categorical vari- ables), ngư i ta th y r ng P (x) có d ng k P (x) = 1 − F (−β T x), v i βT x = βi xi , (3) i=1 trong đó F (y) là hàm phân b xác su t nào đó, β = (β1, . . . , βk )T là các tham s ph i ư c lư ng. Xét mô hình h i quy phi tuy n sau đây: Zi = 1 − F (−β T X (i)) + i , i = 1, 2, . . . , N, (4) trong đó i là sai s ng u nhiên v i E i = 0.
  7. 7 Có th coi (4) là mô hình th c nghi m c a mô hình lí thuy t sau đây : Z = 1 − F (−β T X) + , E = 0. Do đó E(Z|X) = P (Z = 1|X) = 1 − F (−β T X). Ta s ư c lư ng véc-tơ β b ng phương pháp h p lí c c đ i, t c tìm β sao cho N log L(β) := Zi log(1 − F (−β T X (i))) + (1 − Zi ) log F (−β T X (i)) (5) i=1 đ t giá tr c c đ i. Các hàm phân b sau đây thư ng đư c dùng trong (4) và (5): x 1 2 /2 • Hàm phân b chu n F (x) = √ e−t dt 2π −∞ ex • Hàm phân b logistic F (x) = 1 + ex • Hàm phân b Weibul F (x) = exp(− exp(−x)). Trong công trình này, chúng tôi s d ng F là hàm phân b logistic vì nó thích h p v i các bi n r i r c (categorical variables). Sau khi tìm đư c ư c lư ng β c a β ta thu đư c P (x) = 1 − F (−xT β), (6) và i = Zi − P (X (i)), i = 1, 2, . . ., N (7) là các ph n dư. Gi s m t ph n t m i có véc-tơ d u hi u là X, khi đó ta gán cá th đó vào l p A n u P (x) > 0.5 và vào l p B n u P (x) ≤ 0.5. M i nhóm A và B l i có th phân thành các nhóm con, ví d theo quy t c sau: Gán ph n t có d u hi u X vào • l p A1 n u P (x) > 0.8 • l p A2 n u 0.65 < P (x) ≤ 0.8 • l p A3 n u 0.5 < P (x) ≤ 0.65 • l p B1 n u 0.35 < P (x) ≤ 0.5 • l p B2 n u 0.2 < P (x) ≤ 0.35
  8. 8 • l p B3 n u 0 < P (x) ≤ 0.2 Đ đánh giá hi u năng c a quy t c phân bi t khách hàng, ta tính các đ i lư ng sau • T l phân bi t đúng – T l cá th thu c l p B v i P (X (i)) ≤ 0.5 – T l cá th thu c l p A v i P (X (i)) > 0.5 • S trung bình các cá th phân bi t đúng – S trung bình các cá th thu c l p B có P (X (i)) ≤ 0.5 – S trung bình cá th thu c l p A v i P (X (i)) > 0.5 Ta c n v đ th các ph n dư i và ki m tra xem các ph n dư có tương quan hay không. Đ đánh giá s góp ph n c a các bi n vào xác su t P (x) = 1 − F (−β T x), ta chú ý r ng n u f (x) = F (x) là hàm m t đ c a hàm phân b F (x) thì ∂P = f (−β T x)βi . (8) ∂xi Như v y, n u βi > 0 thì xi góp ph n làm tăng P (x) khi xi tăng. Ngư c l i, n u βi < 0 thì xi góp ph n làm gi m P (x) khi xi tăng. Hơn n a, ta có ∂P/∂xi βi = . (9) ∂P/∂xj βj Do đó tác đ ng c a bi n xi s cao hơn tác đ ng c a bi n xj n u |βi| > |βj |. Danh sách các đ c trưng c a m i khách hàng c a Techcombank và các k t qu v ư c lư ng tham s β và sau đó ư c lư ng xác su t P (x) cũng như vi c đánh giá hi u năng c a quy t c phân bi t khách hàng đư c t ng k t trong M c 4. 3.2 Thu t toán phân bi t khách hàng v i các d u hi u đ nh tính và đ nh lư ng Gi s X (i) = (Xi1, . . ., Xim ) là véc-tơ d u hi u c a khách hàng th i, v i i = 1, 2, . . ., N , trong đó có r thành ph n đ nh tính Xi1, . . . , Xir , và có m − r thành ph n đ nh lư ng Xi,r+1 , . . . , Xim. Kí hi u l i Y (i) = (Xi1, . . . , Xir) ∈ E1 × · · · × Er ⊂ Rr , Z (i) = (Xi,r+1, . . . , Xim) ∈ Rm−r = Rs ,
  9. 9 trong đó s = m − r. Như v y X (i) = (Y (i), Z (i)). Vì Y (i) là các d u hi u đ nh tính nên t p Ei ch g m m t s h u h n giá tr Xi1 ∈ E1 = {e11, . . . , e1m1 } Xi2 ∈ E2 = {e21, . . . , e2m2 } . . . Xir ∈ Er = {er1 , . . . , ermr } Gi thi t Z (i) có phân b chu n s chi u, Z (i) ∼ Ns(µ, Σ), µ ∈ Rs ; Σ là ma tr n xác đ nh dương c p s × s. Ta kí hi u nhóm A (nhóm khách hàng “t t”) g m các ph n t có ch s 1, 2, . . ., M ; B (nhóm khách hàng “không t t”) g m các ch s M + 1, . . ., N . Gi thi t r ng • Z (i) ∼ Ns (µA , Σ) n u cá th th i ∈ A, • Z (i) ∼ Ns (µB , Σ) n u cá th th i ∈ B. Đ t π = M là t l s các khách hàng thu c nhóm A. Kí hi u Y = (X1, . . . , Xr ) N là bi n ng u nhiên r i r c bao g m các d u hi u đ nh tính c a khách hàng và Z = (Xr+1, . . . , Xm) là các d u hi u đ nh lư ng c a m i khách hàng. G i C(1|2) là t n th t gây ra khi gán m t ph n t thu c nhóm B vào nhóm A, C(2|1) là t n th t gây ra khi gán m t ph n t thu c nhóm A vào nhóm B. Hai h ng s này đư c cho trư c, ch ng h n các chuyên gian ngân hàng cho r ng C(1|2) = C(2|1). Gi s m t khách hàng m i đ n đăng kí vay tín d ng có d u hi u là x = (y, z), v i y ∈ E1 × · · · × Er , z ∈ Rs . Kí hi u P (Y = y|A) là xác su t đ Y nh n giá tr y v i đi u ki n là khách hàng thu c nhóm A và f (z|Y = y, A), f (z|Y = y, B) là m t đ xác su t c a thành ph n z c a véc-tơ d u hi u x v i đi u ki n Y = y và khách hàng thu c nhóm A, B tương ng. Ta gi thi t r ng f (z|Y = y, A), f (z|Y = y, B) không ph thu c y, t c là f (z|Y = y, A) = f (z|A), f (z|Y = y, B) = f (z|B), trong đó f (z|A) là m t đ c a phân b chu n Ns (µA , Σ) và f (z|B) là m t đ c a phân b chu n Ns (µB , Σ). Quy t c phân bi t khách hàng như sau : Gán cá th có d u hi u x = (y, z) vào nhóm A khi và ch khi πP (Y = y|A) f (Z|A) C(1|2) ≥ . (10) (1 − π)P (Y = y|B) f (Z|B) C(2|1)
  10. 10 Vì πP (Y = y|A), (1 − π)P (Y = y|B), f (z|A), f (z|B) là các hàm chưa bi t nên ta ph i ư c lư ng chúng b ng cách sau đây. Đ t P (y) = P (cá th ∈ A|Y = y). 1 − P (y) = P (cá th ∈ B|Y = y). Theo công th c xác su t h u nghi m πP (Y = y|A) P (y) = (11) πP (Y = y|A) + (1 − π)P (Y = y|B) Đ i v i các xác su t h u nghi m c a bi n ng u nhiên đ nh tính, ngư i ta hay dùng phân b logistic : exp(β0 + β1y1 + · · · + βr yr ) P (y) ≈ 1 + exp(β0 + β1 y1 + · · · + βr yr ) ho c P (y) πP (Y = y|A) u := ln = ln ≈ β 0 + β 1 y1 + · · · + β r yr , (12) 1 − P (y) (1 − π)P (Y = y|B) t c là ta có quan h h i quy tuy n tính u = β 0 + β 1 y1 + · · · + β r yr . (13) Đ có các s li u th c nghi m dùng đ ư c lư ng các h s βi , i = 0, 1, . . ., r, ta ti n hành như sau: S d ng h i quy phi tuy n v i bi n ph thu c nh nguyên đ nh n đư c các ư c lư ng βi , i = 0, 1, . . ., r và sau đó ư c lư ng P (y) c a phân b h u nghi m P (y) (xem (6)), và t đó ta nh n đư c ư c lư ng u(y) = β0 + β1 y1 + · · · + βr yr . (14) Đ t f (z|A) 1 L(z) = ln = (µA − µB )T Σ−1 z − (µA − µB )T Σ−1 (µA + µB ). f (z|B) 2 Đ i lư ng này đư c ư c lư ng b i 1 L(z) = (µA − µB )T S −1 z − (µA − µB )T S −1 (µA + µB ), (15) 2
  11. 11 trong đó M N 1 1 µA = Z (i) , µB = Z (i) , (16) M N −M i=1 i=M +1 M 1 T SA = Z (i) Z (i) − µT µA , A M i=1 N 1 T SB = Z (i) Z (i) − µT µB , B N−M i=M +1 1 S= [M SA + (N − M )SB ]. (17) N−2 Như v y, quy t c phân bi t là : Gán ph n t có d u hi u x = (y, z) vào nhóm A khi và ch khi C(1|2) u(y) + L(z) > ln , (18) C(2|1) trong đó u(y) cho b i (14), L(z) cho b i (15). 4 K t qu th c hi n 4.1 K t qu phân l p Ngân hàng Techcombank lưu d li u c a 1727 khách hàng, m i khách hàng trong m u này có các đ c trưng đư c cho trong b ng 1. V i lý thuy t và thu t toán đư c trình bày trong M c 2, chúng tôi th c hi n tính toán trên ph n m m máy tính và đư c k t qu sau: N = 1728 khách hàng đư c chia thành 2 nhóm: nhóm A (nhóm khách hàng "t t") có m = 1375 khách hàng, nhóm B (nhóm khách hàng "x u") có n = 353 khách hàng. Kho ng cách Holtelling tính đư c là 2 TA,B = 27, 30209 trong khi đó χ2 (0.05) = 26, 296. Như v y TA,B > χ2 (0.05) nên hai nhóm A, 16 2 16 B là khác nhau m t cách có ý nghĩa. 4.2 Các h s h i quy B ng 2 là k t qu th c hi n h i quy nh nguyên logistic trên t p m u.
  12. 12 Ký hi u ý nghĩa X01 Tu i tác X02 Trình đ h c v n X03 Lo i hình công vi c X04 Th i gian công tác X05 M c thu nh p hàng tháng X06 Tình tr ng hôn nhân X07 Nơi cư trú X08 Th i gian cư trú X09 S ngư i s ng ph thu c X10 Phương ti n đi l i X11 Phương ti n thông tin X12 Chênh l ch thu nh p và chi tiêu X13 Giá tr tài s n khách hàng X14 Giá tr các kho n n X15 Quan h v i Techcombank X16 Uy tín trong giao d ch B ng 1: Các đ c trưng c a khách hàng 4.3 Nh n xét Ta có m t s nh n xét v xác su t P (x). 1. Theo b ng 2, ta có Tx eβ P (x) = 1 + eβ T x trong đó β T x = −1.238151x1 − 0.591102x2 − 1.371960x3 + 3.240103x5 − 1.833702x6 − 8.070600x7 − 5.336831x8 − 1.091686x9 − 1.508460x10 −18.28262x11 +5.670182x12 +3.595030x13 −0.930329x14 −1.482391x15 2. T b ng 3, n u v i quy t c phân bi t khách hàng là “Gán khách hàng có d u hi u x vào nhóm A khi và ch khi P (x) > 0.5” thì t l khách hàng đư c phân bi t đúng trong m u 1727 khách hàng là 99.25%, đó là t l r t cao. 3. T b ng 4, n u coi khách hàng có d u hi u x s thu c vào nhóm A1 n u P (x) > 0.8 thì trong s 1727 khách đ n Techcombank có 1374 khách, chi m 99.2% khách hàng c a nhóm A.
  13. 13 Variable Coefficient Std. Error z-Statistic Prob. X01 -1.238151 0.547258 -2.262462 0.0237 X02 -0.591102 0.459765 -1.285661 0.1986 X03 -1.371960 0.816572 -1.680147 0.0929 X05 3.240103 0.829665 3.905315 0.0001 X06 -1.833702 0.767204 -2.390109 0.0168 X07 -8.070600 2.204372 -3.661180 0.0003 X08 -5.336831 1.517704 -3.516385 0.0004 X09 -1.091686 0.478159 -2.283102 0.0224 X10 -1.508460 0.636312 -2.370628 0.0178 X11 -18.28262 4.599995 -3.974486 0.0001 X12 5.670182 1.227062 4.620942 0.0000 X13 3.595030 0.832310 4.319343 0.0000 X14 -0.930329 0.429528 -2.165932 0.0303 X15 -1.482391 0.798689 -1.856030 0.0634 Mean dependent var 0.795599 S.D. dependent var 0.403380 S.E. of regression 0.069900 Akaike info criterion 0.045790 Sum squared resid 8.369664 Schwarz criterion 0.090005 Log likelihood -25.53993 Hannan-Quinn criter. 0.062146 Avg. log likelihood -0.014789 Obs with Dep=0 353 Total obs 1727 Obs with Dep=1 1374 B ng 2: Các h s h i quy v i bi n ph thu c nh nguyên 4. T b ng 5, có kho ng 339 khách hàng thu c nhóm B2 và B3 , chi m 96.03% t ng s khách hàng thu c nhóm B. 5. N u ta ch s d ng 1300 khách hàng trong s 1374 khách hàng c a nhóm A và 326 khách hàng trong s 355 khách hàng c a nhóm B, s còn l i dùng đ ki m tra hi u năng c a thu t toán, thì ta thu đư c k t qu như B ng 6. 6. Ph n dư i, i = 1, 2, . . ., 1727 t ra g n như là sai s ng u nhiên. 7. Trong mô hình h i quy v i bi n ph thu c nh phân, ta đã lo i 2 bi n X4 (th i gian công tác) và X16 (uy tín trong giao d ch) ra kh i mô hình vì hai lí do sau: • X4, X16 có s ph thu c tuy n tính v i các bi n khác • Các ư c lư ng β4, β16 trong mô hình 16 bi n t ra không n đ nh.
  14. 14 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P (Dep = 1) ≤ C 346 6 352 0 0 0 P (Dep = 1) > C 7 1368 1375 353 1374 1727 Total 353 1374 1727 353 1374 1727 Correct 346 1368 1714 0 1374 1374 % Correct 98.02 99.56 99.25 0.00 100.00 79.56 % Incorrect 1.98 0.44 0.75 100.00 0.00 20.44 Total Gain* 98.02 -0.44 19.69 Percent Gain** 98.02 NA 96.32 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00 E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00 Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00 Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31 % Correct 97.58 99.45 99.07 20.44 79.56 67.48 % Incorrect 2.42 0.55 0.93 79.56 20.44 32.52 Total Gain* 77.14 19.89 31.59 Percent Gain** 96.95 97.31 97.13 *Change in “% Correct” from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation B ng 3: Prediction Evaluation (success cutoff C = 0.5) 8. Do t p m u g m 1727 khách hàng đã đư c ph c v b i Techcombank chưa đ l n và đã đư c ch n l a nên hai nhóm A, B phân bi t khá rõ. N u ta m r ng t p m u thì có th k t qu không còn đư c hi u qu như trư c. B ng 7 là k t qu th c hi n thu t toán phân nhóm v i d li u vào chính là t p m u. Ta có nh n xét r ng h u h t s khách hàng t t thu c nhóm A1 (nhóm t t nh t), và h u h t s khách hàng không t t thu c nhóm B3 (nhóm x u nh t). Tài li u [1] Báo cáo Giai đo n I Nghiên c u kh o sát lý thuy t và th c ti n đánh giá tín d ng th nhân, EMISCOM R&D. [2] Nguy n Văn H u, Nguy n H u Dư, Phân tích th ng kê và d báo, NXB Đ i h c Qu c gia HN, 2003.
  15. 15 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P (Dep = 1) ≤ C 351 11 362 353 1374 1727 P (Dep = 1) > C 2 1363 1365 0 0 0 Total 353 1374 1727 353 1374 1727 Correct 351 1363 1714 353 0 353 % Correct 99.43 99.20 99.25 100.00 0.00 20.44 % Incorrect 0.57 0.80 0.75 0.00 100.00 79.56 Total Gain* -0.57 99.20 78.81 Percent Gain** NA 99.20 99.05 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00 E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00 Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00 Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31 % Correct 97.58 99.45 99.07 20.44 79.56 67.48 % Incorrect 2.42 0.55 0.93 79.56 20.44 32.52 Total Gain* 77.14 19.89 31.59 Percent Gain** 96.95 97.31 97.13 *Change in “% Correct” from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation B ng 4: Prediction Evaluation (success cutoff C = 0.8) [3] A. Aggarawal, Categorical data analysis, Wiley, New York, 1990. 1.2.1 [4] H.T. Albright, Construction of a polynomial classifier for consumer loan applications using genetic algorithms, Department of Systems En- gineer- ing, University of Virginia, 1994. 1.2.3 [5] F. Black and M. Scholes, The pricing of options and corporate liabilities. Journal of Pocitical Economy, 81:637-654, 1973. 1 [6] M. Boyle, J.N. Crook, R. Hamilton, and L.C. Thomas, Credit scoring and credit control, chapter Methods for credit scroing applied to slow payers, pages 75-90. Oxford University Press, Oxford, 1992. 1, 1.2.2 [7] L. Breiman, J.H. Friedman, R.A Olshen, and C.J. Stone, Classification and regression trees, Wadsworth, Belmont, CA, 1984. 1.2.2 [8] N. Capon, Credit scoring systems: a critical analysis, Journal of Mar- keting, 46:82-91, 1982. 1.2.1
  16. 16 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P (Dep = 1) ≤ C 339 3 342 0 0 0 P (Dep = 1) > C 14 1371 1385 353 1374 1727 Total 353 1374 1727 353 1374 1727 Correct 339 1371 1710 0 1374 1374 % Correct 96.03 99.78 99.02 0.00 100.00 79.56 % Incorrect 3.97 0.22 0.98 100.00 0.00 20.44 Total Gain* 96.03 -0.22 19.46 Percent Gain** 96.03 NA 95.18 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00 E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00 Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00 Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31 % Correct 97.58 99.45 99.07 20.44 79.56 67.48 % Incorrect 2.42 0.55 0.93 79.56 20.44 32.52 Total Gain* 77.14 19.89 31.59 Percent Gain** 96.95 97.31 97.13 *Change in “% Correct” from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation B ng 5: Prediction Evaluation (success cutoff C = 0.3) [9] C. Carter and J. Catlett, Assessing credit card applications using ma- chine learning, IEEE Expert, 2:71-79, 1987. 1.2.2 [10] R. A. Jonhson, D. W. Wichern, Applied Multivariate Statistical Analysis, 1998. [11] Credit Scoring and Credit Control, Edited by L.C. Thomas, J.N. Crook, D.B. Edelman, 1992.
  17. 17 S khách hàng v i Z = 0 S khách hàng v i Z = 1 P (Z = 1) ≤ 0.5 2 74 P (Z = 1) > 0.5 27 0 T l đúng 27/29 74/74 T l sai 2/29 0 B ng 6: Hi u năng c a thu t toán L p S khách hàng A1 1365 A2 5 A3 5 B1 7 B2 6 B3 339 T ng 1727 B ng 7: K t qu phân nhóm trên t p m u Hình 1: Residual – Actual – Fitted graph
  18. 18 Autocorrelation Partial Correlation AC PAC Q-Stat Prob |* | |* | 1 0.084 0.084 9.9237 0.002 | | | | 2 0.015 0.009 10.263 0.006 | | | | 3 0.016 0.014 10.637 0.014 | | | | 4 0.021 0.019 11.279 0.024 | | | | 5 0.014 0.010 11.539 0.042 | | | | 6 0.036 0.034 13.382 0.037 | | | | 7 0.045 0.039 16.292 0.023 | | | | 8 0.030 0.022 17.609 0.024 | | | | 9 0.031 0.025 19.019 0.025 | | | | 10 0.036 0.029 20.882 0.022 |* | |* | 11 0.146 0.139 51.269 0.000 | | | | 12 0.011 -0.016 51.431 0.000 | | | | 13 0.014 0.008 51.720 0.000 | | | | 14 0.026 0.017 52.660 0.000 | | | | 15 0.012 0.001 52.883 0.000 | | | | 16 0.045 0.039 55.847 0.000 | | | | 17 0.061 0.043 61.167 0.000 | | | | 18 0.022 0.000 61.870 0.000 | | | | 19 0.003 -0.009 61.881 0.000 | | | | 20 0.030 0.019 63.153 0.000 |* | |* | 21 0.090 0.078 74.695 0.000 | | | | 22 0.051 0.015 78.415 0.000 | | | | 23 0.047 0.037 81.644 0.000 | | | | 24 0.014 -0.003 81.927 0.000 | | | | 25 0.005 -0.009 81.961 0.000 | | | | 26 0.010 0.004 82.118 0.000 | | | | 27 0.013 -0.008 82.360 0.000 | | | | 28 0.002 -0.022 82.365 0.000 | | | | 29 0.034 0.025 84.088 0.000 | | | | 30 0.016 0.002 84.465 0.000 | | | | 31 0.055 0.040 88.776 0.000 | | | | 32 0.013 -0.022 89.024 0.000 | | | | 33 0.024 0.011 89.882 0.000 | | | | 34 0.016 -0.003 90.243 0.000 | | | | 35 0.008 0.001 90.331 0.000 | | | | 36 0.009 0.005 90.453 0.000 B ng 8: Correlogram of standardized residuals
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2