Vũ H. Thành, Hoàng T. K. Diễm. HCMCOUJS-Kinh tế và Qun trKinh doanh, 20(3), 31-47 31
Lựa chn mô hình d đoán xác suất v n ca khách hàng cá nhân
vay tín chấp: Trường hp Ngân hàng Thương mại C phn Á Châu (ACB)
Model selection for predicting the default probability of individual unsecured loans:
The case of Asia Commercial Joint Stock Bank (ACB)
Hữu Thành1*, Hoàng Thị Kim Diễm2
1Trường Đại học Mở Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh, Việt Nam
2Ngân hàng Thương mại Cổ phần Á Châu, Thành phố Hồ Chí Minh, Việt Nam
*Tác giả liên hệ, Email: thanh.vh@ou.edu.vn
THÔNG TIN
TÓM TẮT
DOI:10.46223/HCMCOUJS.
econ.vi.20.3.3394.2025
Ngày nhận: 23/04/2024
Ngày nhận lại: 21/06/2024
Duyệt đăng: 22/11/2024
Mã phân loại JEL:
G21
Từ khóa:
d báo; mô hình hc máy;
ri ro tín dng; xác sut
v n
Keywords:
prediction; machine learning
models; credit risk; default
probability
Nghiên cứu này được thực hiện nhằm lựa chọn nh dự
đoán c suất vỡ nợ của hệ thống xếp hạng tín dụng nội bđối với
khách hàng nhân. Từ đó, nghiên cứu cũng đề xuất tích hợp áp dụng
mô hình vào quy trình tín dụng và đề xuất thu thập thông tin chính c
đểng chất lượng dự đoán của mô hình. Trong nghiên cứu này, nhóm
c giả sử dụng bộ dữ liệu thời gian lấy mẫu từ 01/01/2022 đến
31/12/2022 thời gian quan sát từ 01/01/2023 đến 31/12/2023.
Nhóm nghiên cứu đã sử dụng hình Logistic, 09 hình học y
mô hình kết hợp Ensemble. Nhóm cũng sử dụng các biện pháp cân
bằng dữ liệu tiền xử dữ liệu trước khi đưa vào ước lượng
hình. Kết quả, hình Logistic hình kết hợp Ensemble hai
hình dự báo tốt nhất. Với ngưỡng xác suất phá sản tối ưu cho dự
đoán độ nhạy, hình Logistic đã cho kết quả dự đoán trội n so
với Ensemble. Ngoài ra, nghiên cứu cũng phát hiện các thông tin quan
trọng để dự đoán xác suất vỡ nợ bao gồm: Trình độ học vấn, Loại hình
tổ chức, Giới tính, Độ tuổi, Thời gian liên tục thu nhập, Thời gian
ng tác, Thời hạn vay, Nhu cầu vay, Tổng thu nhập, Tổng chi phí,
Nợ phải trả hàng tháng, Lịch sử tín dụng 06 tháng gần nhất.
ABSTRACT
This study was conducted to select a predictive model for the
probability of default within an internal credit rating system for
individual unsecured loans. Consequently, the study also suggests
integrating the model into the credit process and proposes the
collection of accurate information to enhance the models predictive
quality. In this research, the authors used a dataset sampled from
January 01, 2022, to December 31, 2022, and observed from January
01, 2023, to December 31, 2023. We utilized nine Machine-Learning
models and an Ensemble model. We also implemented data
balancing and preprocessing features before model estimation. The
Logistic and Ensemble models were the two best predictive models.
With an optimal bankruptcy probability threshold for sensitivity
prediction, the Logistic model performed better than the Ensemble.
Additionally, the analysis revealed the importance of predictive
variables, including Educational level, Organization type, Gender,
Age, Continuous income duration, Employment duration, Loan term,
Borrowing needs, Total income, Total expenses, Monthly debt
obligations, and Credit history for the last six months.
32 Vũ H. Tnh, Hoàng T. K. Diễm. HCMCOUJS-Kinh tế Quản trị Kinh doanh, 20(3), 31-47
1. Giới thiệu
H thng xếp hng tín dng ni b ca Ngân hàng ti Việt Nam được quy định s dng
trong (i) quá trình thẩm định quyết đnh cho vay (Ngân hàng Nhà c Vit Nam, 2018)
(ii) phân loi n trích lp d phòng rủi ro đối vi ri ro tín dng (Ngân hàng Nhà nước Vit
Nam, 2021). Hin nay, Chính Ph và Ngân hàng Nhà nước đang xây dựng hành lang pháp lý đối
với lĩnh vực xếp hng tín nhim nhm nâng cao nh công khai minh bch thông tin nhm h tr
cho các ngân hàng kim soát ri ro tín dng. Các Ngân Hàng Thương Mi (NHTM) cũng ngày
càng nhn thy tm quan trng ca h thng này trong hoạt động tín dng qun tr ri ro. Kết
qu d đoán xác suất v n ca h thng xếp hng tín dng ni b s giúp ngân hàng nhng
ng dng trong công tác qun tr rủi ro như: hỗ tr quá trình thẩm định ra quyết định cho vay,
xây dng khung lãi sut nhm tối đa hóa lợi nhun của ngân hàng, đng thời đảm bo an toàn
vn ca ch s hu. Ngoài ra, các ngân hàng th giám sát danh mc tín dng thông qua vic
giám sát s thay đổi phân hng ri ro ca danh mc, t đó giúp ngân hàng những điều chnh
kp thi v chính sách, sn phẩm, định hướng tín dng.
Trên thế gii Vit Nam các nghiên cu tiếp cn nhiu khía cnh khác nhau v d
đoán xác suất v n nhưng nhìn chung đều xoay quanh hai ng: (i) gii thích/chng minh các
yếu t ảnh hưởng đến xác sut v n ca khách hàng hay (ii) tìm ra hình toán hc tối ưu
d đoán xác sut v n. Các nghiên cu gần đây trên thế gii cho thấy xu hướng s dng
Machine Learning để tìm ra hình tối ưu thay cho phương pháp hồi quy Logistic đã rt ph
biến. Chang cng s (2022) chng minh rng Support Vector Machines (SVM), Decision
Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Light Gradient
Boosting Machine (LightGBM) hiu sut tốt hơn hồi quy Logistic (GLM). Nghiên cu ca
Jepkoech (2020) thc hiện các phương pháp GLM, Linear Discriminant Analysis (LDA),
Gradient Boosting (GB), DT, KNN, RF, SVM XGBoost đ d đoán. XGBoost được xem
thut toán tt nht cho bài toán d đoán xác suất v n.
Cho đến nay, các nghiên cứu được công b Vit Nam vn ch yếu s dụng phương
pháp Hi quy Logistic cho mc tiêu gii thích các biến ảnh hưởng đến xác sut v n ca
khách hàng. Đối vi các nghiên cu d đoán, nhóm tác giả nhn thy chưa nghiên cứu nào
thc hin da trên b d liu khách hàng cá nhân phân bit thi gian ly mu và thi gian
quan sát đ áp dng hiu qu các hình hcy. Bên cạnh đó, các nghiên cứu này chưa quan
tâm ti các hoạt động tin x d liệu như lựa chn danh mc biến s d đoán, biến đổi d
liu, áp dng mt shình d đoán đang nổi tri gần đây như Ensemble. Ngoài ra, theo s
hiu biết ca nhóm tác gi, các nghiên cứu trước đây đã sử dụng ngưỡng xác sut v n mc
định là 50% để so sánh tính chính xác ca tng mô hình d báo. Tuy nhiên, vic s dụng ngưỡng
mặc định 50% rất ít ý nghĩa (Alam & ctg., 2020), đặc bit trong bi cnh d đoán xác
sut v n ca ngân hàng. Các ngân hàng s rt nhy vi d đoán về v n (tp trung vào ch s
độ nhy - Sensitivity) hơn tập trung vào tính chính xác tng th (Accuracy). Bng vic la
chọn ngưỡng xác sut v n t đó đạt được Sensitivity cao nht, nghiên cu y s giúp cho
ngân hàng thiết lập được ngưỡng xác sut phá sn hay còn gọi ngưỡng cnh báo khi d đoán
cho tng h tín dụng cá nhân. Kết qu là, nếu mt h vượt ngưỡng xác sut v n, tín hiu
này s được chuyn ti cp thm quyền để tiếp tục đưa ra những phân tích sâu hơn. Sau đó,
cp thm quyn th đưa ra quyết định cp vn hoc ngng cp vn. Bên cạnh đóng góp
va nêu, kết qu ca nghiên cu th giúp cho ngân hàng Á Châu nói riêng các ngân hàng
thương mại c phn nói chung mt khung áp dng hình d đoán xác sut v n đối vi
khách hàng cá nhân trong tiến trình phê duyt.
T nhng lý do trên, nhóm tác gi s thc hin nghiên cứu để la chn hình d đoán
xác sut v n nhm tích hp vào h thng chấm điểm n dng ni b. Kết qu đó s góp phn
H. Tnh, Hoàng T. K. Diễm. HCMCOUJS-Kinh tế Quản trị Kinh doanh, 20(3), 31-47 33
nâng cao năng lc qun tr ri ro tín dng khách hàng cá nhân vay tín chp ti Ngân hàng TMCP
Á Châu. Bng vic thu thp d liệu phương pháp, cân bằng d liu, la chn biến s la
chọn các phương pháp hình học y khác nhau đ t đó tìm ra các mô hình dự đoán tốt nht
các biến s đóng vai trò quan trng nht trong d đoán. Từ đó, nhóm tác giả cho rng nghiên
cu này là cn thiết và có những đóng góp v khoa hc và thc tin cho Ngân hàng Á Châu. Bên
cạnh đó, kết qu phân tích này cũng nguồn tham khảo cho các bên liên quan như Ngân hàng
thương mại khác và Ngân hàng nhà nước.
2. Cơ sở lý thuyết và các nghiên cứu trước
2.1. Tín dng cá nhân, ri ro tín dng, và xác sut v n
Theo Điều 20 Lut các t chc tín dụng 2010 quy định: Cp tín dng vic ngân hàng
“thỏa thuận để t chc, nhân s dng mt khon tin hoc cam kết cho phép s dng mt
khon tin theo nguyên tc hoàn tr bng nghip v cho vay, chiết khu, cho thuê tài chính,
bao thanh toán, bo lãnh ngân hàng các nghip v cp tín dụng khác” (Quc hội nước Cng
hòa hi Ch nghĩa Việt Nam, 2010, tr. 12). Trên sở định nghĩa “tín dụng ngân hàng”, tín
dng khách hàng cá nhân th được hiu là hình thc tín dng đó ngân hàng đóng vai trò
người chuyển nhượng quyn s dng vn ca mình cho KHCN s dng trong mt thi gian
nhất định và phi hoàn tr c gc ln lãi.
Ri ro tín dng s pt sinh khi các nhân được phê duyt c khon vay. Theo BCBS
(2000) ri ro n dụng (credit risk) được định nghĩa người vay kh năng không đáp ng các
nghĩa v của mình theoc điều khoản đã thỏa thun. Theo khon 24 Điều 2 Thông 41/2016/TT-
NHNN gii thích chi tiết hơn: “Rủi ro tín dng là ri ro do khách hàng không thc hin hoc không
kh năng thực hin mt phn hoc toàn b nghĩa vụ tr n theo hợp đồng hoc tha thun vi
ngân hàng, chi nhánh ngân hàng nước ngoài” (Nn hàng Nhà nước Vit Nam, 2016, tr. 02).
Ri ro tín dng một khi được lượng hóa s hình thành nên xác sut v n (Probability of
Default - PD). Xác sut v n mt thành phn quan trọng được áp dng trong nhiu phân tích
ri ro tín dng và hoạt động qun lý ri ro. Xác sut v n th được ước tính t hai nhóm
phương pháp chính: (i) t hoạt động chấm điểm tín dụng trước khi vay n thông qua các mô hình
chấm điểm tín dng và (ii) t các hình xác sut hc y. Hoạt động chấm điểm tín dng
một phương pháp truyền thống được các ngân hàng áp dng thông qua các hình chm
đim tín dụng khác nhau để h tr ngân hàng ra quyết định trước khi cho vay (Walusala & ctg.,
2017). Tuy nhiên, phương pháp y tn ti mt s nhược điểm như không đánh giá đầy đủ kh
năng trả n hoc không ci thiện được kh năng học hi t d liu thc tế (Teles & ctg., 2020).
Chính vy, vic tích hp các hình xác sut hc máy cn thiết để ci thin qtrình
ng hóa xác sut v n (Teles & ctg., 2020).
2.2. Lược khảo các nghiên cứu trước
Việc lược kho các nghiên cứu trước s giúp ích cho nhóm tác gi khi phát hin ra nhng
mô hình d đoán được s dng ph biến và hiu quả. Đồng thi, các nghiên cứu trước cũng giúp
ích trong quá trình xây dng các yếu t đầu vào ca hình d đoán. Khi dẫn chiếu các nghiên
cứu trước đây, nhóm tác giả s tp trung vào các nghiên cu áp dng k thut mới, được trích
dn trong nhiu nghiên cứu và có đầy đủ thông tin trong quá trình thc hin xây dng mô hình.
Mt trong các nghiên cứu đáng chú ý của Chang và cng s (2022). Các tác gi s
dng d liu t 282,763 khon vay, chn ra 16 biến quan trng, so sánh các hình LR,
SVM, DT, RF, XGBoost, LightGBM, trong đó XGBoost hiu sut tt nht với độ chính
xác khong 88%. Giang (2021) s dng b d liệu Kaggle để đánh giá xác sut v n qua các
hình KNN, CART, NB, SVM, DSNN, CNN, RNN, LSTM, trong đó LSTM RNN cho
34 Vũ H. Tnh, Hoàng T. K. Diễm. HCMCOUJS-Kinh tế Quản trị Kinh doanh, 20(3), 31-47
kết qu tt nht. Jepkoech (2020) áp dụng các phương pháp LDA, GB, DT, KNN, Random
Forest, SVB, và XGB trên d liu tín dng ca Rwanda, kết qu cho thy XGBoost vượt tri vi
Recall = 0.9939, F1 = 0.9892 và độ chính xác 99.56%.
Qua quá trình lược kho, chúng tôi nhn thy mô hình được s dng nhiu nht trong các
nghiên cứu đ đánh giá xác sut v n ca KHCN bao gm: Decision Tree (DT - C5.0), Support
Vector Machines (SVM), Random Forest (RF), K-Nearest Neighbors (KNN), Logistic Regression
(GLM). Ngoài ra các phương pháp ít ph biến hơn : Naıve Bayes (NB), Neural Network
(NN), Linear Discriminant Analysis (LDA), Gradient Boosting (GB) và Deep Learning (DL).
3. Phương pháp nghiên cứu
3.1. Xác định biến số phụ thuộc (biến số được dự đoán - Predicted variable)
Trong phn viết y nhóm nghiên cu s t hai nội dung: xác định cách thc đo
ng và thi gian quan sát biến ph thuc.
3.1.1. Xác định đo lường
Biến s ph thuc có th được xác định theo mt trong ba cách:
Cách tiếp cn 1: Tham chiếu BCBS (2006), Basel đưa ra hướng dn rng mt
khách hàng được coi là v n nếu khách hàng b quá hn trên 90 ngày.
Cách tiếp cn 2: Khoản 8 Điều 3 Thông tư 11/2021/TT-NHNN ban hành ngày
30/07/2021 “Nợ xu n thuc các nhóm 3, 4 và 5 theo phân loi nợ” (Ngân hàng Nhà nước
Vit Nam, 2021, tr. 05).
Cách tiếp cn 3: Siddiqi (2006) hướng dn phân tích Roll Rate.
Do mu d liệu không đủ lớn để thc hin phân tích Roll Rate nên trong nghiên cu y
nhóm tác gi s xây dựng định nghĩa Good/Bad theo cách tiếp cn 1 cách tiếp cận 2 được nêu
trên, c th như sau:
Định nghĩa quan sát Bad (v n): (i) Phát sinh tr hn t 90 ngày tr lên hoc (ii)
Phát sinh n cu gia hn và/hoc di k.
Định nghĩa quan sát Good (không vỡ nợ): là những quan sát không Bad.
3.1.2. Xác định thi gian quan sát
Thi gian quan sát khong thi gian quan sát hành vi của khách hàng đ xác định V
n/Không v n. Có mt s cách tiếp cận để xác định thời gian quan sát như:
Cách tiếp cn 1: Tham chiếu BCBS (2006), hình c sut v n có k đánh g 12 tng.
Cách tiếp cn 2: Theo Siddiqi (2006), xác định thi gian quan sát cn thông qua phân
tích Vintage.
Trong nghiên cu này do nhng gii hn v d liu nên tác gi s s dng cách tiếp cn 1
vi thi gian quan sát biến ph thuc là 12 tháng.
3.2. Thu thập dữ liệu
Nhóm tác gi s dng b d liu thi gian ly mu t 01/01/2022 đến 31/12/2022
thi gian quan sát t 01/01/2023 đến 31/12/2023. B d liu cui cùng s dng xây dng
kiểm định hình bao gồm 2,917 quan sát, trong đó 2,766 quan sát tt, chiếm t l 94.82%
và 151 quan sát xu, chiếm t l 5.18%.
H. Tnh, Hoàng T. K. Diễm. HCMCOUJS-Kinh tế Quản trị Kinh doanh, 20(3), 31-47 35
Bng 1
B D Liu Xây Dng và Kim Định Mô Hình
Định nghĩa
S ng quan sát
T l %
Tt
2,766
94.82%
Xu
151
5.18%
Tng
2,917
100%
Ngun: Tng hp ca nhóm tác gi
Mu d liu tác gi thu thập được như Bảng 1 b tình trng không cân bng (imbalance)
khi ch 5.18% s quan sát xu trên tng s d liệu. Để cân bng d liu, nhóm tác gi s s
dụng phương pháp SMOTE BOTH để cân bng d liu và so sánh kết quhình vi tp d
liu gc (xem Bng 2).
Bng 2
Sampling Mu Xây Dng
Phương pháp
T l Xu/Tt
Tt
Phương pháp SMOTE
1:1
2,005
Phương pháp Under
Không thc hiện được do quan sát xu quá ít
Phương pháp BOTH
1:1
1,031
Ngun: Tng hp ca nhóm tác gi
3.3. Xác định tp d liu hun luyn và tp d liu kiểm định
Vi mc tiêu kiểm định hình cho kết qu khách quan nht, nhóm tác gi s tiến hành
chia tp d liu ra làm tp hun luyn (Train) chiếm 70% tp kiểm đnh (Test) chiếm 30%
(xem Bng 3). D liu s được chuẩn hóa trước khi phân tích.
Bng 3
Mu D Liu Xây Dng và Kim Định Mô Hình
B d liu
Tp d liu
Good
Bad
B d liu gc
Tp hun luyn (Train)
1,936
105
Tp kiểm định (Test)
830
46
Tng
2,766
151
B d liu
SMOTE
Tp hun luyn (Train)
1,403
1,399
Tp kiểm định (Test)
602
599
Tng
2,005
1,998
B d liu BOTH
Tp hun luyn (Train)
722
708
Tp kiểm định (Test)
309
303
Tng
1,031
1,011
Nguồn: Tổng hợp của nhóm tác giả