Đại hc Nguyn Tt Thành
1
Tp chí Khoa hc & Công ngh Vol 7, No 5
Ứng dụng mô hình stacking kết hợp smote và tối ưu hóa Bayesian
đánh giá rủi ro tín dụng
Dương Hớn Minh
Khoa Dược - Trường Đại hc Nguyn Tt Thành
dhminh@ntt.edu.vn
Tóm tt
Dự đoán rủi ro tín dụng nhiệm vụ quan trọng đối với các tổ chức tài chính nhằm giảm
thiểu nguy vỡ nợ và tối ưu hóa quyết định cho vay. Trong bối cảnh sự phát triển
nhanh chóng của các kỹ thuật học máy, nhiều phương pháp phân loại đã được phát triển
để cải thiện khả năng dự đoán rủi ro tín dụng. Nghiên cứu này áp dụng hình stacking
để đánh giá rủi ro tín dụng, kết hợp dự đoán từ nhiều mô hình học máy khác nhau, bao
gồm XGBoost, Random Forest, và CatBoost. Một mô hình meta, hồi quy logistic, được
sử dụng để tối ưu hóa dự đoán từ các mô hình cơ sở để đưa ra dự đoán. Dữ liệu được
xử bằng kỹ thuật SMOTE để cân bằng các siêu tham số của các hình sở
được tối ưu hóa thông qua phương pháp tối ưu hóa Bayesian. Kết quả cho thấy mô hình
stacking đạt được độ chính xác 95,50 % và chỉ số ROC-AUC đạt 98,15 %, chứng tỏ độ
tin cậy cao của các dự đoán. Kết quả này cung cấp vkhả năng ứng dụng của các mô
hình học máy trong việc đánh giá rủi ro tín dụng, hỗ trợ các tchức tài chính trong việc
ra quyết định cấp tín dụng cho cá nhân.
® 2024 Journal of Science and Technology - NTTU
Nhn 02/09/2024
Đưc duyt 03/12/2024
Công b 28/12/2024
T khóa
học máy,
học máy tổ hợp, tối ưu
hóa Bayesian, SMOTE,
dự đoán rủi ro tín dụng
1 Gii thiu
1.1 Đặt vấn đề
D đoán rủi ro tín dng (RRTD) là mt khía cnh quan
trng trong qun rủi ro tài chính, đóng vai trò then
cht trong các quyết đnh ca các t chc tài chính. D
đoán RRTD liên quan đến việc đánh giá khả năng tr
n của người vay, t đó xác định kh năng v n. Vic
d đoán RRTD hiệu qu giúp c t chc tài chính
gim thiu tn tht, tối ưu hóa quyết định cho vay và
qun lý danh mục đầu tư mtch hiu qu hơn [1].
D đoán RRTD vai trò thiết yếu vì nhiu lý do. Th
nht, d đoán RRTD giúp các tổ chc tài chính gim
thiu tn tht do v n. Bng cách đánh giá chính xác
mức độ tin cy của người vay, các t chc cho vay
th đưa ra các quyết định hp lý v vic chp nhn hay
t chối các đơn xin vay. Thứ hai, d đoán RRTD hiệu
qu góp phn vào s ổn định ca h thng tài chính.
Khi các ngân hàng t chc cho vay th d đoán
chính xác kh năng v n, các ngân hàng t chc
cho vay có th qun lý d tr vn tt hơn và giảm thiu
nguy phá sản. Th ba, đánh giá RRTD chính xác
giúp cung cp tín dng cho những người vay xng
đáng, thúc đẩy tăng trưởng kinh tế tăng cường tài
chính [2].
T thp niên 1960, h thống điểm tín dụng đã được áp
dụng để đánh giá xem một người vay đ điu kin
kh năng trả n đúng hạn hay không. Điểm tín
dng h tr các quyết định tín dng bng cách s dng
https://doi.org/10.55401/6tb18p40
Tp chí Khoa hc & Công ngh Vol 7, No 5
2
các mô hình toán học để chuyển đổi d liu thu thp t
khách hàng, h thng ni b các quan tín dụng
thành một điểm số. Trong lĩnh vực tín dng bán l,
phương pháp này không chỉ gim bt tính ch quan
trong việc đánh gcủa các ch n mà còn tối ưu hóa
giá tr ca thông tin hin tiết kiệm đáng kể chi phí
nhân lc [3].
Tri qua nhiu năm phát triển, ngoài hi quy logistic, c
phương pháp học giám sát như rừng ngu nhiên,
XGBoost CatBoost đã phát triển nhanh chóng. Hi
quy logistic xut hin t nhng năm 1950 một trong
những phương pháp cơ bản trong phân tích d liu. Các
thut toán tiên tiến n rừng ngu nhiên, XGBoost
CatBoost sau đó đã được phát trin ng dng rngi
trong nhiều lĩnh vực. S h tr ca công ngh giúp các
nhà nghiên cu, ngân hàng và t chc tài chính s dng
các thuật toán này để đào to hình d đoán khả năng
đủ điu kin vay da trên lch s tín dng d liu
khác, giúp d dàng chn lc những người đ điu kin
trưc khi phê duyt khon vay [4, 5].
Mt trong nhng k thut tiên tiến hiu qu được s
dng rộng rãi trong lĩnh vc học máy phương pháp
hc máy t hợp (Ensemble Learning). Đây là một k
thut mnh m nhm kết hp nhiu hình hc máy
để to ra mt hình d đoán độ chính xác cao hơn
so vi bt k hình đơn lẻ nào. Các phương pháp học
máy t hp ph biến bao gm Bagging (Bootstrap
Aggregating), Boosting, và Stacking. Gần đây,
stacking đã được s dụng để ci thiện độ chính xác
trong vic d đoán RRTD [6, 7].
1.2 Mc tiêu nghiên cu
Mặc các phương pháp truyền thống như hồi quy
logistic các thuật toán học máy tiên tiến như rừng
ngẫu nhiên, XGBoost CatBoost đã được áp dụng
rộng rãi trong dự đoán RRTD, vẫn tồn ti một số hạn
chế và thách thức cần giải quyết.
Thứ nhất, hầu hết các nghiên cứu hiện tại chủ yếu tập
trung vào việc cải thiện độ chính xác của các mô hình
đơn lẻ, nhưng ít chú ý đến khả năng tổng hợp kết
hợp các mô hình để tạo ra một mô hình dự đoán mạnh
mẽ hơn. Các phương pháp học máy tổ hợp như Bagging
Boosting đã được nghiên cứu ứng dụng trong
nhiều lĩnh vực, nhưng việc áp dụng xếp chồng, một kỹ
thuật kết hợp mạnh mẽ hơn, trong lĩnh vực dự đoán
RRTD vẫn còn hạn chế. Điều này mở ra cơ hội nghiên
cứu về việc tận dụng các nh sở mạnh m
xây dựng mô hình meta hiệu quả để cải thiện hiệu suất
dự đoán.
Thứ hai, mặc nhiều nghiên cứu đã áp dụng các k
thuật tối ưu hóa hình, phương pháp ti ưu hóa
Bayes (Bayesian Optimization BO) chưa được khai
thác triệt để trong việc tìm kiếm lựa chọn các base
learner tối ưu. BO tiềm năng lớn trong việc tối ưu
hóa quá trình huấn luyện mô hình, đặc biệt khi kết hợp
với các phương pháp học máy tổ hợp như xếp chồng.
Tuy nhiên, ứng dụng của BO trong việc cải thiện hiệu
suất của các hình xếp chồng trong dự đoán RRTD
vẫn chưa được khám phá đầy đủ.
Cuối cùng, các nghiên cứu hiện tại thường tập trung
vào một số chỉ số đánh giá nhất định như độ chính xác,
độ nhạy và chỉ số F1. Tuy nhiên, chưa có nhiều nghiên
cứu đánh giá toàn diện các chỉ số quan trọng khác như
ROC AUC hay khả năng tổng quát hóa của mô hình
trên các tập dữ liệu thực tế. Do đó, cần có thêm nghiên
cứu để đánh giá toàn diện hiệu quả của các mô hình và
đề xuất các phương pháp cải tiến khả năng ứng dụng
trong thực tiễn.
vậy, mục tiêu của nghiên cứu này áp dụng kỹ thuật
xếp chồng kết hợp vi phương pháp ti ưu hóa Bayes
để xây dựng một hệ thống dự đoán RRTD vượt trội,
đồng thời đánh giá toàn diện các chỉ số hiệu suất của
mô hình nhằm mang lại giá trị thực tiễn cao cho các tổ
chức tài chính.
2 Cơ sở lý thuyết
2.1 K thut xây dựng đặc trưng
To đặc trưng một c quan trng trong quy trình hc
máy, bao gm vic tạo ra các đặc trưng mi hoc chuyn
đổi c đặc trưng hiện để ci thin hiu sut ca
nh. Đầu tiên, kim tra loi b c gtr b thiếu trong
tp d liu đ đảm bảo nh đầy đủ ca thông tin.
Sau đó, tiến nh x lý các biến phân loi bng các k
thut mã hóa phù hợp. Đối vi các biến có s ng giá
tr khác nhau nh hơn hoặc bng 10, áp dng phương
pháp hóa nhãn để chuyển đổi các giá tr phân loi
thành các s nguyên, giúp đơn giản hóa d liệu. Đối vi
Đại hc Nguyn Tt Thành
3
Tp chí Khoa hc & Công ngh Vol 7, No 5
các biến phân loi s ng giá tr lớn hơn 10, sử
dụng phương pháp mã hóa một nóng [8]. K thut này
to ra các ct mới đại din cho tng giá tr riêng bit
loi b ct biến gc, giúp tránh hiện tượng đa cộng
tuyến và ci thiện độ chính xác của mô hình. Đa cộng
tuyến th gây ra vấn đề nghiêm trng trong quá trình
hun luyn hình, làm gim kh năng dự đoán
tăng sai số ca hình. Sau đó dùng bộ chun a
chuẩn (Stadard scaler) để chun hóa các d liu [9].
𝑍 = 𝑋 µ
σ
(1)
X là giá trị của đặc trưng cần chuẩn hóa.
μ là trung bình (mean) của đặc trưng.
σ độ lệch chuẩn (standard deviation) của đặc
trưng.
2.2 SMOT
SMOTE (Synthetic Minority Over-sampling
Technique) một phương pháp đưc s dng trong
học máy để gii quyết vấn đ mt cân bng lp trong
các tp d liu. Nó hoạt đng bng cách to ra các mu
tng hp cho lp thiu s để cân bng phân phi các
lp. K thut này ci thin hiu sut ca mô hình bng
cách gim thiu s thiên lệch đối vi lớp đa số, điều
này th xy ra khi hun luyn trên các tp d liu
mt cân bng. SMOTE to ra các mu mi bng cách
ni suy gia các ví d lp thiu s hin có [12].
2.3 Tối ưu hóa Bayesian Bayesian Optimization (BO)
Quá trình tối ưu tham số một bước quan trng không
th thiếu trong vic hun luyn hình hc máy vi
hiu suất đánh giá cao. Vic xác định các tham s ti
ưu cho mô hình không ch ci thiện độ chính xác
còn giúp tăng cường kh năng tổng quát hóa ca
hình trên các tp d liu khác nhau.
Tối ưu hóa Bayesian là một phương pháp hiệu qu để
tối ưu hóa các hàm hộp đen (black-box functions)
chi phí đánh giá cao. BO đặc bit hu ích trong vic
tinh chnh siêu tham s cho các nh hc máy.
Không giống như các kỹ thut tối ưu hóa truyền thng,
Tối ưu hóa Bayesian sử dng mt mô hình xác suất để
d đoán hiu sut ca các t hp tham s khác nhau và
chn nhng t hp ha hn nhất để đánh giá. Cách tiếp
cn này gim s ng các lần đánh giá hàm cn thiết
để tìm các tham s tối ưu [13].
2.4 Mô hình hc máy
Trong nghiên cu này, ba hình học máy được la
chọn để tiến hành nghiên cu bao gm XGBoost, rng
ngu nhiên, và CatBoost.
a) XGBoost (XGB)
XGBoost là mt trin khai hiu qu và có kh ng mở
rng của các máy tăng cường độ dc. XGBoost ni tiếng
v tốc độ và hiu sut, kh năng xử d liu thưa, và
các k thut điều chỉnh giúp ngăn ngừa hiện tượng quá
khp (overfitting). Hàm mc tiêu trong XGBoost kết
hp mt hàm mt mát li và mt thut ng điu chnh,
ci thin c độ chính xác d đoán khả ng giải thích
[15].
b) Rng ngu nhiên
Rng ngu nhiên là một phương pháp học tp tp hp
xây dng nhiu cây quyết định trong quá trình hun
luyn. Rng ngu nhiên s dụng phương pháp bagging,
trong đó mỗi cây được hun luyn trên mt tp con
ngu nhiên ca d liệu, các đặc trưng được chn
ngu nhiên ti mỗi đim chia. D đoán cuối cùng được
thc hin bng cách tng hp các d đoán của tt c
các cây, gim hiện tượng quá khp ca mô hình và ci
thin kh năng tổng quát [16].
c) CatBoost
CatBoost mt thuật toán tăng cường độ dc x
hiu qu các đặc trưng phân loại mà không cn tin x
nhiu. CatBoost s dụng tăng cường th t để
gim rò r mc tiêu cung cp hiu sut mnh m trên
nhiu loi d liệu. CatBoost đặc bit hu ích trong vic
x lý các biến phân loi ph biến trong các tp d liu
thc tế [17].
2.5 Mô hình xếp chng
Mô hình xếp chng là mt k thut trong hc máy, vi
nhiu hình đưc kết hợp để ci thin hiu sut d
đoán so với vic s dng một mô hình đơn lẻ. c mô
hình đơn lẻ đưc gọi hình cơ sở, s dng mt
hình để kết hp chúng thành hình meta bng mt
k thut hc máy khác, trong nghiên cu này s dng
hi quy phi tuyến logistic regression.
hình stacking kết hp d đoán của nhiu mô hình
hc máy bng cách s dng một mô hình meta để hc
cách tối ưu từ các d đoán đó đã được trin khai nhiu
nghiên cứu trước đây và cho thấy kết qu rt kh quan
[7, 14]. Lý do chn c ba mô hình này làm mô hình cơ
Tp chí Khoa hc & Công ngh Vol 7, No 5
4
s là vì chúng mang li s đa dạng trong phương pháp
hc. Mi mô hình có những ưu điểm khác nhau, giúp
h thng stacking khai thác tốt hơn các khía cạnh khác
nhau ca d liu:
Rng ngu nhiên tt trong vic gim quá khp bng
cách hc t các cây độc lp.
XGBoost CatBoost kh năng tối ưu hóa hiệu
sut tránh quá khp thông qua boosting, mt k
thut hc tun t ci thin mô hình.
Bng cách kết hp các hình kh năng tổng
quát hóa cao và gim quá khp, mô hình xếp chng s
to ra kết qu mnh mổn định hơn.
Hi quy logistic được s dng làm hình meta trong
mô hình xếp chng nghiên cu này. Đây mt
hình phi tuyến được s dng cho phân loi nh phân, ước
ngc sut rng một điểm đầu vào thuc v mt lp
nhất định. Bng cách ly các d đoán từ các mô hình cơ
s m đặc trưng đầu vào, hi quy logistic th hc
cách gán trng s tối ưu cho từng d đoán của mô hình
sở, t đó cải thin hiu sut d đoán tổng th [18, 19].
2.6 Các độ đo đánh giá
Đánh giá hiệu sut mt vic quan trng vic la
chọn các độ đo nào cũng quan trọng không kém.
Ma trn nhm ln (confusion matrix) mt công c
mnh m quan trng trong việc đánh giá hiệu sut
ca các hình học máy, đặc bit trong các bài toán
phân loi. Ma trận nhầm lẫn cho phép thấy được số
lượng dự đoán đúng và sai của hình cho mỗi lớp.
Bảng 1, nó cho biết số lượng:
- True Positives (TP): số lượng dự đoán đúng cho lớp
dương.
- True Negatives (TN): số lượng dự đoán đúng cho lớp
âm.
- False Positives (FP): số lượng dự đoán sai, mô hình
dự đoán là dương nhưng thực tế là âm.
- False Negatives (FN): số lượng dự đoán sai, mô hình
dự đoán là âm nhưng thực tế là dương.
Bng 1 Ma trn nhm ln
Chân tr
+
D đoán +
TP
FP
D đoán −
FN
TN
ROC AUC mt trong nhng ch s quan trọng để
đánh giá hiệu sut ca các mô hình phân loi nh phân.
ROC AUC đo lường kh năng phân biệt gia các lp
ca mô hình, giúp hiểu rõ hơn v hiu sut tng th ca
hình trong việc xác định các trưng hợp dương tính
và âm tính.
𝐴𝑈𝐶 = 𝑇𝑃𝑅 𝑑(𝐹𝑃𝑅)
1
0
(2)
Trong đó:
TPR (True Positive Rate) hay còn gọi Độ nhy
(Recall).
FPR (False Positive Rate) đưc tính bng công thc:
𝐹𝑃𝑅 = 𝐹𝑃
𝐹𝑃+𝑇𝑁
(3)
3 Phương pháp nghiên cứu
3.1 Mô t d liu
Để d đoán RRTD hiu qu bng hc máy, cn có d
liu chất lưng cao và k thut to đặc trưng mạnh m.
D liệu dùng để hun luyn các mô hình d đoán trong
nghiên cứu này được ly t tp "Tp d liu RRTD"
(Credit Risk Dataset) trên Kaggle. Tp d liu bao gm
11 ct 32 581 dòng d liệu. Trong đó, cột
Loan_status ct mc tiêu cn d đoán, còn 10 cột còn
lại là các đặc trưng để d đoán cột mc tiêu.
Bng 2 Mô t các biến có trong tp d liu RRTD
Biến đầu vào
Định nghĩa biến
person_age
Tui ca cá nhân
person_income
Thu nhập hàng năm ca
người vay
person_home_ownershi
p
Loi hình s hu nhà - thuê,
thế chp, thuê mua, s hu
hoc khác
person_emp_length
Thi gian làm vic ca cá
nhân (tính theo năm)
loan_intent
Mục đích của khon vay
loan_amnt
S tiền được vay
loan_int_rate
Lãi sut ca khon vay
loan_status
Trng thái thanh toán khon
vay (0: không vi phm, 1: vi
phm)
loan_percent_income
T l (%) s tin vay so vi
tng thu nhp
cb_person_default_on_f
ile
Lch s các khon n (nếu có)
của người vay
Đại hc Nguyn Tt Thành
5
Tp chí Khoa hc & Công ngh Vol 7, No 5
cb_person_cred_hist_le
ngth
Độ dài lch sn dng ca
người vay
Vic xem thng kê mô t ca d liu cho biết chi tiết
và đặc điểm thng kê ca d liệu. Được mô t qua
Bng 3.
Bng 3 Thng kê mô t
Thng kê
person_age
person_
income
person_
emp_length
loan_amnt
loan_int_
rate
loan_ status
loan_
percent_
income
cb_person_
cred_hist_
length
S ng
32581,0
32581,0
31686,0
32581,0
29465,0
32581,0
32581,0
32581,0
Trung bình
27,7346
66745,26
4,793856
9593,371
11,01169
0,211364
0,170283
5,894211
Độ lch
chun
6,340878
62358,45
4,14263
6322,085
3,24205
0,408396
0,106702
4,055001
Nh nht
20,0
4000,0
0,0
500,0
5,42
0,0
0,0
2,0
25%
23,0
40000,0
2,0
4000,0
7,9
0,0
0,09
3,0
50%
26,0
65000,0
4,0
8000,0
10,9
0,0
0,15
4,0
75%
30,0
90500,0
7,0
12000,0
13,47
0,0
0,23
7,0
Ln nht
144,0
600000,0
123,0
35000,0
23,22
1,0
0,83
30,0
Nghiên cu này tp trung trên mt b d liệu đưc công
b công khai trên Kaggle nhằm đánh giá so nh
năng lực ca các mô hình hc máy trên cùng mt nn
tng d liu, giúp đảm bo tính khách quan công
bng khi nghiên cu. Ngoài ra, các nhà nghiên cu khác
th d dàng truy cp, tái hin xác minh kết qu
ca nghiên cứu này, như rất nhiu các công b khác đã
s dng b d liệu này để tiến hành th nghim các mô
hình hc máy khác; t đó giúp chứng minh phương
pháp đ xut ca nghiên cu đạt được kết qu kh quan
và có giá tr.
3.2 Phương pháp đề xut
Quy trình d đoán RRTD bắt đầu vi vic thu thp và
tin x lý d liu, bao gm làm sch d liu, x lý giá
tr thiếu hóa các biến phân loi. Tiếp theo, k
thuật SMOTE được s dụng để cân bng d liu, gii
quyết vấn đề mt cân bng lớp. Sau đó, ba mô hình cơ
s CatBoost, rng ngu nhiên XGBoost đưc
hun luyn và tối ưu hóa bằng tối ưu hóa Bayesian. Kết
qu t các hình cơ sở đưc kết hp li bng hi quy
logistic để to ra hình tng hp cui cùng. Cui
cùng, hiu sut ca mô hình tng hợp được đánh giá.
Hình 1 Sơ đồ phương pháp đưc s dng trong nghiên cu