Đại hc Nguyn Tt Thành
23
Tp chí Khoa hc & Công ngh Vol 7, No 1
So sánh hiu qu các mô hình học máy trong đánh giá rủi ro tín dng
Cao Văn Kiên1,*, Vũ Thuận An1,2
1Khoa Công ngh Thông tin, Trường Đại hc Nguyn Tt Thành, TP. H Chí Minh, Vit Nam
2Trung tâm D liu và Công ngh Thông tin, Trưng Đại hc Bách khoa TP. H Chí Minh, Vit Nam
*cvkien@ntt.edu.vn
Tóm tt
Trong ngành ngân ng, qun lý ri ro n dng ngày càng tr nên phc tp quan
trng trong bi cnh toàn cu hóa. Ri ro n dng mt trong nhng thách thc
chính đối din các t chc tài chính, khi những người vay không thc hiện nghĩa vụ
tr n theo cam kết. Để gim thiu ri ro này, các phương pháp học máy đã tr thành
mt công c quan trng trong việc đánh giá khả năng vay của cá nhân. Nghiên cu
này so sánh hiu sut ca bn nh hc máy ph biến: “Cây quyết định”, “Rừng
ngẫu nhiên”, “Máy véctơ hỗ trợ”, và “Hi quy logistic” trong việc đánh giá rủi ro tín
dng. D liệu đã trải qua kim th và phân tích cho thy mô hình “Rng ngẫu nhiên”
vượt trội hơn so vi các hình n li, với độ chính xác cao nht 93,22 %. Kết
qu này cung cp cái nhìn u sc v kh năng ng dng ca c nh hc máy
trong việc đánh giá ri ro n dng th h tr các t chc tài chính trong quyết
định v vic cp tín dng cho cá nhân.
® 2024 Journal of Science and Technology - NTTU
Nhn 10/03/2024
Đưc duyt 20/03/2024
Công b 29/03/2024
T khóa
hc máy,
cây quyết định,
rng ngu nhiên,
máy véctơ hỗ tr,
hi quy logistic
1 Đặt vấn đề
Trong xu hướng tài chính hóa toàn cu, nhân ngân
hàng có mi quan h cộng sinh để gii quyết khó khăn
tài chính. nhân đạt được mc tiêu thông qua vic
nhn các khon vay dành cho các mục đích khác nhau
làm tăng tính cạnh tranh trong ngành tài chính, khiến
cho vic cho vay n dng tr thành mt phn không th
thiếu. Để đáp ng nhu cầu đó, hin nay nhiu t chc
tài chính, c ngân hàng t chc tài chính không thuc
ngân hàng, cung cp dch v cho vay tín dng. Thêm
vào đó, một phần đáng kể ca doanh thu ca nhng t
chức này đến trc tiếp t li suất thu được t c khon
vay.
Nhng rủi ro đáng kể liên quan đến vic cấp vay điều
khó tránh khỏi. “Rủi ro tín dụng” đề cập đến nhng tình
huống khi người vay không th tr li s tin vay theo
điều kin mà c người cho vay người vay đã thống
nht [1]. Mc dù c hai bên đều hưởng lợi nhưng giảm
thiu ri ro tr thành mt trong nhng mc tiêu chính
ca các t chức cho vay. Để kim tra người vay trong
quy trình cho vay truyn thng, ngân hàng ch yếu s
dụng “Nguyên tắc 5C” Kh năng trả n, Vn, Tính
cách, Điều kin và Tài sn thế chp [2]. Tuy nhiên quy
trình 5C này ràng ph thuc nhiu vào cm tính, ch
yếu s đánh giá ch quan ca nhân viên kim soát
ri ro. Ngân hàng và các t chc tài chính khác cp vay
sau khi xác minh xác nhận nhưng vấn đề mu cht
li không th tuyệt đối xác định liệu người xin vay
đã chọn có th tr n đúng hạn hay không.
Theo truyn thng, ngân hàng thuê các chuyên viên ch
để đánh giá hồ sơ của cá nhân và quyết định xeman
toàn để cp vay cho h hay không. Lúc đó, họ đánh giá
độ xứng đáng của người vay bng một điểm s s liu,
còn được biết đến “Điểm tín dụng”. Điểm này giúp
các quan quản ước lượng xác suất người vay tr
n trong thời gian và điều kiện đã thỏa thun da trên
Đại hc Nguyn Tt Thành
Tp chí Khoa hc & Công ngh Vol 7, No 1
lch s tín dng và/hoc lch s thanh toán của người
xin vay cùng vi nn tng ca h [3].
Vi s h tr ca công ngh, các nhà nghiên cu, ngân
hàng và các t chức tài chính khác đã bắt đầu s dng
các thut toán hc máy học sâu để đào tạo các
hình th d đoán khả năng đủ điu kin ca mt
người xin vay để nhận được khon vay da trên lch s
tín dng và d liu khác. Quá trình này có th giúp d
dàng la chn ứng viên đủ điều kiện trước khi chp
thun mt khon vay.
Trong nh vực đánh giá rủi ro tín dụng, c phương
pháp học máy đã được ng dng rng rãi vi nhiu
nghiên cứu đánh giá v hiu sut của các phương pháp
này. Trong s đó, cây quyết định (Decision tree, DT),
rng ngẫu nhiên (Random Forest, RF), máy véctơ hỗ
tr (Support Vector Machine, SVM), hi quy
logistic (Logistic Regression, LR) những phương
pháp được quan tâm nhiu nht.
DT mt k thut phân loi nhanh d hiu, chia nh
tp quan sát thành các nhóm nh hơn dựa trên mt tp
lut biến mc tiêu c th [4]. Nhiu nghiên cứu đã
ch ra hiu sut cao của DT trong đánh giá tín dụng.
Davis [5] và Galindo và Tamayo [6] đều nhn thy DT
độ chính xác tương đương hoặc cao hơn so với mng
ron các hình khác. vậy, so với các phương
pháp như SVM hay LR, DT thường không đạt hiu sut
tt nht [7].
V phương pháp RF, phương pháp này xây dựng mt
tp hp các DT được hun luyn trên các tp d liu
khác nhau bng k thut bootstrap, vi kết qu d đoán
cui cùng kết qu trung bình ca tt c các cây [8].
Loureiro [9] Xiao [10] đều nhn mạnh phương pháp
RF đạt hiu sut phân loi tín dụng cao hơn so với các
hình truyn thống. Trái ngược quan điểm đó,
Brown Mues [11] cũng như Butaru [12] li không
tìm thy s t tri của phương pháp RF so với các
phương pháp khác.
SVM là mt công c ph biến trong đánh giá rủi ro tín
dng nh kh năng thực hin ánh x phi tuyến và tránh
b kt ti cc tr cc b [13, 14]. Tuy nhiên, mt s
nghiên cu khác li ch ra RF đạt hiu sut tốt hơn so
vi SVM [6, 7, 15].
LR một phương pháp thống truyn thng hiu qu
trong đánh giá tín dụng [14, 16, 17] nh ph biến
của phương pháp này là vẫn được s dng rng rãi nh
tính đơn giản cũng như phân bố li khá cân bng [4,18,
19].
Bài báo này nghiên cu tp trung vào các thut toán
học máy để tìm ra hình phù hp nht hiện nay để
d đoán một khon vay th xy ra mc n hay
không. Các nh s dng trong bài này bao gm:
DT, RF, SVM, và LR. Mi mô hình s đưc phân tích
độc lp cho b d liu, tìm ra các mu rút ra kết lun
t s phân tích này. Cui cùng, da trên phân ch,
nhóm nghiên cu s xác định liu mt ng viên mi có
n khon vay hay không nhm giúp ngân hàng các
t chc tài chính gii quyết vấn đề truyn thng.
Phn tiếp theo của bài báo được b cục như sau: các
thuyết nn tng v các mô hình học máy cũng như các
phương pháp nghiên cứu, bao gm cách thc thu thp
d liu, quy trình phân tích c công c được s
dng trong quá trình nghiên cu s được trình bày trong
Phn 2. Phn 3 trình bày c th các kết qu nghiên cu
tho lun. Cui cùng mt s kết luận đ xut
được đưa ra ở Phn 4.
2 Phương pháp nghiên cứu
Hình 1 minh ha tng quan v cu trúc của phương
pháp được đề xuất để d đoán khả năng vay tín dụng.
Nghiên cu này tiến hành qua các giai đoạn quan trng.
Đầu tiên, d liệu được trích xut t sở d liu. Sau
đó, giai đoạn tin xd liu bao gm loi b giá tr
thiếu và ngoi lệ, cũng như chuẩn hóa d liu đ chun
b cho vic hun luyện mô hình. Sau giai đoạn tin x
lý, d liệu được phân chia thành hai phn: một để hun
luyn nh một để đánh giá hiu sut hình,
đảm bảo tính khách quan. Bước quan trng tiếp theo là
hun luyn các hình hc máy khác nhau, bao gm
DT, RF, SVM, và LR. Mc tiêu chính ca nghiên cu
này là kim tra t m và so sánh hiu sut mi mô hình
để xác định gii pháp hiu qu nht cho vấn đề nghiên
cu c th. Cui cùng, thc hin phân tích so sánh độ
chính xác kết qu của mô nh để tho lun toàn din
v hiu qu ca tng hình rút ra kết lun quan
trng phù hp vi vấn đề nghiên cu.
Đại hc Nguyn Tt Thành
25
Tp chí Khoa hc & Công ngh Vol 7, No 1
Hình 1 Sơ đồ dòng của phương pháp phân tích được s dng trong nghiên cu này.
2.1 Tp d liu
Trong phn này ca nghiên cu, tp d liệu được s dụng “Tập d liu ri ro tín dụng” (Credit Risk Dataset)
[20], được công b trên nn tng Kaggle. Tp d liu này bao gm khong 300 triu giao dịch vay được thc hin
bi 32 581 nhân. B d liu này bao gm tng cộng 11 đặc trưng, tả h của mỗi nhân, được lit
trong Bng 1.
Bng 1 Ký hiệu và định nghĩa biến theo các đặc điểm d liu
Biến đầu vào
Định nghĩa biến
person_age
Tuổi của cá nhân
person_income
Thu nhập hàng năm của cá nhân.
person_home_ownership
Loại sở hữu nhà - thuê, thế chấp, thuê mua, sở hữu hoặc khác.
person_emp_length
Thời gian làm việc của cá nhân (theo năm).
loan_intent
Mục đích của khoản vay.
loan_amnt
Số tiền được hoàn trả cho người vay.
loan_int_rate
Lãi suất đối với khoản vay.
loan_status
Trạng thái thanh toán khoản vay (0 là không vi phạm, 1 là vi phạm).
loan_percent_income
Tỷ lệ phần trăm số tiền vay theo tổng thu nhập.
cb_person_default_on_file
Lịch sử các khoản nợ (nếu có) được thực hiện bởi cá nhân.
cb_person_cred_hist_length
Lịch sử tín dụng của cá nhân.
Ngoài ra, Bng 2 mô t chi tiết v các loi d liệu và các đặc điểm thng kê ca tp d liu.
Bng 2 Đặc điểm thng kê
No.
Attributes
Data type
Min
Values
Max
Values
Mean
Standard
Deviation (std)
1
person_age
int64
20
144
27,73
6,31
2
person_income
int64
4 000
6 000 000
66 649,37
62 356,45
3
person_home_ownership
object
-
-
-
-
Đại hc Nguyn Tt Thành
Tp chí Khoa hc & Công ngh Vol 7, No 1
4
person_emp_length
float64
0
123
4,79
4,15
5
loan_intent
object
-
-
-
-
6
loan_amnt
int64
500
35 000
9 656,49
6 329,68
7
loan_int_rate
float64
5,42
23,22
11,04
3,23
8
loan_status
int64
0
1
0,22
0,41
9
loan_percent_income
float64
0
0,83
0,17
0,11
10
cb_person_default_on_file
object
-
-
-
-
11
cb_person_cred_hist_length
int64
2
30
5,79
4,04
Chú trọng đến các bước tin x lý d liu không ch
nhằm tăng cường hiu sut của hình còn đm
bo tính toàn vn nht quán ca d liệu đầu vào.
Điu này to ra mt nn tảng đáng tin cậy cho quá trình
hun luyện và đánh giá mô hình.
2.2 Tin x d liu
Hình 2 Bản đồ nhiệt độ tương quan ca tp d liu.
Trong mc này, tiến hành phân tích trên d liệu để
chun b cho vic xây dng mt mô hình d đoán mạnh
m. Quá trình phân tích d liu được mô t như sau:
Kim tra giá tr thiếu: một bước quan trng là kim tra
xem giá tr thiếu nào trong tp d liu hay không.
B qua các giá tr thiếu th dẫn đến kết qu không
chính xác. Do đó, nhóm nghiên cứu đã kiểm tra k
ng các thuc tính d liệu để xác định xem có giá tr
thiếu hoc NA nào không. Các giá tr thiếu hoc NA s
được xóa hàng tương ứng.
Phân tích tương quan: trong quá trình này, vic phân
tích tp d liệu đã được thc hiện để đánh giá mức độ
tương quan giữa các thuộc tính. Các đặc trưng hoặc h
s tương quan cao thể ảnh hưởng đáng kể đến
hiu sut ca hình phân loi. Mức độ tương quan
âm cao thường dẫn đến hiu sut thp. Hình 2 minh ha
mt cách trc quan v ma trn tương quan của tp d
liu, th hin mức đ tương quan giữa các cp biến
thông qua các h s tương quan từ −1 đến 1. Chng hn
như khoản vay (loan_amnt) và t l khon vay trên thu
nhp (loan_percent_income) mi quan h tích cc
h s tương quan 0,61. Ma trận tương quan
thường được s dng trong phân tích thng kê và khoa
hc d liệu để đánh giá mức độ liên kết gia các biến
phát hin ra các mu hoc mi quan h trong d liu.
Chuẩn hóa đặc trưng: tp d liu v kh năng cho vay
tín dng bao gm các thuộc tính được đo trên các thang
đo khác nhau. Sự khác bit này th làm ảnh hưởng
đến hiu sut của hình. Để gii quyết vấn đề này,
các thuộc tính đã được chun hóa để có cùng mt thang
đo từ 0 đến 1 bng công thc toán hc như sau:
min( ) ,
max( ) min( )
scale
xx
xxx
trong đó, x là giá trị gc mà ta mun chun hóa,
scale
x
giá tr đã được chun hóa ca x, min(x) là giá tr nh
nht trong tp d liu, và max(x) là giá tr ln nht ca
tp d liu.
2.3 Các mô hình hc máy
Trong phm vi ca nghiên cu này, bốn phương pháp
hc máy giám sát ph biến đã được đánh giá để so
sánh hiu sut của các phương pháp này trên tập d liu
ri ro tín dụng. Do đó, các kỹ thuật như DT, RF, SVM,
LR đã được trin khai bng cách so sánh hiu sut
của các phương pháp này da trên ma trn nhm ln
(Confusion Matrix), độ chính xác (Accuracy), độ chun
xác (Precision), độ nhạy (Recall), điểm F1 (F1
Score). Các k thuật này được đánh giá để phân tích
hiu qu ca các phương pháp hc máy khác nhau trên
cùng mt tp d liu. Các thuật toán này được ưa
chung d trin khai th to ra kết qu tt v
hiu sut.
Đại hc Nguyn Tt Thành
27
Tp chí Khoa hc & Công ngh Vol 7, No 1
2.3.1 Mô hình cây quyết định
Cây quyết đnh (DT) mt trong nhng ng c mnh
m nht ca các thut tn học có giám t đưc s dng
cho cc nhim v phân loi và hi quy. DT xây dng
mt cu trúc y ging n mt biu đ dòng điu chnh,
trong đó mỗi t ni b biu th mt kim tra trên mt
thuc tính, mi nhánh biu th mt kết qu ca kim tra,
và mi t (nút cui ng) cha mt nhãn lp. DT đưc
y dng bng cách chia tách đệ quy d liu hun luyn
thành c tp con da trên các giá tr ca các thuc nh
cho đến khi đáp ng đưc mt điều kin dng, chng hn
như độ u ti đa của cây hoc s ng mu ti thiu cn
thiết đ chia mt nút.
Trong quá trình hun luyn, thut toán DT chn thuc tính
tt nht để chia d liu da trên một phương pháp đánh
giá n entropy hoc đ không chc chn Gini, đo lưng
mức độ không thun khiết hoc ngu nhn trong các tp
con. Mc tiêu m thuc tính ti ưu nhất mà tăng tng
tin hoc giảm độ không thun khiết sau khi chia. Ngưi
đọc, th xem các i liu [21-25] để th hiểu sâu n
v mô hình DT. Ngoài ra, các ng dng ca mô hình DT
th xem tài liu [26-28].
2.3.2 Mô hình rng ngu nhiên
Mt thut toán RF mt thut toán hc máy giám sát
cc k ph biến và được s dng cho các vấn đề phân
loi và hi quy trong hc máy, biết rng mt khu rng
bao gm nhiu cây, càng nhiu cây càng mnh m
hơn. Tương tự, càng nhiu cây trong mt thut toán RF,
độ chính xác kh năng giải quyết vấn đề ca thut
toán đó càng cao. RF mt b phân loi có cha nhiu
DT trên các tp con khác nhau ca tp d liệu đã cho
lấy trung bình để ci thiện độ chính xác d đoán của
tp d liệu đó. Thuật toán này da trên khái nim hc
hợp tác, đó là quá trình kết hp nhiu b phân loại để
gii quyết mt vấn đề phc tp ci thin hiu sut
của nh. Người đọc, th xem các tài liu [29,
30] để th hiểu sâu hơn về hình RF Ngoài ra,
người đọc có th xem các ng dng ca mô hình RF
tài liu [31].
2.3.3 Mô hình máy véctơ hỗ tr
Máy véctơ h tr (SVM) một phương pháp trong
thng và khoa học máy tính. Phương pháp này được
s dng để phân loi và phân tích d liu. SVM thut
toán phân loi nh phân, tc phân loi d liu thành
hai lp khác nhau. Thut toán SVM xây dng mt mô
hình đ phân loi các d vào hai lớp đó. hình
SVM biu diễn các điểm trong không gian và la chn
ranh gii gia hai lp sao cho khong cách tc ví d
luyn tp ti ranh gii là xa nht có thể. SVM cũng có
th ánh x d liu vào không gian mới để phân tách các
điểm d liu d dàngn. Trong tóm tt, SVM là mt
công c mnh m trong hc máy, giúp phân loi
phân tích d liu da trên vic xây dng các siêu phng
tối ưu để phân chia các lp d liệu. Người đọc, th
xem các tài liệu [32] để th hiểu sâu hơn về mô hình
SVM. Ngoài ra, các ng dng ca mô hình SVM th
xem tài liu [33].
2.3.4 Mô hình hi quy logistic
LR mt thut toán phân loại khác, thường đưc s
dụng để phân loi quan sát vào mt tp hp các lp riêng
bit. Thuật toán này được suy ra t thuyếtc sut và
là mt loi thut toán d đoán. Giả thuyết ca LR có xu
ng gii hn hàm chi phí. Hàm này chuyển đổi bt k
giá tr thc nào thành mt phm vi t 0 đến 1 được biết
đến vi tên gi hàm sigmoid. Hàm sigmoid được s
dụng để ánh x d đoán thành xác suất. Phương trình của
LR đưc biu diễn như sau:
0 1 1 2 2
log ... .
1nn
yb b x b x b x
y



Trong đó, y biến ph thuộc thường xác suất để mt
s kin xy ra,
12
, ,..., n
x x x
các biến độc lp,
12
, ,..., n
b b b
các h s ca hình. Người đọc, th
xem các tài liệu [34, 35] đểth hiểu sâu hơn về
hình LR. Ngoài ra, các ng dng ca hình LR
th xem tài liu [36].
3 Kết qu và tho lun
Trong phần này, đề cập đến vic so sánh tho lun
v hiu sut ca bn thut toán học máy được giám sát
như các bộ phân loi, bao gm DT, RF, SVM, và LR.
Tp hun luyn và kiểm tra được chn ngu nhiên vi
t l 80 % d liu hun luyn và 20 % d liu kim tra
da trên d liu gốc để nghiên cu v độ chính xác
hiu sut ca b phân loi.
3.1 Môi trường thc nghim
Trong nghiên cu này, các thí nghiệm đã được thc
hin trên máy nh MacBook Air chy h điu hành
Windows 10 Professional, vi CPU Intel Core i5
5250U 1,60 GHz, card đồ ha tích hp Intel HD
Graphics 6000, b nh RAM DDR3 4 GB.
nguồn được viết bng ngôn ng lp trình Python phiên
bn 3.10.5.
3.2 Đánh giá hiu sut các mô hình hc máy
Đánh giá hiệu sut là mt phn quan trng ca mt k
thut phân loại. Các độ đo hiệu suất giúp xác định