S 195/2024 thương mi
khoa hc
1
3
15
39
57
MCLC
KINH TQUN LÝ
1. Nguyn Hoàng - Chuyn đổi s cam kết phát trin bn vng: Động lc đổi mi sáng
to cho doanh nghip Vit Nam. s: 195.1SMET.11
Digital transformation and commitment to sustainable development: The driving
force of innovation for Vietnamese businesses
2. Nguyn Trn Hưng - Hiu qu qun lý nhà nước đối vi bán l trc tuyến ti Vit Nam
- nghiên cu t các doanh nghip bán l. s: 195.1TrEM.11
State Management Effectiveness of Online Retail in Vietnam - Research at Retail
Enterprises
3. Th Cm Vân, Vũ Th Thanh Huyn, Mai Trang, Trn Vit Tho và Nguyn
Th Thu Hin - Đo lường khong cách v năng sut gia doanh nghip FDI doanh
nghip ni địa ngành công nghip chế biến chế to Vit Nam. s: 195.1IIEM.11
Measuring the Productivity Gap Between FDI and Domestic Enterprises in the
Vietnam’s Manufacturing Industry
QUN TR KINH DOANH
4. Nguyn Minh Nht Đào Kiu Oanh - Mc độ hiu qu ca các hình hc
máy tree-based trong phát hin giao dch gian ln th tín dng. s: 195.2FiBa.21
The Effectiveness of Tree-Based Machine Learning Models in Detecting Credit
Card Fraud Transactions
ISSN 1859-3666
E-ISSN 2815-5726
S 195/2024
2thương mi
khoa hc
5. Nguyn Diu Anh - Nghiên cu tác động ca rào cn xut khu đến hiu qu
hot động ca doanh nghip xut khu Vit Nam. s: 195.2IBMg.21
Research on the Impact of Export Barriers Affecting the Organizational
performance of Vietnamese Export Enterprise
6. Trn Văn Khi - Nghiên cu năng lc văn hóa ca người lao động ti các khu công
nghip Vit Nam. s: 195.2HRMg.21
The study of the cultural competence of workers in industrial zones in Vietnam
7. Bùi Th Thanh, Phan Quc Tn, Lê Công Thun Phm Thc Hân - Nâng
cao hiu qu hot động ca doanh nghip thông qua trin khai kinh tế tun hoàn.
s: 195.2DEco.21
Enhancing Firm Performance Through Implementing Circular Economy
Ý KIN TRAO ĐỔI
8. Nguyn Qunh Anh - Hoàn thin qun lý chính sách v bo v quyn li người
tiêu dùng ti Vit Nam. s: 195.3SMET.31
Enhancing Policy Management for Consumer Protection in Vietnam
72
85
98
110
ISSN 1859-3666
E-ISSN 2815-5726
1. Đặt vn đề
Gian ln th tín dng mt trong nhng
thách thc nghiêm trng nht đối vi ngành
ngân hàng tài chính, vi ước tính chi phí
toàn cu ca gian ln thanh toán trc tuyến s
đạt 260 t đô la M vào năm 2025 (Juniper
Research, 2022). Ti Vit Nam, nghiên cu
d liu t Visa cho thy, trong Quý 3 năm
2023, t l gian ln liên quan đến vic phát
hành th ti Vit Nam cao hơn so vi mc
trung bình ca khu vc Châu Á - Thái Bình
Dương. Hơn na, xu hướng này đang tăng lên
mt cách nhanh chóng (Hip hi Ngân hàng
Vit Nam, 2024). S phát trin ca công ngh
s ph biến ca giao dch trc tuyến đã
không ch đơn gin là m rng cơ hi cho tiêu
dùng còn làm tăng kh năng xy ra gian
ln, đặt ra nhng thách thc ln cho các t
chc tài chính trong vic bo v khách hàng
tài sn ca h.
Theo Dal Pozzolo cng s (2018), các
giao dch gian ln th tín dng thường din ra
57
!
S 195/2024
QUN TR KINH DOANH
thương mi
khoa hc
MC ĐỘ HIU QU CA CÁC MÔ HÌNH HC MÁY TREE-BASED
TRONG PHÁT HIN GIAO DCH GIAN LN TH TÍN DNG
Nguyn Minh Nht*
Email: nhatnm@hub.edu.vn
Đào Kiu Oanh*
Email: Oanhdlk@hub.edu.vn
* Trường Đại hc Ngân hàng TP. H Chí Minh
Ngày nhn: 03/09/2024 Ngày nhn li: 25/10/2024 Ngày duyt đăng: 28/10/2024
T khóa: Hc máy, Mô hình Tree-based, Random Forest, XGBoost, Gian ln th tín dng
JEL Classifications: C63, C45, G28.
DOI: 10.54404/JTS.2024.195V.04
Nghiên cu này tp trung vào vic đánh giá và so sánh hiu qu ca các mô hình hc
máy da trên cây (Tree-based machine learning models) trong vic d báo gian ln
th tín dng. Các hình được xét gm Decision Tree, Random Forest, Gradient Boosting
Machines (GBM) Extreme Gradient Boosting (XGBoost). B d liu s dng cho nghiên
cu này bao gm 568,630 giao dch th tín dng, vi các thuc tính t V1 đến V28 được biến
đổi thông qua phân tích thành phn chính (PCA) để bo v thông tin cá nhân. Nghiên cu này
s dng ma trn nhm ln (Confusion Matrix) và các ch s đánh giá như Độ chính xác, Độ
nhy (Recall), Precision và F1 Score để đánh giá hiu qu ca mi mô hình. Kết qu cho thy
rng Random Forest và XGBoost đều có hiu sut n tượng, đặc bit Random Forest cho thy
s vượt tri hơn trong vic gim thiu báo động gi và phát hin chính xác các giao dch gian
ln. Mc mt s hn chế v kh năng gii thích các thuc tính quan trng do tính n
danh ca d liu, tuy nhiên nghiên cu k vng cung cp góc nhìn quan trng v tim năng
ng dng các mô hình hc máy trong vic phát hin gian ln th tín dng, t đó có th là kênh
tham kho hoc h tr cho các t chc tín dng trong hot động thc tin.
!
không s chp thun ca ch th, vi
mc đích chiếm đot tài sn cá nhân mt cách
bt hp pháp. Các giao dch này được thc
hin thông qua vic s dng thông tin th tín
dng b đánh cp hoc làm gi, ch yếu xy
ra trong môi trường không cn xác minh
s hin din ca ch th. Hu qu nhng
thit hi đáng k không ch đối vi nhân
còn vi các t chc tài chính phát hành
th. Trước thc trng này, nhu cu phát trin
các công ngh hiu qu nhm phát hin
ngăn nga gian ln tr nên cp thiết. Trong
đó, công ngh hc máy ni bt như mt gii
pháp tim năng, giúp tăng cường kh năng
phát hin các giao dch đáng ng(Varmedja
& cng s, 2019). Đặc bit, các mô hình hc
máy Tree-based vi k thut tiên tiến, mang
đến kh năng ti ưu hóa trong vic phân loi
và d đoán gian ln, h tr đáng k trong vic
gim thiu ri ro tài chính.
Tiếp cn theo nhóm hình hc máy
Tree-based bao gm hình Decision Tree,
Random Forest hay các hình Gradient
Boosting, đã được chng minh là rt hiu qu
trong vic phân tích phân loi d liu ln
trong vic phát hin các giao dch gian ln
(Learning, 2023). Các hình này tn dng
li thế ca vic kết hp nhiu cây quyết định
để to ra mt mô hình tng hp mnh m hơn,
gim thiu sai lch phương sai, đồng thi
ci thin độ chính xác ca d đoán. Đặc bit,
kh năng x lý các tp d liu ln không
cân xng - mt đặc đim thường thy trong
d liu gian ln th tín dng - làm cho các
phương pháp này tr nên vô cùng quý giá. Do
đó, s phc tp kh năng t hc ca các
hình này cung cp mt công c mnh m
để gii các hành vi gian ln ngày càng tinh
vi (Tanwar cng s, 2023).
Tuy nhiên, hin nay vn còn nhng tranh
lun nht định v tính hiu qu ca các
hình hc máy da trên cây trong vic phát
hin các giao dch gian ln. nhiu nghiên
cu ng h tính hiu qu ca hình rng
ngu nhiên nhưUdeze cng s(2022),
Tanwar cng s(2023), nhưng cũng
nhng nghiên cu li ng h hình
Gradient Boosting nhưFaraji (2022),
Learning (2023). Do đó, trong bài nghiên cu
này, tác gi s tp trung phân tích tính hiu
quso sánh hiu sut ca bn mô hình hc
máy da trên cây bao gm cây quyết định,
rng ngu nhiên, GBM (Gradient Boosting
Machines) XGBoost (Extreme Gradient
Boosting) trong vic d báo gian ln th tín
dng. Mc độ hiu qu ca các hình hc
máy da trên cây s được đánh giá da trên 8
tiêu chí c th được ước tính t ma trn nhm
ln (Confusion matrix) ca hình. Các
hình này s được kim định trên b d liu
ln vi 568,630 giao dch trên th tín dng
được thu thp đến thi đim năm 2023
công khai trên (Kaggle, 2023). Kết qu
nghiên cu k vng rng s giúp các t chc
tài chính hiu hơn v hiu sut ca các
phương pháp hc máy da trên cây, để t đó
nhng la chn ci tiến phù hp trong
hot động thc tin.
Các ni dung tiếp theo ca bài nghiên cu
s được trình bày vi kết cu như sau: (2)
Kho lược nghiên cu; (3) Phương pháp
nghiên cu; (4) Kết qu nghiên cu thc
nghim; (5) Kết lun.
2. Kho lược nghiên cu
Các nghiên cu v phát hin gian ln th
tín dng đã thu hút s quan tâm rng rãi t c
cng đồng nghiên cu ngành công nghip
tài chính. Nhng nghiên cu gn đây tp
trung vào vic phát trin các phương pháp
công ngh mi, bao gm c phương pháp hc
máy và trí tu nhân to, để nâng cao kh năng
nhn din ngăn chn gian ln hiu qu.
Bng cách kết hp các phương tin phân tích
d liu, thut toán hc máy th hc t d
liu giao dch t động phát hin các biu
hin ca hot động gian ln, đem li hiu sut
độ chính xác cao trong vic bo v tài
chính nhân t chc.
S 195/2024
58
QUN TR KINH DOANH
thương mi
khoa hc
Awoyemi cng s(2017) đã nghiên
cu hiu sut ca các k thut Naïve Bayes,
k-nearest neighbor và hi quy logistic trên b
d liu gian ln th tín dng có tính cht lch
cao, s dng mt k thut kết hp ca vic
ly mu thiu s ly mu dư tha, các
k thut này được áp dng trên d liu thô và
đã qua x lý. Kết qu cho thy hiu sut ti
ưu v độ chính xác cho các phân loi Naïve
Bayes, k-nearest neighbor và hi quy logistic
ln lượt 97.92%, 97.69% 54.86%, vi
k-nearest neighbor th hin hiu qu tt hơn
so vi Naïve Bayes hi quy logistic.
Jurgovsky cng s(2018), trong bài
nghiên cu ca mình đã định nghĩa vn đề
phát hin gian ln như mt nhim v phân
loi chui s dng mng LSTM (Long
Short-Term Memory) để tích hp các chui
giao dch, đồng thi tích hp các chiến lược
tng hp đặc đim tiên tiến nht báo cáo
kết qu thông qua các ch s thu hi truyn
thng. So sánh vi phân loi Random Forest
cơ bn cho thy LSTM ci thin độ chính xác
trong vic phát hin gian ln trên các giao
dch ngoi tuyến khi ch th mt ti nhà
cung cp. C hai phương pháp hc có trình t
không trình t đều được hưởng li
mnh m t các chiến lược tng hp đặc
đim th công. Phân tích sau đó v các
trường hp tích cc cho thy c hai phương
pháp xu hướng phát hin các hình thc
gian ln khác nhau, điu này gi ý mt s kết
hp ca c hai.
Dornadula Geetha (2019) đã phát trin
mt phương pháp phát hin gian ln mi cho
d liu giao dch trc tuyến, bng cách phân
tích lch s giao dch ca khách hàng và rút ra
các mu hành vi, sau đó phân loi ch th
thành các nhóm da trên s tin giao dch
s dng các phân loi khác nhau để đào to
cho tng nhóm mt cách riêng bit. Bài
nghiên cu đề xut mt cơ chế phn hi để
gii quyết vn đề da trên b d liu v gian
ln th tín dng châu Âu. Thennakoon
cng s(2019) tiếp tc dành s quan tâm khi
tp trung vào bn loi hình gian ln chính
trong giao dch thc tế, mi loi được gii
quyết bng cách s dng các hình hc
máy khác nhau và phương pháp tt nht được
chn thông qua đánh giá, cung cp hướng dn
toàn din để chn thut toán ti ưu phù hp
vi tng loi gian ln. Ngoài ra, các tác gi
cũng đề cp đến phát hin gian ln th tín
dng thi gian thc, s dng phân tích d báo
t các hình hc máy được trin khai
mt mô-đun API để xác định tính xác thc
ca mt giao dch c th, đồng thi đánh giá
mt chiến lược mi hiu qu cho vic gii
quyết s phân b lch ca d liu.
Maniraj cng s (2019) hướng s tp
trung vào phân tích và tin x lý d liu cũng
như trin khai nhiu thut toán phát hin bt
thường như Local Outlier Factor Isolation
Forest trên d liu giao dch th tín dng đã
được biến đổi PCA, vi mc tiêu phát hin
100% các giao dch gian ln gim thiu
phân loi gian ln không chính xác. Bagga
cng s (2020) đã cho thy rng vic phát
hin gian ln th tín dng đặc bit khó khăn
do hai vn đề chính là s thay đổi liên tc ca
hành vi gian ln s chênh lch ln trong d
liu được s dng. Các tác gi đã tiến hành so
sánh hiu sut ca các phương pháp hi quy
logistic, K-nearest neighbors, Random
Forest, Naive Bayes, perceptron đa tng,
AdaBoost, pipelining và hc tp kết hp trên
d liu gian ln th tín dng.
Bên cnh đó, ch đề phát hin các giao
dch gian ln th tín dng cũng thu hút s
quan tâm ca các nhà nghiên cu trong nước,
Nguyn Th Liên cng s(2018) đã tiến
hành nghiên cu nghiên cu trên b d liu
Châu Âu trên các hình ph biến như
hình Logistic, Mng Bayesian, Decision Tree
phương pháp Stacking, t đó đề xut
hình phương pháp x lý d liu phù hp
cho các ngân hàng thương mi Vit Nam để
phát hin kim soát gian ln th tín dng.
59
!
S 195/2024
QUN TR KINH DOANH
thương mi
khoa hc