TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Nghiên cứu và cài đặt th nghim mô
hình phát hin gian ln th tín dng
Tên sinh viên : Cn Thu An
Giảng viên hướng dn : TS. Lương Văn Thiện
Hà Ni, 5/2025
2025.2 CÔNG NGH THÔNG TIN CN THU AN 11218439
TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Nghiên cứu và cài đặt th nghim mô hình
phát hin gian ln th tín dng
Tên sinh viên : Cn Thu An
Mã sinh viên : 11218439
Lp : Công ngh thông tin K63A
Ngành : Công ngh thông tin
Khoa : Công ngh thông tin
Giảng viên hướng dn : TS. Lương Văn Thiện
(Ch ký GVHD)
Hà Ni, 5/2025
i
MỤC LỤC
MC LC .............................................................................................................. i
LỜI CAM ĐOAN ................................................................................................ iv
LI CM ƠN ....................................................................................................... v
DANH MC CÁC T VIT TT .................................................................... vi
DANH MC BNG, BIU Đ ........................................................................ vii
DANH MC HÌNH ........................................................................................... viii
M ĐẦU ............................................................................................................... 1
CHƯƠNG 1. TNG QUAN V ĐỀ TÀI ........................................................... 2
1.1. Bi cnh v vic dùng th tín dng ............................................................. 2
1.2. Gian ln th tín dng (Credit card fraud) ..................................................... 2
1.2.1. Phương pháp gian lận ph biến ............................................................. 3
1.2.1.1. Skimming (Sao chép thông tin th) .................................................... 3
1.2.1.2. Phishing (Lừa đảo qua email/tin nhn) .............................................. 4
1.2.1.3. Identity (Đánh cắp danh tính) ............................................................ 4
1.2.2. Gian ln th tín dng trong ngân hàng .................................................. 5
1.2.3. Thách thc trong phát hin gian ln th tín dng .................................. 6
1.3. AI/ML trong phát hin gian ln ................................................................... 7
1.4. Gii thiu v đề tài ....................................................................................... 8
1.4.1. Mc tiêu và phm vi ca đề tài ............................................................. 8
1.4.2. Đề xut mô hình bài toán ...................................................................... 8
1.4.3. Đóng góp ca đ tài ............................................................................... 9
1.4.3.1. Đóng góp khoa học ............................................................................ 9
1.4.3.2. Đóng góp thc tin ............................................................................. 9
1.4.3.3. Đóng góp v công c và tài liu nghiên cu ...................................... 9
1.5. Công c triển khai đề tài ............................................................................ 10
CHƯƠNG 2. CƠ S LÝ THUYT .................................................................. 11
2.1. Bi cnh ca phát hin gian ln th tín dng ............................................. 11
2.1.1. Gian ln th tín dng (Credit card fraud) ............................................ 11
2.1.2. Phát hin gian ln th tín dng (Credit card fraud detection) ............. 14
2.2. Phương pháp phát hiện gian ln................................................................. 15
2.2.1. Các phương pháp phát hiện gian ln truyn thng .............................. 15
ii
2.2.1.1. Quy tc phát hin da trên ngưng (Rule-based Detection) ............ 15
2.2.1.2. H thng chuyên gia (Expert Systems) ............................................ 16
2.2.2. ng dng AI/ML trong phát hin gian ln ......................................... 17
2.2.2.1. ng dng AI/ML trong phát hin gian ln th tín dng .................. 18
2.2.2.2. Thách thc khi áp dng AI/ML vào trin khai thc tế..................... 19
CHƯƠNG 3. PHƯƠNG PHÁP HỌC MÁY VÀ HC SÂU .......................... 22
(MACHINE LEARNING AND DEEP LEARNING APPROACH) ....... Error!
Bookmark not defined.
3.1. K thut x lý d liu mt cân bng (Imbalanced Data) ........................... 22
3.1.1. Vấn đề mt cân bng lp (Class Imbalance Problem) ........................ 22
3.1.2. Các k thut x lý mt cân bng (Resampling Techniques) ............... 23
3.1.2.1. Undersampling ................................................................................. 23
3.1.2.2. Oversampling ................................................................................... 24
3.1.2.3. SMOTE + Tomek Links (Undersampling) ...................................... 27
3.2. Ensemble Learning .................................................................................... 29
3.2.1 Basic Ensemble Techniques ................................................................. 29
3.2.2. Advanced Ensemble Techniques ........................................................ 30
3.3. Các mô hình AI/ML được s dng ............................................................ 31
3.3.1. Sơ đồ quy trình (Workflow) ................................................................ 31
3.3.2. XGBoost .............................................................................................. 32
3.3.3. Random Forest .................................................................................... 34
3.3.4. CatBoost .............................................................................................. 35
3.3.4. MLP ..................................................................................................... 36
3.4. Đánh giá mô hình ....................................................................................... 37
3.4.1. Evaluation metrics ............................................................................... 37
3.4.2. Cross-validation .................................................................................. 40
CHƯƠNG 4. DATASET .................................................................................... 42
4.1. Mô t d liu gc (Raw data description) ................................................. 42
4.2. EDA (Phân tích khám phá d liu) ............................................................ 43
4.3. Data Preprocessing .................................................................................... 46
4.3.1. Tạo đặc trưng mới (Feature Creation) ................................................. 46
4.3.2. Loi b biến dư thừa (Redundant Variable Removing) ...................... 48
4.3.3. Chun hóa d liu (Scaling and Encoding) ......................................... 49
iii
4.4. Data Split ................................................................................................... 50
CHƯƠNG 5: KẾT QU VÀ CÀI ĐẶT TH NGHIM ............................... 52
5.1. Kết qu của mô hình khi chưa dùng k thut Resampling ........................ 52
5.3. Điều chnh tham s đánh giá kết qu (Hyperparameter tuners and
evaluation result) ............................................................................................... 54
5.4. Cài đặt th nghim ..................................................................................... 57
KT LUN ......................................................................................................... 59
TÀI LIU THAM KHO ................................................................................. 61
PH LC ................................................................ Error! Bookmark not defined.