TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Nghiên cu mt s phương pháp xử lí vic mt cân
bng d liu trong bài toán khách hàng ri b s
dng các mô hình hc máy
Tên sinh viên : Lã Xuân Đạt
Mã sinh viên : 11211255
Lp : CNTT K63A
Ngành : Công ngh thông tin
Vin : Công ngh thông tin và kinh tế s
Giảng viên hướng dn : Nguyễn Phương Nam
(Ch ký GVHD)
Hà Ni, 5/2024
- 1 -
MC LC
MC LC -------------------------------------------------------------------------------------------------------------------------------------------------- - 1 -
LỜI CAM ĐOAN ----------------------------------------------------------------------------------------------------------------------------------------- - 3 -
LI CẢM ƠN --------------------------------------------------------------------------------------------------------------------------------------------- - 4 -
DANH MC HÌNH NH -------------------------------------------------------------------------------------------------------------------------------- - 5 -
DANH MC BNG -------------------------------------------------------------------------------------------------------------------------------------- - 6 -
I. TỔNG QUAN ĐỀ TÀI --------------------------------------------------------------------------------------------------------------------------------- - 7 -
1.1. Lý do chọn đề tài ------------------------------------------------------------------------------------------------------------------------------ - 7 -
1.2. Mục đích nghiên cứu ------------------------------------------------------------------------------------------------------------------------- - 7 -
1.3. Đối tượng phm vi nghiên cu ------------------------------------------------------------------------------------------------------------ - 7 -
1.4. Ý nghĩa khoa học và thc tin của đề tài ----------------------------------------------------------------------------------------------- - 8 -
II. CƠ SỞ LÝ THUYT ----------------------------------------------------------------------------------------------------------------------------------- - 9 -
2.1. Vấn đề v bt cân bng d liu ----------------------------------------------------------------------------------------------------------- - 9 -
2.1.1. Định nghĩa ------------------------------------------------------------------------------------------------------------------------------- - 9 -
2.1.2. Ti sao vic bt cân bng d liu li ảnh hưởng xu? --------------------------------------------------------------------- - 10 -
2.2. Tng quan v các phương pháp x lí d liu bt cân bng --------------------------------------------------------------------- - 10 -
2.2.1. Trường phái Over Sampling ------------------------------------------------------------------------------------------------------- - 11 -
2.2.2. Trường phái Under Sampling ----------------------------------------------------------------------------------------------------- - 14 -
2.3. Cơ sở lý thuyết các phương pháp hc máy ------------------------------------------------------------------------------------------ - 17 -
2.3.1. KNN -------------------------------------------------------------------------------------------------------------------------------------- - 18 -
2.3.2. Random Forest -------------------------------------------------------------------------------------- Error! Bookmark not defined.
2.3.3. Decision Tree -------------------------------------------------------------------------------------------------------------------------- - 21 -
2.3.4. XGBoost -------------------------------------------------------------------------------------------------------------------------------- - 22 -
2.4. Các ch s đánh giá mô hình ------------------------------------------------------------------------------------------------------------- - 24 -
III. Phương pháp nghiên cứu --------------------------------------------------------------------------------------------------------------------- - 25 -
3.1. B d liu ------------------------------------------------------------------------------------------------------------------------------------- - 26 -
3.1.1 B d liu: Credit Card customers ----------------------------------------------------------------------------------------------- - 26 -
3.1.2 B d liu: Telco Customer Churn ---------------------------------------------------------------------------------------------- - 28 -
- 2 -
3.2. Tin x lí d liu ----------------------------------------------------------------------------------------------------------------------------- - 31 -
3.3. Phân loi và d đoán ---------------------------------------------------------------------------------------------------------------------- - 31 -
3.4. Bng tng hp ------------------------------------------------------------------------------------------------------------------------------- - 32 -
3.4.1 Bng ca tp Telcom Customer Churn ------------------------------------------------------------------------------------------ - 32 -
3.4.2. Bng ca tp Credit Card Customers: ------------------------------------------------------------------------------------------ - 35 -
IV. KT QU THC NGHIM ----------------------------------------------------------------------------------------------------------------------- - 39 -
4.1. Tp Telcom Churn -------------------------------------------------------------------------------------------------------------------------- - 39 -
4.1.1. Ch s Balanced Accuracy ---------------------------------------------------------------------------------------------------------- - 39 -
4.1.2. Ch s F1-Score(0) -------------------------------------------------------------------------------------------------------------------- - 40 -
4.1.3. Ch s F1-Score(1) -------------------------------------------------------------------------------------------------------------------- - 41 -
4.1.4. Ch s Precision(0) ------------------------------------------------------------------------------------------------------------------- - 42 -
4.1.5. Ch s Precision(1) ------------------------------------------------------------------------------------------------------------------- - 43 -
4.1.6. Ch s Recall(0) ----------------------------------------------------------------------------------------------------------------------- - 44 -
4.1.7. Ch s Recall(1) ----------------------------------------------------------------------------------------------------------------------- - 45 -
4.2. Tp d liu Credit Card Customers ----------------------------------------------------------------------------------------------------- - 46 -
4.2.1. Ch s Balanced Accuracy ---------------------------------------------------------------------------------------------------------- - 46 -
4.2.2. Ch s F1-score(0) -------------------------------------------------------------------------------------------------------------------- - 47 -
4.2.3. Ch s F1-score(1) -------------------------------------------------------------------------------------------------------------------- - 48 -
4.2.4. Ch s Precision(0) ------------------------------------------------------------------------------------------------------------------- - 49 -
4.2.5. Ch s Precision(1) ------------------------------------------------------------------------------------------------------------------- - 50 -
4.2.6. Ch s Recall(0) ----------------------------------------------------------------------------------------------------------------------- - 51 -
4.2.7. Ch s Recall(1) ----------------------------------------------------------------------------------------------------------------------- - 52 -
V. ĐÁNH GIÁ KẾT QU ------------------------------------------------------------------------------------------------------------------------------ - 53 -
5.1. Đánh giá kết qu hin ti ----------------------------------------------------------------------------------------------------------------- - 53 -
5.2. Khi nào nên s dng cân bng d liu?----------------------------------------------------------------------------------------------- - 53 -
KT LUN ----------------------------------------------------------------------------------------------------------------------------------------------- - 55 -
TÀI LIU KHAM KHO ------------------------------------------------------------------------------------------------------------------------------- - 56 -
PH LC ----------------------------------------------------------------------------------------------------------------- Error! Bookmark not defined.
- 3 -
LI CAM ĐOAN
Tôi xin cam đoan rng lun án này là kết qu nghiên cu của cá nhân tôi, được thc hin trên
cơ sở thu thp, phân tích và tng hp các nguồn thông tin có đ tin cy cao. Mi s liu, kết
qu nghiên cu và trích dn trong luận án đều được ghi rõ ngun gốc, đảm bo tính trung thc
và tuân th các quy đnh v đạo đức nghiên cu.
Tôi chu trách nhim hoàn toàn v ni dung ca lun án này và khẳng định rng luận án chưa
từng được công b hoc s dụng để bo v bt k cp học nào trước đây. Nếu có bt k điều
gì sai sót, tôi xin hoàn toàn chu trách nhim trước hi đồng và các cơ quan liên quan.
Hà ni, ngày tháng năm 2025
Sinh viên
(ký, ghi rõ h tên)
- 4 -
LI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành đến Ban Giám hiệu, các thầy cô giáo Viện Công
nghệ Thông tin và toàn thể giảng viên Trường Đại học Kinh tế Quốc dân, những người đã tạo
điều kiện thuận lợi nhất cho em trong quá trình học tập và nghiên cứu tại trường.
Em xin bày tỏ lòng biết ơn sâu sắc đến Nguyễn Phương Nam - người đã tận tình hướng dẫn,
chỉ bảo và hỗ trợ em trong suốt quá trình thực hiện khóa luận này. Những ý kiến quý báu và
kiến thức sâu rộng của thầy đã giúp em hoàn thiện bài nghiên cứu này.
Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân yêu, những
người luôn động viên, ủng hộ em cả về tinh thần lẫn vật chất trong suốt quãng thời gian học
tập và thực hiện khóa luận.
Dù đã nỗ lực hết mình, nhưng bài khóa luận không thể tránh khỏi những thiếu sót. Em rất
mong nhận được sự góp ý từ các thầy cô và bạn bè để bài luận được hoàn thiện hơn.
Em xin chân thành cảm ơn