
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Nghiên cứu một số phương pháp xử lí việc mất cân
bằng dữ liệu trong bài toán khách hàng rời bỏ sử
dụng các mô hình học máy
Tên sinh viên : Lã Xuân Đạt
Mã sinh viên : 11211255
Lớp : CNTT K63A
Ngành : Công nghệ thông tin
Viện : Công nghệ thông tin và kinh tế số
Giảng viên hướng dẫn : Nguyễn Phương Nam
(Chữ ký GVHD)
Hà Nội, 5/2024

- 1 -
MỤC LỤC
MỤC LỤC -------------------------------------------------------------------------------------------------------------------------------------------------- - 1 -
LỜI CAM ĐOAN ----------------------------------------------------------------------------------------------------------------------------------------- - 3 -
LỜI CẢM ƠN --------------------------------------------------------------------------------------------------------------------------------------------- - 4 -
DANH MỤC HÌNH ẢNH -------------------------------------------------------------------------------------------------------------------------------- - 5 -
DANH MỤC BẢNG -------------------------------------------------------------------------------------------------------------------------------------- - 6 -
I. TỔNG QUAN ĐỀ TÀI --------------------------------------------------------------------------------------------------------------------------------- - 7 -
1.1. Lý do chọn đề tài ------------------------------------------------------------------------------------------------------------------------------ - 7 -
1.2. Mục đích nghiên cứu ------------------------------------------------------------------------------------------------------------------------- - 7 -
1.3. Đối tượng phạm vi nghiên cứu ------------------------------------------------------------------------------------------------------------ - 7 -
1.4. Ý nghĩa khoa học và thực tiễn của đề tài ----------------------------------------------------------------------------------------------- - 8 -
II. CƠ SỞ LÝ THUYẾT ----------------------------------------------------------------------------------------------------------------------------------- - 9 -
2.1. Vấn đề về bất cân bằng dữ liệu ----------------------------------------------------------------------------------------------------------- - 9 -
2.1.1. Định nghĩa ------------------------------------------------------------------------------------------------------------------------------- - 9 -
2.1.2. Tại sao việc bất cân bằng dữ liệu lại ảnh hưởng xấu? --------------------------------------------------------------------- - 10 -
2.2. Tổng quan về các phương pháp xử lí dữ liệu bất cân bằng --------------------------------------------------------------------- - 10 -
2.2.1. Trường phái Over Sampling ------------------------------------------------------------------------------------------------------- - 11 -
2.2.2. Trường phái Under Sampling ----------------------------------------------------------------------------------------------------- - 14 -
2.3. Cơ sở lý thuyết các phương pháp học máy ------------------------------------------------------------------------------------------ - 17 -
2.3.1. KNN -------------------------------------------------------------------------------------------------------------------------------------- - 18 -
2.3.2. Random Forest -------------------------------------------------------------------------------------- Error! Bookmark not defined.
2.3.3. Decision Tree -------------------------------------------------------------------------------------------------------------------------- - 21 -
2.3.4. XGBoost -------------------------------------------------------------------------------------------------------------------------------- - 22 -
2.4. Các chỉ số đánh giá mô hình ------------------------------------------------------------------------------------------------------------- - 24 -
III. Phương pháp nghiên cứu --------------------------------------------------------------------------------------------------------------------- - 25 -
3.1. Bộ dữ liệu ------------------------------------------------------------------------------------------------------------------------------------- - 26 -
3.1.1 Bộ dữ liệu: Credit Card customers ----------------------------------------------------------------------------------------------- - 26 -
3.1.2 Bộ dữ liệu: Telco Customer Churn ---------------------------------------------------------------------------------------------- - 28 -

- 2 -
3.2. Tiền xử lí dữ liệu ----------------------------------------------------------------------------------------------------------------------------- - 31 -
3.3. Phân loại và dự đoán ---------------------------------------------------------------------------------------------------------------------- - 31 -
3.4. Bảng tổng hợp ------------------------------------------------------------------------------------------------------------------------------- - 32 -
3.4.1 Bảng của tập Telcom Customer Churn ------------------------------------------------------------------------------------------ - 32 -
3.4.2. Bảng của tập Credit Card Customers: ------------------------------------------------------------------------------------------ - 35 -
IV. KẾT QUẢ THỰC NGHIỆM ----------------------------------------------------------------------------------------------------------------------- - 39 -
4.1. Tập Telcom Churn -------------------------------------------------------------------------------------------------------------------------- - 39 -
4.1.1. Chỉ số Balanced Accuracy ---------------------------------------------------------------------------------------------------------- - 39 -
4.1.2. Chỉ số F1-Score(0) -------------------------------------------------------------------------------------------------------------------- - 40 -
4.1.3. Chỉ số F1-Score(1) -------------------------------------------------------------------------------------------------------------------- - 41 -
4.1.4. Chỉ số Precision(0) ------------------------------------------------------------------------------------------------------------------- - 42 -
4.1.5. Chỉ số Precision(1) ------------------------------------------------------------------------------------------------------------------- - 43 -
4.1.6. Chỉ số Recall(0) ----------------------------------------------------------------------------------------------------------------------- - 44 -
4.1.7. Chỉ số Recall(1) ----------------------------------------------------------------------------------------------------------------------- - 45 -
4.2. Tập dữ liệu Credit Card Customers ----------------------------------------------------------------------------------------------------- - 46 -
4.2.1. Chỉ số Balanced Accuracy ---------------------------------------------------------------------------------------------------------- - 46 -
4.2.2. Chỉ số F1-score(0) -------------------------------------------------------------------------------------------------------------------- - 47 -
4.2.3. Chỉ số F1-score(1) -------------------------------------------------------------------------------------------------------------------- - 48 -
4.2.4. Chỉ số Precision(0) ------------------------------------------------------------------------------------------------------------------- - 49 -
4.2.5. Chỉ số Precision(1) ------------------------------------------------------------------------------------------------------------------- - 50 -
4.2.6. Chỉ số Recall(0) ----------------------------------------------------------------------------------------------------------------------- - 51 -
4.2.7. Chỉ số Recall(1) ----------------------------------------------------------------------------------------------------------------------- - 52 -
V. ĐÁNH GIÁ KẾT QUẢ ------------------------------------------------------------------------------------------------------------------------------ - 53 -
5.1. Đánh giá kết quả hiện tại ----------------------------------------------------------------------------------------------------------------- - 53 -
5.2. Khi nào nên sử dụng cân bằng dữ liệu?----------------------------------------------------------------------------------------------- - 53 -
KẾT LUẬN ----------------------------------------------------------------------------------------------------------------------------------------------- - 55 -
TÀI LIỆU KHAM KHẢO ------------------------------------------------------------------------------------------------------------------------------- - 56 -
PHỤ LỤC ----------------------------------------------------------------------------------------------------------------- Error! Bookmark not defined.

- 3 -
LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận án này là kết quả nghiên cứu của cá nhân tôi, được thực hiện trên
cơ sở thu thập, phân tích và tổng hợp các nguồn thông tin có độ tin cậy cao. Mọi số liệu, kết
quả nghiên cứu và trích dẫn trong luận án đều được ghi rõ nguồn gốc, đảm bảo tính trung thực
và tuân thủ các quy định về đạo đức nghiên cứu.
Tôi chịu trách nhiệm hoàn toàn về nội dung của luận án này và khẳng định rằng luận án chưa
từng được công bố hoặc sử dụng để bảo vệ ở bất kỳ cấp học nào trước đây. Nếu có bất kỳ điều
gì sai sót, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng và các cơ quan liên quan.
Hà nội, ngày tháng năm 2025
Sinh viên
(ký, ghi rõ họ tên)

- 4 -
LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành đến Ban Giám hiệu, các thầy cô giáo Viện Công
nghệ Thông tin và toàn thể giảng viên Trường Đại học Kinh tế Quốc dân, những người đã tạo
điều kiện thuận lợi nhất cho em trong quá trình học tập và nghiên cứu tại trường.
Em xin bày tỏ lòng biết ơn sâu sắc đến Nguyễn Phương Nam - người đã tận tình hướng dẫn,
chỉ bảo và hỗ trợ em trong suốt quá trình thực hiện khóa luận này. Những ý kiến quý báu và
kiến thức sâu rộng của thầy đã giúp em hoàn thiện bài nghiên cứu này.
Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân yêu, những
người luôn động viên, ủng hộ em cả về tinh thần lẫn vật chất trong suốt quãng thời gian học
tập và thực hiện khóa luận.
Dù đã nỗ lực hết mình, nhưng bài khóa luận không thể tránh khỏi những thiếu sót. Em rất
mong nhận được sự góp ý từ các thầy cô và bạn bè để bài luận được hoàn thiện hơn.
Em xin chân thành cảm ơn

