
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-----------------------------------
Nguyễn Trọng Thảo
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH ENSEMBLE
LEARNING ĐỂ DỰ BÁO KHÁCH HÀNG RỜI MẠNG
TẠI VNPT TÂY NINH
ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------------
Nguyễn Trọng Thảo
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH ENSEMBLE
LEARNING ĐỂ DỰ BÁO KHÁCH HÀNG RỜI MẠNG
TẠI VNPT TÂY NINH
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04
ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HUỲNH TRỌNG THƯA
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

i
LỜI CAM ĐOAN
Tôi cam đoan rằng đề án tốt nghiệp thạc sĩ: “NGHIÊN CỨU XÂY DỰNG
MÔ HÌNH ENSEMBLE LEARNING ĐỂ DỰ BÁO KHÁCH HÀNG RỜI MẠNG
TẠI VNPT TÂY NINH” là công trình nghiên cứu của chính tôi.
Tôi cam đoan các số liệu, kết quả nêu trong đề án là trung thực và chưa từng
được ai công bố trong bất kỳ công trình nào khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong đề án
này mà không được trích dẫn theo đúng quy định.
TP. Hồ Chí Minh, ngày 14 tháng 05 năm 2024
Học viên thực hiện đề án
Nguyễn Trọng Thảo

ii
LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu thực hiện đề án tốt nghiệp thạc sĩ,
ngoài nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình quý báu của quý
Thầy Cô, cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp. Với
lòng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:
Ban Giám Đốc, Phòng đào tạo sau đại học và quý Thầy Cô đã tạo mọi điều
kiện thuận lợi giúp tôi hoàn thành đề án.
Tôi xin chân thành cảm ơn Thầy TS. Huỳnh Trọng Thưa, người thầy kính yêu
đã hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt quá trình
thực hiện và hoàn thành đề án tốt nghiệp thạc sĩ.
Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã
động viên, hỗ trợ tôi trong lúc khó khăn để tôi có thể học tập và hoàn thành đề án.
Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót. Tôi rất mong nhận
được sự góp ý của quý Thầy Cô cùng bạn bè đồng nghiệp để kiến thức của tôi ngày
một hoàn thiện hơn.
Xin chân thành cảm ơn!
TP. Hồ Chí Minh, ngày 14 tháng 05 năm 2024
Học viên thực hiện đề án
Nguyễn Trọng Thảo

iii
DANH SÁCH HÌNH VẼ
Hình 1. 1 Tỉ trọng số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 10 năm 2022,
nguồn Bộ TT & TT. ............................................................................................................... 9
Hình 1. 2 Số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 11 năm 2022, nguồn Bộ
TT & TT. ................................................................................................................................ 9
Hình 1. 3 Số lượng thuê bao từ chối chuyển mạng giữa các nhà mạng tháng 11 năm 2022,
nguồn Bộ TT & TT. ............................................................................................................. 10
Hình 1. 4 Mô hình học kết hợp [4]. ..................................................................................... 14
Hình 3. 1 Phân bố ngành nghề và loại khách hàng trong tập dữ liệu .................................. 31
Hình 3. 2 Phân bố phân loại khách hàng theo doanh thu và mạng khác trong tập dữ liệu .. 32
Hình 3. 3 Phân bố trả trước và không phát sinh lưu lượng trong tập dữ liệu ...................... 33
Hình 3. 4 Phân bố trạng thái thuê bao và gói sử dụng tích hợp trong tập dữ liệu ............... 34
Hình 3. 5 Phân bố giá cước trong tập dữ liệu ...................................................................... 35
Hình 3. 6 Phân bố tuổi của thuê bao (tháng) trong tập dữ liệu ........................................... 36
Hình 3. 7 Phân bố số dịch vụ khác trong tập dữ liệu ........................................................... 36
Hình 3. 8 Phân bố nợ cước 2 tháng trong tập dữ liệu .......................................................... 37
Hình 3. 9 Phân bố số tháng sử dụng trong tập dữ liệu ......................................................... 37
Hình 3. 10 Phân bố số lần gia hạn trong tập dữ liệu ............................................................ 38
Hình 3. 11 Phân bố số lần báo hỏng trong tập dữ liệu ......................................................... 38
Hình 3. 12 Ma trận tương quan các tham số của bộ dữ liệu sau xử lý................................. 44
Hình 3. 13 Ma trận Scatter các tham số của bộ dữ liệu sau xử lý ........................................ 45
Hình 4. 1 Cấu hình mô hình Baseline .................................................................................. 50
Hình 4. 2 Cấu hình mô hình Logistic Regression thông thường ......................................... 51
Hình 4. 3 Cấu hình mô hình Logistic Regression hiệu chỉnh tham số ................................ 52
Hình 4. 4 Cấu hình mô hình k-Nearest Neighbor Classifier thông thường ......................... 53
Hình 4. 5 Error Rate vs K-Value theo UNIFORM của mô hình kNN thông thường .......... 54
Hình 4. 6 Error Rate vs K Value theo DISTANCE của mô hình kNN thông thường ......... 54
Hình 4. 7 Cấu hình mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số ............ 55
Hình 4. 8 Cấu hình mô hình Naive Bayes Classifier ........................................................... 56
Hình 4. 9 Cấu hình mô hình Naive Bayes kết hợp Oversampling ....................................... 57
Hình 4. 10 Cấu hình mô hình Logistic Regression kết hợp Oversampling ......................... 58
Hình 4. 11 Cấu hình mô hình Decision Tree Classifier ....................................................... 59
Hình 4. 12 Cấu hình mô hình Decision Tree hiệu chỉnh chiều cao ..................................... 60
Hình 4. 13 Mô hình Decision Tree sau khi giảm chiều cao ................................................. 61
Hình 4. 14 Cấu hình mô hình Bagging Classifier ................................................................ 61

