intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng

Chia sẻ: Cảnh Phương Thanh | Ngày: | Loại File: PDF | Số trang:66

15
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề án "Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng" nhằm thu thập dữ liệu khách hàng đã rời mạng làm cơ sở, phân tích và xây dựng công cụ có thể dự báo được khả năng rời mạng của các khách hàng đang sử dụng. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng

  1. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- DƯƠNG MINH LÝ DỰ BÁO KHÁCH HÀNG SỬ DỤNG DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH CÓ NGUY CƠ RỜI MẠNG ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
  2. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- DƯƠNG MINH LÝ DỰ BÁO KHÁCH HÀNG SỬ DỤNG DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH CÓ NGUY CƠ RỜI MẠNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. VŨ ĐỨC LUNG THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
  3. i LỜI CAM ĐOAN Tôi xin cam đoan: 1. Tôi xin cam đoan rằng tất cả các nội dung và kết quả được trình bày trong đề án này là sự thực hiện của chính tôi sau quá trình nghiên cứu, phân tích và đánh giá dưới sự hướng dẫn trực tiếp của Thầy PGS. TS Vũ Đức Lung. 2. Tôi đảm bảo không sao chép hay biên soạn từ bất kỳ nguồn tài liệu nào khác mà không được ghi rõ trong đề án. Nếu có bất kỳ thông tin nào được thu thập từ nguồn khác, tôi đã trích dẫn rõ ràng tên tác giả, tên công trình, thời gian công bố. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo tôi xin chịu hoàn toàn trách nhiệm. Tp. Hồ Chí Minh, ngày 18 tháng 08 năm 2023 Học viên thực hiện đề án Dương Minh Lý
  4. ii LỜI CÁM ƠN Trong quá trình thực hiện đề án này, tôi đã nhận được sự hỗ trợ và giúp đỡ từ rất nhiều người. Đầu tiên và quan trọng nhất, tôi xin bày tỏ lòng biết ơn chân thành đến Thầy PGS. TS Vũ Đức Lung – người đã luôn đồng hành và giúp đỡ tôi trong quá trình nghiên cứu và phát triển đề án này. Sự hướng dẫn và góp ý của thầy sẽ là nền tảng để tôi có thể hoàn thiện bài toán dự báo khách hàng sử dụng dịch vụ viễn thông có nguy cơ rời mạng trong tương lai. Tôi cũng muốn cảm ơn đến Quý Thầy Cô Học viện Công Nghệ Bưu Chính Viễn Thông cơ sở tại TP.HCM, đã giúp đỡ tôi trong việc phát triển các kỹ năng liên quan đến công nghệ thông tin trong suốt quá trình học tập tại học viện. Cũng xin gửi lời cám ơn đến Viễn Thông Tây Ninh đã tạo điều kiện để tôi tham gia học tập cũng như hỗ trợ các vấn đề liên quan để hoàn thành đề án. Cuối cùng tôi xin gửi lời cám ơn đến Cha Mẹ, gia đình, người thân, bạn bè và đồng nghiệp đã quan tâm, ủng hộ trong suốt quá trình học tập cao học. Tp. Hồ Chí Minh, ngày 18 tháng 08 năm 2023 Học viên thực hiện đề án Dương Minh Lý
  5. iii MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... i LỜI CÁM ƠN ........................................................................................................... ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v DANH SÁCH BẢNG .............................................................................................. vi DANH SÁCH HÌNH VẼ ........................................................................................ vii MỞ ĐẦU ....................................................................................................................1 1. Lý do chọn đề tài .................................................................................................................... 1 2. Tổng quan về vấn đề cần nghiên cứu ..................................................................................... 3 3. Mục đích nghiên cứu .............................................................................................................. 3 4. Đối tượng và phạm vi nghiên cứu .......................................................................................... 4 5. Phương pháp nghiên cứu........................................................................................................ 4 Chương 1. TỔNG QUAN VỀ ĐỀ TÀI ....................................................................5 1.1. Giới thiệu ........................................................................................................................... 5 1.2. Các nghiên cứu ngoài nước ................................................................................................ 6 1.3. Các nghiên cứu trong nước .............................................................................................. 10 Chương 2. CÁC LÝ THUYẾT LIÊN QUAN .......................................................17 2.1. Kỹ thuật khai phá dữ liệu và phương pháp học máy ........................................................ 17 2.1.1. Kỹ thuật khai phá dữ liệu ............................................................................................. 17 2.1.2. Phương pháp học máy .................................................................................................. 18 2.2. Tổng quan Azure Machine Learning và phần mềm Weka............................................... 20 2.2.1. Azure Machine Learning.............................................................................................. 20 2.2.2. Phần mềm Weka .......................................................................................................... 21 2.3. Một số thuật toán dự báo trên Azure Machine Learning ................................................. 21 Chương 3. PHƯƠNG PHÁP DỰ BÁO KHÁCH HÀNG CÓ NGUY CƠ RỜI MẠNG ......................................................................................................................26 3.1. Tổng quát thuật toán được lựa chọn áp dụng vào mô hình dự báo .................................. 26 3.2. Sơ đồ tổng quát của hệ thống ........................................................................................... 27 Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .....................................35 4.1. Môi trường thực nghiệm .................................................................................................. 35 4.2. Bộ dữ liệu thực nghiệm .................................................................................................... 35
  6. iv 4.3. Các bước xây dựng và thực nghiệm mô hình dự báo....................................................... 37 4.4. Đánh giá kết quả .............................................................................................................. 45 KẾT LUẬN ..............................................................................................................54 5.1. Kết quả đạt được .............................................................................................................. 54 5.2. Khó khăn và hướng phát triển .......................................................................................... 55 DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................56
  7. v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt SVM Support Vector Machine Thuật toán máy vectơ hỗ trợ KNN K-Nearest Neighbor Thuật toán K láng giềng gần nhất RNN Recurrent Neural Network Thuật toán Mạng nơ-ron hồi quy DNN Deep Neural Networks Thuật toán Mạng nơ-ron nhân tạo FP False Positive Tỷ lệ sai dương FN False Negative Tỷ lệ sai âm TP True Positive Tỷ lệ đúng dương TN True Negative Tỷ lệ đúng âm AUC Area Under The Curve Mức độ phân loại của mô hình ACC Accurary Độ chính xác
  8. vi DANH SÁCH BẢNG Bảng 1.1: Chi phí phát triển một khách hàng mới ............................................. 5 Bảng 1.2: Ý nghĩa 5 chỉ số kỹ thuật được áp dụng ............................................ 6 Bảng 1.3: Ý nghĩa các thuộc tính được áp dụng ................................................ 7 Bảng 1.4: Kết quả dự đoán ................................................................................. 9 Bảng 1.5: Kết quả dự báo các phương pháp phân lớp ....................................... 11 Bảng 1.6: Mô tả các trường dữ liệu ................................................................... 13 Bảng 1.7: Kết quả dự báo của các mô hình........................................................ 14 Bảng 3.1: Danh sách đối tượng khách hàng....................................................... 30 Bảng 3.2: Danh sách trạng thái hoạt động của khách hàng ............................... 32 Bảng 3.3: Khởi tạo dữ liệu ................................................................................. 32 Bảng 4.1: Kết quả dự báo các thuật toán ........................................................... 42 Bảng 4.2: Bảng đánh giá kết quả dự báo tháng 12/2022, 01/2023 .................... 51 Bảng 4.3: Bảng đánh giá kết quả dự báo tháng 01/2023, 02/2023 .................... 51 Bảng 4.4: Bảng đánh giá kết quả dự báo tháng 02/2023, 03/2023 .................... 51 Bảng 4.5: Bảng đánh giá kết quả dự báo tháng 03/2023, 04/2023 .................... 51 Bảng 4.6: Bảng đánh giá kết quả dự báo tháng 04/2023, 05/2023 .................... 52
  9. vii DANH SÁCH HÌNH VẼ Hình 1.1: Sơ đồ tổng quát các bước xây dựng mô hình huấn luyện ........................ 9 Hình 1.2: Kết quả dự báo các phương pháp phân lớp ............................................ 11 Hình 1.3: Mô hình dự báo khách hàng tiềm năng .................................................. 13 Hình 1.4: Tiến trình thực hiện của mô hình đề xuất .............................................. 15 Hình 2.1: Các bước thực hiện khai phá dữ liệu...................................................... 18 Hình 2.2: Các phương pháp học máy ..................................................................... 19 Hình 3.1: Sơ đồ tổng quát các bước xây dựng mô hình huấn luyện ...................... 27 Hình 3.2: Xây dựng các cây quyết định ................................................................. 33 Hình 4.1: Mở tập dữ liệu bằng phần mềm WEKA ................................................ 38 Hình 4.2: Biễu diễn giá trị các thuộc tính trong tập dữ liệu ................................... 38 Hình 4.3: Cấu hình các biến để chuyển đổi dữ liệu ............................................... 39 Hình 4.4: Chuyển đổi kiểu dữ liệu từ dạng số sang kiểu phân loại ....................... 40 Hình 4.5: Cấu hình các biến để chuyển đổi dữ liệu vùng giá trị ............................ 40 Hình 4.6: Chuyển đổi kiểu dữ liệu từ dạng số liên tục sang vùng giá trị............... 41 Hình 4.7: Các module dùng xây dựng mô hình trong Azure Machine Learning .. 44 Hình 4.8: Xây dựng mô hình huấn luyện trên Azure Machine Learning .............. 45 Hình 4.9: Kết quả mô hình dự báo ......................................................................... 45 Hình 4.10: Triển khai web services ....................................................................... 46 Hình 4.11: Mô hình dự báo được xây dựng ........................................................... 46 Hình 4.12: Kiểm tra web services .......................................................................... 47 Hình 4.13: Lựa chọn kiểu service để sinh code ..................................................... 47 Hình 4.14: Code tạo web services tích hợp vào ứng dụng khác ............................ 48 Hình 4.15: Triển khai Azure Machine Learning Web service trên Ondrive ......... 48 Hình 4.16: Chọn Web service từ Azure Machine Learning .................................. 49 Hình 4.17: Nhập các thông số cung cấp từ Azure Machine Learning ................... 49 Hình 4.18: Nhập dữ liệu và dự báo ........................................................................ 50 Hình 4.19: Kết quả dự báo ..................................................................................... 50
  10. 1 MỞ ĐẦU 1. Lý do chọn đề tài Như chúng ta đã biết, thị trường viễn thông gần như đã đi vào giai đoạn bão hòa, khách hàng ngày càng đòi hỏi cao về chất lượng dịch vụ. Hơn nữa, khách hàng hiện có nhiều lựa chọn và có quyền chuyển đổi nhà cung cấp dịch vụ nếu không hài lòng. Mở rộng thị phần càng khó khăn và khái niệm khách hàng phát triển mới đang dần thay đổi thành khách hàng chuyển từ nhà cung cấp dịch vụ khác chuyển sang. Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễn thông đặt nhiệm vụ giữ chân khách hàng ở chế độ ưu tiên cao thậm chí là ưu tiên hàng đầu vì chi phí phải trả để có một khách hàng mới thường cao hơn nhiều so với chi phí bỏ ra để giữ chân một khách hàng đang sử dụng. Vậy vấn đề mấu chốt bây giờ là tập trung quản lý tập khách hàng có nguy cơ rời mạng. Có 2 cách tiếp cận với việc quản lý khách hàng có nguy cơ rời mạng: - Tiếp cận không có mục tiêu: Tăng chất lượng dịch vụ, liên tục cung cấp các sản phẩm nổi trội và truyền thông rộng rãi để tăng sự hài lòng của khách hàng đang sử dụng đồng thời thu hút khách hàng từ các nhà cung cấp dịch vụ khác. - Tiếp cận có mục tiêu: Xác định các khách hàng có khả năng rời mạng, cung cấp cho họ những chương trình khuyến mãi riêng biệt, cải thiện chất lượng dịch vụ để tăng sự hài lòng và giữ họ ở lại. Cách tiếp cận có mục tiêu được chia thành 2 loại: bị động và chủ động. - Bị động: Đợi khách hàng khiếu nại, liên hệ hủy dịch vụ sau đó áp dụng các chương trình khuyến mãi để giữ họ ở lại. - Chủ động: Các nhà cung cấp dịch vụ sẽ cố gắng xác định tập khách hàng có nguy cơ rời mạng trong khoảng thời gian tiếp theo. Sau đó tiếp cận khách hàng, tìm hiểu nguyên nhân và đưa ra các chương trình khuyến mãi, chăm sóc khách hàng đặc biệt để giữ khách hàng không rời mạng. Phương pháp tiếp cận này có ưu điểm và nhược điểm sau:
  11. 2 o Ưu điểm: Đối với tập khách hàng dự báo rời mạng, chi phí bỏ ra để giữ họ ở lại sẽ thấp hơn chi phí bỏ ra khi khách hàng đã quyết định rời mạng (tiếp cận bị động). o Nhược điểm: Sẽ là lãng phí nếu tập khách hàng rời mạng được dự báo không chính xác, khi đó chúng ta phải bỏ ra một khoản chi phí có thể rất lớn để thực hiện khuyến mãi, chăm sóc những khách hàng thực tế không có nguy cơ rời mạng. Để quản trị số liệu về khách hàng rời mạng áp dụng cho dịch vụ FiberVNN, VNPT Tây Ninh đang quản trị theo tỷ lệ khách hàng rời mạng/khách hàng phát triển mới, con số thực tế được thống kê trong 3 tháng 10/2022, 11/2022, 12/2022 lần lượt là: - Tháng 10/2022: Số khách hàng rời mạng: 480, số khách hàng phát triển mới: 1,359 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 35%. - Tháng 11/2022: Số khách hàng rời mạng: 655, số khách hàng phát triển mới: 1,449 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 45%. - Tháng 02/2022: Số khách hàng rời mạng: 669, số khách hàng phát triển mới: 1,592 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 42%. Mục tiêu là giữ cho tỷ lệ này ở mức độ cho phép (nhỏ hơn hoặc bằng 20%). Như đã nói ở trên, trong bối cảnh thị trường viễn thông đang ở giai đoạn bão hòa thì việc duy trì tỷ lệ này ở mức thấp đồng nghĩa với việc phải giữ cho số khách hàng rời mạng ở mức thấp. Tuy nhiên, nhìn vào các con số thực tế ta thấy tỷ lệ này đang cao và dần tiến về 1. Càng cho thấy việc giữ cho khách hàng không rời mạng, cụ thể hơn là có thể cảnh báo được danh sách khách hàng của nguy cơ rời mạng là vô cùng cấp thiết. Cùng với sự ra đời của chương trình Điều hành sản xuất kinh doanh để quản lý các thông tin về khách hàng (áp dụng cho VNPT) và khả năng truy vấn cơ sở dữ liệu trực tiếp, hướng nghiên cứu của đề tài là xây dựng một tập khách hàng bao gồm các thuộc tính ảnh hưởng đến khả năng rời mạng của khách hàng như: độ hài lòng, số lần báo hỏng, tình trạng nợ cước, độ ổn định dịch vụ, gói cước đang sử dụng, … và áp dụng các kỹ thuật máy học vào việc phân tích tập khách hàng đã rời mạng, từ
  12. 3 đó dự báo được tập khách hàng đang sử dụng có khả năng rời mạng. Đó cũng là lý do tôi chọn đề tài nghiên cứu “Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng”. 2. Tổng quan về vấn đề cần nghiên cứu Để có thể dự báo được chính xác hoặc tỷ lệ chính xác trong tập khách hàng rời mạng là có thể chấp nhận được thì ta phải xác định được các thuộc tính, hành vi của khách hàng có thể tác động đến khả năng rời mạng ví dụ như số lần báo hỏng với tổng đài nhiều, thanh toán cước chậm, liên tục thay đổi gói cước, …Từ đó, ta có thể phân tập được những khách hàng có khả năng rời mạng để có những chính sách áp dụng phù hợp. Từ những định hướng cụ thể như thế, tiến hành phân tích dữ liệu khách hàng thu thập được từ chương trình quản lý hoạt động kinh doanh của tập đoàn trang bị (chương trình Điều hành sản xuất kinh doanh), tuy nhiên việc phụ thuộc chủ yếu vào dữ liệu thu thập sẽ xảy ra các trường hợp dữ liệu thu thập về sai (thông tin sở thích khách hàng, nhầm lẫn đối tượng khách hàng giữa khách hàng cá nhân và khách hàng doanh nghiệp, tình trạng nợ cước của khách hàng, tốc độ và giá cước sử dụng của khách hàng không đúng với hợp đồng…) dẫn đến dự báo sai cũng như áp dụng sai chiến lược đã định hướng cho khách hàng. Và cũng từ thực tiễn nói trên, việc xác định dữ liệu đầu vào để thực hiện phân tích khách hàng là cực kỳ quan trọng. Công việc đặt ra là thực hiện công tác quản lý khách hàng một cách nghiêm túc (kiểm tra kỹ thông tin khách hàng khi có hợp đồng mới, những thông tin chưa biết thì có thể bỏ qua chứ không nhập thông tin không đúng với thực tế). Song song đó, cần rà soát những dữ liệu bất thường để tiến hành chuẩn hóa trước khi đưa vào phân tích. 3. Mục đích nghiên cứu Mục tiêu tổng quát Mục tiêu chính của đề án là thu thập dữ liệu khách hàng đã rời mạng làm cơ sở, phân tích và xây dựng công cụ có thể dự báo được khả năng rời mạng của các khách hàng đang sử dụng.
  13. 4 Mục tiêu cụ thể Thu thập các thông tin khách hàng từ chương trình Điều hành sản xuất kinh doanh tập trung được Tập đoàn VNPT trang bị cho VNPT các tỉnh/thành phố. - Nghiên cứu các phương pháp dự báo. - Áp dụng các phương pháp dự báo đã nghiên cứu với tập khách hàng thu thập được để đánh giá thuật toán, từ đó lựa chọn thuật toán phù hợp để huấn luyện. - Cung cấp danh sách khách hàng có nguy cơ rời mạng được dự báo cho bộ phận kinh doanh để có chiến lược chăm sóc thích hợp nhằm giữ chân khách hàng. 4. Đối tượng và phạm vi nghiên cứu Khách hàng sử dụng dịch vụ viễn thông cáp quang FiberVNN trên địa bàn Tây Ninh. 5. Phương pháp nghiên cứu - Tìm hiểu các thuật toán máy học và áp dụng thử trên tập khách hàng thu thập được để tìm ra thuật toán tối ưu cho việc dự báo. - Sử dụng phần mềm Microsoft Azure Machine Learning để xây dựng mô hình phân tích và dự báo. - Liên tục kiểm tra dữ liệu thu thập được để chuẩn hóa nếu xuất hiện trường hợp dữ liệu các thuộc tính dùng để dự báo bị sai, lỗi làm nhiễu kết quả dự báo của mô hình.
  14. 5 Chương 1. TỔNG QUAN VỀ ĐỀ TÀI Trong chương này sẽ trình bày các khái niệm về khách hàng rời mạng, tổng quan về các phương pháp dự báo khách hàng rời mạng. Ngoài ra chương này còn trình bày về những dự án đã thực hiện về việc dự báo khách hàng sử dụng dịch vụ có nguy cơ rời mạng trong và ngoài nước. 1.1. Giới thiệu Như đã đề cập ở phần trước, việc xác định được tập khách hàng có nguy cơ rời mạng để xây dựng các phương án, chính sách nhằm giữ chân khách hàng là vô cùng quan trọng. Bởi trong thị trường viễn thông hiện tại, cạnh tranh vô cùng khốc liệt, việc giữ chân khách hàng giúp tăng uy tín, thương hiệu của nhà cung cấp, bên cạnh đó chi phí để đầu tư cho một khách hàng mới sẽ cao hơn nhiều so với chi phí bỏ ra để giữ chân khách hàng và việc bán dịch vụ cho một khách hàng mới cũng bị ảnh hưởng bởi việc khách hàng cũ rời mạng. Bảng 1.1: Chi phí phát triển một khách hàng mới TT Loại chi phí Chi phí 1 Chi phí lắp đặt + hoa hồng - Lắp đặt: 100.000 VNĐ/khách hàng - Hoa hồng: 150.000 VNĐ/khách hàng 2 Dây mạng (50 mét) 8.000 VNĐ – 12.000 VNĐ/mét 3 Modem 800.000 VNĐ – 1.200.000 VNĐ Tổng chi phí 1.450.000 VNĐ Theo bảng chi phí trên, việc phát triển một khách hàng mới chi phí tối thiểu bỏ ra là 1.450.000 VNĐ, trong khi đó nếu ta áp dụng chính sách giảm giá cước đối với khách hàng lâu năm (VD: miễn/giảm cước cho khách hàng 3 tháng liền kề – 180.000 VNĐ/tháng). Ta có thể thấy chi phí để giữ chân một khách hàng thấp đáng kể so với chi phí để phát triển một khách hàng mới. Nhận thức được tầm quan trọng như trên, Tập đoàn VNPT nói chung và VNPT Tây Ninh nói riêng luôn cố gắng giữ chân từng khách hàng một, tìm biện
  15. 6 pháp để kịp thời có những chính sách chăm sóc những khách hàng có nguy cơ rời mạng. Việc xây dựng một mô hình áp dụng các thuật toán phân cụm, máy học vào tập khách hàng sử dụng dịch vụ viễn thông FiberVNN của VNPT tại địa bàn Tây Ninh để dự báo tập khách hàng có nguy cơ rời mạng là vô cùng quan trọng bởi nó sẽ góp phần ổn định thị phần, nâng cao doanh thu cũng như uy tín của nhà cung cấp dịch vụ. Do đó, khả năng áp dụng đề tài này vào thực tế rất khả thi. Tuy nhiên để cụ thể hóa được các ý tưởng của đề tài, cần phải nắm chắc được các thuộc tính, đặc trưng dữ liệu của khách hàng cũng như lựa chọn được các thuật toán phân cụm, dự báo tối ưu nhất. Các bước thực hiện sẽ được chi tiết hóa ở các phần sau. 1.2. Các nghiên cứu ngoài nước Hiện nay, trên thế giới có rất nhiều nghiên cứu về việc áp dụng các mô hình máy học để dự báo khách hàng có nguy cơ rời bỏ trong lĩnh vực viễn thông cũng như các lĩnh vực khác. - Tác giả Ming Zhao [7] cùng các cộng sự từ Đại học kinh doanh và công nghệ Trùng Khánh, Trung Quốc áp dụng thuật toán hồi quy logistic dựa trên dữ liệu lớn về hoạt động khách hàng để xác định các khách hàng có khả năng rời mạng. Nghiên cứu này tập trung vào đối tượng khách hàng mang lại doanh thu cao cho ngành viễn thông Trung Quốc, bằng việc áp dụng thuật toán hồi quy logistic vào 5 chỉ số kỹ thuật được mô tả ở bảng 1.2, tác giả xác định được các xu hướng, nguyên nhân của việc khách hàng rời bỏ đồng thời đưa ra câu trả lời cho các câu hỏi như quá trình rời bỏ của khách hàng xảy ra như thế nào, các yếu tố ảnh hưởng đến sự rời bỏ của khách hàng và cách doanh nghiệp giành lại những khách hàng đã rời bỏ. Bảng 1.2: Ý nghĩa 5 chỉ số kỹ thuật được áp dụng TT Tên chỉ số Ý nghĩa 1 Doanh thu bình quân (ARPU) Doanh thu mang lại từ người dùng hàng tháng 2 Dữ liệu sử dụng (DOU) Lưu lượng dữ liệu sử dụng trong tháng 3 Giá trị gói hiện tại Giá trị gói cước đang sử dụng
  16. 7 Có ký hợp đồng dịch vụ băng thông rộng hay 4 Hợp đồng kinh doanh không. 1 = Có; 0 = Không Người dùng có phàn nàn hay khiếu nại dịch vụ 5 Khiếu nại dịch vụ trong tháng hay không. 1 = Có; 0 = Không - Tác giả T.Vafeiadis [8] cùng các cộng sự đến từ Học viện Giáo dục Công nghệ Alexander của Thessaloniki áp dụng thuật toán máy học như Artificial Neural Networks, Decision Trees, Regression Analysis, Logistic Regression, Support Vector Machines, … và các phiên bản tăng cường để tìm ra thuật toán tối ưu nhất nhằm dự báo chính xác khách hàng có nguy cơ rời mạng trong lĩnh vực viễn thông. Tập dữ liệu áp dụng là tập khách hàng sử dụng dịch vụ di động với các thuộc tính được mô tả ở bảng 1.3. Các bước thực hiện như sau: o Giai đoạn 1: Thử nghiệm tất cả các thuật toán đã đề cập ở trên với tập dữ liệu khách hàng thu thập được. o Giai đoạn 2: Áp dụng thuật toán tăng cường Adaptive Boosting vào các thuật toán đã thử nghiệm. Thuật toán Adaptive Boosting thực hiện n lần huấn luyện (n cho trước). Sau mổi lần huấn luyện, những điểm dữ liệu bị phân loại sai, khó phân loại sẽ được đánh trọng số làm tiền đề cho việc lấy mẫu những lần huấn luyện tiếp theo. Bằng cách này, sau n lần huấn luyện thì độ chính xác của mô hình sẽ được cải thiện. Sau khi áp dụng thuật toán tăng cường Adaptive Boosting cho các thuật toán đã áp dụng ở giai đoạn 1 thì độ chính xác của thuật toán SVM-POLY được cải thiện cao nhất với độ chính xác 97% và chỉ số đo lường F là 84%. Bảng 1.3: Ý nghĩa các thuộc tính được áp dụng TT Tên chỉ số Kiểu dữ liệu 1 Account length (number of months active user) Num 2 Total eve charge (total charge of evening calls) Num 3 Area code Num 4 Total night minutes (total minutes of night calls) Num 5 International plan Yes/No
  17. 8 6 Total night calls (total number of night calls) Num 7 Voice mail plan Yes/No 8 Total night charge (total charge of night calls) Num 9 Number vmail messages (number of voice-mail messages) Num 10 Total intl minutes (total minutes of international calls) Num 11 Total day minutes (total minutes of day calls) Num 12 Total intl calls (total number of international calls) Num 13 Total day calls (total number of day calls) Num 14 Total intl charge (total charge of international calls) Num 15 Total day charge (total charge of day calls) Num Number customer service calls (number of calls to customer 16 Num service) 17 Total eve minutes (total minutes of evening calls) Num 18 Total eve calls (total number of evening calls) Num 19 Churn (customer churn - target variable) Yes/No - Năm 2019, Tác giả Nasebah Almufadi [9] cùng các cộng sự đến từ Đại học Qassim, Al-Mulaida, Ả Rập Saudi đã áp dụng các phương pháp học sâu để dự đoán khách hàng sử dụng dịch vụ di động của một công ty viễn thông có nguy cơ rời mạng hay nói cách khác là chuyển từ nhà cung cấp dịch vụ này sang nhà cung cấp dịch vụ khác. Trong nghiên cứu này, tập dữ liệu được sử dụng huấn luyện gồm 100 ngàn khách hàng với các thuộc tính như: cuộc gọi gần nhất, thời lượng cuộc gọi, dung lượng dữ liệu sử dụng,… Trong đó, 86 ngàn khách hàng được phân lớp non-churn (không rời bỏ) và 14 ngàn khách hàng phân lớp churn (rời bỏ dịch vụ). Mô hình được xây dựng và kết quả dự đoán với độ chính xác 96%. Cụ thể trong nghiên cứu này, tác giả và cộng sự đã sử dụng phần mềm WEKA để tiền xử lý dữ liệu tập khách hàng với hơn 48 thuộc tính. Sử dụng mô hình Mạng nơ-ron tích chập (CNN) để huấn luyện tập dữ liệu đã được tiền xử lý, chi tiết mô hình được mô tả ở hình 1.1 và kết quả dự đoán được mô tả ở bảng 1.4
  18. 9 Hình 1.1: Sơ đồ tổng quát các bước xây dựng mô hình huấn luyện Bảng 1.4: Kết quả dự đoán TT Tên chỉ số Kết quả 1 Accuracy 0.965 2 Precision 0.917 3 Recall 0.998 4 F1-score 0.965 5 ROC AUC 0.955 6 AUC Precision-Recall Curve (PRC) 0.991 7 Cohens kappa 0.927 - Tác giả Junxiang Lu[10] cùng các cộng sự đến từ Công ty Sprint Communications, Overland Park, Kansas, USA áp dụng thuật toán phân tích sinh tồn nhằm dự báo thời gian duy trì sử dụng dịch vụ nhà cung cấp của khách hàng trong tương lai cũng như nguy cơ khách hàng sẽ rời bỏ nhà cung cấp dịch vụ để sử dụng dịch vụ của nhà cung cấp khác. Sau khi dự đoán được thời gian sử dụng của khách hàng trong tương lai, cũng như khách hàng có nguy cơ rời mạng, nhà cung cấp dịch vụ sẽ tối ưu hóa được việc áp dụng các chiến lược nhằm giữ chân khách
  19. 10 hàng cũng như phân phối thời gian để thực hiện các chiến lược đó trên các tập khách hàng khác nhau. Theo nghiên cứu của tác giả thì tỷ lệ rời bỏ nhà cung cấp dịch vụ của khách hàng trung bình 30-35% và chi phí để tìm kiếm phát triển một khách hàng mới cao gấp 5-10 lần chi phí để giữ chân một khách hàng hiện hữu. Do đó, việc dự đoán được khách hàng có nguy cơ rời mạng chính xác sẽ mang lại lợi ích rất lớn cho nhà cung cấp. Nghiên cứu này đề ra 2 mục tiêu thực hiện lần lượt. Thứ nhất, dựa vào các thuộc tính đặc trưng của dữ liệu khách hàng, dự đoán được khách hàng nào sẽ rời đi, khách hàng nào sẽ ở lại. Từ kết quả đạt được của mục tiêu thứ nhất, áp dụng kỹ thuật phân tích sinh tồn để xác định khách hàng có nguy cơ rời bỏ cao và khi nào họ sẽ rời bỏ nhà cung cấp dịch vụ. 1.3. Các nghiên cứu trong nước Việc áp dụng các thuật toán phân cụm, phân lớp, máy học để dự báo xuất hiện nhiều ở các lĩnh vực như chứng khoán, bất động sản, viễn thông,... Một số luận văn áp dụng các thuật toán máy học để thực hiện dự báo khách hàng rời mạng như: - Năm 2014, tác giả Nguyễn Thị Như Ngọc [1], Trường Đại học Công Nghệ – Đại học Quốc gia Hà Nội dùng thuật toán cây quyết định C4.5, Naive Bayes, Support Vector Machine và Neural Networks để phân lớp dự đoán thuê bao rời mạng viễn thông. Tác giả thực hiện phân tích các hoạt động, hành vi trước khi rời mạng của các thuê bao bằng các phương pháp khai phá dữ liệu nhằm phát hiện những yếu tố liên quan đến việc rời mạng của thuê bao. Với việc phân lớp dữ liệu dùng các thuật toán trên thì kết quả đạt được của dự án là khoản hơn 60%. - Năm 2016, tác giả Nguyễn Như Thế [2], Trường Đại học Thái Nguyên đã áp dụng các phương pháp phân lớp như cây quyết định C4.5, phương pháp Naive Bayes, phương pháp Support Vector Machine để dự báo thuê bao rời mạng viễn thông. Trong bài toán phân lớp này, tác giả thu thập dữ liệu thông tin thuê bao tại nhà cung cấp dịch vụ viễn thông Mobifone Phú Thọ thể làm dữ liệu đầu vào mô hình dự báo, cụ thể các thông tin thuê bao như:
  20. 11 • Thông tin khách hàng: tuổi, giới tính, loại hình thuê bao, đơn vị thu cước, thời gian sử dụng dịch vụ. • Thông tin sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội mạng, số cuộc gọi ngoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời gian gọi ngoại mạng, thời gian gọi quốc tế, SMS. • Thông tin thanh toán: cước gọi nội mạng, cước gọi ngoại mạng, cước gọi quốc tế, cước SMS, cước Data, tổng tiền cước, số tiền được khuyến mãi, tiền phải thanh toán. Các thông tin trên được mô tả qua 101 thuộc tính, qua quá trình trích xuất đặc trưng, tác giả chọn lọc được 20 thuộc tính ảnh hưởng trực tiếp đến quá trình dự báo để đưa vào mô hình huấn luyện. Sử dụng phần mềm R để áp dụng các thuật toán phân lớp như cây quyết định C4.5, Naive Bayes, Support Vector Machine tác giả thu được kết quả như bảng 1.5 và hình 1.2 Bảng 1.5: Kết quả dự báo các phương pháp phân lớp TT Thuật toán Precision Recall F1 Score 1 Cây quyết định C4.5 93.58% 65.17% 76.83% 2 Naive Bayes 52.67% 66.67% 58.84% 3 Support Vector Machine 14.28% 100% 24.99% Hình 1.2: Kết quả dự báo các phương pháp phân lớp
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2