intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng thuật toán K-Means để phân khúc khách hàng dựa vào mô hình RFM

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

41
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài viết này, tác giả áp dụng thuật toán K-Means để phân khúc khách hàng dựa vào mô hình RFM. Nghiên cứu được thực hiện thông qua phương pháp thực nghiệm trên tập dữ liệu gồm 16423 giao dịch từ một chi nhánh của công ty Kimberly- Clark. Kết quả nghiên cứu thu được 4 phân khúc với các đặc trưng riêng biệt...

Chủ đề:
Lưu

Nội dung Text: Ứng dụng thuật toán K-Means để phân khúc khách hàng dựa vào mô hình RFM

  1. ĐẠI HỌC TÀI CHÍNH - KẾ TOÁN ỨNG DỤNG THUẬT TOÁN K-MEANS ĐỂ PHÂN KHÚC KHÁCH HÀNG DỰA VÀO MÔ HÌNH RFM APPLICATION OF K-MEANS ALGORITHM TO SEGMENT CUSTOMERS BASED ON THE RFM MODEL Ngày nhận bài : 21.10.2022 Ngày nhận kết quả phản biện : 10.11.2022 ThS. Nguyễn Thị Ngọc Hạnh Ngày duyệt đăng : 10.12.2022 Trường Đại học Tài chính - Kế toán TÓM TẮT Phân khúc khách hàng là một trong những vấn đề quan trọng trong việc quản lý khách hàng và xây dựng các chiến lược marketing phù hợp. Trước đây, các doanh nghiệp thường phân khúc chủ yếu dựa vào các thông tin truyền thống về nhân khẩu học, yếu tố tâm lý, hay yếu tố hành vi mua hàng... Ngày nay, với sự phát triển của khoa học dữ liệu, các doanh nghiệp luôn chú trọng đến việc lưu trữ cẩn thận các cơ sở dữ liệu khách hàng như hóa đơn, chi tiết hóa đơn, v.v...Điều này giúp doanh nghiệp có thể sử dụng mô hình RFM để phân khúc khách hàng. Trong bài báo này, chúng tôi áp dụng thuật toán K-Means để phân khúc khách hàng dựa vào mô hình RFM. Nghiên cứu được thực hiện thông qua phương pháp thực nghiệm trên tập dữ liệu gồm 16423 giao dịch từ một chi nhánh của công ty Kimberly- Clark. Kết quả nghiên cứu thu được 4 phân khúc với các đặc trưng riêng biệt. Từ khóa: Thuật toán K-Means, phân khúc khách hàng, mô hình RFM ABSTRACT Customer segmentation is one of the important issues in customer management and coming up with appropriate marketing strategies. In the past, businesses often segmented mainly based on traditional information about demographics, psychological, or buying behavior factors, etc. Nowadays, with the development of data science, the enterprises always focus on carefully storing customer databases such as invoices, invoice details... This helps businesses to segment customers using the RFM model. In this paper, we apply K-Means algorithm to segment customers based on RFM model. The study was carried out through an empirical method on a data set of 16423 transactions from a branch of Kimberly-Clark company. Research results obtained 4 segments with distinct characteristics. Key words: K-Means algorithm, customer segmentation, RFM model 1. Giới thiệu về phân khúc khách hàng và mô hình RFM Phân khúc khách hàng là quá trình phân chia khách hàng thành các nhóm dựa trên các đặc điểm khách hàng mục tiêu chung để các doanh nghiệp có thể tiếp thị cho từng nhóm một cách hiệu quả và phù hợp. Đây là một trong những công cụ tiếp thị quan trọng nhất theo ý của doanh nghiệp, vì nó có thể giúp doanh nghiệp hiểu rõ hơn về đối tượng khách hàng mục tiêu của mình. Mỗi phân khúc khách hàng mua sản phẩm của doanh nghiệp để đáp ứng các nhu cầu giống nhau và thường giao tiếp thông qua các kênh tương tự. Vì vậy, phân khúc khách hàng là lĩnh vực marketing giúp cho doanh nghiệp 93
  2. TẠP CHÍ KHOA HỌC TÀI CHÍNH KẾ TOÁN có thể nổ lực để thoả mãn tối đa nhu cầu từng nhóm khách hàng tương đối đồng nhất trên cùng một thị trường. Trong nền kinh tế số, ngoài các phương pháp phân khúc khách hàng theo yếu tố địa lý, nhân khẩu học, tâm lý hay hành vi mua hàng, các doanh nghiệp còn có thể sử dụng mô hình RFM để phân khúc khách hàng dựa vào lịch sử giao dịch. Mô hình RFM (Recency - Frequency - Monetary) là một phần của phân tích Marketing, được sử dụng để phân tích giá trị khách hàng, giúp doanh nghiệp có thể phân khúc khách hàng dựa vào lịch sử giao dịch, từ đó đưa ra những chiến lược marketing phù hợp với từng phân khúc. Mô hình RFM định lượng giá trị của một khách hàng dựa trên 3 yếu tố: R (Recency), F (Frequency) và M (Monetary). Mỗi yếu tố miêu tả một đặc điểm chính trong hành vi mua hàng của khách hàng [3][7]: - R (Recency): Khoảng thời gian giữa thời điểm mua hàng gần đây nhất và thời điểm nghiên cứu. Khách hàng có chỉ số R càng lớn, cho thấy xu hướng rời bỏ của khách hàng càng lớn. Khách hàng có chỉ số R càng thấp thì khả năng khách hàng đó sẽ quay lại mua hàng trong tương lai càng cao. - F (Frequency): Tần suất mua hàng của khách hàng. Chỉ số này xác định số lần giao dịch của khách hàng với công ty trong suốt thời gian nghiên cứu. Những khách hàng có chỉ số F cao, khả năng sẽ gắn bó và trung thành hơn những khách hàng có tần suất thấp. - M (Monetary): Là tổng số tiền mà khách hàng đã chi tiêu cho các giao dịch với công ty trong thời gian nghiên cứu. Những khách hàng chi tiêu nhiều (có chỉ số M lớn), mang lại nhiều giá trị kinh doanh cho công ty hơn những khách hàng chi tiêu ít (chỉ số M nhỏ). Như vậy mô hình RFM có thể được xem là một bản tóm tắt các giao dịch của khách hàng dưới ba yếu tố R, F và M. Mỗi yếu tố R, F và M thường được gán điểm từ 1 đến 5 hoặc từ 1 đến 4 phụ thuộc vào cách đánh giá khách hàng của công ty. Cách gán điểm phổ biến nhất đó là sắp xếp cơ sở dữ liệu khách hàng theo mỗi tiêu chí R, F, M. Nếu chia tập dữ liệu đó thành 5 nhóm bằng nhau thì điểm 5 sẽ được gán cho nhóm khách hàng tốt nhất, và nhóm xấu nhất được gán điểm 1. Cuối cùng, kết hợp các điểm số R, F, M sẽ tạo thành điểm RFM của mỗi khách hàng. Như vậy sẽ tạo ra tối đa 125 (5×5×5) phân khúc khác nhau với điểm RFM tương ứng là 555; 554; 553; 552; ...112; 111. Phương pháp phân khúc khách hàng dựa vào điểm RFM như trên khá thủ công và phức tạp, đặc biệt là khi số lượng khách hàng tăng lên quá nhiều. Trong các nghiên cứu gần đây [4][5][6], việc vận dụng mô hình RFM đã có sự thay đổi, các nhà phân tích số liệu đã ứng dụng và cải tiến trong việc phân chia các nhóm khách hàng bằng việc sử dụng các thuật toán, phương pháp trên nền tảng toán học trong lĩnh vực học máy. Các khách hàng trong một nhóm sẽ có các đặc điểm về R, F, M tương đồng nhau. Mỗi nhóm chính là một phân khúc khách hàng. Thuật toán K-Means chính là giải pháp phân khúc khách hàng tối ưu đối với cơ sở dữ liệu lớn. 2. Thuật toán K-Means Thuật toán K-Means được đề xuất bởi MacQueen là một trong những thuật toán thông dụng nhất trong phân nhóm dữ liệu. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (điểm) đã cho vào k cụm (k là số các cụm được xác định trước, k nguyên dương) sao cho tổng bình phương khoảng cách giữa các điểm đến tâm cụm là nhỏ nhất. Thuật toán K-Means thực hiện qua các bước chính sau:[1][2] Bước 1: Chỉ định số lượng cụm k Bước 2: Chọn ngẫu nhiên k điểm từ tập dữ liệu làm tâm cho k cụm 94
  3. ĐẠI HỌC TÀI CHÍNH - KẾ TOÁN Bước 3: Tính khoảng cách giữa các đối tượng đến k tâm (thường dùng khoảng cách Euclidean) Bước 4: Nhóm các đối tượng vào nhóm gần nhất Bước 5: Xác định lại tâm mới cho các nhóm bằng cách tính giá trị trung bình cho các điểm dữ liệu trong các cụm tương ứng. Bước 6: Thực hiện lại bước 3 cho đến khi không có sự thay đổi nhóm nào của các điểm dữ liệu 3. Mô tả và xử lí dữ liệu thực nghiệm Dữ liệu được thu thập từ một chi nhánh của công ty Kimberly- Clark bao gồm 16423 bản ghi, là giao dịch mua hàng của 829 khách hàng đang hoạt động. Đây là tập dữ liệu nội bộ của công ty trong 12 tháng tính từ ngày 01/01/2021 đến ngày 31/12/2021. Khách hàng của công ty chủ yếu là các cửa hàng tạp hóa và siêu thị mini. Nghiên cứu sẽ tập trung khai thác 3 thuộc tính: CustomerID (Mã khách hàng), OrderDate (Ngày mua hàng), Amount (Tổng tiền). Sử dụng hàm print() trong Python ta thấy bảng dữ liệu gồm 16423 dòng, được minh họa trong hình 1. Hình 1. Dữ liệu nghiên cứu Chúng tôi sử dụng ngôn ngữ lập trình Python để xử lí dữ liệu và phân khúc 829 khách hàng này. Lần lượt tính các giá trị Recency (R), Frequency (F) và Monetary (M) của từng khách hàng, kết quả thu được file dữ liệu RFM gồm 829 bản ghi tương ứng với 829 khách hàng. Hình 2. Dữ liệu RFM Tiến hành lập bảng thống kê để biết thêm một số thông tin về dữ liệu RFM thu được. Việc lập bảng thống kê được thực hiện đơn giản bằng cách gọi hàm describe() trong Python 95
  4. TẠP CHÍ KHOA HỌC TÀI CHÍNH KẾ TOÁN Hình 3. Dữ liệu thống kê 4. Áp dụng thuật toán K-Means và phân tích kết quả nghiên cứu Thông thường giá trị M sẽ rất lớn so với F và R nên trong không gian Euclidean, yếu tố khoảng cách giữa các điểm đại diện cho 1 khách hàng sẽ ít bị tác động bởi R và F hơn so với M. Nếu không chuẩn hóa dữ liệu sẽ dẫn tới khoảng cách phần lớn bị ảnh hưởng bởi M và ít bị ảnh hưởng bởi 2 biến còn lại. Do đó, trước khi áp dụng thuật toán K-Means ta sử dụng hàm MinMaxScaler() trong Python để chuẩn hóa dữ liệu. Chúng tôi đã sử dụng ngôn ngữ Python để cài đặt thuật toán K-means với dữ liệu đầu vào là tập dữ liệu RFM sau khi đã chuẩn hóa gồm 829 bản ghi và tham số k =4 (Tùy vào nhu cầu thực tế của công ty để chọn số cụm k cho phù hợp). Kết quả phân cụm có thể được thể hiện trực quan bằng biểu đồ phân tán các nhóm khách hàng trên không gian ba chiều như sau: Hình 4. Biểu đồ phân tán trên không gian ba chiều. Hình ảnh dữ liệu cụ thể của các nhóm được thể hiện qua các hình sau: Hình 5. Dữ liệu nhóm 0 96
  5. ĐẠI HỌC TÀI CHÍNH - KẾ TOÁN Hình 6. Dữ liệu nhóm 1 Hình 7. Dữ liệu nhóm 2 Hình 8. Dữ liệu nhóm 3 Dựa vào dữ liệu thu được của từng nhóm, chúng tôi vẽ biểu đồ so sánh tỉ lệ khách hàng và biểu đồ so sánh tỉ lệ doanh thu theo từng nhóm tương ứng với từng phân khúc như hình 9. Ta tiến hành phân tích dữ liệu thu được của mỗi nhóm để tìm ra đặc điểm chung của từng phân khúc [4]. - Nhóm 0 gồm có 164 khách hàng, chiếm 20% tổng số khách hàng. Các khách hàng trong nhóm 97
  6. TẠP CHÍ KHOA HỌC TÀI CHÍNH KẾ TOÁN Biểu đồ so sánh tỉ lệ khách hàng Biểu đồ so sánh tỉ lệ doanh thu theo từng phân khúc theo từng phân khúc Cluster_3 Cluster_ 0 Cluster_3 Cluster_ 0 5% 5% 26% 20% Cluster_1 16% Cluster_2 Cluster_1 Cluster_2 16% 38% 74% Hình 9. Biểu đồ so sánh này có giá trị trung bình của thời gian mua hàng gần đây (Recency) là 25.59. Giá trị này khá cao so với mức trung bình chung của toàn bộ khách hàng là 10.73 và cao hơn Recency của các nhóm còn lại. Tần suất mua hàng trung bình (Frequency) chỉ đạt 16.71 lần. Chỉ số này khá thấp so với mức trung bình chung của toàn bộ khách hàng là 19.81. Số tiền mà khách hàng đã chi tiêu (Monetary) trung bình trong nhóm quá thấp, chỉ đạt mức 6,660,365 đồng. Tổng doanh thu của nhóm 0 chỉ chiếm 5% trong tổng doanh thu của toàn bộ khách hàng. Với các đặc điểm về Recency, Frequency và Monetary, nhóm 0 được xem là nhóm khách hàng không chắc chắn, nhóm khách hàng có khả năng rời công ty trong thời gian tới. - Nhóm 1 gồm có 319 khách hàng chiếm 38% tổng số khách hàng. Các khách hàng trong nhóm này có thời gian mua hàng gần đây (Recency) nằm trong khoảng từ 0 đến 11, với giá trị trung bình của Recency là 3.9. Giá trị này rất thấp so với mức trung bình chung của toàn bộ khách hàng là 10.73. Trong nhóm này có đến 165 khách hàng vừa mới mua hàng gần đây (R
  7. ĐẠI HỌC TÀI CHÍNH - KẾ TOÁN hàng đã chi tiêu (Monetary) trung bình trong nhóm cũng rất thấp, chỉ đạt 5,050,102 đồng. Tổng doanh thu của nhóm này chỉ chiếm 5% tổng doanh thu của toàn bộ khách hàng. Với các đặc điểm về Recency, Frequency và Monetary, nhóm 3 được xem là nhóm khách hàng không thường xuyên. 5. Kết luận Trong xu thế hiện nay, các doanh nghiệp Việt Nam đã và đang sẵn sàng chuyển đổi số với lượng dữ liệu ngày càng tăng cao. Vì vậy, nghiên cứu về ứng dụng thuật toán phân cụm để phân khúc khách hàng dựa vào mô hình RFM có ý nghĩa thiết thực và phù hợp với xu thế hiện nay. Kết quả nghiên cứu thu được 4 phân khúc với các đặc trưng riêng biệt sẽ giúp doanh nghiệp đưa ra các chiến lược marketing trên từng phân khúc cụ thể, nhằm thu hút khách hàng mới, duy trì mối quan hệ tốt với nhóm khách hàng tốt nhất và giữ chân nhóm khách hàng có khả năng rời công ty. Nhờ những chiến lược hiệu quả đó mà thị phần của doanh nghiệp ngày càng tăng, kéo theo doanh thu của doanh nghiệp sẽ tăng lên. TÀI LIỆU THAM KHẢO 1. Lê Hồng Diễn, Nguyễn Phúc Sơn, Phạm Hoàng Uyên, Lê Văn Hinh (2019). Bài toán phân nhóm đối với khách hàng mua sắm tại siêu thị Coopextra Thủ Đức. Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế - Luật và Quản lý, 3(1):28- 36. 2. Đỗ Phúc (2012). Giáo trình khai thác dữ liệu. Nhà xuất bản Đại Học Quốc Gia Thành Phố Hồ Chí Minh. 3. Nguyen Phu Son, Loi QuangVinh, Ngo Giang Thy, Tu Van Binh and Le Thi Thanh Hieu (2022). An Approach On RFM Toward CLV: The Case Of B2B Garment Suppliers. International Journal of Education, Business and Economics Research (IJEBER) 2 (3), 38-55. 4. Hồ Trung Thành, Nguyễn Đăng Sơn (2021). Một nghiên cứu liên ngành giữa phân tích phân khúc khách hàng trong marketing và phương pháp học máy. Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế- Luật và Quản lý, 6(1):2005-2015. 5. Chen, D., Sain, S. L., & Guo, K. (2012). Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining. Journal of Database Marketing & Customer Strategy Management, 19(3), 197-208. 6. Dogan, O., Ayçin, E., & Bulut, Z. A. (2018). Customer segmentation by using RFM model and clustering methods: a case study in retail industry. International Journal of Contemporary Economics and Administrative Sciences, 8(1), 1-19 7. Robert, C. B., Byung, D. K., & Scott, A. N. (2008). Database Marketing: Analyzing and Managing Customers. Series Editor Jehoshua Eliashberg, The Wharton School University of Pennsylvania Philadelphia, Pennsylvania USA. 99
  8. TẠP CHÍ KHOA HỌC TÀI CHÍNH KẾ TOÁN THỂ LỆ VIẾT BÀI, GỬI BÀI ĐĂNG TRÊN TẠP CHÍ KHOA HỌC TÀI CHÍNH KẾ TOÁN 1. Bài nhận đăng là các công trình mới có ý nghĩa khoa học và thực tiễn trong các lĩnh vực khoa học cơ bản, khoa học xã hội - nhân văn, kỹ thuật, kinh tế, tài chính, kế toán, v.v..., chưa công bố ở bất kỳ tạp chí nào. Tác giả tự chịu trách nhiệm về nội dung, tính minh bạch, tính khoa học độc lập của bài viết. Nếu muốn ngừng đăng hoặc chuyển sang tạp chí khác, tác giả phải thông báo ngay cho Ban Biên tập. 2. Bài báo khoa học phải bao gồm các phần: 2.1. Tựa bài: Phản ảnh nội dung chính của bài viết. 2.2. Tóm tắt: Bằng tiếng Việt và tiếng Anh (in nghiêng), nêu ý tưởng và nội dung chính bài viết, không quá 200 từ. 2.3. Phần nội dung bài viết: Nêu lên được kết quả nghiên cứu của tác giả, với các phần: Đặt vấn đề, giải quyết vấn đề, kết luận. 2.4. Phần tài liệu tham khảo: Tài liệu tham khảo ghi theo trình tự: Tên tác giả, năm xuất bản, tên sách (hoặc tạp chí), nhà xuất bản, nơi xuất bản (tập, số, năm xuất bản đối với tạp chí). Tất cả đều viết bằng tiếng của nước đã xuất bản ấn phẩm, không phiên âm, chuyển ngữ hoặc dịch. 3. Bài gửi đăng được soạn thảo theo font chữ Times New Roman, bảng mã Unicode, cỡ chữ 12, định dạng lề trên 2.5 cm, lề dưới 2 cm, lề trái 3 cm, lề phải 2 cm, khoảng cách dòng: single, khoảng cách đoạn: 3pt. Công thức toán học dùng MS Equation hoặc phần mềm gõ công thức toán học (Mathtypes). Bài viết dài tối đa không quá 6 trang A4, kể cả tài liệu tham khảo. 4. Cuối bài viết, tác giả ghi rõ họ tên, học hàm, học vị, tên cơ quan và địa chỉ, điện thoại và email để tiện liên lạc. 5. Hình thức gửi bài: Bài gửi về Ban Biên tập bằng cả 2 hình thức: Bản in trên giấy A4 và file dữ liệu. 6. Thời gian gửi bài: Ban Biên tập thường xuyên nhận bài gửi đăng từ các tác giả trong và ngoài trường, tổ chức thẩm định và xét duyệt theo quy định của Tạp chí. Các bài gửi đăng đạt yêu cầu sẽ được đăng trên số Tạp chí định kỳ phát hành gần nhất. Bài không đăng sẽ được thông báo cho tác giả, tòa soạn không trả lại bản thảo. 7. Địa chỉ gửi bài: Tạp chí Khoa học Tài chính Kế toán, Trường Đại học Tài chính - Kế toán; Thị trấn La Hà, Huyện Tư Nghĩa, Tỉnh Quảng Ngãi; điện thoại: (0255) 3912482; email: tapchidhtckt@tckt.edu.vn In 200 bản, khổ 19 x 27cm tại Trung tâm xuất bản Giao thông vận tải miền Trung - 132 Nguyễn Thị Minh Khai TP. Đà Nẵng. Xong và nộp lưu chiểu 12. 2022 100
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2