Journal of Mining and Earth Sciences Vol. 61, Issue 5 (2020) 145 - 150 145
Analyzing customer sentiments using K-means
algorithm
Trung Kien Pham *, Thang Duc Nguyen, Chien Van Le, Thuong Van Nguyen
Faculty of Economics and Business Administration, Hanoi University of Mining and Geology, Vietnam
ARTICLE INFO ABSTRACT
Article history:
Received 18th Aug. 2020
Accepted 24th Sept. 2020
Available online 31st Oct. 2020
Customer segmentation is the process of dividing customers based on
common characteristics such as their behavior, buying habits and
service
usage,.
.. so that companies can market for each group customers more
effectively and appropriately. The paper analyzes
customer cluster
segmentation via the K-Means clustering methods of a business sector
.
The research was conducted on 272 customer
s with characteristics of age,
income and expense score. The research results are divided into 2 target
customer clusters, promising to help care and marketing customers more
effectively; Help business units to have appropriate marketing strategies
to reduce costs and increase efficiency.
Copyright © 2020 Hanoi University of Mining and Geology. All rights reserved.
Keywords:
Clustering algorithm,
Customer segmentation,
K-Means clustering,
Potential customer.
_____________________
*Corresponding author
E-mail: phamkientrung@humg.edu.vn
DOI: 10.46326/JMES.KTQT2020.19
146 Tp chí Khoa hc K thut M - Địa cht Tp 61, K 5 (2020) 145 - 150
ng dng thut toán K-Means trong phân cm khách hàng
mc tiêu
Phm Kn Trung *, Nguyễn Đc Thng, Văn Chiến, Nguyn n Thưởng
Khoa Kinh tế Qun tr kinh doanh, Trường Đi hc M - Đa cht, Vit Nam
THÔNG TIN I O M TT
Quá trình:
Nhn bài 18/8/2020
Chp nhn 24/9/2020
Đăng online 31/10/2020
Phân cụm khách hàng (customer segmentation) quá
trình phân chia
khách hàng dựa trên c đặc điểm chung như nh vi, thói quen mua s
ắm
sdụng dịch vụ của họ,đ
c ng ty, doanh nghiệp có thể tiếp thcho
tng nhóm khách hàng mt cách hiệu quả và phù hp h
ơn. Bài báo nghiên
cu phân kc cụm kch hàng thông qua pơng pháp phân cụm K-Means
(K-Means clustering methods) của một sở kinh doanh. Nghiên cu đư
ợc
thực hiện trên 272 khách hàng vi các đặc điểm vđộ tuổi, thu nhập và đi
ểm
chi tiêu. Kết quả nghiên cứu đã chia tnh 2 cm khách hàng mc tiêu, h
ứa
hn sẽ giúp việc chăm sóc, tiếp thị khách hàng hiu quả hơn; giúp đơn v
kinh
doanh nhng chiến lược marketing phù hợp giảm chi p ng hi
ệu
qu.
© 2020 Trường Đại học M - Địa chất. Tt c các quyền được bo đảm.
T ka:
K-Means clustering,
Khách ng mc tu,
Phân cm kch hàng,
Thut toán pn cm.
1. M đầu
Phân cm khách ng quá trình phân chia
khách ng thành nhiu cm/nm chung s
ơng đồng theo những tu c n gii tính, tui
c, s thích, thu nhp thói quen chi tiêu, hành
vi mua sm,để doanh nghiệp phương thc
tiếp th hiu qu. Khi thc hin đưc phân cm
khách hàng giúp đơn vị gii quyết đúng các u
cu ca từng khách hàng, gp tăng li nhun, gi
chân c khách ng quan trng, cũng như thc
hin các chiến dch, chiến lược marketing hiu qu
n (Khajvand and Tarokh, 2011).
Hin nay, nhiều phương pháp giúp doanh
nghip thc hin vic phân cm khách ng mc
tiêu da tn nhng hiu biết v hành vi
(behavior), thói quen (habits), s thích
(preferences) ca khách hàng tiềm năng như K-
Means, Mean-Shift, Density-Based Spatial,
Expectation-Maximization, Agglomerative
Hierarchical Clustering (Chen et al., 2012).
Trong phm vi nghn cu, các tác gi la chn
phương pháp pn cm theo thut toán K-Means,
đây là thut toán quan trọng đưc s dng ph
biến trong các nghiên cu hin nay (Chapman and
Feit 2019).
i báo thu thp s liu t 272 khách hàng ti
showroom ô tô vi các tng tin thu thp v ng
xe quan m, nh tiếp cận khách ng, độ tui,
thu nhp bình quân điểm chi tiêu đ thc hin
phân cm theo thut tn K-Means.
_____________________
*Tác gi liên h
E - mail: phamkientrung@humg.edu.vn
DOI: 10.46326/JMES.KTQT2020.19
Phm Kiên Trung và nnk/Tp chí Khoa hc K thut M - Địa cht 61(5), 145 - 150 149
2. Pơng pháp nghiên cu
- Phương pháp thng kê: Thu thp x s
liệu, điu tra chn mu đưc nm c gi s dng
để có đưc hình nh tng quát v mu nghn cu.
- Phương pp phân cm K-means: Thut tn
K-Means m cách pn nhóm c đối ng
(objects) đã cho vào K cm (K là s các cm được
c đinh trưc, K ngun dương) sao cho tổng
nh phương khongch gia các đi tượng đến
m nhóm (centroid ) nh nht.
Thut toán K-Means thc hiện qua các c
chính sau (nh 1).
1. Chn ngu nhiên K tâm (centroid) cho K cm
(cluster). Mi cm được đi din bng các tâm ca
cm.
Trong nghn cứu, đ xác định được s cm ti
ưu nhóm sử dng pơng pp Elbow. Tiến hành
chy phân cm trên tp d liu cho mt phm vi
giá tr ca k (k t 1 đến 10), ti v tk nào to
thành khúc cua khua tay thì chn ra k tối ưu.
(Shmueli et al., 2017).
2. nh khong ch giữa c đối ng
(objects) đến K tâm (tng ng khong cách
Euclidean).
3. Nm c đối tượng vào nm gn nht.
4. Xác đnh li tâm mi cho các nm.
5. Thc hin li ớc 2 cho đến khi không có
s thay đi nhóm nào của các đối tượng.
(Zakrzewska and Murlewski, J, 2005).
3. D liu nghiên cu
Nghiên cu thu thp thông tin ca 272 khách
ng ti đim n hàng ca công ty Trường Hi
Auto, c thông tin đưc tp hp gm 6 ct:
khách hàng ID, Chng loi xe quan m, nh
thông tin phn hi, đ tui, thu nhp bình
quân/tng và đim chi tiêu. Dưi đây là tả 1
phn d liu.
ID LOAIXE KENH AGE
TNHAP DIEM
<chr> <chr> <chr> <dbl>
<dbl> <dbl>
1 …06482 MORNING-SI-AT-1.25 Showroom
20 9 55
2 …6353 CERATO-1.6-AT Showroom
35 8.9 78
3 …6467 CERATO-1.6-AT Showroom
33 9.7 50
4 …6486 CERATO-1.6-AT Điện thoi
20 8.7 52
5 …6487 SEDONA-2.2-DAT Showroom
34 9.2 53
6 …6488 SEDONA-2.2-DAT Showroom
52 8.7 45
a, Mô t đ tui ca nhóm kch hàng
Độ tui bình qn ca khách hàng là 36,1 tui,
khách ng tui ln nht là 52 tui, nh nht
20 tui, vi độ lnh chun 6,7 tui.
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 33.00 35.00 36.06 40.00 52.00
Sd = 6.722813
nh 2 và 3 th hin phân b độ tui qua biu
đồ ct và biểu đ hp. Vi nh 2 cho thy độ tui
ch yếu t 33 đến 40 tui, nh 3 th hiện độ
tui trung nh, trung v, ch phân v 25%
75%, biu đ cho thy có 4 giá tr ngoi vi.
b, Mô t thu nhp ca kch hàng
Thu nhp bình quân ca kch ng 9,95
triu đồng/tng, trong đó ngưi thp nht là 7,5
triu đồng/tng cao nht 14 triu
đồng/tng. Nn chung, nhóm khách ng quan
m đến mua xe mc thu nhp trung bình khá
tr n. Thu nhp ca kchng không có giá tr
o nm ngoài khongch phân v 25% 75%
th hin ti nh 4.
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.500 8.800 9.500 9.952 11.200 14.000
nh 5 cho thy v phân b thu nhp ca
khách ng tp trung mc t 8 triệu đồng/tng
đến mc 11 triu đồng/tng. Mc thu nhp trên
Hình 1. Các bưc thc hin K-Means Clustering
(Zakrzewska and Murlewski, 2005).
148 Phm Kiên Trung và nnk/Tp chí Khoa hc K thut M - Địa cht 61(5), 145 - 150
12 triệu đồng/tháng cũng tương đối nhiu khách
ng.
c, Mô t đim chi tiêu
Đim chi tiêu cho biết mc độ chi tiêu so vi
thu nhp ca từng kch ng, được đánh giá t 0
đến 100 đim. Vi d liu, Hình 7 th hin khách
ng có đim chi tiêu cao nht 95 đim, th hin
mc sn sàng chi tiêu rt cao. Khách ng thp
nhất là 17 đim và trung nh là 66,28 điểm, điểm
trung v là 70,5 điểm th hin ti Hình 6. Nhìn
chung, nm khách hàng đim chi tiêu mc
trên trung bình so vi thu nhp bình quân chung.
Min. 1st Qu. Median Mean 3rd Qu. Max.
17.00 48.00 70.50 66.28 82.00 95.00
4. Kết qu nghiên cu
1. Bằng phương pháp Elbow Method: Nghiên
cu xác đnh s cm ti ưu để phân b khách hàng
2 cm Hình 8a 8b. Đây là s cm nên pn b
theo pơng phápy (Shmueli et al., 2017). Tuy
nhn, nếu cn doanh nghip có th phân cm vi
k=3, k=4,
nh 2. Biểu đ pn b theo độ tui khách ng.
nh 3. Bi
u đ
phân b
theo đ
tu
i khách ng.
Hình 4. Biu đ hp mô t thu nhp ca khách ng.
Hình 5. Pn b thu nhp ca kch ng.
Hình 7. Biểu đồ ct mô t điểm chi tiêu ca
khách hàng.
Hình 6. Biểu đồ hp mô t điểm chi tiêu ca
khách hàng.
Phm Kiên Trung và nnk/Tp chí Khoa hc K thut M - Địa cht 61(5), 145 - 150 149
2. Sau khi xác định được s lượng cm ti ưu
2, nm nghn cu thc hin phân vùng ngu
nhn khác nhau 50 ln (Chapman and Feit, 2019).
3. Thc hin s ln lp 100 ln để chn kết qu
tt nht. C th:
K-means clustering with 2 clusters of sizes 86,
186
Cluster means:
AGE TNHAP DIEM
1 37.63953 8.753607 41.41860
2 35.32258 10.506385 77.76882
ch tc cm 1 186 đi ng cm 2
86 đi tưng quan t.
m đim cm 1 (centroid cluster 1): độ tui
37,6 tui; thu nhp 8,75 triu đồng/tng; đim
chi tiêu 41,4 đim.
m đim cm 2 (centroid cluster 2): độ tui
35,3 tui, thu nhp 10,5 triu đồng/ng; đim chi
tiêu 77,7 đim.
Within cluster sum of squares by cluster:
[1] 13458.24 18036.95
(between_SS / total_SS = 71.3 %)
Như vậy, 71,3% s kc bit ca kch hàng
th được gii tch bng s khác bit trong mi
nhóm.
4. Mô phng kết qu pn cm
Qua Hình 9 cho thy 2 cm khách ng khách
nhau v thu nhp điểm chi tiêu:
Cm 1: Cm khách hàng màu đỏ thuc nhóm
khách ng điểm chi tiêu cao (trên 60 đim)
thu nhp t 7,5 triu đồng đến 14 triu
đồng/tng.
Hình 8a. c đnh s lượng cm ti ưu theo phương
pp Elbow.
Hình 8b. c đnh s lượng cm ti ưu theo phương
pp Elbow.
Hình 10. Phân cm khách hàng theo đim chi tiêu và
đ tui.
Hình 9. Pn cụm kch hàng theo đim chi tu
và thu nhp.