FTU Working Paper Series, Vol. 2 No. 4 (10/2021) | 117
XÂY DNG MÔ HÌNH PHÂN KHÚC TH TRƯNG
THEO ĐA LÝ DÂN S TI HÀ NI
Văn Đức Mnh1, Nguyn Qunh Chi, Bùi Thiên Bình, Trn Ngc Dip,
Phm Hương Giang
Sinh viên K57 CTTT Qun tr kinh doanh - Khoa Qun tr kinh doanh
Trường Đại hc Ngoi thương, Hà Ni, Vit Nam
Lê Thu Hng
Ging viên Khoa Qun tr kinh doanh
Trường Đại học Ngoại thương, Hà Nội, Việt Nam
Tóm tt
V trí địa mt trong nhng yếu t quan trng nht s ảnh hướng lớn đối vi chiến
c ca các doanh nghip khi quyết định gia nhp hay khai thác, m rng mt th trường mi,
mt khu vc mi. Bài viết này đưa ra cách y dựng mt hình phân tích chi tiết v s phân
b ca th trường ti các qun trong thành ph Ni s dụng phương pháp phân cụm K-means
phân tích thành phn chính (PCA). hình th hiện đặc điểm dân của tng khu vc
như tuổi tác, ngh nghiệp, trình độ hc vn, qua đó đưa ra nguồn thông tin chính xác tng
quan v mặt đa lý cho các doanh nghip, giúp rút ngn chi phí và thi gian trong quá trình quyết
định chiến lược gia nhp hoc m rng mt khu vực địa lý mi.
T khóa: Phân khúc th trường theo địa dân s, Phân cm K-means, D liu ln, Phân tích
thành phn chính (PCA), Phân tích v trí
CREATING A GEODEMOGRAPHIC SEGMENTATION MODEL FOR HANOI
Abstract
Location is one of the most crucial factors which has a great influence on enterprises’ strategy
when entering, exploiting or expanding in a new market or a new area. The study illustrates
how to create a detailed analytical model of the market segmentation in all districts of Hanoi
using K-means clustering and principal component analysis (PCA). The model describes the
population characteristics of each area such as age, occupation, education level, etc.; thereby
giving enterprises precise and general sources of information about geographic location, which
helps reduce the cost and time in decision-making process to enter or expand the businesses in
a new area.
1 Tác gi liên h, Email: vanducmanhamser@gmail.com
Working Paper 2021.2.4.08
- Vol 2, No 4
FTU Working Paper Series, Vol. 2 No. 4 (10/2021) | 118
Keywords: Geographic demographic segmentation, K-means clustering, Big data, Principal
component analysis, Location analysis.
1. M đầu
Trong s phát trin nhanh chóng ca hi hiện nay, đc bit s bùng n công ngh
thông tin, nn kinh tế ca chúng ta ngày càng phc tp, th trường ngày càng m rng s
cnh tranh ngày càng tr nên khc lit. Điều đó đòi hỏi các doanh nghip trong bt k lĩnh vực
ngành ngh o ng đu phi tn dng hết mi ngun lực và cơ hội đ chiếm được li thế
cnh tranh trên th trường. Mt trong những điu quan trng tiên quyết nhất đm bo s
thành công ca mt doanh nghiệp xác định tiếp cận đúng đối ng khách hàng tim
năng. một phương pháp ph biến nhất để tiếp cn khách hàng chính m mt v tđa lý
phù hp vi nhu cu ca doanh nghip.
Bi hình phân khúc th trường theo v trí địa lý dân s có tính ng dng cùng cao
đối vi các hoạt động ca doanh nghiệp, đc bit trong vic xác định đúng đối tượng khách
hàng, nên có rt nhiu doanh nghiệp đã thực hin nghiên cứu và đưa ra những mô hình địa lý phù
hp nht vi chiến lược ca h. Tuy nhiên, nhng nghiên cứu y không được công b rng rãi
cũng không thể được ng dng vào hoạt động ca nhng doanh nghiệp khác. Do đó, với
mong muốn đưa ra một hình phân tích khái quát, chính xác, chi tiết v s phân b ca th
trường ti các qun trong Ni, nhóm nghiên cu chọn đề tài Xây dng mô hình phân khúc
th trường theo địa lý dân s ti Hà Ni. Da vào hình này, các doanh nghip ti Vit Nam,
đặc bit Ni, th tìm kiếm nhng th trường tiềm năng mới, nhng khu vc phù hp
giúp m rng doanh nghip v mặt địa lý.
2. Cơ sở lý thuyết
Cho đến nay, trên thế giới đã rất nhiu các nghiên cu v Phân khúc th trường theo địa
(Geo-segmentation). Trong đó, những nghiên cứu này đã làm nổi bật được nhiu ng dng
thc tế ca Geo-segmentation phát trin tính mi ca theo nhiều phương thức khác nhau.
th chia các nghiên cứu đó thành 03 phần chính sau: (1) ng dng ca Phân khúc th trường
theo địa lý trong Tiếp th; (2) Phương pháp tiếp cận và phương pháp luận được s dng trong các
nghiên cứu trước; và (3) Kết qu tng hp ca Phân khúc th trường theo địa lý trong các nghiên
cứu đó.
Đầu tiên, nhiu nghiên cứu đã tp trung vào Tiếp th theo phương pháp đa (Geo-
Marketing, hay GM) vi nhng cách tiếp cận khác nhau. Vào năm 2016, Guy Lansley điều tra v
s phân b tui gii tính ca những người mang tên riêng tiếng Anh xác định các xu
hướng chính trong quy ước đặt tên của nước Anh. Đặc điểm tui và giới được biết nh
hưởng lớn đến hành vi của người tiêu dùng, vì vy vic trích xut và s dụng tên để tìm ra nhng
đặc đim y t b d liệu người tiêu dùng giá tr lớn đối vi ngành bán l tiếp th. Kết
qu t vic trích xut th được s dụng để suy ra cu trúc tui gii tính d kiến ca nhiu
b d liệu người tiêu dùng, cũng như d đoán các đặc điểm chính ca người tiêu dùng cấp đ
nhân (Lansley, 2016). Nghiên cứu vào năm 2019 đã tóm tắt mt s phương pháp tiếp th khi
có nhng d liu v v trí của người tiêu dùng. C th, nghiên cứu đã thảo lun v vai trò ca bi
cnh thc tế xã hi thời gian đối vi hiu qu qung cáo, tin ích ca các công c xác định v
trí trong vic làm tính minh bch ca quảng cáo, phân khúc người tiêu dùng các mi quan
tâm v quyền riêng tư về v trí cá nhân (Banerjee, 2019).
FTU Working Paper Series, Vol. 2 No. 4 (10/2021) | 119
Th hai, các nghiên cứu trước đây đã s dụng đa dạng các phương pháp tiếp cn
phương pháp luận liên quan đến Phân khúc đa theo th trường. Vào năm 2011, nghiên
cu của Henna đã sử dng các tiêu chí la chọn điểm đến trượt tuyết đ phân khúc khách hàng
ca khu ngh dưỡng trưt tuyết Phn Lan (Konu, 2011). Các nghiên cu của Allo đã chứng
minh tính kh thi ca tiếp th địa phân đoạn địa các nước đang phát triển trong trường
hp ca vùng Shomolu của Nigeria và thu được các bản đồ kinh tế xã hi ca khu vc bng cách
s dụng phương pháp lập bản đồ Dasymetric, đây một gii pháp tiềm năng để lp bản đồ mt
độ dân s liên quan đến s dụng đất th cư. Lập bản đồ Dasymetric t d liệu vùng định
ng bng cách s dng các ranh gii phân chia khu vc thành các khu vực tương đối đồng
nht vi mục đích t hơn sự phân b dân s (Allo, 2012). Vào m 2012, Jinsoo Hwang
đã xác đnh các yếu t ảnh hưởng đến năm nhóm yếu t quyết định (thực đơn ăn uống, bu
không khí, giá c, sc khe danh tiếng thương hiu) khách hàng cân nhc khi la chn
mt nhà hàng dch v trn gói (Hwang, 2012).
Cui cùng, phương pháp clustering (phân cụm) khá là ph biến trong các nghiên cu v
Geo-marketing. Fisher Tate (2015) so sánh các thut toán phân cụm được s dng trong các
nghiên cu v phân loi nhân khu hc da trên d liu v dân s vào năm 2001 của UK Office
for National Statistic (ONS). H cho thy c c-means fuzzy c-means đều khiến cho kết qu
của phân đoạn th trường da trên khu vực địa lý tr nên thành công đáng k hơn. Shaffer
(2015) kho sát các nhà máy bia th công khu vực Đại đô thị Phoenix đ xác định xu hướng
nhân khu học, hành vi người tiêu dùng mi quan h không gian trong th trường bia th
công. Vào năm 2016, Suhaibah đề xut mt s kết hp ca phân khúc th trường da trên các
tiêu chí địa lý và thut toán phân cm cho hoạt động qun lý d liu tiếp th địa lý 3D. T đó
giúp tinh chnh hoạt động tìm kiếm trong quá trình phân tích. Ông đã s dụng phương pháp tiếp
cận được đề xut, nh vy d liu tiếp th địa lý được phân loại trong s d liu không gian
địa đ qun d liu hiu qu. Nghiên cứu vào năm 2017 của Leung, Yen Lohmann s
dng d liu kho sát hành khách t Sân bay Gold Coast bang Queensland, Australia, đ thc
hin phân tích phân loại địa lý nhân khu hc kết hp vi d liệu điều tra dân s. Vi d liu s
thích của hành khách được hóa địa lý, các đặc điểm chuyến đi sở thích v quyết định ca
sân bay được so sánh chéo vi d liu nhân khu hc các biến kinh tế hi. H lp bản đồ
các khu vc mà khách hàng sinh sng dựa trên các điểm đến mà h bay đến. Kết qu cho thy s
trái ngược, đặc bit v v trí xut phát ca hành khách đối vi các chuyến đi nội địa chng ngn
và các chuyến đi quốc tế đường dài, trong đó hành khách từ xa sẵn sàng đi đường dài đ đến sân
bay hạng hai để tn dng giá vé máy bay r hơn (Leung et al., 2017).
3. Phương pháp nghiên cứu
Th t các phương pháp được s dng trong bài nghiên cứu này như sau:
a. Thu thp d liu dân s (tập tin CSV) và cơ sở d liệu địa lý (tp tin JSON)
b. Thc hin x lý thô và làm sch d liu
c. Thc hin phân tích d liu dân s bằng phương pháp Phân tích thành phần chính (PCA)
d. Các thành phần chính thu được thông qua phân tích PCA được s dụng để xác định s
ng các cm
e. Thc hin phân cm K-means t d liu dân s
FTU Working Paper Series, Vol. 2 No. 4 (10/2021) | 120
f. Tối ưu số cm n t phân cm K-means bằng phương pháp Elbow
g. Tìm chính xác s cm n t phân cm K-means bằng phương pháp Silhouette
h. Thc hiện phân nhóm các Phường, Xã, Th trn vào các cm
i. Liên kết bng d liu dân s với các điểm không gian (các đa giác) trong sở d liệu địa
j. Thc hin v bản đồ phân khúc địa lý
3.1. Phương pháp Phân tích thành phần chính (PCA)
c 1: S dng phân tích nhân t (Factor Analysis) để xác định ti trng (loadings) và giá
tr riêng (eigenvalue)
𝑜 𝑛 𝑛 𝑜 𝑛 𝑙
Trong đó:
𝑜 𝑛 : Ti trng, các hiệp phương sai/ tương quan gia các biến ban đầu
các thành phn t l đơn vị, giúp gii thích các thành phn chính, yếu t
chúng các trng s kết hp tuyến tính (h số) theo đó các thành phần hoc các
yếu t được chia t l đơn vị xác định hoc "ti" mt biến
𝑛 𝑜 : Vectơ riêng, một vectơ khác vectơ không được nhân vi
mt h s vô hướng khi biến đổi tuyến tính đó được áp dng lên nó
𝑛 𝑙 : H s vô hướng vô hướng áp dụng lên vectơ riêng
c 2: S dụng lược đồ Scree Plot để xác định s thành phn chính ca tp d liu.
Hình 1. ợc đồ Scree Plot
Ngun: Nhóm nghiên cu tng hp qua Python 3
Kết qu t biểu đồ Scree cho thy, chúng ta nên gi li t 3 đến 4 thành phần chính để giá tr
riêng (Eigenvalue) gn 1. Trong bài nghiên cu này, chúng tôi s dng 03 thành phn chính.
FTU Working Paper Series, Vol. 2 No. 4 (10/2021) | 121
Lưu ý: Tùy thuc vào mục đích ta lựa chn s thành phn chính cho phù hp, gii pháp
trên ch một phương pháp đưa ra số thành phn chính gi ý. (S thành phn chính càng nhiu
thì càng giải thích đầy đủ hơn cho tp hp các biến ban đầu).
c 3: Thc hin phân tích PCA vi 03 thành phn chính
Hình 2. T l phương sai với 03 thành phn chính
Ngun: Nhóm nghiên cu tng hp qua Python 3
Ta gii thích t l phương sai với 03 thành phn chính. Ta có th thy rng thành phn chính
đầu tiên giải thích 74,86% và độ biến thiên tng th. Thành phn chính th hai và th ba lần lượt
giải thích 10,93% và 5,08% đ biến thiên tng th. Cùng vi nhau, hai thành phn gii thích
90,87% tng biến.
3.2. Phương pháp phân tích cm thut toán K-means
Hình 3. Sơ đồ thut toán K-means
Ngun: Nhóm nghiên cu tng hp
Input: S cm k và các trng tâm cms {𝑚𝑗}; 𝑘𝑗 = 1
Output: Các cm 𝐶[ ] (1 ≤ 𝑘) và hàm tiêu chuẩn E đạt giá tr ti thiu.