64 Nguyn Đ. L. Bng và cng s. Tp chí Khoa hc Đại hc M Thành ph H Chí Minh, 16(1), 64-78
Mô hình khai phá ý kiến và phân tích cm xúc khách hàng trc
tuyến trong ngành thc phm
A text-based model for opinion mining and sentiment analysis from
online customer reviews in food industry
Nguyn Đặng Lp Bng1, Nguyn Văn H2, H Trung Thành1*
1Trường Đại hc Kinh tế - Lut, ĐHQG-HCM, Vit Nam
2Trường Đại hc Kinh tế Thành ph H Chí Minh, Vit Nam
*Tác gi liên h, Email: thanhht@uel.edu.vn
THÔNG TIN TÓM TT
DOI:10.46223/HCMCOUJS.
econ.vi.16.1.1388.2021
N
gày nhn: 18/05/2020
N
gày nhn li: 22/06/2020
Duyt đăng: 22/06/2020
T khóa:
hc máy, khai phá ý kiến,
p
hân tích cm xúc, thương
mi đin t, ý kiến khách
hàng
K
eywords:
customer reviews, e-
commerce, machine learning,
opinion mining, sentiment
analysis
Vi s phát trin mnh m ca công ngh thông tin và Internet,
các website Thương mi đin t ra đời như mt phương tin hu
ích giúp khách hàng thc hin mua hàng, đặt thc phm trc tuyến
cũng như chia s nhng tri nghim, bình lun và đánh giá sau giao
dch. Chính vì vy để có th thu hiu hành vi khách hàng thông
qua ý kiến tích cc hay tiêu cc v sn phm và dch v được tri
nghim là mt trong nhng vn đề quan trng. Gii pháp cho vn
đề này, nghiên cu đề xut phương pháp khai thác ý kiến và phân
tích cm xúc khách hàng thông qua vic thu thp tp d liu là ý
kiến bình lun ca khách hàng trên website Foody.vn - mt trang
Thương mi đin t hàng đầu trong lĩnh vc dch v đặt hàng trc
tuyến. Sau đó, tiến hành thc nghim bng phương pháp hc máy
để khai phá ý kiến t bình lun dng văn bn ca khách hàng và
trc quan hóa kết qu h tr ra quyết định. Kết qu thc nghim
cho thy độ chính xác 90% ca phương pháp đề xut và kết qu
khai thác được tp thông tin, tri thc tim n có giá tr t tp ng
liu nhm giúp các ca hàng, nhà qun tr hiu được các ưu nhược
đim v sn phm, dch v để ci thin chiến lược kinh doanh
tt hơn.
ABSTRACT
In the rapid growth of technology and the Internet over recent
years, e-commerce websites have been developed as a useful online
media channel for users to easily make transactions such as online
shopping and ordering food and drinks online, then share
experience and feedbacks. Therefore, to be able to understan
d
customer behaviors through positive or negative reviews about the
products and services is an important desideratum. To offer a
solution for this problem, the research proposes a method for
customers opinion mining and sentiment analysis based on
collecting data sets as customer reviews from the website Foody.vn
- a top ranking website in the field of online ordering services.
Machine learning models were conducted and evaluated to choose
Nguyn Đ. L. Bng và cng s. Tp chí Khoa hc Đại hc M Thành ph H Chí Minh, 16(1), 64-78 65
1. Gii thiu
Nhng năm gn đây, chúng ta chng kiến s tri dy ca th trường giao đồ ăn trc tuyến
khi mà các ng dng giao đồ ăn ngày càng hoàn thin hơn, thanh toán tin dng hơn. Mt khác
các mng xã hi chuyên nhn xét v đồ ăn rt được nhiu người dùng truy cp như Foody, Now
có rt nhiu d liu các bình lun, đánh giá v đồ ăn ca người tiêu dùng. Các thương hiu đồ ung
như trà sa TocoToco, Bobabop rt được người dùng chú ý. Ý kiến khách hàng là nhng phn hi
mà khách hàng cm nhn được sau khi s dng dch v, sn phm ca doanh nghip (Kumar,
Desai, & Majumdar, 2016). Nhng ý kiến ca khách hàng có th tiêu cc hoc tích cc. Da theo
nhng nhn xét tích cc ca khách hàng, doanh nghip s biết được nhng ưu đim ca sn phm
hay dch v. Nhng ý kiến đó ca khách hàng có th dùng để qung bá hay truyn thông. Bi vy
các doanh nghip luôn luôn ci thin cht lượng dch v để có th dn đầu.
Cnh tranh gia các doanh nghip ngày càng tăng. Theo Sharma, Agarwal, Dhir, và Sikka
(2016), để chinh phc khách hàng thì không th không tìm hiu v nhu cu ca h. Mt trong bước
để biết khách hàng có phù hp là thu hút khách hàng tri nghim sn phm. Sau đó đánh giá s
tha mãn ca khách hàng vi sn phm hay dch v. Tuy nhiên, vn đề làm sao doanh nghip có
th biết được khách hàng đang hài lòng và không hài lòng v vn đề này hay thương hiu đang
được người dùng s dng nhiu. Để gii quyết bài toán này nghiên cu đề xut gii pháp khai thác
các bình lun ca khách hàng v sn phm ca các ca hàng để li trên trang web Foody. Tuy
nhiên d liu ch mc độ sơ cp, và lượng d liu rt ln các doanh nghip không th da vào
d liu thô này để ra quyết định được, h cn biết được các tri thc được phân tích t tp d liu
này. Do đó, chúng tôi đã áp dng các phương pháp hc máy để phân loi d liu, xem bình lun
nào là tích cc, bình lun nào là tiêu cc và dùng các phương pháp phân tích và d đoán. Cui
cùng, nghiên cu khai thác công c để trc quan hóa d liu trên các báo cáo thông minh
(dashboards). Kết qu nghiên cu s giúp các ca hàng, nhà qun lý doanh nghip nm bt thông
tin mt các d dàng và nhanh chóng, t đó vic phát trin kinh doanh được ci thin và nâng cao,
chng hn vic nâng cao s hài lòng ca khách hàng và gi chân khách hàng tt hơn.
Tiếp theo, là Mc 2 ca bài báo, trình bày các cơ s lý thuyết và các nghiên cu liên quan.
Mô hình nghiên cu s được trình bày chi tiết Mc 3. Mc 4 là kết qu thc nghim, đánh
giá mô hình và trc quan hóa kết qu. Cui cùng chúng tôi kết lun và đề xut hướng phát trin
Mc 5.
2. Cơ s lý thuyết và các nghiên cu liên quan
2.1. Phân tích cm xúc tiếp cn theo x lý ngôn ng t nhiên
Các ý kiến, bình lun ca khách hàng là dng ngôn ng t nhiên được viết ra (Eisenstein,
2019; Popescu & Etzioni, 2007). Trong mt s nghiên cu ca Buche, Chandak, và Zadgaonkar
(2013), Sun, Luo, và Chen (2017), Thanh và Phuc (2015) đã đưa ra mt s phương pháp và k
thut x lý ngôn ng t nhiên trong vic phân tích ý kiến và cm xúc khách hàng thông qua bình
lun trc tuyến. Như vy, vic chun b tp d liu để phân tích, đây là d liu văn bn là các
ni dung bình lun ca khách hàng để li sau khi tri nghiêm nhng sn phm và dch ca các ca
the best model and then dashboards were created as visualizing
results. The experimental results show that 90% accuracy of the
proposed method; and valuable information and latent knowledge
discovered from the corpus can support businessmen to capture the
advantages and disadvantages of products and services an
d
improve business with better strategies.
66 Nguyn Đ. L. Bng và cng s. Tp chí Khoa hc Đại hc M Thành ph H Chí Minh, 16(1), 64-78
hàng, có th trên website, trên các trang mng xã hi. Tiếp theo là tin x lý, ta tiến hành làm sch
d liu, loi b các kí t đặc bit, các d liu rác, các d liu không chun hóa, chun hóa d liu
v ng pháp ng nghĩa. Kho sát phân tích d liu, xem d liu đã đầy đủ chưa, phân b độ dài
ca ni dung. Giai đon này nghiên cu s phát ha khái quát tính cht, ni dung, s lượng ca
tp d liu mình thu được. La chn các yếu t đầu vào để phân tích, và d liu ban đầu s có rt
nhiu chiu. La chn chiu nào thích hp nht để phân tích là vic rt quan trng. Các chiu đầu
vào càng chính xác thì kết qu phân tích sđộ chính xác càng cao. Bước cui cùng là đánh giá
kết qu và trin khai d án.
2.2. Phân tích cm xúc tiếp cn theo phương pháp Hc máy
Phân tích cm xúc đã được định nghĩa là tính toán nghiên cu ý kiến, tình cm và cm xúc
th hin trong văn bn (Liu, 2012). Nói cách khác, khai thác ý kiến là mt phương pháp trích xut
ý kiến ca người đã to ra mt tài liu c th gn đây đã tr thành mi quan tâm nghiên cu ln
nht trong mng xã hi (Pang & Lee, 2008). Tm quan trng ngày càng tăng ca phân tích tình
cm tăng dn cùng vi s phát trin ca phương tin truyn thông xã hi như đánh giá, tho lun
din đàn, và mng xã hi. Đặc bit, trong thi đại phát trin k thut s, chúng ta hin có mt khi
lượng d liu ln được ghi li dưới dng văn bn để phân tích.
Hc máy là mt ng dng ca Trí tu nhân to, là lĩnh vc giúp h thng t động hiu d
liu t d liu được đào to mà không cn lp trình c th. Hc máy tp trung vào vn đề cung
cp h thng t động hiu d liu và thc hin các phép d đoán. Hc máy chia làm 4 phn (Das,
Dey, Pal, & Roy, 2015): hc có giám sát, hc bán giám sát, hc không giám sát và hc cng c.
Máy hc có giám sát là thut toán d đoán d liu đầu ra da vào các tp d liu (d liu
đầu vào, kết qu đầu ra) đã biết t trước. Có hai loi máy hc có giám sát đó là phân loi và hi
quy. Phân loi thì d đoán kết qu phân chia thành các nhóm d liu có cùng tính cht, hi quy thì
cho ra kết qu d đoán là mt s thc c th thay vì ch phân nhóm như hc máy phân loi.
Máy hc không giám sát là thut toán d đoán d liu đầu ra da vào duy nht tp d liu
đầu vào, d liu đầu vào s không được dán nhãn hoc kết qu đầu ra. Thut toán s da vào cu
trúc d liu để thc hin lưu tr và tính toán. Máy hc không giám sát bao gm phân nhóm và tích
hp. Thut toán phân nhóm da s phân nhóm toàn b d liu thành các nhóm nh da trên d
liên quan ca các d liu trong nhóm. Thut toán tích hp s khai phá mt s quy lut da trên
nhiu d liu cho trước.
Hc bán giám sát là thut toán kết hp c hai thut toán có giám sát và không giám sát.
Áp dng vi mt phn tp d liu đã được dán nhãn, phn còn li thì không được dán nhãn.
Hc cng c là thut toán giúp h thng t động xác định các hành vi để đạt hiu qu ti
ưu nht.
Trong nghiên cu này, chúng tôi chn phương pháp hc có giám sát để áp dng cho bài
toán phân loi cm xúc khách hàng da trên bình lun.
2.3. Thut toán Hi quy Logistic
Thut toán Hi quy Logistic (Hieu, 2018) thuc hc máy có giám sát để phân loi d liu.
Mô hình hi quy Logistic áp dng cho biến ph thuc là biến định tính hoc định lượng ch có hai
giá tr (có hoc không) hay nh phân là 0 hoc 1. Điu này phù hp vi bài toán phân loi bình
lun người dùng. Đầu ra ca bài toán đó là xác định bình lun đó là tích cc hay tiêu cc. Phương
trình tng quát (hàm Sigmoid) hoc hàm Logistic:
Nguyn Đ. L. Bng và cng s. Tp chí Khoa hc Đại hc M Thành ph H Chí Minh, 16(1), 64-78
67
Trong đó, f(s) là xác sut xy ra giá tr y = 1 hoc y = 0, s là phương trình tuyến tính ph
thuc vào các biến đầu vào. Phương trình mô hình đơn biến: s = α
0
+ α
1
x
1
, phương trình tuyến
tính ph thuc vào duy nht biến x
1
. Phương trình mô hình đa biến: s = α
0
+ α
1
x
1
+ … + α
n
,
phương trình tuyến tính ph thuc vào các biến x. Dng ma trn khi α
0
= 0 là
Hình 1. Đồ th hàm Sigmoid (Hieu, 2018)
Đồ th hàm s th hin:
Chia làm hai lp:
y = 0 nếu s < 0
y = 1 nếu s >= 0
Các tính cht hàm Logistic:
Min xác định: Tt c các s thc;
Min giá tr: (0,1);
Hàm liên tc;
Hàm tăng trên min xác định;
Hàm đối xng qua đim (0, ½), không phi hàm chn cũng không phi hàm l;
B gii hn trên và dưới;
Không có cc tr địa phương;
1
() 1
s
yfs e

(1)
01()0.5
s
se fs

68
Nguyn Đ. L. Bng và cng s. Tp chí Khoa hc Đại hc M Thành ph H Chí Minh, 16(1), 64-78
Tim cn ngang: y = 0 và y = 1;
Không có tim cn đứng;
Mượt (smooth) nên có đạo hàm mi nơi, có th được li trong vic ti ưu hàm Sigmoid.
Gii thích:
Gii hn
Hàm mt mát (Jurafsky & Martin, 2008): hàm mt mát là hàm s xác định s chênh
lch gia đầu ra y d đoán so vi kết qu đầu ra y đã đúng (y dùng trong hun luyn). Vic ti
ưu hàm mt mát s cho ra kết qu bài toán chính xác hơn
3. Nghiên cu thc nghim
3.1. Mô hình nghiên cu tng quan
Trong nghiên cu này, trước tiên chúng tôi tiến hành thu thp d liu thô t trang web
Foody. Sau đó d liu thô được tin x ly mu, và gán nhãn trước khi tiến hành hc máy.
D liu ly mu được chia thành ba nhóm: tp d liu hun luyn (training data), tp d liu xác
nhn (validation data) và tp d liu kim tra (test data). Tp d liu hun luyn được s dng để
thiết lp các mô hình hc máy, b d liu xác nhn được s dng để lp li và tinh chnh các mô
hình được chn, chúng tôi da trên kết qu phân loi chính xác trên d liu tp kim tra để tìm ra
mô hình hc máy phù hp nht. Các b d liu kim tra ch được s dng mt ln là bước cui
cùng để báo cáo t l li ước tính cho d đoán trong tương lai (Shmueli & Koppius, 2011). Hình
2 là tng quan mô hình nghiên cu chúng tôi đã thc hin.
1
lim ( ) lim 0
1s
ss
fs e
 



1
lim ( ) lim 1
1s
ss
fs e
 



(4)
(2)
(3)