Tp chí Khoa hc và Công ngh, S 46, 2020
© 2020 Trường Đại hc Công nghip Thành ph H Chí Minh
H THNG H TR ĐÁNH GIÁ VÀ KHUYN NGH DCH V DU LCH
DA TRÊN KHAI THÁC Ý KIN KHÁCH HÀNG TRC TUYN
THÁI KIM PHNG 1, NGUYN AN T 2, TRN TH THU HÀ3
1,2 Khoa Công ngh thông tin kinh doanh, Trường Đại hc Kinh tế TP. H Chí Minh,
3Vin Công ngh thông tin và Kinh tế số, Trường Đại hc Kinh tế Quc dân;
phungthk@ueh.edu.vn, tena@ueh.edu.vn, thuha.tim@gmail.com
Tóm tt: Nghiên cứu này được tiến hành nhằm đề xut mô hình kiến trúc h thng cùng vi các gii pháp
h tr đánh giákhuyến ngh dch v du lch dựa trên phương pháp khai thác ý kiến. Nghiên cu này tiếp
cận theo phương pháp khai phá dữ liu theo chun công nghip (CRISP-DM). D liu thc nghim nghiên
cu nhng bình lun ca du khách v các khách sn ti các tnh thành ph ln ti Việt Nam, được
thu thp t động trên trang web Agoda. Trên sở các kết qu thc nghim, nghiên cứu đưa ra một s
khuyến ngh để th trin khai h thng này trong thc tin ngành du lch. Nghiên cu này giá tr tham
chiếu cho các nhà nghiên cu không ch trong lĩnh vực du lịch còn trong các lĩnh vực kinh doanh
qun lý.
T khóa: Khai thác ý kiến, Đánh giá và khuyến ngh dch v du lch, H thng h tr ra quyết định
A SUPPORT SYSTEM FOR TOURISM SERVICES ASSESSMENT AND
RECOMMENDATION BASED ON OPINION MINING ONLINE
CUSTOMER REVIEWS
Abstract: This research was conducted to propose the a architecture model with solutions to support
tourism services assessment and recommendations based on the opinion mining methods. This research
approach is based on an industry standard data mining method (CRISP-DM). Data for the research are
reviews of tourist about hotels in major provinces and cities in Vietnam, which automatically collected on
Agoda. Based on empirical results, the research has some recommendations to be able to implement this
system in the tourism industry. This research is valuable as a reference for researchers not only in the field
of tourism but also in the fields of business and management.
Keywords: Opinion mining, Tourism service assessment and recommendation, Decision support system
1 GIỚI THIỆU
Ngày nay, nhng tiến b ca công ngh đã làm thay đổi cách thc truyn thông giúp cho khách hàng d
dàng truy cập thông tin và trao đi ý kiến v sn phm dch v trên mt quy mô ln trong thi gian thc.
S ra đời ca mng xã hội và các website đánh giá trc tuyến cho phép khách hàngcơ hội đưa ra ý kiến
ca mình thông qua các bài bình lun v sn phm, dch v [35]. Vi s bùng n ca d liu ln (big data)
và công ngh Internet kết ni vn vt - IoTs (Internet of Things), các ý kiến đánh giá trực tuyến ca khách
hàng cần được thu thp, khai thác và tng hp mt cách t động bng các h thng máy tính, cho phép các
nhà kinh doanh th d dàng theo dõi hành vi mua sm, phát hin s thích đánh giá sự hài lòng ca
khách hàng v chất lượng sn phm, dch v. Đồng thi, khách hàng cũng cần thông tin tng hp ý kiến
đánh giá ca cộng đồng đểnhng quyết định mua sm ca mình. Chính vì thế, khai thác ý kiến (opinion
mining) mt cách t động vì thế đã trở thành tiêu điểm ca rt nhiu nghiên cứu trong các lĩnh vc: nghiên
cu th trường (market research), kinh doanh điện t (e-business), thăm dò chính sách (political polls) [34].
Du lch mt ngành công nghip phát triển năng động đóng vai trò quan trọng các quc gia khu
vc trên thế gii [26]. Theo báo cáo nghiên cứu hàng năm của Hội đồng du lch và l hành thế gii (World
Tourism and Travel Council WTTC), ngành du lch là mt trong những ngành đóng góp chính cho GDP
thế giới và đã tăng trưởng trong sáu năm liên tiếp cho đến năm 2015 và tăng lên 9.8% GDP thế gii (7.2
nghìn t USD) [19]. S phát trin của Internet đã cung cấp nhiều phương thức mới để kinh doanh dch v
du lch và qung các sn phẩm điểm đến cho du khách. Ti Việt Nam, xu hướng ng dng Công ngh
thông tin trong ngành du lịch đã bắt đầu phát trin mnh m vi s xut hin các công ty kinh doanh dch
v du lch trc tuyến, các ng dụng đặt tour trên nn tảng di động và nhiu website, diễn đàn, cổng thông
176 H THNG H TR ĐÁNH GIÁ VÀ KHUYN NGH DCH V DU LCH DA TRÊN
KHAI THÁC Ý KIN KHÁCH HÀNG TRC TUYN
© 2020 Trường Đại hc Công nghip Thành ph H Chí Minh
tin hi, v.v... nhằm trao đổi, chia s các điểm đến du lịch cũng đã thu hút một lượng ln du khách
trong và ngoài nước tham gia (Chudu24.vn, TripAdvisor.com.vn, Agoda.com, Booking.com,...). Tuy vy,
hin nay vic đánh giá chất lượng dch v du lch vẫn được thc hin bng nhng cách thc truyn thng.
Những phương pháp này không thể giám t s hài lòng ca khách hàng mt cách liên tc, không
kh năng theo dõi xu hướng chất lượng dch v trong dài hn [30]. Khi chun b các quyết định liên quan
đến việc đánh giá chất lượng dch v, d liu cn phải được th được thu thập, phân tích đề xut các
phương án để sẵn sàng cho người ra quyết định. Để đảm bo tt c các nhim v này, mt h thng h tr
ra quyết định (Decision support system - DSS) cn thiết để x phân loi d liu, s dng các
hình phù hợp để phân tích, và chun b các kết qu để cung cp cho nhà qun lý ra quyết định [28].
Chính vy, mc tiêu ca nghiên cu này là đề xut mt hình kiến trúc h thng cùng vi các gii
pháp h tr đánh giá khuyến ngh dch v du lch (trong đó tập trung vào dch v khách sn) da trên
phương pháp khai thác ý kiến khách hàng trc tuyến.
2 CƠ SỞ LÝ THUYẾT
2.1 Các mô hình đánh giá chất lượng dịch vụ du lịch
Hin nay, trong lĩnh vực du lch, có rt nhiu mô hình đánh giá chất lượng dch v được s dng rng rãi
như: Mô hình hiu sut tm quan trng (IPA) [21], Mô hình đánh giá chất lượng k thut, chức năng và
hình nh ca Gronroos [11], Mô hình khong cách chất lượng dch v (gia mức độ k vng - mức độ cm
nhn) SERVQUAL ca Parasuraman cng s vào năm 1988 [5, 6], hình mức độ cm nhn
SERVPERF [22], mt biến th ca hình SERVQUAL, hình RATER [41], mt s phát trin
ca mô hình SERVQUAL. Tuy nhiên, việc đo lường mức độ cm nhn của khách hàng để đánh giá và cải
tiến chất lượng dch v du lch thường được thc hin bng ch thc truyn thống như: phỏng vn trc
tiếp, phng vấn qua điện thoi, tho lun nhóm, khảo sát qua thư, khảo sát trc tuyến (ISO10004:2010).
Theo [30], mt tr ngi chung ca những phương pháp này là rất nhiu công việc được tiến hành th công
như: chuẩn b các câu hi, tạo cơ s d liệu cho người tr li, gi bng câu hi, thu thp kết qu, phng vn
cá nhân, và chun b báo cáo,... Tt c các th tc này khiến cho đợt khảo sát đánh giá chất lượng dch v
tr nên tn kém. S cm nhn của khách hàng được th hiện dưới hình thc các ch s hài lòng trừu tượng
làm cho khó hiu, khó so sánh gii thích kết qu. Các phương pháp phân tích dữ liu thu thập được thông
qua các th tc của ISO10004:2010 được khuyến cáo ch cho phép phát hin các ph thuc tuyến tính. Vic
phân tích d liu b gii hn trong mt khong thi gian nhất định và không đưa ra cái nhìn sâu sc v xu
hướng s vận động ca s hài lòng t khách hàng. Điều này ảnh hưởng đến tốc độ ra quyết định qun
lý. Bên cạnh đó, những phương pháp này không thể giám sát s hài lòng ca khách hàng mt cách liên tc,
và không có kh năng theo dõi xu hướng hài lòng ca khách hàng trong dài hn [30].
Ngày nay, nhng tiến b của lĩnh vực điện toán trên thế giới đã làm thay đổi cách thc truyền thông, đặc
bit trong bi cảnh tác động ca cuc cách mng Công nghip ln th 4, người s dng công ngh d
dàng truy cập thông tin và trao đổi ý kiến hài lòng v dch v trên mt quy mô ln trong thi gian thực. Đ
khc phục phương pháp đánh giá dịch v theo kiu truyn thng, mt h thng h tr ra quyết định là cn
thiết để x lý và phân loi d liu, s dng các mô hình phù hợp để phân tích, và chun b các kết qu để
cung cp cho nhà qun lý ra quyết định [28].
2.2 Phương pháp khai thác ý kiến
Khai thác ý kiến là lĩnh vc nghiên cu nhằm phân tích, đánh giá nhận định của con ngưi v các đối tượng
như: sản phm, dch v, t chc, cá nhân, s kin, ch đề và các thuc tính ca chúng [8, 9]. Mt quy trình
khai thác ý kiến thường gồm ba bước chính: (1) Thu thp ý kiến (Opinion Retrieval), (2) Phân loi ý kiến
(Opinion Classification) (3) Tng hp ý kiến (Opinion Summarization) [4, 7]. Trong đó, phân loại ý
kiến được xem c quan trng nht nhm mục đích phân lp ý kiến theo các quan điểm: tích cc
(positive), tiêu cc (negative) và trung lp (neutral). Phân loi ý kiến là mt k thut khai thác d liu dng
văn bản (Text Mining) trong lĩnh vực x lý ngôn ng t nhiên (Natural Language Processing). Có hai cách
tiếp cn ph biến trong phân loi ý kiến: dựa vào phương pháp máy hc (Machine learning), da vào t
vng (Lexicon based) [1, 34, 37, 45]. Ngoài ra, để gia tăng hiệu sut ca vic phân loi ý kiến, các nghiên
cứu đã dùng phương pháp lai kết hp giữa hai phương pháp này.
H THNG H TR ĐÁNH GIÁ VÀ KHUYN NGH DCH V DU LCH DA TRÊN 177
KHAI THÁC Ý KIN KHÁCH HÀNG TRC TUYN
© 2020 Trường Đại hc Công nghip Thành ph H Chí Minh
Hình 1: Tng hợp các phương pháp phân loại ý kiến trong nghiên cu [45]
2.3 Các hệ thống hỗ trợ ra quyết định trong du lịch
Có nhiu nghiên cu và nhiu cách tiếp cận khác nhau đối vi vic h tr ra quyết định trong lĩnh vực du
lch [38]. Các nghiên cu [14, 47] đã thảo lun v vic s dng h thng DSS trong vic h tr khách du
lịch đưa ra quyết định la chn đim đến phù hp vi nhu cu ngân sách. Mt s nghiên cu khác tp
trung vào vic s dng h thống DSS để h tr các bên liên quan trong ngành du lch như hỗ tr các nhà
hoạch định du lch [23], các nhà qun lý t chc quản lý điểm đến du lch [32], các nhà d báo nhu cu du
lch [12], cui cùng các nhà tiếp th du lch [18, 25], để đưa ra quyết định phù hp. Một hướng tiếp
cn khác nghiên cu các h thng h tr khách hàng trong vic ra quyết định, hay còn gi h thng
khuyến ngh (Recommender Systems). H thống này được xem như một đối th cnh tranh với các đại
du lch cung cp cho du khách nhng gợi ý đ to thun li cho quá trình ra quyết định ca h.
Đin hình là các h thống Triplehop’s TripMatcher, VacationCoach’s Me-Print, DieToRecs ca [17] [3].
Tiếp cận theo hướng công ngh, mt s nghiên cứu đã sử dng k thut nhà kho d liu (Data Warehouse)
như mt công c để h tr quá trình ra quyết đnh trong doanh nghip thuộc lĩnh vực du lch [2, 27, 38, 46].
Ngoài ra, mt s nghiên cứu đã tích hợp công ngh GIS (Geographic Information System) và Internet vào
các h thng h tr ra quyết định trong du lch nhm tối ưu hóa quy trình lập kế hoch và thu được li ích
t kh năng tiếp cn chính xác, trc quan hóa, x lý d liu và kh năng chia s da trên v trí địa lý [24,
36, 39].
2.4 Các hệ thống khai thác ý kiến trong du lịch
Lĩnh vc du lịch đã có những nghiên cu khai thác ý kiến, có th k đến là nghiên cu ca [33] đề xut mt
h thng tng hp ý kiến đánh giá cho một dch v địa điểm (nhà hàng, khách sạn, điểm đến,...) bng
phương pháp lai giữa phương pháp máy học phương pháp từ vng. C th, nhóm tác gi tp trung vào
các hình tóm tt da trên khía cạnh, trong đó việc tóm ợc được xây dng bng cách khai thác các khía
cạnh liên quan đến dch v, tng hp ý kiến cho mi khía cnh và la chọn văn bản liên quan đến tng khía
cnh. Tiếp đến, [31] đã sử dngc k thut máy học có giám sát để phân loi ý kiến ca khách du lch v
các điểm đến du lch M Châu Âu. [41] đã sử dng k thut Naïve Bayes (NB) Self-Organizing
Maps (SOM) trong vic phân loi và trc quan hóa ý kiến trên mng xã hi Twitter ca du khách v điểm
đến du lch ti Thái Lan. [49] cũng đã nghiên cu xây dng h thng OpinionSeer bng cách kết hp
phương pháp thống kê da trên ngôn ngcác k thut trc quan hóa d liệu để phân tích các phn hi
ca du khách v khách sn ti Hng Kông. [44] đã xây dựng h thng BESAHOT, bng cách thu thp d
liu t các trang web và da trên phương pháp phân tích thng kê ký t (n-grams) để phân loi ý kiến đánh
giá ca du khách v dch v khách sn. [15] đã trực quan hóa các kết qu phân tích ý kiến đánh giá trên
Google Maps, cung cp kh năng cho người dùng d dàng phát hin các khách sn và các khu vc tt nht
để chn . Tác gi đã sử dụng phương pháp máy học Naïve Bayesb t đin SentiWordNet chun. [42]
đã s dng k thut phân tích cảm xúc để khai thác 70.103 bài đánh giá được đăng trên các địa điểm trc
Khai thác ý
kiến (Opinion
Mining)
Phương pháp máy học
(Machine Learning
Approach)
Học có giám t
(Supervised learning)
Cây quyết định
(Decision Tree)
Phân loại tuyến tính
(Linear Classifiers)
Support Vector
Machines (SVM)
Neural Network (NN)
Phân loại dựa trên
luật (Rule-based
Classifiers)
Phân loại theo xác
suất (Probabilistic
Classifiers)
Naive Bayes (NB)
Bayesian Network
(BN)
Maximum Entropy
(ME)
Học không giám sát
(Unsupervised
learning)
Phương pháp từ vựng
(Lexicon-based
Approach)
Dựa trên từ điển
(Dictionary-based)
Dựa trên Corpus
(Corpus-based)
Thống kê (Statistical)
Ngữ nghĩa (Semantic)
178 H THNG H TR ĐÁNH GIÁ VÀ KHUYN NGH DCH V DU LCH DA TRÊN
KHAI THÁC Ý KIN KHÁCH HÀNG TRC TUYN
© 2020 Trường Đại hc Công nghip Thành ph H Chí Minh
tuyến khác nhau t năm 1999-2011 cho 86 khách sn Washington. Khai thác ý kiến được thc hin bng
phương pháp Naive Bayes kết hp vi nh kinh tế ng đã giúp họ phân các đánh giá của người
dùng thành 5 chiều để đo lường chất lượng dch v khách sn và kết qu phân tích cho thy mức độ chính
xác cao trong vic thu thập đo lường chất lượng dch v so vi c nghiên cứu khai thác văn bn hin
trước đó. [16] đã phát triển khung kiến trúc chung cho công c khai thác ý kiến da trên khía cạnh, sau đó
to mu th nghimphân tích ý kiến t TripAdvisor trong bi cnh ngành du lch Los Lagos (Chi Lê).
Nhóm tác gi s dụng phương pháp khai thác ý kiến theo khía cnh ca [8] da trên vic thng theo các
quy tc ngôn ng t nhiên và áp dụng cho lĩnh vực du lch. Kết qu cho thấy phương pháp này có độ chính
xác cao và hiu qu hơn hẳn. Tiếp đến, [10] đã đề xut mt h thng t động thu thp tng hp ý kiến
đánh giá khách sạn ca du khách trên trang web du lch TripAdvisor. Tác gi đã tận dng b t điển
SentiWordNet kết hp với phương pháp máy hc không giám sát (unsupervised learning) trong vic phân
loi ý kiến đánh giá. [26] đã xây dựng h thng phân loi ý kiến ca du khách trên TripAdvisor, bng
phương pháp máy học kết hp vi các thut toán logic m. Kết qu nghiên cu cho thấy phương pháp khai
thác ý kiến ca nhóm tác gi độ chính xác cao hơn các phương pháp truyền thng. [48] cũng đã nghiên
cu khai thác ý kiến bằng phương pháp LDA (latent dirichlet allocation). B d liệu được thu thp trên
TripAdvisor bao gồm 266.544 đánh giá trực tuyến cho 25.670 khách sn 16 quc gia. Kết qu nghiên cu
đã xác định 19 khía cnh dch v khách sn quan trng. [20] đã đề xut h thng t động khai thác ý kiến
ca du khách v các khách sn trên trang booking.com. Nhóm tác gi đã sử dụng phương pháp lai kết hp
gia LDA và Naïve Bayes. Kết qu nghiên cứu được đánh giá là rất đáng khích l và ch ra rng h thng
này khá nhanh, có th m rng và hu hết chính xác trong việc phân tích các đánh giá của khách hàng. [13]
cũng đã có nghiên cứu tiến hành phân tích ý kiến đánh gcủa người Nht v các điểm tham quan ti Trung
Quc bng cách s dụng phương pháp thống kê và tp lut, kết hp phương pháp trích chọn đặc trưng TF-
IDF. Kết qu nghiên cu cung cấp các hướng dn s dng thc tế trong vic phân tích ý kiến đánh giá du
lch ca Nht Bn và tạo điều kin ci thin dch v điểm đến du lch.
Trong nước cũng bắt đầu nhng nghiên cu s dụng phương pháp khai thác ý kiến. Điển hình là nghiên
cu ca [29], đã tiến hành thc nghim vic phân loi ý kiến bng các k thut máy hc: Naive Bayes,
Support Vector Machines (SVM) Maximum Entropy (ME), minh ha bng b d liu v các ý kiến bình
lun khách sn ti Vit Nam. Kế đến, [40] đã nghiên cu so sánh các thut toán phân loi ý kiến bng
tiếng Việt, cũng thực nghim da trên b d liu là các ý kiến v khách sn ti Vit Nam. Kết qu ca c
hai nghiên cu này cho thấy phương pháp SVM là tốt nht.
2.5 Nhận dạng các khoảng trống nghiên cứu
T kết qu c kho các công trình nghiên cu, mt s khong trng nghiên cứu được nhn dạng làm cơ
s để đề xut mô hình nghiên cu tng quát:
ng nghiên cu v h thng h tr ra quyết định trong lĩnh vực du lịch đã được cộng đồng các
nhà nghiên cu quan tâm rt nhiều, đa dạng v hình thc tiếp cn, c v công ngh ln ng dng
để h tr gii quyết nhiu vấn đề liên quan đến du lch. Tuy nhiên, gần như chưa nghiên cứu
nào trong và ngoài nước đề cập đến ng dng trong h tr đánh giá dch v du lch. Bên cạnh đó,
cũng có rất ít nghiên cu h thng h tr ra quyết định tiếp cn dựa trên phương pháp khai thác ý
kiến.
Phn ln các nghiên cu khai thác ý kiến trong du lch thường tiếp cận trên quan đim k thut tp
trung xây dng hoc áp dng các thut toán x ngôn ng t nhiên vào vic phân loi tng
hp ý kiến du khách, rt ít nghiên cu tiếp cận theo hướng hành vi để h tr các đối tượng người
dùng trong vic ra quyết định. Do đó, khai thác ý kiến ng dụng trong phân tích thái độ, s thích,
hành vi, quá trình ra quyết định chn dch v đánh giá chất lượng dch v du lch da trên d
liu ln là một hướng nghiên cu cần được m rộng hơn cho cộng đồng các nhà khoa hc ti Vit
Nam.
Trong lĩnh vực du lch, rt ít bng chng thc nghim cho thy nghiên cu thc hin khai
thác ý kiến đi vi ngôn ng tiếng Vit. Phải chăng khai thác ý kiến trên ngôn ng tiếng Vit
mt thách thức đối vi cộng đồngc nhà nghiên cu Vit Nam?.
Bi cnh nghiên cu ti Vit Nam gần như chưa nghiên cứu toàn din v h thng h tr
đánh giá khuyến ngh dch v du lch da trên thế mnh của phương pháp khai thác ý
H THNG H TR ĐÁNH GIÁ VÀ KHUYN NGH DCH V DU LCH DA TRÊN 179
KHAI THÁC Ý KIN KHÁCH HÀNG TRC TUYN
© 2020 Trường Đại hc Công nghip Thành ph H Chí Minh
kiến khách hàng trc tuyến. Đây cũng chính là khoảng trng ln nht mc tiêu ca nghiên
cu này hướng đến nghiên cu xây dng h thng này.
2.6 Mô hình nghiên cứu đề xuất
Xut phát t cơ sở thuyết, các công trình nghiên cu liên quan và các khong trng nghiên cứu đã được
nhn dng, mô hình nghiên cu tổng quát được đề xuất như hình sau:
Hình 2: Mô hình nghiên cứu tổng quát
3 PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu này được tiến hành theo phương pháp khai thác d liu theo chun công nghip CRISP-DM
(Cross Industry Standard Process for Data Mining). Quy trình gồm các bước: (1) Thu thp d liu và Tin
x lý d liu, (2) Hun luyn các mô hình và d báo phân loi ý kiến, (3) Xếp hng dch v da trên tng
hp ý kiến, và (4) Hun luyn áp dng hình khuyến ngh dch vụ. Môi trường thc nghim nghiên
cứu được cài đặt bng ngôn ng lp trình Python vi s h tr ca công c tách t Python Vietnamese
Toolkit (dành cho ngôn ng tiếng Việt) và các thư viện có sn.
D liu bình lun trên
trang mng
Ra quyết định
Phân tích, đánh giá, lựa chọn
Thu thập thông tin
Xác định vấn đề
Thu thập ý kiến
Tổng hợp và phân tích ý kiến
Đánh giá và khuyến nghị
dịch vụ
Quá trình ra quyết định
Kỹ thuật phân tích
Kết quả phân tích
Công cụ thu thập
Xác định nguồn
dữ liệu
Phân hệ
thu thập
Giao diện
người dùng
Phân hệ
phân tích
Phương pháp khai thác ý kiến