TNU Journal of Science and Technology
227(02): 27 - 34
http://jst.tnu.edu.vn 27 Email: jst@tnu.edu.vn
BUILDING A RESTAURANT ASSESSMENT SYSTEM
IN THUA THIEN HUE PROVINCE BASED ON ONLINE COMMENTS
Le Van Hoa*
School of Hospitality and Tourism Hue University
ARTICLE INFO
ABSTRACT
Received:
22/11/2021
Vietnamese opinion mining systems are based on the lexicon-based
approach using the VietSentiWordNet dictionary. However, this data
dictionary applies to the news domain, so when used to classify in the
tourism domain, it will be ineffective and easy to cause confusion.
The objective of this paper is to build a restaurant assessment system
with high classification efficiency in the tourism domain. To build the
system, we use lexicon-based approach to opinion mining combined
with the Vietnamese opinion dictionary in the tourism domain
VietSentiWordNetPlus. In addition, we also apply data preprocessing
techniques to the comments to increase the semantics of the
sentences. The experimental results showed that, our system gave
better opinion classification results, with average accuracy, precision,
recall and F-score 84.64%; 76.39%; 81.12%; 78.15% versus 71.76%;
63.64%; 68.72%; 63.82% of the system uses the VietSentiWordNet
dictionary. Our system is highly effective when classifying opinion
with data sources in the tourism domain such as restaurants, hotels,
tourist attractions.
Revised:
10/01/2022
Published:
11/02/2022
KEYWORDS
Opinion mining
Online comments
Dictionary
Data preprocessing
Tourism domain
XÂY DNG H THỐNG ĐÁNH GIÁ NHÀ HÀNG TRÊN ĐỊA BÀN
TNH THA THIÊN HU DA VÀO CÁC BÌNH LUN TRC TUYN
Lê Văn Hòa
Trường Du lch ĐH Huế
TÓM TT
Ngày nhn bài:
22/11/2021
Các h thống khai phá quan điểm tiếng Vit da trên phương pháp từ
vựng thông thường s dng b t đin VietSentiWordNet. Tuy
nhiên, b t đin d liu này áp dng cho min tin tc nên khi s
dụng để phân lớp trong lĩnh vực du lch s đạt hiu qu không cao
d gây nhm ln. Mc tiêu ca bài báo này nhm xây dng h thng
đánh giá nhà hàng đạt hiu qu phân lớp cao trong lĩnh vc du lch.
Để xây dng h thng, chúng tôi s dụng phương pháp khai phá quan
đim da trên t vng kết hp vi b t điển quan điểm tiếng Vit
thuộc lĩnh vực du lch VietSentiWordNetPlus. Ngoài ra, chúng i
còn áp dng các k thut tin x d liu cho các câu bình luận để
tăng ngữ nghĩa cho câu. Kết qu thc nghim cho thy, h thng ca
chúng tôi đã cho kết qu phân lớp quan điểm tốt hơn, với trung bình
độ chính xác tng quát, đ chính xác, độ đầy đ độ đầy đủ điu
hòa lần lượt 84,64%; 76,39%; 81,12%; 78,15% so vi 71,76%;
63,64%; 68,72%; 63,82% ca h thng s dng b t đin
VietSentiWordNet. H thng ca chúng tôi đạt hiu qu cao khi phân
lớp quan điểm vi ngun d liu thuc lĩnh vực du lịch như: nhà
hàng, khách sạn, điểm du lch.
Ngày hoàn thin:
10/01/2022
Ngày đăng:
11/02/2022
DOI: https://doi.org/10.34238/tnu-jst.5281
Email: levanhoa84@hueuni.edu.vn
TNU Journal of Science and Technology
227(02): 27 - 34
http://jst.tnu.edu.vn 28 Email: jst@tnu.edu.vn
1. Gii thiu
Mi khách hàng có nhu cu la chn cho mình mt nhà hàng khác nhau tùy theo mục đích tới
nhà hàng, s thích v món ăn, giá cả, không gian cách phc v. dụ, để t chc tic sinh
nhật, khách hàng thường quan tâm đến các nhà hàng không gian đẹp, bãi đậu xe; hoc khách
hàng thích ăn hải sản thì quan tâm đến các nhà hàng có các món ăn hi sản tươi ngon. Ngày nay,
khi lượng đánh giá của khách hàng tăng nhanh trên các trang web đánh giá trực tuyến, điều này
va mang li nhng thun lợi nhưng cũng tạo ra nhng thách thc khách hàng s mt nhiu
thời gian để tìm kiếm và thu thp thông tin hữu ích theo các đặc trưng khác nhau của nhà hàng t
rt nhiều đánh giá trc tuyến nhằm đưa ra quyết định la chọn nhà hàng. Ngoài ra, thông tin đánh
giá v nhà hàng có th b sai lch nếu ch phân tích mt s đánh giá hoặc ch phân tích đánh giá ở
duy nht mt ngun d liu. Hin nay, các h thống đánh giá, tư vấn trong các website nhà hàng
ch nhm mục đích đánh giá so sánh giữa các nhà hàng hay món ăn dựa vào điểm s đánh giá
hoc da vào vic xếp hng có gn sao. Bởi vì, các website này chưa quan tâm đến việc đánh giá
so sánh da vào các bình lun trc tuyến của khách hàng. Trong khi đó, các bình lun trc
tuyến mt trong những thông tin đ tin cy cao ảnh hưởng rt lớn đến quyết định la
chn nhà hàng ca khách hàng. Khi mọi người có ý định chn nhà hàng, h s kiểm tra các đánh
giá hoc xếp hng ca các nhà hàng đó trên các trang web trc tuyến như Foody.vn,
Tripadvisor.com.vn,... trước khi chn chúng. Mọi người s chn nhà hàng da trên nhng cm
nhn tích cực trong các đánh giá v nó [1].
Vi s bùng n ca d liu ln (big data) công ngh Internet kết ni vn vt (Internet of
Things), các ý kiến đánh giá trc tuyến ca khách hàng cần được thu thp, khai thác và tng hp
mt cách t động bng các h thng máy tính, cho phép các nhà kinh doanh th d dàng theo
dõi hành vi mua sm, phát hin s thích đánh giá s hài lòng ca khách hàng v chất lượng
sn phm, dch v [2]. Đồng thời, khách hàng cũng cần thông tin tng hp ý kiến đánh giá của
cộng đồng đểnhng quyết định mua sm ca mình. Chính vì thế, khai quá quan điểm t động
đã trở thành tiêu điểm ca rt nhiu nghiên cứu trong các lĩnh vc khác nhau [3]. Trong nhng
năm gần đây, khai phá quan đim da trên t vng một hướng nghiên cứu đang đưc nhiu
nhà khoa hc quan tâm [4]-[6]. Trong đó, nghiên cứu [4] đã sử dng t điển VietSentiWordNet
để xây dng h thống đánh giá điểm du lịch trên địa bàn tnh Tha Thiên Huế da vào bình lun
của người dùng facebook. Tuy nhiên, do chính sách ca facebook nên tác gi s dng ngun d
liu là các fanpage do chính tác gi xây dng, do đó độ tin cy v d liu thu thập chưa cao. Một
nghiên cu khác ca Cristian [5] đã xây dựng h thống khai phá quan điểm để trích xuất các đánh
giá t Internet và phân loi chúng da vào t điển SentiWordNet. Ngoài ra, Vibha và cng s [6]
s dụng phương pháp từ vng da vào t điển SentiWordNet để tìm ra khía cnh tích cc và tiêu
cc ca sn phm điện thoi di động trên website Amazon.com.
Trong bài báo này, chúng tôi tp trung vào vic xây dng h thống khai phá quan điểm da
vào phương pháp t vng áp dng cho min d liu nhà hàng vi ngun d liu các bình lun
trc tuyến ch yếu trên hai trang Foody.vn Tripadvisor.com.vn. Trong quá trình thiết kế
hình h thống, chúng tôi đã sử dụng phương pháp từ vng kết hp vi b t điển quan điểm tiếng
Vit VietSentiWordNetPlus [7] đưc m rng t b t điển VietSentiWordNet của Vũ Xuân Sơn
cng s [8] vi nhiu b sung liên quan đến các t th hiện quan điểm, cm xúc thuộc lĩnh
vc du lch. Ngoài ra, trong hình này, chúng tôi cũng đã sử dng các k thut tin x d
liu nhm xây dng mt h thống khai phá quan điểm thc hin vic phân lớp quan điểm đạt hiu
qu cao.
2. Nghiên cu liên quan
Đã có một s nghiên cứu liên quan đến h thống khai phá quan điểm trong lĩnh vực nhà hàng.
C th, nghiên cu [9] cho rng, đánh giá của khách hàng v nhà hàng đóng một vai trò quan
trng trong quá trình ra quyết đnh. Khi khách hàng quyết định mt nhà hàng, khía cnh quan
TNU Journal of Science and Technology
227(02): 27 - 34
http://jst.tnu.edu.vn 29 Email: jst@tnu.edu.vn
trng nht mà h xem xét là loi thức ăn mà nhà hàng phc v, chất lượng của món ăn. Ngoài ra,
nhóm tác gi đã phát trin mt quy trình tng th v xếp hng nhà hàng da vào khai phá quan
điểm bng cách s dng thut toán cây quyết định. Tuy nhiên, nhóm tác gi ch quan tâm đến d
liu xếp hạng nhà hàng nhưng chưa quan tâm đến các bình lun tích cc, tiêu cc theo tng khía
cnh. Ngoài ra, nghiên cu này da trên mt ngun d liệu được trích xut t tp d liu xếp
hng nhà hàng Kaggle nên hn chế v d liu nghiên cứu. Trong khi đó, nghiên cu [1] đã thực
hin việc khai phá quan điểm da trên khía cnh s dụng các đánh giá trực tuyến ca khách hàng
v các nhà hàng Indonesia. Các khía cạnh được phân loi tích cc nếu đánh giá đề cập đến
các cm t tích cực như: ngon, sch, rxut sc. Các khía cạnh được phân loi là tiêu cc nếu
đánh giá đề cập đến các cm t tiêu cực như: xấu, đắt, bn chm. H thng da vào các bình
lun v nhà hàng để phân các câu quan điểm thành 3 lp (tích cc, tiêu cc, trung lp) theo các
khía cạnh (món ăn, giá cả, dch v môi trường xung quanh,…). Tuy nhiên, hệ thng s dng
tp d liu vi các ngôn ng trn ln, điều này d gây nhm ln cho hình phân lp quan
điểm. Ngoài ra, nghiên cu [10] đã đề xut mt h thống để so sánh các sn phm, thc hin các
khuyến ngh cho khách hàng và đưa ra kết qu trc quan. Mọi người có th so sánh các sn phm
cấp độ nh năng để giúp khách hàng đưa ra quyết định sáng sut. Hơn nữa, khách hàng th
thấy rõ điểm mạnh đim yếu ca tng sn phm thông qua so sánh. Tuy nhiên, bài báo ch
quan tâm đến xếp hng theo từng đặc trưng của sn phẩm mà chưa quan tâm đến yếu t tích cc,
tiêu cc và các câu bình luận liên quan đến các sn phm.
trong nước, nghiên cu [11] đề xuất phương pháp khai thác ý kiến phân tích cm xúc
khách hàng thông qua vic thu thp tp d liu ý kiến bình lun ca khách hàng trên website
Foody.vn - một trang thương mại đin t hàng đầu trong lĩnh vực dch v đặt hàng trc tuyến.
Nhóm tác gi đã tiến hành thc nghim bằng phương pháp học máy để khai phá ý kiến t bình
lun dạng văn bản ca khách hàng trc quan hóa kết qu h tr ra quyết định. Kết qu thc
nghim cho thấy độ chính xác 90% của phương pháp đề xut kết qu khai phá được tp thông
tin, tri thc tim n giá tr t tp ng liu nhm giúp các ca hàng, nhà qun tr hiểu được các
ưu nhược điểm v sn phm, dch v để ci thin chiến lược kinh doanh tốt hơn. Tuy nhiên,
nhóm tác gi chưa xử biểu tượng cảm xúc, đây một trong nhng yếu t th quyết định
kh năng phân loại quan điểm ca h thng. Mt hn chế khác, nhóm tác gi ch thu thp d liu
t website Foody.vn nên b gii hn v d liu nghiên cu. Ngoài ra, nghiên cu [12] trình bày
một phương pháp phân tích quan điểm người dùng da trên các nhn xét nhân. Bài báo này
tp trung vào gii quyết ba nhim v của bài toán phân tích quan điểm: nhn dng và trích rút ni
dung theo tng khía cnh; khám phá việc người dùng xếp hng trên tng khía cạnh đối vi sn
phm; d đoán trọng s xếp hng ca các khía cnh trong mi nhn xét. Kết qu thc nghim
trên ba b d liu phê, bia, khách sn cho thấy độ chính xác của phương pháp đề xut khá
tt cho c bài toán trích rút khía cạnh cũng như cho bài toán dự đoán xếp hng khía cnh. Tuy
nhiên, nhóm tác gi chưa quan tâm đến các nhn xét tích cc, tiêu cc mà ch quan tâm đến trng
s xếp hng ca các khía cnh.
3. hình h thống khai phá quan điểm dựa vào phương pháp từ vng áp dng cho min
d liu thuc lĩnh vực nhà hàng
Hình 1 t hình ca h thống khai phá quan điểm dựa vào phương pháp từ vng áp
dng cho min d liu thuộc lĩnh vực nhà hàng. Mô hình bao gồm 4 giai đon thc hiện như sau:
(1) Chun b d liu (2) Tin x d liu (3) Phân lớp quan điểm (4) Phân lớp đặc trưng cho
câu quan điểm.
3.1. Giai đoạn 1: Chun b d liu
Để thu thp d liu t các trang đánh giá trực tuyến, chúng tôi s dng b thư viện Python. B
thư viện này cho phép thu thập các đánh giá trực tuyến theo từng nhà hàng. Sau khi đã thu thập
được các bình lun v nhà hàng, chúng tôi da vào công c JvnTextPro để thc hiện tách câu đối
TNU Journal of Science and Technology
227(02): 27 - 34
http://jst.tnu.edu.vn 30 Email: jst@tnu.edu.vn
vi nhng bình lun có nhiều hơn 2 câu. Công cụ JvnTextPro được s dng rt hiu qu để x
văn bản tiếng Vit trên nn tng Java vi thut toán Conditional Random Fields Maximum
Entropy [13].
Hình 1. Mô hình h thống khai phá quan điểm s dng phương pháp dựa vào t vng
3.2. Giai đoạn 2: Tin x lý d liu
D liệu đầu vào của giai đoạn này c câu bình luận đã thu thập được. Để tăng ngữ nghĩa
cho các câu bình lun, chúng tôi tiến hành thêm dấu cho câu đối vi các câu tiếng Vit không
du. Bài toán thêm dấu được đưa về bài toán dch máy, trong đó ngôn ngữ ngun tiếng Vit
không du ngôn ng đích tiếng Vit du. Bài toán dch máy c th Sequence-to-
Sequence Learning vi kiến trúc Encoder-Decoder đạt hiu qu cao khi s dng hình
Transformer [14]. Trong giai đoạn này, chúng tôi còn tiến hành chun hóa d liu tiếng Vit s
dng các k thut trong biu thức chính quy (Regular Expression). Trường hp th nht: chun
hóa láy âm tiết (đối vi nhng t th hin cảm xúc đc bit), d: câu bình lun Hi sn
ngonnn quá điiiiiiii!!!!!!!!” s được chuẩn hóa thành Hi sản ngon quá đi!” hoặc “Món ăn quá
tuyt viiiiiiiis được chun hóa thành Món ăn quá tuyt vi”. Trường hp th hai: chun hóa
ch viết tt, h thng thc hin vic thay thế các t như: “ko”, “khong” thành t “không” hoc
TNU Journal of Science and Technology
227(02): 27 - 34
http://jst.tnu.edu.vn 31 Email: jst@tnu.edu.vn
“đc”, “dc” thành t “được” hay “ok”, “nice”, “good” thành t “tốt” để nâng cao hiu qu xác
định hướng quan điểm cho các câu bình lun. Ngoài ra, chúng tôi da vào công c Demojize
trong ngôn ng lập trình Python để x biểu tượng cm xúc bng cách chuyn các biểu tượng
cảm xúc này thành văn bản.
3.3. Giai đoạn 3: Phân lớp quan đim
D liệu đầu vào của giai đon này là các câu bình luận đã qua xử lý, chun hóa. Chúng tôi da
vào công c ViTokenizer đ thc hin tách t trong câu. Công c ViTokenizer s dng thut toán
Conditional Random Field với độ chính xác tách t tiếng Việt hơn 97,86%. Công việc tiếp theo
ca giai đoạn này xác định hướng quan điểm ca câu, chúng tôi s dụng phương pháp từ vng
kết hp vi t đin VietSentiWordnetPlus thuộc lĩnh vực du lch. T đin VietSentiWordNetPlus
[7] được m rng t b t điển VietSentiWordNet của Xuân Sơn cộng s [8] vi vic b
sung hơn 1.710 từ th hiện quan đim, cm xúc thuộc lĩnh vực du lch. T điển
VietSentiWordNet của Xuân Sơn áp dụng cho min tin tc nên khi áp dụng vào lĩnh vực du
lịch để phân lớp quan điểm s gây ra hiu nhầm cũng như không phát hiện ra mt s t quan
điểm thuộc lĩnh vực du lch, dẫn đến kết qu phân lp không chính xác. Trong hình này,
chúng tôi s dng t điển VietSentiWordnetPlus nên đã ci thiện được kh năng phân lớp quan
điểm ca h thng.
3.4. Giai đoạn 4: Phân lớp đặc trưng cho câu quan đim
Để thc hin vic phân lớp đặc trưng cho các câu quan điểm, chúng tôi xây dng b t đin
các đặc trưng về nhà hàng. Các đặc trưng này chủ yếu được tham kho t nghiên cu ca Nurifan
và cng s [15], cu trúc và ni dung b t điển các đặc trưng nhà hàng được minh họa như trong
Bng 1. Da vào b t điển các đặc trưng nhà hàng, chúng tôi có thể phân lớp các câu quan điểm
vào từng đặc trưng của nhà hàng.
Bng 1. Cu trúc và ni dung b t điển các đặc trưng nhà hàng
TT
Mã đặc trưng
Tên đặc trưng
Các thuộc tính đi kèm
1
Nha_hang
Nhà hàng
Thuc tính chung, cht lượng, giá c, kiu
2
Khong_gian
Không gian
Thuc tính chung
3
Vi_tri
V trí
Thuc tính chung
4
Do_an
Đồ ăn
Chất lượng, giá c, kiu
5
Phuc_vu
Phc v
Thuc tính chung, cht lượng
6
Do_uong
Đồ ung
Chất lượng, giá c, kiu
4. Thc nghim và phân tích kết qu
Trong thc nghim, rt nhiều độ đo được s dụng để đánh giá hiệu sut ca b phân loi.
Trong đó, bốn độ đo được s dng rng rãi bao gm: Accuracy, Precision, Recall F1-score
[16]. Ngoài ra, ma trn Confusion là mt công c rt hu ích giúp phân tích mức độ hiu qu
b phân loi th phân loi các mu d liu ca các lp khác nhau. d v các tham s ca
ma trận Confusion đối vi hai lp tích cc, tiêu cc được minh họa như trong Bảng 2.
Bng 2. Ma trận Confusion đối vi hai lp tích cc, tiêu cc
Mu d liu thc tế
Tích cc (Positive)
Tu cc (Negative)
B phân loi
Tích cc (Positive)
True Positive (TP)
False Positive (FP)
Tu cc (Negative)
False Negative (FN)
True Negative (TN)
Ý nghĩa các tham s trong ma trận Confusion đối vi hai lp tích cc, tiêu cc:
- True Positive (TP): S mu ca lớp Positive được b phân loi d đoán chính xác Positive.
- True Negative (TN): S mu ca lp Negative được b phân loi d đoán chính xác Negative.
- False Positive (FP): S mu ca lp Negative b b phân loi d đoán nhm thành Positive.
- False Negative (FN): S mu ca lp Positive b b phân loi d đoán nhầm thành Negative.