542
ỨNG DỤNG KHAI PHÁ VĂN BẢN ĐỂ PHÂN TÍCH
DỮ LIỆU TRUYỀN MIỆNG TRỰC TUYẾN TRONG DU LỊCH
Nguyễn Cao Hoài Phương1, Hồ Như Ngọc2
1. Ban Đề Án Chuyển Đổi Số, Trường Đại học Thủ Dầu Một
2. Khoa Công Nghiệp Văn Hóa, Trường Đại học Thủ Dầu Một
TÓM TẮT
Nghiên cứu về sự hài lòng của khách hàng một phần quan trọng để giúp các cơ sở cho
thuê dịch vụ lưu trú cải thiện nâng chất lượng dịch vụ của họ. Tuy nhiên, các nghiên cứu
quan tâm đến nguồn dữ liệu truyền miệng trực tuyến từ các trang web cung cấp dịch vụ lưu trú
thường thu thập dữ liệu trong vài tháng, hoặc vài năm. Chính thế, mục tiêu của nghiên cứu
này dùng phương pháp phân tích sắc thái cảm xúc ttập dữ liệu truyền miệng trực truyến từ
năm 2009 đến 2023, bằng cách sử dụng các thu viện Pyhon như Spacy đrút trích các khía
cạnh, TextBlob để xác định sắc thái tiêu cực hay tích cực, và matplotlib để hiển thị dữ liệu dưới
dạng biểu đồ. Đầu tiên, thu thập dữ liệu tiền xử chúng. Sau đó, chúng tôi tiến hành rút
trích các khía cạnh, xác định khía cạnh đó đang được nhận xét tiêu cực hay tích cực, và vbiểu
đồ. Cuối cùng, dựa trên các biểu đồ chúng tôi nhận thấy rằng mặc các cở sở lưu trú chăm
sóc khách hàng khá tốt với 95% đáng giá tích cực, tuy nhiên 5% đánh giá tiêu cực tập trung
vào các khía cạnh quan trọng như “hotel”, “room”, “staff”, “service”, “food”, xu thế du lịch
của du khách tăng theo hàng năm, ngoại trừ thời gian bùng phát dịch Covid-19 cần phải rút
kinh nghiệm. Đồng thời, nghiên cứu cũng có một số khuyến nghị các khía cạnh được đánh giá
tích cực và tiêu cực dựa trên đám mây từ vựng.
Từ khóa: khai phá dữ liệu văn bản, phân tích sắc thái cảm xúc, truyền miệng trực tuyến.
1. GIỚI THIỆU
Những năm gần đây, có nhiều nghiên cứu liên quan đến du lịch đặt biệt xem xét đến
truyền miệng điện tử (Balan & Mathew, 2015), truyền miệng trực tuyến (Alam, Ryu, & Lee,
2016) (Wang, Lu, & Zhai, 2011) (Hall, et al., 2022) (Guttentag, 2019). Hay nội dung của đánh
giá của người dùng trên các trang đặt phòng trực tuyến được xem tuyền miệng trực tuyến
(Andreu, Bigne, Amaro, & Palomo, 2020) (Cheng & Foley, 2019) (Dolnicar & Zare, 2020)
(Quattrone, Proserpio, Quercia, Capra, & Musolesi, 2016) (Zervas, Proserpio, & Byers, 2020).
Tuy nhiên, dữ liệu phân tích của các nghiên cứu này được thu thập trong một khoản thời gian
ngắn, hay phần nhiều phát triển thuật toán (Ravanifard, Buntine, & Mirzaei, 2020) (Wang,
Lu, & Zhai, 2011)(Alam, Ryu, & Lee, 2016) (Wang, Lu, & Zhai, 2011) (Balan & Mathew,
2015). Chính thế, cần có một nghiên cứu trên một tập dữ liệu được thu thập trong một thời
gian dài nhằm xem xét sự thay đổi sắc thái của các khía cạnh trong nhận xét của du khách bằng
cách xem xét các mối quan hệ giữac khía cạnh tích cực tiêu cực, mức độ tương quan
giữa các đánh giá khía cạnh này theo thời gian.
Với sự phát triển nhanh của công nghthông tin cộng với sự hình thành của nền kinh tế
chia sẻ (Belk, 2014) thì truyền miệng trực tuyến cũng góp phần ảnh hưởng lớn đến quyết định
của du khách (Hall, et al., 2022) (Nguyen & Tong, 2023). Tuy nhiên, dữ liệu các đánh giá trực
543
tuyến đăng tải công khai trên trang Inside Airbnb cần được xem xét (Alsudais, 2021) (Guttentag,
2019), trong đó các tác giả (Alsudais, 2021) đã chỉ ra một số ít sai sót trong dữ liệu được công
bố trên, còn nhóm của (Guttentag, 2019) cho thấy rằng các tập dữ đăng tải có giá trị nghiên cứu
bằng chứng 132 i báo được đăng tải trên các tập chí chuyên ngành phản biện nội
dung. Bên cạnh đó, trang TripAdvisor.com cũng nguồn cung cấp dữ liệu đánh giá, các nhà
nghiên cứu sử dụng một số công cụ để thu thập dữ liệu (Alam, Ryu, & Lee, 2016) (Ravanifard,
Buntine, & Mirzaei, 2020) (Zervas, Proserpio, & Byers, 2020), tuy nghiên các tác giả ít khi
công cố dữ liệu, ngoại trừ (Ravanifard, Buntine, & Mirzaei, 2020).
Chính thế, trong phân còn lại trong bài viết này được trình bày như sau: với phần 2
được trình bày các nghiên cứu liên quan, trong khi các bước phân tích sắc thái cảm xúc phần 3.
Phần 4 chúng tôi dành đgiới thiệu phương pháp nghiên cứu các bước tiền xử dữ liu
được trình bày trong phần 5. Phần 6 trình bày phân tích dliệu, trong đó các kết quả, tho
luận của quá trình nghiên cứu được trình bày trong phần 7. Cuối cùng, chúng tôi tổng kết lại
các công việc đã thực hiện và đề xuất công việc trong tương lại được trình bày trong phần 8.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Đứng trước nền kinh tế gặp nhiều khó khăn thời kỳ hậu covid-19 thì số cơ hội thách
thức được đưa ra cho du khách, chủ nhà, cơ sở lưu trú quan quản lý, do đó rất cần có các
nghiên cứu liên quan về phân tích dữ liu (Guttentag, 2019), tiếp thị (Nguyen & Tong, 2023), pháp
luật, chính sách công (Ngoc & Omar, 2022), ng nghệ thông tin (Phuong, 2022). Cnh thế,
nghiên cứu phản hi của khách hàng đang dần trở thành cốt lõi của bất kỳ ngành nào mong mun
cải thiện hoạt động liên tục (Alam, Ryu, & Lee, 2016) (Andreu, Bigne, Amaro, & Palomo, 2020)
(Dolnicar & Zare, 2020) (Hall, et al., 2022) (Phuong, 2022) (Zervas, Proserpio, & Byers, 2020).
Một ngữ cảnh lý thuyết về nền kinh tế được chia sẻ bởi (Belk, 2014). Trong đó tập dữ liu
được chia sẻ quan trọng, nhiều nghiên cứu tập trung thu thập dữ liệu trên nền tảng Inside Airbnb
(Guttentag, 2019) (Zervas, Proserpio, & Byers, 2020) bởi được ng khai được công
nhận trên tác tập chí ưu tín (Guttentag, 2019). Hoặc trên nền tảng TripAdvisor cũng được nhiều
nhà nghiên cứu (Wang, Lu, & Zhai, 2011) (Alam, Ryu, & Lee, 2016) thu thập dữ liu, tuy nhiên
tập dliu họ ít khi công bố chúng, chỉ có (Wang, Lu, & Zhai, 2011) là có công bố dữ liệu.
Trong các nghiên cứu gần đây, phân tích sắc thái dựa trên khía cạnh được nhiều tác gi
quan tâm. Trong đó, nghiên cứu của nhóm tác gi(Christanto & Singgalen, 2022) hay tác giả
(Dina, 2020) sdụng ng cụ Rapidminer tiền xử dữ liệu thực nghiệm hình. Trong
khi tác giả (Dina, 2020) sử dụng công cụ mã nguồn mở Weka và Knime để thực hiện xử lý dữ
liệu, sau đó dùng thư viện R và Python để phân tích. Trong nghiên cứu này, chúng tôi sử dụng
các công cụ như: Các thư viện Python htrợ xử lý văn bản như Spacy1, NLTK2, TextBlob3, có
thxử lý, phân tích khối lượng lớn văn bản, thư viện Matplotlib dùng để trực quan hóa d
liệu để có cái nhìn tổng quan hơn.
3. PHÂN TÍCH SẮC THÁI CẢM XÚC
Phân tích sắc thái cảm xúc lĩnh vực nghiên cứu về các trạng thái cảm xúc con người
hay quan điểm của con người (Liu, 2012), trường hợp của nghiên cứu này phân tích sc
thái cảm xúc tích cực hoặc tiêu cực của các nhận xét trực tuyến nhằm mục đích xác định các
1 https://spacy.io/models
2 https://www.nltk.org/
3 https://textblob.readthedocs.io/en/dev/
544
mối quan hệ giữa chúng. Trong trường hợp của nghiên cứu này, việc rút ra cảm nhận ch cực
tiêu cực về các yếu tố hay khía cạnh cần thiết, chung nhất giúp các cơ sở lưu trú và nhà cung
cấp dịch vụ có được sự chuẩn bị về mặt cải tiến hoạt động, xây dựng chiến lược mang lại chất
ợng tốt, và tạo nên sức cạnh tranh bền vững.
4. PHƯƠNG PHÁP NGHIÊN CỨU
Phần này giới thiệu phương pháp nghiên cứu gồm các công việc thực hiện như hình 1,
đầu tiên tập dữ liệu được thu thập trên TripAdvisor, Airbnb, sau đó dliệu được tiền xử
trước khi tiến hành rút trích các khía cạnh. Phân tích sắc thái cảm xúc là tìm ra các khía cạnh
được gán các sắc thái như tích cực hay tiêu cực dựa trên các nhận xét đã được xử lý. Sau đó,
thống các khía cạnh đầu danh sách xem xét các mới quan hệ, tương quan giữa chúng
bằng cách trực quan hóa dữ liệu.
Hình 1. Quá trình thực hiện phương pháp nghiên cứu
4.1. Tập dữ liệu
Chúng tôi sử dụng 2 bộ dữ liệu được thu thập trên các nền tảng TripAdvisor.com
Airbnb.com sử dụng ngôn ngữ Tiếng Anh, với kích thước gần bằng nhau, tuy nhiên ở các thời
gian khác nhau được ghi trong Bảng 1.
Bảng 1. Thông tin tập dữ liệu thu thập từ TripAdvisor và Airbnb
Tên tập dữ liệu
Nguồn
Thời gian
Số ợng nhận xét
Tập dữ liệu 1
TripAdvisor
Từ ngày 14/02/2009 đến ngày
15/03/2009
20491
Tập dữ liệu 2
Airbnb
Từ ngày 04/05/2011 đến ngày
27/12/2023
36894
TripAdvisor (Wang, Lu, & Zhai, 2011): tập dữ liệu này được thu thập từ TripAdvisor bao
gồm các đánh giá về các cơ sở cho thuê dịch vụ lưu trú.
Airbnb (Airbnb, 2024): tập dữ liệu này thể hiện các đánh giá chủ nhà tại Singpore từ năm
04/05/2011 đến 27/12/2023 được thu thập từ Airbnb. Chính thời gian này có sự xuất hiện của
đại dịch Covid-19 cho nên Chúng tôi thực hiện chia tập dư liệu thành 3 phần:
- Phần đầu tiên (tp d liu 2.1), t ngày 04/05/2011 đến ngày 23/03/2020, khi mi
hoạt động du lch din ra bình thường, chúng tôi dùng tp d liu này tìm hiểu xu hướng cm
nhn của du khách, đồng thi so sánh vi tp d liu chun (tp d liu 1).
- Phn th hai (tp d liu 2.2), t ngày 24/03/2020 đến ngày 13/02/2022 (Wei, 2020)
khi chính ph Singapore thc hin lệnh đóng cửa biên gii bởi đại dch Covid-19 bùng phát
mnh m, vi tp d liu này chúng tôi thc hiện phân tích để phát hin nhng khía cnh tích
cc và khía cnh tiêu cc các ch nhà đã gặp phi.
Các đánh giá của du
khách
Tập dữ liệu
Loại bỏ các liên kết
Loại bỏ dấu câu
Loại bỏ số
Stop word
...
Tiền xử lý dữ
liệu Rút trích khía cạnh
Phân tích sắc thái
Phân tích
Thống kê Sắc thái
Khía cạnh: sắc thái
Đám mây từ vựng
Trực quan hóa
545
- Phn th ba (tp d liu 2.3), t ngày 14/02/2020 (Yufeng, 2022) khi chính ph
Singapore bắt đầu m ca biên giới đến ngày 27/12/2023, t phân tích tp d liệu để nhn thy
s thay đổi cm nhn ca du khách sau khi tri qua một giai đoạn khó khăn nhất.
4.2. Tiền xử lý dữ liệu
Văn bản loại dữ liệu không cấu trúc cho nên việc rút trích những thông tin trên cả
một tập dữ liệu lớn luôn một nhiệm vụ nghiên cứu. Chính vì thế, đrút trích được các khía
cạnh trong nghiên cứu này được chính xác tại bước tiền xử dliệu chúng tôi thực hiện hai
công việc. Thứ nhất, tập dữ liệu có các nhận xét được loại bỏ các liên kết, dấu câu, stop word,
các hiệu, Thứ hai, sử dụng công cụ NLTK trong thư viện Python để thực hiện tách từ
bằng chức năng tockenizer và chuyển thành dạng từ gốc bằng chức năng Lemmatizer.
4.3. Phân tích
Sau dữ liệu được tiền xử lý, tất cả các tập dữ liệu được lưu trữ trên tập tin *.CSV, các khía
cạnh được rút trích lưu vào một cột bổ sung nhờ vào công cụ Spacy, sau đó nhờ vào công cụ
TextBlob xác định các sắc thái tích cực hay tiêu cực cho từng khía cạnh. Sau đó, chúng tôi kết
hợp chúng lại với nhau theo định dạng “khía cạnh: sắc thái”. Bước tiếp theo thống trên
tập dữ liệu dữ liệu các khía cạnh sắc thái thu được, chúng được lọc ra thành tập các khía
cạnh tích cực tập các khía cạnh tiêu cực. Cuối cùng, chúng tôi hiển thị dữ liệu từ kết quả
thống kê bằng công cụ Matplotlib và Word loud ở phần kết tiếp.
5. KẾT QUẢ VÀ THẢO LUẬN
Sau bước phân tích là kết quả thu được. Hình 2, cho chúng ta nhận xét ban đầu các đánh
tập trung nhận xét tích cực cho các cơ sở lưu trú (hình 2.b có 95% nhận xét tích cực (positive)
với số ợng lên đến hơn 1 triệu lượt hình 2.a).
a)
b)
Hình 2. Biểu đồ thể hiện các sắc thái trên tập dữ liệu đánh giá (a) biểu đồ hình cột thể hiện
số ợng, b) biểu đồ hình tròn thể hiện tỉ lệ)
Hình 2 cho ta kết quả tổng thể về số ợng và tỉ lệ các khía cạnh tích cực và tiêu cực, tuy
nhiên để đánh giá cụ thể các khía cạnh tích cực hoặc tiêu cực, ta xem hình 3.
95%
5%
positve
negative
546
a) Tích cực
b) Tiêu cực
Hình 3. Danh sách 20 khía cạnh có số ợng đánh giá cao nhất
(với a) Đánh giá tích cực, b) Đánh giá tiêu cc)
Hình 3, cho ta thấy danh sách 20 khía cạnh được đánh giá, trong đó hình 3a các khía cạnh
được đánh giá tích cực là “hotel”, “room”, “place”, ‘staff”, “food”, “service”, … các khía cạnh
này cần được các sở lưu trú phát huy tiếp tục những ưu điểm này. Tuy nhiên, hình 3b vẫn
còn khá nhiều nhận xét tiêu cực như “room”, “hotel”, “staff”, “service”, “food”, các khía
cạnh này mức độ ảnh hưởng khác nhau do đó các nhà cung cấp dịch vụ cần sắp xếp độ ưu
tiên cải thiện. Riêng khía cạnh “place” hoặc “Location” thì khó thể thay đổi bởi liên
quan rất nhiều đến trạng thái bất động sản nơi đó.
Như ở trên, chúng tôi đã khái quát tập dữ liệu sau khi được xử lý, nhưng để có hiểu biết
nhiều hơn sự ảnh hưởng của yếu tố đại dịch covid-19 chúng tôi thực hiện phân tích các giai
đoạn sau: 5.1 trước khi xuất hiện đại dịch covid-19, 5.2 trong khi đại dịch đang diễn ra, 5.3 giai
đoạn hậu Covid-19.
5.1. Giai đoạn trước khi xuất hiện đại dịch Covid-19
Theo báo cáo vnăng lực cạnh tranh du lịch lư hành năm 20194, ngành du lịch tăng
trưởng mạnh và cần được quan tâm để đầu tư. Điều này có thể được nhắc lại tại Hình 4 thhin
số ợng các sắc thái được đánh giá trên cả 2 tập dữ liệu.
4 Apo.org.au/node/257631
6259
6293
6357
7391
7573
7620
7671
9731
10282
10832
11067
11164
12620
12657
16509
20003
21527
40676
43044
0 10000 20000 30000 40000 50000
bed:positive
restaurants:positive
stay:positive
beach:positive
area:positive
pool:positive
people:positive
breakfast:positive
service:positive
day:positive
food:positive
night:positive
rooms:positive
time:positive
staff:positive
location:positive
place:positive
room:positive
hotel:positive
304
306
309
326
336
338
370
387
438
461
509
577
608
656
703
723
725
762
2524
2883
0 1000 2000 3000 4000
check:negative
experience:negative
floor:negative
breakfast:negative
location:negative
water:negative
desk:negative
bathroom:negative
bed:negative
people:negative
food:negative
day:negative
time:negative
place:negative
service:negative
night:negative
staff:negative
rooms:negative
hotel:negative
room:negative