intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng khai phá văn bản để phân tích dữ liệu truyền miệng trực tuyến trong du lịch

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:12

5
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của nghiên cứu này dùng phương pháp phân tích sắc thái cảm xúc từ tập dữ liệu truyền miệng trực truyến từ năm 2009 đến 2023, bằng cách sử dụng các thu viện Pyhon như Spacy để rút trích các khía cạnh, TextBlob để xác định sắc thái tiêu cực hay tích cực, và matplotlib để hiển thị dữ liệu dưới dạng biểu đồ.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng khai phá văn bản để phân tích dữ liệu truyền miệng trực tuyến trong du lịch

  1. ỨNG DỤNG KHAI PHÁ VĂN BẢN ĐỂ PHÂN TÍCH DỮ LIỆU TRUYỀN MIỆNG TRỰC TUYẾN TRONG DU LỊCH Nguyễn Cao Hoài Phương1, Hồ Như Ngọc2 1. Ban Đề Án Chuyển Đổi Số, Trường Đại học Thủ Dầu Một 2. Khoa Công Nghiệp Văn Hóa, Trường Đại học Thủ Dầu Một TÓM TẮT Nghiên cứu về sự hài lòng của khách hàng là một phần quan trọng để giúp các cơ sở cho thuê dịch vụ lưu trú cải thiện và nâng chất lượng dịch vụ của họ. Tuy nhiên, các nghiên cứu quan tâm đến nguồn dữ liệu truyền miệng trực tuyến từ các trang web cung cấp dịch vụ lưu trú thường thu thập dữ liệu trong vài tháng, hoặc vài năm. Chính vì thế, mục tiêu của nghiên cứu này dùng phương pháp phân tích sắc thái cảm xúc từ tập dữ liệu truyền miệng trực truyến từ năm 2009 đến 2023, bằng cách sử dụng các thu viện Pyhon như Spacy để rút trích các khía cạnh, TextBlob để xác định sắc thái tiêu cực hay tích cực, và matplotlib để hiển thị dữ liệu dưới dạng biểu đồ. Đầu tiên, thu thập dữ liệu và tiền xử lý chúng. Sau đó, chúng tôi tiến hành rút trích các khía cạnh, xác định khía cạnh đó đang được nhận xét tiêu cực hay tích cực, và vẽ biểu đồ. Cuối cùng, dựa trên các biểu đồ chúng tôi nhận thấy rằng mặc dù các cở sở lưu trú chăm sóc khách hàng khá tốt với 95% đáng giá tích cực, tuy nhiên 5% đánh giá tiêu cực tập trung vào các khía cạnh quan trọng như “hotel”, “room”, “staff”, “service”, “food”, xu thế du lịch của du khách tăng theo hàng năm, ngoại trừ thời gian bùng phát dịch Covid-19 cần phải rút kinh nghiệm. Đồng thời, nghiên cứu cũng có một số khuyến nghị các khía cạnh được đánh giá tích cực và tiêu cực dựa trên đám mây từ vựng. Từ khóa: khai phá dữ liệu văn bản, phân tích sắc thái cảm xúc, truyền miệng trực tuyến. 1. GIỚI THIỆU Những năm gần đây, có nhiều nghiên cứu liên quan đến du lịch đặt biệt là xem xét đến truyền miệng điện tử (Balan & Mathew, 2015), truyền miệng trực tuyến (Alam, Ryu, & Lee, 2016) (Wang, Lu, & Zhai, 2011) (Hall, et al., 2022) (Guttentag, 2019). Hay nội dung của đánh giá của người dùng trên các trang đặt phòng trực tuyến được xem là tuyền miệng trực tuyến (Andreu, Bigne, Amaro, & Palomo, 2020) (Cheng & Foley, 2019) (Dolnicar & Zare, 2020) (Quattrone, Proserpio, Quercia, Capra, & Musolesi, 2016) (Zervas, Proserpio, & Byers, 2020). Tuy nhiên, dữ liệu phân tích của các nghiên cứu này được thu thập trong một khoản thời gian ngắn, hay phần nhiều là phát triển thuật toán (Ravanifard, Buntine, & Mirzaei, 2020) (Wang, Lu, & Zhai, 2011)(Alam, Ryu, & Lee, 2016) (Wang, Lu, & Zhai, 2011) (Balan & Mathew, 2015). Chính vì thế, cần có một nghiên cứu trên một tập dữ liệu được thu thập trong một thời gian dài nhằm xem xét sự thay đổi sắc thái của các khía cạnh trong nhận xét của du khách bằng cách xem xét các mối quan hệ giữa các khía cạnh tích cực và tiêu cực, và mức độ tương quan giữa các đánh giá khía cạnh này theo thời gian. Với sự phát triển nhanh của công nghệ thông tin cộng với sự hình thành của nền kinh tế chia sẻ (Belk, 2014) thì truyền miệng trực tuyến cũng góp phần ảnh hưởng lớn đến quyết định của du khách (Hall, et al., 2022) (Nguyen & Tong, 2023). Tuy nhiên, dữ liệu các đánh giá trực 542
  2. tuyến đăng tải công khai trên trang Inside Airbnb cần được xem xét (Alsudais, 2021) (Guttentag, 2019), trong đó các tác giả (Alsudais, 2021) đã chỉ ra một số ít sai sót trong dữ liệu được công bố trên, còn nhóm của (Guttentag, 2019) cho thấy rằng các tập dữ đăng tải có giá trị nghiên cứu bằng chứng là có 132 bài báo được đăng tải trên các tập chí chuyên ngành có phản biện nội dung. Bên cạnh đó, trang TripAdvisor.com cũng là nguồn cung cấp dữ liệu đánh giá, các nhà nghiên cứu sử dụng một số công cụ để thu thập dữ liệu (Alam, Ryu, & Lee, 2016) (Ravanifard, Buntine, & Mirzaei, 2020) (Zervas, Proserpio, & Byers, 2020), tuy nghiên các tác giả ít khi công cố dữ liệu, ngoại trừ (Ravanifard, Buntine, & Mirzaei, 2020). Chính vì thế, trong phân còn lại trong bài viết này được trình bày như sau: với phần 2 được trình bày các nghiên cứu liên quan, trong khi các bước phân tích sắc thái cảm xúc phần 3. Phần 4 chúng tôi dành để giới thiệu phương pháp nghiên cứu và các bước tiền xử lý dữ liệu được trình bày trong phần 5. Phần 6 trình bày phân tích dữ liệu, trong đó các kết quả, và thảo luận của quá trình nghiên cứu được trình bày trong phần 7. Cuối cùng, chúng tôi tổng kết lại các công việc đã thực hiện và đề xuất công việc trong tương lại được trình bày trong phần 8. 2. CÁC NGHIÊN CỨU LIÊN QUAN Đứng trước nền kinh tế gặp nhiều khó khăn thời kỳ hậu covid-19 thì có vô số cơ hội và thách thức được đưa ra cho du khách, chủ nhà, cơ sở lưu trú và cơ quan quản lý, do đó rất cần có các nghiên cứu liên quan về phân tích dữ liệu (Guttentag, 2019), tiếp thị (Nguyen & Tong, 2023), pháp luật, và chính sách công (Ngoc & Omar, 2022), công nghệ thông tin (Phuong, 2022). Chính vì thế, nghiên cứu phản hồi của khách hàng đang dần trở thành cốt lõi của bất kỳ ngành nào mong muốn cải thiện hoạt động liên tục (Alam, Ryu, & Lee, 2016) (Andreu, Bigne, Amaro, & Palomo, 2020) (Dolnicar & Zare, 2020) (Hall, et al., 2022) (Phuong, 2022) (Zervas, Proserpio, & Byers, 2020). Một ngữ cảnh lý thuyết về nền kinh tế được chia sẻ bởi (Belk, 2014). Trong đó tập dữ liệu được chia sẻ là quan trọng, nhiều nghiên cứu tập trung thu thập dữ liệu trên nền tảng Inside Airbnb (Guttentag, 2019) (Zervas, Proserpio, & Byers, 2020) bởi vì nó được công khai và được công nhận trên tác tập chí ưu tín (Guttentag, 2019). Hoặc trên nền tảng TripAdvisor cũng được nhiều nhà nghiên cứu (Wang, Lu, & Zhai, 2011) (Alam, Ryu, & Lee, 2016) thu thập dữ liệu, tuy nhiên tập dữ liệu họ ít khi công bố chúng, chỉ có (Wang, Lu, & Zhai, 2011) là có công bố dữ liệu. Trong các nghiên cứu gần đây, phân tích sắc thái dựa trên khía cạnh được nhiều tác giả quan tâm. Trong đó, nghiên cứu của nhóm tác giả (Christanto & Singgalen, 2022) hay tác giả (Dina, 2020) sử dụng công cụ Rapidminer tiền xử lý dữ liệu và thực nghiệm mô hình. Trong khi tác giả (Dina, 2020) sử dụng công cụ mã nguồn mở Weka và Knime để thực hiện xử lý dữ liệu, sau đó dùng thư viện R và Python để phân tích. Trong nghiên cứu này, chúng tôi sử dụng các công cụ như: Các thư viện Python hỗ trợ xử lý văn bản như Spacy1, NLTK2, TextBlob3, có thể xử lý, phân tích khối lượng lớn văn bản, và thư viện Matplotlib dùng để trực quan hóa dữ liệu để có cái nhìn tổng quan hơn. 3. PHÂN TÍCH SẮC THÁI CẢM XÚC Phân tích sắc thái cảm xúc là lĩnh vực nghiên cứu về các trạng thái cảm xúc con người hay quan điểm của con người (Liu, 2012), ở trường hợp của nghiên cứu này là phân tích sắc thái cảm xúc tích cực hoặc tiêu cực của các nhận xét trực tuyến nhằm mục đích xác định các 1 https://spacy.io/models 2 https://www.nltk.org/ 3 https://textblob.readthedocs.io/en/dev/ 543
  3. mối quan hệ giữa chúng. Trong trường hợp của nghiên cứu này, việc rút ra cảm nhận tích cực và tiêu cực về các yếu tố hay khía cạnh cần thiết, chung nhất giúp các cơ sở lưu trú và nhà cung cấp dịch vụ có được sự chuẩn bị về mặt cải tiến hoạt động, xây dựng chiến lược mang lại chất lượng tốt, và tạo nên sức cạnh tranh bền vững. 4. PHƯƠNG PHÁP NGHIÊN CỨU Phần này giới thiệu phương pháp nghiên cứu gồm các công việc thực hiện như hình 1, đầu tiên tập dữ liệu được thu thập trên TripAdvisor, và Airbnb, sau đó dữ liệu được tiền xử lý trước khi tiến hành rút trích các khía cạnh. Phân tích sắc thái cảm xúc là tìm ra các khía cạnh được gán các sắc thái như tích cực hay tiêu cực dựa trên các nhận xét đã được xử lý. Sau đó, thống kê các khía cạnh ở đầu danh sách và xem xét các mới quan hệ, tương quan giữa chúng bằng cách trực quan hóa dữ liệu. Tiền xử lý dữ Thống kê • Các đánh giá của du liệu • Rút trích khía cạnh • Sắc thái khách • Phân tích sắc thái • Khía cạnh: sắc thái • Loại bỏ các liên kết • Đám mây từ vựng • Loại bỏ dấu câu • Loại bỏ số • Stop word • ... Tập dữ liệu Phân tích Trực quan hóa Hình 1. Quá trình thực hiện phương pháp nghiên cứu 4.1. Tập dữ liệu Chúng tôi sử dụng 2 bộ dữ liệu được thu thập trên các nền tảng TripAdvisor.com và Airbnb.com sử dụng ngôn ngữ Tiếng Anh, với kích thước gần bằng nhau, tuy nhiên ở các thời gian khác nhau được ghi trong Bảng 1. Bảng 1. Thông tin tập dữ liệu thu thập từ TripAdvisor và Airbnb Tên tập dữ liệu Nguồn Thời gian Số lượng nhận xét Từ ngày 14/02/2009 đến ngày Tập dữ liệu 1 TripAdvisor 20491 15/03/2009 Từ ngày 04/05/2011 đến ngày Tập dữ liệu 2 Airbnb 36894 27/12/2023 TripAdvisor (Wang, Lu, & Zhai, 2011): tập dữ liệu này được thu thập từ TripAdvisor bao gồm các đánh giá về các cơ sở cho thuê dịch vụ lưu trú. Airbnb (Airbnb, 2024): tập dữ liệu này thể hiện các đánh giá chủ nhà tại Singpore từ năm 04/05/2011 đến 27/12/2023 được thu thập từ Airbnb. Chính vì thời gian này có sự xuất hiện của đại dịch Covid-19 cho nên Chúng tôi thực hiện chia tập dư liệu thành 3 phần: - Phần đầu tiên (tập dữ liệu 2.1), từ ngày 04/05/2011 đến ngày 23/03/2020, khi mọi hoạt động du lịch diễn ra bình thường, chúng tôi dùng tập dữ liệu này tìm hiểu xu hướng cảm nhận của du khách, đồng thời so sánh với tập dữ liệu chuẩn (tập dữ liệu 1). - Phần thứ hai (tập dữ liệu 2.2), từ ngày 24/03/2020 đến ngày 13/02/2022 (Wei, 2020) khi chính phủ Singapore thực hiện lệnh đóng cửa biên giới bởi đại dịch Covid-19 bùng phát mạnh mẽ, với tập dữ liệu này chúng tôi thực hiện phân tích để phát hiện những khía cạnh tích cực và khía cạnh tiêu cục các chủ nhà đã gặp phải. 544
  4. - Phần thứ ba (tập dữ liệu 2.3), từ ngày 14/02/2020 (Yufeng, 2022) khi chính phủ Singapore bắt đầu mở cửa biên giới đến ngày 27/12/2023, từ phân tích tập dữ liệu để nhận thấy sự thay đổi cảm nhận của du khách sau khi trải qua một giai đoạn khó khăn nhất. 4.2. Tiền xử lý dữ liệu Văn bản là loại dữ liệu không có cấu trúc cho nên việc rút trích những thông tin trên cả một tập dữ liệu lớn luôn là một nhiệm vụ nghiên cứu. Chính vì thế, để rút trích được các khía cạnh trong nghiên cứu này được chính xác tại bước tiền xử lý dữ liệu chúng tôi thực hiện hai công việc. Thứ nhất, tập dữ liệu có các nhận xét được loại bỏ các liên kết, dấu câu, stop word, các ký hiệu, … Thứ hai, sử dụng công cụ NLTK trong thư viện Python để thực hiện tách từ bằng chức năng tockenizer và chuyển thành dạng từ gốc bằng chức năng Lemmatizer. 4.3. Phân tích Sau dữ liệu được tiền xử lý, tất cả các tập dữ liệu được lưu trữ trên tập tin *.CSV, các khía cạnh được rút trích lưu vào một cột bổ sung nhờ vào công cụ Spacy, sau đó nhờ vào công cụ TextBlob xác định các sắc thái tích cực hay tiêu cực cho từng khía cạnh. Sau đó, chúng tôi kết hợp chúng lại với nhau theo định dạng “khía cạnh: sắc thái”. Bước tiếp theo là thống kê trên tập dữ liệu dữ liệu các khía cạnh và sắc thái thu được, chúng được lọc ra thành tập các khía cạnh tích cực và tập các khía cạnh tiêu cực. Cuối cùng, chúng tôi hiển thị dữ liệu từ kết quả thống kê bằng công cụ Matplotlib và Word loud ở phần kết tiếp. 5. KẾT QUẢ VÀ THẢO LUẬN Sau bước phân tích là kết quả thu được. Hình 2, cho chúng ta nhận xét ban đầu các đánh tập trung nhận xét tích cực cho các cơ sở lưu trú (hình 2.b có 95% nhận xét tích cực (positive) với số lượng lên đến hơn 1 triệu lượt hình 2.a). 1.200.000 1.112.974 1.000.000 800.000 5% 600.000 400.000 positve negative 200.000 58.246 - positve negative 95% a) b) Hình 2. Biểu đồ thể hiện các sắc thái trên tập dữ liệu đánh giá (a) biểu đồ hình cột thể hiện số lượng, b) biểu đồ hình tròn thể hiện tỉ lệ) Hình 2 cho ta kết quả tổng thể về số lượng và tỉ lệ các khía cạnh tích cực và tiêu cực, tuy nhiên để đánh giá cụ thể các khía cạnh tích cực hoặc tiêu cực, ta xem hình 3. 545
  5. hotel:positive 43044 room:negative 2883 room:positive 40676 hotel:negative 2524 place:positive 21527 rooms:negative 762 location:positive 20003 staff:negative 725 staff:positive 16509 night:negative 723 service:negative 703 time:positive 12657 place:negative 656 rooms:positive 12620 time:negative 608 night:positive 11164 day:negative 577 food:positive 11067 food:negative 509 day:positive 10832 people:negative 461 service:positive 10282 bed:negative 438 breakfast:positive 9731 bathroom:negative 387 people:positive 7671 desk:negative 370 pool:positive 7620 water:negative 338 area:positive 7573 location:negative 336 beach:positive 7391 breakfast:negative 326 stay:positive 6357 floor:negative 309 restaurants:positive 6293 experience:negative 306 bed:positive 6259 check:negative 304 0 10000 20000 30000 40000 50000 0 1000 2000 3000 4000 a) Tích cực b) Tiêu cực Hình 3. Danh sách 20 khía cạnh có số lượng đánh giá cao nhất (với a) Đánh giá tích cực, b) Đánh giá tiêu cực) Hình 3, cho ta thấy danh sách 20 khía cạnh được đánh giá, trong đó hình 3a các khía cạnh được đánh giá tích cực là “hotel”, “room”, “place”, ‘staff”, “food”, “service”, … các khía cạnh này cần được các cơ sở lưu trú phát huy tiếp tục những ưu điểm này. Tuy nhiên, hình 3b vẫn còn khá nhiều nhận xét tiêu cực như “room”, “hotel”, “staff”, “service”, “food”, … các khía cạnh này có mức độ ảnh hưởng khác nhau do đó các nhà cung cấp dịch vụ cần sắp xếp độ ưu tiên cải thiện. Riêng khía cạnh “place” hoặc “Location” thì khó có thể thay đổi bởi vì nó liên quan rất nhiều đến trạng thái bất động sản nơi đó. Như ở trên, chúng tôi đã khái quát tập dữ liệu sau khi được xử lý, nhưng để có hiểu biết nhiều hơn sự ảnh hưởng của yếu tố đại dịch covid-19 chúng tôi thực hiện phân tích ở các giai đoạn sau: 5.1 trước khi xuất hiện đại dịch covid-19, 5.2 trong khi đại dịch đang diễn ra, 5.3 giai đoạn hậu Covid-19. 5.1. Giai đoạn trước khi xuất hiện đại dịch Covid-19 Theo báo cáo về năng lực cạnh tranh du lịch và lư hành năm 20194, ngành du lịch tăng trưởng mạnh và cần được quan tâm để đầu tư. Điều này có thể được nhắc lại tại Hình 4 thể hiện số lượng các sắc thái được đánh giá trên cả 2 tập dữ liệu. 4 Apo.org.au/node/257631 546
  6. 25000 18000 16887 16000 19258 20000 14000 15000 12000 10000 10000 8000 5000 6000 1212 4000 0 2000 negative positive 385 0 negative positive a) TripAdvisor (tập dữ liệu 1) b) Airbnb (tập dữ liệu 2.1) Hình 4. Biểu đồ thể hiện số lượng khía cạnh được đánh giá theo sắc thái trên 2 tập dữ liệu thu thập trước khi đại dịch Covid-19 xuất hiện Hình 4 cho ta nhận định đầu tiên các đánh giá trên 2 tập dữ liệu phần lớn là tích cực (positive) và có sự tương đồng giữa chúng. food:positive 8559 staff:positive 2021 beach:positive 7345 check:positive 2019 place:positive 6687 bus:positive 1986 pool:positive 6590 house:positive 1861 people:positive 6389 night:positive 1708 resort:positive 5704 bed:positive 1708 area:positive 5498 experience:positive 1683 restaurant:positive 4759 space:positive 1578 restaurants:positive 4757 family:positive 1560 bar:positive 4669 bathroom:positive 1558 0 2000 4000 6000 8000 10000 0 500 1000 1500 2000 2500 a) TripAdvisor (tập dữ liệu 1) b) Airbnb (dataset 2.1) Hình 5. Danh sách 10 khía cạnh có số lượng đánh giá tích cực cao nhất Để thấy rõ hơn các khía cạnh tích cực trong các đánh giá của du khách (xem hình 5). Ở đây có sự khác nhau hoàn toàn về mặt các khía cạnh được nhận xét, tuy nhiên tất cả chúng có sự đồng tình cao về mặt tích cực. 547
  7. people:negative 382 people:negative 78 desk:negative 357 hotel:negative 77 bed:negative 336 toilet:negative 76 breakfast:negative 309 apartment:negative 73 bathroom:negative 296 floor:negative 72 water:negative 295 door:negative 71 resort:negative 273 bit:negative 68 money:negative 243 experience:negative 65 experience:negative 241 war:negative 64 floor:negative 237 price:negative 61 0 100 200 300 400 500 0 20 40 60 80 100 a) TripAdvisor b) Airbnb (dataset 2.1) Hình 6. Danh sách 10 khía cạnh có số lượng đánh giá tiêu cực cao nhất Ngược với hình 5 là hình 6 danh sách các khía cạnh có số lượng đánh giá tiêu cực cao nhất, ở đây có một số tương đồng ở các khía cạnh “people”, “floor”. Ngược lại, các khía cạnh quan trọng cần được các cơ sở cải thiện là “price”, “breakfast”, “hotel”,… 5.2. Giai đoạn đại dịch Covid-19 đang diễn ra Đại dịch Covid-19 diễn ra kéo theo nền kinh tế toàn thế giới bị ảnh hưởng trong đó ngành du lịch là ngành bị ảnh hưởng nặng nề nhất (Ngoc & Omar, 2022). Đo đó, việc ứng phó của các cơ sở lưu trú cũng cần quan tâm và rút kinh nghiệm. place 1577 room 35 location 751 place 29 room 593 host 18 host 567 experience 14 stay 410 check 13 apartment 258 location 11 check 249 day 11 food 205 hotel 11 time 202 experience 174 time 10 amenities 141 apartment 9 space 136 night 9 0 500 1000 1500 2000 0 10 20 30 40 a) Các khía cạnh tích cực (positive) b) Các khía cạnh tiêu cực (negative) Hình 7. Danh sách 10 khía cạnh có số lượng đánh giá có nhất khi dịch covid-19 bùng phát (a) các khía cạnh tích cực, b) các khía cạnh tiêu cực) 548
  8. Hình 7 cho thấy sự chăm sóc chu đáo của các cơ sở trú đối với khách hàng của mình trước tình hình lây lan dịch bệnh phức tạp thể hiện ở các khái cạnh quan trọng như “place”, “location”, “host”, “stay”, “food” (xem hình 8.a). Tuy nhiên, cũng có nơi làm công tác này chưa tốt ở các khía cạnh “room”, “place”, “host”, … nhưng với số lượng hạn chế. 5.3. Giai đoạn mở cửa biên giới sau khi đại dịch Covid-19 được kiểm soát Sau đại dịch, quá trình quay trở lại các điểm du lịch của du khách vẫn còn hạn chế bởi vì nền kính tế gặp nhiều khó khăn. Tuy nhiên, nhìn vào hình 8 ta thấy được có đến 3936 lượt đánh giá tích cực cho các cơ sở lưu trú, điều này có thể thấy các chính sách và việc áp dụng công nghệ thông tin trong tuyền thông của các cơ sở lưu trú mang lại hiệu quả (Nguyen & Tong, 2023). place 3936 room 240 location 3314 place 100 room 2613 war 50 stay 1232 bathroom 50 staff 1159 hotel 49 host 984 host 49 apartment 925 check 47 check 853 night 45 time 779 floor 42 restaurants 654 day 41 0 1000 2000 3000 4000 5000 0 50 100 150 200 250 300 a) Các khía cạnh tích cực (positive) b) Các khía cạnh tiêu cực (negative) Hình 8. Danh sách 10 khía cạnh có số lượng đánh giá có nhất sau khi đại dịch được kiểm soát (a) các khía cạnh tích cực, b) các khía cạnh tiêu cực) Hình 8.b tuy còn một số hạn chế như “room”, “place”, “hotel”, …nhưng ở mức độ nhỏ lẻ hay có thể các cơ sở chưa đầu tư đúng mức. 5.4. Sự tương quan giữa các khía cạnh tích cực và tiêu cực trên tập dữ liệu 2 Theo báo cáo về năng lực cạnh tranh du lịch và lư hành năm 20195, ngành du lịch tăng trưởng tốt trong năm 2019 và có thể tăng nhanh ở các năm tiếp theo. Để thấy được sự tương quan của dữ liệu chúng tôi tiến hành so sánh các tập dữ liệu theo thời gian như sau: Thứ nhất, về thời gian du lịch. Hình 9, 10, 11 cho thấy xu hướng du lịch của du khách tại 3 thời điểm, điều dễ hiểu tại hình 10 trong thời gian dịch covid-19 bùng phát và các hạn chế của chính phủ được ban bố thì ngành du lịch bị ảnh hưởng đầu tiên (Ngoc & Omar, 2022). Tuy nhiên, hình 9 và 11 cho thấy nhu cầu du lịch ngày càng tăng lên cho nên việc cải thiện cơ sở vật chất và dịch vụ của các cơ sở lưu trú là cần thiết nhằm mang lại cải thiện tốt nhất cho du khách. 5 Apo.org.au/node/257631 549
  9. 700 600 500 Số nhận xét 400 300 200 100 0 8-2011 3-2012 6-2012 9-2012 3-2013 6-2013 9-2013 3-2014 6-2014 9-2014 3-2015 6-2015 9-2015 3-2016 6-2016 9-2016 3-2017 6-2017 9-2017 3-2018 6-2018 9-2018 3-2019 6-2019 9-2019 11-2011 12-2012 12-2013 12-2014 12-2015 12-2016 12-2017 12-2018 12-2019 negative positive Hình 9. Biểu đồ thể hiện số lượng nhận xét trực tuyến thời gian trước đại dịch Covid-19 250 200 Số nhận xét 150 100 50 0 negative positive Hình 10. Biểu đồ thể hiện số lượng nhận xét trực tuyến khi đại dịch Covid-19 bùng phát 800 700 600 Số nhận xét 500 400 300 200 100 0 negative positive Hình 11. Biểu đồ thể hiện số lượng nhận xét trực tuyến thời gian đại dịch covid-19 được kiểm soát Thứ hai, dựa trên đám mây các từ khóa (từ hình 12 đến hình 14) từ “place” có số lượng nhắc đến nhiều nhất dù ở sắc thái nào hay tại bất kỳ thời điểm nào. Ngoài ra, gần đây nhất khía cạnh tích cực “location” được nhắc đến nhiều nhất, cho thấy nhiều điểm đến được chính phủ cho phép và đưa vào khai thác, môi trường du lịch được đầu tư cải thiện. Tuy nhiên, có một số cơ sở lưu trú chưa tốt tại nhân tố quan trọng “room” vì đây là không gian nghỉ ngơi. 550
  10. a) Khía cạnh tích cực b) Khía cạnh tiêu cực Hình 12. Đám mây các từ khóa từ các nhận xét trước đại dịch Covid-19 a) Khía cạnh tích cực b) Khía cạnh tiêu cực Hình 13. Đám mây các từ khóa từ các nhận xét khi đại dịch Covid-19 bùng phát a) Khía cạnh tích cực b) Khía cạnh tiêu cực Hình 14. Đám mây các từ khóa từ các nhận xét khi đại dịch Covid-19 được kiểm soát 6. KẾT LUẬN Khai phá dữ liệu văn bản giúp cho các nhà kinh doanh trên các trang thương mại điện tử, hoặc nhà cung cấp dịch vụ du lịch có một kênh để tìm kiếm, phân tích các yêu cầu ở hiện tại và khuynh hướng trong tương lai của khách hàng, đồng thời khuyến nghị nhóm khách hàng tìm năng. Dữ liệu văn bản là dữ liệu không có cấu trúc vì thế các nhiệm vụ trong việc nghiên cứu xử lý ngôn ngữ tự nhiên luôn là nhiệm vụ xuyên suốt. Ở nghiên cứu này, chúng tôi đã ứng dụng khai phá dữ liệu văn bản để làm rõ thêm các nhận xét từ du khách trên các nền tảng số cung cấp dịch vụ lưu trú như TripAdvisor và Airbnb. Từ đây, với việc chia tập dữ liệu trong các khung thời gian trước, trong, và hậu Covid-19 cho thấy nhu cầu du lịch đến từ khách hàng là rất lớn, 551
  11. các điểm đến ngày càng có lượng du khách quan tâm. Đồng thời, đã tiến hành thực hiện phân tích các khía cạnh để thấy được các mối quan hệ giữa các khía cạnh tích cực và tiêu cực bằng cách hiển thị trực quan bằng các biểu đồ cột, hình tròn, và đám mây từ vựng. Cuối cùng, chúng ta cảm thấy khả quan khi có rất nhiều khuyến nghị khía cạnh tích cực cho các cơ sở lưu trú, mặc dù vẫn có quan điểm tiêu cực tại khía cạnh “room” phòng nhưng nó chỉ chiếm số lượng nhỏ, việc cải thiện là có thể. TÀI LIỆU THAM KHẢO 1. Airbnb, I. (2024, 04 01). Inside Airbnb. Retrieved from Get the Data: https://insideairbnb.com/get- the-data/ 2. Alam, M. H., Ryu, W.-J., & Lee, S. (2016). Joint multi-grain topic sentiment: modeling semantic aspects for online reviews. Information Sciences, 339, 206-223. 3. Alsudais, A. (2021). Incorrect data in the widely used Inside Airbnb dataset. Decision Support Systems, 1-8. 4. Andreu, L., Bigne, E., Amaro, S., & Palomo, J. (2020). Airbnb research: an analysis in tourism and hospitality journals. International Journal Of Culture, Tourism And Hospitality Research, 14(1), 2- 20. 5. Balan, U. M., & Mathew, S. K. (2015). Online word of mouth using text mining: A review of literature and future directions. 2015 IEEE Workshop on Computational Intelligence: Theories, Applications and Future Directions (WCI), 1-6. 6. Belk, R. (2014). You are what you can access: Sharing and collaborative consumption online. Journal of Business Research, 1-6. 7. Cheng, M., & Foley, C. (2019). Algorithmic management: The case of Airbnb. International Journal of Hospitality Management, 83, 33-36. 8. Christanto, H. J., & Singgalen, Y. A. (2022). Sentiment Analysis of Customer Feedback Reviews Towards Hotel’s Products and Services in Labuan Bajo. Journal of Information Systems and Informatics, 4(4), 805-822. 9. Dina, N. Z. (2020). Tourist sentiment analysis on TripAdvisor using text mining: A case study using hotels in Ubud, Bali. African Journal of Hospitality, Tourism and Leisure, 9(2), 1-10. 10. Dolnicar, S., & Zare, S. (2020). COVID19 and Airbnb – Disrupting the Disruptor. Annals of Tourism Research, 83, 102961. 11. Guttentag, D. (2019). Progress on Airbnb: a literature review. Journal of Hospitality and Tourism Technology. 12. Hall, C. M., Prayag, G., Safonov, A., Coles, T., Gössling, S., & Koupaei, S. N. (2022). Airbnb and the sharing economy. Current Issues in Tourism, 3057-3067. 13. Inan, H. E. (2024). Comparison of Machine Learning Algorithms for Classification of Hotel Reviews: Sentiment Analysis of TripAdvisor Reviews. GSI Journals Serie A: Advancements in Tourism, Recreation and Sports Sciences (ATRSS), 7(1), 111-122. 14. Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool. 15. Ngoc, H. N., & Omar, S. I. (2022). Tourism Crisis Caused by Covid-19 And Policy Responses in Vietnam. RES MILITARIS, 12(3), 1-10. 16. Nguyen, T. T., & Tong, S. (2023). The impact of user-generated content on intention to select a travel destination. Journal of Marketing Analytics, 11, 443-457. 17. Phuong, N. M. (2022). Opportunities and Challenges of Digital Transformation in Vietnam's Tourism Industry. International Journal of Economics, Business and Management Research, 6(12), 1-13. 552
  12. 18. Quattrone, G., Proserpio, D., Quercia, D., Capra, L., & Musolesi, M. (2016). Who Benefits from the “Sharing” Economy of Airbnb? Proceedings of the 25th International Conference on World Wide Web, 1385–1394. 19. Ravanifard, R., Buntine, W., & Mirzaei, A. (2020). Recommending content using side information. Applied Intelligence, 1-22. 20. Wang, H., Lu, Y., & Zhai, C. (2011). Latent Aspect Rating Analysis without Aspect Keyword Supervision. Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, 618-626. 21. Wei, T. T. (2020, 3 23). Coronavirus: All short-term visitors barred from entering or transiting in Singapore from Monday, 11.59pm. (The Straits Times) Retrieved 5 8, 2024, from https://www.straitstimes.com/singapore/health/coronavirus-all-short-term-visitors-barred-from- entering-and-transiting-in 22. Yufeng, K. (2022, 2 13). Singapore to lift all Covid-19 border measures from Feb 13; pre-departure test no longer needed. (the Traits Times) Retrieved 5 8, 2024, from https://www.straitstimes.com/singapore/singapore-will-lift-remaining-covid-19-border- restrictions-from-feb-13 23. Zervas, G., Proserpio, D., & Byers, J. W. (2020). A first look at online reputation on Airbnb, A first look at online reputation on Airbnb. Marketing Letters, 32, 1-16. 553
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1