intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học dữ liệu: Ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:108

19
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu chung của nghiên cứu "Ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét" là ứng dụng được học máy và xử lý ngôn ngữ tự nhiên để tạo ra một hệ thống có khả năng nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học dữ liệu: Ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét

  1. ĐẠI HỌC HUẾ KHOA KỸ THUẬT VÀ CÔNG NGHỆ TẠ PHƯỚC ÁNH ỨNG DỤNG HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH TẠI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN VÀ NHẬN XÉT. LUẬN VĂN THẠC SĨ ỨNG DỤNG KHOA HỌC DỮ LIỆU HUẾ, 2023
  2. ĐẠI HỌC HUẾ KHOA KỸ THUẬT VÀ CÔNG NGHỆ TẠ PHƯỚC ÁNH ỨNG DỤNG HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH TẠI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN VÀ NHẬN XÉT. LUẬN VĂN THẠC SĨ ỨNG DỤNG KHOA HỌC DỮ LIỆU NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ THỊ QUỲNH LIÊN HUẾ, 2023
  3. LỜI CẢM ƠN Tôi xin chân thành bày tỏ lòng biết ơn sâu sắc đến TS. Lê Thị Quỳnh Liên, người hướng dẫn khoa học đã tận tình hướng dẫn, chỉ bảo, giúp đỡ tôi hoàn thành luận văn này. Tôi xin chân thành cảm ơn quý thầy cô Khoa Kỹ thuật và Công Nghệ - Đại học Huế đã tận tình giảng dạy, hướng dẫn tôi trong suốt quá trình học tập, nghiên cứu và rèn luyện. Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp và các chuyên gia đã tham gia đóng góp hỗ trợ trong suốt thời gian thực hiện đề tài nghiên cứu này. Trong quá trình nghiên cứu, mặc dù đã cố gắng tham khảo tài liệu, trao đổi tiếp thu ý kiến của thầy cô, chuyên gia nhưng nghiên cứu cũng không thể tránh khỏi những thiếu sót. Rất mong nhận được ý kiến đóng góp từ Quý thầy cô để bài nghiên cứu trở nên hoàn thiện hơn. Tôi xin chân thành cảm ơn! Tạ Phước Ánh i
  4. LỜI CAM ĐOAN CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI KHOA KỸ THUẬT VÀ CÔNG NGHỆ - ĐẠI HỌC HUẾ Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của TS. Lê Thị Quỳnh Liên. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố bất kỳ hình thức nào trước đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình. Khoa Kỹ thuật và Công nghệ - Đại học Huế không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có). Tạ Phước Ánh ii
  5. TÓM TẮT Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4. Ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn này. Khai phá dữ liệu từ các lời bình luận, bình luận của du khách về các khách sạn trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới. Trong đó, cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý khách sạn có thể thu được từ bộ dữ liệu này. Ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận. Giải pháp này có nhiều ưu điểm, đặc biệt trong đó là giúp con người xử lý được một khối lượng lớn dữ liệu có thể được thu thập từ các nền tảng du lịch trực tuyến. Nghiên cứu này tập trung vào việc ứng dụng các kỹ thuật trong học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua lời các lời bình luận và nhận xét được thu thập từ website du lịch nổi tiếng Tripadvisor.com. Nghiên cứu đã đề xuất mô hình ứng dụng và triển khai với 6 thí nghiệm đối với tập dữ liệu hơn 100.000 lời bình luận. Nghiên cứu đã cho thấy một kết quả tích cực đối với triển khai giải pháp này với kết quá các thí nghiệm tốt nhất đạt độ chính xác lên đến 77%. Nghiên cứu cũng đề xuất các hướng phát triển hoặc nghiên cứu sau này để nâng cao hiệu suất của mô hình. Thông qua đó, các nhà quản lý khách sạn sẽ có một giải pháp tiên tiến để khai thác được các giá trị tiềm ẩn từ tập dữ liệu lời bình luận của du khách, làm cơ sở để đầu tư, cải tiến nâng cao chất lượng sản phẩm dịch vụ, tạo thuận lợi thu hút khách du lịch, nâng cao năng lực cạnh tranh của cơ sở. iii
  6. MỤC LỤC LỜI CẢM ƠN ...................................................................................................I LỜI CAM ĐOAN ........................................................................................... II TÓM TẮT ..................................................................................................... III MỤC LỤC ...................................................................................................... IV DANH MỤC CÁC TỪ VIẾT TẮT ...........................................................VIII DANH MỤC CÁC BẢNG ............................................................................ IX DANH MỤC CÁC HÌNH VẼ........................................................................ X PHẦN I MỞ ĐẦU ........................................................................................... 1 1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI .................................................................. 1 2. MỤC TIÊU NGHIÊN CỨU ......................................................................... 2 2.1. MỤC TIÊU CHUNG ............................................................................... 2 2.2. MỤC TIÊU CỤ THỂ ............................................................................... 2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................... 3 3.1. ĐỐI TƯỢNG NGHIÊN CỨU .................................................................... 3 3.2. PHẠM VI NGHIÊN CỨU......................................................................... 3 4. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................. 4 5. KẾT CẤU LUẬN VĂN: .............................................................................. 4 PHẦN II NỘI DUNG NGHIÊN CỨU ........................................................... 5 CHƯƠNG 1. THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT............................ 5 1.1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI VÀ TRONG NƯỚC ................................................................................................................. 5 1.1.1. Tình hình nghiên cứu trên thế giới .............................................. 5 1.1.2. Tình hình nghiên cứu tại Việt Nam ............................................. 7 1.2. THỰC TRẠNG VỀ NGÀNH DU LỊCH Ở VIỆT NAM ................................. 9 1.2.1. Hệ thống khách sạn tại Việt Nam ................................................ 9 1.2.2. Đặc điểm khách du lịch quốc tế ................................................... 9 1.2.3. Đặc điểm khách du lịch nội địa .................................................. 11 1.3. TÍNH CẤP THIẾT CỦA VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN. ................................................................... 12 1.4. TỔNG QUAN VỀ TRIPADVISOR ......................................................... 13 iv
  7. 1.5. TỔNG QUAN VỀ CÁC KỸ THUẬT ĐƯỢC SỬ DỤNG TRONG NGHIÊN CỨU ......................................................................................................................... 14 1.5.1. Công cụ, phần mềm ..................................................................... 14 1.5.2. Tổng quan về kỹ thuật thu thập dữ liệu website ...................... 18 1.5.3. Tổng quan về các kỹ thuật xử lý ngôn ngữ tự nhiên................ 21 1.5.4. Tổng quan về các mô hình học máy........................................... 32 1.6. ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ MÔ HÌNH HỌC MÁY TRONG NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH. ................................. 36 CHƯƠNG 2. ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN TRÊN TRIPADVISOR ................................................. 37 2.1. ĐỀ XUẤT MÔ HÌNH NGHIÊN CỨU ....................................................... 37 2.2. GIAI ĐOẠN 1: THU THẬP DỮ LIỆU VÀ GÁN NHÃN ............................. 37 2.2.1. Quá trình thu thập dữ liệu ......................................................... 37 2.2.2. Gắn nhãn dữ liệu ......................................................................... 39 2.3. GIAI ĐOẠN 2: TIỀN XỬ LÝ DỮ LIỆU .................................................. 40 2.3.1. Phân tích và lấy mẫu dữ liệu ...................................................... 40 2.3.2. Làm sạch dữ liệu.......................................................................... 40 2.3.3. Trích chọn tập con đặc trưng ..................................................... 41 2.3.4. Biến đổi thuộc tính dữ liệu.......................................................... 42 2.4. GIAI ĐOẠN 3: TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN ............................ 42 2.4.1. Trích xuất đặc trưng bằng Embedding ..................................... 42 2.4.2. Trích xuất đặc trưng bằng GloVe .............................................. 43 2.4.3. Trích xuất đặc trưng bằng TF-IDF ............................................ 43 2.5. GIAI ĐOẠN 3: HUẤN LUYỆN VÀ KIỂM THỬ MÔ HÌNH DỰ ĐOÁN PHÂN LOẠI CẢM XÚC ................................................................................................. 44 2.5.1. Mô hình BiLSTM ........................................................................ 44 2.5.2. Mô hình RandomForest .............................................................. 45 2.5.3. Ước lượng hiệu quả của các mô hình bằng phương pháp xác thực chéo k-Fold Cross Validation (k-CV) ................................................. 47 2.6. GIAI ĐOẠN 4: ĐÁNH GIÁ MÔ HÌNH ................................................... 48 2.6.1. Thước đo điểm F1 trung bình vĩ mô .......................................... 51 2.6.2. Thước đo điểm F1 trung bình có trọng số ................................ 51 2.6.3. Thước đo độ chính xác ................................................................ 52 CHƯƠNG 3. THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ....................................................................................................... 53 v
  8. 3.1. THU THẬP DỮ LIỆU VÀ GÁN NHÃN DỮ LIỆU ...................................... 53 3.1.1. Thu thập dữ liệu .......................................................................... 54 3.1.2. Gán nhãn ...................................................................................... 56 3.2. TIỀN XỬ LÝ DỮ LIỆU ......................................................................... 57 3.2.1. Lấy mẫu dữ liệu ........................................................................... 57 3.2.2. Làm sạch dữ liệu.......................................................................... 58 3.2.3. Trích xuất tập con đặc trưng ...................................................... 60 3.2.4. Vector hóa các tập dữ liệu ........................................................... 61 3.3. TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN ................................................... 63 3.3.1. Trích xuất đặc trưng văn bản với Embedding ......................... 63 3.3.2. Trích xuất đặc trưng văn bản với GloVe ................................... 63 3.3.3. Trích xuất đặc trưng văn bản với TF-IDF ................................ 65 3.4. HUẤN LUYỆN VÀ KIỂM THỬ .............................................................. 66 3.4.1. Thí nghiệm 1: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình phân loại BiLSTM .................................................................. 66 3.4.2. Thí nghiệm 2: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình phân loại BiLSTM .................................................................. 68 3.4.3. Thí nghiệm 3: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình phân loại BiLSTM .................................................................. 71 3.4.4. Thí nghiệm 4: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình RF ............................................................................................. 73 3.4.5. Thí nghiệm 5: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình RF ............................................................................................. 74 3.4.6. Thí nghiệm 6: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình RF ............................................................................................. 74 3.5. KẾT QUẢ THÍ NGHIỆM ...................................................................... 75 PHẦN III KẾT LUẬN VÀ KIẾN NGHỊ .................................................... 78 1. KẾT LUẬN ............................................................................................ 78 2. KIẾN NGHỊ ........................................................................................... 79 PHỤ LỤC ....................................................................................................... 82 1. MÃ NGUỒN CHƯƠNG TRÌNH THU THẬP DỮ LIỆU: ................................ 82 2. MÃ NGUỒN GIAI ĐOẠN TIỀN XỬ LÝ DỮ LIỆU ....................................... 84 3. MÃ NGUỒN MÔ HÌNH THÍ NGHIỆM ...................................................... 86 3.1. THÍ NGHIỆM 1 ................................................................................... 86 3.2. THÍ NGHIỆM 2 ................................................................................... 86 3.3. THÍ NGHIỆM 3 ................................................................................... 88 vi
  9. 3.4. THÍ NGHIỆM 4 ................................................................................... 89 3.5. THÍ NGHIỆM 5 ................................................................................... 90 3.6. THÍ NGHIỆM 6 ................................................................................... 91 TÀI LIỆU THAM KHẢO ............................................................................ 92 vii
  10. DANH MỤC CÁC TỪ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết tắt đầy đủ 1 AI Artificial intelligence 2 BiLSTM Bidirectional Long short term memory 3 CSLTDL Cơ sở lưu trú du lịch 4 GloVe Global Vector 5 JSON JavaScript Object Notation 6 k-CV k-Folds Cross Validation 7 LSTM Long short term memory 8 ML Machine learning 9 NLP Natural language processing 10 RF Random Forest 11 RL Reinforcement learning 12 SL Supervised learning 13 TF-IDF Term frequency – Inverse document frequency 14 UL Unsupervised learning viii
  11. DANH MỤC CÁC BẢNG Bảng 1.1 Bảng sô sánh tính năng của PorterStemmer và WordNetLemmatizer 16 Bảng 1.2 Các trường dữ liệu được sử dụng trong nghiên cứu ............................ 21 Bảng 1.3 Xác suất xảy ra đồng thời từ 42 tỷ mã thông báo xuất hiện ................ 27 Bảng 2.1 Đầu ra của mô hình phân loại nhiều lớp .............................................. 49 Bảng 2.2 Kết quả đầu ra phân loại nhị phân đối với nhãn Tích cực ................... 49 Bảng 2.3 Kết quả đầu ra phân loại nhị phân đối với nhãn Trung lập ................. 49 Bảng 2.4 Kết quả đầu ra phân loại nhị phân đối với nhãn Tiêu cực ................... 50 Bảng 3.1 Bảng thống kê dữ liệu lời bình luận theo các ngôn ngữ ...................... 56 Bảng 3.2 Điểm đánh giá các mô hình ................................................................. 76 ix
  12. DANH MỤC CÁC HÌNH VẼ Hình 1.1 Khách quốc tế theo tháng, năm 2022 (nghìn lượt) .......................... 10 Hình 1.2 Các thị trường gửi khách hàng đầu năm 2022 (nghìn lượt)............. 10 Hình 1.3 Khách quốc tế đến Việt Nam năm 2022, phân theo châu lục (%) ... 11 Hình 1.4 Khách nội địa theo tháng, năm 2022 ............................................... 11 Hình 1.5 Phân tích yêu cầu truy xuất dữ liệu khách sạn và các lời bình luận về khách sạn của website tripadvisor.com ........................................................... 20 Hình 1.6 Phần dữ liệu được trả về đối với yêu cầu truy xuất dữ liệu của website tripadvisor.com ................................................................................................ 20 Hình 1.7 Bài bình luận trên website tripadvisor.com...................................... 21 Hình 1.8 Hàm trọng số với α=3/4. .................................................................. 30 Hình 1.9 Kiến trúc của BiLSTM ..................................................................... 34 Hình 2.1 Mô hình nghiên cứu ......................................................................... 37 Hình 2.2 Các bước tiễn xử lý văn bản............................................................. 41 Hình 2.3 Mô hình BiLSTM ............................................................................. 45 Hình 2.4 Quá trình huấn luyện với k-CV........................................................ 48 Hình 3.1 Cấu trúc dữ liệu của hai bảng dữ liệu `hotel` và `review` ............... 53 Hình 3.2 Tập dữ liệu về khách sạn ở Việt Nam .............................................. 54 Hình 3.3 Tập dữ liệu các lời bình luận của du khách về khách sạn................ 55 Hình 3.4 Tập dữ liệu các lời bình luận bằng tiếng Anh .................................. 56 Hình 3.5 Tập dữ liệu các lời bình luận đã được gán nhãn .............................. 57 Hình 3.6 Phân bổ dữ liệu cho từng lớp ........................................................... 57 Hình 3.7 Kết quả phân bổ dữ liệu sau khi lấy mẫu ......................................... 58 Hình 3.8 Kết quả Bước 1: đổi về chữ viết thường .......................................... 58 Hình 3.9 Kết quả Bước 2: Loại bỏ ký tự đặc biệt ........................................... 58 Hình 3.10 Kết quả Bước 3: Tách từ ................................................................ 59 Hình 3.11 Kết quả Bước 4: Loại bỏ từ dừng................................................... 59 Hình 3.12 Kết quả Bước 5: Chuyển về dạng từ gốc ....................................... 59 Hình 3.13 Kết quả Bước 6: Nối từ thành văn bản .......................................... 59 Hình 3.14 Tập dữ qua quá trình làm sạch dữ liệu ........................................... 60 Hình 3.15 Phân bổ dữ liệu cho từng tập dữ liệu ............................................. 60 Hình 3.16 Từ điển được trích chọn từ tập dữ liệu huấn luyện ........................ 61 Hình 3.17 Phân bổ độ dài các lời bình luận .................................................... 62 Hình 3.18 Quá trình vector hóa một lời bình luận .......................................... 62 Hình 3.19 Kết quả trích xuất đặc trưng bằng Embedding .............................. 63 x
  13. Hình 3.20 Vector trọng số của từ ‘hotel’ trong từ điển trọng số GloVe .......... 64 Hình 3.21 Kết quả trích xuất đặc trưng với GloVe ......................................... 64 Hình 3.22 Tập vector đặc trưng được trích xuất từ điển TF-IDF của tập dữ liệu huấn luyện ....................................................................................................... 65 Hình 3.23 Một vector đặc trưng của một lời bình luận qua kỹ thuật TF-IDF 66 Hình 3.24 Mô hình phân loại kết hợp trích xuất đặc trưng bằng lớp Embedding và BiLSTM...................................................................................................... 67 Hình 3.25 Kết quả huấn luyện mô hình Thí nghiệm 1 ................................... 68 Hình 3.26 Kết quả kiểm tra mô hình của Thí nghiệm 1 ................................. 68 Hình 3.27 Mô hình phân loại kết hợp trích xuất đặc trưng bằng lớp Embedding với ma trận trọng số GloVe và BiLSTM ........................................................ 69 Hình 3.28 Kết quả huấn luyện mô hình Thí nghiệm 2 ................................... 70 Hình 3.29 Kết quả kiểm tra mô hình của Thí nghiệm 2 ................................. 70 Hình 3.30 Mô hình phân loại kết hợp trích xuất đặc trưng với TF-IDF kết hợp mô hình phân loại BiLSTM ............................................................................ 71 Hình 3.31 Kết quả huấn luyện mô hình Thí nghiệm 3 ................................... 72 Hình 3.32 Kết quả kiểm tra mô hình của Thí nghiệm 3 ................................. 72 Hình 3.33 Kết quả huấn luyện mô hình Thí nghiệm 4 ................................... 73 Hình 3.34 Kết quả kiểm tra mô hình của thí nghiệm 4 ................................... 73 Hình 3.35 Kết quả huấn luyện mô hình Thí nghiệm 5 ................................... 74 Hình 3.36 Kết quả kiểm tra mô hình Thí nghiệm 5 ........................................ 74 Hình 3.37 Kết quả huấn luyện mô hình Thí nghiệm 6 ................................... 75 Hình 3.38 Kết quả kiểm tra mô hình Thí nghiệm 6 ........................................ 75 xi
  14. PHẦN I MỞ ĐẦU 1. Tính cấp thiết của đề tài Theo báo cáo thường niên của Bộ Văn hóa thể thao và Du lịch Việt Nam [1], năm 2019 tiếp tục là một năm thắng lợi của Du lịch Việt Nam. Ngành du lịch đón trên 18 triệu lượt khách quốc tế, tăng 16,2%; phục vụ 85 triệu lượt khách nội địa, tăng 6%; tổng thu du lịch đạt 755 nghìn tỷ đồng, tăng 18,5% so với năm 2018. Việt Nam cũng lần thứ 2 liên tiếp được ghi nhận là điểm đến hàng đầu khu vực Châu Á do World Travel Awards trao tặng. Đóng góp trực tiếp của du lịch chiếm tỷ trọng ngày càng cao trong Tổng sản phẩm quốc nội (GDP): năm 2015 là 6,3% đến năm 2019 là 9,2%, tăng 2,9 điểm phần trăm. Theo đà tăng trưởng của ngành du lịch, hoạt động kinh doanh cơ sở lưu trú du lịch (CSLTDL) cũng được đầu tư và mở rộng đáp ứng nhu cầu đa dạng của khách du lịch trong nước và quốc tế. Đến hết năm 2019, tổng số CSLTDL cả nước ước tính khoảng 30.000 cơ sở với 650.000 buồng, tăng 2.000 CSLTDL (+7,1%) và 100.000 buồng (+18%) so với năm 2018. giai đoạn 2015-2019, số lượng CSLTDL tăng 1,58 lần từ 19.000 cơ sở lên 30.000 cơ sở (tăng bình quân 12,0%/năm); số lượng buồng tăng 1,76 lần từ 370.000 buồng lên 650.000 buồng (tăng bình quân 15,1%/năm). Dấu ấn về công nghệ số hiện hữu ngày càng rõ nét trong lĩnh vực kinh doanh lưu trú với xu hướng gia tăng đặt phòng trực tuyến, thanh toán điện tử, công nghệ thông minh được áp dụng trong quản lý và cung cấp tiện ích phục vụ khách tại cơ sở lưu trú. Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Chỉ thị 16/CT-TTg ngày 04/5/2017 của Thủ tướng Chính phủ về việc tăng cường năng lực tiếp cận cuộc Cách mạng công nghiệp lần thứ 4, trong đó đặt ra yêu cầu ưu tiên phát triển du lịch thông minh. Quyết định 1671/QĐ-TTg ngày 30/11/2018 của Thủ tướng Chính phủ phê duyệt Đề án tổng thể ứng dụng Công nghệ thông tin trong lĩnh vực du lịch giai đoạn 2018-2020, định hướng đến năm 2025 xác định quan điểm ứng dụng công nghệ thông tin là yêu cầu, giải pháp đột phá để tạo thuận lợi, thu hút khách du lịch, nâng cao năng lực cạnh tranh và hội nhập quốc tế, góp phần hiện thực hóa mục tiêu phát triển du lịch trở thành ngành kinh tế mũi nhọn. Và Quyết định 1783/QĐ-BVHTTDL ngày 17/5/2019 của Bộ VHTTDL ban hành Kế hoạch thực hiện Đề án tổng thể ứng dụng công nghệ thông tin trong lĩnh vực 1
  15. du lịch, đề ra những nhiệm vụ, giải pháp cụ thể để triển khai Đề án của Thủ tướng Chính phủ. Nhu cầu ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn hiện nay. Khai phá dữ liệu từ các lời bình luận, bình luận của du khách trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới đáp ứng nhu cầu này. Dữ liệu về các khách sạn, nhà hàng, điểm đến thu hút khách du lịch hay phản hồi và đánh giá của họ tạo ra một bộ dữ liệu du lịch khổng lồ, ẩn chứa trong đó nhiều tri thức có giá trị. Khám phá từ bộ dữ liệu du lịch này để có được những thông tin mới, thú vị và hữu ích có thể giúp cho các CSLTDL tối ưu các sản phẩm du lịch đồng thời xác định được các đối tượng du lịch cùng hành vi và sở thích của họ. Cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý CSLTDL có thể thu được từ bộ dữ liệu du lịch này. Tùy từng mức độ phân tích mà cảm xúc này có biểu hiện được một cái nhìn tổng quan hay một khía cạnh cụ thể từ góc nhìn của khách hàng đối với chất lượng của dịch vụ. Tuy nhiên, việc đọc và phân tích hàng trăm, thậm chí hàng ngàn đánh giá mỗi ngày là một công việc rất khó khăn đối với con người. Do đó, ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận. 2. Mục tiêu nghiên cứu 2.1. Mục tiêu chung Mục tiêu chung của nghiên cứu là ứng dụng được học máy và xử lý ngôn ngữ tự nhiên để tạo ra một hệ thống có khả năng nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét. 2.2. Mục tiêu cụ thể - Thu thập các lời bình luận và nhận xét bằng tiếng Anh của du khách về khách sạn kèm điểm đánh giá. - Ứng dụng xử lý ngôn ngữ tự nhiên để trích xuất các đặc trưng của các lời bình luận, nhận xét. - Ứng dụng học máy để học tập và nhận diện mức độ hài lòng của du khách qua các lời bình luận nhận xét. - Đề xuất mô hình kết hợp học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách thông qua các lời bình luận, nhận xét. - Thực nghiệm triển khai mô hình và đánh giá kết quả mô hình. 2
  16. 3. Đối tượng và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu - Mức độ hài lòng của du khách nước ngoài đối với khách sạn tại Việt Nam thông qua các lời bình luận và nhận xét trên nền tảng TripAdvisor. - Nền tảng TripAdvisor - Các mô hình học máy: ▪ Mạng nơron LSTM ▪ RandomForest (RF) - Các kỹ thuật xử lý ngôn ngữ tự nhiên: ▪ Về tiền xử lý văn bản ▪ Phân tích và lấy mẫu ▪ Làm sạch dữ liệu • Loại bỏ kí tự đặc biệt • Loại bỏ từ dừng • Chuẩn hóa chữ thường • Chuẩn hóa chính tả • Bổ đề ngôn ngữ ▪ Trích chọn tập con đặc trưng ▪ Biến đổi thuộc tính dữ liệu ▪ Về trích xuất đặc trưng ▪ Nhúng từ (Embedding) ▪ Term frequency – Inverse document frequency (TF-IDF) ▪ Global Vector (GloVe) - Các thang đo điểm đánh giá mô hình học máy: ▪ Thang đo MA F1-score ▪ Thang đo WA F1-score ▪ Thang đo Accuracy 3.2. Phạm vi nghiên cứu - Thời gian: 03/2023-09/2023. - Không gian: Thực nghiệm trên bộ dữ liệu lời bình luận, nhận xét bằng tiếng Anh của tất cả du khách nước ngoài cùng điểm đánh giá về các khách sạn ở Việt Nam thu được từ website Tripadvisor.com. - Thời điểm hoàn thành thu thập dữ liệu: 30/8/2023. 3
  17. 4. Phương pháp nghiên cứu Nghiên cứu này sử dụng kết hợp các phương pháp nghiên cứu sau: - Phương pháp nghiên cứu lý thuyết, tổng hợp tài liệu: lý thuyết về thu thập dữ liệu, lý thuyết về xử lý ngôn ngữ tự nhiên, lý thuyết học máy. - Phương pháp thực nghiệm: xây dựng chương trình thu thập dữ liệu, chương trình xử lý dữ liệu, chương trình học máy kết hợp xử lý ngôn ngữ tự nhiên. - Phương pháp thu thập dữ liệu: Sử dụng các kỹ thuật thu thập dữ liệu tự động (Crawling) để tiến hành thu thập các bài đánh giá, nhận xét về khách sạn bao gồm dữ liệu về nội dung lời đánh giá và xếp hạng sao của đánh giá. - Các phương pháp tiền xử lý dữ liệu văn bản và gán nhãn cho dữ liệu và lưu lại thành tập dữ liệu cho thực nghiệm. - Các thuật toán học máy: Sử dụng thuật toán học máy khác nhau về xử lý ngôn ngữ tự nhiên trong quá trình đào tạo và kiểm thử mô hình thực nghiệm. 5. Kết cấu luận văn: Nội dung luận văn gồm có 3 chương: Chương 1: Cơ sở lý luận và thực tiễn về học máy và xử lý ngôn ngữ tự nhiên trong nhận diện mức độ hài lòng từ các lời đánh giá và nhận xét. Chương 2: Đề xuất mô hình nhận diện mức độ hài lòng của du khách đối với các khách sạn thông qua các lời bình luận trên Tripadvisor. Chương 3: Thực nghiệm mô hình đề xuất và phân tích kết quả. 4
  18. PHẦN II NỘI DUNG NGHIÊN CỨU CHƯƠNG 1. THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT 1.1. Tổng quan tình hình nghiên cứu trên thế giới và trong nước 1.1.1. Tình hình nghiên cứu trên thế giới Một nghiên cứu của Abdulaziz M. Alayba và cộng sự (2018) [2] đã nghiên cứu về một mô hình kết hợp mạng thần kinh tích chập (Convolutional Neural Network - CNN) và mạng bộ nhớ dài ngắn hạn (Long Short-Term Memory - LSTM) cùng với các tác vụ Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) để phân loại cảm xúc cho văn bản. Nghiên cứu sử dụng bô bộ dữ liệu văn bản bằng tiếng Ả Rập, được gán nhãn với hai lớp cảm xúc bao gồm Tích cực và Tiêu cực. Bộ dữ liệu được tạo ra bởi bốn tập dữ liệu bao gồm: Tập dữ liệu dịch vụ y tế Ả Rập, tập dữ liệu các tweet trên Twitter (Ar-Twitter) chứ 2000 tweet với 1000 tweet cho mỗi lớp cảm xúc, một tập dữ liệu khác về cảm xúc bằng Tiếng Ả Rập chưa 54.000 tweets bao gồm bốn lớp cảm xúc, trong đó chỉ xử dụng 1684 tweet có với cảm xúc tiêu cực và 795 tweet có cảm xúc tích cực. Các tác giả mở rộng số lượng tính năng trong tập dữ liệu thông qua phương pháp phân tách văn bản theo ba cấp độ bao gồm: cấp độ ký tự, cấp độ chuỗi ký tự và cấp độ từ. Thí nghiệm cho thấy đối với phương pháp phân tách văn bản theo cấp độ từ hoặc chuỗi ký tự có kết quả phân loại tình cảm tốt hơn đối với cấp độ ký tự. Mô hình đã cho ra kết quả phân loại cảm xúc dối với tập dữ liệu Dịch vụ Y tế Ả Rập (AHS) đạt 94,24%. Một nghiên cứu khác của Rehman và cộng sự (2019) [3]cũng đã đề xuất mô hình có tên là Hybird CNN-LSTM để giải quyết vấn đề phân tích tình cảm. Đầu tiên, nghiên cứu này sử dụng phương pháp Word to Vector (Word2Vc) để huấn luyện các biểu diễn từ ban đầu còn được gọi là nhúng từ. Word2Vc chuyển đổi các chuỗi văn bản thành một vector các giá trị số, tính toán khoảng cách giữa các từ và tạo các nhóm các từ tương tự dựa trên ý nghĩa của chúng. Sau khi thực hiện nhúng từ, mô hình đề xuất kết hợp tập hợp các đặc trưng được trích xuất bởi các lớp tích chập và lớp tổng hợp tối đa toàn cầu với các phụ thuộc dài hạn. Mô hình đề xuất cũng sử dụng kỷ thuật bỏ học, chuẩn hóa và một đơn vị tuyến tính chỉnh lưu để cải thiện độ chính xác. Kết quả của nghiên cứu cho thấy rằng Mô hình Hybird CNN-LSTM được đề xuất vượt trội hơn các kỹ thuật học sâu và học máy truyền thống về các điểm đánh giá như precision, 5
  19. recall, f-measure, và accuracy. Mô hình được đào tạo trên tập dữ liệu đánh giá phim IMDB với 40.000 bài đánh giá và tập dữ liệu đánh giá phim Amazon với 2000 bài đánh giá. Tất cả các bài đánh giá đều được gán nhãn từ hai phân loại cảm xúc tích cực và tiêu cực. Kết quả thí nghiệm đã đạt được những điểm nổi bật là mô hình được đề xuất cải thiện điểm số f-measure lên tới 4-8% so với các mô hình CNN hay LSTM riêng lẻ. Độ chính xác của mô hình cũng đạt được hơn 90%. Kết quả này vẫn thấp hơn với mô hình kết hợp Naïve Bayes và Support Vector Machine tuy sự chênh lệch về độ chính xác là không nhiều. Một nghiên cứu của Ali Ahani và cộng sự (2019) [4]đã nghiên cứu về việc áp dụng các phương pháp học máy vào phân tích các đánh giá và xếp hạng trực tuyến đối với khách sạn. Mục tiêu của nghiên cứu này là phát triển phương pháp phân khúc khách sạn spa và dự đoán lựa chọn du lịch của khách hàng bằng cách áp dụng các phương pháp học máy. Phương pháp đánh giá được thực hiện thông qua tập hợp các tập dữ liệu từ xếp hạng của khách du lịch và đánh giá bằng văn bản về các khách sạn spa trên TripAdvisor. Nghiên cứu đã đề xuất một phương pháp phân khúc khách sạn qua các bước: Chuẩn bị dữ liệu, phân cụm dữ liệu bằng phương pháp phân cụm không giám sát (Self-Organizing Map - SOM), tính toán độ tương đồng giữa các cụm bằng phương pháp phân tích dữ liệu đa chiều Phân tích (Hierarchical Orthogonal Singular Value Decomposition – HOSVM), dự đoán mối quan tâm của khách hàng trong từng cụm bằng phương pháp phân loại và hồi quy dựa trên cây quyết định (Classification and Regression Trees – CART), phương pháp khai phá văn bản (Text mining). Kết quả nghiên cứu đã phát hiện được chín phân khúc thị trường khách sạn khác nhau. Một nghiên cứu của Said Gadri và cộng sự (2021) [5] nghiên cứu được một hệ thống có thể dự đoán được sự hài lòng của khách hàng đối với các dịch vụ du lịch với độ chính xác lên đến 85%. Hệ thống sử dụng các phương pháp học máy và học sâu như Linear Discriminant Analysis, k-nearest neighbors, Classification and Regression Trees, Naive Bayes, Deep Neural Networks và Support Vector Machines. Tập dữ liệu được thu thập gồm các khoảng 100.000 lời bình luận trên Tripadvisor cho nhiều loại dịch vụ du lịch. Dữ liệu đã được gán nhãn bởi mộ nhóm chuyên gia dựa trên các tiêu chí về nội dung, từ ngữ, giọng điệu và một số yếu tố khác theo thang điểm của mức độ hài lòng từ 1 đến 5 sao với sự cân bằng về tỉ lệ cho khoảng 20% lời bình luận ở mỗi mức độ. Nghiên cứu này có một số hạn chế về tập dữ liệu có thể kể đến đầu tiên về quy mô tập dữ liệu, dữ liệu được chia nhỏ thành nhiều mảng cho nhiều dịch vụ với khoảng 10.000 lời bình luận cho mỗi dịch vụ. Điều này có thể khiến cho kết 6
  20. quả dự đoán không chính xác theo từng ngữ cảnh cụ thể của từng dịch vụ. Thứ hai việc gắn nhãn được xử lý thủ công bởi một nhóm chuyên gia và dựa trên một số tiêu chí, tuy điều này giúp tập dữ liệu chính xác hơn nhưng cũng dẫn đến sai lệch do sự chủ quan trong phân tích, gây tốn kém về sức người và thời gian xử lý và sẽ rất khó khăn nếu cần xử lý trên tập dữ liệu kích thước lớn hơn. Một nghiên cứu của Mingyang Li và cộng sự (2022) [6] đã đề xuất một phương pháp dựa trên lý thuyết bằng chứng (Evidence Theory - là một mô hình toán học để xử lý thông tin không chắc chắn) để khám phá sự hài lòng ẩn chứa bên trong các bài đánh giá của khách hàng với khách sạn thông qua các bài đánh giá trực tuyến đa website. Phương pháp này đầu tiên xác định các thuộc tính khách sạn quan trọng nhất từ các bài đánh giá, sau đó sử dụng lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng với từng thuộc tính. Phương pháp này được đánh giá trên một tập dữ liệu gồm 1000 bài đánh giá trực tuyến cho 10 khách sạn. Kết quả cho thấy phương pháp này có thể tính toán mức độ hài lòng của khách hàng với độ chính xác cao. Nghiên cứu này có một số hạn chế. Đầu tiên, nghiên cứu chỉ sử dụng một tập dữ liệu với kích thước nhỏ. này có thể dẫn đến sự thiên vị trong kết quả nghiên cứu. Thứ hai, nghiên cứu chỉ tập trung vào một số thuộc tính khách sạn nhất định, chẳng hạn như vị trí, giá cả, tiện nghi và dịch vụ khách hàng. Điều này có thể dẫn đến việc bỏ qua các thuộc tính khách sạn quan trọng khác. Cuối cùng, nghiên cứu chỉ sử dụng phương pháp dựa trên lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng. Điều này có thể dẫn đến việc bỏ qua các phương pháp khác có thể chính xác hơn. 1.1.2. Tình hình nghiên cứu tại Việt Nam Tại Việt Nam, các nghiên cứu về ứng dụng học máy và xử lý ngôn ngữ tự nhiên cũng được triển khai từ rất sớm. Trong đó có thể kể đến nghiên cứu của Nguyễn Tấn Phát và cộng sự (2014) [7] đưa ra một hệ thống phân tích quan điểm các nhận xét của tiếng Việt trên các website thương mại điện tử dựa trên xử lý ngôn ngữ tự nhiên. Hệ thống này có khả năng xác định xác định các chủ đề được đề cập đến trong lời bình luận và đưa ra nhận định về ý nghĩa của nhận xét mang tính tích cực, tiêu cực hoặc trung tính. Tập dữ liệu sử dụng trong nghiên cứu này bao gồm ba loại: Tập dữ liệu bình luận một thực thể chứa các bình luận nói về một thực thể duy nhất, tập dữ liệu bình luận nhiều thực thể chứa các bình luận nói về nhiều hơn một thực thể, tập dữ liệu hỗn hợp chứa cả các lời bình luận về chỉ một thực thể hoặc nhiều hơn một thực thể. Kết quả của nghiên cứu này có độ chính xác trên tập bình luận một thực thể là 90,37%, trên tập bình luận nhiều thực thể là 67,44% và trên tập bình luận về một hoặc nhiều 7
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
45=>0