intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học máy tính: Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:70

16
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử" được hoàn thành với mục tiêu nhằm đề xuất một mô hình đa phương thức sử dụng mạng nơ ron tích chập đồ thị cho bài toán dự đoán độ tin cậy bình luận sử dụng dữ liệu văn bản và hình ảnh.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỮU QUANG PHÂN TÍCH ĐỘ TIN CẬY CỦA BÌNH LUẬN TRÊN TRANG WEB THƯƠNG MẠI ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI – 2021
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỮU QUANG PHÂN TÍCH ĐỘ TIN CẬY CỦA BÌNH LUẬN TRÊN TRANG WEB THƯƠNG MẠI ĐIỆN TỬ Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ ĐỨC TRỌNG HÀ NỘI – 2021
  3. i LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến TS. Lê Đức Trọng đã hướng dẫn, giúp đỡ tận tình, chi tiết em trong quá trình học tập cũng như trong việc hoàn thành luận văn. Bên cạnh đó, em cũng xin cảm ơn TS. Harry Nguyen - là người đã tư vấn, đưa ra những lời khuyên bổ ích và định hướng em giải quyết nhiều vấn đề. Em xin cảm ơn Khoa Khoa học máy tính - Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tạo điều kiện giúp em hoàn thành đề tài này Do giới hạn kiến thức và khả năng lý luận của bản thân còn nhiều thiếu sót và hạn chế, kính mong sự chỉ dẫn và đóng góp của các Thầy, Cô để bài luận văn của tôi được hoàn thiện hơn. Xin chân thành cảm ơn!
  4. ii LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung được trình bày trong luận văn Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử là kết quả quá trình tìm hiểu và nghiên cứu của tôi. Các dữ liệu được nêu trong đồ án là hoàn toàn trung thực, phản ánh đúng kết quả đo đạc thực tế. Mội thông tin trích dẫn đều tuân thủ các quy định về sở hữu trí tuệ; các tài liệu tham khảo được liệt kê rõ ràng. Tôi xin chịu hoàn toàn trách nhiệm với những nội dung được viết trong luận văn này Hà Nội, ngày 25 tháng 10 năm 2021 Người cam đoan Nguyễn Hữu Quang
  5. iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU v PHẦN MỞ ĐẦU 1 CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN 3 1.1 Dữ liệu thương mại điện tử 3 1.2 Bài toán dự đoán độ tin cậy của bình luận trực tuyến 7 1.3 Mô hình đa phương thức kết hợp mạng nơ ron đồ thị cho dự đoán độ tin cậy của bình luận 10 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 14 2.1 Các nghiên cứu liên quan 14 2.2 Kiến thức nền tảng 18 2.2.1 Mô hình lập luận mạch lạc đa phương thức 18 2.2.2 Mạng nơ ron tích chập cho dữ liệu đồ thị 28 CHƯƠNG 3. MÔ HÌNH ĐỀ XUẤT 35 3.1 Đề xuất sử dụng mạng nơ-ron đồ thị tích chập trong mô-đun phân tích quan hệ giữa các bình luận 35 3.2 Đánh giá ảnh hưởng của các mô hình nhúng 38 CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ 40 4.1 Mô tả dữ liệu 40 4.2 Phương pháp đánh giá và cài đặt thực nghiệm 43 4.3 Kết quả thực nghiệm 48 CHƯƠNG 5. KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 56
  6. iv DANH MỤC HÌNH VẼ Hình 1.1 Doanh số thương mại điện tử bán lẻ toàn cầu từ 2014 đến 2024 4 Hình 1.2 Một trang thông tin về sản phẩm trên website Amazon 5 Hình 1.3 Bình luận đánh giá của khách hàng đối với sản phẩm trên website 6 Amazon.com Hình 1.4 Ví dụ xem xét một sản phẩm trên Amazon và những bình luận xung 11 quanh sản phẩm Hình 2.1 MLP với hai lớp ẩn 25 Hình 2.2 Ví dụ về một số dạng dữ liệu đồ thị trong thực tế 28 Hình 2.3 Ví dụ ma trận kề của một đồ thị 29 Hình 2.4 Mỗi nút của đồ thị được ánh xạ thành một vectơ biểu diễn đặc trưng 30 của nút Hình 2.5 Mạng GCN nhiều lớp với các bộ lọc bậc thấp 32 Hình 2.6 Ví dụ về tích chập một đồ thị 33 Hình 3.1 Mô hình GCR cho dự đoán độ tin cậy của bình luận 35 Hình 3.2 Cách thức hoạt động của mô đun phân tích quan hệ giữa các bình 36 luận của MCR và GCR Hình 3.3 Bộ nhúng ngôn ngữ được sử dụng để chuyển văn bản thành vectơ 38 ngữ nghĩa Hình 4.1 Quá trình tiền xử lý dữ liệu bình luận 41 Hình 4.2 Phân chia tập dữ liệu trong huấn luyện và đánh giá mô hình 42 Hình 4.3 Các bước huấn luyện và đánh giá mô hình GCR 47 Hình 4.4 So sánh kết quả MCR giữa ba mô hình nhúng trong tập Clothing 51 Hình 4.5 So sánh kết quả MCR giữa ba mô hình nhúng trong tập Electronics 51 Hình 4.6 So sánh kết quả MCR giữa ba mô hình nhúng trong tập 52 Home&Kitchen
  7. v DANH MỤC BẢNG BIỂU Bảng 4.1 Thống kê số lượng mẫu trên ba tập dữ liệu. 42 Bảng 4.2 So sánh kết quả mô hình GCR với MCR trên bộ nhúng GLoVE 48 Bảng 4.3 So sánh chất lượng mô hình GCR trên ba tập dữ liệu với ba bộ 50 nhúng đề xuất Bảng 4.4 So sánh sự cải thiện hiệu quả của mô hình GCR dùng Word2Vec với 53 mô hình cơ sở Bảng 4.5 So sánh hiệu suất huấn luyện bao gồm bộ nhớ chiếm dụng và tốc độ 54 huấn luyện trên một lần lặp của GCR và MCR trên ba bộ dữ liệu
  8. 1 PHẦN MỞ ĐẦU Những năm gần đây, thương mại điện tử đang trở nên phổ biến và dần trở thành một phần trong cuộc sống của mọi người với việc nhu cầu mua sắm của con người ngày càng tăng cao. Bình luận của khách hàng đối với sản phẩm trở thành phương tiện tham khảo của người dùng trước khi đưa ra quyết định mua hàng. Từ đó, bài toán dự đoán độ tin cậy của bình luận ra đời nhằm hỗ trợ khách hàng ra quyết định. Tận dụng thông tin về văn bản, đánh giá của bình luận và sản phẩm, luận văn đề xuất một mô hình mạng nơron tích chập đồ thị cho bài toán dự đoán độ tin cậy. Trong luận văn, em tập trung vào việc đề xuất mô hình mạng đồ thị phân tích quan hệ giữa các bình luận và tìm hiểu ảnh hưởng của các bộ nhúng ngôn ngữ đối với chất lượng mô hình. Từ kết quả thực nghiệm đưa ra nhận xét, đánh giá để hiểu rõ hơn về thuật toán sử dụng, mức độ cải thiện của mô hình. Luận văn bao gồm các chương: Chương 1: trình bày về sự phát triển bùng nổ và phổ biến của thương mại điện tử nói chung và các trang web thương mại điện tử nói riêng. Điều này dẫn đến việc các trang web tạo ra và lưu trữ lượng dữ liệu thông tin khổng lồ trong đó có bình luận của khách hàng đối với sản phẩm họ quan tâm. Trình bày về động lực thúc đẩy nghiên cứu và giải quyết bài toán độ tin cậy của bình luận. Từ đó đưa ra đề xuất một mô hình đa phương thức sử dụng mạng nơ ron tích chập đồ thị cho bài toán dự đoán độ tin cậy bình luận sử dụng dữ liệu văn bản và hình ảnh. Chương 2: trình bày một số nghiên cứu liên quan đến mô hình cho bài toán dự đoán độ tin cậy của bình luận và các mô hình mạng nơ ron đồ thị. Trình bày kiến thức cơ sở cho mô hình đa phương thức cho bài toán dự đoán độ tin bình luận. Trình bày lý thuyết về dữ liệu đồ thị, mạng nơ ron tích chập trên dữ liệu đồ thị làm cơ sở cho mạng GCN được đề xuất Chương 3: trình bày về mô hình đề xuất phân tích quan hệ giữa các bình luận sử dụng mạng GCN nhằm nâng cao chất lượng mô hình dự đoán độ tin cậy bình
  9. 2 luận. Trình bày ý tưởng cơ bản của các bộ nhúng ngôn ngữ nhằm hướng tới thực nghiệm trên các bộ nhúng khác nhau để tìm hiểu sự ảnh hưởng của chúng đến chất lượng mô hình đề xuất. Chương 4: trình bày về dữ liệu thực nghiệm, thống kê và tiền xử lý dữ liệu bình luận. Đưa ra phương pháp đánh giá mô hình dự đoán cùng với phương pháp cài đặt thử nghiệm mô hình trên tập dữ liệu. Trình bày kết quả thử nghiệm mô hình đề xuất, so sánh các kết quả thu được trên các bộ dữ liệu khác nhau. Chương 5: đưa ra các kết quả em đạt được khi hoàn thành luận văn cũng như nhận xét tổng thể về luận văn đã thực hiện. Trong quá trình tìm hiểu, phân tích đánh giá, em không tránh khỏi những sai sót, mong thầy cô đóng góp ý kiến để em có thể ngày càng hoàn thiện hơn về kỹ năng tìm hiểu, giải quyết bài toán cũng như phương pháp đánh giá phân tích vấn đề.
  10. 3 CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN Chương 1 giới thiệu về bài toán dự đoán độ tin cậy của đánh giá, tính hữu ích, thực tiễn của bài toán, ý tưởng của mô hình đa phương thức được sử dụng trong luận văn; trình bày đóng góp của luận văn trong việc sử dụng mạng nơ ron tích chập đồ thị và sử dụng các bộ nhúng ngôn ngữ khác nhau nhằm cải tiến hiệu quả của phương pháp tốt nhất hiện có cùng kết quả đạt được. 1.1 Dữ liệu thương mại điện tử Trong vài năm trở lại đây, thương mại điện tử (e Commerce) đã trở thành một phần không thể thiếu trong ngành bán lẻ toàn cầu. Với sự phát triển rộng rãi của mạng Internet và quá trình số hoá liên tục của cuộc sống hiện đại, người tiêu dùng từ hầu hết mọi quốc gia hiện nay đều tiếp cận và được hưởng lợi từ việc giao dịch thương mại trực tuyến. Song song với đó, số lượng người mua hàng trực tuyến không ngừng tăng lên hàng năm. Vào năm 2020, có hơn 2 tỷ người mua hàng1 hoặc dịch vụ trực tuyến với doanh số bán lẻ lên đến 4.2 tỷ đô la Mỹ trên toàn thế giới2. Cũng trong năm đại dịch này, doanh số thương mại điện tử tăng hơn 25% theo Statista. Hình 1.1 cho thấy doanh số của nền thương mại điện tử bán lẻ từ năm 2014 đến năm 2020 và dự đoán những năm tới (số liệu tháng 12 năm 2020). Số liệu tăng từ năm 2014 đến 2020 cho thấy sự phát triển ổn định và nhanh chóng của nền thương mại điện tử và tiềm năng to lớn khi các chuyên gia dự đoán doanh số tiếp tục tăng trong 4 năm kế tiếp. 1 "Digital buyers worldwide 2021 | Statista." 13 thg 10. 2021, https://www.statista.com/statistics/251666/number-of-digital-buyers-worldwide/. Ngày truy cập 25 thg 11. 2021. 2 "E-commerce worldwide - statistics & facts | Statista." 27 thg 10. 2021, https://www.statista.com/topics/871/online-shopping/. Ngày truy cập 25 thg 11. 2021.
  11. 4 Hình 1.1 Doanh số thương mại điện tử bán lẻ toàn cầu từ 2014 đến 20243 Thương mại điện tử là hình thức kinh doanh cho phép người mua và người bán giao dịch hàng hóa qua Internet. Những người tham gia, bao gồm người bán và mua hàng có thể chọn trong số những nền tảng trình duyệt để tìm kiếm, so sánh, đăng thông tin những sản phẩm hoặc dịch vụ. Tính đến năm 2019, việc mua bán trên các gian hàng trực tuyến chiếm thị phần lớn nhất mua hàng trực tuyến lớn nhất trên thế giới. Dẫn đầu trong số những websites bán lẻ trực tuyến với lượng truy cập lớn nhất là Amazon với hơn 3.6 tỷ lượt ghé thăm hàng tháng trong năm 2020. Những người dùng truy cập các website thương mại điện tử thông qua ứng dụng web trên máy tính hoặc ứng dụng trên điện thoại di động. Trong bối cảnh Internet và World Wide Web phát triển bùng nổ và phổ biến nhanh chóng, người dùng Internet tiếp cận với việc mua sắm trực tuyến ngày 3 "Global retail e-commerce market size 2014-2023 | Statista." https://www.statista.com/statistics/379046/worldwide-retail-e-commerce-sales/. Ngày truy cập 25 thg 11. 2021.
  12. 5 càng dễ dàng và thuận tiện với chi phí rẻ. Một hệ quả tất yếu, các dịch vụ mua sắm online nhanh chóng nổi lên như một hiện tượng kinh doanh và xã hội. Hình 1.2 Một trang thông tin về sản phẩm trên website Amazon Những nền tảng web trực tuyến như Amazon được thiết kế giống như một “chợ” mua sắm gồm đa dạng sản phẩm như đồ điện tử, gia dụng, may mặc, … Những người bán đăng sản phẩm của mình lên website - nơi những người có nhu cầu cần mua tìm kiếm và xem các sản phẩm họ cần. Bên phía người mua hàng, họ có hàng ngàn sự lựa chọn giữa rất nhiều mặt hàng và thương hiệu. Các sản phẩm được sắp xếp theo loại mặt hàng, nhãn hàng, theo nhiều phân khúc giá giống như một siêu thị khổng lồ. Thậm chí, việc tìm kiếm sản phẩm trên website còn nhanh và dễ dàng hơn việc tìm mua sản phẩm ở cửa hàng ngoài thực tế. Đó chính là điểm mạnh thu hút người dùng của thương mại điện tử so với thương mại truyền thống. Việc nhu cầu mua sắm ngày càng tăng, sự tiện lợi, dễ sử dụng kéo theo số người dùng đông đảo đã hàng ngày, hàng giờ tạo ra khối lượng dữ liệu khổng lồ. Dữ liệu trên các trang web thương mại điện tử có thể kể đến là thông tin sản phẩm, thông tin người dùng, phản hồi, bình luận của người dùng về một sản phẩm, … Trang web thương mại điện tử được xây dựng hướng đến việc trở thành nền tảng trung gian trong việc mua bán giữa mọi người. Những nền tảng này tạo ra
  13. 6 môi trường mua bán bằng cách mô phỏng hành vi ngoài thực tế. Những hành vi đó bao gồm việc người bán có thể bày bán thông tin sản phẩm lên website, đi kèm với thông tin tên, mô tả, giá của sản phẩm, những ưu đãi kèm theo, thông tin liên lạc, … Đối với người có nhu cầu mua hàng, họ có thể tìm kiếm sản phẩm thông qua nhiều cách như truy vấn từ khóa, lựa chọn sản phẩm được liệt kê danh sách (giống với việc đi siêu thị mua hàng), xem thông tin sản phẩm, giá cả, liên lạc với người bán hoặc để lại phản hồi đối với sản phẩm. Hình 1.3 Bình luận đánh giá của khách hàng đối với sản phẩm trên website Amazon.com
  14. 7 Những thông tin này được người mua hàng hoặc người bán tạo ra trong quá trình mua sắm hoặc bày bán gian hàng của mình trên website. Hay nói cách khác nó ghi lại các hành vi, nội dung mà người dùng website để lại. Như vậy, thương mại điện tử phát triển sinh ra lượng dữ liệu lớn và đa dạng. Dữ liệu này thể hiện những hành vi, ý định thực tế từ người dùng. Do vậy, việc khai thác, tận dụng chúng có thể mang lại nhiều giá trị cho doanh nghiệp và bản thân những khách hàng. Mục tiếp theo sẽ trình bày về dữ liệu bình luận sản phẩm của khách hàng và bài toán dự đoán độ tin cậy của bình luận được kỳ vọng mang đến nhiều giá trị lợi ích cho người dùng. 1.2 Bài toán dự đoán độ tin cậy của bình luận trực tuyến Ở mục trên, ta đã nói đến việc khách hàng đưa ý kiến, bình luận của mình đối với sản phẩm trên trang web thương mại điện tử. Những bình luận trực tuyến ngày nay đã trở thành yếu tố quan trọng trong việc giúp khách hàng đưa ra quyết định mua sắm. Những bình luận thể hiện ý kiến mang tính chân thực từ những khách hàng khác đã mua, sử dụng sản phẩm để lại. Những bình luận trực tuyến của người dùng được coi như một dạng truyền miệng được số hoá [10]. Do đó, chúng mang đến giá trị tham khảo nhất định cho những khách hàng tiềm năng - những người đang phân vân về sản phẩm. Trong một nghiên cứu tại [33], Moore đã chỉ ra rằng 92% khách hàng ngày nay đọc những bình luận của người dùng khác trước khi mua một sản phẩm. Như vậy rõ ràng, bên cạnh thông tin mô tả sản phẩm, việc đọc bình luận trở thành hành vi quen thuộc, cần có của mọi người mua hàng. Điều này tương đồng với thói quen ngoài đời thật của chúng ta đó là trước khi mua một món hàng, bên cạnh việc tìm hiểu nó, chúng ta thường có xu hướng tìm hỏi những người đã trải nghiệm sản phẩm hoặc có kinh nghiệm về loại mặt hàng liên quan. Ngoài ra, các bình luận trực tuyến khác nhau về mức độ hỗ trợ của chúng đối với khách hàng do mang tính chủ quan. Thực tế, không phải tất cả bình luận đều có ích đối với người đọc. Chúng có thể mang những thông tin không chính xác, không đáng tin cậy hoặc spam.
  15. 8 Sự phát triển của Internet và các website đang cho phép khách hàng chia sẻ những trải nghiệm, ý kiến và phản hồi của mình đối với sản phẩm, dịch vụ hoặc nhãn hàng dưới dạng bình luận trực tuyến cho những khách hàng khác. Nghiên cứu [36] chỉ ra rằng khách hàng dựa nhiều vào những bình luận trực tuyến để đưa ra quyết định mua hàng của mình và chúng được tin tưởng chỉ sau những lời khuyên từ bạn bè. Sự ảnh hưởng của bình luận sản phẩm đến quyết định của người tiêu dùng nổi bật đến mức nhiều công ty hiện đang lưu trữ các bài bình luận trên trang web của riêng họ để cho phép những người cùng nhóm thảo luận về chất lượng sản phẩm của họ4. Bên cạnh việc thương mại điện tử phát triển tạo ra lượng dữ liệu khổng lồ, đặc biệt là dữ liệu bình luận đầy tiềm năng khai thác, nảy sinh một vấn đề khác đầy thách thức là việc quá tải thông tin đối với khách hàng. Trên thực tế, vì số lượng khách hàng lớn, do đó lượng ý kiến, phản hồi sản phẩm cũng theo đó gia tăng. Một sản phẩm hoàn toàn có thể có đến hàng nghìn bình luận, kéo dài hàng trăm trang. Người tiêu dùng hầu như không thể đọc tất cả các bình luận trước khi đưa ra quyết định mua hàng, đặc biệt là đối với các sản phẩm đã được hàng trăm và hàng nghìn khách hàng bình luận với các ý kiến ​ hông nhất quán [39]. k Như một hệ quả, người dùng mất khá nhiều thời gian cho việc duyệt tìm những review họ cảm thấy tin tưởng. Thay vào đó, những gì người tiêu dùng thực sự cần có thể chỉ là một vài bình luận "tin cậy" nhất. Một số trang web khuyến khích người dùng đánh sự sự hữu ích của bình luận thông qua việc bỏ phiếu cho câu hỏi “Review này có hữu ích với bạn?”. Để làm nổi bật tính năng này, các trang web hiển thị bình luận dựa trên lượt vote của độ hữu ích. Ví dụ, thiết lập mặc định hiển thị thứ tự bình luận trên Amazon.com là xếp hạng bình luận theo độ giảm dần của lượt vote hữu ích. Tính năng này cho phép người tiêu dùng nhanh chóng tìm được những bình luận đáng tin cậy nhất giúp việc đưa ra quyết định mua hàng nhanh chóng và hiệu quả hơn. Từ đó, nền tảng thu hút khách hàng hơn và nâng cao trải nghiệm sử dụng web. Đơn cử với Amazon, chỉ một 4 "Our Cars & Customers speak for themselves... - Rentaclassic." https://www.rentaclassic.co.nz/our-customers-speak-for-themselves/. Ngày truy cập 25 thg 11. 2021.
  16. 9 câu hỏi “Review này có hữu ích với bạn?” đã mang về cho hãng thêm 2,7 tỷ đô doanh thu. Hơn nữa, các bình luận đáng tin cậy hay hữu ích là cần thiết cho các dịch vụ thương mại điện tử vì nó có thể thu hẹp khoảng cách giữa người mua và người bán theo hướng đôi bên cùng có lợi. Tại đây, người tiêu dùng có thể đưa ra quyết định nhanh chóng qua sau khi được các bình luận tin cậy, hữu ích và người bán hàng có thể tăng lợi nhuận bằng cách hiển thị những bình luận chất lượng. Mặc dù mang đến nhiều lợi ích cho nhiều bên, nhưng vẫn có nhiều vấn đề khó khăn trong việc xác định đâu là những bình luận tin cậy. Không phải tất cả mọi người đều đưa ra lượt bỏ phiếu của mình với các bình luận, mặc dù chúng thật sự có giá trị tham khảo. Và cũng không phải nền tảng thương mại điện tử nào cũng có nhiều người dùng chịu vote cho bình luận sản phẩm giống như Amazon.com và Yelp.com. Thực tế, có đến 60% những bình luận trực tuyến trên 2 nền tảng trên không nhận được phiếu nào cho sự tin cậy hoặc không [29]. Điều này xảy đến thường xuyên hơn đối với những website và sản phẩm mới hoặc có lượt truy cập thấp, ít phổ biến hơn. Những vấn đề trên dẫn đến một hướng nghiên cứu đầy hứa hẹn về việc xây dựng hệ thống tự động dự đoán mức độ tin cậy cho các bài bình luận trực tuyến. Sự xuất hiện của hệ thống dự đoán này sẽ giúp người dùng đưa ra quyết định nhanh chóng, chính xác mà không phải phụ thuộc hoàn toàn vào cơ chế voting hiện giờ. Thực tế đã có một số nghiên cứu về bài toán dự đoán độ tin cậy của bình luận. Về dữ liệu, các phương pháp đầu tiên tập trung chủ yếu việc khai thác và phân tích dữ liệu văn bản của bình luận [7, 29, 53, 54]. Vì thực tế các bài bình luận trước đây chủ yếu chỉ có dữ liệu dạng văn bản và đây cũng là dạng phổ biến nhất. Những năm trở lại đây, các nền tảng website bắt đầu cho phép người dùng để lại hình ảnh đi kèm để tăng thêm độ xác thực và thông tin. Khi đó, các phương pháp dự đoán độ tin cậy có thêm những nghiên cứu về phân tích hình ảnh đi kèm [28, 34]. Tuy nhiên, [21] đề xuất việc sử dụng thêm metadata của sản phẩm (ví dụ tiêu đề, thương hiệu, danh mục, mô tả) bên cạnh nội dung của chính bài bình luận. Về phương thức, có hai hướng thường được đề cập đến
  17. 10 trong những nghiên cứu đó là (i) tận dụng kinh nghiệm để trích xuất đặc trưng thủ công bao gồm cấu trúc, từ vựng, biểu cảm, … từ thông tin bài bình luận đưa vào các mô hình học máy và (ii) sử dụng mạng học sâu [49, 51] để thu được đặc trưng với số chiều thấp hơn từ dữ liệu gốc với lớp phân loại hoặc hồi quy ở cuối mô hình. Mô hình được đề xuất dưới đây tận dụng cả 2 loại dữ liệu văn bản và hình ảnh để cải thiện hiệu suất dự đoán mức độ tin cậy của bình đánh giá. 1.3 Mô hình đa phương thức kết hợp mạng nơ ron đồ thị cho dự đoán độ tin cậy của bình luận Trong luận văn này, em đề xuất một mô hình đa phương thức suy luận liên kết giữa văn bản và hình ảnh của sản phẩm và bình luận kết hợp với mạng nơ ron đồ thị để dự đoán độ tin cậy của bình luận. Mô hình này dựa trên mô hình Multi-perspective Coherent Reasoning (MCR) [27] cho dữ liệu đa phương thức với cải tiến đến từ việc thay thế mạng MLP bằng mạng GCN trong việc học mối quan hệ mạch lạc giữa các nút trong đồ thị bình luận. Ngoài ra, luận văn tìm hiểu, thử nghiệm và đánh giá ảnh hưởng của các bộ nhúng ngôn ngữ đến chất lượng mô hình đề xuất - điều chưa được nghiên cứu thực hiện trên mô hình cơ sở. Dưới đây trình bày ý tưởng cơ bản của phương pháp đề xuất dựa trên MCR. Phương pháp MCR sử dụng dữ liệu đa phương thức (multimodal data) bao gồm văn bản và hình ảnh để phân tích và đưa ra dự đoán. Cụ thể, đối với những bình luận có nhiều loại dữ liệu, độ tin cậy không chỉ được xác định bởi nội dung văn bản mà còn chịu ảnh hưởng bởi sự kết hợp của dữ liệu đa phương thức.
  18. 11 Hình 1.4 Ví dụ xem xét một sản phẩm trên Amazon và những bình luận xung quanh sản phẩm Xem xét sản phẩm nồi áp suất trên website Amazon.com và 3 bình luận của người dùng, được đánh số thứ tự lần lượt (1), (2) và (3) để làm rõ ý tưởng của phương thức. Tại mục thông tin của sản phẩm, có thể thấy chúng bao gồm những nội dung chính dùng để nhận diện sản phẩm đó là tên, mô tả sản phẩm và hình ảnh minh hoạ. Đối với bình luận (1), có thể thấy ngoài việc khách hàng đưa ra ý kiến về sản phẩm nồi áp suất bằng văn bản, họ đã chụp lại hình ảnh chiếc nồi cùng với món ăn được họ nấu bằng sản phẩm. Việc này đã giúp làm tăng tính thuyết phục, tin cậy về những điều người dùng phản hồi lại. Người dùng chứng minh được rằng, họ đã thực sự mua và trải nghiệm sản phẩm, do vậy họ đủ cơ sở để đưa ra bình luận cho sản phẩm. Trong trường hợp này, có vẻ họ rất hài lòng về sản phẩm. Với những bình luận kiểu này, rõ ràng chúng mang đến lượng thông tin đầy đủ, có tính xác thực cao, đáng tin cậy cho những người đến sau. Sang đến bình luận (2), khách hàng cũng đưa ra bình luận gồm cả dạng văn bản và hình ảnh. Tuy nhiên, nội dung hình ảnh của bình luận này là hình ảnh của một miếng sườn nướng chứ không phải nồi áp suất giống với bình luận (1). Điều này đặt ra nghi vấn về tính xác thực của bình luận (2) đó là liệu người dùng có
  19. 12 thực sự đã sử dụng sản phẩm hay chưa. Rõ ràng, so về độ tin cậy, thì bình luận (1) có điểm số cao hơn do có bằng chứng rõ ràng hơn. Đến với bình luận (3), có thể thấy quan điểm và bằng chứng của người bình luận tương đối mơ hồ vì chúng không liên quan đến các khía cạnh chất lượng sản phẩm. Dựa vào ví dụ trên, có thể thấy các bài bình luận có nội dung văn bản và hình ảnh không đồng nhất với nhau và với sản phẩm có xu hướng không tin cậy. Ngược lại, một bài bình luận đáng tin cậy với người đọc (bình luận (1)) không chỉ chứa nội dung văn bản giàu thông tin, đúng trọng tâm mà còn cả nội dung hình ảnh thống nhất. Tận dụng dữ liệu đa phương thức và ý tưởng trên, luận văn đề xuất tận dụng dữ liệu văn bản và hình ảnh kết hợp với mạng nơ ron tích chập đồ thị giữa các dữ liệu bình luận (Graph enhance intra-review Coherence Reasoning - GCR) để giải quyết bài toán dự đoán độ tin cậy của bình luận. Trong đó, mô đun phân tích mối liên kết giữa sản phẩm - bình luận có chức năng nắm bắt liên kết intra và inter giữa sản phẩm và bình luận. Nghĩa là, mô đun tập trung tìm kiếm mối quan hệ liên quan thống nhất giữa thông tin nội dung văn bản và hình ảnh của sản phẩm và bình luận. Điều này nhằm hướng đến trả lời câu hỏi: Dựa vào văn bản và hình ảnh, liệu bình luận A có liên quan đến sản phẩm X hay không? Bên cạnh đó, luận văn đề xuất mô đun phân tích tính nhất quán của bình luận trong mỗi sản phẩm (intra-review coherent reasoning) sử dụng mạng nơ ron tích chập (GCN) nhằm tìm kiếm sự liên kết giữa nội dung văn bản và hình ảnh của bài bình luận, sử dụng chúng như một đặc trưng mạnh mẽ để dự đoán độ hữu ích của bài bình luận. Kết quả sau khi sử dụng các mô đun trên được vectơ đặc trưng tổng hợp của bài bình luận, từ đó dự đoán điểm số độ tin cậy của mỗi bài bình luận. Cuối cùng, sau khi thu được điểm số độ tin cậy của bình luận, thực hiện xếp hạng các bài bình luận của một sản phẩm theo thứ tự giảm dần điểm tin cậy, tối ưu theo phương pháp xếp hạng theo cặp (pairwise ranking). Thực nghiệm được tiến hành trên tập dữ liệu đánh giá của Amazon với dữ liệu đầu vào bao gồm dữ liệu văn bản (tên, tiêu đề sản phẩm và nội dung đánh giá) và dữ liệu hình ảnh (hình ảnh sản phẩm và hình ảnh bình
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0