
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng mô hình lọc cộng tác và phân cụm mờ xây dựng hệ thống gợi ý phim dựa trên thông tin đánh giá của người dùng
lượt xem 1
download

Luận văn Thạc sĩ Hệ thống thông tin "Nghiên cứu ứng dụng mô hình lọc cộng tác và phân cụm mờ xây dựng hệ thống gợi ý phim dựa trên thông tin đánh giá của người dùng" trình bày các nội dung: Tổng quan về hệ thống gợi ý; Hệ gợi ý dựa trên lọc cộng tác và các phương pháp phân cụm; Lựa chọn mô hình hệ gợi ý sử dụng phương pháp phân cụm mờ; Cài đặt, thử nghiệm mô hình đã lựa chọn.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng mô hình lọc cộng tác và phân cụm mờ xây dựng hệ thống gợi ý phim dựa trên thông tin đánh giá của người dùng
- BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI NGUYỄN KIM LƯƠNG NGUYỄN KIM LƯƠNG HỆ THỐNG THÔNG TIN NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH LỌC CỘNG TÁC VÀ PHÂN CỤM MỜ XÂY DỰNG HỆ THỐNG GỢI Ý PHIM DỰA TRÊN THÔNG TIN ĐÁNH GIÁ CỦA NGƯỜI DÙNG ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HỆ THỐNG THÔNG TIN 2024 Hà Nội – 2024
- BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI NGUYỄN KIM LƯƠNG NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH LỌC CỘNG TÁC VÀ PHÂN CỤM MỜ XÂY DỰNG HỆ THỐNG GỢI Ý PHIM DỰA TRÊN THÔNG TIN ĐÁNH GIÁ CỦA NGƯỜI DÙNG Ngành Hệ thống thông tin Mã số: 8480104 ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN: 1. TS. MAI ĐÌNH SINH 2. TS. ĐẶNG TRỌNG HỢP Hà Nội – 2024
- LỜI CAM ĐOAN Tôi xin cam đoan rằng đề án thạc sĩ Hệ thống thông tin “Nghiên cứu ứng dụng mô hình lọc cộng tác và phân cụm mờ xây dựng hệ thống gợi ý phim dựa trên thông tin đánh giá của người dùng” là công trình nghiên cứu của tôi dưới sự hướng dẫn của TS. Mai Đình Sinh và TS. Đặng Trọng Hợp. Toàn bộ nội dung được trình bày trong đề án này hoặc là đến từ sự tìm hiểu nghiên cứu của tôi hoặc là tổng hợp, thu thập từ các tài liệu khác nhau đều được trích dẫn đầy đủ trong phần tài liệu tham khảo. Các tài liệu tham khảo này được sử dụng một cách hợp lý và minh bạch. Tôi xin cam đoan rằng không có bất cứ vi phạm nào đối với các quy định đạo đức nghiên cứu khoa học trong quá trình thực hiện dự án. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định về tính chính xác và trung thực của đề án nghiên cứu này. Hà Nội, ngày 28 tháng 04 năm 2024 Tác giả đề án Nguyễn Kim Lương
- LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn chân thành và sâu sắc của mình đến các thầy giáo Mai Đình Sinh tại Học viện Kỹ thuật Quân sự và thầy giáo Đặng Trọng Hợp tại Đại học Công nghiệp Hà Nội, những người đã hỗ trợ, khuyến khích và cung cấp cho tôi. Các thầy không chỉ là những người hướng dẫn mà còn là nguồn động viên, đưa ra những ý kiến quan trọng giúp tôi nhìn nhận vấn đề một cách toàn diện hơn. Sự tận tâm và chia sẻ kiến thức sâu rộng của các Thầy đã giúp tôi phát triển khả năng nghiên cứu và làm việc độc lập. Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghiệp Hà Nội đã tận tình đào tạo, chia sẻ những kiến thức quý báu trong lĩnh vực của mình trong suốt quá trình tôi học tập và nghiên cứu tại trường. Sau cùng, tôi muốn bày tỏ lòng biết ơn đến tất cả những người thân yêu trong gia đình, đồng nghiệp và bạn bè đã luôn bên cạnh tôi, giúp đỡ, động viên và khích lệ tôi tham gia chương trình đào tạo sau đại học tại Đại học Công nghiệp Hà Nội. Tôi xin chân thành cảm ơn!
- MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT ................................................................. i DANH MỤC CÁC BẢNG BIỂU ................................................................... ii DANH MỤC HÌNH ẢNH .............................................................................. iii MỞ ĐẦU .......................................................................................................... 1 I. Lý do chọn đề tài .................................................................................................1 II. Tổng quan nghiên cứu ........................................................................................2 III. Mục tiêu của đề tài ............................................................................................3 IV. Nội dung nghiên cứu .........................................................................................3 V. Kết cấu đề án ......................................................................................................3 CHƯƠNG 1...................................................................................................... 4 TỔNG QUAN VỀ HỆ THỐNG GỢI Ý ........................................................ 4 1.1. MỘT SỐ KHÁI NIỆM PHỔ BIẾN VỀ HỆ THỐNG GỢI Ý .........................4 1.2. PHƯƠNG THỨC HOẠT ĐỘNG CỦA HỆ THỐNG GỢI Ý .........................8 1.3. PHƯƠNG PHÁP TIẾP CẬN KHI XÂY DỰNG HỆ THỐNG GỢI Ý .........10 1.3.1. Lọc nội dung ...........................................................................................10 1.3.2. Lọc cộng tác ............................................................................................14 1.3.3. Lọc kết hợp/lai ghép (Hybrid).................................................................17 1.4. CÁC TIÊU CHUẨN ĐÁNH GIÁ HỆ GỢI Ý ...............................................20 1.4.1. Trung bình lỗi tuyệt đối ..........................................................................20 1.4.2. Lỗi bình phương trung bình ....................................................................21 CHƯƠNG 2.................................................................................................... 22 HỆ GỢI Ý DỰA TRÊN LỌC CỘNG TÁC VÀ CÁC PHƯƠNG PHÁP PHÂN CỤM ................................................................................................... 22 2.1. BÀI TOÁN GỢI Ý DỰA TRÊN CỘNG TÁC ..............................................22 2.1.1. Lọc cộng tác dựa vào bộ nhớ ..................................................................23 2.1.2. Lọc cộng tác dựa vào trên mô hình .........................................................26 2.2. SỬ DỤNG KỸ THUẬT PHÂN CỤM KẾT HỢP VỚI HỆ GỢI Ý ..............29 2.2.1. Phân cụm là gì? .......................................................................................29 2.2.2. Lý do nên sử dụng phân cụm cho hệ gợi ý .............................................30 2.2.3. Cách sử dụng phân cụm cho hệ gợi ý .....................................................31 2.2.4. Những thách thức và hạn chế của việc phân cụm cho các hệ thống gợi ý ...........................................................................................................................31
- 2.2.5. Lợi ích và cơ hội của việc phân cụm cho hệ gợi ý ..................................32 CHƯƠNG 3.................................................................................................... 33 LỰA CHỌN MÔ HÌNH HỆ GỢI Ý SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ ....................................................................................................... 33 3.1. LỰA CHỌN MÔ HÌNH HỆ GỢI Ý ..............................................................33 3.1.1. K-means clustering dựa trên item .....................................................34 3.1.2. Fuzzy clustering dựa trên user ...........................................................38 3.2. MỘT SỐ NHẬN XÉT VỀ MÔ HÌNH ........................................................42 CHƯƠNG 4.................................................................................................... 43 CÀI ĐẶT VÀ THỰC NGHIỆM TRÊN MÔ HÌNH LỰA CHỌN ........... 43 4.1. TẬP DỮ LIỆU VÀ THIẾT LẬP MÔI TRƯỜNG ........................................43 4.2. THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................44 4.2.1. Tổng quan về tập dữ liệu thực nghiệm....................................................44 4.2.2. Cài đặt thực nghiệm và đánh giá kết quả ................................................51 KẾT LUẬN .................................................................................................... 66 TÀI LIỆU THAM KHẢO ............................................................................ 68
- i DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt RS Recommender System Hệ thống gợi ý U User Người dùng I Item Sản phẩm. IF Information Filtering Lọc thông tin CBF Content-Based Filtering Lọc thông tin dựa trên nội dung CF Collaborative Filtering Lọc thông tin dựa trên cộng tác R Interaction Matrix/Utility Ma trận ghi nhận đánh giá của Matrix người dùng đối với sản phẩm được tương tác r Relevant Độ phù hợp SP Sparsity problem Vấn đề dữ liệu thưa RMSE Root Mean Squared Error Hàm sai số trung bình bình MF Matrix Factorization Phân tích thừa số ma trận DLCRS Deep learning method of Phương pháp học sâu của hệ collaborative thống đề xuất cộng tác recommender systems
- ii DANH MỤC CÁC BẢNG BIỂU Bảng 3.1. Phân cụm của các mục dựa trên hồ sơ của mục với thuật toán Kmeans ............................................................................................................ 36 Bảng 3.2. Mẫu dữ liệu của 15 mục được nhóm vào 4 cụm ............................ 38
- iii DANH MỤC HÌNH ẢNH Hình 1.1. Sơ đồ tổng quát của một hệ thống gợi ý ........................................... 6 Hình 1.2. Ma trận tương tác User - Item ........................................................... 7 Hình 1.3. Cách thức phương pháp lọc cộng tác hoạt động ............................. 11 Hình 1.4. Cơ chế hoạt động theo lọc nội dung ............................................... 12 Hình 1.5. Cơ chế lọc kết hợp........................................................................... 19 Hình 2.1. Quy trình đề xuất dựa trên sự hợp tác ............................................. 22 Hình 2.2. Lọc cộng tác dựa theo người dùng .................................................. 24 Hình 2.3. Lọc cộng tác dựa theo sản phẩm ..................................................... 25 Hình 3.1. Biểu đồ của phương pháp đã lựa chọn về hệ thống gợi ý ............... 34 Hình 3.2. Phân bổ người dùng vào 4 cụm với các bậc thành viên khác nhau bằng cách sử dụng Fuzzy C-means ................................................................. 40 Hình 4.1. Dữ liệu đánh giá các bộ phim ......................................................... 46 Hình 4. 2. Biểu đồ phân phối điểm đánh giá .................................................. 47 Hình 4. 3. Số lượng phim mà mỗi người dùng xem và đánh giá .................... 47 Hình 4. 4. Số lượng đánh giá của mỗi bộ phim .............................................. 48 Hình 4. 5. Số lượng dữ liệu người dùng ......................................................... 48 Hình 4. 6. Thông tin về giới tính của người dùng ........................................... 49 Hình 4. 7. Thông tin về tuổi của người dùng .................................................. 49 Hình 4. 8. Dữ liệu về nghề nghiệp của người dùng ........................................ 50 Hình 4. 9. Số lượng bộ phim ........................................................................... 50 Hình 4. 10. Dữ liệu về các bộ phim ................................................................ 51 Hình 4. 11. Thông tin trích xuất từ OMDB API ............................................. 52 Hình 4. 12. Dữ liệu phim sau khi định dạng lại thời gian đánh giá ................ 53 Hình 4. 13. Tính toán Net Promoter Score cho từng đánh giá ....................... 54 Hình 4. 14. Dữ liệu sẵn sàng phần cụm bằng K-means .................................. 54
- iv Hình 4. 15. Lựa chọn số cụm K theo Silhouette Score ................................... 55 Hình 4. 16. Lựa chọn số cụm K theo Distortion Score ................................... 55 Hình 4. 17. Lựa chọn số cụm K theo Davies Bouldin .................................... 56 Hình 4. 18. Lựa chọn số cụm K cho K-means ................................................ 56 Hình 4. 19. Dữ liệu sau khi phân cụm với K-means ....................................... 57 Hình 4. 20. Dữ liệu đầu vào cho việc phân cụm mờ với C-means ................. 57 Hình 4. 21. Dữ liệu sau khi phân cụm mờ với C-means ................................. 58 Hình 4. 22. Sơ đồ mô hình hệ thống gợi ý ...................................................... 58 Hình 4. 23. Kết quả gợi ý cho cụm người dùng Cluster 0 .............................. 59 Hình 4. 24. Kết quả gợi ý cho cụm người dùng Cluster 1 .............................. 60 Hình 4. 25. Kết quả gợi ý cho cụm người dùng Cluster 2 .............................. 60 Hình 4. 26. Kết quả gợi ý cho cụm người dùng Cluster 3 .............................. 61 Hình 4. 27. Kết quả gợi ý cho cụm người dùng Cluster 5 .............................. 61 Hình 4. 28. Kết quả gợi ý cho cụm người dùng Cluster 7 .............................. 62 Hình 4. 29. Kết quả gợi ý cho cụm người dùng Cluster 4 .............................. 62 Hình 4. 30. Kết quả gợi ý cho cụm người dùng Cluster 6 .............................. 63 Hình 4. 31. So sánh hiệu suất của bốn thuật toán bằng độ đo RMSE trên tập dữ liệu Movielens [5] ...................................................................................... 64 Hình 4. 32. So sánh kết quả của hệ thống gợi ý đã xây dựng so với hệ thống gợi ý truyền thống ........................................................................................... 65
- 1 MỞ ĐẦU I. Lý do chọn đề tài Trong thời đại công nghệ số 4.0, bán hàng trực tuyến đã mang lại lợi nhuận cho rất nhiều ngành kinh doanh. Điều này là kết quả của sự phát triển mạnh mẽ của Internet. Bán hàng qua mạng đang trở nên phổ biến vì nó có khả năng cho phép người dùng nhanh chóng tiếp cận một số loại hàng hóa và dịch vụ đa dạng. Phim điện ảnh, một trong những dịch vụ phổ biến hiện nay, đã và đang thu hút được sự quan tâm đáng kể của khách hàng trên toàn thế giới. Theo thống kê của Box Office Mojo, một nguồn thông tin quan trọng về doanh số bán vé và tài chính của các bộ phim trên toàn cầu, thị trường phim sẽ đạt tổng cộng 8 tỷ USD vào năm 2023 với khoảng 500 bộ phim được công chiếu. Điều này cho thấy thị trường này có khả năng kiếm được rất nhiều tiền. Tuy nhiên, sự đa dạng về thể loại và nội dung của phim cũng khiến khách hàng khó lựa chọn bộ phim phù hợp. Để khách hàng có thể tiếp cận được với bộ phim mình đang phổ biến và phù hợp với thị hiếu của mình thì sự tư vấn, gợi ý đóng vai trò rất quan trọng. Một hệ thống gợi ý tốt có thể đóng vai trò như một người trung gian hỗ trợ khách hàng đưa ra các quyết định lựa chọn đúng đắn. Bằng cách xác định sở thích, nhu cầu kèm theo những thông tin nhận xét đánh giá của khách hàng, hệ thống có thể đưa ra một tập các gợi ý giúp cho khách hàng dễ dàng chọn lựa những bộ phim có nội dung yêu thích hơn. Qua đó hiệu suất của việc kinh doanh được tăng cao một cách đáng kể. Mục tiêu chính của đề án là tạo ra một hệ thống gợi ý phim cho khách hàng dựa trên những đánh giá của các bộ phim để tối ưu hóa dự đoán mức độ
- 2 ưa thích của khách hàng đối với các bộ phim và sau đó đề xuất các bộ phim mà khách hàng có thể quan tâm và ưa thích. II. Tổng quan nghiên cứu Hệ thống gợi ý (RS) là một phương tiện và phương pháp phần mềm giúp đề xuất tin tức và hành vi tiêu dùng cho người dùng. Chúng tạo ra các gợi ý tùy chỉnh, đưa ra danh sách các sản phẩm, dịch vụ, hoặc nội dung được sắp xếp theo thứ tự ưu tiên dựa trên sở thích cá nhân để dự báo lựa chọn phù hợp nhất với họ. Những lựa chọn này bao gồm việc mua sắm, âm nhạc mà họ lắng nghe, và tin tức trực tuyến mà họ đọc [1]. Hệ thống này giải quyết được tình trạng ngập lụt thông tin bằng cách cung cấp dịch vụ và nội dung riêng biệt, phù hợp với nhu cầu và mong muốn của từng người dùng. Mục tiêu của RS là mang đến cho người dùng những đề xuất và ưu đãi cụ thể liên quan đến những sản phẩm hoặc đối tượng mà họ có khả năng quan tâm đến. Một ví dụ điển hình là Netflix, họ áp dụng hệ thống gợi ý để phân tích xu hướng và sở thích của người dùng, qua đó giới thiệu các bộ phim phù hợp trên trang web của mình để tăng cường trải nghiệm và thu hút lượng người xem lớn hơn [2]. Bạn có thể tạo hệ thống gợi ý bằng nhiều phương pháp và thuật toán khác nhau. Các khuyến nghị dựa trên nội dung, các khuyến nghị hợp tác và các phương pháp kết hợp (dựa trên tương tác và dựa trên nội dung) [1] [2], [3]. Hệ thống gợi ý dựa trên nội dung cung cấp cho người dùng những món đồ (mục) tương tự. Những hệ thống gợi ý cộng tác người dùng sẽ cung cấp những mục tin mà một số người có cùng sở thích đã từng thích. Các hệ thống dựa trên đặc tính, dựa trên hành vi, dựa trên ngữ cảnh, dựa trên kiến thức, dựa trên luật và các hệ thống dựa trên đặc tính khác cũng bao gồm kỹ thuật không cá nhân hóa [3].
- 3 III. Mục tiêu của đề tài Tạo ra một hệ thống gợi ý phim tiên tiến, giúp người dùng tìm được các bộ phim phù hợp với sở thích cá nhân một cách nhanh chóng và hiệu quả, từ đó nâng cao trải nghiệm giải trí của họ. IV. Nội dung nghiên cứu Nghiên cứu, đánh giá ưu/nhược điểm các phương pháp gợi ý phổ biến trong các hệ thống hiện nay: Lọc dựa trên nội dung và Lọc cộng tác. Nghiên cứu về phân cụm mờ và thuật toán Fuzzy C-Means. Thu thập và xử lý dữ liệu đánh giá phim từ người dùng. Nghiên cứu mô hình kết hợp phương pháp Lọc cộng tác với thuật toán phân cụm mờ nhằm tăng hiệu năng, cải thiện tốc độ và độ chính xác gợi ý. Thiết kế và triển khai hệ thống gợi ý dựa trên mô hình đã lựa chọn. Thử nghiệm và đánh giá mô hình. V. Kết cấu đề án Nội dung Đề án tốt nghiệp gồm các chương và phần chính sau: Chương 1: Tổng quan về hệ thống gợi ý Chương 2: Hệ gợi ý dựa trên lọc cộng tác và các phương pháp phân cụm Chương 3: Lựa chọn mô hình hệ gợi ý sử dụng phương pháp phân cụm mờ Chương 4: Cài đặt, thử nghiệm mô hình đã lựa chọn
- 4 CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1. MỘT SỐ KHÁI NIỆM PHỔ BIẾN VỀ HỆ THỐNG GỢI Ý Hệ thống đề xuất, hay còn được biết đến dưới tên gọi Recommendation System, là một nền tảng sử dụng các kỹ thuật và công nghệ phần mềm hiện đại để phân tích dữ liệu liên quan đến người dùng và các sản phẩm hoặc dịch vụ. Hệ thống này nhằm mục đích tối ưu hóa sự hài lòng của người dùng bằng cách cung cấp thông tin dựa trên sở thích cá nhân được hình thành từ các hoạt động và lựa chọn trước đây của họ. Dựa vào việc phân tích sâu sở thích và nhu cầu của người dùng, hệ thống sẽ đề xuất các lựa chọn phù hợp nhất, giúp họ lựa chọn sản phẩm hoặc dịch vụ mà tương thích nhất với mô hình ưa chuộng cá nhân của họ. Chẳng hạn, khi người dùng ghé thăm Amazon, một trang web thương mại điện tử hàng đầu, họ sẽ được đối mặt với hàng triệu lựa chọn sản phẩm. Hệ thống gợi ý trở thành công cụ không thể thiếu, giúp cá thể hóa dữ liệu và đề xuất những sản phẩm mà người dùng có thể thích từ một kho dữ liệu khổng lồ. Nhiệm vụ của hệ thống này là tận dụng hiểu biết sâu sắc về cơ sở dữ liệu sản phẩm, thông tin cá nhân người dùng và sự tương tác giữa các sản phẩm để đưa ra các gợi ý chính xác nhất, nhằm đảm bảo rằng mỗi người dùng có thể tìm thấy những sản phẩm ưng ý nhất trong thời gian ngắn nhất. [7]. Một hệ thống gợi ý hiệu quả thường dựa trên ba yếu tố cơ bản tạo nên khung sườn của nó: [9] - Tập hợp người dùng (U): Đây là danh sách chứa các thông tin cá nhân của người dùng đã đăng ký hoặc được theo dõi bởi hệ thống, ký hiệu là U={u1,u2,...,up} Những thông tin này có thể bao gồm lịch sử mua hàng, sở thích, đánh giá sản phẩm, hoặc hành vi duyệt web.
- 5 - Tập hợp mục dữ liệu (I): Tập hợp này chứa thông tin về các sản phẩm hoặc dịch vụ có sẵn trên hệ thống, thường được đánh dấu bằng các định danh và kèm theo các thuộc tính đặc trưng, được ký hiệu là I={i1,i2,...,iq } - Tập hợp mối quan hệ (R): Đây là tập hợp các "mối quan hệ" giữa người dùng và mục dữ liệu, được biểu diễn dưới dạng các cặp (ui, ij ) thể hiện người dùng ui có quan hệ như thế nào với mục dữ liệu ij. Có thể là qua việc mua hàng, xem sản phẩm, đánh giá hoặc tương tác khác. Hình 1.1 mô tả chi tiết hệ thống gợi ý [7]. Trong bối cảnh của một hệ thống gợi ý, tập hợp người dùng có thể đa dạng gồm nam giới, nữ giới, và trẻ em, mỗi đối tượng sở hữu nhu cầu và sở thích riêng. Mục dữ liệu là những thứ có thể tương tác với người dùng, ví dụ như được mua, xem, lựa chọn, đọc, hoặc được đánh giá bởi họ. Người dùng, trong vai trò của một yếu tố trong hệ thống, có khả năng ảnh hưởng đến mục dữ liệu này. Các mối quan hệ giữa người dùng và mục dữ liệu cũng rất phong phú, có thể là sự yêu thích, khao khát, mua sắm, đọc đánh giá, và các hình thức tương tác khác. Hệ thống gợi ý sau đó sẽ sử dụng những thông tin này để cung cấp một danh sách các mục dữ liệu được cá nhân hóa, dựa trên sở thích và hành vi của người dùng [7]. Mục tiêu cốt lõi của hệ thống gợi ý là chọn lọc và đề xuất một loạt các mục dữ liệu phù hợp, với mục đích không chỉ đáp ứng nhu cầu cơ bản mà còn tinh tế đến nỗi có thể dự đoán và đáp ứng cả những mong muốn không rõ ràng của người dùng, nhằm nâng cao trải nghiệm và sự thỏa mãn của họ đối với hệ thống.
- 6 Hình 1.1. Sơ đồ tổng quát của một hệ thống gợi ý Hiện nay, phương pháp phản hồi rõ ràng (explicit feedback) và phương pháp phản hồi ngầm (implicit feedback) là hai phương pháp phổ biến nhất để thu thập dữ liệu hồ sơ người dùng (user profile). Để tạo hồ sơ người dùng, hệ thống sẽ yêu cầu người dùng cung cấp xếp hạng cụ thể cho từng mục dữ liệu nếu phương pháp phản hồi rõ ràng. Dữ liệu người dùng được truyền trực tiếp lên hệ thống tư vấn bằng cách thực hiện các bước chuyển đổi trung gian, và kết quả tư vấn được coi là đáng tin cậy nhất theo phương pháp này [1]. Mặc dù phương pháp này đưa ra kết quả đề xuất có độ tin cậy tốt hơn, nhưng nó yêu cầu công việc bổ sung trên hệ thống và có thể dẫn đến trải nghiệm kém hơn cho người dùng. Ngoài ra, việc sử dụng các kỹ thuật thu thập phản hồi trong thực tế có thể sẽ gặp nhiều khó khăn vì người dùng thường không muốn chia sẻ nhiều thông tin cá nhân. Phương pháp thu thập phản hồi ẩn xử lý thông tin về sở thích của người dùng bằng cách ghi nhận các thông tin truy vết mà người dùng tạo ra trên hệ thống, chẳng hạn như lịch sử mua hàng, thời gian xem trang web, số lần click chuột vào các siêu liên kết và lịch sử truy cập trang web. Điều này tạo điều kiện thuận lợi để tìm kiếm và khám phá thông tin về sở thích của người dùng. Do yêu cầu hệ thống cần phải phải tiến hành các thao tác chuyển đổi ban
- 7 đầu để thu thập dữ liệu về hành vi của người dùng, phương pháp phản hồi tường minh có khả năng nâng cao trải nghiệm người dùng với hệ thống [1]. Ma trận tương tác User—Item là một tập hợp dữ liệu được lưu trữ cho thấy sở thích của mỗi người dùng đối với các sản phẩm trong hệ thống. Dữ liệu này có thể được hiển thị và lưu trữ trong cơ sở dữ liệu dưới dạng ma trận, trong đó mỗi hàng tương ứng với một người dùng và mỗi cột tương ứng với một sản phẩm. Giá trị đánh giá của người dùng đối với mặt hàng được hiển thị trong từng ô của ma trận chính. Hình 1.2. Ma trận tương tác User - Item Người dùng sẽ thường không đánh giá tất cả những gì họ đã trải qua vì lý do tâm lý. Họ thường chỉ đưa ra đánh giá các mục với tình trạng tích cực, tức là rất thích hoặc tiêu cực. Do đó, ma trận tương tác người dùng—sản phẩm nói trên thường thiếu giá trị ở nhiều ô. Đây được coi là vấn đề về sự không đầy đủ của dữ liệu hoặc dữ liệu thưa [10]. Các phương pháp gợi ý dựa trên bộ nhớ, còn được gọi là các thuật toán khuyến nghị dựa trên bộ nhớ, gặp khó khăn khi dữ liệu của ma trận tương tác bị thưa [1]. Ngoài ra, các hàng hoặc cột trong ma trận Người dùng – Sản phẩm sẽ trống hoàn toàn khi có tương tác giữa người dùng hoặc mặt hàng mới trong hệ thống. Trong các hệ thống khuyến nghị dựa trên cộng tác, Hiện tượng này được biết đến với tên
- 8 gọi là vấn đề khởi động nguội [10]. Khả năng tạo khuyến nghị bằng cách kết hợp các dữ liệu dựa trên sở thích tương tự của các nhóm người dùng và mục bị hạn chế khi hệ thống đối mặt với các mục không có tương tác. 1.2. PHƯƠNG THỨC HOẠT ĐỘNG CỦA HỆ THỐNG GỢI Ý Thật vậy, khách hàng có khả năng cao sẽ đưa ra quyết định khi mua sắm chủ yếu theo hai phương pháp. Một là kiểm tra chi tiết các thông tin của sản phẩm, chẳng hạn như tính năng, công dụng và thành phần, tùy thuộc vào nhu cầu sử dụng của họ. Trước khi đưa ra quyết định mua sắm, khách hàng có thể xem xét những gới ý từ những người xung quanh về sản phẩm đó. Hệ thống khuyến nghị mô phỏng lại quá trình đưa ra quyết định mua hàng của người dùng bằng hai kỹ thuật chính: gợi ý dựa trên lọc nội dung và gợi ý dựa trên lọc cộng tác, dựa trên những phát hiện được nêu trên. Phương pháp lọc dựa trên nội dung tận dụng những thông tin tương tác trong quá khứ của người dùng cũng như thông tin về thuộc tính của đối tượng để xác định các đặc tính có ảnh hưởng đáng kể đến đánh giá của người dùng. Các yếu tố nội dung của sản phẩm và giá trị trọng số 𝑤𝑖 thể hiện mức độ ảnh hưởng lớn của từng thành phần nội dung trong sở thích của người dùng, được biểu diễn bởi vector Profile(U) = (𝑤1 , 𝑤2 , … , 𝑤 𝑛 ). Khi hệ thống RS sử dụng kỹ thuật Truy hồi thông tin (IR) để phân tích đối tượng I thành vector trọng số Content(I) = (𝑤1 , 𝑤2 , … , 𝑤 𝑛 ) của các thành phần nội dung, quá trình xây dựng profile người dùng giống như vậy. Ví dụ, thông tin liên quan đến một đối tượng thông thường được trình bày dưới dạng văn bản, chẳng hạn như một đoạn văn, bài viết hoặc mẩu tin ngắn. Kỹ thuật IR được sử dụng bởi hệ thống RS để trích xuất đặc tính như từ khóa, n-grams và thực thể để tạo mô hình biểu diễn dạng vector từ khóa của đối tượng [11]. Do đó, hệ thống RS ánh xạ cả sở thích của người dùng và nội
- 9 dung của đối tượng vào cùng một không gian vector, còn được gọi là không gian thuộc tính của sản phẩm, trong cách tiếp cận lọc dựa trên nội dung. Trong hệ thống gợi ý, để đo lường sự tương đồng giữa hai vector, độ đo cosine thường được sử dụng để đánh giá độ phù hợp giữa sản phẩm I và người dùng U. 𝑟(𝑈, 𝐼) = 𝑐𝑜𝑠(𝑃𝑟𝑜𝑓𝑖𝑙𝑒(𝑈), ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ) ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝐶𝑜𝑛𝑡𝑒𝑛𝑡(𝐼) (1.1) Trong phương pháp lọc cộng tác, hệ thống gợi tìm kiếm những nhóm người dùng có hành vi "tương đồng" bằng cách phân tích lịch sử tương tác của họ, được lưu trữ trong ma trận tương tác User – Item. Hệ thống gợi ý đưa ra đánh giá dựa trên độ phù hợp 𝑟(𝑈, 𝐼) giữa người dùng hiện tại 𝑈 và đối tượng 𝐼 bằng cách sử dụng độ phù hợp r(𝑈𝑗 , I) của những người dùng 𝑈𝑗 khác, có sở thích tương đồng với 𝑈.
- 10 Phát biểu bài toán gợi ý: Để giải quyết vấn đề này, ta cần phát triển một hàm 𝑟(𝑢 𝑖 , 𝑣 𝑗 ) nhằm ước lượng giá trị xếp hạng mà người dùng 𝑢 𝑖 đưa ra cho đối tượng 𝑣 𝑗 . Mục tiêu là làm cho sai số giữa giá trị dự đoán 𝑟̂ 𝑖𝑗 và các giá trị xếp hạng 𝑟𝑖𝑗 đã biết trong ma trận tương tác trở nên nhỏ nhất. 1.3. PHƯƠNG PHÁP TIẾP CẬN KHI XÂY DỰNG HỆ THỐNG GỢI Ý Dưới đây là một tổng quan về các phương pháp được sử dụng để xây dựng hệ thống gợi ý, dựa trên nguồn tham khảo. 1.3.1. Lọc nội dung Hệ thống gợi ý ghi lại hồ sơ người dùng dưới dạng vector ̂ = 𝑢 {𝑢1 , 𝑢2 , … , 𝑢 𝑛 }, trong đó 𝑢𝑖 biểu thị sự yêu thích và quan tâm đối với từng chi tiết sản phẩm của người dùng. Vector hồ sơ sản phẩm ̂ = {𝑣1 , 𝑣2 , … , 𝑣 𝑛 }, 𝑣 chứa thông tin chi tiết về sản phẩm bằng các đặc trưng 𝑣 𝑖 . Do đó, cả thông tin

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ Hệ thống thông tin: Xây dựng hệ thống chấm điểm tự động, hỗ trợ luyện thi học sinh giỏi tin học THPT
80 p |
61 |
22
-
Tóm tắt luận văn Thạc sĩ Quản trị kinh doanh: Xây dựng hệ thống thông tin kế toán phục vụ quản trị cước viễn thông - công nghệ thông tin tại viễn thông Quảng Bình
13 p |
130 |
19
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu hệ thống tổng hợp tiếng nói theo phương pháp học sâu
49 p |
74 |
13
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu giải pháp đánh giá chất lượng dịch vụ đa phương tiện trên mạng không dây sử dụng mô phỏng
72 p |
35 |
6
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng kỹ thuật khai phá dữ liệu trong dự báo một số thông số khí quyển
57 p |
28 |
6
-
Luận văn Thạc sĩ Hệ thống thông tin: Phát triển hệ thống dự đoán điểm thi tốt nghiệp của học sinh trung học phổ thông sử dụng kỹ thuật rừng ngẫu nhiên hồi quy
38 p |
36 |
5
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu xử lý các đoạn video để trợ giúp phát triển tư duy học sinh
81 p |
60 |
5
-
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu hệ thống truyền thông đa phương tiện thời gian thực trên cơ sở giải pháp kỹ thuật WEBRTC
26 p |
57 |
3
-
Luận văn Thạc sĩ Hệ thống thông tin: Giải pháp ứng dụng trí tuệ nhân tạo nhằm phát hiện giao dịch bất thường trong hệ thống quản trị giao dịch tài chính
89 p |
2 |
2
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu, xây dựng hệ thống quản lý sản xuất MES nhằm nâng cao chất lượng đào tạo nguồn nhân lực và năng lực quản lý cho doanh nghiệp vừa và nhỏ
74 p |
6 |
2
-
Luận văn Thạc sĩ Hệ thống thông tin: Phát triển Chatbot trên nền tảng Transformers ứng dụng trong tìm kiếm, tra cứu thông tin về trường Đại học Công nghệ Đông Á
70 p |
2 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu bảo mật mạng không dây và áp dụng tại trường Cao đẳng Kỹ thuật Công nghệ Hòa Bình
107 p |
2 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái
96 p |
4 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu công nghệ IOT và ứng dụng trong hệ thống giám sát chất lượng không khí Hà Nội
75 p |
3 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu một số thuật toán gia tăng lựa chọn thuộc tính trên bảng quyết định động theo tiếp cận tập mờ sử dụng lát cắt α
79 p |
3 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nâng cao hiệu quả bảo mật của mạng truyền tin UAV ứng dụng học tăng cường
97 p |
2 |
1
-
Luận văn Thạc sĩ Hệ thống thông tin: Nguyên cứu ứng dụng mô hình ANFIS vào bài toán dự báo trên dữ liệu chuỗi thời gian
67 p |
1 |
1


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
