Tóm tắt Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế
lượt xem 4
download
Mục tiêu nghiên cứu của đề tài "Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế" là đề xuất thuật toán đo độ tương đồng nhằm tăng độ chính xác của mô hình CF dựa trên ghi nhớ. Đề xuất các mô hình trích xuất đặc trưng ẩn và xử lý dữ liệu đặc trưng của sản phẩm. Đề xuất các phương pháp xây dựng dữ liệu sở thích người dùng, và đề xuất cải thiện các thuật toán CF sử dụng nguồn dữ liệu người dùng mới;...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2023
- Công trình này được hoàn thành tại Đại học Bách khoa Hà Nội Tập thể hướng dẫn khoa học: TS. Đặng Quang Hiếu PGS. TS. Nguyễn Đức Minh Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp trường họp tại Đại học Bách khoa Hà Nội vào hồi . . . giờ, ngày . . . tháng . . . năm . . . Có thể tìm hiểu luận án tại: 1. Thư viện Tạ Quang Bửu, ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
- MỞ ĐẦU 1. Giới thiệu chung về hệ thống gợi ý 1.1. Khái niệm hệ thống gợi ý Trong những năm gần đây, sự phát triển mạnh mẽ của các mạng truyền thông không dây tốc độ cao như 4G/5G cùng với sự phổ biến của các thiết bị di động đã góp phần thay đổi đáng kể cách thức tiếp cận và xử lý thông tin của mỗi chúng ta. Các hệ thống gợi ý (Recommendation System - RS) ngày nay giữ vai trò đặc biệt quan trọng trong quá trình vận hành của các nền tảng thương mại điện tử và truyền thông đa phương tiện với mục tiêu đề xuất cho từng khách hàng những sản phẩm mà họ có khả năng sẽ yêu thích hay sử dụng. RS là một dạng của hệ thống hỗ trợ ra quyết định, cung cấp giải pháp mang tính cá nhân hóa mà không phải trải qua quá trình tìm kiếm phức tạp. Có thể định nghĩa RS là một hệ thống lọc thông tin để dự đoán về sở thích của người dùng, từ đó đề xuất với người dùng các sản phẩm phù hợp nhất một cách hiệu quả. Gần đây, hầu hết các RS đều được triển khai từ hệ thống điện toán đám mây đến các thiết bị biên (cloud-to-edge). Việc tính toán trực tiếp trên thiết bị biên có thể giảm độ trễ cho băng thông, giúp hệ thống nắm bắt được sở thích người dùng dễ dàng hơn từ đó đưa ra các đề xuất thỏa đáng hơn. Luận án này tập trung nghiên cứu các phương pháp và thuật toán xử lý dữ liệu trong RS nhằm tăng cường chất lượng thông tin. Điều này giúp xử lý và phân tích các dữ liệu đã được thu thập được, tăng tính chính xác và tính nhất quán của thông tin đầu ra và phục vụ cho việc triển khai RS trên các thiết bị biên. 1.2. Tình hình nghiên cứu hệ thống gợi ý trên thế giới và ở Việt Nam Dựa theo loại dữ liệu được áp dụng nhằm đề xuất sản phẩm cho người dùng, RS thường được chia làm ba hướng tiếp cận chính (Hình 1). Hệ thống lọc dựa trên nội dung đề xuất sản phẩm dựa trên thông tin về đặc trưng của 1
- sản phẩm và người dùng. Hình 1: Phân loại hệ thống gợi ý. Trái lại, hệ thống CF dựa vào lịch sử tương tác giữa người dùng với các sản phẩm để xác định sở thích của họ và đưa ra gợi ý phù hợp. Có hai nhánh tiếp cận chính đối với hệ thống CF: gợi ý dựa trên ghi nhớ (Memory-based CF) và gợi ý dựa vào mô hình (Model-based CF). Nhánh tiếp cận dựa trên ghi nhớ tính toán độ tương quan giữa các sản phẩm hoặc giữa các người dùng qua lịch sử tương tác rồi từ đó tìm ra những sản phẩm tương đồng nhất với sản phẩm mà một người thích. Mặt khác, nhánh tiếp cận dựa vào mô hình đã chứng tỏ được tính hữu hiệu của nó đối với ma trận tương tác rất thưa. Nhiều nghiên cứu trên phương pháp phân rã ma trận (Matrix Factorization - MF) cũng cho thấy với phương pháp khởi tạo thích hợp, có thể cải thiện tốc độ hội tụ và độ chính xác của hệ thống. Tuy nhiên, đối với người dùng hoặc sản phẩm mới, hệ thống thường không có đủ dữ liệu tương tác để đưa ra gợi ý chính xác, dẫn đến vấn đề khởi động nguội (Cold-start problem). Để khắc phục vấn đề này, các hệ thống sử dụng phương pháp kết hợp được đề xuất. Dù thu được nhiều kết quả đáng chú ý, hiệu năng của các mô hình truyền thống vẫn bị giới hạn bởi tính tuyến tính. Đối với dữ liệu có cấu trúc phức tạp, kiến trúc mạng nơ-ron là một hướng tiếp cận mới giúp nâng cao độ chính xác của RS. CNN gần đây cũng nhận được nhiều sự chú ý trong RS, được áp dụng với bài toán gợi ý bài hát hay văn bản. Ở Việt Nam, học máy nói chung và RS qua đó ngày càng nhận được nhiều quan tâm nghiên cứu của các nhà khoa học và các doanh nghiệp trong nước. Trong đó, nhằm hạn chế vấn đề khởi động nguội, nhiều nghiên cứu về RS ở Việt Nam tích hợp thông tin phụ vào để đưa ra gợi ý đề xuất các mô hình gợi ý sử dụng dữ liệu mô tả sản phẩm. Ngoài ra, một số nghiên cứu khác tập trung nghiên cứu phương pháp mô hình hoá hành vi tuần tự của người dùng. 2
- 2. Tính cần thiết của luận án và những vấn đề sẽ giải quyết 2.1. Những thách thức trong quá trình nghiên cứu hệ thống gợi ý 2.1.1. Thách thức trong thu thập dữ liệu Thứ nhất, lượng sản phẩm và người dùng lớn tạo nên một ma trận tương tác có kích thước khổng lồ, tuy nhiên một người dùng thường chỉ tương tác và cung cấp đánh giá cho một vài sản phẩm, khiến cho ma trận tương tác trở trong thực tế trở nên rất thưa thớt. Thứ hai, bất kì RS nào cũng tiềm ẩn khả năng gặp phải vấn đề khởi động nguội khi thuật toán không thể đưa ra bất cứ dự đoán đáng tin cậy nào cho người dùng do chưa thu thập đủ thông tin. Cuối cùng, việc thu thập dữ liệu nói chung và cho nghiên cứu nói riêng phải đảm bảo các chính sách bảo mật dữ liệu người dùng. 2.1.2. Thách thức trong triển khai thuật toán Thứ nhất, số lượng sản phẩm và người dùng quá lớn, khiến chi phí lưu trữ và thực hiện thuật toán trên bộ nhớ ngày càng tăng, gây khó khăn khi mở rộng hệ thống. Cùng với đó, các hệ thống lọc dựa trên nội dung hay kết hợp với CF phụ thuộc rất nhiều vào chất lượng của dữ liệu đặc trưng sản phẩm và người dùng. Tuy nhiên, đa phần dữ liệu mang thông tin về sản phẩm hay sở thích của người dùng đều là dữ liệu thô, không thể sử dụng trực tiếp. 2.2. Những vấn đề luận án sẽ giải quyết Để thực hiện nhiệm vụ như trình bày ở phần trên, RS trong thực tiễn cần đáp ứng các mục tiêu: chính xác, mới lạ, ngẫu nhiên, đa dạng, riêng tư. Trong đó, các nghiên cứu trong luận án này tập trung vào cải thiện tính chính xác của các thuật toán gợi ý. Cụ thể, luận án sẽ tập trung giải quyết ba vấn đề chính sau: Vấn đề 1: độ chính xác của thuật toán CF bị suy giảm đáng kể khi ma trận tương tác giữa người dùng với sản phẩm rất thưa thớt. Vấn đề 2: dữ liệu đặc trưng sản phẩm có chất lượng chưa tốt, chưa được phân tích kỹ và tận dụng triệt để trong CF. Vấn đề 3: khó khăn trong thu thập dữ liệu về sở thích của người dùng do các vấn đề bảo mật, và các mô hình CF truyền thống cũng chưa có khả năng tận dụng dữ liệu người dùng triệt để. 3
- 3. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu 3.1. Mục tiêu nghiên cứu Đề xuất thuật toán đo độ tương đồng nhằm tăng độ chính xác của mô hình CF dựa trên ghi nhớ. Đề xuất các mô hình trích xuất đặc trưng ẩn và xử lý dữ liệu đặc trưng của sản phẩm. Đề xuất các phương pháp xây dựng dữ liệu sở thích người dùng, và đề xuất cải thiện các thuật toán CF sử dụng nguồn dữ liệu người dùng mới. Chứng minh khả năng triển khai của các mô hình đề xuất trên thiết bị có phần bứng hạn chế. 3.2. Đối tượng và phạm vi nghiên cứu Các thuật toán CF phổ biến như kNN, SVD, SVD++, NMF. Phương pháp xác định độ tương đồng giữa các sản phẩm. Quá trình tiền xử lí dữ liệu mô tả nội dung sản phẩm. Hai tập dữ liệu về đánh giá phim nổi tiếng là MovieLens 20M và 25M: luận án sẽ tập trung khai thác dữ liệu đánh giá của người dùng và các thẻ Genome phản ánh đặc trưng của các bộ phim. 3.3. Phương pháp nghiên cứu Phương pháp nghiên cứu được sử dụng trong luận án là từ các phân tích và đánh giá những mô hình hiện có, đưa ra các đề xuất cải thiện và tiến hành triển khai các mô hình mới sử dụng dữ liệu thực tế. Mô hình mới được so sánh với những mô hình tham chiếu dựa trên các tiêu chí độ chính xác dự đoán và thời gian thực thi để kiểm nghiệm một cách toàn diện hiệu quả hoạt động. Quá trình này có thể lặp lại nhiều lần để liên tục nâng cao độ chính xác của các mô hình. 4. Các đóng góp mới của luận án Luận án đã lần lượt giải quyết những vấn đề đưa ra ở phần 2 và thu được những kết quả sau: 4
- Đề xuất các thuật toán cải thiện độ chính xác của phép đo độ tương đồng giữa các sản phẩm sử dụng phương pháp thống kê và dữ liệu đặc trưng của sản phẩm. Thiết kế quy trình làm sạch thông tin sản phẩm sử dụng mô hình NLP, đồng thời áp dụng kiến trúc AE và CNN nhằm nén dữ liệu và trích xuất đặc trưng ẩn. Xây dựng dữ liệu mô tả người dùng để giải quyết bài toán khởi tạo trong các mô hình MF và tăng cường mô hình CF dựa trên ghi nhớ. Triển khai thành công các mô hình đề xuất trên thiết bị có phần cứng hạn chế, giảm thiểu thời gian phản hồi và tăng tính bảo mật trong quá trình truyền tải dữ liệu. 5. Cấu trúc nội dung của luận án Chương 1 “Tổng quan về hệ thống gợi ý” giới thiệu tổng quan về các thuật toán trong RS cho bài toán dự đoán đánh giá. Chương 2 “Cải thiện thuật toán đo độ tương đồng giữa hai sản phẩm trong lọc cộng tác dựa theo ghi nhớ” đề xuất một số thuật toán mới nhằm đo độ tương đồng giữa các sản phẩm sử dụng phân tích thống kê, và thông tin đặc trưng sản phẩm. Chương 3 “Hệ thống gợi ý áp dụng cách thức biểu diễn sản phẩm sử dụng các kỹ thuật học sâu” giới thiệu phương pháp nén dữ liệu Tag Genome sử dụng NLP và AE. Chương này cũng đề xuất một kiến trúc AE mới có tên HCAE, tích hợp CNN vào làm bộ phân tách đặc trưng ẩn từ dữ liệu Tag Genome. Chương 4 “Phương pháp sinh dữ liệu người dùng nhân tạo ứng dụng trong lọc cộng tác” đề xuất một số phương pháp ước lượng sở thích người dùng từ dữ liệu đặc trưng sản phẩm, ứng dụng vào CF dựa trên ghi nhớ và bài toán khởi tạo cho mô hình MF. 5
- Chương 1 TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1. Ma trận lịch sử tương tác trong hệ thống gợi ý Hai thực thể chính trong RS là người dùng và sản phẩm. Mục tiêu của bài toán này là dự đoán giá trị tại các rui chưa biết. ˆ Thông thường, mỗi người dùng thường chỉ đánh giá một số lượng rất nhỏ các sản phẩm và gây ra vấn đề “khởi động nguội”. 1.2. Các phương án triển khai hệ thống gợi ý cho bài toán dự đoán đánh giá 1.2.1. Hệ thống gợi ý dựa trên nội dung RS dựa trên nội dung dựa vào thông tin mô tả nội dung sản phẩm để đề xuất với người dùng những sản phẩm có liên quan. Mỗi sản phẩm được mô tả bởi một bộ hồ sơ, biểu diễn dưới dạng một vector X . Tuy nhiên, việc phụ thuộc vào hồ sơ sản phẩm khiến cho hệ thống hoạt động kém khi không có nguồn dữ liệu hoặc dữ liệu kém tin cậy. 1.2.2. Lọc cộng tác dựa trên ghi nhớ Mô hình lọc cộng tác (Collaborative Filtering - CF) dựa trên ghi nhớ thực hiện dự đoán các sản phẩm phù hợp nhất cho người dùng dựa trên độ tương đồng giữa các sản phẩm (hoặc giữa các người dùng). Có hai dạng mô hình CF dựa theo ghi nhớ chính: (i) mô hình hướng người dùng và (ii) mô hình hướng sản phẩm. Một hệ thống CF hướng sản phẩm (item-item CF hay ii-CF) gợi ý những sản phẩm tương đồng nhất với sản phẩm mà một người dùng thích (có đánh giá cao hoặc đã từng mua). Độ tương đồng sij giữa sản phẩm i và j có thể tính theo công thức Cos hoặc PCC. 6
- Từ các sij , ta có thể xác định k sản phẩm tương đồng nhất với j mà đã được đánh giá bởi u. Để dự đoán đánh giá rui , kNN sử dụng công thức sau: ˆ sij (ruj − buj ) j∈Sk (i;u) rui N = bui + ˆkN (1.1) sij j∈Sk (i;u) Tuy nhiên, hiệu quả của mô hình còn bị hạn chế bởi ma trận tương tác trên thực tế thường rất thưa và chi phí dự đoán quá lớn. 1.2.3. Lọc cộng tác dựa trên mô hình Ý tưởng chính của mô hình nhân tố ẩn là tìm cách khám phá những đặc trưng ẩn của từng người dùng và sản phẩm nhằm ánh xạ ma trận tương tác trong tập dữ liệu về chiều không gian ẩn có kích thước nhỏ hơn. Bằng cách áp dụng thuật toán SVD lên ma trận R, các người dùng và sản phẩm lần lượt được ánh xạ sang không gian nhân tố ẩn có số chiều k (k ≪ m, n). Mô hình SVD ước lượng đánh giá bằng phép nhân vô hướng đơn giản và có công thức như sau: T rui = bui + qi pu ˆ (1.2) 1.3. Thiết lập thí nghiệm 1.3.1. Tập dữ liệu MovieLens 20M Để đánh giá hiệu quả các RS trong luận án này, tập dữ liệu MovieLens 20M và MovieLens 25M được sử dụng làm cơ sở đánh giá. Bảng 1.1: Tổng quan về tập dữ liệu MovieLens 20M. Số đánh giá Số người dùng Số sản phẩm Tập dữ liệu gốc 20,000,263 138,493 27,278 Tập dữ liệu sau 19,793,342 138,185 10,239 tiền xử lý Tag Genome là một dữ liệu thứ cấp quan trọng và được sử dụng xuyên suốt các thuật toán được đề xuất trong luận án này. Do đó, tất cả các bộ phim không có trong dữ liệu Tag Genome sẽ bị loại bỏ khỏi tập dữ liệu. Thêm nữa, chỉ có những người dùng và bộ phim có trên 20 đánh giá được giữ lại. Bảng 1.1 tổng kết lại kết quả tiền xử lý dữ liệu. 7
- Sau khi tiền xử lý, tập dữ liệu chỉ còn lại 19,793,342 đánh giá, với độ thưa thớt xấp xỉ 98.97% so với 99.47% ban đầu, được đưa ra bởi 138,185 người dùng cho 10,239 sản phẩm. 1.3.2. Tập dữ liệu MovieLens 25M Trong luận án này, ngoài tập dữ liệu MovieLens phiên bản 20M, phiên bản 25M cũng được sử dụng làm cơ sở đánh giá cho các mô hình gợi ý. Các bước tiền xử lý tập MovieLens 25M tương tự như các bước thực hiện trên tập dữ liệu 20M. Sau khi tiền xử lý, tập dữ liệu chỉ còn lại 2,4674,113 đánh giá, với độ thưa thớt xấp xỉ 98.90% so với 99.74% ban đầu, được đưa ra bởi 162,540 người dùng cho 13,816 sản phẩm. 1.3.3. Phương pháp đánh giá Để phục vụ đánh giá mô hình, tập dữ liệu sau khi tiền xử lý được chia làm hai phần tách biệt: 80% đánh giá của mỗi sản phẩm được sử dụng làm tập huấn luyện, và 20% còn lại được sử dụng cho tập kiểm tra. Để so sánh độ hiệu quả giữa các mô hình, RMSE, Precision@k (P@k ) và Recall@k (R@k ) được sử dụng theo các công thức sau. RMSE = (ˆui − rui )2 /|TESTSET| r (1.3) u,i∈TESTSET #tp Precision = (1.4) #tp + #f p #tp Recall = (1.5) #tp + #f n Cuối cùng, thời gian thực hiện của hệ thống được đo bằng tổng thời gian của quá trình huấn luyện và dự đoán tập kiểm tra. 1.4. Kết luận Với tiềm năng to lớn trong các ngành công nghiệp hiện đại, RS hứa hẹn trở thành một giải pháp không thể thiếu. Chương này cung cấp một cái nhìn tổng quan về các thuật toán gợi ý phổ biến. Ngoài ra, tập dữ liệu MovieLens 20M và 25M, và phương pháp đánh giá RS trong luận án này cũng được mô tả. 8
- Chương 2 CẢI THIỆN THUẬT TOÁN ĐO ĐỘ TƯƠNG ĐỒNG GIỮA HAI SẢN PHẨM TRONG LỌC CỘNG TÁC DỰA TRÊN GHI NHỚ 2.1. Hạn chế của các phép đo độ tương đồng truyền thống trong hệ thống gợi ý 2.1.1. Hạn chế trong phân bố thống kế độ tương đồng Các mô hình CF dựa theo ghi nhớ sử dụng phép đo Cos cho thấy 97% các giá trị độ tương đồng nằm trong khoảng [0.85; 1] với hệ số biến thiên (CV) bằng 4.83% (Hình 2.1a). Khi sử dụng PCC, CV = 7.80%. Với CV nhỏ như vậy, ranh giới giữa cặp sản phẩm tương đồng và cặp sản phẩm ít tương đồng hơn là rất nhỏ. Từ đó có thể thấy rằng cần có một phương pháp đo độ tương đồng mới có khả năng cho ra biểu đồ tần suất độ tương đồng có “độ rộng” lớn hơn và có CV cao hơn. 2.1.2. Hạn chế của dữ liệu lịch sử đánh giá trong tính toán ma trận tương đồng Một sản phẩm có thể nhận được nhiều đánh giá từ nhiều người dùng, nhưng giữa hai sản phẩm với nhau lại chỉ có một vài người dùng cùng đánh giá cả hai sản phẩm. Sự liên quan giữa các sản phẩm bị bỏ qua. Thời gian, chi phí tính toán lớn. 2.2. Phương pháp tính độ tương đồng mới cải thiện hạn chế trong phân bố thống kê Phép đo độ tương đồng mới được định nghĩa như sau: 9
- (a) (b) (c) (d) Hình 2.1: Biểu đồ tần suất và số liệu thống kê độ tương đồng được đo bằng các phép đo độ tương đồng: (a) Cos, (b) PCC, (c) cubedCos, (d) cubedPCC. scubedCos = (sCos )3 ij ij (2.1) scubedP CC = (sP CC )3 ij ij (2.2) Hình 2.1c và Hình 2.1d cho thấy CV lớn hơn đáng kể. 2.3. Phương pháp Lọc cộng tác dựa theo ghi nhớ tích hợp nội dung sản phẩm 2.3.1. Phương pháp tích hợp nội dung của sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ Tác giả đề xuất phương pháp mới nhằm đánh giá độ tương đồng giữa bằng cách tận dụng dữ liệu Tag Genome. Trong phần này, phương pháp tính độ 10
- tương đồng sgi ,gj sử dụng PCC được tính như sau. G (gi,k − g i )(gj,k − g i ) k=1 sgiCCgenome = P ,gj (2.3) G G (gi,k − g i )2 (gj,k − g i )2 k=1 k=1 P CC Để áp dụng phép đo độ tương đồng mới, sgi ,gj genome được thay thế cho sij trong kNNBasic và kNNBaseline. Mô hình này được đặt tên là kNNContent. 2.3.2. Xây dựng ma trận tương đồng kết hợp trong hệ thống gợi ý dựa trên ghi nhớ Phần này phân tích một số kỹ thuật kết hợp hai ma trận tương đồng, Sr và Sc , với các phương pháp sau. Trong đó, ⊙ ký hiệu phép nhân theo từng phần tử giữa Sr và Sc . S add = Sr + Sc (2.4) S mul = Sr ⊙ Sc (2.5) 2.4. Kết quả thí nghiệm 2.4.1. Kết quả các phương pháp giúp cải thiện phân bố thống kê của ma trận tương đồng Bảng 2.1 trình bày kết quả các mô hình kNN sử dụng các phép đo độ tương đồng được đề xuất trong phần 2.2. Mô hình tốt nhất được đề xuất, kNN sử dụng phép đo cubedPCC đạt RMSE thấp hơn 0.51% và cải thiện 0.75% - 1.95% trong tác vụ xếp hạng k sản phẩm so với SVD. Bảng 2.1: So sánh độ hiệu quả của mô hình sử dụng phép đo mới. Mô hình RMSE P@5 P@10 R@5 R@10 Thời gian [s] Tập dữ liệu MovieLens 20M PCC 0.8304 0.7767 0.7528 0.4151 0.5401 574 SVD 0.7922 0.8005 0.7786 0.4322 0.5628 1,228 SVD++ 0.7894 0.8030 0.7817 0.4339 0.5639 27,387 cubedPCC 0.7882 0.8155 0.7904 0.4358 0.5670 580 11
- 2.4.2. Kết quả tích hợp nội dung của sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ Bảng 2.2: Hiệu năng của mô hình CF dựa trên ghi nhớ kết hợp với dữ liệu Tag Genome với k = 40 và k = 10. Mô hình RMSE Thời gian [s] Tập dữ liệu MovieLens 20M kNNBasic Cosgenome 0.8562 315 (k = 40) PCCgenome 0.8268 327 kNNBaseline Cosgenome 0.8202 336 (k = 40) PCCgenome 0.7912 340 kNNBasic Cosgenome 0.8416 261 (k = 10) PCCgenome 0.8266 264 kNNBaseline Cosgenome 0.8037 283 (k = 10) PCCgenome 0.7905 284 Tập dữ liệu MovieLens 25M kNNBasic Cosgenome 0.8532 341 (k = 40) PCCgenome 0.8239 347 kNNBaseline Cosgenome 0.8177 374 (k = 40) PCCgenome 0.7885 365 kNNBasic Cosgenome 0.8389 289 (k = 10) PCCgenome 0.8238 293 kNNBaseline Cosgenome 0.8011 316 (k = 10) PCCgenome 0.7878 319 Theo Bảng 2.2, khi kích thước tập các láng giềng được chọn bằng 40, mô hình kNN với ma trận tương đồng tính theo công thức PCCgenome cho RMSE cao hơn 0.22% và 0.38% so với các mô hình đối thủ sử dụng dữ liệu lịch sử tương tác lần lượt là mô hình SVD++ và cubedPCCBaseline. 2.4.3. Kết quả tích hợp ma trận tương đồng kết hợp trong hệ thống gợi ý dựa trên ghi nhớ Bảng 2.3 cho thấy mô hình hiệu quả nhất, kNNBaseline sử dụng phép nhân theo từng phần tử giữa Sr và Sc , đạt RMSE thấp hơn 1.88% và cải thiện 12
- Bảng 2.3: Hiệu suất của mô hình kNN sử dụng ma trận độ tương đồng kết hợp so với các mô hình tham chiếu khác. Mô hình RMSE P@10 R@10 Thời gian [s] SVD (40 nhân tố ẩn) 0.7922 0.7786 0.5628 1,228 SVD++ (40 nhân tố ẩn) 0.7894 0.7817 0.5639 27,387 I-AutoRec 0.7808 0.7559 0.5228 69,860 kNNBaseline (k = 40) 0.8108 0.7721 0.5541 565 kNNContent (k = 20) 0.7885 0.7927 0.5693 293 Ghép kết quả dự đoán 0.7833 0.7979 0.5730 827 Hybrid S add (k = 20) 0.7834 0.7973 0.5729 571 Sr , Sc S mul (k = 20) 0.7773 0.8036 0.5769 575 từ 2.51% - 3.67% trên tác vụ xếp hạng k sản phẩm so với SVD, trong khi so với mô hình ghép kết quả dự đoán giữa kNNBaseline và kNNContent thì RMSE thấp hơn 0.77% và cải thiện từ 0.66% - 0.71% trên tác vụ xếp hạng k sản phẩm. So với mô hình ghép kết quả dự đoán trong các nghiên cứu liên quan, ma trận độ tương đồng kết hợp linh hoạt hơn nhiều về phương pháp kết hợp, trong khi cung cấp hiệu suất tốt hơn. 2.4.4. Kết quả triển khai các mô hình trên thiết bị máy tính Jetson Nano Bảng 2.4: Hiệu suất, tài nguyên tiêu thụ và thời gian thực hiện các mô hình đề xuất triển khai trên máy tính Jetson Nano. Mô Thời gian [s] Tài nguyên tiêu thụ hình Huấn luyện Dự đoán CPU RAM/SWAP Không 80% 3.0 GB RAM kNN 1551 có Frq:1.5 GHz 1.826 GB SWAP 52% Dự đoán 1.8 GB RAM SVD 3720 700 Frq:1.5 GHz Huấn luyện 2.2 GB RAM 56% Dự đoán 1.8 GB RAM SVD++ 82161 693 Frq:1.5 GHz Huấn luyện 3.6 GB RAM Kết quả trong bảng 2.4 cho thấy: 13
- Thuật toán của các mô hình đều đã được tối ưu để hạn chế mức tài nguyên tiêu thụ của thiết bị. Mô hình kNNBaseline phảu lưu trữ khối dữ liệu lớn nên gần như đã sử dụng tối đa tài nguyên của thiết bị và phải sử dụng swap để có thể đủ bộ nhớ đệm lưu trữ. Hai mô hình SVD và SVD++ chỉ sử dụng một phần tài nguyên vì trên cả hai mô hình không cần phải lưu trữ nhiều dữ liệu. Thời gian thực hiện đều cao hơn khoảng 4-6 lần. Hình 2.2: Kết quả thực hiện gợi ý của hệ thống sử dụng mô hình SVD. Hình 2.2 thể hiện kết quả gợi ý của hệ thống sử dụng mô hình SVD, chứng minh khả năng triển khai RSs trên thiết bị biên là hoàn toàn khả thi. Với 10 gợi ý phim mà hệ thống đưa ra, có 6/10 phim nằm trong top 10 phim mà người dùng yêu thích. Ngoài ra, hoàn toàn có thể tinh chỉnh các siêu tham số trực tiếp trên ứng để phân tích và tinh chỉnh mô hình trực tiếp trên thiết bị biên. 2.5. Kết luận Trong chương này, tác giả đã đề xuất các công thức tính toán độ tương đồng mới giúp cải thiện đáng kể khả năng dự đoán của các mô hình kNNBaseline. Tiếp theo đó, một phương pháp tính toán độ tương đồng mới giữa hai sản phẩm đã được đề xuất sử dụng dữ liệu mô tả nội dung sản phẩm dưới dạng các vector điểm số genome. Cuối cùng, tác giả phát triển một ma trận tương đồng mới kết hợp cả hai nguồn thông tin về lịch sử đánh giá và nội dung sản phẩm. Những kết quả trên đã được trình bày trong các nghiên cứu [C1], [C2] và [C3]. 14
- Chương 3 HỆ THỐNG GỢI Ý ÁP DỤNG CÁCH THỨC BIỂU DIỄN SẢN PHẨM SỬ DỤNG CÁC KỸ THUẬT HỌC SÂU 3.1. Phương pháp nhóm các thẻ tương đồng trong dữ liệu Tag Genome bằng kỹ thuật xử lý ngôn ngữ tự nhiên Trong dữ liệu Tag Genome tồn tại nhiều thẻ mô tả có cùng ý nghĩa nhưng lại mang nhiều tên gọi khác nhau. Các thẻ này lại có các giá trị này có phân phối trong một khoảng giá trị khá lớn. Bảng 3.1: Một số nhóm các thẻ tương đồng lại với nhau. Thẻ mô tả gốc Thẻ mô tả mới soccer football_new football good acting good_acting_new good action Nhằm loại bỏ yếu tố này, những thẻ mô tả có ý nghĩa tương đồng nhau được nhóm lại thành một thẻ mới. Sau khi phân cụm, kích thước vector genome giảm từ 1,128 xuống 1,044. 3.2. Phương pháp học cách biểu diễn mới qua Bộ tự mã hóa AE là kiến trúc phổ biến giúp khám phá đặc trưng ẩn trong dữ liệu thô. Vector genome mới ở phần 3.1 được áp dụng vào mạng AE như sau: Bước 1: Mạng AE một lớp ẩn với đầu vào và đầu ra có 1,044 nơ-ron. Bước 2: Sử dụng dạng genome tương ứng để huấn luyện mạng AE. Bước 3: Lớp ẩn của mạng AE được tách ra để sử dụng như một dạng biểu diễn ẩn của các sản phẩm. 15
- Dạng biểu diễn mới học bởi AE có kích thước nhỏ hơn, chứa thông tin các mối quan hệ ẩn giữa các thẻ genome ban đầu. 3.3. Học cách biểu diễn mới cho mỗi bộ phim với Bộ tự mã hóa bán chập 3.3.1. Cơ sở áp dụng CNN cho dữ liệu bảng Nghiên cứu trên dữ liệu Tag Genome cho thấy những căn cứ triển vọng cho việc áp dụng CNN lên mạng AE: Mỗi vector Tag Genome được coi như một tín hiệu rời rạc trên miền thời gian, mỗi bộ phim lúc này được mô tả bởi một tín hiệu. Nếu thứ tự của các cột được hoán đổi, hình dạng vật lý của các tín hiệu thay đổi nhất quán và vẫn mang đầy đủ thông tin về từng bộ phim. 3.3.2. Thiết kế Bộ tự mã hóa bán chập Trong phần này, mạng HCAE được đề xuất để khai thác khả năng của 1D-CNN trong việc phân tích dữ liệu Tag Genome (Hình 3.1). Hình 3.1: Kiến trúc mạng HCAE. 16
- 3.4. Kết quả thí nghiệm 3.4.1. Kết quả mô hình sử dụng nhóm các thẻ tương đồng bằng NLP Từ Bảng 3.2, việc nhóm các thẻ tương đồng giúp kNNBaselinegenome giảm RMSE 0.38% trong khi thực hiện dự đoán nhanh hơn 16.47%. Bảng 3.2: Hiệu năng khi sử dụng 1,044 thẻ genome đã được phân cụm. Mô hình RMSE Thời gian [s] 1,128 thẻ genome gốc kNNBaseline Cosoriginal genome 0.8037 336 (k=10) PCCoriginal genome 0.7905 284 original FMgenome 0.7918 42,788 1,044 thẻ genome đã được phân cụm kNNBaseline Cosnew genome 0.7981 287 (k=10) PCCnew genome 0.7875 289 FMnew genome 0.7898 40,106 3.4.2. Kết quả mô hình sử dụng cách biểu diễn mới cho các sản phẩm qua Bộ tự mã hóa Hình 3.2: Biểu đồ tỉ lệ lỗi theo kích thước của lớp ẩn. Mô hình tham chiếu (không sử dụng AE) được mô tả qua đường kẻ ngang. 17
- Kết quả thí nghiệm với kích thước tầng ẩn khác nhau được trình bày trong Hình 3.2 với mô hình tối ưu được đánh dấu. So với mô hình tham chiếu, việc mã hóa 1,044 thẻ genome về vector 600 đặc trưng ẩn không những giảm thời gian thực hiện dự đoán mà còn giúp cải thiện độ chính xác của các gợi ý. Mô hình kNNBaseline với k = 10 sử dụng PCCgenome trên vector đặc trưng 600 phần tử được nén từ 1,044 điểm số genome qua mạng AE 3 lớp ẩn được đặt tên là kNN-ContentAE . 3.4.3. Kết quả áp dụng biểu diễn mới cho mỗi bộ phim với Bộ tự mã hóa bán chập Trong quá trình huấn luyện, việc hoán đổi vị trí các thẻ genome cho tỉ lệ lỗi dao động dưới 0.06%, xác minh rằng HCAE có thể phân tích được các đặc tính ẩn mà không bị phụ thuộc vào vị trí các đặc trưng đầu vào. Bảng 3.3 trình bày kết quả mô hình sử dụng HCAE so với các mô hình tham chiếu. Bảng 3.3: Kết quả so sánh giữa mô hình được đề xuất sử dụng HCAE. Mô hình RMSE P@10 R@10 Thời gian [s] Tập dữ liệu MovieLens 20M kNNBaseline 0.8108 0.7721 0.5541 565 SVD 0.7922 0.8005 0.4322 1,228 SVD++ 0.7894 0.8030 0.4339 27,387 I-RBM 0.7951 0.7635 0.3917 96,455 I-AutoRec 0.7808 0.7559 0.5228 69,860 kNN-ContentAE 0.7692 0.8056 0.5777 295 HCAE kNN-Content 0.7608 0.8139 0.5835 297 Tập dữ liệu MovieLens 25M kNNBaseline 0.8086 0.7739 0.5557 604 SVD 0.7897 0.8022 0.5639 1,283 SVD++ 0.7851 0.8048 0.5651 31,459 I-RBM 0.7931 0.7651 0.5150 104,275 I-AutoRec 0.7795 0.7569 0.5236 72,498 AE kNN-Content 0.7671 0.8075 0.5793 330 kNN-ContentHCAE 0.7671 0.8201 0.5875 335 18
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Giáo dục học: Phát triển tư duy vật lý cho học sinh thông qua phương pháp mô hình với sự hỗ trợ của máy tính trong dạy học chương động lực học chất điểm vật lý lớp 10 trung học phổ thông
219 p | 291 | 35
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Chiến lược Marketing đối với hàng mây tre đan xuất khẩu Việt Nam
27 p | 187 | 18
-
Tóm tắt Luận án Tiến sĩ Luật học: Hợp đồng dịch vụ logistics theo pháp luật Việt Nam hiện nay
27 p | 279 | 17
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Thúc đẩy tăng trưởng bền vững về kinh tế ở vùng Đông Nam Bộ đến năm 2030
27 p | 212 | 17
-
Tóm tắt Luận án Tiến sĩ Y học: Nghiên cứu điều kiện lao động, sức khoẻ và bệnh tật của thuyền viên tàu viễn dương tại 2 công ty vận tải biển Việt Nam năm 2011 - 2012
14 p | 272 | 16
-
Tóm tắt luận án Tiến sĩ: Nghiên cứu tối ưu các thông số hệ thống treo ô tô khách sử dụng tại Việt Nam
24 p | 254 | 12
-
Tóm tắt Luận án Tiến sĩ Triết học: Giáo dục Tư tưởng Hồ Chí Minh về đạo đức cho sinh viên trường Đại học Cảnh sát nhân dân hiện nay
26 p | 156 | 12
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu tính toán ứng suất trong nền đất các công trình giao thông
28 p | 223 | 11
-
Tóm tắt Luận án Tiến sĩ Kinh tế Quốc tế: Rào cản phi thuế quan của Hoa Kỳ đối với xuất khẩu hàng thủy sản Việt Nam
28 p | 183 | 9
-
Tóm tắt Luận án Tiến sĩ Xã hội học: Vai trò của các tổ chức chính trị xã hội cấp cơ sở trong việc đảm bảo an sinh xã hội cho cư dân nông thôn: Nghiên cứu trường hợp tại 2 xã
28 p | 151 | 8
-
Tóm tắt Luận án Tiến sĩ Luật học: Các tội xâm phạm tình dục trẻ em trên địa bàn miền Tây Nam bộ: Tình hình, nguyên nhân và phòng ngừa
27 p | 207 | 8
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phản ứng của nhà đầu tư với thông báo đăng ký giao dịch cổ phiếu của người nội bộ, người liên quan và cổ đông lớn nước ngoài nghiên cứu trên thị trường chứng khoán Việt Nam
32 p | 185 | 6
-
Tóm tắt Luận án Tiến sĩ Triết học: Tư tưởng Triết học của Tôn Trung Sơn và ý nghĩa của nó
32 p | 164 | 6
-
Tóm tắt Luận án Tiến sĩ Luật học: Quản lý nhà nước đối với giảng viên các trường Đại học công lập ở Việt Nam hiện nay
26 p | 137 | 5
-
Tóm tắt Luận án Tiến sĩ Ngôn ngữ học: Phương tiện biểu hiện nghĩa tình thái ở hành động hỏi tiếng Anh và tiếng Việt
27 p | 124 | 4
-
Tóm tắt luận án Tiến sĩ Y học: Nghiên cứu mức lọc cầu thận bằng Cystatin C huyết thanh ở bệnh nhân tiền đái tháo đường và đái tháo đường típ 2
38 p | 95 | 4
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các nhân tố ảnh hưởng đến cấu trúc kỳ hạn nợ phương pháp tiếp cận hồi quy phân vị và phân rã Oaxaca – Blinder
28 p | 28 | 3
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển sản xuất chè nguyên liệu bền vững trên địa bàn tỉnh Phú Thọ các nhân tố tác động đến việc công bố thông tin kế toán môi trường tại các doanh nghiệp nuôi trồng thủy sản Việt Nam
25 p | 173 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn