Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế
lượt xem 5
download
Mục tiêu nghiên cứu của đề tài "Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế" là đề xuất thuật toán đo độ tương đồng nhằm tăng độ chính xác của mô hình CF dựa trên ghi nhớ. Đề xuất các mô hình trích xuất đặc trưng ẩn và xử lý dữ liệu đặc trưng của sản phẩm. Đề xuất các phương pháp xây dựng dữ liệu sở thích người dùng, và đề xuất cải thiện các thuật toán CF sử dụng nguồn dữ liệu người dùng mới;...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2023
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 9520203 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG QUANG HIẾU PGS. TS. NGUYỄN ĐỨC MINH HÀ NỘI - 2023
- LỜI CAM ĐOAN Tôi xin cam đoan các kết quả khoa học được trình bày trong luận án này là công trình nghiên cứu của tôi dưới sự hướng dẫn của các cán bộ hướng dẫn. Các số liệu, các kết quả trình bày trong luận án có nguồn gốc rõ ràng, hoàn toàn trung thực và chưa được các tác giả khác công bố trong các công trình trước đây. Các dữ liệu tham khảo được trích dẫn đầy đủ. Hà Nội, ngày 25 tháng 05 năm 2023 Tập thể hướng dẫn Tác giả luận án TS. Đặng Quang Hiếu Dương Tấn Nghĩa PGS. TS. Nguyễn Đức Minh
- LỜI CẢM ƠN Trong quá trình nghiên cứu và hoàn thành Luận án, nghiên cứu sinh đã nhận được sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viên của các nhà khoa học, các thầy cô giáo, đồng nghiệp và gia đình. Trước hết, nghiên cứu sinh xin bày tỏ lời cảm ơn tới các thầy TS. Đặng Quang Hiếu, PGS.TS. Nguyễn Đức Minh đã tận tình hướng dẫn và giúp đỡ trong quá trình nghiên cứu. Nghiên cứu sinh xin chân thành cảm ơn các thầy cô giáo, các nhà khoa học của Khoa Điện Tử, Trường Điện- Điện Tử, Đại Học Bách Khoa Hà Nội đã có các góp ý quý báu cho Nghiên cứu sinh trong quá trình thực hiện Luận án này. Cuối cùng nghiên cứu sinh bày tỏ lời cảm ơn sâu sắc tới gia đình hai bên và người vợ của nghiên cứu sinh đã luôn động viên, chia sẻ, ủng hộ và giúp đỡ nghiên cứu sinh vượt qua khó khăn để đạt được những kết quả nghiên cứu trong Luận án này. NCS Dương Tấn Nghĩa
- MỤC LỤC MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DANH MỤC CÁC TỪ VIẾT TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v DANH MỤC KÝ HIỆU TOÁN HỌC . . . . . . . . . . . . . . . . . . . . . . . . . . vii DANH MỤC HÌNH VẼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix DANH MỤC BẢNG BIỂU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1. Giới thiệu chung về hệ thống gợi ý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2. Tính cần thiết của luận án và những vấn đề sẽ giải quyết . . . . . . . . . . . . . 8 3. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu . . . . . . . . . . . 13 4. Các đóng góp mới của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5. Cấu trúc nội dung của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 CHƯƠNG 1. TỔNG QUAN VỀ HỆ THỐNG GỢI Ý. . . . . . . . . . 16 1.1. Ma trận lịch sử tương tác trong hệ thống gợi ý . . . . . . . . . . . . . . . . . . . . . 16 1.2. Các phương án triển khai hệ thống gợi ý . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.1. Hệ thống gợi ý dựa trên nội dung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2. Lọc cộng tác dựa trên ghi nhớ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.3. Lọc cộng tác dựa trên mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3. Thiết lập thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.1. Tập dữ liệu MovieLens 20M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.2. Tập dữ liệu MovieLens 25M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.3.3. Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.4. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 i
- ii CHƯƠNG 2. CẢI THIỆN THUẬT TOÁN ĐO ĐỘ TƯƠNG ĐỒNG GIỮA HAI SẢN PHẨM TRONG LỌC CỘNG TÁC DỰA TRÊN GHI NHỚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1. Hạn chế của các phép đo độ tương đồng truyền thống trong hệ thống gợi ý ...................................................................... 30 2.1.1. Hạn chế trong phân bố thống kê độ tương đồng . . . . . . . . . . . . . . . . 30 2.1.2. Hạn chế của dữ liệu lịch sử đánh giá trong tính toán ma trận tương đồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2. Phương pháp tính độ tương đồng mới cải thiện hạn chế trong phân bố thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3. Phương pháp Lọc cộng tác dựa theo ghi nhớ tích hợp nội dung sản phẩm 35 2.3.1. Dữ liệu Tag Genome trong tập dữ liệu MovieLens 20M và 25M. 35 2.3.2. Phương pháp tích hợp nội dung của sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.3. Xây dựng ma trận tương đồng kết hợp trong hệ thống gợi ý dựa trên ghi nhớ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.1. Các mô hình tham chiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.2. Kết quả các phương pháp giúp cải thiện phân bố thống kê của ma trận tương đồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4.3. Kết quả tích hợp nội dung của sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.4.4. Kết quả tích hợp ma trận tương đồng kết hợp trong hệ thống gợi ý dựa trên ghi nhớ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.5. Kết quả triển khai các mô hình trên thiết bị máy tính Jetson Nano . 48 2.5. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 CHƯƠNG 3. HỆ THỐNG GỢI Ý ÁP DỤNG CÁCH THỨC BIỂU DIỄN SẢN PHẨM SỬ DỤNG CÁC KỸ THUẬT HỌC SÂU . . 52 3.1. Phương pháp nhóm các thẻ tương đồng trong dữ liệu Tag Genome bằng kỹ thuật xử lý ngôn ngữ tự nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
- iii 3.2. Phương pháp học cách biểu diễn mới cho các sản phẩm qua Bộ tự mã hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2.1. Kiến trúc Bộ tự mã hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2.2. Áp dụng Bộ tự mã hoá nhằm biểu diễn sản phẩm . . . . . . . . . . . . . . 57 3.3. Học cách biểu diễn mới cho mỗi bộ phim với Bộ tự mã hóa bán chập 58 3.3.1. Cơ sở áp dụng CNN cho dữ liệu bảng . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3.2. Sơ lược về kiến trúc mạng nơ-ron chập một chiều . . . . . . . . . . . . . . 61 3.3.3. Sơ lược về Bộ tự mã hóa chập - CAE . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.3.4. Thiết kế Bộ tự mã hóa bán chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.4. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1. Các mô hình tham chiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.2. Kết quả mô hình sử dụng phương pháp nhóm các thẻ tương đồng trong dữ liệu Tag Genome bằng kỹ thuật xử lý ngôn ngữ tự nhiên . . . 67 3.4.3. Kết quả mô hình sử dụng cách biểu diễn mới cho các sản phẩm qua Bộ tự mã hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4.4. Kết quả áp dụng biểu diễn mới cho mỗi bộ phim với Bộ tự mã hóa bán chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.4.5. Kết quả triển khai các mô hình trên thiết bị máy tính Jetson Nano . 79 3.5. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 CHƯƠNG 4. PHƯƠNG PHÁP SINH DỮ LIỆU NGƯỜI DÙNG NHÂN TẠO ỨNG DỤNG TRONG LỌC CỘNG TÁC . . . . . . . . . 82 4.1. Biểu diễn người dùng qua nội dung sản phẩm và thông tin đánh giá 82 4.2. Tích hợp độ tương quan người dùng - sản phẩm vào ước lượng cơ sở 86 4.3. Áp dụng nội dung sản phẩm vào bài toán khởi tạo cho mô hình phân rã ma trận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.4. Kết quả thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.4.1. Tích hợp độ tương quan người dùng - sản phẩm vào ước lượng cơ sở 90 4.4.2. Áp dụng nội dung sản phẩm vào bài toán khởi tạo cho mô hình MF 94
- iv 4.4.3. Kết quả triển khai các mô hình trên thiết bị máy tính Jetson Nano . 97 4.5. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Những kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 102
- DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Tên tiếng Anh Tên tiếng Việt AE Autoencoder Mạng Tự Mã hoá ANN Artificial Neural Network Mạng Nơ-ron Nhân tạo CAE Convolutional Autoencoder Mạng Tự Mã hoá Chập CNN Convolutional Neural Network Mạng Nơ-ron Chập 1D-CNN 1 Dimension Convolutional Neur- Mạng Nơ-ron Chập 1 chiều ral Network 2D-CNN 2 Dimension Convolutional Neur- Mạng Nơ-ron Chập 2 chiều ral Network CF Collaborative Filtering Lọc Cộng tác CV Coefficient of Variation Hệ số Biến thiên Cos Cosine Hàm Cosine DL Deep Learning Học Sâu FM Factorization Machine Máy Nhân tử hóa I-Autorec Item-based Autorec Mô hình Autorec hướng sản phẩm ii-CF item-item Collaborative Filtering Lọc Cộng tác hướng sản phẩm HCAE Half Convolutional Autoencoder Mạng Tự Mã hóa Bán Chập kNN k-Nearest Neighbor Thuật toán k Láng giềng Gần nhất MAE Mean Absolute Error Trung bình Sai số Tuyệt đối MF Matrix Factorization Phân rã Ma trận ML Machine Learning Học Máy NLP Natural Language Processing Xử lý Ngôn ngữ Tự nhiên NMF Non-negative Matrix Factoriza- Phân rã Ma trận Không âm tion PCC Pearson Correlation Coefficient Hệ số Tương quan Pearson RBM Restricted Boltzmann Machine Máy Boltzmann bị Hạn chế v
- vi RS Recommendation System Hệ thống gợi ý RMSE Root Mean Squared Error Căn bậc hai của Trung bình Bình phương Sai số SGD Stochastic Gradient Descent Hạ Gradient Ngẫu nhiên SVD Singular Value Decomposition Phân tích Giá trị Suy biến
- DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa u, v Người dùng u, v i, j Sản phẩm i, j rui Đánh giá thực tế của người dùng u cho sản phẩm i ˜ rui rui được chuẩn hóa về đoạn [0, 1] ˆ rui Đánh giá dự đoán của người dùng u cho sản phẩm i sij Độ tương đồng của hai sản phẩm i và j Tập k sản phẩm tương đồng nhất với sản phẩm i S (i, u) k mà cũng được đánh giá bởi người dùng u Ui Tập các người dùng đã đánh giá sản phẩm i Uij Tập các người dùng đã đánh giá cả hai sản phẩm i và j R(u) Tập các sản phẩm đã được đánh giá bởi người dùng u K Tập các cặp (u, i) thỏa mãn rui đã biết R ∈ Rm×n Ma trận đánh giá, m là số người dùng, n là số sản phẩm P ∈ Rm×k Ma trận mô tả m người dùng trong không gian ẩn k chiều pu ∈ Rk Vector mô tả người dùng u Q ∈ Rn×k Ma trận mô tả n sản phẩm trong không gian ẩn k chiều vii
- viii qi ∈ R k Vector mô tả sản phẩm i bui Ước lượng cơ sở µ Giá trị trung bình của toàn bộ đánh giá đã biết bu Độ chệch (bias) cụ thể của người dùng u bi Độ chệch (bias) cụ thể của sản phẩm i α Tốc độ học chung của mô hình λ Hệ số điều chuẩn L2
- DANH MỤC HÌNH VẼ Hình 1 Mô hình miêu tả hệ thống gợi ý. . . . . . . . . . . . . . . . . 2 Hình 2 Sơ đồ mô tả hệ thống EdgeRec. . . . . . . . . . . . . . . . . 4 Hình 3 Phân loại hệ thống gợi ý. . . . . . . . . . . . . . . . . . . . . 5 Hình 4 Số lượt tương tác của từng sản phẩm trong tập dữ liệu MovieLens 20M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Hình 5 Vấn đề khởi động nguội trong hệ thống gợi ý. . . . . . . . . 12 Hình 1.1 Minh họa ma trận lịch sử đánh giá trong tập dữ liệu MovieLens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Hình 1.2 Xây dựng vector đặc trưng ba chiều cho từng bộ phim trên ma trận lịch sử đánh giá. . . . . . . . . . . . . . . . . . . . . 19 Hình 1.3 Minh hoạ thuật toán SVD trong RS. . . . . . . . . . . . . . 23 Hình 2.1 Biểu đồ tần suất và số liệu thống kê độ tương đồng được đo bằng các phép đo độ tương đồng . . . . . . . . . . . . . . . . . 30 Hình 2.2 Biểu đồ tần suất và số liệu thống kê độ tương đồng được đo bằng các phép đo độ tương đồng mới . . . . . . . . . . . . . . 34 Hình 2.3 Biểu đồ nhiệt của 10 bộ phim tương ứng với 10 thẻ genome đầu tiên trong dữ liệu Tag Genome. . . . . . . . . . . . . 36 Hình 2.4 Sơ đồ thuật toán mô hình kNNContent. . . . . . . . . . . . 37 Hình 2.5 Sơ đồ thuật toán hệ thống xây dựng ma trận tương đồng kết hợp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 ix
- x Hình 2.6 Hiệu quả của mô hình CF dựa trên ghi nhớ với số lượng láng giềng k khác nhau. . . . . . . . . . . . . . . . . . . . . . . . 41 Hình 2.7 Tỷ lệ lỗi của các mô hình kNNBaseline khi kết hợp các ma trận độ tương đồng kết hợp. . . . . . . . . . . . . . . . . . . . 46 Hình 2.8 Kết quả thực hiện gợi ý của hệ thống sử dụng mô hình SVD. 49 Hình 3.1 Độ tương đồng về mặt ý nghĩa giữa một số thẻ genome. . . 55 Hình 3.2 Minh họa kiến trúc AE với 1 lớp ẩn. . . . . . . . . . . . . . 56 Hình 3.3 Tín hiệu rung động ngẫu nhiên của 5 bộ phim trong tập dữ liệu MovieLens 20M được tạo thành bởi dữ liệu Tag Genome. . 60 Hình 3.4 Kiến trúc của một CAE đầy đủ. . . . . . . . . . . . . . . . . 63 Hình 3.5 Kiến trúc của HCAE: bộ mã hoá dựa trên một 1D-CNN trong khi bộ giải mã giữ nguyên dạng kết nối đầy đủ. . . . . . . . 65 Hình 3.6 Biểu đồ tỉ lệ lỗi theo kích thước của lớp ẩn. . . . . . . . . . 71 Hình 3.7 Tỉ lệ lỗi của mô hình kNN-Content sử dụng AE truyền thống và HCAE trên các kích thước lớp Compression khác nhau. . 75 Hình 3.8 Kết quả thực đề xuất của hệ thống với mô hình kNNCon- tent sử dụng HCAE. . . . . . . . . . . . . . . . . . . . . . . . . . 80 Hình 4.1 Đồ thị đánh giá phần dư của một số người dùng theo độ tương đồng giữa người dùng - sản phẩm. . . . . . . . . . . . . . . 87 Hình 4.2 Lỗi dự đoán của kNNBaseline và kNNContent khi tích hợp độ tương đồng người dùng - sản phẩm. . . . . . . . . . . . . . 91 Hình 4.3 Kết quả thực đề xuất của hệ thống với mô hình SVD-genome.98
- DANH MỤC BẢNG BIỂU Bảng 1.1 Tổng quan về tập dữ liệu MovieLens 20M . . . . . . . . . . 25 Bảng 1.2 Tổng quan về tập dữ liệu MovieLens 25M . . . . . . . . . . 26 Bảng 1.3 Ma trận nhầm lẫn các kết quả của việc gợi ý 1 sản phẩm cho người dùng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Bảng 2.1 Kết quả một số hệ thống cơ sở khác nhau trên tập dữ liệu MovieLens 20M và 25M. . . . . . . . . . . . . . . . . . . . . . 31 Bảng 2.2 So sánh độ hiệu quả của mô hình sử dụng phép đo mới so với các thuật toán gợi ý cơ sở trên tập dữ liệu MovieLens 20M và 25M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Bảng 2.3 Hiệu năng của mô hình CF dựa trên ghi nhớ kết hợp với dữ liệu Tag Genome. . . . . . . . . . . . . . . . . . . . . . . . . . 44 Bảng 2.4 Hiệu suất của mô hình kNNBaseline sử dụng ma trận độ tương đồng kết hợp. . . . . . . . . . . . . . . . . . . . . . . . . . 47 Bảng 2.5 Hiệu suất, tài nguyên tiêu thụ và thời gian thực hiện các mô hình đề xuất triển khai trên máy tính Jetson Nano. . . . . . . 49 Bảng 3.1 Bảng nhóm các thẻ genome liên quan chặt chẽ với nhau trong tập dữ liệu MovieLens 20M của ba bộ phim. . . . . . . . . . 53 Bảng 3.2 Một số nhóm các thẻ tương đồng lại với nhau . . . . . . . . 54 xi
- xii Bảng 3.3 Sắp xếp lại dữ liệu Tag Genome gốc dưới dạng bảng, với mỗi bộ phim được biểu diễn như một hàng và các điểm số genome được xếp theo các cột. . . . . . . . . . . . . . . . . . . . . 59 Bảng 3.4 Hiệu năng của mô hình kNNBaselinegenome và FMgenome sử dụng 1,128 thẻ genome gốc. . . . . . . . . . . . . . . . . . . . . 68 Bảng 3.5 Hiệu năng của mô hình kNNBaselinegenome và FMgenome sử dụng 1,044 thẻ genome đã được phân cụm. . . . . . . . . . . . 69 Bảng 3.6 Hiệu năng của mô hình kNNBaselinegenome và FMgenome 69 Bảng 3.7 Hiệu năng của mô hình kNNBaseline và FMgenome khi áp dụng mạng AE sâu. . . . . . . . . . . . . . . . . . . . . . . . . 72 Bảng 3.8 Hiệu năng của mô hình kNN-Content với các hàm kích hoạt khác nhau trên lớp Convolution và lớp Compression của HCAE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Bảng 3.9 So sánh hiệu năng của các mô hình tham chiếu khi sử dụng vector đặc trưng phim 600 phần tử sinh bởi AE truyền thống và HCAE. . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Bảng 3.10 Kết quả so sánh giữa mô hình được đề xuất sử dụng HCAE và các mô hình tham chiếu. . . . . . . . . . . . . . . . . . 78 Bảng 3.11 Hiệu suất, tài nguyên tiêu thụ và thời gian thực hiện các mô hình đề xuất triển khai trên máy tính Jetson Nano . . . . . . 79 Bảng 4.1 Ví dụ về vector mô tả người dùng. . . . . . . . . . . . . . . 83 Bảng 4.2 Hiệu năng của ước lượng cơ sở mới với các dạng vector người dùng khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . 92 Bảng 4.3 Hiệu năng của các mô hình CF dựa trên ghi có tích hợp độ tương quan người dùng - sản phẩm so với các mô hình CF phổ biến khác. 93
- xiii Bảng 4.4 So sánh hiệu năng giữa các mô hình MF khởi tạo ngẫu nhiên và các mô hình khởi tạo bằng cách kết hợp đặc trưng của các bộ phim và người dùng. . . . . . . . . . . . . . . . . . . . 94 Bảng 4.5 So sánh độ chính xác giữa hai mô hình SVD-genome và NMF-genome sử dụng vector điểm số genome 600 phần tử sinh bởi HCAE và các mô hình tham chiếu. . . . . . . . . . . . . . . . 96 Bảng 4.6 Hiệu suất, tài nguyên tiêu thụ và thời gian thực hiện các mô hình đề xuất triển khai trên máy tính Jetson Nano. . . . . . . 97
- MỞ ĐẦU 1. Giới thiệu chung về hệ thống gợi ý 1.1. Khái niệm hệ thống gợi ý Trong những năm gần đây, sự phát triển mạnh mẽ của các mạng truyền thông không dây tốc độ cao như 4G/5G cùng với sự phổ biến của các thiết bị di động đã góp phần thay đổi đáng kể cách thức tiếp cận và xử lý thông tin của mỗi chúng ta. Người dùng có thể truy cập và sử dụng các nền tảng thương mại điện tử hay các dịch vụ truyền thông đa phương tiện từ mọi nơi, biến chúng trở thành một phần quan trọng trong cuộc sống hàng ngày của rất nhiều người. Bên cạnh những lợi ích không thể phủ nhận, người dùng cũng phải đối mặt với một lượng thông tin khổng lồ khiến cho việc đưa ra những quyết định hợp lý giữa rất nhiều các lựa chọn thực sự trở thành một thách thức. Đối với các nhà cung cấp dịch vụ, việc hiểu rõ sở thích hay nhu cầu của từng khách hàng để gợi ý cho họ những sản phẩm phù hợp nhất không những góp phần thúc đẩy doanh thu mà còn nâng cao trải nghiệm và sự gắn kết của người dùng với dịch vụ. Vì vậy, các hệ thống gợi ý (Recommendation System - RS) ngày nay giữ vai trò đặc biệt quan trọng trong quá trình vận hành của các nền tảng thương mại điện tử và truyền thông đa phương tiện với mục tiêu đề xuất cho từng khách hàng những sản phẩm mà họ có khả năng sẽ yêu thích hay sử dụng [1, 2]. RS là một dạng của hệ thống hỗ trợ ra quyết định, cung cấp giải pháp mang tính cá nhân hóa mà không phải trải qua quá trình tìm kiếm phức tạp. Có thể định nghĩa RS là một hệ thống lọc thông tin để dự đoán về sở thích của người dùng, từ đó đề xuất với người dùng các sản phẩm phù hợp nhất một cách hiệu quả [3]. Nhờ những kết quả tích cực được chứng minh trong thực tiễn [4], RS đã trở thành một nhánh nghiên cứu quan trọng trong lĩnh vực trí thông minh nhân tạo và học máy, thu hút đông đảo sự quan tâm của cộng đồng khoa học và mang tính quyết định tới khả năng phát triển của một doanh nghiệp trong thời đại số. Các ứng dụng của hệ thống gợi ý có thể được tìm thấy trong nhiều lĩnh vực 1
- 2 khác nhau, bao gồm: kỹ thuật truyền hình, thương mại điện tử, giải trí, truyền thông xã hội, giáo dục và nhiều lĩnh vực khác. Một ví dụ về hệ thống gợi ý trong lĩnh vực truyền hình có thể là Netflix - một dịch vụ phát trực tuyến cung cấp nhiều bộ phim và chương trình truyền hình. Netflix sử dụng một hệ thống gợi ý phim để giúp người dùng tìm kiếm những bộ phim phù hợp với sở thích của họ. Netflix đã phát triển các ứng dụng di động cho phép người dùng xem nội dung đa phương tiện trên các thiết bị di động. Từ đó, các thông tin về thói quen xem phim của người dùng, tốc độ mạng, vị trí địa lý, thời gian, và nhiều yếu tố khác đã được thu thập và phân tích để đưa ra các gợi ý phù hợp cho từng người dùng. Ngoài Netflix, còn rất nhiều ứng dụng khác sử dụng hệ thống gợi ý trong kỹ thuật truyền hình như IMDB, Rotten Tomatoes, Hulu, Amazon Prime Video và nhiều nền tảng phát trực tuyến khác. Các ứng dụng này sử dụng các kỹ thuật máy học và thuật toán để xây dựng hệ thống gợi ý tốt nhất cho người dùng. Hệ thống gợi ý có thể được chia thành ba mô-đun[5]: mô hình hóa người dùng, mô hình hóa đối tượng gợi ý và thuật toán gợi ý. Mô-đun cốt lõi của hệ thống gợi ý là thuật toán gợi ý. Mô hình hệ thống gợi ý được mô tả trong Hình 1. Hình 1: Mô hình miêu tả hệ thống gợi ý. 1. Mô-đun mô hình hóa người dùng: thiết lập mô hình người dùng theo thông tin người dùng. Phân tích thông tin thuộc tính của người dùng và thông tin hành vi của người dùng (chẳng hạn như hành vi duyệt web lịch sử và
- 3 hành vi nhấp chuột), đồng thời liên tục theo dõi và cập nhật kịp thời mô hình người dùng. 2. Mô-đun mô hình hóa đối tượng gợi ý: phương pháp mô tả đối tượng gợi ý sẽ ảnh hưởng đến kết quả gợi ý. Các đối tượng gợi ý khác nhau có cách thể hiện tính năng khác nhau nên phương pháp mô tả và kết quả gợi ý cũng khác nhau. 3. Thuật toán gợi ý: là cốt lõi của hệ thống gợi ý. Chất lượng của thuật toán gợi ý xác định trực tiếp chất lượng của hệ thống gợi ý. Gần đây, hầu hết các RS đều được triển khai từ hệ thống điện toán đám mây đến các thiết bị biên (cloud-to-edge). Trong đó, các kết quả gợi ý sẽ được tính toán ở máy chủ đám mây rồi truyền tới các thiết bị biên. Tuy nhiên, băng thông mạng và độ trễ giữa máy chủ đám mây và thiết bị biên gây ra sự chậm trễ cho phản hồi hệ thống và tiếp nhận của người dùng chính là hạn chế của phương pháp này. Do đó, việc tính toán trực tiếp trên thiết bị biên như hệ thống EdgeRec (Hình 2) có thể giảm độ trễ cho băng thông, giúp hệ thống nắm bắt được sở thích người dùng dễ dàng hơn từ đó đưa ra các đề xuất thỏa đáng hơn [6]. Luận án này tập trung nghiên cứu các phương pháp và thuật toán xử lý dữ liệu trong RS nhằm tăng cường chất lượng thông tin. Điều này giúp xử lý và phân tích các dữ liệu đã được thu thập được, tăng tính chính xác và tính nhất quán của thông tin đầu ra và phục vụ cho việc triển khai RS trên các thiết bị biên. Kết quả cuối cùng của quá trình này sẽ là việc cung cấp cho người dùng những gợi ý cá nhân hóa và phù hợp hơn. 1.2. Tình hình nghiên cứu hệ thống gợi ý trên thế giới và ở Việt Nam Dựa theo loại dữ liệu được áp dụng nhằm đề xuất sản phẩm cho người dùng, RS thường được chia làm ba hướng tiếp cận chính [3]: Lọc dựa trên nội dung (Content-based Filtering), Lọc cộng tác (Collaborative Filtering - CF), và phương pháp kết hợp (Hybrid methods) (Hình 3). Hệ thống lọc dựa trên nội dung [7, 8] đề xuất sản phẩm dựa trên thông tin về đặc trưng của sản phẩm (thể loại, nội dung, hình thức, lứa tuổi phù hợp, ...) và người dùng (công việc, độ tuổi, sở thích, vị trí địa lý, ...). Cách tiếp cận này yêu cầu đầy đủ thông tin về sản phẩm và người dùng để các mô hình dự đoán có thể được huấn luyện và học từ dữ liệu
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Tích hợp GIS và kỹ thuật tối ưu hóa đa mục tiêu mở để hỗ trợ quy hoạch sử dụng đất nông nghiệp
30 p | 178 | 27
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu lựa chọn một số thông số hợp lý của giá khung thủy lực di động dùng trong khai thác than hầm lò có góc dốc đến 25 độ vùng Quảng Ninh
27 p | 202 | 24
-
Luận án Tiến sĩ Kỹ thuật: Thuật toán ước lượng các tham số của tín hiệu trong hệ thống thông tin vô tuyến
125 p | 130 | 11
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tác động của quá trình đô thị hóa đến cơ cấu sử dụng đất nông nghiệp khu vực Đông Anh - Hà Nội
27 p | 146 | 10
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu định lượng kháng sinh Erythromycin trong tôm, cá bằng kỹ thuật sóng vuông quét nhanh trên cực giọt chậm và khả năng đào thải
27 p | 164 | 8
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu trạng thái ứng suất giới hạn trong nền đất tự nhiên dưới tác dụng của tải trọng nền đường đắp và bệ phản áp
27 p | 135 | 7
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng công nghệ trắc địa hiện đại trong xây dựng và khai thác đường ô tô ở Việt Nam
24 p | 168 | 7
-
Luận án Tiến sĩ Kỹ thuật xây dựng công trình giao thông: Nghiên cứu ứng xử cơ học của vật liệu và kết cấu áo đường mềm dưới tác dụng của tải trọng động trong điều kiện Việt Nam
162 p | 17 | 6
-
Luận án Tiến sĩ Kỹ thuật năng lượng: Nghiên cứu mô hình dự báo ngắn hạn công suất phát của nhà máy điện mặt trời sử dụng mạng nơ ron hồi quy
120 p | 18 | 6
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu chế độ cháy do nén hỗn hợp đồng nhất (HCCI) sử dụng nhiên liệu n-heptan/ethanol/diesel
178 p | 20 | 6
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp
145 p | 14 | 5
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tối ưu hóa một số thông số công nghệ và bôi trơn tối thiểu khi phay mặt phẳng hợp kim Ti-6Al-4V
228 p | 12 | 4
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu áp dụng công nghệ dầu từ trường trong hệ thống phanh bổ trợ ô tô
202 p | 19 | 3
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu thiết kế hệ điều khiển ổ từ dọc trục có xét ảnh hưởng dòng xoáy
161 p | 12 | 2
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu điều khiển hệ thống động lực nhằm cải thiện hiệu quả sử dụng năng lượng cho ô tô điện
150 p | 20 | 2
-
Luận án Tiến sĩ Kỹ thuật hóa học: Nghiên cứu tổng hợp một số hợp chất furan và axit levulinic từ phế liệu gỗ keo tai tượng
119 p | 15 | 2
-
Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu hệ thống thông tin quang sử dụng điều chế đa mức dựa trên hỗn loạn
141 p | 8 | 2
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng lý thuyết độ tin cậy phân tích ổn định hệ vỏ hầm thủy điện và môi trường đất đá xung quanh
157 p | 8 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn