Luận án tiến sĩ Hệ thống thông tin: Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

Chia sẻ: Tỉ Thành | Ngày: | Loại File: PDF | Số trang:108

Thêm vào BST

Báo xấu

50
lượt xem 9
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu chính của luận án là: Nghiên cứu, đề xuất một số độ đo liên kết mở rộng dựa trên các thông tin đặc trưng (như thứ tự xuất hiện tên tác giả, thời gian công bố, nội dung tóm tắt của các bài báo) và xây dựng phương pháp khuyến nghị cộng tác trong mạng đồng tác giả. Thực nghiệm kiểm chứng đánh giá các độ đo liên kết mở rộng

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án tiến sĩ Hệ thống thông tin: Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Minh Chuẩn NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Lê Thanh Hương 2. PGS.TS. Trần Đình Khang Hà Nội - 2018
LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác” là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Tất cả các kết quả, số liệu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình này. Hà Nội, ngày tháng năm 2018 TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS. Lê Thanh Hương Phạm Minh Chuẩn 2
LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường. Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Thầy và cô đã luôn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai và hoàn thành công việc nghiên cứu của mình. Đồng thời tôi cũng xin cảm ơn TS. Lê Hoàng Sơn Trung tâm Tính toán Hiệu năng cao – ĐH KHTN – ĐHQGHN đã tạo điều kiện, giúp đỡ tôi hoàn thành luận án này. Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông tin, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu. Xin cám ơn các bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện CNTT & TT, đặc biệt là bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài năng CNTT K58 đã hỗ trợ tôi trong việc thu thập dữ liệu để phục vụ cho quá trình thực nghiệm. Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận án này. Xin gửi lời cám ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu. Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này. Nghiên cứu sinh Phạm Minh Chuẩn 3
MỤC LỤC LỜI CAM ĐOAN .................................................................................................................. 2 LỜI CẢM ƠN........................................................................................................................ 3 MỤC LỤC ............................................................................................................................. 4 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 6 DANH MỤC CÁC BẢNG .................................................................................................... 8 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ............................................................................ 9 MỞ ĐẦU ............................................................................................................................. 11 1. TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................. 16 1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả........................................... 16 1.1.1 Mạng xã hội và mạng đồng tác giả ..................................................................... 16 1.1.2 Bài toán khuyến nghị cộng tác ........................................................................... 20 1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả ................................ 26 1.2. Một số kiến thức liên quan ....................................................................................... 34 1.2.1. Các phương pháp phân lớp ................................................................................ 34 1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ ..................................................... 38 1.2.3. Phân tích theo chủ đề ......................................................................................... 41 1.3. Kết luận..................................................................................................................... 43 2. CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ ............... 44 2.1. Độ đo liên kết dựa trên trọng số mở rộng ................................................................. 44 2.2. Các độ đo liên kết dựa trên nội dung bài báo ........................................................... 46 2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán .................... 50 2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả............................................... 58 2.4.1. Chuẩn bị dữ liệu ................................................................................................ 58 2.4.2. Kịch bản thực nghiệm........................................................................................ 60 2.4.3. Kết quả thực nghiệm.......................................................................................... 63 2.5 Kết luận...................................................................................................................... 77 3. BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................................................ 78 4
3.1. Giới thiệu .................................................................................................................. 78 3.2. Khuyến nghị cộng tác mới ........................................................................................ 79 3.3. Khuyến nghị cộng tác tăng cường ............................................................................ 88 3.3. Kết luận..................................................................................................................... 96 KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 97 TÀI LIỆU THAM KHẢO ................................................................................................... 99 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 108 5
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AA Adamic & Adar Độ đo liên kết AA AUC Area under the curve Tiêu chí đánh giá phân lớp CN Common Neighbours Độ đo liên kết láng giềng chung JC Jaccard Coefficient Độ đo liên kết JC LDA Latent Dirichlet Allocation Phương pháp phân tích chủ đề OSN Online Social Network Mạng xã hội trực tuyến Online HomogeneousUndirected Mạng xã hội vô hướng đồng nhất OHUSN Social Networks trực tuyến SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu lần lượt SVM Support Vector Machines Máy véc-tơ hỗ trợ Độ đo liên kết trọng số dựa trên WAA Weighted Adamic & Adar AA Độ đo liên kết trọng số dựa trên WCN Weighted Common Neighbours láng giềng chung Độ đo liên kết trọng số dựa trên WJC Weighted Jaccard Coefficient JC Term Frequency - Inverse TF-IDF Trọng số từ Document Frequency Stanford Public Information Hệ thống truy xuất thông tin công SPIRES Retrieval System khai Stanford Networked Computer Science Mạng thư viện tham chiếu khoa NCSTRL Technical Reference Library học máy tính Applied Mathematics and Tạp chí toán ứng dụng và tính AMC Computation toán BJ Biophysical Journal Tạp chí lý sinh CF Collaborative Filtering Lọc cộng tác CB Content-based Dựa trên nội dung 6
KMC Keywords match count Đếm các từ khóa chung Đếm các từ chung trong nội dung AKMC Abtract keywords match count tóm tắt FCM Fuzzy C-means Phân cụm mờ Semi-Supervised Standard Fuzzy SSSFC Phân cụm bán giám sát mờ Clustering 7
DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo .................................................. 19 Bảng 1.2 Các phương pháp phân lớp được sử dụng ........................................................... 33 Bảng 2.1 Thống kê trên các bộ dữ liệu ............................................................................... 59 Bảng 2.2 Thống kê tập dữ liệu ............................................................................................ 60 Bảng 2.3 Kịch bản thực nghiệm với các độ đo liên kế ....................................................... 60 Bảng 2.4 Kịch bản thực nghiệm với các độ đo liên kết mở rộng ........................................ 61 Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 2 .......................... 62 Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 3 .......................... 62 Bảng 2.7 Giá trị Recall@N với các tham số tối ưu trên AMC ........................................... 65 Bảng 2.8 Giá trị Recall ứng với các tham số tối ưu trên BJ ................................................ 67 Bảng 2.9 Giá trị chỉ số đánh giá trên AMC đối với các tổ hợp độ đo liên kết trọng số và mở rộng ............................................................................................................................ 69 Bảng 3.1 Thống kê các tập dữ liệu ...................................................................................... 83 Bảng 3.2 Tập các đặc trưng trong thực nghiệm khuyến nghị cộng tác mới ....................... 83 Bảng 3.3 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 84 Bảng 3.4 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .................................................................................................................................... 84 Bảng 3.5 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .................................................................................................................................... 84 Bảng 3.6 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .............................................................................................................................. 85 Bảng 3.7 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 85 Bảng 3.8 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .................................................................................................................................... 85 Bảng 3.9 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .................................................................................................................................... 86 Bảng 3.10 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu .............................................................................................................................. 86 Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và (3.1) ứng với từng tác giả được khuyến nghị. ............................................................ 95 8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết ......................................... 17 Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp........................................................ 18 Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002 dưới dạng đồ thị ......................................................................................................... 19 Hình 1.4 Quá trình sinh của LDA (Nguồn [10])................................................................. 42 Hình 2.1 Minh họa độ đo liên kết mở rộng......................................................................... 46 Hình 2.2 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên AMC . 63 Hình 2.3 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên BJ ...... 63 Hình 2.4 Giá trị Recall@N với số lượng chủ đề và tham số  đối với LDAcosin trên AMC .................................................................................................................................... 64 Hình 2.5 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên AMC........................................................................................................................... 65 Hình 2.6 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên AMC........................................................................................................................... 65 Hình 2.7 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên AMC .................................................................................................................................... 66 Hình 2.8 Giá trị Recall ứng với số lượng chủ đề và tham số  đối với độ đo liên kết LDAcosin trên BJ ........................................................................................................................ 66 Hình 2.9 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên BJ .................................................................................................................................... 67 Hình 2.10 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên BJ .................................................................................................................................... 68 Hình 2.11 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên BJ .................................................................................................................................... 68 Hình 2.12 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và Weight1_#) trên AMC ............................................................................................... 69 Hình 2.13 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và Weight2_#) trên AMC ............................................................................................... 70 Hình 2.14 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và Weight3_#) trên AMC ............................................................................................... 70 Hình 2.15 So sánh giá trị AUC ứng với các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên AMC ................................................................................................................... 71 9
Hình 2.16 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và Weight1_#) trên BJ .................................................................................................... 72 Hình 2.17 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và Weight2_#) trên BJ .................................................................................................... 72 Hình 2.18 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và Weight3_#) trên BJ .................................................................................................... 73 Hình 2.19 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên BJ ............................................................................................................................... 73 Hình 2.20 Giá trị F1-measure của các tổ hợp độ đo liên kết Weight#_P_LDAcosin trên AMC theo số lượng chủ đề .................................................................................................. 74 Hình 2.21 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight#, và Weight#_P_LDAcosin) trên AMC ............................................................................ 74 Hình 2.22 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_P_LDAcosin) trên AMC ............................................................................ 75 Hình 3.1 Minh họa giao diện khuyến nghị cộng tác ........................................................... 78 Hình 3.2 Các bước khuyến nghị cộng tác mới dựa trên phân lớp ...................................... 80 Hình 3.3 Các bước thực hiện khuyến nghị cộng tác mới dựa trên phân cụm bán giám sát mờ .................................................................................................................................... 81 Hình 3.4 So sánh giá trị chỉ số đánh giá Recall TBC giữa khuyến nghị cộng tác mới dựa trên Classifier và SSSFC ................................................................................................... 86 Hình 3.5 So sánh giá trị chỉ số đánh giá Precision TBC giữa khuyến nghị cộng tác mới dựa trên Classifier và SSSFC ............................................................................................ 87 Hình 3.6 So sánh giá trị chỉ số đánh giá F1-measure TBC giữa khuyến nghị cộng tác mới dựa trên Classifier và SSSFC ..................................................................................... 87 Hình 3.7 Các bước thực hiện khuyến nghị cộng tác tăng cường ........................................ 88 Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực nghiệm trong trường hợp trọng số cộng tác tính theo công thức (1.1) ...................... 93 Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực nghiệm trong trường hợp trọng số cộng tác tính theo công thức (3.1) ...................... 93 Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường hợp.............................................................................................................................. 94 10
MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, với sự phát triển của mạng xã hội liên quan đến thông tin cá nhân của nhiều người, việc gợi ý tự động cho người sử dụng các thông tin cũng như các sản phẩm có thể họ muốn mua hoặc quan tâm, các cá nhân có cùng sở thích hoặc cùng lĩnh vực nghiên cứu với họ là một việc khả thi và đem lại nhiều lợi ích cho con người. Các hệ gợi ý hay còn gọi là hệ khuyến nghị đã được quan tâm nghiên cứu và phát triển nhanh chóng trong thời gian gần đây, đặc biệt các hệ khuyến nghị trong thương mại điện tử đem lại nhiều lợi nhuận cho các nhà bán sản phẩm. Bên cạnh các hệ khuyến nghị trong thương mại điện tử, các hệ khuyến nghị liên quan đến khoa học kỹ thuật cũng được quan tâm nghiên cứu. Ví dụ, LinkedIn và ResearchGate khuyến nghị các công việc mà ai đó (hoặc người dùng nào đó) có thể ứng tuyển, thông báo các thông tin liên quan đến các nhà khoa học có các công trình nghiên cứu được tham chiếu trong các bài báo khoa học, v.v. Tuy nhiên, việc khuyến nghị các tác giả có các nghiên cứu liên quan đến nhau để hợp tác trong tương lai còn chưa được đưa vào trong các mạng xã hội này. Đây cũng là những khuyến nghị rất có giá trị giúp cho các nhà nghiên cứu tăng cường hợp tác để tạo ra các công trình khoa học mới trong tương lai. Bài toán khuyến nghị các nhà nghiên cứu có tiềm năng hợp tác còn được gọi với tên là bài toán khuyến nghị cộng tác trong mạng đồng tác giả. Trong luận án này, khái niệm “khuyến nghị cộng tác” (“Collaborations Recommendation” được sử dụng trong [54]) mang hàm ý về sự khuyến nghị hợp tác trong việc xuất bản bài báo khoa học giữa các nhà nghiên cứu (tác giả). Ở đây, mạng đồng tác giả là một mạng xã hội trong đó các nút là các nhà khoa học, các cạnh là các mối cộng tác khoa học giữa các nhà khoa học. Bài toán khuyến nghị cộng tác trong mạng đồng tác giả được phát biểu như sau: Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t, với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác (Collaboration) với tác giả u trong tương lai (từ thời điểm t’ > t). Các vấn đề nghiên cứu trong mạng đồng tác giả luôn thú vị bởi tính phức tạp chung của bài toán khuyến nghị cộng tác. Mặt khác, việc xây dựng được một mô hình khuyến nghị cộng tác nghiên cứu sẽ thúc đẩy quá trình giao lưu và hợp tác trong nghiên cứu khoa học. Đây là một thách thức cần vượt qua nhưng cũng hứa hẹn nhiều ứng dụng thực tế. Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng xã hội, trong đó các độ đo liên kết giữa các cặp nút (tác giả) giữ vai trò quan trọng, làm cơ sở để xác định khả năng hình thành liên kết (hợp tác) trong tương lai giữa các cặp nút (tác giả). Hướng tiếp cận phổ biến là chuyển bài toán dự đoán liên kết về bài toán phân lớp nhị phân [5] với lớp 1 là cặp nút có liên kết và lớp 0 là cặp nút không có liên kết. Ba yếu tố chính ảnh hưởng đến độ chính xác của phân lớp bao gồm: phương pháp học máy, tập đặc trưng 11
(được xác định dựa trên giá trị độ đo liên kết) sử dụng trong phương pháp học máy, tỷ lệ nhãn 0 hoặc 1 được dùng để phân lớp. Bài toán dự báo liên kết đã được nhiều nghiên cứu quan tâm [23, 37, 39, 65, 66, 70, 82, 92, 96, 97, 98]. Các nghiên cứu trước đây về khuyến nghị cộng tác thường sử dụng một số độ đo liên kết đã được đề xuất trong mạng xã hội để xây dựng tập đặc trưng. Thực nghiệm được tiến hành trong các nghiên cứu đó đã chứng minh tính hiệu quả của các độ đo liên kết này trong việc cải thiện độ chính xác đối với bài toán khuyến nghị cộng tác [5, 67, 70, 75, 92] Tuy nhiên, mạng đồng tác giả là một mạng xã hội có nhiều đặc trưng riêng so với các mạng xã hội nói chung. Ví dụ, mức độ cộng tác giữa hai tác giả cùng viết chung các bài báo phụ thuộc vào số lượng bài báo, số lượng tác giả, thứ tự của các tác giả và thời gian công bố của các bài báo mà hai tác giả đã viết chung. Ngoài ra, một nhân tố rất quan trọng có thể ảnh hưởng đến việc cộng tác giữa các tác giả trong tương lai là sự tương đồng về lĩnh vực nghiên cứu. Hai tác giả có thể nghiên cứu nhiều lĩnh vực khác nhau và nếu một số hướng nghiên cứu chính có sự tương đồng cao thì tiềm năng cộng tác trong việc viết chung các bài báo khoa học trong tương lai càng lớn. Để đánh giá mức độ tương đồng về lĩnh vực nghiên cứu giữa hai tác giả đã có một số nghiên cứu dựa trên cách thức khác nhau. Các nghiên cứu trong [5, 75, 92] dựa trên tập các từ xuất hiện trong tên và nội dung tóm tắt của bài báo. Nghiên cứu [87] dựa trên việc biểu diễn thông tin tên của tập các bài báo được viết bởi mỗi tác giả thông qua véc-tơ trọng số TF-IDF còn nghiên cứu trong [54] lại dựa trên phân loại tên các bài báo vào các lĩnh vực khác nhau để tính mức độ tương quan tổng thể giữa hai tác giả. Có thể nhận thấy, các phương pháp đã đề xuất để đánh giá mức độ tương đồng, tương quan giữa hai tác giả dựa trên một số thông tin của các bài báo khoa học như là tên, tập từ khóa, hay nội dung tóm tắt đã phản ánh một phần mức độ tương đồng dựa trên ngữ nghĩa giữa hai tác giả. Tuy nhiên, trên thực tế, mỗi nhà nghiên cứu khi công bố các bài báo khoa học ở các tạp chí hoặc hội thảo có thể có cách hành văn khác nhau, trong đó một số từ ngữ đồng nghĩa được sử dụng có thể phản ánh ý nghĩa tương tự nhau hoặc cùng có hàm ý về một số chủ đề nghiên cứu nào đó. Chính vì thế, cần phải có một cách thức nào đó để biểu diễn mỗi bài báo dựa trên thông tin bao gồm tên và nội dung tóm tắt, sao cho có thể phản ánh một cách đầy đủ nhất sự tương đồng về mặt ngữ nghĩa giữa hai bài báo hoặc hai tập bài báo, làm cơ sở để mở rộng các độ đo liên kết giữa hai tác giả, từ đó cải thiện độ chính xác đối với bài toán khuyến nghị cộng tác trong mạng đồng tác giả. Một số nghiên cứu gần đây [54, 57, 94, 100] đã đề xuất các mô hình để khuyến nghị tập các ứng cử viên tiềm năng có thể tăng cường cộng tác hoặc sẽ cộng tác trong tương lai đối với một nhà nghiên cứu. Một vấn đề cần được đặc biệt quan tâm đối với hệ khuyến nghị cộng tác trong mạng đồng tác giả là tập các ứng cử viên được khuyến nghị cần phải thỏa mãn về mức độ tương đồng về lĩnh vực nghiên cứu (thông qua tập các bài báo đã công bố). 12
Nếu khuyến nghị những ứng cử viên không có nhiều sự tương đồng về chuyên môn đối với một tác giả nào đó thì sẽ không có ý nghĩa. Trên thực tế, việc thu thập thông tin đến lĩnh vực nghiên cứu của từng tác giả là một vấn đề không dễ. Do vậy, điều cần thiết nhằm tạo ra sự tin tưởng cho người được khuyến nghị là việc xây dựng một mô hình khuyến nghị cộng tác cho các nhà nghiên cứu dựa trên các độ đo liên kết và kèm theo minh chứng về mức độ tương đồng của lĩnh vực nghiên cứu dựa trên tập các bài báo đã công bố. Trong mạng đồng tác giả, vấn đề khó khăn là xác định mã duy nhất cho mỗi tác giả. Có thể cách viết họ tên tác giả trong các bài báo như nhau nhưng thực ra lại là các tác giả khác nhau. Điều đó dẫn đến việc xây dựng mạng đồng tác giả không phản ánh đúng thực tế do không đảm bảo được việc định danh tác giả. Vì vậy, việc thu thập dữ liệu về mạng đồng tác giả cần phải được thực hiện dựa trên việc đảm bảo sự định danh tác giả. Từ những nhận xét và phân tích trên, có thể thấy rằng: để xây dựng được độ đo liên kết mở rộng trong mạng đồng tác giả nhằm nâng cao hiệu quả khuyến nghị đồng thời làm cơ sở xây dựng mô hình khuyến nghị với tính giải thích cao thông qua mức độ tương đồng về lĩnh vực nghiên cứu cần phải tiến hành các bước nghiên cứu sau. Trước tiên, phải thu thập tập dữ liệu xây dựng mạng đồng tác giả sao cho việc định danh chính xác nhất các tác giả. Sau đó, mở rộng các độ đo liên kết dựa trên các thông tin đặc trưng của các bài báo như số lượng tác giả, thứ tự xuất hiện của từng tác giả, thời gian công bố và nội dung (tên, nội dung tóm tắt) của các bài báo. 2. Mục tiêu nghiên cứu của luận án Các mục tiêu chính của luận án là: Nghiên cứu, đề xuất một số độ đo liên kết mở rộng dựa trên các thông tin đặc trưng (như thứ tự xuất hiện tên tác giả, thời gian công bố, nội dung tóm tắt của các bài báo) và xây dựng phương pháp khuyến nghị cộng tác trong mạng đồng tác giả. Thực nghiệm kiểm chứng đánh giá các độ đo liên kết mở rộng. 3. Nhiệm vụ nghiên cứu của luận án Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau: (1) Nghiên cứu đặc trưng của mạng đồng tác giả, các độ đo liên kết và các phương pháp, kỹ thuật sử dụng trong bài toán khuyến nghị cộng tác trên mạng đồng tác giả. (2) Nghiên cứu việc biểu diễn thông tin dựa trên nội dung các bài báo và cách thức để xác định mức độ tương đồng giữa hai tập bài báo dựa trên nội dung làm cơ sở để mở rộng các độ đo liên kết. (3) Nghiên cứu và đề xuất giải pháp mở rộng độ đo liên kết áp dụng cho bài toán khuyến nghị cộng tác trong mạng đồng tác giả. 13
(4) Nghiên cứu và đề xuất phương pháp khuyến nghị cộng tác trong mạng đồng tác giả. (5) Thu thập, chuẩn hóa dữ liệu về mạng đồng tác giả và tiến hành thực nghiệm kiểm chứng các độ đo liên kết mở rộng đã được đề xuất và minh họa cho mô hình khuyến nghị cộng tác. 4. Đối tượng và phạm vi nghiên cứu của luận án Đối tượng và phạm vi nghiên cứu trọng tâm của luận án là bài toán dự đoán cộng tác trong mạng đồng tác giả. Thông tin về các tác giả, đặc trưng của các bài báo, các độ đo liên kết trên mạng đồng tác giả, và các kỹ thuật được sử dụng trong bài toán dự đoán liên kết cũng là các đối tượng được nghiên cứu, phân tích. Để có được tập các đặc trưng như số lượng tác giả, thứ tự xuất hiện của tác giả, thời gian công bố bài báo và thông tin về nội dung tóm tắt của bài báo, luận án đã xây dựng một cơ sở dữ liệu về tập các bài báo được công bố trên các tạp chí thông qua các nguồn chính như: AMC1 và BJ2. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm. Về lý thuyết: luận án nghiên cứu tổng quan về mạng xã hội và mạng đồng tác giả, các mô hình dự đoán liên kết và khuyến nghị trong mạng xã hội cũng như trong mạng đồng tác giả. Ngoài ra, các kỹ thuật phân tích chủ đề, các phương pháp phân lớp nhị phân và các phương pháp phân cụm bán giám sát mờ cũng được nghiên cứu để có thể áp dụng cho bài toán khuyến nghị cộng tác. Về thực nghiệm: luận án thu thập dữ liệu mạng đồng tác giả trên tập các bài báo được công bố, tiến hành tiền xử lý dữ liệu để phân tích đặc trưng và đánh giá các độ đo liên kết áp dụng vào bài toán khuyến nghị cộng tác, đồng thời so sánh các kết quả đạt được với những kết quả thực nghiệm đã công bố. 6. Ý nghĩa khoa học và thực tiễn của luận án Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho vấn đề khuyến nghị trong mạng đồng tác giả, làm cơ sở để tiến hành xây dựng phương pháp khuyến nghị cộng tác có thể tích hợp trên một số hệ thống cơ sở dữ liệu học thuật như ResearchGate, giúp các nhà nghiên cứu dễ dàng cộng tác trong khoa học, rút ngắn khoảng cách về địa lý khi tìm kiếm đối tác nghiên cứu. 1 http://www.sciencedirect.com/journal/applied-mathematics-and-computation?sdc=1 2 http://www.sciencedirect.com/journal/biophysical-journal/ 14
7. Nội dung luận án Nội dung chính của luận án được trình bày trong 3 chương như sau: Chương 1. Tổng quan về bài toán khuyến nghị cộng tác Trong chương này, luận án trình bày tổng quan về mạng xã hội và mạng đồng tác giả, các nghiên cứu liên quan đến bài toán dự đoán liên kết và khuyến nghị cộng tác trong mạng đồng tác giả. Luận án cũng hệ thống lại các độ đo liên kết và một số kỹ thuật được dùng trong bài toán dự đoán liên kết và khuyến nghị cộng tác trên mạng đồng tác giả. Chương 2. Các độ đo liên kết mở rộng trong mạng đồng tác giả Nội dung chương này là đóng góp chính của luận án, trong đó tập trung trình bày cách thức đề xuất mở rộng một số độ đo liên kết dựa trên trọng số và thông tin về nội dung tóm tắt của các bài báo khoa học, tiến hành đánh giá hiệu quả của một số độ đo liên kết đã đề xuất dựa trên phương pháp dự đoán dựa trên phân lớp và dựa trên độ đo liên kết. Chương 3. Bài toán khuyến nghị cộng tác Chương này tập trung đề xuất phương pháp khuyến nghị cộng tác trong mạng đồng tác giả, có sử dụng đến mức độ tương đồng dựa trên bài báo với độ tương quan và các độ đo liên kết mở rộng đã được đề xuất trong chương 2. Trong chương này, luận án trình bày các thử nghiệm đã được tiến hành và đánh giá phương pháp. Cuối cùng, chương kết luận tổng hợp các kết quả nghiên cứu đã đạt được, các đóng góp khoa học của luận án, hướng mở rộng nghiên cứu và phát triển đề tài. 15
CHƯƠNG 1 1. TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Trong chương này, luận án trình bày tổng quan về bài toán khuyến nghị cộng tác trong mạng đồng tác giả, các độ đo liên kết dựa trên trọng số và dựa trên ngữ nghĩa. Các kiến thức liên quan như các phương pháp phân lớp, phân cụm mờ, phân cụm bán giám sát mờ và phương pháp phân tích theo chủ đề cũng được trình trong chương này. 1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả 1.1.1 Mạng xã hội và mạng đồng tác giả Sự bùng nổ của các dịch vụ trên Internet đã giúp cho con người trên toàn thế giới có thể dễ dàng giao tiếp và trao đổi với nhau thông qua các cộng đồng ảo được biết đến như mạng xã hội trực tuyến (Online Social Network - OSN). OSN đã trở thành một lĩnh vực nghiên cứu kể từ năm 1967 [30] và công nghệ web 2.0 ra đời đã thúc đẩy sự phát triển các dịch vụ mạng xã hội trực tuyến, trong đó các dịch vụ phổ biến có thể được kể đến như Facebook, DBLP, LinkedIn, ResearchGate, Flickr, Youtube, v.v... Theo [80], “OSN hình thành các cộng đồng trực tuyến có chung những sở thích, hoạt động, nền tảng kiến thức và (hoặc) tình bạn. Phần lớn OSN dựa trên nền tảng web và cho phép người dùng đăng tải hồ sơ (văn bản, hình ảnh, âm thanh và video), tương tác với nhau theo nhiều cách khác nhau”. Ngoài ra, mạng xã hội được xem là một cấu trúc xã hội được tạo thành từ một tập hợp các tác nhân và một tập hợp các mối quan hệ giữa các tác nhân này [89], một mạng xã hội có thể được biểu diễn dưới dạng đồ thị, ở đó các nút đại diện cho các tác nhân (các cá nhân, các nhóm, hay các tổ chức) và các cạnh tương ứng với mối ràng buộc/tương tác/mối quan hệ giữa các tác nhân; như vậy các nút và các cạnh khác nhau sẽ cho ra các mạng loại xã hội khác nhau. Hầu hết các nghiên cứu về dự đoán liên kết đã thực hiện [23, 43, 51, 52, 82, 102] đều tập trung giải quyết vấn đề dự đoán liên kết trên các mạng xã hội vô hướng đồng nhất trực tuyến (Online Homogeneous Undirected Social Networks – OHUSN). OHUSN là một OSN mà các thực thể trong mạng cùng một loại, các liên kết giữa các thực thể là vô hướng và có cùng một kiểu (chẳng hạn như Friendship Networks, Co-authorship Networks). Về một phương diện nào đó, OHUSN đem lại cho người dùng một số tiện ích như sau [63]: Thứ nhất là hỗ trợ việc tạo ra các kết nối bạn bè. Các mạng xã hội cho phép kết bạn như Facebook (có khoảng trên một tỷ người dùng) và Twitter (có khoảng trên 200 triệu người dùng). Thứ hai là hỗ trợ cộng tác. LinkedIn là một mạng xã hội bao gồm hơn 200 triệu chuyên gia, cho phép người dùng chia sẻ thông tin khoa học và tìm kiếm các đối tác tiềm năng cộng tác. Thứ ba là hỗ trợ việc trao đổi thông tin. Mạng thư điện tử là một ví dụ của mạng xã hội trao đổi 16
thông tin. Do số lượng người dùng rất lớn nên OHUSN đã tạo ra một khối lượng dữ liệu khổng lồ theo thời gian và những dữ liệu này có các đặc trưng dễ nhận biết như chất lượng cao, dữ liệu lớn, bán cấu trúc, thay đổi theo thời gian và phản ánh được một cách trực tiếp con người trong xã hội thực [88]. Tuy nhiên, vấn đề khai phá và phân tích dữ liệu liên quan đến OSN nói chung cũng như OHUSN nói riêng là một vấn đề không đơn giản vì gặp phải hai thách thức [87]: tính không đầy đủ và tính biến động cao. Hầu hết dữ liệu mạng xã hội đã nhận được là không đầy đủ vì chỉ có một phần thông tin xã hội được thu thập từ các nền tảng mạng xã hội. Mạng xã hội còn có tính biến động cao do các nút và các liên kết có thể xuất hiện hoặc biến mất trong tương lai. Do vậy, việc dự đoán những liên kết bị khuyết hoặc không quan sát được trong OHUSN hiện thời và việc thêm mới hoặc loại bỏ những liên kết trong OHUSN tương lai là một vấn đề rất quan trọng [88]. Việc dự đoán này không chỉ nắm bắt được sự phát triển của OHUSN mà còn làm cho OHUSN hiện tại trở nên đầy đủ hơn. Vấn đề này thường được biết đến như vấn đề dự đoán liên kết trong OHUSN [88]. Cho tập các liên kết của một OHUSN tại thời điểm t, hãy tìm cách dự đoán các liên kết sẽ được thêm vào OHUSN trong khoảng thời gian từ thời điểm t đến thời điểm t’ trong tương lai [51]. Dự đoán liên kết là một trong những nhiệm vụ của phân tích, khai phá liên kết [35] và có nhiều ứng dụng quan trọng. Có thể kể đến ứng dụng cho các hệ khuyến nghị trong việc tìm kiếm thông tin và thương mại điện tử, hệ này trợ giúp người dùng có thêm những người bạn mới [3] và những người cộng tác tiềm năng [62, 93], cung cấp các mặt hàng được người dùng quan tâm trong mua bán trực tuyến [4], khuyến nghị những đối tác đồng sáng chế trong mạng cộng đồng doanh nghiệp [88] và các đối tác trong các lĩnh vực khác nhau [83], tìm những chuyên gia hoặc đồng tác giả trong các mạng cộng đồng khoa học [70, 92]. Theo [88], phương pháp dự đoán liên kết trong mạng xã hội bao gồm hai hướng tiếp cận (xem Hình 1.1 và Hình 1.2) như sau: Thứ nhất, tiếp cận dựa trên độ đo liên kết hay còn gọi là học không giám sát. Trong hướng tiếp cận này, hệ thống sẽ tính toán các giá trị tương đồng của các cặp nút ứng cử dựa trên các độ đo liên kết (chẳng hạn như CN [67], AA [1], JC [76], v.v…), sau đó sắp xếp theo chiều giảm dần về giá trị độ đo liên kết và lựa chọn ra danh sách các cặp nút ứng cử để dự đoán có liên kết (Hình 1.1). Tính các độ đo Sắp xếp các cặp Danh sách Top liên kết nút theo độ đo N cặp nút dự liên kết đoán có liên kết Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết 17
Thứ hai, tiếp cận dựa trên mô hình phân lớp, hướng tiếp cận này coi bài toán dự đoán liên kết như là bài toán phân lớp nhị phân [5]. Để thực hiện được theo hướng tiếp cận này, hệ thống sẽ xây dựng tập các đặc trưng cho các cặp nút không có liên kết dựa trên các độ đo tương đồng và một số đặc trưng khác dựa trên thông tin từ mạng xã hội (chẳng hạn như các thông tin dạng văn bản của các thuộc tính và các miền tri thức), và tiến hành gán nhãn cho mỗi cặp nút theo cách thức sau: nếu có liên kết tiềm năng kết nối cặp nút thì cặp nút sẽ được gán nhãn 1 (positive), ngược lại sẽ được gán nhãn 0 (negative) (Hình 1.2). Các đặc trưng dựa trên độ đo liên kết Mô hình phân lớp Danh sách các cặp nút dự đoán Các đặc trưng có liên kết khác Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp Mạng đồng tác giả là một trong những mạng OHUSN được nhiều nhà nghiên cứu quan tâm. Newman [65, 66] được biết đến như là một trong những người đầu tiên xây dựng mạng đồng tác giả dựa trên bốn nguồn dữ liệu về các bài báo khoa học công khai trên mạng Internet Los Alamos e-Print Archive, Medline, SPIRES và NCSTRL. Theo [31], mạng đồng tác giả là một mạng xã hội mà ở đó các nút là các nhà khoa học và các cạnh (liên kết) là các quan hệ đồng tác giả. Đây là một mạng vô hướng và phần lớn các tác giả có kết nối thưa trong khi chỉ một số rất ít các tác giả có nhiều kết nối. Trên thực tế, hầu hết các nghiên cứu về bài toán dự đoán liên kết trong mạng OHUSN đều lựa chọn mạng đồng tác giả là một trong những mạng để tiến hành thực nghiệm. Để minh họa cho mạng đồng tác giả, một định nghĩa hình thức về mạng đồng tác giả được đề xuất như sau: Định nghĩa 1.1 Một mạng đồng tác giả 𝐺 (𝑇) là một bộ bốn (𝑉 (𝑇) , 𝐸 (𝑇) , 𝑃(𝑇) , 𝑇), trong đó - 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑌 } là tập mốc thời gian liên tiếp (𝑡𝑖 < 𝑡𝑗 với i < j, và i, j = ̅̅̅̅̅ 1: 𝑌), với 𝑌 là số mốc thời gian, - 𝑉 (𝑇) = {𝑣1 , 𝑣2 , . . . , 𝑣𝑁 } là một tập các tác giả, 𝑁 là số tác giả, - 𝑃(𝑇) = {(𝑝1 , 𝑡𝑝1 , 𝑉𝑝1 ), (𝑝2 , 𝑡𝑝2 , 𝑉𝑝2 ), . . . , (𝑝𝑀 , 𝑡𝑝𝑀 , 𝑉𝑝𝑀 )} là tập các bài báo, 𝑉𝑝𝑖 ⊂ 𝑉 (𝑇) là tập các tác giả trong bài báo pi, 𝑡𝑝𝑖 ∈ 𝑇 là thời gian công bố của bài báo pi, với 𝑀 là số bài báo và - 𝐸 (𝑇) = {(𝑣𝑖 , 𝑣𝑗 , 𝑃𝑖𝑗 ): 𝑣𝑖 , 𝑣𝑗  𝑉 (𝑇) , 𝑣𝑖 ≠ 𝑣𝑗 , 𝑃𝑖𝑗  𝑃(𝑇) } là tập các liên kết (hay còn gọi là các quan hệ cộng tác). 18
Định nghĩa 1.1 sẽ được minh họa thông qua ví dụ về mạng đồng tác giả được biểu diễn trên Hình 1.3 dựa trên dữ liệu cho trong Bảng 1.1. Hình 1.3 là đồ thị biểu diễn quan hệ cộng tác giữa các tác giả, mỗi ei biểu diễn một quan hệ cộng tác giữa hai tác giả và được xác định trong Bảng 1.1. Trong ví dụ này, mạng đồng tác giả bao gồm 8 tác giả (N = 8), 10 bài báo (M = 10) và các bài báo được xuất bản từ năm 2000 đến năm 2002 (K = 3). Tổng số cộng tác là 12 (xem Bảng 1.1). Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo Quan hệ Tác Tác Tập bài Bài Năm Danh sách cộng tác giả i giả j báo báo công bố các tác giả e1 v2 v4 (𝑝1 , 𝑝2 , 𝑝4 , 𝑝9) p1 2000 (𝑣5 , 𝑣2 , 𝑣4 ) e2 v2 v5 (𝑝1 , 𝑝2) p2 2000 (𝑣1 , 𝑣5 , 𝑣3 , 𝑣4 ) e3 v2 v3 ( 𝑝3 , 𝑝7 , 𝑝10) p3 2000 (𝑣2 , 𝑣3 ) e4 v2 v1 ( 𝑝2 ) p4 2000 (𝑣4 , 𝑣2 ) e5 v2 v6 ( 𝑝8 ) p5 2001 (𝑣7 , 𝑣2 , 𝑣8 ) e6 v2 v7 ( 𝑝5 ) p6 2001 (𝑣2 , 𝑣8 ) e7 v2 v8 ( 𝑝5 , 𝑝6 , 𝑝8 ) p7 2001 (𝑣3 , 𝑣2 ) e8 v1 v4 ( 𝑝2 ) p8 2002 (𝑣8 , 𝑣6 , 𝑣2 ) e9 v1 v5 ( 𝑝2 ) p9 2002 (𝑣2 , 𝑣4 ) e10 v4 v5 (𝑝1 , 𝑝2) p10 2002 (𝑣2 , 𝑣3 ) e11 v6 v8 ( 𝑝8 ) e12 v7 v8 ( 𝑝5 ) v4 v3 v2 e2 e8 e5 v5 e4 e9 v6 e6 v1 e11 v8 e12 v7 Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002 dưới dạng đồ thị 19
1.1.2 Bài toán khuyến nghị cộng tác Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng xã hội giả nhằm tìm ra những tác giả có tiềm năng cộng tác trong tương lai. Bài toán khuyến nghị cộng tác được phát biểu như sau: Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t, với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác với tác giả u trong tương lai (từ thời điểm t’ > t). Như vậy, bài toán khuyến nghị cộng tác sẽ có hai trường hợp cần khuyến nghị: Thứ nhất là khuyến nghị cộng tác mới. Hệ thống sẽ lựa chọn ra danh sách các ứng cử viên chưa từng cộng tác với một tác giả nào đó có tiềm năng lớn sẽ cộng tác với họ trong tương lai. Thứ hai là khuyến nghị cộng tác tăng cường. Hệ thống sẽ khuyến nghị cho một nhà nghiên cứu nào đó những tác giả đã từng cộng tác trước đó với họ có tiềm năng tiếp tục cộng tác tăng cường trong tương lai. Bài toán khuyến nghị cộng tác có sự khác biệt so với bài toán khuyến nghị truyền thống trong đó tập các ứng cử viên được khuyến nghị cần phải thỏa mãn về mức độ tương đồng về lĩnh vực nghiên cứu (thông qua tập các bài báo đã công bố); tức là người được khuyến nghị cần được biết lý do vì sao họ sẽ có tiềm năng cộng tác với ứng cử viên được lựa chọn trong tương lai. Đối với bài toán khuyến nghị truyền thống, chủ yếu tập trung vào ba hướng tiếp cận chính đó là: (i) hướng tiếp cận dựa trên lọc cộng tác [73, 77, 81, 84]. Trong đó, sử dụng thông tin về những đánh giá đối với các người dùng khác nhau, việc xác định những người dùng tương đồng (những người láng giềng) là người có lịch sử đánh giá tương tự như người dùng hiện tại và đưa ra những khuyến nghị dựa trên lịch sử đánh giá của những láng giềng đó. Một số thuật toán học máy khác nhau đã được áp dụng trong hướng tiếp cận này, chẳng hạn như Naive Bayes [15] và dựa trên luật [6]; với sự nhấn mạnh hơn trên các mô hình nhân tố tiềm ẩn đã được dùng trong thập kỷ qua như phân tích giá trị riêng (SVD) bởi Sarwar và cộng sự [78], phân tích nhân tố bởi Canny [42], phân tích ngữ nghĩa tiềm ẩn (PLSA) bởi Hofmann [41], và phân tích thừa số ma trận không âm [48]. (ii) hướng tiếp cận dựa trên nội dung [13, 17, 91], ý tưởng chủ đạo của hướng tiếp cận này là đưa ra khuyến nghị những sản phẩm tương tự (tương đồng) với những sản phẩm mà người dùng đã thích (quan tâm) trong quá khứ sẽ được xem xét. Trong đó, độ tương tự giữa hai sản phẩm được tính toán dựa trên những đặc điểm (đặc trưng) gắn với những sản phẩm được so sánh. Ví dụ, nếu người dùng đã từng đánh giá một bộ phim nào đó thuộc thể loại hài kịch thì khi đó hệ thống sẽ học cách để khuyến nghị những bộ phim khác cũng thuộc thể loại này cho người dùng. (iii) hướng tiếp cận lai [18, 86], là một cách kết hợp hai hoặc nhiều phương pháp khuyến nghị nhằm đạt được độ chính xác (hiệu suất) tốt hơn so với khi áp dụng riêng lẻ phương pháp bất kỳ nào 20