Luận án Tiến sĩ Hệ thống thông tin: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:123

Thêm vào BST

Báo xấu

12
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Hệ thống thông tin "Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả" trình bày các nội dung chính sau: Các kiến thức tổng quan về đề tài; cải tiến giải thuật AdaBoost cho bài toán dữ liệu không cân bằng; đề xuất thuật toán điều chỉnh thích nghi trọng số mờ dựa trên Fuzzy SVM-CIL. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Hệ thống thông tin: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2024
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TRẦN ĐÌNH KHANG HÀ NỘI−2024
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS. Trần Đình Khang. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực. Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng quy định. Hà Nội, ngày tháng 5 năm 2024 Giáo viên hướng dẫn Nghiên cứu sinh PGS.TS. Trần Đình Khang Võ Đức Quang ĐẠI HỌC BÁCH KHOA HÀ NỘI TL. GIÁM ĐỐC TRƯỞNG BAN ĐÀO TẠO i
LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn và thử thách. Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thể thiếu sự đồng hành dẫn dắt của những Thầy Cô kính mến, sự hỗ trợ giúp đỡ của những người đồng nghiệp, người bạn, người thân trong gia đình. Tôi thực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vì đã dành cho tôi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua. Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Trần Đình Khang, người Thầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tôi rất nhiều trong suốt quá trình nghiên cứu. Tôi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tại Trường Công nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội đã truyền đạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiến thức, gợi mở những ý tưởng nghiên cứu để hoàn thành luận án. Tôi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, các em sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người. Cuối cùng, tôi muốn nói lời biết ơn chân thành đến gia đình thân yêu, những người thân và bạn bè đã luôn động viên, ủng hộ tôi trong suốt quá trình nghiên cứu và giúp tôi vượt qua các giai đoạn khó khăn để đạt được một số kết quả bước đầu hôm nay. ii
MỤC LỤC LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . . . v DANH MỤC HÌNH VẼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC THUẬT TOÁN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 CHƯƠNG 1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU . . . . . 11 1.1. Bài toán phân lớp với dữ liệu không cân bằng. . . . . . . . . . . . . . . . . . . . . . 11 1.2. Một số thuật toán liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.1. Thuật toán SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.2. Thuật toán Weighted-SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.3. Fuzzy SVM-CIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.4. Thuật toán AdaBoost. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.5. Thuật toán CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.6. Phương pháp Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.7. K-nearest neighbors và Tomek link . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3. Bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.2. Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.4. Phương pháp phân lớp cho bài toán dự đoán đồng tác giả . . . . . . . . . . 29 1.5. Phương pháp thực nghiệm và đánh giá. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.5.1. Tập dữ liệu thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.5.2. Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.5.3. Môi trường và kịch bản thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1.6. Kết luận Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 iii
CHƯƠNG 2. CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2. Đề xuất thuật toán Im.AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2.1. Phân tích thuật toán AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2.2. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.2.3. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãn dương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.4. Mô tả thuật toán Im.AdaBoost kết hợp với WSVM . . . . . . . . . . . . 48 2.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3.1. Thử nghiệm trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . 54 2.4. Kết luận Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 CHƯƠNG 3. ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL . . . . . . . . 69 3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.2. Đề xuất thuật toán trọng số mờ thích nghi. . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.1. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM. . . . . . . 71 3.2.2. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm . . . 73 3.2.3. Thuật toán phân lớp với trọng số mờ thích nghi. . . . . . . . . . . . . . . . 75 3.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.3.1. Thử nghiệm trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . 85 3.3.3. Thử nghiệm so sánh các thuật toán đã đề xuất . . . . . . . . . . . . . . . . 95 3.4. Kết luận Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 100 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 iv
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt AA Adamic-Adar Độ đo liên kết AA ACT Average Commute Time Độ đo liên kết ACT AdaBoost Adaptive Boosting Thuật toán học kết hợp tuần tự thích nghi AdaBoost.SVM Adaptive Boosting with SVM AdaBoost kết hợp với SVM AdaBoost.W-SVM Adaptive Boosting with W-SVM AdaBoost kết hợp với W-SVM AdaBoost.DT Adaptive Boosting with Decision- AdaBoost kết hợp với DecisionTree Tree ASN Academic Social Network Mạng xã hội học thuật AUC Area Under Curve Diện tích dưới đường cong ROC CAR CAR-based Common Neighbor In- Độ đo CAR dex) CC Common Country Độ đo liên kết cộng đồng CNN Convolutional neural network Mạng nơ-ron tích chập CN Common Neighbor Độ đo liên kết CN ENN Edited Nearest Neighbor Thuật toán giảm mẫu ENN FSVM Fuzzy Support Vector Machine Máy véc-tơ hỗ trợ mờ FSVM-CIL Fuzzy Support Vector Machines for Máy véc-tơ hỗ trợ mờ cho học trên dữ liệu Class Imbalance Learning không cân bằng G-mean Geometric Mean Độ đo trung bình hình học HSM Hierarchical structure model Mô hình cấu trúc phân cấp JC Jaccard Coefficient Độ đo liên kết JC KNN K -Nearest Neighbors K -láng giềng gần nhất LDP local directed path Độ đo liên kết LDP LP Link Prediction Dự đoán liên kết MAG Microsoft Academic Graph Cơ sở dữ liệu khoa học MAG MF Matrix Forest Index Độ đo liên kết MF NCL Neighborhood Cleaning Rule Thuật toán giảm mẫu NCL OSS One Sided Selection Thuật toán giảm mẫu OSS PA Preferential Attachment Độ đo liên kết PA RA Resource Allocation Độ đo liên kết RA ROC Receiver operating characteristics Đường cong đặc tính RWR Random Walk with Restart Độ đo liên kết RWR SBM Stochastic block model Mô hình khối ngẫu nhiên SPRD Scholarly Paper Recommendation Cơ sở dữ liệu khoa học SPRD Dataset v
SVM Support Vector Machine Máy véc-tơ hỗ trợ SMOTE Synthetic Minority Over-sampling Kỹ thuật tạo mẫu tổng hợp cho lớp thiểu Technique số SP Specificity Độ đo đặc hiệu SE Sensitivity Độ đo nhạy cảm SW Similar Work Độ đo liên kết SW TLP Tomek Link Pair Cặp Tomek link W-SVM Weight Support Vector Machine Máy véc-tơ hỗ trợ có trọng số vi
DANH MỤC HÌNH VẼ 1.1 Các trường hợp của ξ trong Soft-SVM . . . . . . . . . . . . . . . . . . 15 1.2 Minh họa kiến trúc CNN-1D . . . . . . . . . . . . . . . . . . . . . . . . 20 1.3 Minh họa các cặp TLPs . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4 Tổng quan quy trình giải quyết các bài toán trong mạng ASN . . . . 23 1.5 Mô hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp . . . 32 2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM. . . . . . . . . . . 49 2.2 Các giá trị của Gmean trên θ thu được bởi Im.AdaBoost.WSVM . . . 57 2.3 Các giá trị Gmean, SE , và SP được xác định cho dữ liệu Nhóm I . . 60 2.4 Các giá trị Gmean, SE , và SP được xác định cho dữ liệu Nhóm II . . 63 2.5 Các giá trị Gmean, SE , và SP được xác định cho dữ liệu Nhóm III . 66 3.1 Vị trí tương đối của các mẫu giữa hai lớp . . . . . . . . . . . . . . . . 72 3.2 Minh họa cho bốn trường hợp "mẫu nhạy cảm" được chỉ ra bởi TLPs 74 vii
DANH MỤC BẢNG 1.1 Bảng ứng viên đồng tác giả . . . . . . . . . . . . . . . . . . . . . . . . 31 1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017 . . . . 34 1.3 Bảng dữ liệu ứng viên đồng tác giả . . . . . . . . . . . . . . . . . . . . 35 1.4 Mô tả bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.1 Các giá trị tốt nhất của tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.2 Kết quả phân lớp các tập dữ liệu UCI . . . . . . . . . . . . . . . . . . 55 2.3 Mô tả các bộ dữ liệu đồng tác giả . . . . . . . . . . . . . . . . . . . . . 56 2.4 Các giá trị tốt nhất của tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I . . . . . . . . . . . . 59 2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II . . . . . . . . . . . . 62 2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III . . . . . . . . . . . . 64 3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ . . . . . . . . . . . 78 3.2 So sánh kết quả phân lớp của FSVM-CILcen_2c và FSVM-CIL lin trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụng vào FSVM-CIL trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . 82 3.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ liệu chuẩn UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.5 Mô tả các bộ dữ liệu đồng tác giả . . . . . . . . . . . . . . . . . . . . 86 3.6 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen_2c cho các bộ lin dữ liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . . . 87 3.7 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen_2c cho các bộ lin dữ liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . . . 88 3.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các bộ dữ liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . 90 viii
3.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các bộ dữ liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . 91 3.10 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.11 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.12 Kết quả so sánh trên các tập dữ liệu UCI . . . . . . . . . . . . . . . . 95 3.13 Kết quả so sánh trên các tập dữ liệu Nhóm I . . . . . . . . . . . . . . 95 ix
DANH MỤC THUẬT TOÁN 1.1 Thuật toán SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Thuật toán AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3 Thuật toán huấn luyện Cây quyết định . . . . . . . . . . . . . . . . . . 20 1.4 Thuật toán KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1 Thuật toán Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . 48 3.1 CalFW: Tính toán trọng số mờ cho tập dữ liệu . . . . . . . . . . . . . 73 3.2 AdjFW: Điều chỉnh trọng số mờ dựa trên TLPs . . . . . . . . . . . . 76 3.3 Thuật toán F-AWA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4 Thuật toán AFW-CIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 x
MỞ ĐẦU 1. Lý do chọn đề tài Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN-Academic Social Networks) là khái niệm đề cập đến mối quan hệ tương tác về thông tin trong cộng đồng các nhà nghiên cứu khoa học [1][2]. Trong đó, khái niệm mạng đồng tác giả (co-authorship network) dùng để miêu tả mối quan hệ hợp tác cùng nghiên cứu giữa các nhà khoa học. Mối quan hệ này được thể hiện trong việc các nhà nghiên cứu là đồng tác giả trong một hoặc nhiều bài báo khoa học. Các bài báo khoa học là sự trình bày nội dung các kết quả nghiên cứu và được công bố trên các tạp chí khoa học. Có nhiều tạp chí khoa học thuộc các chủ đề lĩnh vực nghiên cứu khác nhau. Một bài báo khoa học có thể là kết quả hợp tác của nhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu. Mặt khác, tùy theo năng lực và môi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiều nhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bố các bài báo khoa học. Không gian quan hệ cộng tác nghiên cứu khoa học có thể xem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, các cạnh thể hiện mối liên kết giữa hai tác giả. Với những tính chất đó, mạng đồng tác giả không chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quan hệ lân cận chung và đường dẫn liên kết, mà còn chứa đựng các đặc trưng riêng về chuyên môn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v. Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa và đóng góp quan trọng cho lĩnh vực khoa học thông tin, khoa học dữ liệu và ứng dụng trong phát triển cộng đồng nghiên cứu khoa học. Liên quan đến mạng đồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i) các bài toán truy vấn tổng hợp thông tin như: tìm kiếm, tra cứu thông tin học thuật (tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn,...) (ii) các bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xu hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổ chức, đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềm năng và phát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tác giả,...) [2]. Trong thực tế, khả năng mở rộng và phát triển của không gian mạng đồng tác giả phụ thuộc hoàn toàn vào việc số lượng các bài báo được xuất bản trên 1
các tạp chí. Muốn có được các kết quả nghiên cứu tốt, đòi hỏi các nhà nghiên cứu phải tìm kiếm được các cộng sự có khả năng hợp tác phù hợp. Việc này sẽ giúp cho các nhà khoa học thực hiện tốt các dự án nghiên cứu, kích thích các ý tưởng sáng tạo hoặc cùng thực hiện các công việc chung khác. Khi phân tích về mối quan hệ hợp tác khoa học và tác động khoa học dựa trên việc khảo sát dữ liệu các bài báo xuất bản từ 1900 đến 2011, Larivière và các cộng sự đã chỉ ra rằng các nhóm tác giả có số lượng đông đảo và đa dạng sẽ giúp các công trình khoa học có tác động ảnh hưởng cao hơn [3]. Do vậy, việc nghiên cứu các phương pháp để xây dựng một hệ thống có thể dự đoán sự cộng tác đồng tác giả trong mạng đồng tác giả là cần thiết và có nhiều ý nghĩa trong việc hợp tác thúc đẩy các hoạt động nghiên cứu khoa học [1][4]. Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, được phát biểu như sau: Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thời điểm hiện tại t, khi đưa thông tin đầu vào là một tác giả vi nào đó, hệ thống sẽ phân tích xử lý và đưa ra một danh sách gợi ý các tác giả vj , vk , vh , . . . có tiềm năng cộng tác hiệu quả với tác giả vi trong tương lai (tức là sẽ có cộng tác ở một thời điểm t’ nào đó sau t). Bài toán dự đoán đồng tác giả có thể xem như là một bài toán dẫn xuất của bài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụng vào mạng đồng tác giả. Mục tiêu của bài toán này là dự đoán các mối quan hệ (liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tin về quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại. Trong mạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễn thông qua các cạnh và định lượng thông qua các độ đo liên kết. Các độ đo này thường được hình thành và xác định dựa trên các thông tin liên kết như dựa vào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết. Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉ có trong không gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tác giả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v. Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, các phương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm: • Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viên đồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểm số, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính toán dựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sử dụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard...; và (ii) 2
sự tương đồng về cấu trúc và liên kết mạng. Một số nghiên cứu nổi bật theo hướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (Common Neigh- bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7], RA (Re- source allocation) [8], JC (Jaccard Coefficient), Cosine similarity, Sorensen Index, CAR (CAR-based Common Neighbor Index), Katz Index [9], RWR (Random Walk with Restart), Shortest Path [10], ACT (Average Commute Time), MF (Matrix Forest Index), SimRank, local random walk index, LDP (local directed path),... • Xây dựng các mô hình dựa trên xác suất và khả năng tối đa (Probabilistic and maximum likelihood models): sử dụng một lượng dữ liệu lớn để nghiên cứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo sự phát triển của mạng. Các kỹ thuật này thường áp dụng các ước lượng xác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giá khả năng xảy ra của một mối liên kết chưa tồn tại trong mạng. Mô hình dạng này thường yêu cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh các tham số phức tạp và cần nhiều thời gian. Các nghiên cứu điển hình bao gồm: Hierarchical structure model (HSM), Stochastic block model (SBM), Parametric model, Non-parametric model, Local probabilistic model, Factor graph model, Affiliation model. • Khai phá đồ thị (graph mining): sử dụng các mô hình đồ thị để khám phá các tri thức và thông tin hữu ích từ lượng dữ liệu lớn. Các phương pháp chính bao gồm sử dụng các thuật toán dựa trên Apriori như AGM, ACGM, path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM. • Học máy (machine learning): hướng tiếp cận này bao gồm các phương pháp học có giám sát (phân lớp), học không giám sát (phân cụm), học sâu và giảm chiều dữ liệu. Phương pháp học có giám sát xây dựng mô hình phân lớp dựa trên các bộ dữ liệu huấn luyện. Các bộ dữ liệu này có thuộc tính dựa trên thông tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựa trên việc khảo sát sự mở rộng kết nối mạng theo chiều thời gian. Theo đó, bài toán dự đoán liên kết được xem như là bài toán phân lớp nhị phân với nhãn lớp +1 biểu thị việc có liên kết, nhãn lớp −1 biểu thị không có liên kết. Các thuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks, Support Vector Machines, K-Nearest Neighbors, XGboost hay các mô hình dạng hồi quy. Trong khi phương pháp học không giám sát (phân cụm) tập trung vào việc dự đoán nhãn lớp cho các mẫu không được gán nhãn dựa trên tính chất quan hệ giữa các mẫu. 3
• Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật các kiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng được quan tâm nghiên cứu trong thời gian gần đây. Các kỹ thuật đặc trưng sử dụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP [13], Walklets [14], subgraph embedding, deep dynamic network embedding [15]. Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướng phân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều ưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạt trong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh và cải thiện mô hình thông qua quá trình huấn luyện,... Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phương pháp học máy, nội dung của luận án tiếp tục mở rộng nghiên cứu, đề xuất cải tiến các thuật toán phân lớp để đem lại các mô hình phân lớp có chất lượng tốt hơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và là cơ sở cho việc xây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trong mạng xã hội học thuật. 2. Vấn đề nghiên cứu Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máy phân lớp cho bài toán dự đoán cộng tác đồng tác giả có những ưu điểm nổi bật và được quan tâm nghiên cứu. Tuy nhiên, để huấn luyện được một mô hình dự đoán tốt chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương pháp xây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toán huấn luyện. Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyện được nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết và đánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượng mô hình phân lớp. Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựa trên thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liên kết), thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đề nghiên cứu, đơn vị nghiên cứu, quốc gia,..). Trong nghiên cứu [16] các tác giả đã tổng hợp có hơn 20 phương pháp tính toán các độ đo liên kết. Nhìn chung các độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viên đồng tác giả càng được mô tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chất lượng đưa đến thuận lợi cho việc huấn luyện các mô hình. Tuy nhiên, một số nghiên cứu thử nghiệm cho thấy rằng, một số độ đo liên kết có mức độ ảnh hưởng cao 4
hơn trong việc tạo ra mô hình dự đoán chất lượng, các độ đo còn lại có mức độ ảnh hưởng ít hơn, đóng vai trò là thuộc tính mang ý nghĩa bổ sung. Do vậy khả năng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệu quả cho việc nâng cao chất lượng mô hình phân lớp là khá hạn chế. Chúng ta biết rằng không có mô hình học máy nào tốt cho tất cả các bộ dữ liệu trong các bài toán khác nhau. Do vậy đối với từng bài toán cụ thể, cần nghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựng được các mô hình phân lớp/dự đoán có chất lượng tốt. Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp, sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệu huấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồng tác giả, gọi tắt là bảng ứng viên. Mô tả sơ lược về dữ liệu bảng ứng viên như sau. Khi đưa thông tin đầu vào là một tác giả vi nào đó, chúng ta xây dựng một danh sách các tác giả vj , vk , vh , . . . có tiềm năng cộng tác hiệu quả với tác giả vi trong tương lai. Các tác giả vj , vk , vh , . . . gọi là ứng viên đồng tác giả. Theo đó, mỗi cặp (vi , vj ) là một cặp ứng viên cộng tác tiềm năng và được xem như là một mẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng xảy ra liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng đồng tác giả theo chiều thời gian. Cụ thể hơn, giả sử rằng T2 là khoảng thời gian sau T1 thì các độ đo liên kết được tính từ mạng đồng tác giả trong T1 và nhãn lớp +1/ − 1 được xác định bằng cách kiểm tra sự cộng tác thực tế của các tác giả trong T2 . Gán nhãn lớp +1 thể hiện rằng trong thực tế cặp tác giả có viết chung bài báo, nhãn lớp −1 thể hiện cặp tác giả không có viết chung bài báo nào. Trong thực tế, mạng đồng tác giả được biểu diễn bằng một đồ thị thưa kết nối, do đó, trong khoảng thời gian T2 số lượng cặp tác giả có kết nối (tức là cùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượng cặp ứng viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều. Điều này dẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãn lớp, trong đó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả) có nhãn lớp −1 và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp +1, gây ra sự không cân bằng về số lượng mẫu giữa các lớp. Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệu học máy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bài toán phân lớp nhị phân. Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tác giả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữ liệu huấn luyện ở mức rất cao. Điều này gây thách thức cho các thuật toán học 5
máy truyền thống vì các thuật toán này thường xem xét các mẫu bình đẳng nhau, dẫn đến các mô hình phân lớp thiên về dự đoán sai các mẫu lớp thiểu số. Gần đây, trong luận án Tiến sĩ của Phạm Minh Chuẩn (2018) trình bày cách tiếp cận giải quyết bài toán dự đoán đồng tác giả theo phuong pháp phân lớp, trong đó đã đề xuất mở rộng các độ đo liên kết mới để bổ sung thêm các đặc trưng của dữ liệu nhằm nâng cao chất lượng của mô hình phân lớp. Bên cạnh đó luận án cũng đã nêu ra vấn đề dữ liệu rất không cân bằng về nhãn lớp trong bảng ứng viên. Tiếp nối nghiên cứu này, kết hợp với khảo sát các nghiên cứu gần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữ liệu không cân bằng để áp dụng cho bộ dữ liệu đồng tác giả hầu như rất hạn chế. Điều này mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến thuật toán, điều chỉnh các tham số mô hình để cải thiện chất lượng các mô hình dự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tác giả có sự không cân bằng mức cao về số lượng mẫu giữa các lớp. Đối với bài toán học máy trên dữ liệu hai nhãn lớp nói chung thường không có sự phân bố đồng đều số lượng mẫu giữa các lớp. Tùy thuộc vào từng trường hợp bài toán cụ thể mức độ chênh lệch số lượng mẫu giữa các lớp là khác nhau, cũng có trường hợp tỷ lệ không cân bằng là rất lớn. Trong một số trường hợp, tỷ lệ giữa các phần tử thuộc lớp thiểu số (nhãn lớp có số mẫu ít), gọi tắt là nhãn dương, ký hiệu +1, so với các phần tử thuộc lớp đa số (nhãn lớp có só mẫu nhiều), gọi tắt là nhãn âm, ký hiệu −1, có thể lên đến 1:100 thậm chí 1:100,000. Khi áp dụng các thuật toán học máy truyền thống cho các tập dữ liệu không cân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân loại đúng trong khi các phần tử thuộc lớp thiểu số dễ bị phân lớp sai thành lớp đa số. Việc này dẫn đến kết quả là mô hình huấn luyện có thể có độ chính xác (accuracy) rất cao trong khi giá trị độ nhạy (sensitivity) lại rất thấp. Nhìn chung các phương pháp phân lớp học máy truyền thống đều khó cho kết quả độ nhạy tốt với các tập dữ liệu có tỷ lệ chênh lệch số lượng mẫu giữa các lớp ở mức cao. Điều này tạo nên sự thú vị và đem đến động lực nghiên cứu trong việc tìm ra các phương pháp cải tiến nhằm huấn luyện mô hình phân lớp chất lượng khi áp dụng cho bài toán dữ liệu không cân bằng. Theo [19] nhiều phương pháp đã được đề xuất để giải quyết vấn đề này, trong đó chủ yếu được phân thành hai nhóm cơ bản: tiếp cận ở mức dữ liệu và tiếp cận ở mức thuật toán. • Các phương pháp tiếp cận ở mức dữ liệu nhằm mục đích thay đổi sự phân bố số lượng mẫu trong bộ dữ liệu (resampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (over sampling), giảm bớt các phần tử thuộc lớp đa số (under sampling) hoặc kết hợp cả hai phương pháp để bộ dữ liệu 6
trở nên cân bằng hơn, sau đó sử dụng các thuật toán học máy mạnh để tiến hành huấn luyện mô hình phân lớp. Một số kỹ thuật làm sạch dữ liệu (data cleaning techniques) như Tomek links cũng được sử dụng để loại bỏ sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thực hiện các thuật toán sinh thêm các mẫu tổng hợp. • Các phương pháp tiếp cận ở mức thuật toán hướng tới việc cải tiến các thuật toán phân lớp mạnh truyền thống để có được hiệu quả cao trên các tập dữ liệu không cân bằng. Các phương pháp phổ biến gồm: học mô hình dựa trên nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các tham số thưởng phạt khác nhau gắn với các mẫu nhãn lớp khác nhau. Các giải thuật học máy nổi bật được quan tâm nghiên cứu là: sử dụng Boosting, sử dụng Cây quyết định nhạy cảm chi phí (Cost-Sensitive Decision Trees), sử dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật học sâu,... • Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật cân bằng hóa phân bố số lượng mẫu trong bộ dữ liệu và các phương pháp điều chỉnh trọng số chi phí để nâng cao chất lượng mô hình huấn luyện, ví dụ: SMOTE kết hợp Different Costs (SDCs), SVMs với Under/Over Sampling,... Trong các phương pháp tiếp cận mức thuật toán, các nghiên cứu cải tiến AdaBoost nhận được nhiều sự quan tâm chú ý. AdaBoost là thuật toán học kết hợp tuần tự và thích nghi sửa lỗi qua mỗi lần lặp do Freund [20] đề xuất. Thuật toán kết hợp sử dụng nhiều bộ phân lớp thành viên để tạo thành một bộ phân lớp tổng hợp giúp xem xét kỹ hơn các đặc tính của bộ dữ liệu. Do đó thuật toán AdaBoost được chúng tôi lựa chọn để thực hiện nghiên cứu cải tiến. Cũng cần lưu ý rằng, vấn đề dữ liệu không cân bằng là bài toán xảy ra rất nhiều trong thực tế như là chẩn đoán bệnh trong y tế, dự báo những sự kiện thiên tai hiếm gặp, phát hiện xâm nhập mạng,... nên các phương pháp thuật toán hiệu quả trong bài toán dự đoán liên kết trong mạng đồng tác giả cũng có nhiều tiềm năng mở rộng cho các bài toán có dữ liệu không cân bằng trong các lĩnh vực khác. Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, một vấn đề chung để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việc phân loại chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu là nhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân loại của hai lớp. Với những dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờ dựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả. Nhiều nghiên cứu đã đề xuất các phương pháp xử lý mờ để giải quyết vấn đề này. 7
3. Đối tượng và phạm vi nghiên cứu Trên cơ sở phân tích bối cảnh nghiên cứu và những ưu điểm hạn chế của các nghiên cứu đã khảo sát, nội dung luận án này tập trung nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tác giả theo phương pháp phân lớp. Trong đó trọng tâm nghiên cứu là cải tiến các thuật toán học máy trên dữ liệu không cân bằng hai nhãn lớp và áp dụng cho bài toán dự đoán đồng tác giả. Cụ thể hơn, luận án nghiên cứu cải tiến các thuật toán mạnh mẽ và mềm dẻo như là AdaBoost [20], SVM [21], Weighted SVM [22], các thuật toán xử lý mờ như Fuzzy SVM [23], Fuzzy SVM-CIL [24]. Luận án tập trung nghiên cứu đề xuất cải tiến các phương pháp phân lớp nhị phân để ứng dụng hiệu quả cho bài toán dự đoán đồng tác giả. Trong đó trọng tâm là giải quyết vấn đề dữ liệu không cân bằng giữa các lớp. Về phạm vi nghiên cứu, luận án tập trung nghiên cứu bài toán dự đoán đồng tác giả, đề xuất thử nghiệm các phương pháp cải tiến thuật toán nhằm nâng cao chất lượng phân lớp trên các bộ dữ liệu có sự không cân bằng về số lượng mẫu giữa các lớp nói chung và áp dụng cho dữ liệu bảng ứng viên được tạo ra từ mạng đồng tác giả. Dữ liệu bảng ứng viên đồng tác giả sử dụng trong các thử nghiệm kế thừa từ nguồn thông tin tác giả bài báo tự thu thập trước đây. Các thuộc tính của mẫu dữ liệu ứng viên đồng tác giả được xây dựng đặc trưng từ một số độ đo liên kết cơ bản. Các nội dung liên quan đến vấn đề về mở rộng độ đo liên kết, phương pháp tiếp cận dự đoán đồng tác giả khác... cũng được đề cập nhưng không phải là phạm vi nghiên cứu chính của luận án. 4. Mục tiêu nghiên cứu Luận án này hướng tới cải tiến các phương pháp học máy để giải quyết tốt hơn vấn đề học trên dữ liệu không cân bằng trong bài toán dự đoán đồng tác giả. Luận án tập trung vào hai vấn đề nghiên cứu chính sau: • Thứ nhất, nghiên cứu cải tiến phương pháp học kết hợp AdaBoost cho dữ liệu không cân bằng ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề nghiên cứu này hướng đến việc cải tiến phương pháp học kết hợp mạnh mẽ như AdaBoost [20] để phù hợp cho dữ liệu không cân bằng thông qua việc thiết kế các tham số điều chỉnh thích nghi với mức độ không cân bằng của dữ liệu. • Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề 8