
MỞ ĐẦU
1. Bối cảnh nghiên cứu
Khái niệm mạng đồng tác giả dùng để miêu tả mối quan hệ hợp tác cùng nghiên cứu giữa các nhà
khoa học. Mạng đồng tác giả có thể xem như một mạng xã hội cộng đồng đặc biệt với các nút là các
tác giả, các cạnh thể hiện mối liên kết giữa hai tác giả. Các bài toán phổ biến trong mạng đồng tác
giả gồm: (i) các bài toán truy vấn thông tin như: tìm kiếm, tra cứu tạp chí, bài báo, tác giả, tổ chức,
trích dẫn,... (ii) các bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xu
hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật, đánh giá hiệu quả nghiên cứu và phát triển các
hệ thống dự đoán (bài báo, tạp chí, đồng tác giả,...). Trong thực tế, muốn có các kết quả nghiên cứu
tốt các nhà nghiên cứu phải tìm kiếm được các cộng sự hợp tác phù hợp. Do đó, việc nghiên cứu các
phương pháp để xây dựng một hệ thống dự đoán cộng tác cùng nghiên cứu, gọi là bài toán dự đoán
cộng tác đồng tác giả, trở nên cần thiết và có nhiều ý nghĩa trong việc thúc đẩy các hoạt động nghiên
cứu khoa học. Bài toán dự đoán đồng tác giả được phát biểu như sau:
Dựa trên thông tin kết nối của mạng đồng tác giả đến thời điểm hiện tại t, khi đưa thông tin đầu vào
là một tác giả vinào đó, hệ thống sẽ đưa ra một danh sách các tác giả vj, vk, vh, . . . có tiềm năng cộng
tác hiệu quả với tác giả vitrong tương lai (tức là có sẽ cộng tác ở một thời điểm t’nào đó sau t).
Để giải quyết bài toán này, có các phương pháp nghiên cứu đề xuất gồm: (i) sử dụng độ đo tương
đồng; (ii) xây dựng các mô hình dựa trên xác suất và khả năng tối đa; (iii) khai phá đồ thị (graph
mining); (iv) học máy gồm: phân lớp, phân cụm và học sâu giảm chiều dữ liệu. Trong đó, hướng tiếp
cận theo dạng phân lớp thu hút nhiều quan tâm nghiên cứu bởi có nhiều ưu điểm như: tích hợp đa dạng
thông tin liên kết, khả năng mở rộng linh hoạt trong việc lựa chọn các giải thuật, khả năng điều chỉnh
và cải thiện mô hình thông qua quá trình huấn luyện,... Để tiếp cận theo hướng này, sau khi xây dựng
mạng đồng tác giả, bộ dữ liệu huấn luyện tạo ra từ mạng được gọi là dữ liệu bảng ứng viên. Trong đó,
mỗi cặp tác giả ứng viên tiềm năng (vi, vj)được xem như là một mẫu dữ liệu. Mức độ liên kết hợp tác
của cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn
lớp được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng theo chiều thời gian.
Mạng đồng tác giả được biểu diễn bằng một đồ thị thưa kết nối, do số lượng cặp tác giả có kết nối
(cùng đứng tên trong một bài báo) là rất ít, trong khi số lượng cặp ứng viên đồng tác giả chưa cộng tác
(cặp ứng viên tiềm năng) là rất nhiều. Vì vậy, dữ liệu bảng ứng viên có rất nhiều mẫu nhãn −1(không
liên kết) và rất ít mẫu có nhãn +1 (không liên kết), gây ra sự không cân bằng về số lượng mẫu giữa các
lớp. Điều này gây thách thức cho các giải thuật học máy truyền thống vì các giải thuật này thường xem
xét các mẫu bình đẳng nhau, dẫn đến các mô hình phân lớp thường thiên về dự đoán sai các mẫu thiểu
số (nhãn +1). Có hai phương pháp thường dùng để giải quyết vấn đề này là: tiếp cận ở mức dữ liệu và
tiếp cận ở mức giải thuật. Các phương pháp tiếp cận ở mức dữ liệu thay đổi sự phân bố số lượng mẫu
trong bộ dữ liệu (resampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (over sampling) hay
giảm bớt các phần tử thuộc lớp đa số (under sampling). Các phương pháp tiếp cận ở mức giải thuật
hướng tới việc điều chỉnh các thuật toán phân lớp cơ bản để vẫn có hiệu quả cao trên các tập dữ liệu
không cân bằng như: học nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các hằng số phạt
cho các nhãn lớp khác nhau. Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật sampling và điều
chỉnh trọng số chi phí để nâng cao chất lượng mô hình huấn luyện.
Gần đây, luận án Tiến sĩ của Phạm Minh Chuẩn (2018) cũng tiếp cận giải quyết bài toán dự đoán
đồng tác giả theo hướng phân lớp, trong đó đề xuất các độ đo liên kết mới để bổ sung thêm các đặc
trưng của dữ liệu nhằm nâng cao chất lượng phân lớp của mô hình. Bên cạnh đó luận án có nêu ra vấn
đề dữ liệu rất không cân bằng về nhãn lớp trong bảng ứng viên. Tiếp nối nghiên cứu này, kết hợp với
khảo sát các nghiên cứu gần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữ
liệu không cân bằng để khắc phục đặc điểm này của bộ dữ liệu đồng tác giả hầu như rất hạn chế. Điều
này mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến giải thuật, điều chỉnh các tham số
mô hình để cải thiện chất lượng các mô hình dự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tác
giả có sự không cân bằng về nhãn lớp. Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong
các lớp, để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việc phân loại chính xác trong các
1