BỘ GIÁO DỤC VÀ ĐÀO TO
ĐẠI HỌC CH KHOA NỘI
VÕ ĐỨC QUANG
CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ
Ngành: Hệ thống thông tin
số: 9480104
TÓM TT LUẬN ÁN TIẾN HỆ THỐNG THÔNG TIN
NỘI2024
Công trình được hoàn thành tại:
Đại học Bách khoa Nội
Người hướng dẫn khoa học: PGS.TS. Trần Đình Khang
Phản biện 1: PGS.TS. Nguyễn Việt Anh
Phản biện 2: PGS.TS. Nguyễn Hải Châu
Phản biện 3: PGS.TS. Nguyễn Văn Long
Luận án được bảo v tại Hội đồng đánh giá luận án tiến cấp Đại học Bách
khoa Nội họp tại Đại học Bách khoa Nội.
Vào hồi 8 giờ 30, ngày 23 tháng 04 năm 2024.
thể tìm hiểu luận án tại:
1. Thư viện T Quang Bửu - ĐHBK Nội
2. Thư viện Quốc gia Việt Nam.
MỞ ĐU
1. Bối cảnh nghiên cứu
Khái niệm mạng đồng tác giả dùng để miêu tả mối quan hệ hợp tác cùng nghiên cứu giữa các nhà
khoa học. Mạng đồng tác giả thể xem như một mạng hội cộng đồng đặc biệt với các nút các
tác giả, các cạnh thể hiện mối liên kết giữa hai tác giả. Các bài toán phổ biến trong mạng đồng tác
giả gồm: (i) các bài toán truy vấn thông tin như: tìm kiếm, tra cứu tạp chí, bài báo, tác giả, tổ chức,
trích dẫn,... (ii) các bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xu
hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật, đánh giá hiệu quả nghiên cứu và phát triển các
hệ thống dự đoán (bài báo, tạp chí, đồng tác giả,...). Trong thực tế, muốn các kết quả nghiên cứu
tốt các nhà nghiên cứu phải tìm kiếm được các cộng sự hợp tác phù hợp. Do đó, việc nghiên cứu các
phương pháp để y dựng một hệ thống dự đoán cộng tác cùng nghiên cứu, gọi bài toán dự đoán
cộng tác đồng tác giả, trở nên cần thiết và nhiều ý nghĩa trong việc thúc đẩy các hoạt động nghiên
cứu khoa học. Bài toán dự đoán đồng tác giả được phát biểu như sau:
Dựa trên thông tin kết nối của mạng đồng tác giả đến thời điểm hiện tại t, khi đưa thông tin đầu vào
một tác giả vinào đó, hệ thống sẽ đưa ra một danh sách các tác giả vj, vk, vh, . . . có tiềm năng cộng
tác hiệu quả với tác giả vitrong tương lai (tức có sẽ cộng tác một thời điểm tnào đó sau t).
Để giải quyết bài toán này, các phương pháp nghiên cứu đề xuất gồm: (i) sử dụng độ đo tương
đồng; (ii) y dựng các hình dựa trên xác suất và khả năng tối đa; (iii) khai phá đồ thị (graph
mining); (iv) học y gồm: phân lớp, phân cụm và học sâu giảm chiều dữ liệu. Trong đó, hướng tiếp
cận theo dạng phân lớp thu hút nhiều quan tâm nghiên cứu bởi nhiều ưu điểm như: tích hợp đa dạng
thông tin liên kết, khả năng mở rộng linh hoạt trong việc lựa chọn các giải thuật, khả năng điều chỉnh
và cải thiện hình thông qua quá trình huấn luyện,... Để tiếp cận theo hướng này, sau khi xây dựng
mạng đồng tác giả, b dữ liệu huấn luyện tạo ra từ mạng được gọi dữ liệu bảng ứng viên. Trong đó,
mỗi cặp tác giả ứng viên tiềm năng (vi, vj)được xem như một mẫu dữ liệu. Mức độ liên kết hợp tác
của cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn
lớp được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng theo chiều thời gian.
Mạng đồng tác giả được biểu diễn bằng một đồ thị thưa kết nối, do số lượng cặp tác giả kết nối
(cùng đứng tên trong một bài báo) rất ít, trong khi số lượng cặp ứng viên đồng tác giả chưa cộng tác
(cặp ứng viên tiềm năng) rất nhiều. vậy, dữ liệu bảng ứng viên rất nhiều mẫu nhãn 1(không
liên kết) và rất ít mẫu nhãn +1 (không liên kết), y ra sự không cân bằng v số lượng mẫu giữa các
lớp. Điều y gây thách thức cho các giải thuật học máy truyền thống các giải thuật y thường xem
xét các mẫu bình đẳng nhau, dẫn đến các hình phân lớp thường thiên v dự đoán sai các mẫu thiểu
số (nhãn +1). hai phương pháp thường dùng để giải quyết vấn đề này là: tiếp cận mức dữ liệu và
tiếp cận mức giải thuật. Các phương pháp tiếp cận mức dữ liệu thay đổi sự phân bố số lượng mẫu
trong b dữ liệu (resampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (over sampling) hay
giảm bớt các phần tử thuộc lớp đa số (under sampling). Các phương pháp tiếp cận mức giải thuật
hướng tới việc điều chỉnh các thuật toán phân lớp bản để vẫn hiệu quả cao trên các tập dữ liệu
không cân bằng như: học nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các hằng số phạt
cho các nhãn lớp khác nhau. Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật sampling và điều
chỉnh trọng số chi phí để nâng cao chất lượng hình huấn luyện.
Gần đây, luận án Tiến của Phạm Minh Chuẩn (2018) cũng tiếp cận giải quyết bài toán dự đoán
đồng tác giả theo hướng phân lớp, trong đó đề xuất các độ đo liên kết mới để bổ sung thêm các đặc
trưng của dữ liệu nhằm nâng cao chất lượng phân lớp của hình. Bên cạnh đó luận án nêu ra vấn
đề dữ liệu rất không cân bằng v nhãn lớp trong bảng ứng viên. Tiếp nối nghiên cứu y, kết hợp với
khảo sát các nghiên cứu gần đây, chúng tôi nhận thấy các công b nghiên cứu vấn đề học y trên dữ
liệu không cân bằng để khắc phục đặc điểm này của bộ dữ liệu đồng tác giả hầu như rất hạn chế. Điều
y mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến giải thuật, điều chỉnh các tham số
hình để cải thiện chất lượng các hình dự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tác
giả sự không cân bằng v nhãn lớp. Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong
các lớp, để nâng cao chất lượng hình phân lớp cần xử tốt việc phân loại chính xác trong các
1
vùng không gian nhạy cảm như: mẫu dữ liệu nhiễu hoặc mẫu dữ liệu phân b trong không gian ranh
giới phân loại của hai lớp. Với những thông tin dữ liệu không đầy đủ, không chắc chắn, phương pháp
xử mờ dựa trên thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả.
2. Phạm vi và vấn đề nghiên cứu
Luận án tập trung nghiên cứu bài toán dự đoán đồng tác giả, các thuật toán để phân lớp giải quyết
vấn đề dữ liệu không cân bằng hai nhãn lớp. Trọng tâm của luận án nghiên cứu, đề xuất các thuật
toán nhằm nâng cao chất lượng phân lớp trên các b dữ liệu không cân bằng và ứng dụng trong dự
đoán đồng tác giả. Phạm vi các thử nghiệm sử dụng các độ đo liên kết bản và kế thừa bộ dữ liệu tự
thu thập. Theo đó, luận án tập trung vào hai mục tiêu nghiên cứu chính:
Thứ nhất, nghiên cứu cải tiến thuật toán học kết hợp AdaBoost cho dữ liệu không cân bằng ứng
dụng trong bài toán dự đoán đồng tác giả? Vấn đề nghiên cứu y hướng đến việc cải tiến thuật
toán học kết hợp mạnh mẽ như AdaBoost để phù hợp cho dữ liệu không cân bằng thông qua việc
thiết kế các tham số điều chỉnh thích nghi với mức độ không cân bằng của dữ liệu.
Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu không cân bằng
ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề nghiên cứu này hướng tới việc áp dụng điều
chỉnh các trọng số đại lượng mờ kết hợp với giải thuật học dựa trên chi phí, giúp huấn luyện các
hình phân lớp hiệu quả hơn khi dữ liệu sự không cân bằng cao v nhãn lớp và các trường
hợp dữ liệu trong vùng không gian nhạy cảm như gần đường biên phân lớp hoặc dữ liệu nhiễu.
3. Đóng góp của luận án
Hướng tới y dựng các giải pháp hiệu quả cho các vấn đề nghiên cứu nói trên, luận án đã đưa đến
các đóng góp chính:
Luận án đề xuất phương pháp cải tiến thuật toán học kết hợp dựa trên lặp thích nghi AdaBoost
giải quyết bài toán phân lớp dữ liệu không cân bằng nói chung và bài toán dự đoán đồng tác giả
nói riêng. Các cải tiến bao gồm: (1) phương pháp khởi tạo trọng số AdaBoost thích nghi với mức
độ không cân bằng mẫu trong tập dữ liệu và (2) phương pháp tính trọng số độ tin cậy cho b
phân lớp thành viên nhạy cảm với tổng lỗi trên mẫu nhãn dương. Các kết quả nghiên cứu này đã
được công bố trong 2 bài báo số [CT.1] và [CT.3].
Luận án đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bài toán dự đoán cộng tác
đồng tác giả theo dạng học trên dữ liệu không cân bằng hai lớp. Thuật toán đề xuất hai cải
tiến chính: (1) xây dựng một hàm tính trọng số mờ cho các mẫu dữ liệu giàu ngữ nghĩa hơn dựa
trên Fuzzy SVM-CIL khi xem xét khoảng cách từ mỗi mẫu đến tâm của cả hai lớp; (2) phương
pháp điều chỉnh thích nghi các giá trị trọng số mờ của mẫu nằm trong không gian phân lớp nhạy
cảm như trên đường biên hoặc mẫu nhiễu dựa trên KNN, Tomek link và SVM. Các kết quả
nghiên cứu y đã được công b các bài báo số [CT.2][CT.4][CT.5].
4. Bố cục của luận án
Với các đóng góp nêu trên, luận án được trình y trong 3 chương:
Chương 1: Trình y các kiến thức tổng quan về đề tài: giới thiệu bài toán phân lớp với dữ liệu
không cân bằng, bài toán dự đoán đồng tác giả theo dạng bài toán phân lớp, các thuật toán
sở, các b dữ liệu thử nghiệm, môi trường thử nghiệm làm sở cho các đề xuất và thử nghiệm
các chương tiếp theo.
Chương 2: Trình y đề xuất một số phương pháp cải tiến giải thuật AdaBoost cho bài toán dữ
liệu không cân bằng, ứng dụng cho dự đoán cộng tác đồng tác giả.
Chương 3: Trình y đề xuất một giải thuật trọng số mờ thích nghi nhằm giải quyết vấn đề dữ
liệu không cân bằng và xử vấn đề phân lớp cho các mẫu nhạy cảm vùng biên hoặc nhiễu cho
bài toán dự đoán cộng tác đồng tác giả.
Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng và chi tiết nội dung giải
pháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quả các thách thức nêu ra.
2
Chương 1
TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Chương y giới thiệu phương pháp tiếp cận phân lớp để giải quyết bài toán dự đoán đồng tác giả
và những kiến thức nền tảng liên quan đến việc giải quyết vấn đề học trên dữ liệu không cân bằng.
1.1. Bài toán phân lớp với dữ liệu không cân bằng
Bài toán phân lớp trên dữ liệu không cân bằng một vấn đề thách thức trong học y. Để giải
quyết vấn đề học trên dữ liệu không cân bằng hai hướng giải quyết chính: tiếp cận mức dữ liệu và
tiếp cận mức giải thuật. Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào b
dữ liệu gốc (ReSampling) để tạo ra bộ dữ liệu huấn luyện tỷ lệ phân bố mẫu cân bằng hơn, từ đó
làm sở cho các giải thuật phân lớp truyền thống hoạt động hiệu quả hơn. Kỹ thuật ReSampling
thể sinh thêm các phần tử cho lớp thiểu số như Random Oversampling, SMOTE, Border-line-SMOTE,
ADA-SYN, Cluster Based Sampling-CBO, SMOTEBoost, OSD... hay giảm bớt các mẫu lớp đa số như
EasyEnsemble, BalanceCascade, KNN-NearMiss,... Các phương pháp tiếp cận mức giải thuật hướng
tới việc điều chỉnh các thuật toán phân lớp như: học dựa trên nhạy cảm chi phí, điều chỉnh xác suất ước
lượng, sử dụng Boosting như AdaC1, AdaC2, AdaC3, y quyết định, sử dụng các hàm kernel SVM, sử
dụng kỹ thuật học sâu,... Các phương pháp cải tiến dựa trên AdaBoost, SVMs và học sâu thu hút rất
nhiều sự quan tâm bởi khả năng tùy biến cho các bài toán dữ liệu tính chất khác nhau, nổi bật
như Weighted-SVM, Kernel-SVM, đặc biệt Fuzzy SVM, Fuzzy SVM-CIL. Bên cạnh đó, một vấn
đề chung để nâng cao chất lượng hình phân lớp cần phân lớp chính xác trong các vùng không gian
nhạy cảm như: mẫu dữ liệu nhiễu hoặc mẫu dữ liệu nằm trong không gian ranh giới phân lớp. Để xác
định các vùng không gian chứa các mẫu nhạy cảm, chúng ta cần sử dụng phương pháp đo lường khoảng
cách giữa các mẫu hoặc xem xét phân b các mẫu. Các giải thuật như K-nearest neighbors (KNN) và
Tomek link và SVM cho phép định vị các mẫu trong không gian phân bố. Ngoài ra, với những thông
tin dữ liệu không đầy đủ, không chắc chắn, phương pháp xử mờ dựa trên thuyết mờ của Zadeh
đưa ra vào năm 1965 tỏ ra hiệu quả.
1.2. Một số thuật toán liên quan
1.2.1. Thuật toán SVM
SVM đã được nghiên cứu, thử nghiệm và chứng minh một phương pháp phân lớp mạnh, đặc biệt
hiệu quả đối với các dữ liệu phân biệt tuyến tính. Ngoài ra, giải thuật cũng khá mềm dẻo và khả
năng cải tiến mở rộng để đạt hiệu quả cao trên những b dữ liệu đặc tính khác nhau. Đối với vấn đề
phân lớp nhị phân, với tập dữ liệu D={(xi, yi)|i= 1,2,· · · , N}, trong đó xiRnđại diện cho một
điểm dữ liệu n chiều và yi {−1,+1} nhãn lớp của xi. Mục tiêu của thuật toán SVM tìm ra một
siêu phẳng phân tách các điểm dữ liệu này thành hai lớp trong không gian đặc trưng Rn. Hàm mục
tiêu cần tối ưu cho siêu phẳng phân tách trong không gian đặc trưng Rnđược biểu thị bằng:
ω, x+b= 0,(1.1)
trong đó ω ma trận tham số, b hệ số.
1.2.2. Thuật toán Weighted-SVM
Giải thuật Weighted-SVM (WSVM) một cải tiến nổi bật của SVM. Với tập dữ liệu D=
{(xi, yi)|i= 1,2,· · · , N}, trong đó xiRn véc-tơ đặc trưng nchiều và yi {−1,+1} nhãn
lớp của xi. WSVM gán các trọng số cho các mẫu để biểu thị ảnh hưởng của mẫu trong việc huấn luyện
hình phân lớp. Hàm mục tiêu như sau.
min1
2ω2+C
N
X
i=1
miξi,
st. yi(ω, xi+b)1ξi, ξi0,with i= 1,2, . . . , N,
(1.2)
3