
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
115
PHƯƠNG PHÁP PHÂN LOẠI DỮ LIỆU BẤT CÂN BẰNG
DỰA TRÊN TIỀN XỬ LÝ DỮ LIỆU VÀ SVM
Nguyễn Mạnh Hiển
Đại học Thủy lợi, email: hiennm@tlu.edu.vn
1. GIỚI THIỆU
Các thuật toán học máy chuẩn thường
không đạt được hiệu suất cao trên các tập dữ
liệu bất cân bằng, trong đó lớp dương (thiểu
số) có kích thước rất nhỏ so với lớp âm (đa
số). Bài báo đề xuất một phương pháp mới
cho phép phân loại hiệu quả các tập dữ liệu
bất cân bằng. Phương pháp này phân cụm lớp
đa số dùng thuật toán k-means và lấy mẫu lên
lớp thiểu số dùng kỹ thuật SMOTE. Bằng
cách coi mỗi cụm dữ liệu của lớp đa số như
một lớp mới, chúng tôi biến đổi tập huấn
luyện hai lớp bất cân bằng ban đầu thành một
tập huấn luyện đa lớp cân bằng hơn. Sau đó,
chúng tôi huấn luyện các bộ phân loại SVM
trên tập huấn luyện đa lớp thu được. Kết quả
thực nghiệm cho thấy phương pháp đề xuất
có hiệu suất phân loại đo bằng g-mean cao
hơn các phương pháp khác.
2. VẤN ĐỀ BẤT CÂN BẰNG DỮ LIỆU
Vấn đề phân loại dữ liệu bất cân bằng đã thu
hút được sự chú ý của nhiều nhà nghiên cứu kể
từ đầu những năm 2000 [7]. Các tập dữ liệu bất
cân bằng xuất hiện phổ biến trong nhiều ứng
dụng, như phát hiện giao dịch thẻ tín dụng gian
lận [2], phát hiện vết dầu loang trong ảnh vệ
tinh [9] và phân loại văn bản [6]. Mặc dù vậy,
các thuật toán học chuẩn thường không đạt
được hiệu suất mong muốn khi phân loại dữ
liệu bất cân bằng. Xét ví dụ với một tập huấn
luyện gồm 1% dữ liệu thuộc về lớp dương và
99% dữ liệu còn lại thuộc về lớp âm. Một thuật
toán học tầm thường có thể đạt được độ chính
xác 99% trên tập dữ liệu này bằng cách xác
định tất cả các mẫu dữ liệu thuộc về lớp âm.
Tuy nhiên, thuật toán này không có giá trị sử
dụng vì nó không nhận ra được bất cứ mẫu nào
của lớp dương. Nguyên nhân của vấn đề này là
các thuật toán học chuẩn chỉ tập trung tối ưu
hóa độ chính xác tổng thể trên toàn bộ tập huấn
luyện, do đó chúng ít quan tâm đến lớp thiểu
số. Vì độ chính xác tổng thể không thể chỉ ra
hiệu suất phân loại tốt hay kém trên lớp thiểu
số, bài báo này sẽ dùng một độ đo hiệu suất
phù hợp hơn gọi là g-mean (xem ở phần sau).
Nhiều phương pháp đã được đề xuất để giải
quyết vấn đề bất cân bằng dữ liệu. Một số
phương pháp thay đổi các thuật toán học chuẩn
để chúng làm việc tốt hơn trên dữ liệu bất cân
bằng, như căn chỉnh đường ranh giới quyết
định của SVM [11]. Những nghiên cứu khác
thực hiện tái cân bằng tập huấn luyện dùng các
kỹ thuật lấy mẫu [8], bao gồm lấy mẫu lên lớp
thiểu số và lấy mẫu xuống lớp đa số.
3. PHƯƠNG PHÁP ĐỀ XUẤT
Trong một tập huấn luyện bất cân bằng,
lớp đa số có kích thước lớn và có thể kèm
theo cả cấu trúc dữ liệu phức tạp. Chúng tôi
dùng thuật toán k-means để chia lớp đa số
thành các cụm nhỏ hơn, qua đó làm giảm
mức độ bất cân bằng lớp cũng như làm giảm
độ phức tạp cấu trúc của lớp đa số. Các bước
chính trong thuật toán đề xuất như sau:
Bước 1: Ước lượng số cụm tối ưu k của
lớp đa số dùng chỉ số DB (Davies-
Bouldin) [10].
Bước 2: Phân chia lớp đa số thành k cụm
dùng thuật toán k-means.
Bước 3: Lấy mẫu lên lớp thiểu số dùng kỹ
thuật SMOTE [4] cho đến khi lớp thiểu số