Vinh University Journal of Science Vol. 53, No. 3A/2024
5
NÂNG CAO HIU QU PHÂN LP D LIU KHÔNG CÂN BNG
S DNG K THUT TĂNG MẪU THIU S
VÀ ĐẶC TRƯNG CA MI CM
Phan Anh Phong*, Lê Văn Thành
Trường Đại hc Vinh, Ngh An, Vit Nam
ARTICLE INFORMATION
TÓM TT
Journal: Vinh University
Journal of Science
Natural Science, Engineering
and Technology
p-ISSN: 3030-4563
e-ISSN: 3030-4180
Bài báo đề xut một phương pháp để nâng cao hiu qu phân
lp d liu không cân bằng. Đóng góp chính của phương pháp
là kết hp thut toán phân cm K-means và k thut sinh mu
thiu s VCIR để to ra các mu nhân tạo tính đi din sát
với đặc trưng ca d liu thc tế. Các kết qu thc nghiệm đã
ch ra rằng phương pháp đề xuất đạt hiu qu cao hơn trên một
s độ đo so với các phương pháp xử d liu không cân bng
ph biến hiện nay như SMOTE, Borderline-SMOTE, Kmeans-
SMOTE và SVM-SMOTE.
Từ khóa: Phân lớp dữ liệu; dữ liệu không cân bằng;
oversampling; K-Means; SMOTE.
1. Gii thiu
Volume: 53
Issue: 3A
*Correspondence:
phongpa@gmail.com
Received: 19 April 2024
Accepted: 21 June 2024
Published: 20 September 2024
Citation:
Phan Anh Phong, Le Van Thanh
(2024). Improving performance
for imbalanced data classification
using oversampling and
characteristics of each cluster
Vinh Uni. J. Sci.
Vol. 53 (3A), pp. 5-15
doi: 10.56824/vujs.2024a054a
Phân lp d liu mt bài toán quan trng trong hc máy,
đã đang được ng dng nhiều lĩnh vực của đời sng
hi [2]-[3]. Trong thc tế, nhiu trường hp d liu thu
thp đy dng cácnh phân lớp thưng không cân
bng nhãn lớp. Đóhiện tưng khi s ng mu d liu
ca mt hoc mt s lp (gi là lp thiu số) ít hơn nhiều
so vi s ng mu d liu ca các lp khác (gi lp
đa số) [1]. Bài toán phân lp trên tp d liu không cân
bng, đặc bit là phân lp nh phân (có hai nhãn lp) xut
hin khá ph biến, d như: Phát hiện gian ln th tín
dng (s ng giao dch gian lận thường ít hơn nhiều so
vi s ng giao dch hp l) [2]; Chn đoán bệnh (s
ợng người b bệnh thường ít hơn so với s ợng người
đến khám); Phân loi email c (s ợng email rác thường
ít hơn nhiều so vi s ợng email bình thưng) [3].
Khi t l không cân bng ca b d liu cao thì các mô
hình phân lớp thường nhn din kém các phn t lp
thiu số, đây là nhng phn t quan trng trong các ng
dng. Hay nói mt cách khác, mô hình phân lp truyn
thng s hoạt động kém hiu qu trên c b d liu
không cân bng [4], [14]. Hin nay hai hướng tiếp
cận chính để nâng cao hiu qu ca bài toán phân lp d
liu không cân bng, bao gồm hưng tiếp cn theo d
liu và theo gii thut [14]. ng tiếp cn th nht,
OPEN ACCESS
Copyright © 2024. This is an
Open Access article distributed
under the terms of the Creative
Commons Attribution License (CC
BY NC), which permits non-
commercially to share (copy and
redistribute the material in any
medium) or adapt (remix,
transform, and build upon the
material), provided the original
work is properly cited.
P. A. Phong, L. V. Thành / Nâng cao hiu qu phân lp d liu không cân bng s dng k thuật tăng mu..
6
các gii pháp tp trung vào việc điều chnh, ci tiến các gii thut phân lp truyn thng
như Decision Tree, KNN, SVM… sao cho mô hình có hiệu qu cao đối vi các mu trong
lp thiu s như phương pháp điều chnh xác suất ước lượng đối vi Decision Tree [5], b
sung hng s thưởng hoc pht cho mi lp hoặc điều chnh ranh gii phân lớp đối vi
SVM [6]. Hướng tiếp cn th hai, các phương pháp hướng tới điều chnh s không cân
bng ca d liu bng cách áp dng k thut sinh thêm phn t lp thiu s (Over-
sampling) hoc gim phn t lớp đa số (Under-sampling), vi các k thut ph biến như
SMOTE [7], ADASYN [8], Tomek links [9]. Ngoài ra, cũng có thể kết hp c hai phương
pháp trên để cùng lúc gim phn t lớp đa số và tăng phần t lp thiu s.
Đối với phương pháp sinh mẫu lp thiu s, SMOTE và các biến th của nó như
BorderlineSMOTE [10], SVM-SMOTE [11]... là các k thut có hiu qu cao và được s
dng khá rng rãi. K thut sinh mu trong SMOTE được t ngn gn như sau: vi
mi mu 𝑥 ca lp thiu s, chn ngu nhiên mt trong s 𝑘 láng ging gn nht cùng
nhãn lp vi 𝑥sinh mu nhân tạo trên đoạn thng ni mu đang xét và láng giềng được
la chn [7]. Trong BorderlineSMOTE, các mu lp thiu s được chia thành 3 nhóm:
nhiễu, đường biên và an toàn, bng cách tính toán s mu thuc lớp đa số trong 𝑘 lân cn
gn nhất, sau đó tiến hành sinh mu mới tương tự SMOTE nhưng chỉ thc hiện đối vi các
mu nằm trên đường biên [10]. SVM-SMOTE tp trung vào vic tăng các mu thiu s
gần đường biên bằng hình SVM để giúp thiết lập đường biên gia các lp, vi lp lun
rằng các trường hp xung quanh đường biên rt quan trng [11]. Đối vi Kmeans-
SMOTE, các mu được phân cm theo thut toán K-Means, sau đó chọn các cm có t l
chênh lch cao (lớn hơn 50%) tiến hành sinh mu mi trên các cm đó tương t
SMOTE, s ng mu mới được sinh ra dựa trên độ thưa tht ca lp thiu s trong cm,
nếu cụm càng thưa thớt, các mu sinh ra càng nhiu [12].
Các k thut sinh mu thiu s trên đây đu da vào SMOTE, tuy nhiên, SMOTE
thường có nhược điểm, mu mi được to ra không có tính đi din cao cho d liu thc
tế thường nhy cm vi nhiu. Hin nay mt s k thut sinh mu thiu s không
dùng SMOTE, chng hn k thut CIR trong [13]. Quy trình sinh mu ca CIR được
t như sau: Tc tiên, chn tâm 𝐶 t các mu thiu s, đó điểm trung bình ca các mu
này; tiếp theo, tìm mu thiu s gn tâm 𝐶 nht, ký hiu 𝐷𝑚𝑖𝑛 và cui cùng là sinh ra các
mu nhân to Dj = Dmin + hj × C, vi hj là mt giá tr thuc (0, 1).
Bài báo này đề xut một phương pháp để nâng cao hiu qu phân lp d liu không
cân bằng. Điểm mi của phương pháp sự kết hp thut toán phân cm K-means k
thut sinh mu thiu s để to ra các mu nhân tạo có tính đại din sát với đặc trưng của
d liu thc tế. Phn còn li của bài báo được b cục như sau: Phn 2 gii thiu vn tt
mt s thut toán phân lp tiêu biu; Phn 3 trình bày phương pháp đề xut; Phn 4 kết
qu thc nghim ca mô hình trên các độ đo thường được s dụng để đánh giá các hình
phân lp vi tp d liu không cân bng trong y tế; Cui cùng kết lun bài báo mt
s hướng phát trin tiếp theo.
2. Mt s thut toán phân lp tiêu biu
Phn này gii thiu qua v ba thut toán phân lp ph biến Decision Tree,
KNN (K-Nearest Neighbors) SVM (Support Vector Machine). Các thuật toán này được
s dng trong các th nghim phn 4 ca bài báo.
Vinh University Journal of Science Vol. 53, No. 3A/2024
7
2.1. Decision Tree
Thut toán Cây quyết định (Decision Tree - DT) là mt thut toán hc có giám sát
được s dng cho c bài toán phân lp và hi quy. DT s dng mt cu trúc dạng cây để
mô hình hóa mi quan h gia các thuộc tính (đặc trưng) và nhãn lớp ca d liu. V cu
trúc, mt cây quyết định bao gm các nút (node) cnh (Hình 1). Nút đại din cho mt
quyết định cạnh đi din cho một điều kiện để phân chia d liu. Mi cnh
mt ngưỡng giá tr để chia d liu thành c nhánh con. hai loi nút chính: Nút gc
(root node) là nút đầu tiên của cây, đại din cho toàn b tp d liu; Nút lá (leaf node):
nút cui cùng của cây, đi din cho mt nhãn lp c th. Các biến th ph biến ca thut
toán cây quyết định bao gm ID3, C4.5 và CART.
Hình 1: Minh ha thut toán Decision Tree
2.2. KNN (K-Nearest Neighbors)
Thut toán K láng ging gn nht (K-Nearest Neighbors - KNN) là thut toán hc
máy có giám sát. Ý tưởng chính ca KNN là da vào s tương đồng của các điểm d liu.
Khi các điểm d liệu xu hướng thuc v cùng mt lp nếu chúng tương tự nhau, hay
nói cách khác là chúng có khong cách gần nhau trong không gian đặc trưng.
Gi s ta có tp d liu hun luyện được chia thành các lp và có một điểm d liu
mi cn phân lp điểm đó thuộc lp nào. Khi đó các bước bản ca thut toán KNN
được mô t như sau:
- c 1: Tính khong cách giữa điểm d liu mi này vi tt c các điểm d liu
trong tp d liu hun luyn. Khoảng cách thường được tính bng các độ đo ph biến
như khong cách Euclid hoc Manhattan.
- c 2: Chn ra k điểm d liu gn nht với điểm d liu mới, trong đó k
mt s nguyên dương cho trước.
- c 3: Da trên nhãn lp ca k láng ging gn nht, KNN s gán nhãn lp cho
điểm d liu mi theo nhãn lp ph biến nht trong s k láng giềng đó.
Hình 2 minh ha thut toán KNN theo các giá tr k khác nhau. Khi k = 3 thì đim
d liu mi (hình sao) thuc lp nhãn hình vuông, khi k = 6 thì li thuc lp nhãn hình
tròn.
P. A. Phong, L. V. Thành / Nâng cao hiu qu phân lp d liu không cân bng s dng k thuật tăng mu..
8
Hình 2: Minh ha thut toán KNN vi giá tr k khác nhau
2.3. SVM (Support Vector Machine)
Thut toán SVM (Support Vector Machine) là mt thut toán hc máy có giám sát
được s dng ph biến cho các bài toán phân lp [14]-[15]. Mc tiêu ca SVM là tìm siêu
phng phân chia tối ưu d liu trong không gian đặc trưng đ phân tách các đim d liu
thuc các lp khác nhau. Nói mt cách khác, SVM c gng tìm mt ranh gii th tách
bit các nhóm d liu mt cách tt nht, gim thiu sai sót trong vic phân lp. Hoạt động
ca SVM được mô t như sau:
- Mỗi điểm d liệu được biu diễn như một vectơ trong không gian đa chiều, mi
chiều tương ứng vi mt thuc tính ca tp d liu.
- Tìm mt siêu phng sao cho th phân chia các điểm d liu thuc các lp
khác nhau mt cách tối ưu nhất. Tối ưu” đây có nghĩa khoảng cách gia siêu phng
ti các điểm d liu các lp gn nht là ln nht.
- Khi có một điểm d liu mi, SVM s d đoán lớp ca nó da vào v trí của điểm
này so vi siêu phẳng đã được tìm ra.
Hình 3: Minh ha siêu phng tối ưu
Vinh University Journal of Science Vol. 53, No. 3A/2024
9
3. Phương pháp đề xut
Phần này đề xuất phương pháp để nâng cao hiu qu phân lp d liu không cân
bng. Đóng góp chính của phương pháp kết hp thut toán phân cm K-means k
thut sinh mu thiu s VCIR (Class Imbalance Reduction) để to ra các mu nhân to.
Hình 4 là minh ha trc quan của phương pháp đề xut.
Hình 4: Phương pháp đề xuất để nâng cao hiu qu phân lp d liu
Quy trình cân bng hóa d liệu trong phương pháp đề xuất được t như sau.
Tc tiên, tp d liu hun luyện được phân thành các cm bng thut toán K-means, da
vào độ thưa thớt ca mi cụm để xác định s ng mu mi cn sinh cho mi cm. Cách
làm này để tránh sinh mu mi dn cc vào mt khu vc, dẫn đến mất tính đại din ca
các mu thiu s. Sau đó, dùng k thut VCIR, là mt m rng ca CIR để sinh mu mi
cho mi cm. Vi mục đích giảm thiu ảnh hưởng ca nhiu d liu, trong VCIR chúng
tôi đề xut s dng tâm cm là trng tâm ca mu thiu s thay dùng điểm trung bình
như của CIR. Vic sinh mu mi theo cách này làm cho tp d liu hun luyện được cân
bằng hơn, phân b đồng đều hơn và các mu mới có tính đại din sát với đặc trưng của d
liu thc tế. Vic sinh mu mi trong phương pháp đề xut được hình thc hóa bng thut
toán Kmeans-VCIR như sau:
Thut toán sinh mu Kmeans-VCIR
Đầu vào: Tp d liu không cân bng (DS) vi m thuc tính mô t b d liu X1,
X2, X3, ..., Xm; r1, r2, r3, ..., rn là các bn ghi
n là s ng mu thiu s cn to
k là s cụm để thc hin K-Means
irt là ngưỡng cho trước v t l không cân bng gia 2 lp
m s được s dụng để tính toán mật độ, đây được chn s các thuc
tính mô t ca mu d liu
Đầu ra: Tp d liu cân bng (BD)
c 1: Phân cm tp d liu và lc các cm có t l mu tri mu hiếm theo
ngưỡng irt
c 1.1: Phân cm K-Means tp d liu vi k tối ưu (dựa vào h s Silhouette)
c 1.2: Tính t s cân bng mi cm theo công thc:
TyLeMatCanBang= 𝑆𝑜𝐿𝑢𝑜𝑛𝑔𝑀𝑎𝑢𝐷𝑎𝑆𝑜(𝑐)+1
𝑆𝑜𝑀𝑎𝑢𝑇ℎ𝑖𝑒𝑢𝑆𝑜(𝑐)+1