Tuyn tp Hi ngh Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
112
XÂY DNG MỘT PHƯƠNG PHÁP HỌC TP TH MI
DA TRÊN PHÉP CHIU NGU NHIÊN
Phạm Xuân Cường
1Đại hc Thy li Hà Ni, email: cuongpx@tlu.edu.vn
1. GII THIU CHUNG
Phương pháp học tp th (ensemble
method) hiện nay đang nhận được nhiu s
quan tâm của công đồng hc máy bởi ưu
đim của phương pháp trong việc ci thin
hiu qu phân lp so vi tng phân lp thành
phn ca nó [1]. Da trên phân loi trong [1],
hc tp th đưc chia làm hai loi:
Hc tp th không thun nht;
Hc tp th thun nht.
Trong bài báo này, tác gi tp trung nghiên
cu mô hình hc tp th thun nht. Đó là
hình hc tp th trong đó s dng ch mt
gii thut hc (learning algorithm) nhưng làm
việc trên các lược đồ d liu (training set
schemes) khác nhau được sinh ra t tp
luyn. Mt gii thut kết hp s kết hp kết
qu ca các phân lớp để đưa ra mô hình phân
loi. Mt s phương pháp học tp th thun
nht đưc biết đến rng rãi gm có AdaBoost
[2], Bagging [3], Random Forest [4]
Random Subspace [5]. Mc các gii thut
này đạt được hiu qu phân lp tt trong các
ng dng thc tế nhưng chúng vn còn tn
ti mt s nhược điểm. Đầu tiên kh năng
làm vic vi d liu s chiu ln trong thc
tế ng dng. Tiếp đó là hn chế trong vic s
dng các gii thut hc để xây dng các phân
lp. d như Bagging chỉ làm vic vi các
gii thut hc không ổn định (unstable
learning algorithms) như cây quyết định
(Decision Tree, hiu bi DT) xut phát t
vic s dng th tc Bootstrap trong vic
sinh ra các lược đồ d liu. Trong bài báo
này tác gi gii thiu một phương pháp học
tp th mi làm vic tt vi d liu s chiu
cao đồng thi làm vic vi nhiều hơn các giải
thut học đã có. Phương pháp mi xut phát
t một định ni tiếng được Jonhson
Lindenstrauss công b vào năm 1984 [6].
Định lý ch ra vi mt xác suất cho trước, tn
ti mt ánh x tuyến tính ánh x d liu t
không gian ban đầu vào không gian đích
bo toàn khong cách gia các cặp điểm vi
độ biến dng (distort level)1 ± 𝜀 (0 < 𝜀 <
1 cho trưc). Hơn na s chiu gii hn 𝑞0
để đạt được tính cht trên ch ph thuc vào
s quan sát không ph thuc vào s chiu
ca không gian gc. Da vào tính cht này ta
th làm gim s chiu d liu gc vn
bo tn khong cách gia các cặp điểm vi
độ sai lệch nào đó. Việc thc hin nhiu ánh
x tuyến tính khác nhau trên tp d liu gc
s giúp tạo ra các lược đồ d liu t đó
th xây dng mt hình hc tp th bng
phương pháp này.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Trong bài báo y tác gi s dng kết qu
t định JL để xây dng một phương pháp
hc tp th mi. Da o kết qu trong [7],
ánh x tuyến tính T th đưc xây dng t
c ma trn ngu nhiên 𝐑. Mt trong c
phương pháp đó là 𝐑 = 1 𝑞
{𝑟𝑖𝑗}(𝑝 × 𝑞)
trong đó 𝑟𝑖𝑗 phân phi chun 𝒩(0,1). T
kết qu y, tác gi to ra 𝐾 ma trn ngu
nhiên 𝐑𝑘(𝑘 = 1,,𝐾) ri to ra c ợc đồ
d liu t tp luyn (training set) 𝒟(𝑛 × 𝑝)
ban đầu: 𝐘𝑘= 𝒟𝐑𝑘. Các 𝐘𝑘(𝑛 × 𝑞) vi giá tr
𝑛 phù hp s có s chiu 𝑞 thấp hơn số chiu
ca tp luyn 𝒟. khi tha n điều kin
ca Định JL, khong cách gia các phn t
Tuyn tp Hi ngh Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5
113
đưc bo tn vi độ sai lệch cho tc. Tác gi
la chn s chiu gii hn 𝑞0 t nghiên cu
trong [7] trong đó giá tr này nh hơn giá trị
trong Định JL đồng thi nh cht khong
ch gia c cp phn t vẫn đúng:
𝑞 𝑞0=[ln(𝑛)
𝜀2] (1)
Mt gii thut hc giám sát s hc các
phân lp (classifier) 𝐶𝑘 trên 𝐾 ợc đồ d
liu mới. Đu ra ca quá trình luyn (training
process) chính là 𝐾 phân lp và 𝐾 phép chiếu
ngu nhiên 𝐑𝑘.
Để gán nhãn cho mt quan sát 𝐱, đầu tiên x
đưc chiếu xung c không gian s chiu
thấp hơn dựa trên các phép chiếu ngu nhn
𝐑𝑘: 𝐲𝑘= 𝐱𝐑𝑘. Các 𝐲𝑘 sau đó lần lượt được
phân lp vi các 𝐶𝑘 tương ng vi phép
chiếu 𝐑𝑘. Kết qu thu được là véc tơ xác suất
hu nghim.
{P𝑘(𝑐𝑙𝑎𝑠𝑠1|𝐱),,P𝑘(𝑐𝑙𝑎𝑠𝑠𝑀|𝐱)} (2)
Trong đó P𝑘(𝑐𝑙𝑎𝑠𝑠𝑖|𝐱) là xác suất để
𝐱 thuc vào lp th 𝑖 cho bi phân lp 𝐶𝑘.
Trong bài báo này tác gi s dụng phương
pháp kết hp tng (Sum Rule) [8] đ kết hp
kết qu ca các phân lp 𝐶𝑘. C th:
𝑥 𝑐𝑙𝑎𝑠𝑠𝑗 nếu
𝑗 = argmax𝑚=1,…,𝑀 P𝑘(𝑐𝑙𝑎𝑠𝑠𝑚|𝐱)
𝐾
𝑘=1 (3)
3. KT QU NGHIÊN CU
gii hn v ni dung tnh y nên trong
khuôn kh i báo này tác gi ch tiến hành th
nghim phương pháp đề xut tn mt d liu
đưc sinh ra t hình phân phi chun hn
hp (Gaussian mixture model). D liu bao
gm 1000 quan t đưc sinh ra t mô nh
phân phi chun hn hp gmba thành phn
vi t l các thành phn bng nhau. Véc tơ
trung nh ca c tnh phn ln lưt
{1 2
,,1 2
}1000;{0,,0}1000,
{−1 2
,,−1 2
}1000 trong khi đó các ma
trn hiệp phương sai tương ng các ma
trận đường chéo có dng:
diag{1,,1}1000,diag{2,,2}1000,
diag{3,,3}1000.
Để đánh giá hiu qu của phương pháp đề
xut, tác gi tiến nh thc nghim so
sánh với các phương pháp phân lp ph biến
khác. Vì mô hình đề xut là mt mô hình hc
tp th thun nht nên hình này cần được
so sánh vi các mô hình thun nht khác. Tác
gi la chn 4 mô hình hc tp th thun nht
tiêu biu là Bagging [3], Adaboost [2],
Random Forest [4] Random Subspace [5]
để so sánh với mô hình đề xut. Tác gi tham
kho t [1] la chn DT gii thut hc
để t đó học 200 phân lp cho hình hc
tp th k trên. Vic la chn DT xut phát
t nhn xét trong [1], trong đó các tác gi ch
ra đây giải thut hc ph biến được dùng
cho các phương pháp hc tp th trên. Bên
cạnh đó, hình đ xuất cũng được so sánh
với các phương pháp hc giám sát khác
như Discriminative Restricted Boltzmann
Machine [9] (kí hiu bi DRBM), DT
Linear Discriminative Analysis ( hiu
bi LDA).
Bng 1. Trung bình sai sphương sai
các phân lp trong th nghim
Phương pháp
Trung bình
Phương sai
Bagging
0.0798
6.50E-04
Adaboost
0.2502
1.25E-03
Random Forest
0.3149
2.07E-03
Random Subspace
0.6293
6.51E-06
DRBM
0.0095
1.31E-04
DT
0.3992
2.36E-03
LDA
0.0516
4.29E-04
Phương pháp đề xuất
0.0000
0.00E+00
Tác gi la chn s chiều đích bằng vi
giá tr 𝑞0= 222 (1) đồng thi c định s
phép chiếu 200 tương t như th nghim
với các phương pháp học tp th khác. Tác
gi thc hin th tc 10-fold cross validation
lp li quá trình kim tra 10 lần đ t đó
thu được 100 kết qu th nghim. Để so sánh
kết qu gia các phương pháp, c gi s dng
kim định Student da tn 2 mu (two-sample
t-test) vi mc ý nghĩa 0.05. Kết qu th
nghim bao gm giá tr trung nh phương
sai ca sai s phân lp nh trên 100 kết qu
th nghiệm đưc minh ha trong bng 1.
Tuyn tp Hi ngh Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
114
Kết qu kiểm đnh cho thấy phương pháp
hc tp th da trên phép chiếu ngu nhiên
đạt được đ chính xác cao hơn tất c c
phương pháp học khác. C th phương pháp
đề xut tốt hơn các phương pháp hc tp th
thun nhất như Bagging hay tốt hơn rất nhiu
so vi AdaBoost, Random Forest Random
Subspace. Cũng tương tự như trên, hình
đề xuất cũng tốt hơn so vi các gii thut hc
giám sát khác như DRBM, DT LDA.
Đó là do trong khi các phương pháp khác làm
vic trc tiếp trên d liệu đu vào s chiu
ln thì phương pháp đề xut to ra nhng
ợc đồ d liu mi t tp luyện ban đầu vi
s chiu 𝑞0=222 nh hơn so với s chiu
ca d liu gc.
4. KT LUN
Trong bài báo này, tác gi đã giới thiu
mt hình hc tp th mi s dng các
phép chiếu ngu nhiên. Kết qu kiểm định
thng da trên kết qu th nghim trên
mt d liu phng cho thy hình hc
tp th thun nht mi này tốt hơn so các
hình hc tp th ph biến cũng như các
phương pháp học giám sát khác. Tuy
nhiên s chiu gii hn 𝑞0 ph thuc vào
s quan sát 𝑛 nên vi giá tr 𝑛 ln, 𝑞0 th
t quá s chiu ca không gian gốc. Điều
này dẫn đến hn chế khi áp dng vi các loi
d liu khác nhau. Nghiên cu v phép chiếu
ngu nhiên vi bài toán phân lp trong
trường hp s chiu nh hơn 𝑞0 vn còn
vấn đề m. n cạnh đó phương pháp đề
xut kết hp vi các thut toán la chọn đc
trưng sẽ cho hiu qu phân lp tốt hơn.
5. TÀI LIU THAM KHO
[1] T.T. Nguyen, T.T.T. Nguyen, X.C. Pham,
A.W-C. Liew, 2015, A Novel Combining
Classifier Method based on Variational
Inference, Pattern Recognition.
[2] Y. Freund, R.E. Schapire, 1996,
Experiments with a new boosting algorithm,
in: Proceedings of International Conference
on Machine Learning (ICML), pp. 148-156.
[3] L. Breiman, 1996, Bagging Predictors,
Machine Learning. 24, 123-140.
[4] L. Breiman, 2001, Random Forest, Machine
Learning. 45, 5-32.
[5] T.K. Ho, 1998, The random subspace
method for constructing decision forests,
IEEE Transactions on Pattern Analysis and
Machine Intelligence. 20(8), 832-844.
[6] W. Johnson, J. Lindenstrauss, 1984
Extensions of Lipshitz mapping into Hilbert
space, Conference in modern analysis and
probability. 26, pp. 189-206
[7] S. Venkatasubramanian, Q. Wang, 2011,
The Johnson-Lindenstrauss transform: An
empirical study, in Proc. ALENEX, SIAM,
pp. 164-173.
[8] J. Kittler, M. Hatef, R.P.W. Duin, J. Matas,
1998, On Combining Classifiers, IEEE
Transactions on Pattern Analysis and
Machine Intelligence. 20(3), 226-239.
[9] H. Larochelle, Y. Bengio,2008,
Classification using Discriminative
Restricted Boltzmann Machines, in:
Proceedings of the 25th International
Conference on Machine Learning (ICML),
pp. 536-543.