
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
112
XÂY DỰNG MỘT PHƯƠNG PHÁP HỌC TẬP THỂ MỚI
DỰA TRÊN PHÉP CHIẾU NGẪU NHIÊN
Phạm Xuân Cường
1Đại học Thủy lợi Hà Nội, email: cuongpx@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Phương pháp học tập thể (ensemble
method) hiện nay đang nhận được nhiều sự
quan tâm của công đồng học máy bởi ưu
điểm của phương pháp trong việc cải thiện
hiệu quả phân lớp so với từng phân lớp thành
phần của nó [1]. Dựa trên phân loại trong [1],
học tập thể được chia làm hai loại:
• Học tập thể không thuần nhất;
• Học tập thể thuần nhất.
Trong bài báo này, tác giả tập trung nghiên
cứu mô hình học tập thể thuần nhất. Đó là mô
hình học tập thể trong đó sử dụng chỉ một
giải thuật học (learning algorithm) nhưng làm
việc trên các lược đồ dữ liệu (training set
schemes) khác nhau được sinh ra từ tập
luyện. Một giải thuật kết hợp sẽ kết hợp kết
quả của các phân lớp để đưa ra mô hình phân
loại. Một số phương pháp học tập thể thuần
nhất được biết đến rộng rãi gồm có AdaBoost
[2], Bagging [3], Random Forest [4] và
Random Subspace [5]. Mặc dù các giải thuật
này đạt được hiệu quả phân lớp tốt trong các
ứng dụng thực tế nhưng chúng vẫn còn tồn
tại một số nhược điểm. Đầu tiên là khả năng
làm việc với dữ liệu số chiều lớn trong thực
tế ứng dụng. Tiếp đó là hạn chế trong việc sử
dụng các giải thuật học để xây dựng các phân
lớp. Ví dụ như Bagging chỉ làm việc với các
giải thuật học không ổn định (unstable
learning algorithms) như cây quyết định
(Decision Tree, kí hiệu bởi DT) xuất phát từ
việc sử dụng thủ tục Bootstrap trong việc
sinh ra các lược đồ dữ liệu. Trong bài báo
này tác giả giới thiệu một phương pháp học
tập thể mới làm việc tốt với dữ liệu số chiều
cao đồng thời làm việc với nhiều hơn các giải
thuật học đã có. Phương pháp mới xuất phát
từ một định lý nổi tiếng được Jonhson và
Lindenstrauss công bố vào năm 1984 [6].
Định lý chỉ ra với một xác suất cho trước, tồn
tại một ánh xạ tuyến tính ánh xạ dữ liệu từ
không gian ban đầu vào không gian đích mà
bảo toàn khoảng cách giữa các cặp điểm với
độ biến dạng (distort level)1 ± 𝜀 (0 < 𝜀 <
1 cho trước). Hơn nữa số chiều giới hạn 𝑞0
để đạt được tính chất trên chỉ phụ thuộc vào
số quan sát mà không phụ thuộc vào số chiều
của không gian gốc. Dựa vào tính chất này ta
có thể làm giảm số chiều dữ liệu gốc mà vẫn
bảo tồn khoảng cách giữa các cặp điểm với
độ sai lệch nào đó. Việc thực hiện nhiều ánh
xạ tuyến tính khác nhau trên tập dữ liệu gốc
sẽ giúp tạo ra các lược đồ dữ liệu và từ đó có
thể xây dựng một mô hình học tập thể bằng
phương pháp này.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Trong bài báo này tác giả sử dụng kết quả
từ định lý JL để xây dựng một phương pháp
học tập thể mới. Dựa vào kết quả trong [7],
ánh xạ tuyến tính T có thể được xây dựng từ
các ma trận ngẫu nhiên 𝐑. Một trong các
phương pháp đó là 𝐑 = 1 √𝑞
⁄{𝑟𝑖𝑗}(𝑝 × 𝑞)
trong đó 𝑟𝑖𝑗 có phân phối chuẩn 𝒩(0,1). Từ
kết quả này, tác giả tạo ra 𝐾 ma trận ngẫu
nhiên 𝐑𝑘(𝑘 = 1,…,𝐾) rồi tạo ra các lược đồ
dữ liệu từ tập luyện (training set) 𝒟(𝑛 × 𝑝)
ban đầu: 𝐘𝑘= 𝒟𝐑𝑘. Các 𝐘𝑘(𝑛 × 𝑞) với giá trị
𝑛 phù hợp sẽ có số chiều 𝑞 thấp hơn số chiều
của tập luyện 𝒟. Và khi thỏa mãn điều kiện
của Định lý JL, khoảng cách giữa các phần tử