Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
85
MỘT CẢI TIẾN RỪNG NGẪU NHIÊN ĐIỀU HÒA
CÓ ĐIỀU HƯỚNG CHO BÀI TOÁN LỰA CHỌN GEN
VÀ PHÂN LỚP ĐỐI TƯỢNG THAM GIA
Nguyn Th Thu Hương1, Nguyn Thanh Tùng1
1 Đại hc Thy li, email: {huongnt, tungnt}@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Lựa chọn phân loại dữ liệu gen bài
toán điển hình của lớp bài toán lựa chọn đặc
trưng cho dữ liệu số chiều lớn nhiều
nhiễu. Năm 2013, Deng và Runger đã đề xuất
phương pháp rừng ngẫu nhiên điều chỉnh
(Guided Regularized Random Forests -
GRRF) (Deng & Runger, 2013) giúp cải
thiện quá trình lựa chọn thuộc tính phân
lớp khi xử dữ liệu số chiều cao, nhiều
nhiễu. Kết quả thực nghiệm của GRRF cho
thấy kết quả phân lớp và trích chọn đặc trưng
tốt hơn RF. Tuy nhiên GRRF dựa vào độ đo
sự quan trọng của thuộc tính của RF nguyên
bản (lựa chọn ngẫu nhiên nhiều thuộc nh
nhiễu hoặc giá trị trống vào không gian
con thuộc tính dùng để tách nút khi xây dựng
cây) để tạo ra trọng số cho các thuộc tính. Do
đó GRRF bị giảm đáng kể độ chính xác khi
phân lớp với dữ liệu nhiều nhiễu hạn chế
khi phân tích giữ liệu gen.
Trong bài viếty, cngi đ xut pơng
pháp đánh trọng số thuộc nh mới thay cho
cách đánh trọng s thuộc tính ca GRRF.
2. PHƯƠNG PHÁP ĐỀ XUẤT
Cho mt tp d liu gen hun luyn (tp
mu) cha 𝑁 mu d liu, 𝑀 thuộc tính
𝑋𝑖 (𝑖 = 1,2,...,𝑀) 𝑌 {1,2,..,𝐶} vi
𝐶 2 biến phụ thuộc. RF dùng chỉ s
Gini để đo tính hỗn tạp của tập mẫu khi tìm
điểm thích hợp đtách nút khi xây dựng cây
quyết định (Breiman L. , 2001). Khoảng 2/3
tập mẫu được dùng để xây dựng y, 1/3
phần còn lại (out-of-bag) RF dùng để kiểm
thử tính độ đo quan trọng của từng thuộc
tính. Các độ đo quan trọng này được dùng
làm trọng số GRRF dùng chúng để xây
dựng hình phân lớp với độ chính xác cao
hơn RF ban đầu.
Trongio này, cng tôi nh tn trọng
số mới vớich tiếp cận khác từ GRRF. Trọng
s ca gen đưc nh nh phương pháp lặp
hoán v kết hp đánh giá tr 𝑝 (Tuv, Borisov,
Runger, & Torkkola, 2009) để tìm c gen
quan trọng c gen ít quan trọng. Các gen
không quan trọng sẽ đượcn trọng s bằng 0,
ngưc lại sđược tính nsau đây.
Tạo tập gen nhiễu 𝑆𝐴 bằng cách hoán vị
ngẫu nhiên các giá trị 𝑋𝑖 trong 𝑆𝑋 nhằm phá
hủy quan hệ của chúng với các biến đích
nhưng vẫn giữ nguyên phân bổ dữ liệu của
các gen để tạo ra các 𝐴𝑖 tương ứng. Chúng ta
sẽ tập dữ liệu được mở rộng 2M chiều để
tính độ quan trọng cho cả 𝑋𝑖 𝐴𝑖,
𝑆𝑋,𝐴 ={𝑆𝑋,𝑆𝐴} với 𝑆𝐴={𝐴𝑖,𝑖 = 1,,𝑀}.
Cách làm này giúp giúp RF giảm xác suất lựa
chọn những gen chứa giá trị nhưng độ đo
quan trọng kém, từ đó RF giảm đưc li bias
la chn kiu gen này xây dng cây. Tiếp
theo, chúng ta thc hin 𝑅 lần RF trên 𝑆𝑋,𝐴 để
tính độ quan trọng của tất các gen thực 𝑋𝑖
các gen nhiễu 𝐴𝑖. Vi mi ln chy
𝑟 (𝑟 = 1,,𝑅), chúng ta tính độ quan trng
𝑉𝐼𝑋
𝑟 𝑉𝐼𝐴
𝑟 cho các gen rồi đặt chúng vào
dòng thứ r của ma trận 𝑉𝑅𝑋2𝑀. Kết qu ta
được một ma trận chứa độ quan trọng của
các gen thực {𝑋𝑖}𝑖=1
𝑀 gen nhiễu {𝐴𝑖}𝑖=1
𝑀.
T các ln lp các gen nhiu th 𝑟, chúng ta
chn ra giá tr ln nht 𝑉𝐼𝐴𝑖
𝑚𝑎𝑥 đặt vào
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
86
trong mu so sánh 𝑉𝐼𝐴
𝑚𝑎𝑥. Với mỗi gen 𝑋𝑖,
chúng ta dùng kiểm định 𝑡-test tính 𝑡 bc
t do 𝑑𝑓. T 𝑡𝑑𝑓, chúng ta nhận được các
giá tr 𝑝 tương ứng. Phần tiếp theo, chúng ta
tạo véc-tơ trọng số {𝜃1,,𝜃𝑀} cho các gen
trong tập dữ liệu 𝑆𝑋. Giá tr 𝑝 được t
kiểm định 𝑡-test sau khi chạy R lần RF trên
tập dữ liệu mở rộng 2M chiều để tính đ
quan trọng của 𝑋𝑖 𝐴𝑖. Giá tr 𝑝 của gen
nhỏ thì khả năng khả năng tham gia dự đoán
của gen đó càng lớn. Dựa vào giá tr 𝑝 vi
một ngưỡng 𝜂 cho trước 𝜂 = 0.05, nhng
gen giá tr 𝑝 lớn hơn 𝜂 thì được gán trọng
số bằng 0. Trong trường hợp ngược lại,
chúng ta tính trọng sgen như sau:
𝜃𝑖=1
𝑅𝑉𝐼𝑋𝑖
𝑅𝑅
𝑟=1 (1)
GRRF sẽ căn cứ vào các 𝜃𝑖 để khởi tạo 𝜆𝑖
khác nhau cho các gen. hình cài tiến của
chúng tôi áp dụng công thức dưới đây cho
gen 𝑋𝑖 tại nút t:
Δ𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡)={𝜆.𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖 𝐹
𝐺𝑖𝑛𝑖 (𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖 𝐹 (2)
Trong đó 𝐹 là tp các gen đầu vào đã được
dùng để xây dng rng ngu nhiên 𝜆
[0,1]. Giá tr 𝜆 không giống nhau cho tất cả
các gen đầu vào, chúng được khởi tạo dựa
trên các trọng số 𝜃𝑖.
3. KẾT QUẢ NGHIÊN CỨU
3.1. Dữ liệu thực nghiệm và tham số
Chúng tôi chạy thực nghiệm trên 5 bộ dữ
liệu
1
sau:
Bảng 1. Mô tả các tập dữ liệu gen
Tập dữ liệu
Số đối
tượng
tham gia
Số lượng
gen
Số
lớp
Leukemia1
72
5327
3
Brain-Tumor1
90
5920
5
Lung-cancer
203
12600
5
11-tumors
174
15533
11
GCM
190
16063
14
Các tham số , mtry chạy hình GRRF
hình iGRRF tương ứng là: 0.1,𝑀 (vì theo
1
http://www.gems-system.org
kết quả trong (Deng & Runger, 2013), khi
dùng hệ số =0.1, GRRF cho kết quả tốt nhất,
còn mtry=𝑀 tham số tối ưu khi RF xử
bài toán phân lớp (Breiman L. , 2001)). Để tính
véc-trọng số, chúng tôi thực hiện 30 lần lặp
RF trên tập dữ liệu mở rộng 2M chiều với
mtry=10%M số cây trong rừng 500.
Chúng tôi cũng so sánh hiệu suất của hình
iGRRF với các hình RF được đề xuất
những m gần đây như: SRF của Wu đồng
nghiệp (Wu, Ye, Liu, & Ng, 2012), GRRF của
Deng Runger (Deng & Runger, 2013),
wsRF của Xu đồng nghiệp (Xu, Huang,
Williams, & Wang, 2012) và hình linear
kernel SVM trong gói e1071 (Dimitriadou,
Hornik, Leisch, Meyer, & Weingessel, 2012).
Chúng tôi đặt tham số C = 2-5 tham số y
SVM đạt giá trị tốt nhất trên các tập dữ liệu
trên. Các thực nghiệm được tiến hành trên môi
trường R sử dụng 6 máy Linux 64-bit, mỗi
máy có cấu hình như sau: IntelR XeonR CPU
E5620 2.40 GHz, 16 cores, 4 MB cache, and
32 GB main memory.
3.2. Kết quả thực nghiệm
Bảng 2. Các kết quả kiểm tra độ chính xác
của các mô hình ngẫu nhiên rừng và
phương pháp SVM
Tập dữ
liệu
iGRRF
RF
SRF
SVM
Leukemia
1
0.958
0.944
0.958
0.860
Brain-
Tumor1
0.890
0.845
0.857
0.758
Lung-
cancer
0.941
0.896
0.926
0.902
11-tumors
0.908
0.875
0.903
0.795
GCM
0.732
0.653
0.695
0.641
Những kết qu thc nghiệm cho thấy,
khi phân lớp các tập d liu gen vi mô
hình iGRRF s dng trng số mới, kết qu
đạt được và la chọn gen đt thỏa đáng (số
in đậm trên bảng 2 nhng kết quả
tốt nht).
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
87
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã trình y
một cải tiến của hình rừng ngẫu nhiên
điều chỉnh. Mô hình cải tiến này giúp tăng độ
chính xác trong quá trình phân loại gen. Giải
pháp này giúp cải thiện mô hình GRRF trong
quá trình chọn gen khi xây dựng cây. Qua kết
quả thực nghiệm cho thấy GRRF cải tiến đạt
độ chính xác phân lớp tốt hơn GRRF, SVM,
RF, SRF.
5. TÀI LIỆU THAM KHẢO
[1] Breiman, L. (2001). Random
forests. Journal of Machine
learning, 45(1), 532.
[2] Deng, H., & Runger, G. (2013). Gene
selection with guided regularized random
forest. Journal of Pattern Recognition, 46,
3483-3489.
[3] Dimitriadou, K., Hornik, K., Leisch, F.,
Meyer, D., & Weingessel, A. (2012).
e1071: Misc functions of the department.
[4] Tuv, E., Borisov, A., Runger, G., &
Torkkola, K. (2009). Feature Selection with
Ensembles, Artificial Variables, and. The
Journal of Machine Learning, 10, 1341-
1366.
[5] Vapnik, V. (1995). The Nature of Statistical
Learning Theory. New York: Springer-
Verlag New York.
[6] Wu, Q., Ye, Y., Liu, Y., & Ng, M. K.
(2012). Snp selection and classification of
genome-wide snp data using stratified
sampling random forests. The Journal of
IEEE Transactions on NanoBioscience,
11(3), 216227.
[7] Xu, B., Huang, J., Williams, G., & Wang,
Q. (2012). Classifying very high-
dimensional data with random forests built
from small subspaces. International Journal
of Data Warehousing and Mining
(IJDWM), 8(2), 44-63.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
88