
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
85
MỘT CẢI TIẾN RỪNG NGẪU NHIÊN ĐIỀU HÒA
CÓ ĐIỀU HƯỚNG CHO BÀI TOÁN LỰA CHỌN GEN
VÀ PHÂN LỚP ĐỐI TƯỢNG THAM GIA
Nguyễn Thị Thu Hương1, Nguyễn Thanh Tùng1
1 Đại học Thủy lợi, email: {huongnt, tungnt}@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Lựa chọn và phân loại dữ liệu gen là bài
toán điển hình của lớp bài toán lựa chọn đặc
trưng cho dữ liệu có số chiều lớn và nhiều
nhiễu. Năm 2013, Deng và Runger đã đề xuất
phương pháp rừng ngẫu nhiên điều chỉnh
(Guided Regularized Random Forests -
GRRF) (Deng & Runger, 2013) giúp cải
thiện quá trình lựa chọn thuộc tính và phân
lớp khi xử lý dữ liệu có số chiều cao, nhiều
nhiễu. Kết quả thực nghiệm của GRRF cho
thấy kết quả phân lớp và trích chọn đặc trưng
tốt hơn RF. Tuy nhiên GRRF dựa vào độ đo
sự quan trọng của thuộc tính của RF nguyên
bản (lựa chọn ngẫu nhiên nhiều thuộc tính
nhiễu hoặc có giá trị trống vào không gian
con thuộc tính dùng để tách nút khi xây dựng
cây) để tạo ra trọng số cho các thuộc tính. Do
đó GRRF bị giảm đáng kể độ chính xác khi
phân lớp với dữ liệu nhiều nhiễu và hạn chế
khi phân tích giữ liệu gen.
Trong bài viết này, chúng tôi đề xuất phương
pháp đánh trọng số thuộc tính mới thay cho
cách đánh trọng số thuộc tính của GRRF.
2. PHƯƠNG PHÁP ĐỀ XUẤT
Cho một tập dữ liệu gen huấn luyện ℒ (tập
mẫu) chứa 𝑁 mẫu dữ liệu, 𝑀 thuộc tính
𝑋𝑖 (𝑖 = 1,2,...,𝑀) và 𝑌 ∈ {1,2,..,𝐶} với
𝐶 ≥ 2 là biến phụ thuộc. RF dùng chỉ số
Gini để đo tính hỗn tạp của tập mẫu khi tìm
điểm thích hợp để tách nút khi xây dựng cây
quyết định (Breiman L. , 2001). Khoảng 2/3
tập mẫu được dùng để xây dựng cây, 1/3
phần còn lại (out-of-bag) RF dùng để kiểm
thử và tính độ đo quan trọng của từng thuộc
tính. Các độ đo quan trọng này được dùng
làm trọng số và GRRF dùng chúng để xây
dựng mô hình phân lớp với độ chính xác cao
hơn RF ban đầu.
Trong bài báo này, chúng tôi tính toán trọng
số mới với cách tiếp cận khác từ GRRF. Trọng
số của gen được tính nhờ phương pháp lặp
hoán vị kết hợp đánh giá trị 𝑝 (Tuv, Borisov,
Runger, & Torkkola, 2009) để tìm các gen
quan trọng và các gen ít quan trọng. Các gen
không quan trọng sẽ được gán trọng số bằng 0,
ngược lại sẽ được tính như sau đây.
Tạo tập gen nhiễu 𝑆𝐴 bằng cách hoán vị
ngẫu nhiên các giá trị 𝑋𝑖 trong 𝑆𝑋 nhằm phá
hủy quan hệ của chúng với các biến đích
nhưng vẫn giữ nguyên phân bổ dữ liệu của
các gen để tạo ra các 𝐴𝑖 tương ứng. Chúng ta
sẽ có tập dữ liệu được mở rộng 2M chiều để
tính độ quan trọng cho cả 𝑋𝑖 và 𝐴𝑖,
𝑆𝑋,𝐴 ={𝑆𝑋,𝑆𝐴} với 𝑆𝐴={𝐴𝑖,𝑖 = 1,…,𝑀}.
Cách làm này giúp giúp RF giảm xác suất lựa
chọn những gen chứa giá trị nhưng có độ đo
quan trọng kém, từ đó RF giảm được lỗi bias
lựa chọn kiểu gen này xây dựng cây. Tiếp
theo, chúng ta thực hiện 𝑅 lần RF trên 𝑆𝑋,𝐴 để
tính độ quan trọng của tất các gen thực 𝑋𝑖 và
các gen nhiễu 𝐴𝑖. Với mỗi lần chạy
𝑟 (𝑟 = 1,…,𝑅), chúng ta tính độ quan trọng
𝑉𝐼𝑋
𝑟 và 𝑉𝐼𝐴
𝑟 cho các gen rồi đặt chúng vào
dòng thứ r của ma trận 𝑉𝑅𝑋2𝑀. Kết quả ta
được một ma trận chứa độ quan trọng của
các gen thực {𝑋𝑖}𝑖=1
𝑀 và gen nhiễu {𝐴𝑖}𝑖=1
𝑀.
Từ các lần lặp các gen nhiễu thứ 𝑟, chúng ta
chọn ra giá trị lớn nhất 𝑉𝐼𝐴𝑖
𝑚𝑎𝑥 và đặt nó vào

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
86
trong mẫu so sánh 𝑉𝐼𝐴
𝑚𝑎𝑥. Với mỗi gen 𝑋𝑖,
chúng ta dùng kiểm định 𝑡-test tính 𝑡 và bậc
tự do 𝑑𝑓. Từ 𝑡 và 𝑑𝑓, chúng ta nhận được các
giá trị 𝑝 tương ứng. Phần tiếp theo, chúng ta
tạo véc-tơ trọng số {𝜃1,…,𝜃𝑀} cho các gen
trong tập dữ liệu 𝑆𝑋. Giá trị 𝑝 có được từ
kiểm định 𝑡-test sau khi chạy R lần RF trên
tập dữ liệu mở rộng 2M chiều để tính độ
quan trọng của 𝑋𝑖 và 𝐴𝑖. Giá trị 𝑝 của gen
nhỏ thì khả năng khả năng tham gia dự đoán
của gen đó càng lớn. Dựa vào giá trị 𝑝 với
một ngưỡng 𝜂 cho trước 𝜂 = 0.05, những
gen có giá trị 𝑝 lớn hơn 𝜂 thì được gán trọng
số bằng 0. Trong trường hợp ngược lại,
chúng ta tính trọng số gen như sau:
𝜃𝑖=1
𝑅∑𝑉𝐼𝑋𝑖
𝑅𝑅
𝑟=1 (1)
GRRF sẽ căn cứ vào các 𝜃𝑖 để khởi tạo 𝜆𝑖
khác nhau cho các gen. Mô hình cài tiến của
chúng tôi áp dụng công thức dưới đây cho
gen 𝑋𝑖 tại nút t:
Δ𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡)={𝜆.𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖∉ 𝐹
𝐺𝑖𝑛𝑖 (𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖∈ 𝐹 (2)
Trong đó 𝐹 là tập các gen đầu vào đã được
dùng để xây dựng rừng ngẫu nhiên và 𝜆 ∈
[0,1]. Giá trị 𝜆 không giống nhau cho tất cả
các gen đầu vào, chúng được khởi tạo dựa
trên các trọng số 𝜃𝑖.
3. KẾT QUẢ NGHIÊN CỨU
3.1. Dữ liệu thực nghiệm và tham số
Chúng tôi chạy thực nghiệm trên 5 bộ dữ
liệu
1
sau:
Bảng 1. Mô tả các tập dữ liệu gen
Tập dữ liệu
Số đối
tượng
tham gia
Số lượng
gen
Số
lớp
Leukemia1
72
5327
3
Brain-Tumor1
90
5920
5
Lung-cancer
203
12600
5
11-tumors
174
15533
11
GCM
190
16063
14
Các tham số , mtry chạy mô hình GRRF và
mô hình iGRRF tương ứng là: 0.1,√𝑀 (vì theo
1
http://www.gems-system.org
kết quả trong (Deng & Runger, 2013), khi
dùng hệ số =0.1, GRRF cho kết quả tốt nhất,
còn mtry=√𝑀 là tham số tối ưu khi RF xử lý
bài toán phân lớp (Breiman L. , 2001)). Để tính
véc-tơ trọng số, chúng tôi thực hiện 30 lần lặp
RF trên tập dữ liệu mở rộng 2M chiều với
mtry=10%M và số cây trong rừng là 500.
Chúng tôi cũng so sánh hiệu suất của mô hình
iGRRF với các mô hình RF được đề xuất
những năm gần đây như: SRF của Wu và đồng
nghiệp (Wu, Ye, Liu, & Ng, 2012), GRRF của
Deng và Runger (Deng & Runger, 2013),
wsRF của Xu và đồng nghiệp (Xu, Huang,
Williams, & Wang, 2012) và mô hình linear
kernel SVM trong gói e1071 (Dimitriadou,
Hornik, Leisch, Meyer, & Weingessel, 2012).
Chúng tôi đặt tham số C = 2-5 vì tham số này
SVM đạt giá trị tốt nhất trên các tập dữ liệu
trên. Các thực nghiệm được tiến hành trên môi
trường R sử dụng 6 máy Linux 64-bit, mỗi
máy có cấu hình như sau: IntelR XeonR CPU
E5620 2.40 GHz, 16 cores, 4 MB cache, and
32 GB main memory.
3.2. Kết quả thực nghiệm
Bảng 2. Các kết quả kiểm tra độ chính xác
của các mô hình ngẫu nhiên rừng và
phương pháp SVM
Tập dữ
liệu
iGRRF
GRRF
RF
SRF
SVM
Leukemia
1
0.958
0.944
0.944
0.958
0.860
Brain-
Tumor1
0.890
0.857
0.845
0.857
0.758
Lung-
cancer
0.941
0.921
0.896
0.926
0.902
11-tumors
0.908
0.879
0.875
0.903
0.795
GCM
0.732
0.669
0.653
0.695
0.641
Những kết quả thực nghiệm cho thấy,
khi phân lớp các tập dữ liệu gen với mô
hình iGRRF sử dụng trọng số mới, kết quả
đạt được và lựa chọn gen đạt thỏa đáng (số
in đậm trên bảng 2 là những kết quả
tốt nhất).

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
87
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã trình bày
một cải tiến của mô hình rừng ngẫu nhiên có
điều chỉnh. Mô hình cải tiến này giúp tăng độ
chính xác trong quá trình phân loại gen. Giải
pháp này giúp cải thiện mô hình GRRF trong
quá trình chọn gen khi xây dựng cây. Qua kết
quả thực nghiệm cho thấy GRRF cải tiến đạt
độ chính xác phân lớp tốt hơn GRRF, SVM,
RF, SRF.
5. TÀI LIỆU THAM KHẢO
[1] Breiman, L. (2001). Random
forests. Journal of Machine
learning, 45(1), 5–32.
[2] Deng, H., & Runger, G. (2013). Gene
selection with guided regularized random
forest. Journal of Pattern Recognition, 46,
3483-3489.
[3] Dimitriadou, K., Hornik, K., Leisch, F.,
Meyer, D., & Weingessel, A. (2012).
e1071: Misc functions of the department.
[4] Tuv, E., Borisov, A., Runger, G., &
Torkkola, K. (2009). Feature Selection with
Ensembles, Artificial Variables, and. The
Journal of Machine Learning, 10, 1341-
1366.
[5] Vapnik, V. (1995). The Nature of Statistical
Learning Theory. New York: Springer-
Verlag New York.
[6] Wu, Q., Ye, Y., Liu, Y., & Ng, M. K.
(2012). Snp selection and classification of
genome-wide snp data using stratified
sampling random forests. The Journal of
IEEE Transactions on NanoBioscience,
11(3), 216–227.
[7] Xu, B., Huang, J., Williams, G., & Wang,
Q. (2012). Classifying very high-
dimensional data with random forests built
from small subspaces. International Journal
of Data Warehousing and Mining
(IJDWM), 8(2), 44-63.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
88