
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
85
MỘT CẢI TIẾN RỪNG NGẪU NHIÊN ĐIỀU HÒA
CÓ ĐIỀU HƯỚNG CHO BÀI TOÁN LỰA CHỌN GEN
VÀ PHÂN LỚP ĐỐI TƯỢNG THAM GIA
Nguyễn Thị Thu Hương1, Nguyễn Thanh Tùng1
1 Đại học Thủy lợi, email: {huongnt, tungnt}@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Lựa chọn và phân loại dữ liệu gen là bài
toán điển hình của lớp bài toán lựa chọn đặc
trưng cho dữ liệu có số chiều lớn và nhiều
nhiễu. Năm 2013, Deng và Runger đã đề xuất
phương pháp rừng ngẫu nhiên điều chỉnh
(Guided Regularized Random Forests -
GRRF) (Deng & Runger, 2013) giúp cải
thiện quá trình lựa chọn thuộc tính và phân
lớp khi xử lý dữ liệu có số chiều cao, nhiều
nhiễu. Kết quả thực nghiệm của GRRF cho
thấy kết quả phân lớp và trích chọn đặc trưng
tốt hơn RF. Tuy nhiên GRRF dựa vào độ đo
sự quan trọng của thuộc tính của RF nguyên
bản (lựa chọn ngẫu nhiên nhiều thuộc tính
nhiễu hoặc có giá trị trống vào không gian
con thuộc tính dùng để tách nút khi xây dựng
cây) để tạo ra trọng số cho các thuộc tính. Do
đó GRRF bị giảm đáng kể độ chính xác khi
phân lớp với dữ liệu nhiều nhiễu và hạn chế
khi phân tích giữ liệu gen.
Trong bài viết này, chúng tôi đề xuất phương
pháp đánh trọng số thuộc tính mới thay cho
cách đánh trọng số thuộc tính của GRRF.
2. PHƯƠNG PHÁP ĐỀ XUẤT
Cho một tập dữ liệu gen huấn luyện ℒ (tập
mẫu) chứa 𝑁 mẫu dữ liệu, 𝑀 thuộc tính
𝑋𝑖 (𝑖 = 1,2,...,𝑀) và 𝑌 ∈ {1,2,..,𝐶} với
𝐶 ≥ 2 là biến phụ thuộc. RF dùng chỉ số
Gini để đo tính hỗn tạp của tập mẫu khi tìm
điểm thích hợp để tách nút khi xây dựng cây
quyết định (Breiman L. , 2001). Khoảng 2/3
tập mẫu được dùng để xây dựng cây, 1/3
phần còn lại (out-of-bag) RF dùng để kiểm
thử và tính độ đo quan trọng của từng thuộc
tính. Các độ đo quan trọng này được dùng
làm trọng số và GRRF dùng chúng để xây
dựng mô hình phân lớp với độ chính xác cao
hơn RF ban đầu.
Trong bài báo này, chúng tôi tính toán trọng
số mới với cách tiếp cận khác từ GRRF. Trọng
số của gen được tính nhờ phương pháp lặp
hoán vị kết hợp đánh giá trị 𝑝 (Tuv, Borisov,
Runger, & Torkkola, 2009) để tìm các gen
quan trọng và các gen ít quan trọng. Các gen
không quan trọng sẽ được gán trọng số bằng 0,
ngược lại sẽ được tính như sau đây.
Tạo tập gen nhiễu 𝑆𝐴 bằng cách hoán vị
ngẫu nhiên các giá trị 𝑋𝑖 trong 𝑆𝑋 nhằm phá
hủy quan hệ của chúng với các biến đích
nhưng vẫn giữ nguyên phân bổ dữ liệu của
các gen để tạo ra các 𝐴𝑖 tương ứng. Chúng ta
sẽ có tập dữ liệu được mở rộng 2M chiều để
tính độ quan trọng cho cả 𝑋𝑖 và 𝐴𝑖,
𝑆𝑋,𝐴 ={𝑆𝑋,𝑆𝐴} với 𝑆𝐴={𝐴𝑖,𝑖 = 1,…,𝑀}.
Cách làm này giúp giúp RF giảm xác suất lựa
chọn những gen chứa giá trị nhưng có độ đo
quan trọng kém, từ đó RF giảm được lỗi bias
lựa chọn kiểu gen này xây dựng cây. Tiếp
theo, chúng ta thực hiện 𝑅 lần RF trên 𝑆𝑋,𝐴 để
tính độ quan trọng của tất các gen thực 𝑋𝑖 và
các gen nhiễu 𝐴𝑖. Với mỗi lần chạy
𝑟 (𝑟 = 1,…,𝑅), chúng ta tính độ quan trọng
𝑉𝐼𝑋
𝑟 và 𝑉𝐼𝐴
𝑟 cho các gen rồi đặt chúng vào
dòng thứ r của ma trận 𝑉𝑅𝑋2𝑀. Kết quả ta
được một ma trận chứa độ quan trọng của
các gen thực {𝑋𝑖}𝑖=1
𝑀 và gen nhiễu {𝐴𝑖}𝑖=1
𝑀.
Từ các lần lặp các gen nhiễu thứ 𝑟, chúng ta
chọn ra giá trị lớn nhất 𝑉𝐼𝐴𝑖
𝑚𝑎𝑥 và đặt nó vào