intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Một cải tiến rừng ngẫu nhiên điều hòa có điều hướng cho bài toán lựa chọn gen và phân lớp đối tượng tham gia

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:4

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Lựa chọn và phân loại dữ liệu gen là bài toán điển hình của lớp bài toán lựa chọn đặc trưng cho dữ liệu có số chiều lớn và nhiều nhiễu. Bài viết đề xuất phương pháp đánh trọng số thuộc tính mới thay cho cách đánh trọng số thuộc tính của GRRF.

Chủ đề:
Lưu

Nội dung Text: Một cải tiến rừng ngẫu nhiên điều hòa có điều hướng cho bài toán lựa chọn gen và phân lớp đối tượng tham gia

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5 MỘT CẢI TIẾN RỪNG NGẪU NHIÊN ĐIỀU HÒA CÓ ĐIỀU HƯỚNG CHO BÀI TOÁN LỰA CHỌN GEN VÀ PHÂN LỚP ĐỐI TƯỢNG THAM GIA Nguyễn Thị Thu Hương1, Nguyễn Thanh Tùng1 1 Đại học Thủy lợi, email: {huongnt, tungnt}@tlu.edu.vn 1. GIỚI THIỆU CHUNG thử và tính độ đo quan trọng của từng thuộc Lựa chọn và phân loại dữ liệu gen là bài tính. Các độ đo quan trọng này được dùng toán điển hình của lớp bài toán lựa chọn đặc làm trọng số và GRRF dùng chúng để xây trưng cho dữ liệu có số chiều lớn và nhiều dựng mô hình phân lớp với độ chính xác cao nhiễu. Năm 2013, Deng và Runger đã đề xuất hơn RF ban đầu. phương pháp rừng ngẫu nhiên điều chỉnh Trong bài báo này, chúng tôi tính toán trọng (Guided Regularized Random Forests - số mới với cách tiếp cận khác từ GRRF. Trọng GRRF) (Deng & Runger, 2013) giúp cải số của gen được tính nhờ phương pháp lặp thiện quá trình lựa chọn thuộc tính và phân hoán vị kết hợp đánh giá trị 𝑝 (Tuv, Borisov, lớp khi xử lý dữ liệu có số chiều cao, nhiều Runger, & Torkkola, 2009) để tìm các gen nhiễu. Kết quả thực nghiệm của GRRF cho quan trọng và các gen ít quan trọng. Các gen thấy kết quả phân lớp và trích chọn đặc trưng không quan trọng sẽ được gán trọng số bằng 0, tốt hơn RF. Tuy nhiên GRRF dựa vào độ đo ngược lại sẽ được tính như sau đây. sự quan trọng của thuộc tính của RF nguyên Tạo tập gen nhiễu 𝑆 𝐴 bằng cách hoán vị bản (lựa chọn ngẫu nhiên nhiều thuộc tính ngẫu nhiên các giá trị 𝑋 𝑖 trong 𝑆 𝑋 nhằm phá nhiễu hoặc có giá trị trống vào không gian hủy quan hệ của chúng với các biến đích con thuộc tính dùng để tách nút khi xây dựng nhưng vẫn giữ nguyên phân bổ dữ liệu của cây) để tạo ra trọng số cho các thuộc tính. Do các gen để tạo ra các 𝐴 𝑖 tương ứng. Chúng ta đó GRRF bị giảm đáng kể độ chính xác khi sẽ có tập dữ liệu được mở rộng 2M chiều để phân lớp với dữ liệu nhiều nhiễu và hạn chế tính độ quan trọng cho cả 𝑋 𝑖 và 𝐴 𝑖 , khi phân tích giữ liệu gen. 𝑆 𝑋,𝐴 = {𝑆 𝑋 , 𝑆 𝐴 } với 𝑆 𝐴 = {𝐴 𝑖 , 𝑖 = 1, … , 𝑀}. Trong bài viết này, chúng tôi đề xuất phương Cách làm này giúp giúp RF giảm xác suất lựa pháp đánh trọng số thuộc tính mới thay cho chọn những gen chứa giá trị nhưng có độ đo cách đánh trọng số thuộc tính của GRRF. quan trọng kém, từ đó RF giảm được lỗi bias lựa chọn kiểu gen này xây dựng cây. Tiếp 2. PHƯƠNG PHÁP ĐỀ XUẤT theo, chúng ta thực hiện 𝑅 lần RF trên 𝑆 𝑋,𝐴 để Cho một tập dữ liệu gen huấn luyện ℒ (tập tính độ quan trọng của tất các gen thực 𝑋 𝑖 và mẫu) chứa 𝑁 mẫu dữ liệu, 𝑀 thuộc tính các gen nhiễu 𝐴 𝑖 . Với mỗi lần chạy 𝑋 𝑖 (𝑖 = 1,2, . . . , 𝑀) và 𝑌 ∈ {1, 2, . . , 𝐶} với 𝑟 (𝑟 = 1, … , 𝑅), chúng ta tính độ quan trọng 𝐶 ≥ 2 là biến phụ thuộc. RF dùng chỉ số 𝑉𝐼 𝑋𝑟 và 𝑉𝐼 𝐴𝑟 cho các gen rồi đặt chúng vào Gini để đo tính hỗn tạp của tập mẫu khi tìm dòng thứ r của ma trận 𝑉 𝑅𝑋2𝑀 . Kết quả ta điểm thích hợp để tách nút khi xây dựng cây được một ma trận chứa độ quan trọng của 𝑀 𝑀 quyết định (Breiman L. , 2001). Khoảng 2/3 các gen thực {𝑋 𝑖 } 𝑖=1 và gen nhiễu {𝐴 𝑖 } 𝑖=1 . tập mẫu được dùng để xây dựng cây, 1/3 Từ các lần lặp các gen nhiễu thứ 𝑟, chúng ta phần còn lại (out-of-bag) RF dùng để kiểm chọn ra giá trị lớn nhất 𝑉𝐼 𝐴𝑚𝑎𝑥 và đặt nó vào 𝑖 85
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5 trong mẫu so sánh 𝑉𝐼 𝐴𝑚𝑎𝑥 . Với mỗi gen 𝑋 𝑖 , kết quả trong (Deng & Runger, 2013), khi chúng ta dùng kiểm định 𝑡-test tính 𝑡 và bậc dùng hệ số =0.1, GRRF cho kết quả tốt nhất, tự do 𝑑𝑓. Từ 𝑡 và 𝑑𝑓, chúng ta nhận được các còn mtry=√ 𝑀 là tham số tối ưu khi RF xử lý giá trị 𝑝 tương ứng. Phần tiếp theo, chúng ta bài toán phân lớp (Breiman L. , 2001)). Để tính tạo véc-tơ trọng số {𝜃1 , … , 𝜃 𝑀 } cho các gen véc-tơ trọng số, chúng tôi thực hiện 30 lần lặp trong tập dữ liệu 𝑆 𝑋 . Giá trị 𝑝 có được từ RF trên tập dữ liệu mở rộng 2M chiều với kiểm định 𝑡-test sau khi chạy R lần RF trên mtry=10%M và số cây trong rừng là 500. tập dữ liệu mở rộng 2M chiều để tính độ Chúng tôi cũng so sánh hiệu suất của mô hình quan trọng của 𝑋 𝑖 và 𝐴 𝑖 . Giá trị 𝑝 của gen iGRRF với các mô hình RF được đề xuất nhỏ thì khả năng khả năng tham gia dự đoán những năm gần đây như: SRF của Wu và đồng của gen đó càng lớn. Dựa vào giá trị 𝑝 với nghiệp (Wu, Ye, Liu, & Ng, 2012), GRRF của Deng và Runger (Deng & Runger, 2013), một ngưỡng 𝜂 cho trước 𝜂 = 0.05, những wsRF của Xu và đồng nghiệp (Xu, Huang, gen có giá trị 𝑝 lớn hơn 𝜂 thì được gán trọng Williams, & Wang, 2012) và mô hình linear số bằng 0. Trong trường hợp ngược lại, kernel SVM trong gói e1071 (Dimitriadou, chúng ta tính trọng số gen như sau: Hornik, Leisch, Meyer, & Weingessel, 2012). 1 𝜃 𝑖 = ∑ 𝑟=1 𝑉𝐼 𝑋𝑅𝑖 𝑅 (1) Chúng tôi đặt tham số C = 2-5 vì tham số này 𝑅 GRRF sẽ căn cứ vào các 𝜃 𝑖 để khởi tạo 𝜆 𝑖 SVM đạt giá trị tốt nhất trên các tập dữ liệu khác nhau cho các gen. Mô hình cài tiến của trên. Các thực nghiệm được tiến hành trên môi chúng tôi áp dụng công thức dưới đây cho trường R sử dụng 6 máy Linux 64-bit, mỗi gen 𝑋 𝑖 tại nút t: máy có cấu hình như sau: IntelR XeonR CPU 𝜆. 𝐺𝑖𝑛𝑖 ( 𝑋 𝑖 , 𝑡) 𝑛ế𝑢 𝑋 𝑖 ∉ 𝐹 E5620 2.40 GHz, 16 cores, 4 MB cache, and Δ𝐺𝑖𝑛𝑖 ( 𝑋 𝑖 , 𝑡) = { (2) 𝐺𝑖𝑛𝑖 ( 𝑋 𝑖 , 𝑡) 𝑛ế𝑢 𝑋 𝑖 ∈ 𝐹 32 GB main memory. Trong đó 𝐹 là tập các gen đầu vào đã được 3.2. Kết quả thực nghiệm dùng để xây dựng rừng ngẫu nhiên và 𝜆 ∈ [0,1]. Giá trị 𝜆 không giống nhau cho tất cả Bảng 2. Các kết quả kiểm tra độ chính xác các gen đầu vào, chúng được khởi tạo dựa của các mô hình ngẫu nhiên rừng và trên các trọng số 𝜃 𝑖 . phương pháp SVM Tập dữ 3. KẾT QUẢ NGHIÊN CỨU iGRRF GRRF RF SRF SVM liệu 3.1. Dữ liệu thực nghiệm và tham số Leukemia 0.958 0.944 0.944 0.958 0.860 Chúng tôi chạy thực nghiệm trên 5 bộ dữ 1 liệu1 sau: Brain- 0.890 0.857 0.845 0.857 0.758 Bảng 1. Mô tả các tập dữ liệu gen Tumor1 Số đối Số lượng Số Lung- 0.941 0.921 0.896 0.926 0.902 Tập dữ liệu tượng gen lớp cancer tham gia Leukemia1 72 5327 3 11-tumors 0.908 0.879 0.875 0.903 0.795 Brain-Tumor1 90 5920 5 GCM 0.732 0.669 0.653 0.695 0.641 Lung-cancer 203 12600 5 11-tumors 174 15533 11 Những kết quả thực nghiệm cho thấy, GCM 190 16063 14 khi phân lớp các tập dữ liệu gen với mô Các tham số , mtry chạy mô hình GRRF và hình iGRRF sử dụng trọng số mới, kết quả mô hình iGRRF tương ứng là: 0.1, √ 𝑀 (vì theo đạt được và lựa chọn gen đạt thỏa đáng (số in đậm trên bảng 2 là những kết quả 1 http://www.gems-system.org tốt nhất). 86
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5 4. KẾT LUẬN [3] Dimitriadou, K., Hornik, K., Leisch, F., Meyer, D., & Weingessel, A. (2012). Trong bài báo này, chúng tôi đã trình bày e1071: Misc functions of the department. một cải tiến của mô hình rừng ngẫu nhiên có [4] Tuv, E., Borisov, A., Runger, G., & điều chỉnh. Mô hình cải tiến này giúp tăng độ Torkkola, K. (2009). Feature Selection with chính xác trong quá trình phân loại gen. Giải Ensembles, Artificial Variables, and. The pháp này giúp cải thiện mô hình GRRF trong Journal of Machine Learning, 10, 1341- quá trình chọn gen khi xây dựng cây. Qua kết 1366. quả thực nghiệm cho thấy GRRF cải tiến đạt [5] Vapnik, V. (1995). The Nature of Statistical độ chính xác phân lớp tốt hơn GRRF, SVM, Learning Theory. New York: Springer- RF, SRF. Verlag New York. [6] Wu, Q., Ye, Y., Liu, Y., & Ng, M. K. 5. TÀI LIỆU THAM KHẢO (2012). Snp selection and classification of genome-wide snp data using stratified [1] Breiman, L. (2001). Random sampling random forests. The Journal of forests. Journal of Machine IEEE Transactions on NanoBioscience, learning, 45(1), 5–32. 11(3), 216–227. [2] Deng, H., & Runger, G. (2013). Gene [7] Xu, B., Huang, J., Williams, G., & Wang, selection with guided regularized random Q. (2012). Classifying very high- forest. Journal of Pattern Recognition, 46, dimensional data with random forests built 3483-3489. from small subspaces. International Journal of Data Warehousing and Mining (IJDWM), 8(2), 44-63. 87
  4. Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5 88
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
18=>0