Trang chủ » Khoa Học Tự Nhiên » Sinh học

4 trang

158 lượt xem

Một cải tiến rừng ngẫu nhiên điều hòa có điều hướng cho bài toán lựa chọn gen và phân lớp đối tượng tham gia

Lựa chọn và phân loại dữ liệu gen là bài toán điển hình của lớp bài toán lựa chọn đặc trưng cho dữ liệu có số chiều lớn và nhiều nhiễu. Bài viết đề xuất phương pháp đánh trọng số thuộc tính mới thay cho cách đánh trọng số thuộc tính của GRRF.

Chủ đề:

vimaito

Sinh học đại cương

Tài liệu Sinh học đại cương

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

MỘT CẢI TIẾN RỪNG NGẪU NHIÊN ĐIỀU HÒA

CÓ ĐIỀU HƯỚNG CHO BÀI TOÁN LỰA CHỌN GEN

VÀ PHÂN LỚP ĐỐI TƯỢNG THAM GIA

Nguyễn Thị Thu Hương1, Nguyễn Thanh Tùng1

1 Đại học Thủy lợi, email: {huongnt, tungnt}@tlu.edu.vn

1. GIỚI THIỆU CHUNG

Lựa chọn và phân loại dữ liệu gen là bài

toán điển hình của lớp bài toán lựa chọn đặc

trưng cho dữ liệu có số chiều lớn và nhiều

nhiễu. Năm 2013, Deng và Runger đã đề xuất

phương pháp rừng ngẫu nhiên điều chỉnh

(Guided Regularized Random Forests -

GRRF) (Deng & Runger, 2013) giúp cải

thiện quá trình lựa chọn thuộc tính và phân

lớp khi xử lý dữ liệu có số chiều cao, nhiều

nhiễu. Kết quả thực nghiệm của GRRF cho

thấy kết quả phân lớp và trích chọn đặc trưng

tốt hơn RF. Tuy nhiên GRRF dựa vào độ đo

sự quan trọng của thuộc tính của RF nguyên

bản (lựa chọn ngẫu nhiên nhiều thuộc tính

nhiễu hoặc có giá trị trống vào không gian

con thuộc tính dùng để tách nút khi xây dựng

cây) để tạo ra trọng số cho các thuộc tính. Do

đó GRRF bị giảm đáng kể độ chính xác khi

phân lớp với dữ liệu nhiều nhiễu và hạn chế

khi phân tích giữ liệu gen.

Trong bài viết này, chúng tôi đề xuất phương

pháp đánh trọng số thuộc tính mới thay cho

cách đánh trọng số thuộc tính của GRRF.

2. PHƯƠNG PHÁP ĐỀ XUẤT

Cho một tập dữ liệu gen huấn luyện ℒ (tập

mẫu) chứa 𝑁 mẫu dữ liệu, 𝑀 thuộc tính

𝑋𝑖 (𝑖 = 1,2,...,𝑀) và 𝑌 ∈ {1,2,..,𝐶} với

𝐶 ≥ 2 là biến phụ thuộc. RF dùng chỉ số

Gini để đo tính hỗn tạp của tập mẫu khi tìm

điểm thích hợp để tách nút khi xây dựng cây

quyết định (Breiman L. , 2001). Khoảng 2/3

tập mẫu được dùng để xây dựng cây, 1/3

phần còn lại (out-of-bag) RF dùng để kiểm

thử và tính độ đo quan trọng của từng thuộc

tính. Các độ đo quan trọng này được dùng

làm trọng số và GRRF dùng chúng để xây

dựng mô hình phân lớp với độ chính xác cao

hơn RF ban đầu.

Trong bài báo này, chúng tôi tính toán trọng

số mới với cách tiếp cận khác từ GRRF. Trọng

số của gen được tính nhờ phương pháp lặp

hoán vị kết hợp đánh giá trị 𝑝 (Tuv, Borisov,

Runger, & Torkkola, 2009) để tìm các gen

quan trọng và các gen ít quan trọng. Các gen

không quan trọng sẽ được gán trọng số bằng 0,

ngược lại sẽ được tính như sau đây.

Tạo tập gen nhiễu 𝑆𝐴 bằng cách hoán vị

ngẫu nhiên các giá trị 𝑋𝑖 trong 𝑆𝑋 nhằm phá

hủy quan hệ của chúng với các biến đích

nhưng vẫn giữ nguyên phân bổ dữ liệu của

các gen để tạo ra các 𝐴𝑖 tương ứng. Chúng ta

sẽ có tập dữ liệu được mở rộng 2M chiều để

tính độ quan trọng cho cả 𝑋𝑖 và 𝐴𝑖,

𝑆𝑋,𝐴 ={𝑆𝑋,𝑆𝐴} với 𝑆𝐴={𝐴𝑖,𝑖 = 1,…,𝑀}.

Cách làm này giúp giúp RF giảm xác suất lựa

chọn những gen chứa giá trị nhưng có độ đo

quan trọng kém, từ đó RF giảm được lỗi bias

lựa chọn kiểu gen này xây dựng cây. Tiếp

theo, chúng ta thực hiện 𝑅 lần RF trên 𝑆𝑋,𝐴 để

tính độ quan trọng của tất các gen thực 𝑋𝑖 và

các gen nhiễu 𝐴𝑖. Với mỗi lần chạy

𝑟 (𝑟 = 1,…,𝑅), chúng ta tính độ quan trọng

𝑉𝐼𝑋

𝑟 và 𝑉𝐼𝐴

𝑟 cho các gen rồi đặt chúng vào

dòng thứ r của ma trận 𝑉𝑅𝑋2𝑀. Kết quả ta

được một ma trận chứa độ quan trọng của

các gen thực {𝑋𝑖}𝑖=1

𝑀 và gen nhiễu {𝐴𝑖}𝑖=1

𝑀.

Từ các lần lặp các gen nhiễu thứ 𝑟, chúng ta

chọn ra giá trị lớn nhất 𝑉𝐼𝐴𝑖

𝑚𝑎𝑥 và đặt nó vào

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

trong mẫu so sánh 𝑉𝐼𝐴

𝑚𝑎𝑥. Với mỗi gen 𝑋𝑖,

chúng ta dùng kiểm định 𝑡-test tính 𝑡 và bậc

tự do 𝑑𝑓. Từ 𝑡 và 𝑑𝑓, chúng ta nhận được các

giá trị 𝑝 tương ứng. Phần tiếp theo, chúng ta

tạo véc-tơ trọng số {𝜃1,…,𝜃𝑀} cho các gen

trong tập dữ liệu 𝑆𝑋. Giá trị 𝑝 có được từ

kiểm định 𝑡-test sau khi chạy R lần RF trên

tập dữ liệu mở rộng 2M chiều để tính độ

quan trọng của 𝑋𝑖 và 𝐴𝑖. Giá trị 𝑝 của gen

nhỏ thì khả năng khả năng tham gia dự đoán

của gen đó càng lớn. Dựa vào giá trị 𝑝 với

một ngưỡng 𝜂 cho trước 𝜂 = 0.05, những

gen có giá trị 𝑝 lớn hơn 𝜂 thì được gán trọng

số bằng 0. Trong trường hợp ngược lại,

chúng ta tính trọng số gen như sau:

𝜃𝑖=1

𝑅∑𝑉𝐼𝑋𝑖

𝑅𝑅

𝑟=1 (1)

GRRF sẽ căn cứ vào các 𝜃𝑖 để khởi tạo 𝜆𝑖

khác nhau cho các gen. Mô hình cài tiến của

chúng tôi áp dụng công thức dưới đây cho

gen 𝑋𝑖 tại nút t:

Δ𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡)={𝜆.𝐺𝑖𝑛𝑖(𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖∉ 𝐹

𝐺𝑖𝑛𝑖 (𝑋𝑖,𝑡) 𝑛ế𝑢 𝑋𝑖∈ 𝐹 (2)

Trong đó 𝐹 là tập các gen đầu vào đã được

dùng để xây dựng rừng ngẫu nhiên và 𝜆 ∈

[0,1]. Giá trị 𝜆 không giống nhau cho tất cả

các gen đầu vào, chúng được khởi tạo dựa

trên các trọng số 𝜃𝑖.

3. KẾT QUẢ NGHIÊN CỨU

3.1. Dữ liệu thực nghiệm và tham số

Chúng tôi chạy thực nghiệm trên 5 bộ dữ

liệu

Bảng 1. Mô tả các tập dữ liệu gen

Tập dữ liệu

Số đối

tượng

tham gia

Số lượng

gen

Số

lớp

Leukemia1

5327

Brain-Tumor1

5920

Lung-cancer

203

12600

11-tumors

174

15533

GCM

190

16063

Các tham số , mtry chạy mô hình GRRF và

mô hình iGRRF tương ứng là: 0.1,√𝑀 (vì theo

http://www.gems-system.org

kết quả trong (Deng & Runger, 2013), khi

dùng hệ số =0.1, GRRF cho kết quả tốt nhất,

còn mtry=√𝑀 là tham số tối ưu khi RF xử lý

bài toán phân lớp (Breiman L. , 2001)). Để tính

véc-tơ trọng số, chúng tôi thực hiện 30 lần lặp

RF trên tập dữ liệu mở rộng 2M chiều với

mtry=10%M và số cây trong rừng là 500.

Chúng tôi cũng so sánh hiệu suất của mô hình

iGRRF với các mô hình RF được đề xuất

những năm gần đây như: SRF của Wu và đồng

nghiệp (Wu, Ye, Liu, & Ng, 2012), GRRF của

Deng và Runger (Deng & Runger, 2013),

wsRF của Xu và đồng nghiệp (Xu, Huang,

Williams, & Wang, 2012) và mô hình linear

kernel SVM trong gói e1071 (Dimitriadou,

Hornik, Leisch, Meyer, & Weingessel, 2012).

Chúng tôi đặt tham số C = 2-5 vì tham số này

SVM đạt giá trị tốt nhất trên các tập dữ liệu

trên. Các thực nghiệm được tiến hành trên môi

trường R sử dụng 6 máy Linux 64-bit, mỗi

máy có cấu hình như sau: IntelR XeonR CPU

E5620 2.40 GHz, 16 cores, 4 MB cache, and

32 GB main memory.

3.2. Kết quả thực nghiệm

Bảng 2. Các kết quả kiểm tra độ chính xác

của các mô hình ngẫu nhiên rừng và

phương pháp SVM

Tập dữ

liệu

iGRRF

GRRF

SRF

SVM

Leukemia

0.958

0.944

0.958

0.860

Brain-

Tumor1

0.890

0.857

0.845

0.857

0.758

Lung-

cancer

0.941

0.921

0.896

0.926

0.902

11-tumors

0.908

0.879

0.875

0.903

0.795

GCM

0.732

0.669

0.653

0.695

0.641

Những kết quả thực nghiệm cho thấy,

khi phân lớp các tập dữ liệu gen với mô

hình iGRRF sử dụng trọng số mới, kết quả

đạt được và lựa chọn gen đạt thỏa đáng (số

in đậm trên bảng 2 là những kết quả

tốt nhất).

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

4. KẾT LUẬN

Trong bài báo này, chúng tôi đã trình bày

một cải tiến của mô hình rừng ngẫu nhiên có

điều chỉnh. Mô hình cải tiến này giúp tăng độ

chính xác trong quá trình phân loại gen. Giải

pháp này giúp cải thiện mô hình GRRF trong

quá trình chọn gen khi xây dựng cây. Qua kết

quả thực nghiệm cho thấy GRRF cải tiến đạt

độ chính xác phân lớp tốt hơn GRRF, SVM,

RF, SRF.

5. TÀI LIỆU THAM KHẢO

[1] Breiman, L. (2001). Random

forests. Journal of Machine

learning, 45(1), 5–32.

[2] Deng, H., & Runger, G. (2013). Gene

selection with guided regularized random

forest. Journal of Pattern Recognition, 46,

3483-3489.

[3] Dimitriadou, K., Hornik, K., Leisch, F.,

Meyer, D., & Weingessel, A. (2012).

e1071: Misc functions of the department.

[4] Tuv, E., Borisov, A., Runger, G., &

Torkkola, K. (2009). Feature Selection with

Ensembles, Artificial Variables, and. The

Journal of Machine Learning, 10, 1341-

1366.

[5] Vapnik, V. (1995). The Nature of Statistical

Learning Theory. New York: Springer-

Verlag New York.

[6] Wu, Q., Ye, Y., Liu, Y., & Ng, M. K.

(2012). Snp selection and classification of

genome-wide snp data using stratified

sampling random forests. The Journal of

IEEE Transactions on NanoBioscience,

11(3), 216–227.

[7] Xu, B., Huang, J., Williams, G., & Wang,

Q. (2012). Classifying very high-

dimensional data with random forests built

from small subspaces. International Journal

of Data Warehousing and Mining

(IJDWM), 8(2), 44-63.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

Tài liệu liên quan

Công cụ tin sinh học (Bioinformatic tools) cho DNA methylation và histone modification: Tổng quan

Bioinformatic tools for DNA methylation and histone modification: A survey

Sàng lọc và dự đoán chất nguồn gốc thiên nhiên tiềm năng ức chế: Nghiên cứu mới nhất

Sàng lọc và dự đoán các chất nguồn gốc thiên nhiên tiềm năng ức chế

Scenedesmus sp.: Phân lập, nhận dạng hai chủng vi tảo mới từ khu dự trữ sinh quyển rừng ngập mặn Cần Giờ bằng giải trình tự 18s

Two new strains of microalgae Scenedesmus sp. recently isolated and identified by 18s sequencing from the Can Gio mangrove biosphere reserve

Câu hỏi ôn tập môn Phân loại thực vật

Nghiên cứu thành phần hoá học phân đoạn chiết dichloromethane cây bông ổi (Lantana camara L.) tại ven biển Thái Bình, Việt Nam

Nghiên cứu thành phần hoá học của phân đoạn chiết dichloromethane của cây bông ổi (Lantana camara L.) thu hái tại vùng ven biển Thái Bình, Việt Nam

Nghiên cứu độ phản ứng và tính chất lý hóa của lớp phủ gốc dầu hạt đen acrylate bằng liên kết ngang ở nhiệt độ môi trường

A study on the reactivity and physicochemical properties of coatings based on acrylated black seed oil coatings through crosslinking at ambient temperature

Dầu Sacha Inchi: Nghiên cứu điều kiện trích ly siêu âm từ hạt cây Plukenetia volubilis

Nghiên cứu điều kiện trích ly siêu âm dầu từ hạt cây Sacha inchi (Plukenetia volubilis)

Bột Vi Bao Vỏ Ca Cao Giàu Hoạt Chất Sinh Học: Ảnh hưởng của Tinh Bột Ngô Biến Tính và Pectin đến Tính Chất, Hoạt Tính Chống Ôxy Hóa, Ức Chế Enzyme α-Glucosidase

Ảnh hưởng của tinh bột ngô biến tính và pectin đến tính chất hóa lý, hoạt chất sinh học, hoạt tính chống ôxy hóa và ức chế enzyme α-glucosidase của bột vi bao giàu hoạt chất sinh học từ vỏ quả ca cao (Theobroma cacao L.)

Một cải tiến rừng ngẫu nhiên điều hòa có điều hướng cho bài toán lựa chọn gen và phân lớp đối tượng tham gia

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi