intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng máy học cho định danh loài nấm mối

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

20
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết giới thiệu mô hình máy học áp dụng cho tập dữ liệu ITS của nấm mối để xác định tên loài và xây dựng cây định danh loài. Mô hình xây dựng cây định danh nấm mối được thực nghiệm bằng các thuật toán XGBoost, Random Forest và phân cụm phân cấp UPGMA.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng máy học cho định danh loài nấm mối

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00069 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI Dương Thị Kim Chi1,2, Nguyễn Thị Ngọc Nhi3, Nguyễn Thế Bảo1, Lê Mậu Long4, Phạm Công Xuyên2 1 Khoa Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một 2 Trường Đại học Lạc Hồng 3 Khoa Tự nhiên, Trường Đại học Thủ Dầu Một 4 Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành chidtk@tdmu.edu.vn, nhintn@tdmu.edu.vn, baont@tdmu.edu.vn, lmlong@ntt.edu.vn, pcxuyen@lhu.edu.vn TÓM TẮT: Nấm mối là loài nấm ăn được có giá trị cao về kinh tế cũng như dinh dưỡng. Nấm mối chỉ có theo mùa và thời gian sinh trưởng ngắn nên việc định danh loài này theo phương pháp dựa vào quan sát hình thái và kinh nghiệm dân gian sẽ có kết quả không cao. Hiện nay, việc sử dụng các kỹ thuật di truyền phân tử để xác định loài được ghi nhận là có hiệu quả cao trong việc định loại và giám định loài. Bài báo giới thiệu mô hình máy học áp dụng cho tập dữ liệu ITS của nấm mối để xác định tên loài và xây dựng cây định danh loài. Mô hình xây dựng cây định danh nấm mối được thực nghiệm bằng các thuật toán XGBoost, Random Forest và phân cụm phân cấp UPGMA. Kết quả thực nghiệm kiểm chứng mô hình xây dựng với hai trình tự ITS được thu thập từ các mẫu nấm mối ở x An inh, huyện h iáo, tỉnh Bình Dương có kết quả định danh loài trùng khớp với phần mềm dự đoán loài BLAST của NCBI. Từ khóa: ITS (Internal transcribed spacer), Termite mushroom, Termitomyces, Extreme Gradient Boosting, Random forest, UPGMA - Unweighted pair group with arthmetic means, Machine Learning. I. GIỚI THIỆU Nấm mối có tên khoa học là Termitomyces là loại nấm ăn có hương vị thơm ngon có gi tri dinh dư ng cao. Một số loài nấm mối được sử dụng làm dược liệu như T. robustus, T. striatus với t c dụng chống lão hóa [1]; T. heimii chứa axit béo ergosterol, linoleic tăng cường hệ thống miễn dịch, ngăn ngừa bệnh cao huyết p [2]; C c nghiên cứu kh c còn chỉ ra rằng β-D-glucan có trong T. clypeatus có trong có khả năng ức chế tế bào ung thư như [3] kh ng trực khuẩn Pseudomonas aeruginosa hỗ trợ điều trị bệnh thủy đậu [4]. Với nhiều công dụng như vậy nhưng loài nấm này chưa thể nuôi trồng [5], đến năm 2013, ở Việt Nam có khoảng 10 loài nấm mối được ghi nhận [6]. Nấm mối chỉ mọc tự nhiên theo mùa, sản lượng c c loại nấm này đang giảm sút [5]. Có rất nhiều yếu tố t c động đến sự phân bố và ph t triển của nấm mối như: ô nhiễm môi trường, thời tiết thay đổi hay với số lượng tổ mối1 ngày càng giảm do t c động của con người. Để có thể nghiên cứu và bảo tồn loài nấm mối quý hiếm này thì việc định danh loài nấm mối là rất quan trọng, việc x c định chính xác tên loài giúp hiểu rõ c c đặc sinh trưởng cũng như c c nghiên cứu liên quan đã được công bố về loài. Phương ph p định danh loài trước đây thường dựa trên các khóa phân loại còn gọi là đặc điểm hình th i của từng loài, tuy nhiên với c c loài mà mẫu vật thu thập không nguyên vẹn, hay bảo quản không đúng c ch thì rất khó phân định chính x c. Gần đây, việc sử dụng c c DNA để định danh loài đang được p dụng, đoạn DNA thường được dùng để phân loại được gọi là DNA mã vạch (DNA barcode) [7] hay còn cách gọi kh c là là trình tự ITS (Internal transcribed spacer) [5, 9]. Các nhóm gen này thường được sử dụng gen rRNA 18S, 5S và 16S dùng để đ nh gi mối quan hệ tiến ho giữa c c sinh vật. So với chỉ thị hình th i và chỉ thị ho học, chỉ thị DNA cho độ chính x c cao hơn mà không lệ thuộc vào bất cứ yếu tố kh ch quan nào [8]. C c trình tự về nhận dạng loài thường được sử dụng trình tự ITS [5, 9] là vùng DNA nằm giữa c c gen hay còn gọi được sử dụng làm DNA chỉ thị trong nghiên cứu được c c nhà nghiên cứu công bố trên c c ngân hàng gen quốc tế2 như NCBI, EMBI, DDBJ, BOLD. Số lượng trình tự ITS nấm mối được công bố ngày càng nhiều và phân t n ở nhiều ngân hàng gene nên việc định danh sẽ có những trở ngại nhất định. Việc xây dựng cơ sở dữ liệu nấm mối (TerDB- Termitomyces Database) tập hợp được c c trình tự ITS của loài; đặc trưng kiểu hình; đặc trưng loài mối cộng sinh với loại nấm mối tương ứng. Ứng dụng mô hình học m y khai th c thông tin từ TerDB sẽ giúp cho việc định danh loài nhanh và chính x c hơn. Trong bài viết này, chúng tôi đề xuất giải ph p m y học để xây dựng mô hình dự đo n tên loài nấm mối và xây dựng cây phân loại thể hiện sự tương đồng về trình tự của loài. Mô hình phân loại theo c ch tiếp cận của học m y cung cấp c c kiến thức hay kết quả dự đo n nhãn ở đầu ra dựa trên c c thông tin đầu vào đã được mô tả trong qu khứ. C c thuật to n thường dùng cho phân lớp dự đo n là rừng ngẫu nhiên (Random Forest- RF), phân lớp kết hợp (Extreme Gradient Boosting –XGBoost), Support Vector Machine- SVM để x c định tên loài. Do bộ dữ liệu TerDB có một số loài như Termitomyces heimii, Termitomyces mammiformis có số lượng gene ITS kh hiếm, có loài chỉ có thể thu được từ 3 trình tự. Các loài kh c có số lượng từ 4 đến 422 trình 1 Nấm mối là loài nấm sống cộng sinh trên c c tổ mối. 2 DDBJ- DNA DataBank of Japan; EMBL-European Molecular Biology Laboratory; NCBI- National Center for Biotechnology Information; BOLD -The Barcode of Life Data System.
  2. 530 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI tự và có khoảng 10 nhóm cần phân định. Bài viết p dụng c c thuật to n phân lớp chiều cao và thử nghiệm trên hai loại thuật to n XGBoost và Random Forest. Bài viết tiến hành so s nh hiệu quả dự đo n của hai thuật to n và p dụng kỹ thuật phân cụm phân cấp UPGMA để xây dựng cây phân loại theo kết quả dự đo n. Các kh i niệm về trình tự ITS, trích xuất thông tin, giới thiệu phương ph p chuyển đổi biểu diễn trình tự này ở dạng chuỗi gene thành vector tương ứng được trình bày ở phần II; Phần III sẽ giới thiệu các thuật toán Gradient Boosting, Random Forest, kỹ thuật phân cụm phân cấp UPGMA. Cây phân cấp c c kỹ thuật liên quan và vận dụng c c giải thuật này cho việc xây dựng mô hình; Phần IV sẽ phân tích c c kết quả thực nghiệm cũng như so s nh kết quả của mô hình đề xuất kết quả. II. CÁC KHÁI NIỆM LIÊN QUAN 2.1. Vùng đệm trong được sao mã-ITS (Internal Transcribed Spacer) C c vùng ITS có độ dài 300 đến 900 bp là c c vùng tiến hóa nhanh nên có thể thay đổi về trình tự cũng như độ dài. ITS có tính bảo thủ cao trong loài nhưng lại thay đổi ở c c loài kh c nhau [8]. C c nghiên cứu về ph t sinh loài dựa vào ITS cho phép hiểu biết sâu về tiến hóa và sự lai tạo ở c c loài thực vật kh c nhau. ITS được trong nghiên cứu nguồn gốc, ph t sinh loài và trong nghiên cứu mã vạch thực vật [8]. Bài viết sử dụng c c chuỗi trình tự ITS của c c loài nấm mối được công bố trên c c ngân hàng gene quốc tế NCBI, EMBI, DDBJ, BOLD để xây dựng TerDB. Chúng tôi đã thu được 626 trình tự các ITS của nấm mối, Bảng 1 sẽ trình bày chi tiết c c thông tin về c c ITS của từng loài nấm thu nhận được dùng để xây dựng TerDB. Bảng 1. Thống kê dữ liệu ITS của nấm mối trong TerDB Mean of Number Spieces Class ITS seq of seq Termitomyces Bulborhizus 698,0 4 1 Termitomyces Clypeatus 503,6 21 2 Termitomyces Fuliginosus 593,3 4 3 Termitomyces Heimii 427,3 3 4 Termitomyces Mammiformis 356,0 3 5 Termitomyces Microcarpus 548,3 18 6 Termitomyces Robustus 520,6 12 7 T. Termitomyces Sp 466,7 90 8 Termitomyces Striatus 451,9 17 9 Termitomycyces Eurrhizus 630,5 11 10 Uncultured Termitomyces 603,8 442 11 2.2. Trích xuất đặc trưng, xây dựng tập dữ liệu Để xây dựng tập dữ liệu huấn luyện (Training), bài b o đã chuyển đổi c c trình tự ITS trong TerDB thành các vector bằng phương pháp k-mer [10]. K-mer là một đoạn ngắn gồm k nucleotide liên tiếp nhau của một trình tự. Các đoạn k-mer có được từ việc dùng cửa sổ trượt có kích thước k dịch chuyển từ vị trí đầu chuỗi trình tự cho đến hết chiều dài của chuỗi trình tự [11]. Với 4 base cơ bản (A, G, T, C) có thể có 4k vị trí cho chuỗi trình tự [10, 11]. Hình 1 minh họa c ch tính k-mer cho chuỗi trình tự với k=5. Hình 1. Minh họa c ch trích xuất đặc trưng cho c c trình tự ITS theo phương ph p k-mer với k là 5 [11] Độ dài k của k-mer dao động từ 4 đến 11, việc chọn độ dài k phù hợp để xây dựng tập training sẽ hạn chế việc dự đo n lỗi khi xây dựng mô hình dự đo n [11]. Trong phạm vi bài viết chọn độ dài cho k-mer là 5 nên số thuộc tính của tập training là 1024, với k=5 được cho là phù hợp cho c c tập dữ liệu sinh gene có độ dài trình tự dao động từ 300 đến 900. III. MÔ HÌNH PHÂN LOÀI NẤM MỐI Mô hình Học có giám sát (Supervised learning) được bài b o p dụng để dự đo n đầu ra (outcome) của một trình tự ITS về loài nấm mối mới (new input) dựa trên c c cặp (input, outcome) đã biết từ TerDB. Với tập dữ liệu đầu vào với n mẫu trình tự ITS và 4k+1 thuộc tính thì D {( )} (|D| =n, xi R, yi R) tập gene được phân lập từ TerDB và biểu diễn thành tập dữ liệu đầu vào có dạng:
  3. Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 531 ( ) (1) Trong đó Xi: là predictor features có * + dùng mô tả c c gi trị số k-mer của từng loại trình tự ITS, Yi là response features, * + là tập biến đích g n nhãn cho bộ dữ liệu c c loài nấm mối đã được định danh. Quy trình dự đo n tên loài nấm mối được mô tả theo hình 2. Hình 2. Quy trình dự đo n tên loài nấm mối C c thuật to n về phân lớp và hồi quy được nghiên cứu và bài b o đã chọn hai thuật toán học có gi m s t điển hình để p dụng cho qu trình thực nghiệm. Trong phạm vi bài viết đã so s nh hai giải thuật XGBoost và Random Forest cho việc xây dựng cây dự đo n tên loài nấm mối. C c mô tả cụ thể về c c thuật to n này như sau: Thuật toán XGBoost XGBoost (Extreme Gradient Boosting) được ph t triển dựa trên mô hình gốc “Gradient Boosting Machine” của Friedman [13]. XGBoost được sử dụng cho việc học tập được gi m s t, có khả năng dự đo n chính x c nhãn cần phân lớp với dữ liệu trainning chiều cao [10]. Hình 3. Mô hình xây dựng cây dự đo n với thuật to n XGBoost [12] Với XGBoost hoạt động theo c ch lấy ngẫu nhiên c c tập con từ tập Training theo mô hình cây hồi quy (hình 2) ban đầu sau đó xây dựng cây quyết định với mỗi tập con T (T1, T2,..Tk), tại mỗi bước thêm một cây mới và đều kết hợp c c “weak learner” để tạo thành một “strong learner” và đều tập trung vào những quan s t bị dự b o sai. Với Gradient Boosting, mỗi một cây mới sẽ được xây dựng với mục tiêu minimizes dần tổng loss của cây trước đó bằng việc sử dụng phương ph p Gradient Descent. Hàm dự đo n tại bước đó sử dụng kết quả dự đo n từ những cây trước đó để quyết định xây dựng cây hiện tại. Hàm hồi quy thu được từ cây hồi quy theo Boosting: ̂( ) ( ) ( ) ( ) (2) Độ đo mức độ hiệu quả của mô hình dự đo n là hàm hồi quy tổng qu t: (3) Trong đó: X1, X2,..Xk: c c biến phụ thuộc; β1, β2,.. βk: các hệ số hồi quy; Gi trị sai số dự đo n (Residual) có dạng:
  4. 532 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI ̂( ) (4) Thuật toán Random Forest Random Forest (RF) là một tập hợp mô hình (ensemble). Mô hình Random Forest rất hiệu quả cho c c bài to n phân loại nó huy động cùng lúc hàng trăm mô hình nhỏ hơn bên trong với quy luật kh c nhau để đưa ra quyết định cuối cùng [13]. Mỗi mô hình con có thể mạnh yếu kh c nhau, nhưng theo nguyên tắc “bầu chọn”. RF là thuật to n cây quyết định, với số lượng hàng trăm cây, mỗi cây quyết định được tạo ra một c ch ngẫu nhiên từ việc: T i chọn mẫu (Bootstrap, Random sampling). Với mô tả ở hình 4 là một ứng dụng RF vào cho mô hình dự đo n tên loài nấm mối được p dụng trong bài viết này. Việc bầu chọn tên loài nấm mối được mô tả bằng công thức (4): ( ) ∑ ( ) (5) Hình 4. Mô hình xây dựng cây dự đo n với thuật to n RF [13] Phân cụm phân cấp UPGMA (unweighted pairgroup method with arithmetic mean) [15] Phân cụm phân cấp UPGMA là phương ph p tính khoảng c ch trung bình với gi trị số đại số. Thuật to n được sử dụng ở đây sử dụng ma trận khoảng c ch để x c định nhóm c c trình tự gần nhất. Quy trình tính to n có thể được tóm tắt như sau: (1) Tìm gi trị khoảng c ch nhỏ nhất trong ma trận khoảng c ch giữa c c trình tự ITS của c c nhóm. ∑ ∑ ( ) (6) | || || (2) Xếp nhóm gi trị khoảng c ch cụ thể, ghi giữa hai điểm. (3) Xây dựng ma trận khoảng c ch mới gần nhất trong một nhóm riêng. Khoảng c ch giữa hai nhóm mới này tính các gi trị khoảng c ch trung bình mới trong cluster. (4) Lập lại quy trình cho đến hết. Áp dụng thuật toán XGBoost cho mô hình dự đoán tên loài Việc phân lớp và dự đo n tên loài nấm mối như đã phân tích ở trên là bài to n phân lớp nhiều lớp với tập dữ liệu huấn luyện chiều cao. Áp dụng mô hình cây hồi quy [12] để xây dựng mô hình phân lớp và dự đo n thì X=[ x1 , x2, .. xN] là một véctơ hàng chứa thông tin input, y là một số vô hướng (scalar) biểu diễn output. Thuật to n XGBoost được p dụng cho qu trình xây dựng cây hồi quy để dự đo n tên loài được ph t biểu như sau: Đầu vào: Tập hợp c c chuỗi gen X=[ x1 , x2, .. xN]. Đầu ra: Mô hình dự đo n. (1). Đặt: ̂( ) , ri=yi cho tất cả c c i trong tập training. (2). For b = 1, 2…., B do (2.1). Fit cây ̂ với d splits (d+1 nút trong) cho tập dữ liệu (X, r); (2.2). Cập nhật gi trị ̂ : ̂( ) ̂( ) ̂ ( ) (2.3). Cập nhật lại residuals: ̂ ( ) (3). Output mô hình Boosting: ̂( ) ∑ ̂ ( ). Mô hình học ban đầu khởi tạo với cây hồi quy và hàm lỗi giải thuật tìm mô hình cực tiểu hóa lỗi hồi quy. Áp dụng giải thuật XGBoost: (1) Bước đầu dùng giải thuật dự đo n biến đầu ra ŷ; (2) Tiếp theo lặp lại k lần (số cây hồi quy k là tham số của mô hình) để thực hiện; (3) Tính to n phần dư ε ở công thức và xây dựng mô hình cây hồi quy dùng phần dư ε là biến đích với mục tiêu cực tiểu hóa lỗi. Dự đo n mẫu dùng mô hình cây hồi quy ở bước trước đó.
  5. Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 533 IV. THỰC NGHIỆM Trong phạm vi bài viết, chúng tôi sử dụng phần mềm Rstudio cùng gói XGBoost, gói Caret có chứa c c thuật toán về c c mô hình hồi quy liệt kê ở mục III, Quy trình thực nghiệm (hình 2), được thử nghiệm trên m y tính c nhân Ram 4 GB, Intel Core i3. Với hai nội dung chính là xây dựng mô hình huấn luyện từ c c tập dữ liệu trong TerDB, sau đó dùng mô hình này để dự đo n tên loài nấm mối (g n nhãn dữ liệu). Xử lý dữ liệu thực nghiệm Các qu trình chuẩn bị dữ liệu được mô tả như sau: (4) Tạo bảng dữ liệu gồm: (1) Bộ gene ITS được (2) Tách thành từng - số gen: 626 dòng (3) Tính k-mer của - số chiều: 1025 cột tải về từ NCBI , EMBI, gen các gen. DDBJ, BOLD. - số lượng 626. - Nhãn các loài nâm mối được trình bày bảng 1. Hình 5. Quy trình xử lý dữ liệu tổng qu t Dữ liệu sau khi tải về từ ngân hàng gen quốc tế NCBI, tách thành từng gen, số lượng mẫu trình tự ITS thu được là 626. Từ trình tự thu được của c c gen tính K-mer là k=5 với cho từng gen, tạo bảng dữ liệu cho mẫu gồm 626 gen và 1024 thuộc tính như đã mô tả ở trên. Khảo s t sơ bộ dữ liệu phân bố về độ dài trung bình của từng loài nhận thấy: độ dài trình tự của c c nhóm có sự kh c biệt chêch lệch cao giữa class 5 và class 1 (hình 6). Hình 6. Thống kê trình tự trung bình của từng nhóm Số lượng gen ITS thu được cho từng loài (class) dao động từ 3 đến 442 (hình 7), với số lượng gen ít ở c c nhóm 1, 3, 4, 5 sẽ có sự kh c biệt lớn về bố trí số trình tự cho tập Trainning và tập Testing. Bài b o đã sử dụng hàm createDataPartition của gói Caret để bố trí tỷ lệ tập Training và tập Testing. Do số lượng hai class 4, class 5 có số lượng trình tự thấp, ảnh hưởng đến chất lượng dự đo n, nên bài b o đã bỏ hai lớp này ra trong qu trình xây dựng tập training. Hình 7. Thống kê số lượng trình tự của từng loài và tên c c nhãn g n cho c c loài
  6. 534 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI Xây dựng mô hình dự đoán tên loài nấm mối Áp dụng gói phần mềm XGBoot [12] tiến hành thực nghiệm trên môi trường R, gói phần mềm Random Forest dùng để so sánh kết quả cho mô hình đề xuất. Bài viết đã thực nghiệm từ tập gen 626 và 1024 thuộc tính, 65 % tập gen này dùng làm dữ liệu huấn luyện-Training và 35 % dùng để làm dữ liệu kiểm thử-testing mô hình. Khi xây dựng mô hình hồi quy, chúng tôi sử dụng kỹ thuật kiểm tra chéo 5-folds với quy tắc: (1) Lần đầu cho ngẫu nhiên số lần lập n- round=30; (2) Thực nghiệm mô hình với XGB.cv trên tập training liệt kê c c gi trị hàm Loss; (3) Chọn gi trị hàm loss thấp nhất; (4) Thực nghiệm điều chỉnh n_round về gi trị nhỏ nhất vừa tìm được, tìm được mô hình hoàn chỉnh. Áp dụng mô hình vừa tìm được trên tập dữ liệu Testing. Xây dựng ma trận hỗn độn - ConfusionMatrix, Multi-class area under the curve để đ nh gi mô hình huấn luyện. Yếu tố thời gian cũng được so s nh cho cả hai thuật to n. Chúng tôi đã tiến hành thực nghiệm quy trình trên 10 lần cho cả hai thuật to n XGBoost, Random Forest với số n-round dao động từ 10 đến 30 để tìm tập c c gi trị hàm Loss nhỏ nhất và tìm mô hình tốt nhất cho hai mô hình dự đo n. Bảng 2 trình bày kết quả thống kê qu trình kiểm tra trên n-round như đã nêu. Bảng 2. Thống kê kết quả đ nh gi hai mô hình dự đo n loài nấm mối Thông số so sánh Model_XGB Model_RF Accuracy 0,98 0,88 Multi-class area under the curve 0,91 0,64 Thời gian thực thi (giây) 1,66 3,43 Với kết quả thống kê ở Bảng 2 cho thấy sự kh c kh c biệt giữa mô hình dự đo n, mô hình Model_RF, Model_XGB về c c tham số đ nh gi mô hình cũng như về thời gian thực thi. Mô hình có tính năng vượt trội hơn là Model_XGB nên bài viết sẽ dùng mô hình này làm mô hình học và dự đo n loài. Với mô hình Model_XGB, Model_RF này bài b o lần lượt p dụng cho Classifier Model để dự đo n nhãn loài cho tập trình tự ITS kiểm chứng gồm có: hai trình tự ITS của hai mẫu nấm mối được phân lập từ loài nấm mối thu được tại xã An Linh, huyện Phú Gi o, tỉnh Bình Dương [5]. Kết quả dự đo n của cả hai mô hình để có cùng dự đo n là loài Termitomyces clypeatus, kết quả này trùng khớp kết quả dự đo n của phần mềm BLAST của NCBI. Hình 8. Kết quả cây định danh loài nấm mối ở Bình Dương bằng mô hình Model_XGB Hình 9. Kết quả cây định danh loài nấm mối ở Bình Dương bằng mô hình Model_RF
  7. Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 535 V. KẾT LUẬN Random Forest, XGBoost là một thuật to n phân lớp mạnh được đề xuất và cũng là một trong những phương pháp Ensemble điển hình. Kết quả của giải ph p này cũng tạo ra một tập hợp c c cây quyết định, mỗi cây được xây dựng trên tập mẫu Bootstrap với hiệu quả phân lớp chính x c cao và có thể p dụng phân lớp chiều cao được sử dùng rất phổ biến hiện nay. Vận dụng phương ph p Random Forest xây dựng mô hình dự đo n trên cùng bộ dữ liệu đã thử cho mô hình đề xuất để so s nh tính hiệu quả của mô hình đề xuất bằng XGBoost. Bài báo trình bày các kh i niệm liên quan về đối tượng nấm mối cần định danh, cũng như c c kỹ thuật XGBoost, Random Forest là những thuật to n phù hợp cho bài to n phân lớp và dự đo n cho loại dữ liệu chiều cao, nhiều lớp. Quy trình xây dựng mô hình Dự đo n tên loài nấm mối đã chứng minh thuật toán đề xuất có khả năng chịu nhiễu và thường không phải loại bỏ nhiễu cho bộ dữ liệu huấn luyện. Loại bỏ gi trị trống vì có thể làm giảm đi đặc tính sinh học cũng như khả năng dự b o của hệ thống. Kết quả thực nghiệm cho thấy mô hình đề xuất có khả năng dự đo n có độ chính xác cao khả năng g n nhãn tốt và hoàn toàn không dùng đến kỹ thuật lọc nhiễu khi tiến hành thực nghiệm. Ngoài ra, độ đo sự quan trọng của c c tiêu chí cũng được tính to n từ mô hình và hiển thị kết quả trực quan giúp nhà sinh học có thông tin cần thiết để nâng cao khả năng dự đo n mức độ nhận định tên loài. VI. TÀI LIỆU THAM KHẢO [1] Adewusi S. R. A., Alofe F. V., Odeyemi O., Afolabi O. A. and Oke O. L., 1993. Studies on some edible wild mushrooms from Nigeria: 1.Nutritional, teratogenic and toxic considerations.Plant foods for human nutrition, 43(2): 115-121. [2] Masamba K. G. and Kazombo-Mwale. Determination and comparison of nutrient and mineral contents between cultivated and indigenous edible mushrooms in Central Malawi. African Journal of Food Science, 4(4): 176-179. 2010. [3] Villares A., Mateo-Vivaracho L. and Guillamón E.. Structural features and healthy properties of polysaccharides occurring in mushrooms. Agriculture, 2(4): 452-471, 2012. [4] Giri S., Biswas G., Pradhan P., Mandal S. C. and Acharya K.. Antimicrobial activities of basidiocarps of wild edible mushrooms of West Bengal, India. International Journal of PharmTech Research, 4(4):1554-1560, 2012. [5] Nguyễn Thị Ngọc Nhi và Trần Nhân Dũng. hân lập giống nấm mối Termitomyces clypeatus. Tạp chí Khoa học Trường Đại học Cần Thơ, 2016. [6] Trịnh Tam Kiệt. Nấm lớn ở Việt Nam. Tập 3. Nhà xuất bản Khoa học tự nhiên và Công nghệ. 2013. [7] Zhang A-b, Feng J, Ward R. D., Wan P., Gao Q., et al.. A New Method for Species Identification via Protein- Coding and Non-Coding DNA Barcodes by Combining Machine Learning with Bioinformatic Methods. PLoS ONE 7, 2012. [8] Nguyễn Đức Thành. Các kỹ thuật chỉ thị DNA trong nghiên cứu và chọn lọc thực vật. Tạp chí Sinh học, 36(3): 265- 294, 2014. [9] Van den Berg C., Higgins W. E., Dressler R. L., Whitten W. M., Soto Arenas M. A., Culham A., Chase M. W.. A phylogenetic analysis of Laeliinae (Orchidaceae) based on sequence data from nuclear internal transcribed spacers (ITS) of ribosomal DNA, Lindleyana (15), pp.96114. 2000 [10] William Stafford Noble1, Scott Kuehn, Robert Thurman, Man Yu2 and John Stamatoyannopoulos. Predicting the in vivo signature of human gene regulatory sequences, Vol. 21 Bioinformatics, pages 338-343, 2005. [11] Hsin-Hsiung Huang. An ensemble distance measure of k-mer and Natural Vector for the phylogenetic analysis of multiple-segmented viruses, Journal of Theoretical Biology, 136–144, 2016. [12]. Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. KDD ’16, San Francisco, CA USA, 100-142, ACM, 2016. [13]. Tianqi Chen, Tong He Michael Benesty, Vadim Khotilovich, Yuan Tang. Extreme Gradient Boosting. CRAN, 2017. [14] Leo Breiman. Random Forests. Statistics Department University of California Berkeley, CA 94720, 2001. [15] Fionn Murtagh, Pierre Legendre. Ward’s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward’s Criterion?. Journal of Classification 31:274-295, 2014.
  8. 536 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI APPLICATION MACHINES LEARNING FOR DETERMINATION OF TERMITE MUSHROOM SPECIES Duong Thi Kim Chi, Nguyen Thi Ngoc Nhi, Nguyen The Bao, Le Mau Long, Pham Cong Xuyen ABSTRACT: Termite mushroom are edible mushrooms of high economic value as well as nutritious. Termite mushroom with short season and growth time should identify this species according to the method based on morphological and folk experience will have low results. The use of molecular genetic techniques to identify species has been reported to be highly effective in species identification.The article introduces the machine learning model applied to the ITS data set of the fungus to identify the species and establish the species identification tree. The model construction was tested using the XGBoost, Random forest and UPGMA classifier algorithms. Experimental results of the two-genome test were collected from the fungus samples in An Linh Commune, Phu Giao District, Binh Duong Province have the same results of the identification were coincident with NCBI's BLAST prediction software.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2