YOMEDIA

ADSENSE
Tổng quan về mã DNA trong việc phân loại và xây dựng cây phát sinh phân tử
9
lượt xem 2
download
lượt xem 2
download

Bài tổng hợp này cung cấp các khái niệm chung nhất về mã DNA, khoảng cách di truyền của chúng và việc xây dựng mối liên hệ tiến hoá giữa các trình tự, nhằm định hướng trong ứng dụng nghiên cứu đa dạng sinh học, khẳng định loài mới, hay truy xuất nguồn gốc động, thực vật.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tổng quan về mã DNA trong việc phân loại và xây dựng cây phát sinh phân tử
- TỔNG QUAN VỀ MÃ DNA TRONG VIỆC PHÂN LOẠI VÀ XÂY DỰNG CÂY PHÁT SINH PHÂN TỬ Bùi Thị Kim Lý1 1. Khoa Y Dược, Trường Đại học Thủ Dầu Một, liên hệ email: lybtk@tdmu.edu.vn TÓM TẮT Nhu cầu định danh sinh vật đã và đang dần trở nên quan trọng không chỉ trong các nghiên cứu về sinh thái, bảo tồn đa dạng sinh học mà còn ứng dụng trong đời sống con người như phân loại vi sinh vật hay truy xuất nguồn gốc nông, thuỷ sản. Sự phát triển nhanh chóng của khoa học công nghệ đã cho phép ứng dụng nhiều kỹ thuật hiện đại trong phân tích trình tự DNA và mối liên hệ của chúng. Việc xác định khoảng cách di truyền giữa các trình tự có ý nghĩa trong việc xây dựng cây phát sinh phân tử, từ đó mô tả được mối quan hệ tiến hoá giữa các trình tự mang đi phân tích. Bài tổng hợp này cung cấp các khái niệm chung nhất về mã DNA, khoảng cách di truyền của chúng và việc xây dựng mối liên hệ tiến hoá giữa các trình tự, nhằm định hướng trong ứng dụng nghiên cứu đa dạng sinh học, khẳng định loài mới, hay truy xuất nguồn gốc động, thực vật. Từ khóa: DNA barcoding, định danh, phylogeny, khoảng cách di truyền 1. MÃ DNA TRONG PHÂN LOẠI, TRUY XUẤT NGUỒN GỐC THỰC VẬT Sự phát triển của khoa học công nghệ hiện đại ngày nay đã mở ra các hướng tiếp cận mới trong việc ứng dụng các kỹ thuật sinh học phân tử vào việc phân loại và định danh sinh vật. DNA fingerprinting là một trong những kỹ thuật được ứng dụng đầu tiên và được xem là công cụ độc lập trong việc điều tra pháp y, nghiên cứu và nhiều lĩnh vực khác (Sucher và nnk, 2012). Sau sự xuất hiện của kỹ thuật khuyếch đại PCR và giải trình tự (Sequencing) thì khái niệm về DNA Barcoding đã ra đời và được ứng dụng như một phương tiện hỗ trợ đầy triển vọng trong việc phân loại các loài và cá thể (Kress và nnk, 2012; Sucher và nnk, 2012). Hiện nay bên cạnh DNA Barcoding và DNA Fingerprinting, kỹ thuật giải trình tự gen thế hệ mới (NGS) cũng được ứng dụng nhiều trong việc phân loại, và nghiên cứu sinh thái các loài (Sucher và nnk, 2012). Hình 1. Các định hướng tiếp cận đi đôi với kỹ thuật phân tích trong quá trình định danh sinh vật 36
- DNA barcoding là khái niệm được mô tả lần đầu năm 2003 nhằm chỉ các vùng trình tự gen ngắn thuộc các vùng tiêu chuẩn trong bộ gen, được dùng như công cụ để xác định và phân biệt các loài với nhau (Sucher và nnk, 2012). Kể từ lúc ra đời, DNA barcoding trở thành kỹ thuật được xây dựng và phát triển mạnh mẽ nhằm thay thế DNA fingerprints. Năm 2004, hiệp hội Barcode for life (CBOL) ra đời nhằm xây dựng các định hướng, tiêu chuẩn trong hệ thống nghiên cứu và quản lý barcode của sinh vật. Năm 2007, dự án tiêu chuẩn DNA barcode của thực vật trên cạn được CBOL công bố (Sucher và nnk, 2012). Nghiên cứu DNA barcoding được xem là mang nhiều triển vọng trong nhiều ngành nghiên cứu như: nghiên cứu tiến hóa thông qua tần số thay đổi trình tự của loài thông qua thời gian; nghiên cứu đa dạng sinh học thông qua việc phân biệt, định danh các cá thể và dự đoán các loài mới phát hiện; chỉ dấu theo dõi, nghiên cứu các đối tượng đặc biệt; hoặc để truy xuất nguồn gốc, và nhiều ứng dụng khác (Kress, 2017). Để một DNA barcoding được tạo ra và áp dụng thì đòi hỏi phải có hai bước cơ bản: bước 1 là xây dựng thư viện mã vạch gồm tập hợp tất cả trình tự các loài liên quan trên một hay một nhóm gen đánh dấu (marker) mục tiêu xác định, các nhóm cá thể cung cấp trình tự này phải được xác định loài cụ thể và có các giấy tờ chứng nhận đi kèm, đây sẽ là các hồ sơ cần thiết đi suốt cùng barcode được cấp; bước 2 là nhận diện cá thể mới thông qua việc giải trình tự vùng marker thuộc mã vạch ở bước 1 sau đó dùng các thuật toán để ghép nối, gióng cột trình tự của cá thể mới và thư viện mã vốn có để đưa ra nhận xét và kết luận về sự tương đồng của cá thể (Kress, 2017). Đây là phương pháp được tiếp cận gần đây, và hiện vẫn còn nhiều tranh cãi trong việc sử dụng DNA barcoding trong phân loại (Kress, 2017). Sự phân loại và các tiêu chuẩn kèm theo, phụ thuộc vào tần suất khác biệt của các loài trong cùng một họ, và vùng trình tự được mang đi làm mã (Bellafronte và nnk, 2013). Trên động vật, vùng gen cytochrome C oxidase (viết tắt là Cox1 hay CO1) được xem là vùng gen barcode lõi vì có khả năng phân biệt được rất nhiều loài động vật khác nhau. Tuy nhiên đối với thực vật, các nghiên cứu cho thấy vùng gen trên các loài thực vật có rất ít biến đổi và không phù hợp cho phân loại (Sucher và nnk, 2012). Các nghiên cứu sau này cũng cho thấy khả năng sử dụng DNA barcode trên thực vật là kém hiệu quả hơn nhiều so với động vật. Chẳng hạn như hệ gen của ty thể ở thực vật vì một số lý do nào đó mà sự phát triển của hệ gen ty thể ở thực vật lại diễn ra đồng thời với sự di chuyển môi trường sống từ nước lên cạn của chúng, trong khi các vùng gen ty thể ở động vật lại có tính bảo tồn cao. Bên cạnh đó, hệ genome ở thực vật chịu nhiều ảnh hưởng của hình thức sinh sản đơn tính hay hữu tính, đồng thời có sự tương đồng cao giữa các loài hơn so với động vật. Chính vì vậy mà hệ gen lạp thể lại được chú ý như nguồn trình tự có thể ứng dụng trong DNA barcode, tuy nhiên vẫn gặp nhiều khó khăn vì tính tương đồng trong hệ gen plasmid và nhiều nhóm thực vật hầu như không có các đặc trưng, sai khác trong trình tự plasmid. Hiện nay CBOL chỉ công nhận hai vùng gene trên lạp thể là matK và rbcL như DNA barcode chính cho phân loại thực vật đồng thời đề xuất thêm một số vùng gen khác là rbcL trên lạp thể, ITS trên genome và hai vùng non-coding atpF-atpH và trnH-psbA (Sucher và nnk, 2012). 2. KHOẢNG CÁCH DI TRUYỀN GIỮA HAI VÙNG TRÌNH TỰ Các trình tự marker gene chỉ có ý nghĩa phân biệt khi khoảng cách di truyền nằm trong giới hạn nhất định. Khoảng cách giữa các mã vạch DNA được xem như khoảng cách di truyền xét trên một vùng gen marker dùng cho phân biệt loài (Hebert và nnk, 2003). Khoảng cách mã vạch được ghi nhận từ các loài hay các cụm marker gen khác nhau có sự biến động lớn. Trong điều kiện lý tưởng, khoảng cách 4% là tỉ lệ sai khác thấp nhất để có thể phân biệt hai loài khác nhau, tuy nhiên trên các marker gen không đặc hiệu thì con số này có thể lên hơn 10% (Meyer và nnk, 2005). Để giảm thiểu các tác động khách quan gây ảnh hưởng lên việc phân biệt loài, việc xác 37
- định khoảng cách di truyền trong nội bộ loài (giữa các thứ, chủng cùng loài) là cần thiết để làm thước đo khi so sánh loài này với các loài khác (Steinke và nnk, 2009). 10X là khoảng đề xuất để phân biệt một loài là khác biệt so với quần thể đang tham chiếu (Shen và nnk, 2016). Hình 2. Một số mô hình đề xuất trong việc tính toán khoảng cách di truyền giữa các trình tự (A); ví dụ cụ thể cho việc lựa chọn mô hình phù hợp cho trình tự phân tích (B) Để đo lường được khoảng cách giữa hai trình tự, các mô hình đã được đưa ra từ đơn giản đến phức tạp như đo khoảng cách p (p-distance) bằng cách lấy tỉ lệ nucleotide sai khác trên tổng số nucleotide mang so sánh (Masatoshi và nnk, 2002), mô hình JC69, mô hình K80, mô hình HKY85, mô hình TN93 và nhiều mô hình khác. Trong đó, mô hình hai tham số K2P (K80 của Kimura) được xem là mô hình phù hợp trong việc phân tích khoảng cách giữa hai loài gần nhau (Shen và nnk, 2016). Trong mô hình này, Kimura đã phân biệt riêng sự thay đổi nucleotide thành hai dạng transitions (thay đổi giữ hai nucleotide có cùng dạng vòng thơm là purine hoạc pyrimidine) hoặc transversions (thay đổi nucleotide khác dạng vòng thơm) từ đó hình thành hai tỷ lệ thay đổi tương ứng hai biến số trong mô hình (Kimura, 1981). Hình 2A đề cập đến các mô hình và tham số tương ứng mà mô hình đó quan tâm trong việc tính toán khoảng cách di truyền. 3. CÂY PHÁT SINH PHÂN TỬ: Ý NGHĨA VÀ SỰ HÌNH THÀNH 3.1. Cây phát sinh phân tử Thuật ngữ phát sinh phân tử được dùng để mô tả việc ứng dụng các thuật toán trong so sánh các trình tự nucleotide (hoặc amino acid) từ đó nêu lên mối quan hệ tiến hóa của các trình tự mang đi so sánh (Brown, 2002). Kết quả các mối liên hệ trong di truyền của các nhóm trình tự được hình thành và mô tả thông qua dạng đồ thị được gọi là cây phát sinh phân tử (Harrison và nnk, 2006; Masatoshi và Sudhir, 2002). Cả trình tự polypeptide và nucleotide đều có thể được sử dụng cho mục tiêu xác định mối liên hệ về di truyền giữa các nhóm mẫu mang đi phân tích, tuy nhiên vẫn còn nhiều tranh cãi xung quanh tính chính xác trong việc sử dụng hai trình tự này cho phân tích bởi lẽ có tới 20 ký tự cho amino acid trong khi chỉ có 4 kí tự cho nucleic acid (Harrison và Langdale, 2006). Cấu trúc cây phát sinh phân tử được cấu tạo từ các nút (node) và các nhánh (branch), trong khi các nhánh đại diện cho sự ổn định của trình tự thì các 38
- nút là vị trí bắt đầu cho một trình tự mới khác biệt (xem xét là loài mới), chiều dài của nhánh cho biết được khoảng cách khác biệt giữa các nút (Brown, 2002; Yang và nnk, 2012). Cây phát sinh phân tử có thể được biểu diễn ở dạng có gốc hoặc không có gốc, số lượng cấu trúc có thể hình thành ở dạng cây có gốc là nhiều hơn so với cây không gốc (Masatoshi và Sudhir, 2002). Quá trình xây dựng cây phát sinh phân tử có thể tóm gọn bao gồm việc lựa chọn vùng trình tự phân tích, xếp gióng cột các vùng trình tự, lựa chọn mô hình phân tích và cuối cùng là xây dựng cây phát sinh phân tử (Ray, 2014). 3.2. Mô hình thiết cập cây phát sinh phân tử Các phương pháp tính toán được áp dụng để phân tích tất cả các cặp trình tự được đưa vào và xây dựng cây phát sinh phân tử từ các dữ liệu phân tích được (Yang và Rannala, 2012). Phương pháp ma trận khoảng cách (bao gồm cả neighbour joining (NJ)) là phương pháp tính toán khoảng cách di truyền giữ các trình tự dự trên tỉ lệ khác biệt về loại nucleotide (Harrison và Langdale, 2006; Saitou và nnk, 1987). Đặc điểm của phương pháp là đơn giản và nhanh chóng dựa trên các mô hình phân tích như mô hình JC69, mô hình HKY85,…(Harrison và Langdale, 2006; Yang và Rannala, 2012). Phương pháp này thường được sử dụng cho cỡ mẫu lớn và mức độ tiến hóa của trình tự nhỏ (Yang và Rannala, 2012). Phương pháp maximum parsimony tối thiểu hóa số lượng các thay đổi trên cây phát sinh hay nói cách khác là các loài phân tích sẽ được xếp cạnh nhau lần lượt để hình thành cây phát sinh phân tử với ít nhánh nhất. Đây là phương pháp nhanh chóng và đơn giản trong áp dụng, tuy nhiên có nhiều tranh cãi xung quanh tính hợp lý và rõ ràng của giả định được đặt ra (Yang và Rannala, 2012). Hình 3. Sự khác biệt trong hướng tiếp cận của phương pháp maximum parsimony và phương pháp maximum likelihood Ngược lại với phương pháp maximum parsimony, phương pháp maximum likelihood giúp ước lượng các thông số nhằm đưa ra một mô hình cây phát sinh mà có xác xuất dễ xảy ra nhất từ các dữ liệu cung cấp (Harrison và Langdale, 2006). Phương pháp này cung cấp các giả định rõ ràng và có kho mô hình phân tích phong phú do đó được ứng dụng rộng rãi trong việc xây dựng cây phát sinh phân tử, bên cạnh đó việc vận hành phương pháp này thường kèm theo một số lượng phép tính lớn đòi hỏi có thiết bị phân tích phù hợp, bên cạnh đó việc xác định sai mô hình phân tích thì các phương pháp thống kê của phương pháp trở nên không hiệu quả (Yang và Rannala, 2012). Bootstrap là phương pháp hỗ trợ nhằm tăng độ tin cậy cho các điểm 39
- nút trong cây phát sinh phân tử. Phương pháp này thực hiện thông qua việc tạo các bộ dữ liệu giả từ bộ dữ liệu gốc đầu vào và tiến hành phân tích trên các bộ dữ liệu này nhằm xác định ra cấu trúc cây phát sinh có tỉ lệ xuất hiện cao nhất (Tsagkanos, 2008). Bên cạnh các phương pháp nêu trên, một số phương pháp, thuật toán khác cũng được ứng dụng, hỗ trợ trong quá trình phân tích mối liên hệ di truyền giữa các đoạn trình tự như phương pháp Bayesian thông qua ánh xạ các thông số (Yang và Rannala, 2012). Việc thực hiện phân tích di truyền trong chứng minh, phân biệt và xây dựng mối liên hệ loài khá phức tạp, xong nhìn chung cần trải qua các giai đoạn chính bao gồm xác định vùng trình tự có khoảng cách di truyền thích hợp cho việc phân loại, lựa chọn mô hình phân tích, lựa chọn phương pháp tiếp cận trong việc xây dựng cây phát sinh phân tử. TÀI LIỆU THAM KHẢO 1. Bellafronte, E., Mariguela, T., Pereira, L., Oliveira, C., & Moreira-Filho, O. (2013). DNA barcode of Parodontidae species from the La Plata river basin - applying new data to clarify taxonomic problems. Neotropical Ichthyology, 11(3), 497-506. 2. Brown, T. A. (2002). Genomes (2nd ed.). Oxford: Wiley-Liss. 3. Harrison, C. J., & Langdale, J. A. (2006). A step by step guide to phylogeny reconstruction. Plant J, 45(4), 561-572. 4. Hebert, P. D., Cywinska, A., Ball, S. L., & deWaard, J. R. (2003). Biological identifications through DNA barcodes. Proc Biol Sci, 270(1512), 313-321. 5. Kimura, M. (1981). Estimation of evolutionary distances between homologous nucleotide sequences. Proceedings of the National Academy of Sciences of the United States of America, 78(1), 454-458. 6. Kress, W. J. (2017). Plant DNA barcodes: Applications today and in the future. Journal of Systematics and Evolution, 55(4), 291-307. 7. Kress, W. J., & Erickson, D. L. (2012). DNA barcodes: methods and protocols (2012/06/12 ed. Vol. 858). 8. Masatoshi, N., & Sudhir, K. (2002). Molecular evolution and phylogenetics (Vol. 25). USA: Oxford University Press,. 9. Meyer, C. P., & Paulay, G. (2005). DNA Barcoding: Error Rates Based on Comprehensive Sampling. PLOS Biology, 3(12), e422. 10. Ray, S. (2014). Molecular markers in phylogenetic studies-a review. Journal of Phylogenetics & Evolutionary Biology, 2(2), 1-9. 11. Saitou, N., & Nei, M. (1987). The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol Biol Evol, 4(4), 406-425. 12. Shen, Y., Guan, L., Wang, D., & Gan, X. (2016). DNA barcoding and evaluation of genetic diversity in Cyprinidae fish in the midstream of the Yangtze River. Ecology and Evolution, 6(9), 2702-2713. 13. Steinke, D., Zemlak, T. S., & Hebert, P. D. N. (2009). Barcoding nemo: DNA-based identifications for the ornamental fish trade. PLOS ONE, 4(7), e6300. 14. Sucher, N., Hennell, J., & Carles, M. (2012). DNA Fingerprinting, DNA Barcoding, and Next Generation Sequencing Technology in Plants. Methods in molecular biology (Clifton, N.J.), 862, 13-22. 15. Tsagkanos, A. (2008). The Bootstrap Maximum Likelihood Estimator: the case of logit. Applied Financial Economics Letters, 4(3), 209-212. 16. Yang, Z., & Rannala, B. (2012). Molecular phylogenetics: principles and practice. Nature Reviews Genetics, 13(5), 303-314. 40

Thêm tài liệu vào bộ sưu tập có sẵn:

Báo xấu

LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
