36
TNG QUAN V MÃ DNA TRONG VIC PHÂN LOI
VÀ XÂY DNG CÂY PHÁT SINH PHÂN T
Bùi Th Kim Lý1
1. Khoa Y ợc, Trường Đại hc Th Du Mt, liên h email: lybtk@tdmu.edu.vn
TÓM TT
Nhu cầu định danh sinh vt đã đang dn tr nên quan trng kng ch trong các nghiên
cu v sinh thái, bo tn đa dng sinh hc mà còn ng dụng trong đời sống con người như pn
loi vi sinh vt hay truy xut ngun gc nông, thu sn. S phát trin nhanh chóng ca khoa hc
ng ngh đã cho phép ng dng nhiu k thut hin đại trong phân tích trình t DNA và mi liên
h ca chúng. Vic xác định khong cách di truyn gia các trình t có ý nghĩa trong việc y
dng y phát sinh phân t, t đó tả đưc mi quan h tiến hoá gia các trình t mang đi phân
tích. i tng hp này cung cp c khái nim chung nht v DNA, khong cách di truyn ca
chúng và vic xây dng mi liên h tiến hoá gia các trình t, nhm định hưng trong ng dng
nghiên cứu đa dạng sinh hc, khẳng đnh loài mi, hay truy xut ngun gc đng, thc vt.
T khóa: DNA barcoding, định danh, phylogeny, khong cách di truyn
1. MÃ DNA TRONG PHÂN LOI, TRUY XUT NGUN GC THC VT
S phát trin ca khoa hc công ngh hiện đại ngày nay đã m ra các hướng tiếp cn mi
trong vic ng dng các k thut sinh hc phân t vào vic phân loại định danh sinh vt.
DNA fingerprinting là mt trong nhng k thuật được ng dụng đầu tiên và được xem là công
c độc lp trong việc điều tra pháp y, nghiên cu và nhiều lĩnh vực khác (Sucher và nnk, 2012).
Sau s xut hin ca k thut khuyếch đại PCR và gii trình t (Sequencing) thì khái nim v
DNA Barcoding đã ra đời và được ng dụng như một phương tiện h tr đầy trin vng trong
vic phân loi các loài và cá th (Kress và nnk, 2012; Sucher và nnk, 2012). Hin nay bên cnh
DNA Barcoding DNA Fingerprinting, k thut gii trình t gen thế h mi (NGS) cũng được
ng dng nhiu trong vic phân loi, và nghiên cu sinh thái các loài (Sucher và nnk, 2012).
nh 1. Các địnhng tiếp cận đi đôi với k thuật pn tích trong quá tnh định danh sinh vt
37
DNA barcoding khái niệm đưc t lần đầu m 2003 nhằm ch các vùng trình t
gen ngn thuc các vùng tiêu chun trong b gen, được dùng như công cụ để xác định và phân
bit các loài vi nhau (Sucher nnk, 2012). K t lúc ra đời, DNA barcoding tr thành k
thuật được xây dng và phát trin mnh m nhm thay thế DNA fingerprints. Năm 2004, hip
hội Barcode for life (CBOL) ra đi nhm xây dựng các định hướng, tiêu chun trong h thng
nghiên cu qun barcode ca sinh vật. Năm 2007, dự án tiêu chun DNA barcode ca
thc vt trên cạn được CBOL công b (Sucher nnk, 2012). Nghiên cứu DNA barcoding được
xem mang nhiu trin vng trong nhiu ngành nghiên cứu như: nghiên cu tiến a thông
qua tn s thay đổi trình t ca loài thông qua thi gian; nghiên cứu đa dạng sinh hc thông qua
vic phân biệt, định danh các cá th và d đoán các loài mới phát hin; ch du theo dõi, nghiên
cứu các đối tượng đặc bit; hoặc để truy xut ngun gc, nhiu ng dng khác (Kress, 2017).
Để một DNA barcoding được to ra áp dng thì đòi hỏi phi có hai bước cơ bản: bước 1
xây dựng thư viện vch gm tp hp tt c trình t các loài liên quan trên mt hay mt
nhóm gen đánh dấu (marker) mục tiêu xác đnh, các nhóm th cung cp trình t này phi
được xác định loài c th và có các giy t chng nhận đi kèm, đây s là các h sơ cần thiết đi
suốt cùng barcode đưc cp; bước 2 nhn din cá th mi thông qua vic gii trình t vùng
marker thuc mã vch bước 1 sau đó dùng các thuật toán để ghép ni, gióng ct trình t ca
th mới thư viện mã vốn để đưa ra nhn xét kết lun v s tương đồng ca th
(Kress, 2017). Đây phương pháp được tiếp cn gần đây, hin vn còn nhiu tranh cãi trong
vic s dng DNA barcoding trong phân loi (Kress, 2017). S phân loi các tiêu chun kèm
theo, ph thuc vào tn sut khác bit ca các loài trong cùng mt h, vùng trình t được
mang đi làm mã (Bellafronte và nnk, 2013).
Trên động vt, vùng gen cytochrome C oxidase (viết tt Cox1 hay CO1) được xem
vùng gen barcode lõi kh năng phân biệt được rt nhiều loài động vt khác nhau. Tuy
nhiên đối vi thc vt, các nghiên cu cho thy vùng gen trên các loài thc vt rt ít biến
đổi và không phù hp cho phân loi (Sucher và nnk, 2012). Các nghiên cứu sau này cũng cho
thy kh năng sử dng DNA barcode trên thc vt là kém hiu qu hơn nhiều so với động vt.
Chng hạn như h gen ca ty th thc vt vì mt s lý do nào đó mà s phát trin ca h gen
ty th thc vt li diễn ra đồng thi vi s di chuyển môi trường sng t nước lên cn ca
chúng, trong khi các vùng gen ty th động vt li tính bo tn cao. Bên cạnh đó, hệ genome
thc vt chu nhiu ảnh hưởng ca hình thc sinh sản đơn tính hay hữu tính, đồng thi có s
tương đồng cao giữa các loài hơn so với động vt. Chính vì vy mà h gen lp th li đưc chú
ý như nguồn trình t th ng dng trong DNA barcode, tuy nhiên vn gp nhiều khó khăn
tính tương đồng trong h gen plasmid nhiu nhóm thc vt hầu như không các đc
trưng, sai khác trong trình t plasmid. Hin nay CBOL ch công nhn hai vùng gene trên lp
th matK rbcL như DNA barcode chính cho phân loi thc vật đồng thời đề xut thêm
mt s vùng gen khác là rbcL trên lp th, ITS trên genome và hai vùng non-coding atpF-atpH
trnH-psbA (Sucher và nnk, 2012).
2. KHONG CÁCH DI TRUYN GIA HAI VÙNG TRÌNH T
c trình t marker gene ch ý nghĩa phân biệt khi khong cách di truyn nm trong gii
hn nhất định. Khong cách gia các vạch DNA được xem như khoảng cách di truyn xét
trên mt vùng gen marker dùng cho phân bit loài (Hebert nnk, 2003). Khong cách mã vch
đưc ghi nhn t các loài hay các cm marker gen khác nhau s biến động lớn. Trong điều
kiện lý tưởng, khong cách 4% t l sai khác thp nht để có th phân bit hai loài khác nhau,
tuy nhiên trên các marker gen không đặc hiu thì con s này có th n hơn 10% (Meyer và nnk,
2005). Để gim thiểu các c động khách quan gây ảnh hưởng lên vic phân bit loài, vic xác
38
định khong cách di truyn trong ni b loài (gia các th, chng cùng loài) là cn thiết để làm
thưc đo khi so sánh loài này vi các loài khác (Steinke nnk, 2009). 10X là khoảng đề xut để
phân bit mt loài là khác bit so vi qun th đang tham chiếu (Shen nnk, 2016).
nh 2. Mt s hình đ xut trong vicnh toán khong cách di truyn gia các trình t (A);
ví d c th cho vic la chn mô hình phù hp cho trình t phân tích (B)
Để đo lường được khong cách gia hai trình tự, các mô hình đã được đưa ra từ đơn giản
đến phc tạp như đo khoảng cách p (p-distance) bng cách ly t l nucleotide sai khác trên
tng s nucleotide mang so sánh (Masatoshi nnk, 2002), hình JC69, hình K80,
hình HKY85, mô hình TN93 và nhiều mô hình khác. Trong đó, mô hình hai tham số K2P (K80
của Kimura) được xem là mô hình phù hp trong vic phân tích khong cách gia hai loài gn
nhau (Shen nnk, 2016). Trong hình này, Kimura đã phân biệt riêng s thay đổi nucleotide
thành hai dạng transitions (thay đổi gi hai nucleotide có cùng dạng vòng thơm là purine hoc
pyrimidine) hoặc transversions (thay đổi nucleotide khác dạng vòng thơm) từ đó hình thành hai
t l thay đổi tương ng hai biến s trong mô hình (Kimura, 1981). Hình 2A đề cập đến các
hình và tham s tương ứng mô hình đó quan tâm trong việc tính toán khong cách di truyn.
3. CÂY PHÁT SINH PHÂN TỬ: Ý NGHĨA VÀ SỰ HÌNH THÀNH
3.1. Cây phát sinh phân t
Thut ng phát sinh phân t được dùng để t vic ng dng các thut toán trong so
sánh các trình t nucleotide (hoc amino acid) t đó nêu lên mối quan h tiến hóa ca các trình
t mang đi so sánh (Brown, 2002). Kết qu các mi liên h trong di truyn ca các nhóm trình
t được hình thành và mô t thông qua dng đồ th được gi là cây phát sinh phân t (Harrison
nnk, 2006; Masatoshi Sudhir, 2002). C trình t polypeptide nucleotide đu th
được s dng cho mục tiêu xác định mi liên h v di truyn gia các nhóm mẫu mang đi phân
tích, tuy nhiên vn còn nhiu tranh cãi xung quanh tính chính xác trong vic s dng hai trình
t này cho phân tích bi lti 20 ký t cho amino acid trong khi ch 4 kí t cho nucleic
acid (Harrison Langdale, 2006). Cu trúc cây phát sinh phân t được cu to t các nút
(node) và các nhánh (branch), trong khi các nhánh đi din cho s ổn định ca trình t thì các
39
nút v trí bắt đầu cho mt trình t mi khác bit (xem xét loài mi), chiu dài ca nhánh
cho biết được khong cách khác bit gia các nút (Brown, 2002; Yang và nnk, 2012). Cây phát
sinh phân t có th được biu din dng có gc hoc không có gc, s ng cu trúc có th
hình thành dng cây có gc là nhiều hơn so với cây không gc (Masatoshi và Sudhir, 2002).
Quá trình xây dng cây phát sinh phân t có th tóm gn bao gm vic la chn vùng trình t
phân tích, xếp gióng ct các vùng trình t, la chn hình phân tích cui cùng là xây dng
cây phát sinh phân t (Ray, 2014).
3.2. Mô hình thiết cp cây phát sinh phân t
Các phương pháp tính toán đưc áp dụng để phân ch tt c các cp trình t được đưa
vào và xây dng cây phát sinh phân t t các d liệu phân tích được (Yang và Rannala, 2012).
Phương pháp ma trn khong cách (bao gm c neighbour joining (NJ)) phương pháp tính
toán khong cách di truyn gi các trình t d trên t l khác bit v loi nucleotide (Harrison
Langdale, 2006; Saitou nnk, 1987). Đặc điểm của phương pháp đơn giản nhanh
chóng dựa trên các hình phân tích như hình JC69, hình HKY85,…(Harrison
Langdale, 2006; Yang và Rannala, 2012). Phương pháp này thường được s dng cho c mu
ln mức độ tiến hóa ca trình t nh (Yang Rannala, 2012). Phương pháp maximum
parsimony ti thiu hóa s ợng các thay đổi trên cây phát sinh hay nói cách khác các loài
phân ch s được xếp cnh nhau lần lượt để hình thành cây phát sinh phân t vi ít nhánh nht.
Đây là phương pháp nhanh chóng và đơn giản trong áp dng, tuy nhiên nhiu tranh cãi xung
quanh tính hp lý và rõ ràng ca gi định được đặt ra (Yang và Rannala, 2012).
Hình 3. S khác biệt trong hướng tiếp cn của phương pháp maximum parsimony và phương
pháp maximum likelihood
Ngược li với phương pháp maximum parsimony, phương pháp maximum likelihood
giúp ước lượng các thông s nhằm đưa ra một mô hình cây phát sinh mà có xác xut d xy ra
nht t các d liu cung cp (Harrison và Langdale, 2006). Phương pháp này cung cấp các gi
định rõ ràng và có kho mô hình phân tích phong phú do đó được ng dng rng rãi trong vic
xây dng cây phát sinh phân t, bên cạnh đó việc vận hành phương pháp này thường kèm theo
mt s ng phép tính lớn đòi hỏi có thiết b phân tích phù hp, bên cạnh đó việc xác định sai
hình phân tích thì các phương pháp thống của phương pháp trở nên không hiu qu
(Yang và Rannala, 2012). Bootstrap là phương pháp hỗ tr nhằm tăng độ tin cậy cho các điểm
40
nút trong cây phát sinh phân tử. Phương pháp này thực hin thông qua vic to các b d liu
gi t b d liu gc đầu vào tiến hành phân tích trên các b d liu này nhằm xác định ra
cu trúc cây phát sinh có t l xut hin cao nht (Tsagkanos, 2008). Bên cạnh các phương pháp
nêu trên, mt s phương pháp, thuật toán khác cũng được ng dng, h tr trong quá trình phân
tích mi liên h di truyn giữa các đoạn trình t như phương pháp Bayesian thông qua ánh x
các thông s (Yang và Rannala, 2012).
Vic thc hin phân tích di truyn trong chng minh, phân bit xây dng mi liên h
loài khá phc tp, xong nhìn chung cn trải qua các giai đoạn chính bao gồm xác định vùng
trình t có khong cách di truyn thích hp cho vic phân loi, la chn mô hình phân tích, la
chọn phương pháp tiếp cn trong vic xây dng cây phát sinh phân t.
TÀI LIU THAM KHO
1. Bellafronte, E., Mariguela, T., Pereira, L., Oliveira, C., & Moreira-Filho, O. (2013). DNA barcode
of Parodontidae species from the La Plata river basin - applying new data to clarify taxonomic
problems. Neotropical Ichthyology, 11(3), 497-506.
2. Brown, T. A. (2002). Genomes (2nd ed.). Oxford: Wiley-Liss.
3. Harrison, C. J., & Langdale, J. A. (2006). A step by step guide to phylogeny reconstruction. Plant J,
45(4), 561-572.
4. Hebert, P. D., Cywinska, A., Ball, S. L., & deWaard, J. R. (2003). Biological identifications through
DNA barcodes. Proc Biol Sci, 270(1512), 313-321.
5. Kimura, M. (1981). Estimation of evolutionary distances between homologous nucleotide
sequences. Proceedings of the National Academy of Sciences of the United States of America, 78(1),
454-458.
6. Kress, W. J. (2017). Plant DNA barcodes: Applications today and in the future. Journal of
Systematics and Evolution, 55(4), 291-307.
7. Kress, W. J., & Erickson, D. L. (2012). DNA barcodes: methods and protocols (2012/06/12 ed. Vol.
858).
8. Masatoshi, N., & Sudhir, K. (2002). Molecular evolution and phylogenetics (Vol. 25). USA: Oxford
University Press,.
9. Meyer, C. P., & Paulay, G. (2005). DNA Barcoding: Error Rates Based on Comprehensive
Sampling. PLOS Biology, 3(12), e422.
10. Ray, S. (2014). Molecular markers in phylogenetic studies-a review. Journal of Phylogenetics &
Evolutionary Biology, 2(2), 1-9.
11. Saitou, N., & Nei, M. (1987). The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Mol Biol Evol, 4(4), 406-425.
12. Shen, Y., Guan, L., Wang, D., & Gan, X. (2016). DNA barcoding and evaluation of genetic diversity
in Cyprinidae fish in the midstream of the Yangtze River. Ecology and Evolution, 6(9), 2702-2713.
13. Steinke, D., Zemlak, T. S., & Hebert, P. D. N. (2009). Barcoding nemo: DNA-based identifications
for the ornamental fish trade. PLOS ONE, 4(7), e6300.
14. Sucher, N., Hennell, J., & Carles, M. (2012). DNA Fingerprinting, DNA Barcoding, and Next Generation
Sequencing Technology in Plants. Methods in molecular biology (Clifton, N.J.), 862, 13-22.
15. Tsagkanos, A. (2008). The Bootstrap Maximum Likelihood Estimator: the case of logit. Applied
Financial Economics Letters, 4(3), 209-212.
16. Yang, Z., & Rannala, B. (2012). Molecular phylogenetics: principles and practice. Nature Reviews
Genetics, 13(5), 303-314.