1/6/2019
Mục tiêu của môn học:
Tin sinh học (Bioinformatics)
Thông tin về học phần
Giới thiệu khái quát cách tìm kiếm nguồn thông tin trên
Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn.
Mã học phần: SH3036
Số tín chỉ: 3 (2LT + 1TH)
Trang bị kiến thức cơ bản và một số công cụ thông dụng của
Học phần tiên quyết:
tin sinh học để:
+ Sinh học phân tử I, II (SH2003; SH2004),
Khai thác và xử lý các thông tin sinh học
+ Kỹ thuật di truyền - nguyên lý và ứng dụng
Ứng dụng trong lĩnh vực nghiên cứu, trong phòng
thí nghiệm và thực tiễn.
Nội dung của môn học
Tóm tắt nội dung môn học
Phần 1. Lý thuyết
Phần 1. Lý thuyết
Chuyên cần: dự lớp, thảo luận…:
10%
Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học Phần 3. Thực hành trên máy tính 1. Giới thiệu đôi nét về Internet và phương pháp tìm kiếm thông tin cơ bản 2. Nền tảng sinh học của Bioinformatics Nhiệm vụ của sinh viên Dự lớp, thảo luận Thực hành, làm bài tập 3. Sự ra đời và vai trò của Bioinformatics 4. Cơ sở dữ liệu sinh học (CSDL) Hình thức thi: Thi viết và thực hành trên máy tính 5. So sánh trình tự (sequence alignment) Thang điểm đánh giá: Thang điểm 10,0 6. Phân tích gene và promoter Kiểm tra giữa kỳ, báo cáo thực hành/tiểu luận…: 20% Điểm thi cuối kỳ (lý thuyết + thực hành) 70%
Tóm tắt nội dung môn học
Tóm tắt nội dung môn học
Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học
Phần 1. Lý thuyết
1
1. Tìm kiếm thông tin về các gene, các bài báo và những thông tin liên quan 7. Nghiên cứu mối quan hệ tiến hóa của sinh vật ở mức độ phân tử 2. Tìm kiếm các CSDL tương đồng (molecular phylogenetics) 3. So sánh các trình tự sinh học 8. Tin sinh học trong nghiên cứu cấu trúc phân tử 4. Phân tích các trình tự ADN 9. Nghiên cứu genomics và proteomics 5. Phân tích trình tự protein 10. Sinh học hệ thống (Systems Biology): Phân tích chức năng của các 6. Phân tích gene và promoter genome 7. Làm quen với cấu trúc 3 chiều của phân tử protein
1/6/2019
Tài liệu học tập
Tóm tắt nội dung môn học
1. J.Xiong (2006). Essential bioinformatics, Cambridge University
Press.
Phần 3. Thực hành
2. Hui-Huang Hsu (2006). Advance in data mining technologies in
bioinformatics. Idea Group Inc.
3. J. M.Claverie, C. Notredame (2007). Bioinformatics For
Dummies®, 2nd Edition. Wiley Publishing, Inc.
4. S.Q.Ye (2008). Bioinformatics: A Practical Approach. Taylor &
Francis Group.
5. J.Pevsner (2009). Bioinformatics and functional genomics. A
John Wiley & Sons, Inc.
6. P.M.Selzer, R.J. Marhöfer, A. Rohwer (2009). Applied
1. Các bài tập thực hành bao gồm những bài tập liên quan đến việc ứng dụng các công cụ để phân tích CSDL sinh học. 2. Phần thực hành cần thao tác trực tiếp trên máy tính có kết nối Internet. Trước mỗi buổi thực hành sẽ có phần bài tập và tài
bioinformatics: An introduction. Springer-Verlag Berlin Heidelberg.
7. P. Kangueane (2009). Bioinformation Discovery. Data to
liệu hướng dẫn thực hành. 3. Thực hành ở hội trường của Khoa, lớp chia thành 3 nhóm
Knowledge in Biology. Springer Dordrecht Heidelberg London New York.
8. Phan Trọng Nhật, Nguyễn Đức Bách. Bài giảng Tin sinh học, Đại
học Nông nghiệp Hà Nội.
2
Chương 1
1.1. Lịch sử ra đời và phát triển
• Khái niệm
Giới thiệu Bioinformatics
• Những mốc lịch sử quan trọng
Khái niệm
Bioinformatics is the application of
computer science and information
technology to the field of biology and
medicine.
Khái niệm
Requirements
Bioinformatics liên quan đến: Thuật toán, CSDL, hệ thống thông tin, công nghệ Web, trí thông minh nhân tạo, phần mềm, khai thác CSDL, xử lý hình ảnh, mô hình, mô phỏng, xử lý thống kê, tạo ra các CSDL mới…
Java, XML, Perl, C, C++, Python, R, SQL and Mat Lab are the programming languages popularly used in this field.
A bioinformatician needs to have a basic and general sense of the ideas and approaches of science and engineering.
DNA computing neural computing evolutionary computing immuno-computing swarm-computing cellular-computing
1
1866: Gregor Mendel công bố các kết quả nghiên
cứu về tính di truyền của các “yếu tố di truyền” ở
đậu Hà Lan
Một vài mốc lịch sử quan trọng của sinh học phân tử
1950's
Maurice Wilkins (1916- ),
Rosalind Franklin
Rosalind Franklin (1920-1958),
Francis H. C. Crick (1916- ) (U.K)
Nhà nghiên cứu lý sinh học, vật lý học, hóa học, và
tinh thể học người Anh.
James D. Watson (1928- ) (U.S.)
Đóng góp quan trọng trong việc hiểu rõ về cấu trúc
phân tử của DNA, RNA cấu trúc virus, than đá, than
chì.
Franklin được biết đến nhiều nhất từ kết quả
nghiên cứu về những bức ảnh nhiễu xạ tia X của
DNA.
Watson và Crick dựa trên kết quả quan trọng này
Khám phá cấu trúc hóa học của DNA, khởi đầu một nhánh mới trong khoa học: Sinh học phân tử
để đưa ra giả thuyết về mô hình cấu trúc của phân
tử DNA (1953)
Khám phá cấu trúc DNA
1957: Arthur Kornberg (1918-2007 ) (U.S) đã tổng hợp được DNA trong ống nghiệm
Ông đã giành giải thưởng Nobel về
Book: The double helix
sinh lý năm 1959 cho đóng góp về:
“Các cơ chế trong tổng hợp sinh học
Cuộc chiến giữa Watson và Crick vs Linus Carl Pauling
của DNA”
2
Một số mốc trong lịch sử xác định trình tự amino acid
1955 F. Sanger (U.K) phát triển quy trình xác định amino
acid (insulin)
1975. F. Sanger phát triển phương pháp xác định trình tự
nucleotide.
Ông đã nhận 2 giải thưởng Nobel (1958, 1980) cho những đóng góp của mình
Đến nay có 4 người đã nhận được 2 giải thưởng
Nobel trong đời
1. Marie Curie (Physics, 1903 and Chemistry, 1911),
2. Linus Pauling (Chemistry, 1954 and Peace, 1962)
3. Frederick Sanger (2 Chemistry, 1956 and 1972)
4. John Bardeen (2 Physics, 1956 and 1972)
Mã di truyền (Genetic code)
Làm thế nào để xác định được mã di truyền?
Năm 1966
mã di truyền đã được phát hiện. Kết
quả này dẫn đến những đột phá quan
trọng trong kỹ nghệ di truyền
(genetic engineering)
1972 Paul Berg (1926- ) (U.S) đã tạo ra phân tử DNA tái tổ hợp
Khám phá mã di truyền
In 1980 ông đã cùng nhận giải thưởng Nobel cùng với Walter Gilbert và Frederick Sanger.
4 nucleotide trong phân tử DNA (RNA) và 20 amino acid trong chuỗi polypeptide đã được biết
Năm 1953, cấu trúc DNA đã được xác định
George Gamow giả thiết rằng sẽ phải là 3 chữ cái để mã cho 20 aa bởi vì 3 là số tự nhiên nhỏ nhất (43 = 64)
Giả thuyết này đã được Crick và Brenner cùng các tác giả khác chứng tỏ bằng thực nghiệm (1961)
Sử dụng hệ thống dịch mã không cần tế bào:
Poly UUUU… tạo ra phenlyalanine
Poly AAAA... tạo thành polylysine
Poly CCCC... tạo thành polyproline
3
Cuối những năm 1980, một hiệp hội quốc tế của một số phòng
thí nghiệm lớn đã đưa ra dự án xác định lập bản đồ genome
1983 Barbara McClintock (1902-1992) (U.S.) đã nhận được giải thưởng Nobel cho những phát hiện các yếu tố di truyền vận động
người.
Năm 1990, lần đầu tiên liệu pháp gen được đưa vào điều trị
Năm 1993 Kary Mullis phát minh quy trình PCR (Giải thưởng Nobel)
Năm 1994 FDA chấp nhận cho phép dùng cây chuyển gene trong thực phẩm (Cà chua)
Năm 1997: Động vật có vú lần đầu tiên được clone.
Mốc lịch sử xác định trình tự genome
4
1992
Welcome Trust và United Kingdom Medical Research Council thiết lập trung tâm
Sanger Centre để xác định trình tự genome ở quy mô lớn
1992
J. C. Venter sáng lập Viện nghiên cứu genome (The Institute for Genome Research
Cấu trúc DNA.
1953
(TIGR).
F. Sanger (độc lập), A. Maxam và W. Gilbert: phương pháp xác định trình tự DNA
1975
1995
Genome vi khuẩn đầu tiên được giải trình tự Haemophilus influenzae (bởi TIGR)
1977
Genome φ X-174 được xác định trình tự
Bản đồ liên kết (mức độ phân giải cao) của genome người được hoàn thành.
1980
Mỹ cấp bằng phát minh cho các vi khuẩn cải biến gen (cơ sở cho patent về gene)
Khoảng cách giữa các marker khoảng 600. 000 nucleotide.
1981
DNA ti thể người được xác định trình tự:16 569 base pairs.
Hoàn thành genome nấm men (genome đầu tiên của eukaryote)
1996
1984
Epstein-Barr virus genome : 172 281 base pairs
Hoàn thành xác định trình tự genome người
1998
1990
Dự án xác định trình tự genome người (dự kiến 15 năm)
Genome của Caenorhabditis elegans được công bố
1998
1991
J. C. Venter và cộng sự xác định các gen hoạt động dựa trên cơ sở các EST.
Genome của Drosophila melanogaster được công bố
1999
1992
Bản đồ liên kết (mức độ phân giải thấp) của genome người được hoàn thành.
1999
Bản nháp được hoàn thành (90% các gene được xác định trình tự với mức chính
1992
Khởi động dự án xác định trình tự genome Caenorhabditis elegans
xác >95%).
12/ 1999 Trình tự của NST số 1 ở người được công bố
2000
Bản nháp về trình tự DNA genome người được công bố
Genome người
◼ Một thư viện có 46 cuốn sách
(NST)
◼ Mỗi cuốn sách có 48 đến 250 triệu chữ (A,C,G,T). Toàn bộ thư viện có hơn 6 tỉ chữ
◼ Thư viện được đặt trong nhân của tế bào có kích thước rất nhỏ.
◼ Trong mỗ i tế bào củ a cơ thế
n (gồm 46
ngươ i chứ a 1 thư viế cuốn sách)
Những vấn đề tồn đọng trong phân tích genome
Những vấn đề tồn đọng trong phân tích genome
◼ Mối quan hệ tiến hóa giữa các sinh vật
◼ Xác định số lượng gene, vị trí phân bố trên NST và chức năng
◼ Nghiên cứu cấu trúc và chức năng protein
◼ Điều hòa hoạt động gene
◼ Proteomes của các sinh vật
◼ Cấu trúc NST và tổ chức của các gene, trình tự DNA trên NST
◼ Mối tương quan giữa các SNP với sức khỏe và bệnh tật
◼ Các dạng DNA không mã hóa, số lượng, phân bố, thông tin, chức năng của
◼ Dự đoán khả năng mẫn cảm bệnh dựa trên cơ sở so sánh đa hình trình tự
chúng.
gene.
◼ Xác định vị trí của các gene biểu hiện trên NST, các sự kiên liên quan đến sinh
tổng hợp protein, cải biến sau dịch mã
◼ Các gen liên quan đến các tính trạng phức tạp và các bệnh liên quan đến
◼ Tương tác của các protein trong một phức hợp với các phân tử khác
nhiều gen.
◼ Dư đoán chứ c năng gene và so sánh với kết quả thực nghiệm
◼ Sinh học hệ thống
5
Bioinformatics
Paulien Hogeweg (1979) đưa ra thuật ngữ
khi nghiên cứu các quá trình xử lý thông tin
trong các hệ thống sinh học
Những năm gần đây, một lượng lớn dữ liệu
sinh học được tạo ra (genomic, proteomic)
Để phân tích các CSDL này cần phải sử dụng các thuật toán, các công cụ thống kê, khoa học máy tính
1.2. Nhiệm vụ của bioinformatics
1.2. Nhiệm vụ của bioinformatics
◼
Xây dựng CSDL (Genomic, protein databases)
◼
Xây dựng CSDL về đột biến gene và các SNP
1. Quản lý CSDL
◼
Các trình duyệt cho genome (Genome browser)
◼
2. Phát triển các công cụ, thuật toán để khám phá những thông tin
So sánh trình tự (Sequence alignment)
◼
ẩn chứa trong các CSDL
Dự đoán gene (Ab initio gene prediction), xác định tổ chức gene trên NST,
genome.
◼
Xây dựng các mô hình về biểu hiện gene: SAGE, EST
◼
Dự đoán promoter (Promoter prediction)
◼
Xây dựng cấu trúc các đại phân tử và mô hình tương tác
◼
Các bước nghiên cứu sau: Tương tác CSDL và gene ontology
6
1.2. Nhiế
m vủ và các hướ ng nghiên cứ u bioinformatics
◼ Xây dư ng CSDL (Databases)
◼
Phân tích trình tư (sequence analysis)
◼ Mô tả genome (Genome annotation)
◼
Sinh học tiến hóa (Computational evolutionary biology
◼
Phân tích biểu hiện gene (Analysis of gene expression
◼
Phân tích điều hòa phiên mã (Analysis of regulation)
◼
Phân tích biểu hiện protein (Analysis of protein expression)
◼
Phân tích các đột biến trong ung thư (Analysis of mutations in cancer
◼ Dư đoán cấu trúc protein (Prediction of protein structure)
◼
So sánh genome (Comparative genomics
◼ Mô hình hóa các hệ thống sinh học (Modeling biological systems)
◼
Phân tích hình ảnh quy mô lớ n (High-throughput image analysis)
◼ Nghiên cứ u tương tác protein (Protein-protein interaction
Machine learning:
◼
Phát triển các phần mềm và công cụ (Software and tools)
Microarray
1.2. Nhiệm vụ của bioinformatics
1. Phân tích biểu hiện gene
◼ Microarray kết hợp với high throughput (HT) mass spectrometry
(MS) có thể cung cấp một bức tranh về sự có mặt của các protein
trong một mẫu sinh học
◼ CSDL về microarray và MS là vô cùng cần thiết
2. Phân tích các đột biến trong ung thư
3. Dự đoán cấu trúc phân tử protein
◼ Các đột biến điểm: tạo ra các gen đột biến có thể dẫn đến ung
thư.
◼ Các nhà tin sinh học tạo ra các hệ thống để quản lý các dữ
liệu trình tự và phát triển các thuật toán để so sánh các trình
tự này nhằm phát hiện các đa hình
◼ Các bậc cấu trúc protein ◼ Phát triển các thuốc điều trị mới ◼ Phát triển các enzyme mới ◼ Thuật toán cũng như các phần mềm, độ chính xác của cấu trúc của rất hạn chế
◼ Các thư viện SNPs là một trong những kho dữ liệu để phân
tích các đột biến điểm.
7
4. Mô phỏng, mô hình hóa hệ thống sinh học
3. So sánh genome
◼ Nghiên cứu mối quan hệ giữa cấu trúc và chức năng genome của các loài khác
nhau.
◼ Sử dụng các thuật toán, các cấu trúc dữ liệu, hiển thị và các công cụ
◼ Tìm kiếm gene là một trong những ứng dụng quan trọng trong nghiên cứu so sánh
giao tiếp để xây dựng, mô phỏng các hệ thống sinh học, tạo ra một
genome (phát hiện các vùng, yếu tố mã hóa, không mã hóa…)
mạng lưới các con đường trao đổi chất (enzyme, dẫn truyền tín hiệu,
◼ So sánh genome sẽ cho biết sự giống và khác nhau về các protein (kết hợp với các
mạng lưới điều hòa)
nghiên cứu thực nghiệm) để phát hiện chức năng và cơ chế sinh học.
◼ Mô phỏng các hệ thống sống đơn giản (hoạt động tế bào, dạng sống
◼ So sánh genome cũng phát hiện được vai trò của các gene điều hòa và các vùng
đơn giản)
điều hòa ở các SV khác nhau. → Xác định được chức năng của các yếu tố trong
genome.
6. Protein docking
◼ Cho đến nay hơn 10.000 cấu trúc 3 chiều của protein đã được xác định
5. Phân tích hình ảnh (High-throughput image analysis)
bằng các kỹ thuật kết tinh và cộng hưởng từ hạt nhân, nhiễu xạ tia X.
◼ Câu hỏi đặt ra là các phân tử này sẽ tương tác với nhau như thế nào trong
không gian nếu chỉ dựa vào cấu trúc 3 D?
◼ Sử dụng công nghệ máy tính để xử lý tự động lượng lớn của các
hình ảnh (mang nhiều thông tin) sử dụng trong y học và chẩn
đoán.
◼ Hiển thị các bản đồ, cấu trúc phân tử protein ở mức phân giải
cao
7. Phân tích toàn bộ trình tự genome
Các công cụ so sánh trình tự
Nhận dạng và dự đoán các gene và các yếu tố khác (Ab initio gene prediction)
Phân tích các EST
Phân tích đa hình
8. Phân tích các con đường trao đổi chất và điều hòa
Các hồ sơ (profilling) về biểu hiện gene (thư viện microarray)
Proteomic
Các mạng lưới trao đổi chất và điều hòa
8
8. Thao tác với các dữ liệu phức tạp
1.3. Xu hướ ng phát triển
◼ Tư phân tích trình tư genome đến việc điều trị ◼ Thuật toán và các thách thứ c trong khoa học máy tính ◼ Tương tác protein và các con đươ ng chuyển hóa ◼ Phân tích chứ c năng protein ◼ Ứ ng dụng trong nghiên cứ u và lâm sàng
Các hướng nghiên cứu của bioinformatics
Các công cụ của bioinformatics
Sequence alignment
◼ Phân tích trình tự sinh học (tìm trình tự giống nhau, tương đồng, so sánh
BLAST CS-BLAST HMMER FASTA
http://blast.ncbi.nlm.nih.gov/Blast.cgi ftp://toolkit.lmb.uni-muenchen.de/csblast/ http://hmmer.janelia.org/ www.ebi.ac.uk/fasta33
trình tự)
Multiple sequence MSAProbs alignment
◼ Mô tả genome (đánh dấu các gene và các thành phần cấu trúc của
DNA Alignment MultAlin DiAlign
http://msaprobs.sourceforge.net/ http://www.fluxus-ngineering.com/align.htm http://multalin.toulouse.inra.fr/multalin/multalin.html http://bibiserv.techfak.uni-bielefeld.de/dialign/
genome trên các NST)
Gene Finding
◼ Nghiên cứu sự biểu hiện của nhiều gene (đo các mức độ phiên mã
GenScan GenomeScan GeneMark
genes.mit.edu/GENSCAN.html http://genes.mit.edu/genomescan.html http://exon.biology.gatech.edu/
mRNA sử dụng các kỹ thuật: microarray, xác định trình tự các EST
(expressed cDNA), phân tính sự biểu hiện hàng loạt gene (SAGE).
Khai thác dữ liệu (Data mining)
Protein Domain
Pfam
http://pfam.sanger.ac.uk/
BLOCKS
http://blocks.fhcrc.org/
◼ Khai thác các kiến thức, hiểu biết từ các CSDL lớn
ProDom
http://prodom.prabi.fr/prodom/
current/html/home.php
◼ Tìm ra các mô hình hoặc mối liên quan giữa các dữ liệu (tìm công cụ, vật
liệu trong kho)
Pattern Identification
◼ Ứng dụng
Gibbs Sampler AlignACE MEME
http://bayesweb.wadsworth.org/gibbs/gibbs.html http://atlas.med.harvard.edu/ http://meme.sdsc.edu/
Genomic SLAM Analysis Multiz
http://bio.math.berkeley.edu/slam/ http://www.bx.psu.edu/miller_lab/
Motif finding
MEME/MAST eMOTIF
http://meme.sdsc.edu http://motif.stanford.edu
9
CSDL sinh học
Danh sách các CSDL trình tự sơ cấp
1. Trình tự DNA thô (raw)
2. Trình tự protein
3. Cấu trúc các đại phân tử sinh học
4. Các genome
5. Biểu hiện gene
6. Các CSDL khác: Các công trình nghiên cứu (Literature)
Các con đường trao đổi chất (Metabolic pathways)
Thăm các CSDL trình tự sinh học
NCBI
(sử dụng Internet)
http://www.ncbi.nlm.nih.gov/
EMBL
DDBJ
http://www.ebi.ac.uk/embl/
http://www.ddbj.nig.ac.jp/
10
Ensembl
UCSC
http://www.ensembl.org/index.html
http://www.ensembl.org/index.html
11
1/6/2019
Axit nucleic
Nền tảng sinh học của Bioinformatics
1. Axit nucleic
2. Protein
3. Cấu trúc gen của prokaryote và eukaryote
4. Phiên mã và dịch mã
1
2
Tổ chức của genome
Axit nucleic
ADN
3
4
http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html
Câu hỏi ?
1. Thế nào là nucleotide? 2. Phân tử DNA có 2 sợi. Sợi nào sẽ được phiên mã? 3. Sợi DNA mang nghĩa (sense/coding) và đối nghĩa (antisense/ anti coding)? 4. Quá trình phiên mã diễn ra theo hướng nào? và bắt đầu từ đầu nào của phân tử DNA antisense? 5. Quá trình dịch mã được diễn ra từ chiều nào của sợi mRNA? 6. Trình tự axit amin của chuỗi peptid được tổng hợp được bắt đầu từ chiều nào, đầu C hay N tận cùng?
Nucleotide
5
6
1
1/6/2019
Sợi mang nghĩa và sợi đối nghĩa (sense and antisense)
Một trình tự DNA được gọi là mang nghĩa (sense/ coding) nếu trình tự của nó giống hệ với trình tự của một phân tử mRNA (được dịch mã thành protein) Trình tự của sợi còn lại được gọi là đối nghĩa (antisense/ anti coding).
sense ATGCTCATCGATC 5‘ 3‘
3‘ 5‘
AUGCUCAUCGAUC
7
8
antisense TACGAGTAGCTAG 5‘ 3‘ mRNA
Một số trình tự DNA ở prokaryote, eukaryote, plasmid và nhiều virus khó phân biệt được khái niệm sợi mang nghĩa và sợi đối nghĩa vì có hiện Cả hai trình tự sense và antisense đều tồn tại ở những phần khác tượng các chồng gen (overlapping gene). nhau của cùng một sợi DNA (nói cách khác cả 2 sợi đều chứa các trình tự sense và antisense). Trong những trường hợp này một số trình tự DNA có thể mã hóa cho một protein trên sợi này và một protein khác trên sợi kia (theo chiều sense ngược lại)
+ NH3
5‘ 3‘ 3‘ 5‘ antisense mRNA 5‘ 3‘ 3‘ 5‘ Ở cả prokaryote và eukaryote các trình tự antisense RNA đều được 3‘ 5‘
tạo ra nhưng chức năng chưa rõ. Có khả năng các antisense RNA liên
quan đến việc điều hòa quá trình biểu hiện gen thông qua tương tác 3‘ 5‘ mRNA RNA-RNA.
+ NH3
9
10
Số lượng gene: Human Genome Project
Phân loại các RNA
◼ Năm 1999, dự đoán có khoảng hơn 100.000 mã hóa cho protein.
Tuy nhiên thực tế chỉ có khoảng hơn 20.000 gene được xác định
(2004).
◼ Sau năm 2004, các hướng tiếp cận bioinformatics kết hợp với việc
các nghiên cứu genome đã kiểm tra các transcriptome, xác định
◼ Có bao nhiêu loại RNA? ◼ Nguồn gốc của các RNA? ◼ Ý nghĩa của việc nghiên cứu các RNA?
trình tự các thư viện cDNA, thử nghiệm (tạo ra các RNA ức chế các
miRNA còn gọi là antagomir).
Có rất nhiều các bản phiên mã (transcript) không mã hóa cho
protein, những bản phiên mã này bao gồm các snoRNA và miRNA.
11
12
2
1/6/2019
RNA mã hóa (mRNA)
RNA
• Ribonucleic acid (RNA) là một
RNA thông tin (mRNA) là RNA mang thông tin từ DNA đến ribosome để thực hiện quá trình dịch mã. Trình tự mRNA quyết định trình tự amino acid trong phân tử protein
polymer bao gồm các nucleotide.
• RNA hoạt động trung gian giữa
được tạo ra.
DNA và sinh tổng hợp protein.
• Có 2 loại RNA:
RNA mã hóa (mRNA) và
RNA không mã hóa (non-coding RNA)
• Rất nhiều các RNA không mã hóa
cho protein (khoảng 97% ở eukaryote)
13
14
Các RNA không mã hóa (non-coding RNA)
rRNA
◼
rRNA là thành phần RNA cấu tạo nên ribosome.
Những RNA không mã hóa protein (non-coding RNA) có thể được mã hóa bởi các gene mã hóa cho non-coding RNA, hoặc cũng có
thể từ các mRNA intron.
◼
rRNA có tính bảo thủ rất cao ở tất cả các tế bào. Các gene mã
hóa cho rRNA (rDNA) có trình tự rất giống nhau ở các sinh vật
trong cùng một taxon. Do đó, hàng nghìn trình tự rRNA được biết
và lưu trữ trong các CSDL đặc thù.
◼
Tại Bỉ, CSDL về trình tự rRNA được lưu trữ bao gồm CSDL về các
SSU (small subunit) và LSU (large subunit) của rRNA.
15
16
tRNA
rRNA prokaryote và eukaryote
◼ Là phân tử RNA nhỏ (74-95 nu) có vai trò vận chuyển
aa.
◼ tRNA gắn aa ở đầu 3‘ (aminoacyl tRNA synthetase)
Non-coding RNA bao gồm: 1. rRNA 2. tRNA 3. snRNA (small nuclear RNA) 4. miRNA (micro RNA) 5. snoRNA (small nucleolar RNA) 6. ribozyme
Loại Prokaryote Eukaryote
Kích thước Đơn vị lớn 70S 80S
Đơn vị nhỏ 50S (5S; 23S) 30S (16S) 60S (5S; 5,8S; 28S) 40S (18S)
◼ Mỗi loại tRNA gắn với chỉ 1 loại aa.
◼ Tính thoái hóa của mã di truyền (nhiều bộ ba cùng mã 1
aa). Do đó có nhiều tRNA khác nhau mang các vùng đối
mã khác nhau có thể mang cùng một loại aa.
17
18
Các rRNA liên quan đến các cơ chế kháng kháng sinh. Chẳng hạn rRNA 70S của vi khuẩn bị tấn công bởi chloramphenicol, trong khi rRNA 80S của eukaryote không bị ảnh hưởng gì. rRNA có vai trò quan trọng trong phân tích mối quan hệ di truyền của các sinh vật trong quá trình tiến hóa. Trên thực tế người ta thường so sánh trình tự của các gene mã hóa 16S (vi khuẩn), 18S, 23S ở
(eukaryote) để đánh giá mối quan hệ họ hàng.
3
1/6/2019
Genes mã hóa cho tRNA
Số lượng gene mã hóa cho tRNA rất khác nhau ở các sinh vật C. elegans: 620 gene mã hóa cho tRNA trong tổng số 29.647 gene (2,09%) S. Cerevisiae: 275/ ? H. sapien: 4.421 (non-coding RNA gene)/ 27.161 22 tRNA gene ở ty thể 497 tRNA gene ở nhân mã hóa cho các tRNA ở tế bào chất 324 tRNA có nguồn gốc từ các gene giả (pseudogenes)
Cấu trúc tRNA
http://en.wikipedia.org/wiki/TRNA
19
20
snoRNA
• Small nucleolar RNAs (snoRNAs): là một lớp các phân tử RNA nhỏ có
snRNA (small nuclear rRNA)
vai trò giúp cho các quá trình cải biến hóa học của các RNA khác, chủ
yếu là rRNA, tRNA và snRNA.
Có 2 nhóm snoRNA:
•
C/D box snoRNA: liên quan đến quá trình methyl hóa
⚫ snRNA là một lớp của các phân tử RNA nhỏ tìm thấy ở trong
H/ACA box: liên quan đến quá trình pseudouridyl hóa
⚫ snRNA liên quan đến quá trình loại bỏ intron khỏi các pre-mRNA
• Ở động vật có xương sống, các gene snoRNA nằm trong các vùng intron
nhân của eukaryote. snRNA được phiên mã bởi RNA pol II.
(hn RNA), điều hòa phiên mã và duy trì các telomere.
của các protein liên quan đến tổng hợp ribosome hoặc các protein tham
⚫ Các snRNA thường kết hợp với các protein để tạo thành phức
gia trong quá trình dịch mã. Các snoRNA được tổng hợp bởi RNA pol
hợp snRNP (small nuclear ribonucleoprotein).
II hoặc III (snoRNA không có mặt ở bacteria)
⚫ Một nhóm lớn trong số các snRNA là snoRNA (small nuleolar).
22
pseudouridyl (Ψ) hóa là quá trình tạo ra các dạng đồng phân của uridine (glycosyl) trong phân tử RNA dưới sự xúc tác của các enzym gọi là Ψ synthases.
21
miRNAs được tạo ra từ gene hoặc từ các intron
miRNA
◼ MicroRNAs (miRNAs) là các phân tử RNA có chiều dài trung bình 22
◼ miRNA là các yếu tố điều hòa sau phiên mã. Các miRNA gắn bổ sung với
nucleotide.
◼ Genome người có khoảng hơn 1000 miRNAs phân bố ở nhiều loại tế bào.
các trình tự ở vùng không được dịch mã (3' UTRs) của phân tử mRNA đích. Kết quả thường dẫn đến làm gene không hoạt động (không có sản phẩm gene).
◼ MiRNA có tính bảo thủ cao ở các sinh vật eukaryote, được cho là có vai trò
Mỗi loại miRNA có thể ức chế hoạt động của hàng trăm mRNA.
sống còn liên quan đến quá trình điều hòa biểu hiện gen.
miRNP: Ribonucleoprotein complex
23
24
4
1/6/2019
RNA genome
Break !!!
◼ Giống như DNA, RNA có thể mang thông tin di truyền. Ví dụ: Các virus RNA có
genome là RNA mã hóa cho nhiều protein.
◼ Các viroid là nhóm chỉ chứa RNA vòng, ở dạng trần không có vỏ (capsid). RNA
của viroid không mã hóa bất kì protein nào và được sao chép bởi các
polymerase của tế bào chủ.
◼ RNA sợi kép (dsRNA): là RNA có 2 sợi bổ sung giống như DNA. dsRNA là
genome của một số dsRNA virus. Các dạng dsRNA chẳng hạn như RNA virus
hoặc siRNA có thể gây ra quá trình RNA inteference ở eukaryote.
26
25
Trình tự nucleotide trên các NST đã được xác định
Where am I?
ATGCTACATCGATACGGTAATGCATGCATCAGTACTACTACGTACGCCGTAATGCTACATCAGATACGGTAATGCATGCATCAGTACT
TACGATGTAGCTATGCCATTACGTACGTAGTCATGATGATGCATGCGGCATTACGATGTAGTCTATGCCATTACGTACGTAGTCATGA
1700 km
27
28
200 km 800 km Quy Nhơn TP HCM Thanh Hóa Huế Vinh Đà Nẵng Nha Trang Ga Hà Nội
Cấu trúc genome
Cấu trúc gene prokaryote và eukaryote
Watson (2004) Molecular biology of the gene
So sánh mật độ gen trên NST ở các sinh vật khác nhau (1 vùng DNA genome có chiều dài 65 kb)
Số lượng các gen được mã hóa bên trong cùng một
đơn vị chiều dài DNA giảm dần khi mà tính phức tạp của
Watson (2004) Molecular biology of the gene
sinh vật tăng lên.
29
30
5
1/6/2019
Intergenic region
Khái niệm gene?
◼Gene: một đoạn DNA nằm trên NST mã hóa cho một hoặc nhiều protein/ RNA.
◼ Gene có nhiều loại:
Gene tạo ra sản phẩm là protein, tRNA, rRNA: Gen cấu trúc
Gene kiểm soát sự biểu hiện và mức độ biểu hiện của các gene khác: Gene
Intergenic region (IGR) là một vùng trình tự DNA định vị ở giữa các cụm gene (clusters of genes). IGR có thể chứa ít hoặc không có gene nào.
Một số gene cần thiết phải được biểu hiện ở tất cả các mô: House keeping
điều hòa 1. Người ta vẫn cho rằng các IGR là những „junk“ DNA.
gene. (Liên quan đến quá trình sinh tổng hợp protein).
Các gene khác chỉ biểu hiện ở những tế bào, mô nhất đinh: Gene đặc hiệu
2. Phần lớn chức năng của các IGR vẫn chưa rõ. Trong một số it trường hợp IGR tham gia điều khiển các gene xung quanh, mô. Chẳng hạn gene mã hóa insulin chỉ biểu hiện ở tế bào tuyến tụy (pancreatic β-cells).
3. Ở người, các IGR chiếm một phần lớn trong genome. Có thể
31
32
các RNA không mã hóa định vị trong những vùng IGR, và vì vậy các IGR có thể tham gia điều hòa biểu hiện gene. Tóm lại cho dù thực hiện chức năng nào thì tất cả các gene chứa một vùng mã hóa để tạo ra một chuỗi polypeptide hoặc một phân tử RNA. 4. Cần phân biệt rõ IGR và intron (intragenic)
Cấu trúc gene của prokaryote
Gene và hoạt động của gene ở prokaryote
1. Mật độ gene cao (ít hoặc không có intron)
Vùng Promoter • Shine-Dalgarno box (AGGAGG) • Pribnow box (TATAAT) • Vị trí -35 (TTGACA)
2. Các gene thường tập trung trong một cụm gọi là operon.
Terminator
5’
3’
3. Có 1 loại RNA polymerase chịu trách nhiệm tổng hợp tất cả các loại RNA
ORF
4. Quá trình phiên mã diễn ra đơn giản không đòi hỏi các giai đoạn
Start codon
Stop codon
33
34
xử lý sau phiên mã 5. Quá trình dịch mã diễn ra đơn giản không hoặc ít đỏi hỏi các cải biến sau dịch mã
Một số khái niệm
Cấu trúc gene Prokaryote
Promoter: Vùng nucleotide thông báo cho việc khởi đầu phiên mã.
Pribnow box
Terminator: Vùng nucleotide thông báo dừng quá trình phiên mã.
Shine-Dalgarno
+1 -10 -35
5‘
3‘
ORF: Một đoạn DNA có khả năng mã hóa cho một protein.
Việc tìm ra ORF là dấu hiệu đầu tiên chỉ ra rằng đoạn DNA
TTGACA TATAT AGGAGG ATG AUG TAG/TAA/TGA UAG/UAA/UGA
Start codon
Stop codon
đó có thể là một phần của một gene.
Vùng nhận dạng của RNA pol
Vị trí gắn của RNA pol
35
36
Promoter
6
1/6/2019
So sánh trình tự vùng promoter ở E.coli
◼ Trình tự vùng promoter rất đa dạng ◼ RNA polymearase nhận ra nhiều trình tự promoter khác nhau
37
38
Monocistronic & polycistronic mRNA
mRNA
◼ 1 phân tử mRNA được coi là monocistronic khi nó chỉ chứa thông tin
3‘
5‘
để dịch mã cho duy nhất 1 phân tử protein. Hầu hết các mRNA của
eukaryote thuộc loại này.
◼ Polycistronic mRNA mang thông tin của một số gene, các gene này
sẽ được dịch mã thành nhiều proteins (operon). Hầu hết các mRNA
tìm thấy ở vi khuẩn và vi khuẩn cổ ở dạng polycistronic.
◼ Dicistronic hoặc bicistronic: mRNA mã hóa cho 2 protein
39
40
RecA promoter là một promoter mạnh
Promoter: mạnh § yếu
RecA promoter
TTGATA……16……TATAAT TTGACA……17……TATAAT
Các promoter yếu:
Có độ tương đồng thấp với vùng trình tự của TATA box và vùng trình tự -35. Khoảng cách giữa 2 vùng trình tự không phải là 17 nucleotide. Mỗi lần phiên mã cách nhau khoảng 10 phút (E.coli).
Các promoter mạnh:
41
42
Có độ tương đồng cao với TATA box và vùng -35 Mỗi lần phiên mã cách nhau 2s (E.coli) Cần thiết một số yếu tố khác
7
1/6/2019
araBAD promoter là một promoter yếu
Shine-Dalgarno sequence
araBAD promoter 1. Đề xuất bởi John Shine và Lynn Dalgarno năm 1975
CTGACG -- 18 -- TACTGT TTGACA -- 17 -- TATAAT
43
44
2. Trình tự Shine-Dalgarno chỉ tồn tại ở Prokaryote, gồm khoảng 4-7 base phía trước của mã khởi đầu (AUG) trên mRNA. 3. Consensus sequence gồm 6 base: AGGAGG (ở E.coli AGGAGGU) 4. Giúp cho việc gắn của ribosome vào mRNA để khởi đầu tổng hợp protein. 5. Trình tự Shine-Dalgarno bổ sung với trình tự gaucaCCUCCUuaOH định vị ở đầu 3‘ của 16S rRNA. 6. Đột biến ở vùng trình tự Shine Dalgarno sẽ ảnh hưởng đến hiệu quả dịch mã.
Khởi đầu dịch mã: Trình tự Shine-Dalgarno
16S rRNA
30S ribosom
AUUCCUCC
mRNA
GGAGGNNNNNAUG
5‘
3‘
45
46
Shine-Dalgarno
Coffee break
Các đặc điểm chính của tổ chức gene ở eukaryote
Những tín hiệu quan trọng cho việc nhận biết gene ở Eukaryote
◼ Các thành phần của vùng promoter
TATA box
CCAAT box ◼ Trình tự Kozak ◼ Các tín hiệu loại bỏ intron (Splice donor), các, acceptor and lariat
signals
◼ Tín hiệu kết thúc phiên mã ◼ Tín hiệu polyadenyl hóa
47
48
1. Mật độ gene thấp (3% mã hóa, 27% các trình tự promoter và intron) 2. Các gene khác nhau về thành phần và kích thước 3. Có 3 loại RNA polymerase (từ 8-12 protein) 4. Các trình tự promoter tập trung ở vùng 5‘ upstream (có thể khá xa) 5. RNA pol I: (50% tổng các RNA được tổng hợp trong tế bào: 18S, 5.8S, 28S ) RNA pol II (mRNA, hầu hết snRNA và microRNA) RNA pol III (5S rRNA, tRNA và các RNA nhỏ khác) 6. Mỗi gene có trình tự promoter khác nhau: Chẳng hạn TATA box (-25) chiếm 70% các gene.
8
1/6/2019
Promoter của Eukaryote
Eukaryote
1. Các promoter của eukaryote cực kỳ đang dạng và rất khó xác
định.
Promoter region • TATA box • CAAT box (in mammals) • GC box (GGGCGGG)
2. Các promoter thường nằm ở vùng upstream của gene và có thể có
Tín hiệu Polyadenylation AATAA
các yếu tố điều hòa nằm xa điểm khởi đầu phiên mã vài kb.
Exon 3
Exon 4
Exon 2
Exon 1
3. Phức hợp phiên mã ở eukaryote có thể làm cho DNA bẻ gập vì thế
5’
3’
nó cho phép các yếu tố điều hòa nằm ở vị trí rất xa có thể tham gia
Intron 1
Intron 2
Intron 3
trong quá trình phiên mã.
Start codon
Stop codon
4. Nhiều promoter chứa TATA box (trình tự TATAAA). Trình tự này sẽ
gắn với TATA binding protein (hỗ trợ cho RNA pol).
49
50
TATA box
Dấu hiệu nhận biết Promoter ở Eukaryote?
1. TATA box (còn gọi là Goldberg-Hogness box) có trình
tự 5'-TATAAA-3' nằm trong vùng promoter của
eukaryote và VK cổ.
2. Khoảng 24% gene của người chứa TATA box trong
vùng promoter.
3. TATA box thường nằm rất gần với vị trí khởi đầu phiên
mã (khoảng +25 base).
51
52
◼ TATA box ◼ CCAAT box ◼ GC-box ◼ DPE (downstream promoter element ) ◼ TF binding site ◼ CpG islands
CAT box
GC box
1. CCAAT box (CAAT box/ CAT box) là một vùng trình tự phổ
◼ GC box nằm trong vùng Promoter thường có trình tự 5’-GGGCGG-3’
biến với các nucleotide GGCCAATCT định vị cách vị trí khởi
◼ Nằm ở vị trí +100-150 cách TATA box.
đầu phiên mã khoảng 75-80 bases.
◼ Tham gia vào quá trình bám của các TF cho việc khởi đầu quá trình
2. CAAT box cung cấp tín hiệu cho việc bám của các TF
phiên mã.
(transcriptin factor) cùng với sự tham gia của GC box.
3. CAAT và GC box thường định vị ở cách TATA box khoảng
+100-150bp.
53
54
9
1/6/2019
CpG island
Promoter region • TATA box • CAAT box (in mammals) • GC box (GGGCGGG)
Vị trí CpG là những vùng DNA mà ở đó một nucleotide Cytosine kế cận
Tín hiệu Polyadenylation AATAA
với một nucleotide Guanine. CpG là ký hiệu viết tắt cho C-Phosphate-
Exon 3
Exon 4
Exon 2
Exon 1
G.
5’
3’
Intron 1
Intron 2
Intron 3
CpG island: là những vùng trong genome có nhiều vị trí CpG.
Trong genome của động vật có vú, các CpG island có chiều dài từ
300-3000 cặp base. Chúng nằm liền kề nhau trong vùng promoter.
CDS
+25
+100-150
+75-80
+1
Khoảng 70% promoter của các gene ở người có thành phần CpG
rất cao.
CpG box GC box CAAT box TATA box
Kozak consensus sequence
55
56
Kozak consensus sequence:
Kozak consensus sequence:
Là một trình tự có mặt trên mRNA của eukaryote, có tính phổ biến. Trình tự Kozak (gcc)gccRccAUGG trong đó R là base purin (adenine hoặc guanine), R nằm ở vị trí +3 trước mã khởi đầu AUG và sau mã
AUG là một Guanine.
Các base bảo thủ xung quanh mã khởi đầu của các mRNA ở người
57
58
Trình tự Kozak đóng vai trò quan trọng trong việc khởi đầu quá trình dịch mã.
Đặc điểm cơ bản của một số vector biểu hiện
59
60
10
CHƯƠNG 22 CHƯƠNG
TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU
2.1. Các công cụ tìm kiếm thông tin
To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Cuộc chiến của các search engine và thị phần tương ứng
Nguyên lý hoạt động của các search engine
Các bước tìm kiếm
• Web crawling • Web crawling • Indexing • Searching
Web crawling/robot/spider
1.
Là một chương trình tự động duyệt qua các siêu liên kết (hyperlink) để thu thập tài liệu. Sau đó nó nhận về tất cả tài liệu có liên kết với tài liệu này.
2. 2.
Search engine điều khiển robot đi thu thập thông tin trên mạng Search engine điều khiển robot đi thu thập thông tin trên mạng
thông qua các siêu liên kết Khi robot phát hiện ra một site mới, nó gởi địa chỉ trang web về cho server chính để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin.
3.
Bởi vì thông tin trên mạng luôn thay đổi nên robots phải liên tục
cập nhật các site cũ. Mật độ cập nhật phụ thuộc vào từng hệ thống search engine. Khi search engine nhận câu truy vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu.
Indexing
• Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.
• Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các
từ khoá nào xuất hiện ở trang nào, địa chỉ nào.
Searching
• Tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query)
xuất hiện nhiều nhất.
• Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố
gắng ‘ hiểu ‘ ý nghĩa thực sự của câu hỏi thông qua những câu chữ do
người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi
chính tả, tìm cả những hình thức biến đổi khác nhau của một từ.
• Ví dụ : search engine sẽ tìm những từ như speaker, speaking, spoke khi
người dùng nhập vào từ speak
http://www.vietseo.net/articles/search-engine/chap1/
Cách tìm kiếm tài liệu phục vụ nghiên cứu, luận văn
Cách quản lý và trích dẫn tài liệu
• Lập CSDL tài liệu tham khảo • Quản lý và tìm kiếm tài liệu trong CSDL • Cách trích dẫn tài liệu • Chương trình Endnote
Chương 4
• Xác định trình tự • Đăng ký trình tự vào ngân hàng gene • Đăng ký trình tự vào ngân hàng gene
To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Classical sequencing methods
• Maxam-Gilber sequencing • Sanger sequencing
Lắp ráp trình tự
Nguyên lý của quá trình lắp ráp trình tự Nguyên lý của quá trình lắp ráp trình tự Các phần mềm hỗ trợ lắp ráp trình tự
To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Next generation sequencing
• 454 pyrosequencing • Illumina (Solexa) sequencing • SOLiD sequencing • SOLiD sequencing • Ion semiconductor sequencing • DNA nanoball sequencing • Future techniques
Nguyên lý lắp ráp trình tự
•
Lắp ráp trình tự là sự sắp xếp và nối các mảnh trình tự DNA theo trật tự đúng
để tái lập lại trình tự ban đầu của sợi DNA ban đầu. Chúng ta biết rằng một
NST thực chất là một sợi DNA rất dài. Người ta phải cắt ra thành những đoạn
nhỏ vừa đủ với các công nghệ xác định trình tự hiện nay (từ 200-1000 base).
Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp
xác định trình tự DNA bằng phương pháp shotgun (shotgun sequencing
genomic DNA) hoặc các bản phiên mã của gene (ESTs).
• Các trình tự ngắn được sắp xếp theo đúng vị trí của chúng trong sợi DNA ban
đầu. Cắt sợi DNA ra thành nhiều mảnh một cách ngẫu nhiên, sao cho một số
mảnh có những phần chung (overlapping) để làm cơ sở cho việc sắp xếp.
Nguyên lý cơ bản: gồm 3 bước
• Tất cả các trình tự overlap của các cặp trình tự được xác định.
• Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng • Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng
lựa chọn cho mỗi mảnh sao cho các đoạn trình tự overlap bây giờ
được dùng để quyết định trình tự.
• Căn, so sánh nhiều mảnh sử dụng kết quả bước 2 để suy diên ra
trình tự gốc
Phần mềm hỗ trợ lắp ráp trình tự
• Các phần mềm hỗ trợ lắp ráp trình tự • CAP3 là phần mềm hỗ trợ lắp ráp dùng phổ biến ở quy mô genome nhỏ (thực phổ biến ở quy mô genome nhỏ (thực hành), các công cụ khác tham khảo (wikipedia: http://en.wikipedia.org/wiki/Sequence_ass embly).
Các chương trình lắp ráp quan trọng
• TIGR Assembler - Assembly program developed at the Institute for
Genomic Research (TIGR).
• phrap - Assembly program developed at the University of Washington. .
Celera Assembler - Assembly program developed at Celera Genomics. . Celera Assembler - Assembly program developed at Celera Genomics. .
Arachne - Program developed at the Broad Institute of MIT, widely used in genome projects both at the Broad Institute and other research organizations. Phusion - The main workhorse for assembly at the Sanger Center, one of the leading genomic centers in the world. .
Atlas - Assembly program developed at the Baylor College of Medicine. .
Shotgun sequencing
Shotgun sequencing
Problems!!!
Scaffolding techniques
• Quá trình nhờ đó mà thông tin từ so sánh cặp
các “read” để định hướng và sắp đặt trật tự cho các contig dọc theo NST được gọi là scaffolding.
Scaffold của 3 contig (mũi tên đậm) được giữ với nhau bởi các cặp so sánh. Đường liền nối các đầu cặp đôi với nhau.
Đăng ký trình tự
1/6/2019
CHƯƠNG 4
CSDL sinh học là gì?
CƠ SỞ DỮ LIỆU SINH HỌC (Biological databases)
Knowledge is unlimited → No border for database
CSDL sinh học là gì?
Ý nghĩa của CSDL sinh học
•
• Là công cụ quan trọng hỗ trợ các nhà nghiên cứu hiểu và giải thích các hiện tượng sinh học, cấu trúc và sự tương tác giữa các cấu trúc phân tử, sự trao đổi chất ở tế bào, cơ thể, mối quan hệ tiến hóa loài và giữa các loài.
• CDLD giúp nhà nghiên cứu có thể:
• CSDL Sinh học là các thư viện chứa thông tin về khoa học sự sống • Nguồn gốc dữ liệu: Từ các thí nghiệm khoa học, các bài báo tạp chí công trình nghiên cứu, các thí nghiệm ở quy mô lớn (high through put), kết quả xử lý số liệu, phân tích… Loại thư viện: ✓ genomics ✓ proteomics ✓ metabolomics ✓ microarray gene expression ✓ phylogenetics ✓ gene function, structure, localization ✓ clinical effects of mutations ✓ similarities of biological sequences and structures
✓ Tìm thông tin ✓ Khai thác, xử lý thông tin theo mục đích nghiên cứu ✓ Phát hiện bệnh tât, phát triển các thuốc, trị liệu ✓ Điều khiển, cải biến các quá trình sinh học ✓ Tạo ra các quá trình mới, sinh vật mới mang đặc tính mong muốn
Phân loại CSDL sinh học
Primary nucleotide sequence databases
Protein sequence databases Proteomics databases Protein structure databases Protein model databases
Protein-protein interactions Signal transduction pathway databases
• • Metadatabases • Genome databases • • • • • RNA databases • Carbohydrate structure databases • • • Metabolic pathway databases • Microarray databases • Exosomal databases • Mathematical model databases • • •
PCR / real time PCR primer databases Specialized databases Taxonomic databases
1
1/6/2019
1. Các cơ sở dữ liệu trình tự nucleotide sơ cấp
•
International Nucleotide Sequence Database (INSD) (http://www.insdc.org/) bao gồm NCBI, EBI và DDBJ
• Tất cả trình tự DNA của các SV đều tìm thấy ở 1
trong 3 ngân hàng trên.
• Cả 3 CSDL này, ngoại trừ việc đăng ký trình tự có khác nhau như các dữ liệu đều được đồng bộ hóa.
International Nucleotide Sequence Database Collaboration
• 3 CSDL này là những CSDL sơ cấp, lưu trữ các
dữ liệu trình tự gốc.
2. Metadatabases
3. Genome databases
• Các CSDL này lưu trữ các trình tự genome của các sinh
vật, mô tả, giải thích, phân tích và cho phép truy cập
miễn phí.
• Các CSDL genome có thể lữu trữ genome của 1 loài
hoặc nhiều loài
3. Genome databases
• • • • • •
• • • •
• • •
• • • • • • • • •
SNPedia: Information about the effect of variations in DNA CAMERA Resource for microbial genomics and metagenomics Corn, the Maize Genetics and Genomics Database EcoCyc a database that describes the genome and the biochemical machinery of the model organism E. coli K-12 Ensembl provides automatic annotation databases for human, mouse, other vertebrate and eukaryote genomes. Ensembl Genomes provides genome-scale data for bacteria, protists, fungi, plants and invertebrate metazoa, through a unified set of interactive and programmatic interfaces (using the Ensembl software platform). Flybase, genome of the model organism Drosophila melanogaster MGI Mouse Genome (Jackson Lab.) JGI Genomes of the DOE-Joint Genome Institute provides databases of many eukaryote and microbial genomes. National Microbial Pathogen Data Resource. A manually curated database of annotated genome data for the pathogens Campylobacter, Chlamydia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria, Staphylococcus, Streptococcus, Treponema, Ureaplasma, and Vibrio. Saccharomyces Genome Database, genome of the yeast model organism. Viral Bioinformatics Resource Center Curated database containing annotated genome data for eleven virus families. The SEED platform for microbial genome analysis includes all complete microbial genomes, and most partial genomes. The platform is used to annotate microbial genomes using subsystems. Xenbase, genome of the model organism Xenopus tropicalis and Xenopus laevis Wormbase, genome of the model organism Caenorhabditis elegans Zebrafish Information Network, genome of this fish model organism. TAIR, The Arabidopsis Information Resource. UCSC Malaria Genome Browser, genome of malaria causing species (Plasmodium falciparumata and others) RGD Rat Genome Database: Genomic and phenotype data for Rattus norvegicus INTEGRALL: Database dedicated to integrons, bacterial genetic elements involved in the antibiotic resistance Fourmidable ant genome database provides ant genome blast search and sequence download. VectorBase The NIAID Bioinformatics Resource Center for Invertebrate Vectors of Human Pathogens
2
1/6/2019
4. Protein sequence databases
• UniProt: Universal Protein Resource (UniProt Consortium: EBI, Expasy, PIR)
• PIR: Protein Information Resource (Georgetown University Medical Center
(GUMC))
• Swiss-Prot: Protein Knowledgebase (Swiss Institute of Bioinformatics)
• PEDANT Protein Extraction, Description and ANalysis Tool
(Forschungszentrum f. Umwelt & Gesundheit)
• PROSITE: Database of Protein Families and Domains
• DIP: Database of Interacting Proteins (Univ. of California)
• Pfam: Protein families database of alignments and HMMs (Sanger Institute)
4. Protein sequence databases
5. Proteomics databases
PRINTS: a compendium of protein fingerprints (Manchester University)
•
ProDom: Comprehensive set of Protein Domain Families (INRA/CNRS)
•
SignalP 3.0: Server for signal peptide prediction (including cleavage site prediction),
•
based on artificial neural networks and HMMs
• Proteomics Identifications Database (PRIDE) là CSDL proteomic chứa các thông tin nhận dạng protein và peptide và thông tin về cải biến sau dịch mã
SUPERFAMILY Library of HMMs representing superfamilies and database of
•
(superfamily and family) annotations for all completely sequenced organisms
Annotation Clearing House a project from the National Microbial Pathogen Data
•
Resource
InterPro Classifies proteins into families and predicts the presence of domains and
•
sites.
3
1/6/2019
6. Protein structure databases
• Protein Data Bank (PDB) chứa:
Protein DataBank in Europe (PDBe)
ProteinDatabank in Japan (PDBj)
Research Collaboratory for Structural Bioinformatics (RCSB)
7. Protein model databases
6. Protein structure databases
• SWISS-MODEL Server and Repository for Protein Structure
Models
• ModBase Database of Comparative Protein Structure Models
(Sali Lab, UCSF)
• Protein Model Portal (PMP) Meta database that combines
several databases of protein structure models (Biozentrum,
Basel, Switzerland)
9. Carbohydrate structure databases
8. RNA databases
• EuroCarbDB: A repository for both
• Rfam, a database of RNA families
carbohydrate sequences/structures and experimental data.
• mirBase, the microRNA database
• snoRNAdb, a database of snoRNAs
4
1/6/2019
11. Signal transduction pathway databases
10. Protein-protein interactions
• BIND: Biomolecular Interaction Network Database
• Cancer Cell Map
• BioGRID A General Repository for Interaction Datasets (Samuel Lunenfeld
• Netpath: A curated resource of signal transduction pathways in
Research Institute)
humans
• CCSB Interactome
• NCI-Nature Pathway Interaction Database
• DIP Database of Interacting Proteins
• Reactome: Navigable map of human biological pathways,
IntAct molecular interaction database: a central, standards-compliant
•
ranging from metabolic processes to hormonal signalling.
repository of molecular interactions, including protein–protein, protein–
• SignaLink Database
small molecule and protein–nucleic acid interactions.
• WikiPathways
• NetPro
• STRING: a database of known and predicted protein-protein interactions.
(EMBL)
12. Metabolic pathway databases
12. Metabolic pathway databases
• Metabolic pathways (catabolic và anabolic) : tập hợp
các chuỗi phản ứng hóa học xảy ra trong tế bào (enzymes, vitamin, cofactor, các ion kim loại).
• BioCyc Database Collection including EcoCyc and MetaCyc • KEGG PATHWAY Database (Univ. of Kyoto) • MANET database (University of Illinois) • Metabolights Metabolomics experiments and derived information: metabolite
• Các chuỗi phản ứng hóa học liên kết với nhau thành
structures, reference spectra, biological roles, locations and concentrations.
mạng lưới (network).
(European Bioinformatics Institute)
• A metabolic pathway: tạo ra các sản phẩm: để dùng
• Reactome: Navigable map of human biological pathways, ranging from
metabolic processes to hormonal signalling. (Cold Spring Harbor Laboratory,
ngay, làm tiền chất cho các con đường khác, được dự trữ trong tế bào.
European Bioinformatics Institute, Gene Ontology Consortium)
5
1/6/2019
13. UniGene
13. UniGene
• Xác định gene trong các bản transcript ở các
locus.
• Phân tích sự biểu hiện gene ở các mô, tuổi, tình
trạng sức khỏe
• Thông tin về các protein có mối liên hệ với nhau
(protEST).
14. UniSTS
14. UniSTS
• UniSTS là một CSDL gồm các trình tự đánh dấu
vị trí (sequence tagged sites) xuất phát từ các
bản đồ STS và các thí nghiệm khác.
• STS được xác định bởi các cặp mồi PCR và kết
hợp với những thông tin về vị trí trong geome,
các gene, các trình tự.
16. Microarray databases
15. PubChem Substance
Cung cấp thông tin về các phản ứng hóa học, sinh học.
• Chứa CSDL biểu hiện gene (microarray gene
expression data)
• CSDL chia thành 2 nhóm riêng biệt:
Các dữ liệu được các chuyên gia thẩm định (peer
reviewed): Gene Expression Omnibus (GEO) ở NCBI và ArrayExpress ở EBI.
Các dữ liệu chuyên biệt: mang đặc thù phòng thí nghiệm,
công ty, trường ĐH…
6
1/6/2019
16. Specialized databases
16. Specialized databases
•
DiProDB A database to collect and analyse thermodynamic, structural and other dinucleotide
• Antibody Central Antibody information database and search resource.
properties.
•
Drug2Gene Provides integrated information for identified and reported relations between
• BIOMOVIE (ETH Zurich) movies related to biology and biotechnology
genes/proteins and drugs/compounds
• CGAP Cancer Genes (National Cancer Institute)
•
Dryad a repository of data underlying scientific publications in the basic and applied biosciences.
• Clone Registry Clone Collections (National Center for Biotechnology
•
Edinburgh Mouse Atlas
Information)
•
GreenPhylDB (A phylogenomic database for plant comparative genomics)
•
GDB Hum. Genome Db (Human Genome Organisation)
• Connectivity map Transcriptional expression data and correlation tools for
•
HGMD disease-causing mutations (HGMD Human Gene Mutation Database)
drugs
•
HUGO (Official Human Genome Database: HUGO Gene Nomenclature Committee)
• CTD The Comparative Toxicogenomics Database describes chemical-
•
HvrBase++ Human and primate mitochondrial DNA
gene-disease interactions
•
INTERFEROME The Database of Interferon Regulated Genes
•
List with SNP-Databases
• DBGET H.sapiens (Univ. of Kyoto)
16. Specialized databases
16. Specialized databases
• Minimotif Miner -Database of short contiguous functional peptide motifs
•
SciClyc An Open-access database to shared antibodies, cell cultures, and documents for biomedical
research.
• NCBI-UniGene (National Center for Biotechnology Information)
•
SNPSTR database A database of SNPSTRs - compound genetic markers consisting of a microsatellite
• Oncogenomic databases A compilation of databases that serve for cancer
(STR) and one tightly linked SNP - in human, mouse, rat, dog and chicken.
research.
•
TDR Targets A chemogenomics database focused on drug discovery in tropical diseases.
•
TRANSFAC A database about eukaryotic transcription factors, their genomic binding sites and DNA-
• OMIM Inherited Diseases (Online Mendelian Inheritance in Man)
binding profiles.
• OrthoMaM (A database of Orthologous Mammalian Markers)
•
TreeBASE An open-access database of phylogenetic trees and the data behind them
•
p53 The p53 Knowledgebase
•
Treefam TreeFam (Tree families database) is a database of phylogenetic trees of animal genes
•
XTractor Discovering Newer Scientific Relations Across PubMed Abstracts. A tool to obtain manually
• PhenCode linking human mutations with phenotype
annotated relationships for Proteins, Diseases, Drugs and Biological Processes as they get published in
• PhenomicDB multi-organism database linking genotype to phenotype
PubMed.
• Plasma Proteome Database Human plasma proteins along with their isoforms
• SHMPD The Singapore Human Mutation and Polymorphism Database
17. Taxonomic databases
17. Taxonomic databases
• Taxonomy Database là CSDL chính xác về định tên, vị
trí của sinh vật trong đã biết.
• Hiện nay có khoảng 10% số loài được xác định trên
hành tin này.
7
1/6/2019
18. Wiki-style databases
Entrez NCBI
• 1.CHDwiki • 2.EcoliWiki • 3.Gene Wiki • 4.GyDB • 5.NeuroLex • 6.OpenWetWare • 7.PDBWiki • 8.Proteopedia • 9.Topsan • 10.WikiGenes • 11.WikiPathways • 12.WikiProfessional • 13.YTPdb
19. PubMed
19. PubMed
• PubMed comprises more than 22 million citations for biomedical literature from MEDLINE, life science journals, and online books. Citations may include links to full-text content from PubMed Central and publisher web sites.
20. dbSNP
GSS
• Database of single nucleotide polymorphisms (SNPs)
and multiple
small-scale
variations
that
include
• Genome survey sequence database • The GSS database is a collection of
insertions/deletions,
microsatellites,
and
non-
polymorphic variants.
• Application: Rice breeding/ SNP nanochip
unannotated short single-read primarily genomic sequences from GenBank including random survey sequences clone-end sequences and exon-trapped sequences.
8
1/6/2019
21. CDD
• The Conserved Domain Database is a resource
for the annotation of functional units in proteins. Its collection of domain models includes a set curated by NCBI, which utilizes 3D structure to provide insights into sequence/structure/function relationships.
CDD
22. dbEST
• dbEST (Nature Genetics 4:332-3;1993) is a
division of GenBank that contains sequence data and other information on "single-pass" cDNA sequences, or "Expressed Sequence Tags", from a number of organisms.
23. HomoloGene
• HomoloGene is a system for automated
detection of homologs among the annotated genes of several completely sequenced eukaryotic genomes.
9
1/6/2019
24. SRA
• The Sequence Read Archive (SRA) stores raw
sequencing data from the next generation of
sequencing platforms including Roche 454 GS
System®, Illumina Genome Analyzer®, Applied
Biosystems SOLiD® System, Helicos
Heliscope®, Complete Genomics®, and Pacific
Biosciences SMRT®.
Probe
25. Probe
• Probe Database is a public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities.
• Giải thích probe, SNP new generation?
26. DbVar
27. Epigenetics
• Database of genomic structural variation
• Explore, view, and download genome-wide
maps of DNA and histone modifications from our diverse collection of epigenomic data sets.
10
1/6/2019
28. OMIM
27. Epigenetics
• OMIM is a comprehensive, authoritative, and timely
compendium of human genes and genetic phenotypes.
• The full-text, referenced overviews in OMIM contain
information on all known mendelian disorders and over 12,000
genes.
• OMIM focuses on the relationship between phenotype and
genotype.
•
It is updated daily, and the entries contain copious links to other
genetics resources.
29. OMIA
• Online Mendelian Inheritance in Animals (OMIA) is a database of genes, inherited disorders and traits in more than 135 animal species (other than human and mouse).
30. Protein cluster
• This collection of related protein sequences (clusters) consists of Reference Sequence proteins encoded by complete genomes. This database contains both curated and non-curated clusters.
• The Protein Clusters database provides easy access to
annotation information, publications, domains, structures, and external links and analysis tools including multiple alignments, phylogenetic trees, and genomic neighborhoods (ProtMap).
• Protein Clusters can be searched like any other Entrez
database.
11
1/6/2019
31. Bookshelf
• Bookshelf provides free access to books and documents in life science and healthcare.
• A vital node in the data-rich resource network at NCBI, Bookshelf enables users to easily browse, retrieve, and read content, and spurs discovery of related information.
31. Bookshelf
32. dbGaP
• The database of Genotypes and Phenotypes
(dbGaP) was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype.
33. PMC
• PMC is a free full-text archive of biomedical and life
sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM).
• PubMed Central® (PMC) is a free archive of biomedical and life sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM). In keeping with NLM’s legislative mandate to collect and preserve the biomedical literature, PMC serves as a digital counterpart to NLM’s extensive print journal collection.
12
1/6/2019
34. Popset
35. Popset
• A PopSet is a set of DNA sequences that have been collected to analyse the evolutionary relatedness of a population. The population could originate from different members of the same species, or from organisms from different species
• Genome assembly organization and additional information.
13
1/6/2019
Thế nào là xác định trình tự DNA
• Xác định trình tự một đoạn DNA là quá trình xác định trật tự sắp xếp của các nucleotide trong chuỗi trình tự đó.
CHƯƠNG 5 Dữ liệu trình tự, xác định trình tự
3 thế hệ xác định trình tự
– Phương pháp hóa học của Maxam-Gilbert và tổng
FIRST GENERATION
hợp enzyme của Sanger – Xác định trình tự tự động – xác định trình tự thế hệ mới
Các bước của phương pháp
• Công trình công bố sau 2 năm so với phương pháp của
Sanger
• Quá trình gồm 6 bước
Maxam- Gilbert sequencing
1
1/6/2019
Giới thiệu
1. Tinh sạch trình tự
• 1976-1977, Allan Maxam và Walter Gilbert phát triển kỹ thuật xác định trình tự DNA dựa vào cải biến hóa học phân tử DNA và sau đó cắt DNA ở những nucleotide nhất định.
Nhiều đoạn DNA giống nhau được tinh sạch (nguồn genome, kết hợp với sử dụng RE)
• Mặc dù phương pháp công bố chậm hơn so với Sanger 2 năm, tuy nhiên, do giới hạn về mặt kỹ thuật tại thời điểm đó (tạo dòng các DNA sợi đơn), phương pháp của Maxam và Gilbert đã được dùng khá phổ biến.
• Sau khi kỹ thuật chain-termination method ra đời, phương pháp của Maxam và Gilbert đã đi vào quá khứ do không thể áp dụng khi xác định nhiều trình tự ở quy mô lớn, sự nguy hiểm về hóa chất sử dụng và phóng xạ.
3. Chuẩn bị đoạn DNA cần xác định trình tự
2. Gắn P phóng xạ
• Đầu 5’ sẽ được gắn 32P • Enzyme phosphatase cắt nhóm phosphate, enzyme kinasse
sẽ gắn nhóm phosphate đánh dấu phóng xạ
• Phân tử DNA sẽ được phân tách riêng rẽ thành 2 sợi. • Chỉ một sợi đánh dấu phóng xạ được giữ lại để
chuẩn bị xác định trình tự
Xác định các base
• 4 mẫu DNA giống nhau được xử lý hóa chất
– Phản ứng G: – Phản ứng C: – Phản ứng A với một số G – Phản ứng T với một số C
• Chạy điện di phân tách các mảnh • Đưa lên máy đọc phóng xạ
2
1/6/2019
Sanger method
Sanger method Chain-termination methods
• Hỗn hợp phản ứng: một phân tử DNA sợi đơn, primer, DNA pol, các
dNTP bình thường và các nucleotide bị cải biến (ddNTP).
• Các phân tử ddNTP có thể đánh dấu phóng xạ hoặc huỳnh quang • Mẫu DNA được chia thành 4 phản ứng riêng rẽ, mỗi phản ứng chứa
• Sanger sequencing còn gọi là phản ứng xác định trình tự bằng cách kết thúc chuỗi phản ứng tổng hợp.
tất cả các thành phần (dATP, dGTP, dCTP và dTTP), DNA polymerase.
• Phương pháp này được Frederick Sanger
• Mỗi phản ứng được bổ sung 1 trong 4 loại ddNTP (ddATP, ddGTP,
ddCTP, hoặc ddTTP).
phát triển vào năm 1977.
• Phương pháp này dựa vào việc khuếch
• Phản ứng tổng hợp được thực hiện • Sau phản ứng tổng hợp, mỗi ống phản ứng được điện di phân tách các băng. Các băng DNA có thể được quan sát bằng phóng xạ trên phim nhạy với tia X.
• Vị trí của các băng sẽ được đọc từ cuối cùng lên trên → suy ra trình
đại một đoạn DNA bằng DNA polymerase và kết hợp với việc sử dụng một loại nucleotide đặc biệt: dideoxynucleotides.
tự DNA.
3
1/6/2019
Nguyên lý
Dye-terminator sequencing Automated DNA sequencing
• Đánh dấu huỳnh quang vào ddNTPs • Mỗi ddNTP được đánh dấu bởi 1 chất phát huỳnh quang khác nhau → sau khi bị kích thích sẽ giải phóng huỳnh quang ở các bước sóng khác nhau.
• Dye-terminator sequencing đã được phát
triển thành phương pháp xác định trình tự tự động phổ biến như ngày nay.
SECOND GENERATION
4
1/6/2019
NEXT GENERATION
Next generation
• Roche/454 FLX Pyrosequencing (2004/5) • Illumina Solexa sequencing • Applied Biosystems SOLiDTM System (Solid
sequencing)
• Helicos HeliscopeTM (gần đây) • Pacific Biosciences SMRT (2010)
5
1/6/2019
Pyrosequencing
• Pyrosequencing là phương pháp xác định trình
tự DNA dựa trên nguyên lý tổng hợp.
• Khác với Sanger sequencing ở chỗ: dựa vào việc xác định pyrophosphate giải phóng khi dNTP kết hợp vào chuỗi.
• Phương pháp được Pål Nyrén và Mostafa
Ronaghi ở viện nghiên cứu công nghệ hoàng gia Stockholm phát triển năm 1996.
Bước 1
Nguyên lý Pyrosequencing
• Một đoạn mồi được lai với một sợi DNA đơn (khuôn mẫu). • Phản ứng có sự tham gia của:
– DNA polymerase, – ATP sulfurylase, – Luciferase, – Apyrase – Adenosine 5' phosphosulfate (APS): cơ chất – Luciferin.
Bước 2
Bước 3
• ATP sulfurylase chuyển hóa PPi thành ATP
với sự có mặt của adenosine 5' phosphosulfate (APS).
• ATP được tạo ra sẽ giúp enzyme luciferase chuyển hóa luciferin thành oxyluciferin và tạo ra ánh sáng. Cường độ ánh sáng tỉ lệ thuận với lượng ATP.
• Phản ứng được bắt đầu khi một loại dNTP được cho
• Ánh sáng tạo ra bởi phản ứng xúc tác bởi
vào.
luciferase được đo bởi một thiết bị đặc biệt (CCD), cường độ ánh sáng thu được sẽ được biểu hiện thành một đỉnh (pick), tập hợp các pick → pyrogram.
• DNA pol xúc tác phản ứng kết hợp nucleotide vào chuỗi. Nếu nucleotide (dNTP) cho vào bổ sung với mạch khuôn, sẽ giải phóng pyrophosphate (Ppi).
• Độ cao của mỗi pick tỉ lệ với số nucleotide
được gắn vào chuỗi
6
1/6/2019
Bước 4
Bước 5
• Apyrase, enzyme phân giải nucleotide sẽ được bổ sung vào sau mỗi phản ứng. Enzyme này có chức năng phân giải các nucleotide và ATP còn lại.
• Sau khi phản ứng “dọn sạch” của Apyrase xong. Một đợt
• Việc bổ sung dNTPs được thực hiện kế tiếp nhau. • Trong phản ứng của Sanger, 4 loại (dATP, dGTP, dCTP, dTTP). Pyrosequencing sử dụng dATP·S thay cho dATP. • Quá trình được thực hiện liên tục đến khi hết chuỗi DNA khuôn. Các đỉnh sẽ được ghi lại và suy diễn ra trình tự.
nucleotide tiếp theo lại được bổ sung vào. Các đợt nucleotide sẽ được bổ sung lần lượt đến khi phản ứng xảy ra.
MOVIE
Illumina Solexa
Nguyên lý Illumina Solexa
7
1/6/2019
Gắn DNA vào flow cell
Khuếch đại nhờ cầu nối
Sequencing by Synthesis
Tạo cụm DNA
8
1/6/2019
MOVIE
9
1/6/2019
10
1/6/2019
SOLiD™ Sequencing
• Giảm giá đọc từ $0.01/base vào năm
SOLiD™ Sequencing Sequencing by Oligonucleotide Ligation and Detection
2004 xuống còn $0.0001/base vào năm 2006
• Tăng khả năng đọc từ 1,000,000
bases/máy/ngày vào năm 2004 đến hơn 5,000,000,000 bases/máy/ngày vào năm 2009.
Emulsion PCR/Bead Enrichment
Chuẩn bị thư viện Library Preparation
Xác định trình tự bằng cách lai (Sequencing by Ligation)
Gắn hạt lên bề mặt thủy tinh (Bead Deposition)
11
1/6/2019
Độ chính xác
Đổi các primer (primer reset)
• Phản ứng được lặp lại 5 lần với mỗi trình tự DNA. Như vậy mỗi base sẽ được kiểm tra và đọc 2 lần bởi 2 primer khác nhau.
• Chẳng hạn, base ở vị trí số 5 sẽ được kiểm tra bằng primer 2 ở lần lai trong chu kỳ 2 và bởi primer 3 trong chu kỳ 1. Việc kiểm tra 2 lần sẽ tăng độ chính xác của SOLiD™ System.
MOVIE
Sequence assembly
Whole genome sequencing
• Không có kỹ thuật xác định trình tự nào có thể xác định toàn bộ trình tự của 1 đoạn DNA dài (NST, genome)
• Mỗi mảnh trình tự DNA đọc được (read) thường có chiều dài từ 20 đến 1000 bp tùy thuộc vào kỹ thuật sử dụng.
• Sequence assembly là quá trình sắp xếp và hòa nhập (merge) các mảnh trình tự thành trình tự DNA dài từ đó tái thiết lập lại trình tự ban đầu của NST hoặc genome.
12
1/6/2019
Ví dụ
• 1 trang sách bị xé nhỏ → khó sắp xếp lại • Mua 10 cuốn sách giống nhau → xé thành nhiều
mảnh
• Nối các mảnh lại với nhau thành đoạn văn → trang
→ chương → cả cuốn sách.
• Những khó khăn: nhiều đoạn văn lặp lại, nhiều mảnh bị xé vụn (trình tự quá ngắn), mất một số mảnh…
• STS, EST: giúp cho quá trình sắp xếp • EST: nhược điểm do alternative splicing
13
06/01/2019
WEBBROWSER
CHƯƠNG 6 Genome Browsers
Genome Browsers
Khái niệm genome browser
1. 2. Đặc điểm và ứng dụng của các genome browser 3. Genome browser đặc thù 4. Giới thiệu một số genome browser quan trọng
GENOME BROWSER
Đặc điểm genome browser
Khái niệm genome browser
Internet Browser hoặc Webbrowser = Internet/Web + Browser
• • Genome browser = Genome + Browser • Là giao diện đồ họa cho phép:
• Chứa CSDL genome, các bản lắp ráp, các contig • Chứa các công cụ hiển thị đồ họa: hiển thị gene và công thông tin trên bản đồ NST (vị trí, tọa độ)
• Các công cụ search (tìm 1 gene trong genome,
BLAT, xác định các SNP, )
– Hiển thị thị thông tin về CSDL sinh học (genomic data) – Cho phép quan sát, quét toàn bộ genome – Cung cấp các thông tin đi kèm với hiển thị đồ họa (gene, cấu trúc, chức năng, protein do gene mã hóa, điều hòa biểu hiện gene, biến đổi về trình tự, so sánh…)
• Các công cụ download (tải trình tự nucleotide
• Khác biệt với các CSDL sinh học ở chỗ:
genome)
• Các công cụ phân tích trình tự (so sánh genome, gene, các vùng bảo thủ, chức năng, insilico-PCR)
– Dữ liệu hiển thị bằng đồ họa – Vị trí trong genome, trên NST – Thông tin hiển thị có tọa độ (vị trí và khoảng cách của các gene) – Thông tin sinh học gắn liên với trình tự – Liên kết mạnh với nhiều CSDL liên quan
1
06/01/2019
Genome browser đặc thù
Ứng dụng của Genome browser
• Là một Genome browser với các đặc điểm và công cụ
• Tìm và xác định được các sinh vật đã được xác định trình tự • Hiển thị các gene, marker trên NST kèm theo thông tin mô
cần thiết
tả về gene hoặc marker đó
• Xác định được vị trí của một gene quan tâm trong genome • So sánh genome, đối chiếu vị trí (locus) của các gene trong
các genome khác nhau
• Tập trung vào một CSDL mang tính đặc thù loài • Thông tin chi tiết về các NST, số lượng gene và sự phân bố các gene trên NST (gene đã biết và dự đoán).
• Xác định được các gene có mối quan hệ tiến hóa, các họ
• Các công cụ phân tích đặc thù đi kèm
gene, các gene có cùng nguồn gốc
• Xác định được các gene cùng tham gia trong một con
đường chuyển hóa hoặc có liên quan với nhau
EnsemblPlants
Animal Browsers
1000 Genomes A Deep Catalog of Human Genetic Variation
• • NONCODE genome browser. UCSC browser with special tracks for non-coding
annotations. Jim Watson genome browser at CSHL
dbRIP - Retroposon Insertions Roswell Park Cancer Institute, MD Vista Lawrence Berkeley Lab, CA
• Arabidopsis, rice, corn, tomato, soybean, Physcomitrella • Arabidopsis genome browser at UCLA • Arabidopsis genome browser at Dartmouth. • Arabidopsis arabidopsis.info Ensembl-based genome browser • UNLV Las Vegas Genome Browser hosting: Arabidopsis, rice,
Panda genome resources
• • Craig Venter genome data release • • • GARFIELD cat genome browser, Federick, MD • • C. intestinalis: UCSC-based, Gbrowse •
sorghum and soybean, as well as D. melanogaster • gramene.org many rice genomes and other grasses • Rice Genome Annotation Project hosts Oryza sativa browser • Rice-Map • RICE FPC Genome Browser from the Arizona Genomics
Institute (AGI)
The JGI-browser for various species: Fugu, C.intestinalis, waterflea, sponge, amphioxus, snail, hydra, etc... Bio2Rdf Semantic web atlas of postgenomic knowledge about human and mouse Epigenomics Epigenomics Roadmap mirror at Washington University, St. Louis. Eyebrowse specializing in eye tissue sequences Aedes aegypti Silkworm Bombyx mori, China
• • • • • • UNLV Las Vegas Genome Browser hosting: D. melanogaster and some plants • NRSP-8 National Animal Genome Research Program - Bioinformatics Coordination
• Zea mays Maize Genome Sequencing Project • Cannabis sativa Cannabis browser at U Toronto
Program
Other genome browser
Fungi/Yeast Browsers
• Saccharomyces cerevisiae database and
genome browser from SGD/Stanford University
• S. pombe (fission yeast) at NCI, NIH
• Archaea browser from the Lowe Lab at UCSC • EnsemblBacteria • EnsemblProtists • Paramecium tetraurelia Genoscope, France • JPGV Jena Prokaryotic Genome Browser
2
06/01/2019
Watch movies and dicussion
3
1/6/2019
BLAST
• Giới thiệu về BLAST
• Ứng dụng BLAST
CHƯƠNG 7 CÔNG CỤ BLAST Basic local alignment search tool
• Bản chất của BLAST
• Ý nghĩa và thông số của kết quả BLAST
• Các biến thể của BLAST (PHI/PSI/Delta-Blast)
BLAST dùng để làm gì?
Giới thiệu về BLAST
• Tìm hiểu mối quan hệ của một trình tự protein hoặc DNA (query sequence) với các trình tự đã biết trong CSDL liệu.
• BLAST được Stephen Altschul, Warren Gish, Webb Miller, Eugene Myers, và David J. Lipman phát triển tại NIH. Công trình nghiên cứu được công bố trên Journal of Molecular Biology vào năm 1990.
• (Những) loài SV nào có trình tự DNA/Protein giống với
trình tự truy vấn.
• Nguồn gốc của trình tự truy vấn • Trình tự protein do gene X mã hóa có chức năng gì? có những vùng hoạt động (domain), vung đặc thù (motif) gì?
• Basic Local Alignment Search Tool/BLAST là một công cụ cho phép tìm các trình tự trong cơ sở dữ liệu giống với trình tự truy vấn dựa trên cơ sở so sánh trình tự cục bộ. Kết quả tìm được sắp xếp theo các tiêu chí điểm số (score), mức độ che phủ (query coverage), giá trị kì vọng (E-value), mức độ giống nhau (identity %).
• Mối quan hệ tiến hóa giữa các sinh vật có các trình tự
• Có nhiều loại BLAST khác nhau (tùy thuộc vào trình tự
giống với trình tự truy vấn (paralog/ortholog)
truy vấn và mục đích sử dụng).
• Phát hiện trình tự DNA/ Protein mới
Identical /Homology /Similarity
BLAST dùng để làm gì? Tìm trình tự giống với trình tự query theo phương thức căn trình tự cục bộ
• • Dự đoán cấu trúc:
• Xác định các đặc điểm của sản phẩm gene:
– 2D DNA/RNA, 3D Protein
• Nhiều người dùng 2 thuật ngữ này lẫn lộn • Similarity: đo mức độ giống nhau về trình tự • Homology: đo mối quan hệ tiến hóa dựa trên cơ sở đánh giá mức độ giống nhau giữa các trình tự • 2 trình tự có 68% Similar nhưng 2 trình tự có thể
homologous hoặc không
• Dự đoán vị trí của sản phẩm gene – So sánh các concensus pattern • Dự đoán mối quan hệ tiến hóa • Multisequence alignment • Dự đoán gene trong genome
• Không có mức độ/thang để đo Homology. 2 trình
– Mw, pI, họ protein, – Vùng chức năng (motif, domain), concensus pattern
tự hoặc là có mối liên hệ hoặc là không
• Nếu kết luận X có 23% homologous với Y thì sai
• Dự đoán các vùng điều hòa hoạt động gene • Nghiên cứu tiến hóa ở mức độ genome • Hỗ trợ lắp ráp trình tự
1
– Các vùng exon, intron, promoter
1/6/2019
Bản chất của BLAST
Bản chất của BLAST
Mức tin cậy của BLAST
• Tính toán thống kê • Giá trị E (E-value) tỉ lệ nghịch với điểm số (điểm số càng cao → giá trị E càng nhỏ) • E-value sẽ xác nhận trình tự tìm được giống với trình tự truy vấn là ngẫu nhiên hay có ý nghĩa thống kê.
• Tìm các trình tự trong CSDL có cụm GTW • Mở rộng tìm kiếm cả hai phía của GTW • Đánh giá điểm số → tiếp tục hoặc dừng lại • Ngưỡng điểm số quyết định tiếp tục hay dừng lại
Biến thể của BLAST và chức năng
4 bước BLAST
• blastn:
• (1) Chọn trình tự truy vấn
– Tốt: tìm các trình tự giống nhau với điểm số cao, – Không tốt: khi các trình tự có mối quan hệ xa
• blastp:
• (2) Chọn chương trình BLAST
– Sử dụng substitution matrix để xác định khoảng cách mối quan hệ
• blastx:
• (3) Chọn CSDL
•
• (4) Chọn thông số (gap cost/ mismatch/matrix)
•
– Áp dụng cho các trình tự DNA mới – Phân tích ESTs tblastn: – Tìm các vùng mã hóa (Coding region) chưa xác định trong CSDL tblastx: – Phân tích ESTs
• Cuối cùng click “BLAST”
2
1/6/2019
Nhận xét kết quả BLAST
E-Value: Dừng lại e-10
Định dạng FAST cho query
3
1/6/2019
Lựa chọn chương trình BLAST
Số khung đọc của 1 đoạn DNA
Lựa chọn CSDL nucleotide
CSDL Protein
4
1/6/2019
5
1/6/2019
Câu hỏi
Loài là gì? Thế nào là dưới loài/loài phụ?
CHƯƠNG 8 CÂY TIẾN HÓA & PHÂN TÍCH TIẾN HÓA Phylogenetic tree
1. Tiến hóa là gì? 2. Quá trình tiến hóa là gì? 3. 4. Quá trình phát sinh loài? 5. Nghiên cứu tiến hóa để làm gì? 6. Thế nào là cây tiến hóa? 7. Dữ liệu gì được dùng để xây dựng cây tiến hóa? 8. Đột biến nguồn dữ liệu để phân tích tiến hóa? 9. Phương pháp xây dựng cây tiến hóa? 10. Cách “đọc” cây tiến hóa? 11. Các phần mềm xây dựng cây tiến hóa?
1. Tiến hóa là gì?
1. Tiến hóa là gì?
• The process by which different kinds of living
organism are believed to have developed from earlier forms during the history of the earth.
Definition of evolution in Oxford dictionary
• The process by which different kinds of living
organisms are thought to have developed and diversified from earlier forms during the history of the earth.
Definition of evolution in US English dictionary
1. Evolution?
2. Quá trình tiến hóa
• Evolution is the change in the inherited
• Quá trình tiến hóa là sự phát triển từ một nguồn gốc ban đầu tạo ra nhiều dạng khác nhau dưới các điều kiện khác nhau.
characteristics of biological populations over successive generations.
• Tiến hóa là sự biến đổi nguồn gene (gene
• Evolution is a change in the gene pool of a
pool) trong quần thể qua các thế hệ.
population over time.
1
1/6/2019
Species?
• Trong sinh học, một loài là đơn vị phân loại cơ
bản.
• Loài là một nhóm các sinh vật có khả năng giao phối với nhau và sinh ra con cái qua nhiều thế hệ.
4. Quá trình phát sinh loài?
Loài, dưới loài/loài phụ Species/subspecies/varieties
• Các giống (variety) có sự khác biệt về kiểu hình với nhau
nhưng vẫn có khả năng lai với nhau một cách tự do.
• Thông thường sự phân cách địa lý sẽ tạo ra nhiều giống
khác nhau.
• Ví dụ: có nhiều giống lúa địa phương khác nhau hoặc
giống lợn khác nhau…
• Là một quá trình dẫn đến thay đổi kiểu gene của quần thể ban đầu tạo ra kiểu gene mới cách li sinh sản với quần thể gốc – Cách li sinh sản – Cách li địa lí – Đa bội hóa – Đột biến
• Loài phụ: có sự khác biệt với nhau từ hai hoặc nhiều đặc điểm. Có thể giao phối tạo thế hệ con cái hữu thụ nhưng trong tự nhiên thường ít xảy ra. Nguyên nhân chủ yếu là do sự cách ly địa lý dẫn đến cách li sinh sản. Ví dụ ở lúa có hai loài phụ chính: indica và japonica.
5. Nghiên cứu tiến hóa để làm gì?
6. Thế nào là cây tiến hóa? Phylogenetic tree
• Lịch sử phát triển của sinh giới và hệ quả của
những sự kiện xảy ra trong tự nhiên
• Giải thích sự đa dạng sinh giới • Mối quan hệ giữa các loài và nguồn gốc tiến
hóa
• Phylogenetic tree/ evolution tree • Root/ Branch/ Node/ Leaf • Operational taxonomic units (OTU) • Hypothetical taxonomic unit (HTU) • Common ancester • Rooted/ unrooted tree • Descendant • Relatedness/change • Time
• Cơ chế của quá trình hình thành loài mới • Vị trí của loài trong hệ thống sinh giới • Dự đoán chiều hướng tiến hóa
2
1/6/2019
Phylogenetic tree
Phylogenetics
• Một sơ đồ tiến hóa minh họa
• Phylogenetics là khoa học nghiên cứu mối quan
mối quan hệ giữa các thực
hệ tiến hóa giữa các loài.
thể (thường là các nhóm
phân loại taxon) có cùng tổ
• Để dự đoán được mối quan hệ tiến hóa, các cây tiến hóa được xây dựng để liên kết các loài với nhau.
tiên chung.
• Một sơ đồ cây hiển thị mối
quan hệ tiến hóa giữa các
nhóm sinh vật.
Phylogenetic tree
Mối quan hệ/ Mức độ thay đổi
i
n a g
i
• Là cây tiến hóa là sơ đồ nhánh hiển thị mối quan hệ tiến hóa giữa các loài dựa vào sự giống và khác nhau về các đặc điểm vật lý hoặc di truyền.
ờ h T
• Các taxon được kết nối với nhau thành cây xuất phát từ tổ tiên chung.
Tại sao phải nghiên cứu mối quan hệ tiến hóa
So sánh các đặc điểm giống nhau
• Tìm ra mối quan hệ tiến hóa giữa các sinh vật (phân tích những biến đổi xảy ra ở các sinh vật khác nhau trong quá trình tiến hóa).
• Hiểu được mối quan hệ giữa một trình tự tổ tiên và các con cháu của nó (tiến hóa phân tử, tiến hóa trình tự).
• Dự đoán thời gian phân li (tách nhau ra) giữa một nhóm các sinh vật cùng chia sẻ tổ tiên chung.
3
1/6/2019
Giả thuyết về đồng hồ phân tử (Molecular clock)
• Tất cả các đột biến xảy ra với cùng một tốc độ
như nhau ở tất cả các nhánh của cây.
• Tốc độ đột biến là như nhau ở tất cả các vị trí
•
dọc theo chiều dài trình tự.
•
•
• Giả thuyết về đồng hồ sinh học phù hợp nhất đối với các loài có mối quan hệ gần gũi. Tuy nhiên đối với các loài có mối quan hệ xa thì việc áp dụng sẽ khó thuyết phục.
Cây dưới đây mô tả mỗi loài như một chiếc lá của một nhánh xuất phát từ một điểm gọi là node (tổ tiên chung gần nhất). Mối quan hệ giữa các loài được liên hệ coi như là cành. Chiều dài của cành thể hiện thời gian tiến hóa hoặc mức độ biến đổi của trình tự. Các cây (a) và (b) là những cây không gốc (dạng cladogram), chúng chỉ đơn thuần biểu diễn mối quan hệ giữa các taxon (A, B, C, D) trong cây tiến hóa.
•
Phương pháp tạo gốc là chỉ ra tổ tiên chung mà từ đó các con cháu được phát sinh.
• Gốc là tổ tiên của tất cả các
•
loài trong cây Có n-1 cách tạo ra cây có gốc với n là số điểm (node).
Các lá cây (1, 2, 3, 4, 5) được gọi là các OTU (operation taxon unit) Các điểm bên trong (internal node) là tổ tiên chung (6, 7, 8). Cây không gốc không chỉ ra tổ tiên mà từ đó các con cháu phát sinh.
Cây tiến hóa
• Có 2 loại cây tiến hóa: • Cây có gốc: những cây chỉ có một điểm duy nhất mà từ đó các điểm khác được phát sinh.
• Cây không có gốc: là những cây không xác định được nguồn gốc từ một điểm duy nhất làm tổ tiên ban đầu mà từ đó phát sinh ra các loài hoặc tổ tiên tiếp đó.
4
1/6/2019
7. Dữ liệu gì được dùng để xây dựng cây tiến hóa?
Xây dựng cây tiến hóa có gốc
• Để xây dựng cây tiến hóa có một điểm làm tổ tiên chung cần đưa 1 loài mới vào để phân tích chung gọi là nhóm ngoại. Nhóm ngoại phải có đặc điểm có tổ tiên chung gần nhất với tất cả các OTU có trong cây tiến hóa nhưng phải có sự khác biệt đủ lớn để tách biệt với tất cả các OTU khác.
• Một dấu hiện khác biệt rất dễ dàng nhận ra giữa cây có gốc và không có gốc là sự xuất hiện nhóm ngoại. Nhóm ngoại nằm ở vị trí gốc chung của tất cả các OTUs nhưng tách riêng ra một nhánh riêng biệt.
• Các dữ liệu hình thái • Dữ liệu sinh lý hóa sinh • Các protein, enzyme • Các đoạn DNA đa hình (microsatellite, RFLP, SSR, RAPD) • Các vùng trình tự không mã hóa (16S, 18S, ITS, LSU) • Trình tự amino acid • Trình tự nucleotide • Trình tự DNA ti thể
• Nếu việc tìm nhóm ngoại hoặc bổ sung nhóm ngoại rất khó thì các biện pháp khác có thể được áp dụng để xác định gốc cho một cây chẳng hạn dùng điểm giữa (midpoint) của nhánh dài nhất của cành liên tiếp gần kề. Cách này chỉ có thể áp dụng nếu cây tiến hóa tuân theo cùng một đồng hồ phân tử.
8. Đột biến là nguồn dữ liệu hữu ích trong phân tích tiến hóa
• Đột biến, lỗi xảy ra trong quá trình sao chép và
sửa chữa DNA
• Chỉ những đột biến xảy ra ở tế bào mầm
(germline cells) đóng vai trò quan trọng trong tiến hóa. Tuy nhiên ở một số sinh vật không có sự phân biệt giữa tế bào mầm hay tế bào soma. • Chỉ những đột biến mà được cố định trong quần thể (tồn tại ở một mức tần số allele nhất định) được gọi là sự thay thế.
5
1/6/2019
Phương pháp chính sử dụng để xây dựng cây tiến hóa
8. Phương pháp phổ biến xây dựng cây tiến hóa?
• Phương pháp dựa vào khoảng cách
– UPGMA (unweighted pair group method with
arithmetic mean)
• Phương pháp phổ biến và thông dụng nhất để xây dựng cây tiến hóa là dựa vào: khoảng cách và so sánh đặc điểm ký tự
– NJ (Neighbour Joining)
• Phương pháp khoảng cách đo khoảng cách
• Phương pháp dựa vào ký tự trình tự
của các cặp phân tích (cặp trình tự) trên cơ sở lập ra các ma trận khoảng cách.
– Parsimony methods – Maximum likelihood
• Phương pháp kiểm định cây tiến hóa
• Phương pháp so sánh ký tự xác định tất cả các cây có thể và tìm ra một cây phù hợp nhất trong tổng số các cây có thể.
– Bootstrapping – Jack Knife
6
1/6/2019
Phương pháp UGPMA
•
Phương pháp này được xây dựng trên cơ sở theo một quy trình sau: – –
–
Giả thuyết ban đầu mỗi loài phân bố ở một điểm (OTU) Ghép cặp các OTU, xác định khoảng cách của mỗi cặp trên cơ sở so sánh ma trận, chọn ra cặp có khoảng cách ngắn nhất. Khoảng cách giữa hai OTU này được tính bằng trung bình khoảng cách tính từ ma trận. Các cặp có khoảng cách ngắn nhất được ghép lại thành các OTU mới. Các OTU lại được ghép với nhau để xác định khoảng cách. Lặp lại quá trình này cho tới khi tất cả các loài được nối với nhau trong một cụm duy nhất.
•
•
Thuật toán này mang tính phân loại theo ngoại hình (phenetic), không thể hiện được thế hệ, dòng dõi và mức độ phân ly của mối quan hệ tiến hóa. Thuật toán này chấp nhận giả thuyết của đồng hồ sinh học. Ngoài phương pháp UGPMA còn có các phương pháp WPGMA và UPGMS với thuật toán tương tự.
UPGMA
UPGMA
6 OTU: A, B, C, D, E
Tính toán các cặp OTUs với khoảng cách nhỏ nhất. A và B tách nhau 1 khoảng cách = 2. Điểm phân nhánh giữa A và B tính bằng ½ khoảng cách giữa chúng → sơ đồ nhánh của A và B.
Các phương pháp ma trận khoảng cách
UPGMA & Neighbor Joining
• UPGMA và Neighbor Joining sử dụng quy trình phân tích nhóm. • Các “node” được nhóm với nhau ở mỗi bước để tạo thành một
• ClustalW, Phylo_win, Paup • Paupsearch, distances (GCG software package) • DNADist, PROTDist, Fitch, Kitch, Neighbor
“node” mới trên cây. Quá trình này được thực hiện liên tục từ The method works by clustering nodes at each stage and then forming a new node on a tree. This process continues from the bottom of the tree and in each step a new node is added, and the tree grows upward.
(Phylip package)
• The length of the branch at each step is determined by the
difference in heights of the nodes at each end of the branch. • UPGMA has built in assumptions that the tree is additive and that
all nodes are equally distance from the root.
• UPGMA is not used much today, but gave way to a very common
approach now termed “Neighbor Joining”
7
1/6/2019
Gene tree vs phylogenetic tree
• Sử dụng một vài trình tự DNA/Protein → cây
tiến hóa
• Liệu có đủ tin cậy?
Multisequence alignment → phylogenetic tree
8
1/6/2019
Cách “đọc” cây tiến hóa?
Cách “đọc” cây tiến hóa?
• To some biologists, use of the term "cladogram"
emphasizes that the diagram represents a hypothesis about the actual evolutionary history of a group, while "phylogenies" represent true evolutionary history
• To other biologists, "cladogram" suggests that the
lengths of the branches in the diagram are arbitrary, while in a "phylogeny," the branch lengths indicate the amount of character change.
Phylogenetic tree
Những cây sau đây là tương đương nhau
• A phylogenetic tree, also known as a phylogeny,
is a diagram that depicts the lines of evolutionary descent of different species, organisms, or genes from a common ancestor.
• Phylogenies are useful for organizing knowledge
of biological diversity, for structuring classifications, and for providing insight into events that occurred during evolution
9
1/6/2019
Trong các cây sau, các nhánh bên trong thay đổi dẫn đến làm thay đổi trật tự sắp xếp của các taxa
Các chương trình xây dựng cây tiến hóa…
Các chương trình xây dựng cây tiến hóa
Các chương trình xây dựng cây tiến hóa
Các chương trình xây dựng cây tiến hóa
10
1/6/2019
Các chương trình xây dựng cây tiến hóa
11