1/6/2019

Mục tiêu của môn học:

Tin sinh học (Bioinformatics)

Thông tin về học phần

Giới thiệu khái quát cách tìm kiếm nguồn thông tin trên

Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn.

Mã học phần: SH3036

Số tín chỉ: 3 (2LT + 1TH)

Trang bị kiến thức cơ bản và một số công cụ thông dụng của

Học phần tiên quyết:

tin sinh học để:

+ Sinh học phân tử I, II (SH2003; SH2004),

Khai thác và xử lý các thông tin sinh học

+ Kỹ thuật di truyền - nguyên lý và ứng dụng

Ứng dụng trong lĩnh vực nghiên cứu, trong phòng

thí nghiệm và thực tiễn.

Nội dung của môn học

Tóm tắt nội dung môn học

Phần 1. Lý thuyết

Phần 1. Lý thuyết

Chuyên cần: dự lớp, thảo luận…:

10%

Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học Phần 3. Thực hành trên máy tính 1. Giới thiệu đôi nét về Internet và phương pháp tìm kiếm thông tin cơ bản 2. Nền tảng sinh học của Bioinformatics Nhiệm vụ của sinh viên Dự lớp, thảo luận Thực hành, làm bài tập 3. Sự ra đời và vai trò của Bioinformatics 4. Cơ sở dữ liệu sinh học (CSDL) Hình thức thi: Thi viết và thực hành trên máy tính 5. So sánh trình tự (sequence alignment) Thang điểm đánh giá: Thang điểm 10,0 6. Phân tích gene và promoter Kiểm tra giữa kỳ, báo cáo thực hành/tiểu luận…: 20% Điểm thi cuối kỳ (lý thuyết + thực hành) 70%

Tóm tắt nội dung môn học

Tóm tắt nội dung môn học

Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học

Phần 1. Lý thuyết

1

1. Tìm kiếm thông tin về các gene, các bài báo và những thông tin liên quan 7. Nghiên cứu mối quan hệ tiến hóa của sinh vật ở mức độ phân tử 2. Tìm kiếm các CSDL tương đồng (molecular phylogenetics) 3. So sánh các trình tự sinh học 8. Tin sinh học trong nghiên cứu cấu trúc phân tử 4. Phân tích các trình tự ADN 9. Nghiên cứu genomics và proteomics 5. Phân tích trình tự protein 10. Sinh học hệ thống (Systems Biology): Phân tích chức năng của các 6. Phân tích gene và promoter genome 7. Làm quen với cấu trúc 3 chiều của phân tử protein

1/6/2019

Tài liệu học tập

Tóm tắt nội dung môn học

1. J.Xiong (2006). Essential bioinformatics, Cambridge University

Press.

Phần 3. Thực hành

2. Hui-Huang Hsu (2006). Advance in data mining technologies in

bioinformatics. Idea Group Inc.

3. J. M.Claverie, C. Notredame (2007). Bioinformatics For

Dummies®, 2nd Edition. Wiley Publishing, Inc.

4. S.Q.Ye (2008). Bioinformatics: A Practical Approach. Taylor &

Francis Group.

5. J.Pevsner (2009). Bioinformatics and functional genomics. A

John Wiley & Sons, Inc.

6. P.M.Selzer, R.J. Marhöfer, A. Rohwer (2009). Applied

1. Các bài tập thực hành bao gồm những bài tập liên quan đến việc ứng dụng các công cụ để phân tích CSDL sinh học. 2. Phần thực hành cần thao tác trực tiếp trên máy tính có kết nối Internet. Trước mỗi buổi thực hành sẽ có phần bài tập và tài

bioinformatics: An introduction. Springer-Verlag Berlin Heidelberg.

7. P. Kangueane (2009). Bioinformation Discovery. Data to

liệu hướng dẫn thực hành. 3. Thực hành ở hội trường của Khoa, lớp chia thành 3 nhóm

Knowledge in Biology. Springer Dordrecht Heidelberg London New York.

8. Phan Trọng Nhật, Nguyễn Đức Bách. Bài giảng Tin sinh học, Đại

học Nông nghiệp Hà Nội.

2

Chương 1

1.1. Lịch sử ra đời và phát triển

• Khái niệm

Giới thiệu Bioinformatics

• Những mốc lịch sử quan trọng

Khái niệm

Bioinformatics is the application of

computer science and information

technology to the field of biology and

medicine.

Khái niệm

Requirements

Bioinformatics liên quan đến: Thuật toán, CSDL, hệ thống thông tin, công nghệ Web, trí thông minh nhân tạo, phần mềm, khai thác CSDL, xử lý hình ảnh, mô hình, mô phỏng, xử lý thống kê, tạo ra các CSDL mới…

Java, XML, Perl, C, C++, Python, R, SQL and Mat Lab are the programming languages popularly used in this field.

A bioinformatician needs to have a basic and general sense of the ideas and approaches of science and engineering.

DNA computing neural computing evolutionary computing immuno-computing swarm-computing cellular-computing

1

1866: Gregor Mendel công bố các kết quả nghiên

cứu về tính di truyền của các “yếu tố di truyền” ở

đậu Hà Lan

Một vài mốc lịch sử quan trọng của sinh học phân tử

1950's

Maurice Wilkins (1916- ),

Rosalind Franklin

Rosalind Franklin (1920-1958),

Francis H. C. Crick (1916- ) (U.K)

Nhà nghiên cứu lý sinh học, vật lý học, hóa học, và

tinh thể học người Anh.

James D. Watson (1928- ) (U.S.)

Đóng góp quan trọng trong việc hiểu rõ về cấu trúc

phân tử của DNA, RNA cấu trúc virus, than đá, than

chì.

Franklin được biết đến nhiều nhất từ kết quả

nghiên cứu về những bức ảnh nhiễu xạ tia X của

DNA.

Watson và Crick dựa trên kết quả quan trọng này

Khám phá cấu trúc hóa học của DNA, khởi đầu một nhánh mới trong khoa học: Sinh học phân tử

để đưa ra giả thuyết về mô hình cấu trúc của phân

tử DNA (1953)

Khám phá cấu trúc DNA

1957: Arthur Kornberg (1918-2007 ) (U.S) đã tổng hợp được DNA trong ống nghiệm

Ông đã giành giải thưởng Nobel về

Book: The double helix

sinh lý năm 1959 cho đóng góp về:

“Các cơ chế trong tổng hợp sinh học

Cuộc chiến giữa Watson và Crick vs Linus Carl Pauling

của DNA”

2

Một số mốc trong lịch sử xác định trình tự amino acid

1955 F. Sanger (U.K) phát triển quy trình xác định amino

acid (insulin)

1975. F. Sanger phát triển phương pháp xác định trình tự

nucleotide.

Ông đã nhận 2 giải thưởng Nobel (1958, 1980) cho những đóng góp của mình

Đến nay có 4 người đã nhận được 2 giải thưởng

Nobel trong đời

1. Marie Curie (Physics, 1903 and Chemistry, 1911),

2. Linus Pauling (Chemistry, 1954 and Peace, 1962)

3. Frederick Sanger (2 Chemistry, 1956 and 1972)

4. John Bardeen (2 Physics, 1956 and 1972)

Mã di truyền (Genetic code)

Làm thế nào để xác định được mã di truyền?

Năm 1966

mã di truyền đã được phát hiện. Kết

quả này dẫn đến những đột phá quan

trọng trong kỹ nghệ di truyền

(genetic engineering)

1972 Paul Berg (1926- ) (U.S) đã tạo ra phân tử DNA tái tổ hợp

Khám phá mã di truyền

In 1980 ông đã cùng nhận giải thưởng Nobel cùng với Walter Gilbert và Frederick Sanger.

4 nucleotide trong phân tử DNA (RNA) và 20 amino acid trong chuỗi polypeptide đã được biết

Năm 1953, cấu trúc DNA đã được xác định

George Gamow giả thiết rằng sẽ phải là 3 chữ cái để mã cho 20 aa bởi vì 3 là số tự nhiên nhỏ nhất (43 = 64)

Giả thuyết này đã được Crick và Brenner cùng các tác giả khác chứng tỏ bằng thực nghiệm (1961)

Sử dụng hệ thống dịch mã không cần tế bào:

Poly UUUU… tạo ra phenlyalanine

Poly AAAA... tạo thành polylysine

Poly CCCC... tạo thành polyproline

3

Cuối những năm 1980, một hiệp hội quốc tế của một số phòng

thí nghiệm lớn đã đưa ra dự án xác định lập bản đồ genome

1983 Barbara McClintock (1902-1992) (U.S.) đã nhận được giải thưởng Nobel cho những phát hiện các yếu tố di truyền vận động

người.

Năm 1990, lần đầu tiên liệu pháp gen được đưa vào điều trị

Năm 1993 Kary Mullis phát minh quy trình PCR (Giải thưởng Nobel)

Năm 1994 FDA chấp nhận cho phép dùng cây chuyển gene trong thực phẩm (Cà chua)

Năm 1997: Động vật có vú lần đầu tiên được clone.

Mốc lịch sử xác định trình tự genome

4

1992

Welcome Trust và United Kingdom Medical Research Council thiết lập trung tâm

Sanger Centre để xác định trình tự genome ở quy mô lớn

1992

J. C. Venter sáng lập Viện nghiên cứu genome (The Institute for Genome Research

Cấu trúc DNA.

1953

(TIGR).

F. Sanger (độc lập), A. Maxam và W. Gilbert: phương pháp xác định trình tự DNA

1975

1995

Genome vi khuẩn đầu tiên được giải trình tự Haemophilus influenzae (bởi TIGR)

1977

Genome φ X-174 được xác định trình tự

Bản đồ liên kết (mức độ phân giải cao) của genome người được hoàn thành.

1980

Mỹ cấp bằng phát minh cho các vi khuẩn cải biến gen (cơ sở cho patent về gene)

Khoảng cách giữa các marker khoảng 600. 000 nucleotide.

1981

DNA ti thể người được xác định trình tự:16 569 base pairs.

Hoàn thành genome nấm men (genome đầu tiên của eukaryote)

1996

1984

Epstein-Barr virus genome : 172 281 base pairs

Hoàn thành xác định trình tự genome người

1998

1990

Dự án xác định trình tự genome người (dự kiến 15 năm)

Genome của Caenorhabditis elegans được công bố

1998

1991

J. C. Venter và cộng sự xác định các gen hoạt động dựa trên cơ sở các EST.

Genome của Drosophila melanogaster được công bố

1999

1992

Bản đồ liên kết (mức độ phân giải thấp) của genome người được hoàn thành.

1999

Bản nháp được hoàn thành (90% các gene được xác định trình tự với mức chính

1992

Khởi động dự án xác định trình tự genome Caenorhabditis elegans

xác >95%).

12/ 1999 Trình tự của NST số 1 ở người được công bố

2000

Bản nháp về trình tự DNA genome người được công bố

Genome người

◼ Một thư viện có 46 cuốn sách

(NST)

◼ Mỗi cuốn sách có 48 đến 250 triệu chữ (A,C,G,T). Toàn bộ thư viện có hơn 6 tỉ chữ

◼ Thư viện được đặt trong nhân của tế bào có kích thước rất nhỏ.

◼ Trong mỗ i tế bào củ a cơ thế

n (gồm 46

ngươ i chứ a 1 thư viế cuốn sách)

Những vấn đề tồn đọng trong phân tích genome

Những vấn đề tồn đọng trong phân tích genome

◼ Mối quan hệ tiến hóa giữa các sinh vật

◼ Xác định số lượng gene, vị trí phân bố trên NST và chức năng

◼ Nghiên cứu cấu trúc và chức năng protein

◼ Điều hòa hoạt động gene

◼ Proteomes của các sinh vật

◼ Cấu trúc NST và tổ chức của các gene, trình tự DNA trên NST

◼ Mối tương quan giữa các SNP với sức khỏe và bệnh tật

◼ Các dạng DNA không mã hóa, số lượng, phân bố, thông tin, chức năng của

◼ Dự đoán khả năng mẫn cảm bệnh dựa trên cơ sở so sánh đa hình trình tự

chúng.

gene.

◼ Xác định vị trí của các gene biểu hiện trên NST, các sự kiên liên quan đến sinh

tổng hợp protein, cải biến sau dịch mã

◼ Các gen liên quan đến các tính trạng phức tạp và các bệnh liên quan đến

◼ Tương tác của các protein trong một phức hợp với các phân tử khác

nhiều gen.

◼ Dư đoán chứ c năng gene và so sánh với kết quả thực nghiệm

◼ Sinh học hệ thống

5

Bioinformatics

Paulien Hogeweg (1979) đưa ra thuật ngữ

khi nghiên cứu các quá trình xử lý thông tin

trong các hệ thống sinh học

Những năm gần đây, một lượng lớn dữ liệu

sinh học được tạo ra (genomic, proteomic)

Để phân tích các CSDL này cần phải sử dụng các thuật toán, các công cụ thống kê, khoa học máy tính

1.2. Nhiệm vụ của bioinformatics

1.2. Nhiệm vụ của bioinformatics

Xây dựng CSDL (Genomic, protein databases)

Xây dựng CSDL về đột biến gene và các SNP

1. Quản lý CSDL

Các trình duyệt cho genome (Genome browser)

2. Phát triển các công cụ, thuật toán để khám phá những thông tin

So sánh trình tự (Sequence alignment)

ẩn chứa trong các CSDL

Dự đoán gene (Ab initio gene prediction), xác định tổ chức gene trên NST,

genome.

Xây dựng các mô hình về biểu hiện gene: SAGE, EST

Dự đoán promoter (Promoter prediction)

Xây dựng cấu trúc các đại phân tử và mô hình tương tác

Các bước nghiên cứu sau: Tương tác CSDL và gene ontology

6

1.2. Nhiế

m vủ và các hướ ng nghiên cứ u bioinformatics

◼ Xây dư ng CSDL (Databases)

Phân tích trình tư (sequence analysis)

◼ Mô tả genome (Genome annotation)

Sinh học tiến hóa (Computational evolutionary biology

Phân tích biểu hiện gene (Analysis of gene expression

Phân tích điều hòa phiên mã (Analysis of regulation)

Phân tích biểu hiện protein (Analysis of protein expression)

Phân tích các đột biến trong ung thư (Analysis of mutations in cancer

◼ Dư đoán cấu trúc protein (Prediction of protein structure)

So sánh genome (Comparative genomics

◼ Mô hình hóa các hệ thống sinh học (Modeling biological systems)

Phân tích hình ảnh quy mô lớ n (High-throughput image analysis)

◼ Nghiên cứ u tương tác protein (Protein-protein interaction

Machine learning:

Phát triển các phần mềm và công cụ (Software and tools)

Microarray

1.2. Nhiệm vụ của bioinformatics

1. Phân tích biểu hiện gene

◼ Microarray kết hợp với high throughput (HT) mass spectrometry

(MS) có thể cung cấp một bức tranh về sự có mặt của các protein

trong một mẫu sinh học

◼ CSDL về microarray và MS là vô cùng cần thiết

2. Phân tích các đột biến trong ung thư

3. Dự đoán cấu trúc phân tử protein

◼ Các đột biến điểm: tạo ra các gen đột biến có thể dẫn đến ung

thư.

◼ Các nhà tin sinh học tạo ra các hệ thống để quản lý các dữ

liệu trình tự và phát triển các thuật toán để so sánh các trình

tự này nhằm phát hiện các đa hình

◼ Các bậc cấu trúc protein ◼ Phát triển các thuốc điều trị mới ◼ Phát triển các enzyme mới ◼ Thuật toán cũng như các phần mềm, độ chính xác của cấu trúc của rất hạn chế

◼ Các thư viện SNPs là một trong những kho dữ liệu để phân

tích các đột biến điểm.

7

4. Mô phỏng, mô hình hóa hệ thống sinh học

3. So sánh genome

◼ Nghiên cứu mối quan hệ giữa cấu trúc và chức năng genome của các loài khác

nhau.

◼ Sử dụng các thuật toán, các cấu trúc dữ liệu, hiển thị và các công cụ

◼ Tìm kiếm gene là một trong những ứng dụng quan trọng trong nghiên cứu so sánh

giao tiếp để xây dựng, mô phỏng các hệ thống sinh học, tạo ra một

genome (phát hiện các vùng, yếu tố mã hóa, không mã hóa…)

mạng lưới các con đường trao đổi chất (enzyme, dẫn truyền tín hiệu,

◼ So sánh genome sẽ cho biết sự giống và khác nhau về các protein (kết hợp với các

mạng lưới điều hòa)

nghiên cứu thực nghiệm) để phát hiện chức năng và cơ chế sinh học.

◼ Mô phỏng các hệ thống sống đơn giản (hoạt động tế bào, dạng sống

◼ So sánh genome cũng phát hiện được vai trò của các gene điều hòa và các vùng

đơn giản)

điều hòa ở các SV khác nhau. → Xác định được chức năng của các yếu tố trong

genome.

6. Protein docking

◼ Cho đến nay hơn 10.000 cấu trúc 3 chiều của protein đã được xác định

5. Phân tích hình ảnh (High-throughput image analysis)

bằng các kỹ thuật kết tinh và cộng hưởng từ hạt nhân, nhiễu xạ tia X.

◼ Câu hỏi đặt ra là các phân tử này sẽ tương tác với nhau như thế nào trong

không gian nếu chỉ dựa vào cấu trúc 3 D?

◼ Sử dụng công nghệ máy tính để xử lý tự động lượng lớn của các

hình ảnh (mang nhiều thông tin) sử dụng trong y học và chẩn

đoán.

◼ Hiển thị các bản đồ, cấu trúc phân tử protein ở mức phân giải

cao

7. Phân tích toàn bộ trình tự genome

Các công cụ so sánh trình tự

Nhận dạng và dự đoán các gene và các yếu tố khác (Ab initio gene prediction)

Phân tích các EST

Phân tích đa hình

8. Phân tích các con đường trao đổi chất và điều hòa

Các hồ sơ (profilling) về biểu hiện gene (thư viện microarray)

Proteomic

Các mạng lưới trao đổi chất và điều hòa

8

8. Thao tác với các dữ liệu phức tạp

1.3. Xu hướ ng phát triển

◼ Tư phân tích trình tư genome đến việc điều trị ◼ Thuật toán và các thách thứ c trong khoa học máy tính ◼ Tương tác protein và các con đươ ng chuyển hóa ◼ Phân tích chứ c năng protein ◼ Ứ ng dụng trong nghiên cứ u và lâm sàng

Các hướng nghiên cứu của bioinformatics

Các công cụ của bioinformatics

Sequence alignment

◼ Phân tích trình tự sinh học (tìm trình tự giống nhau, tương đồng, so sánh

BLAST CS-BLAST HMMER FASTA

http://blast.ncbi.nlm.nih.gov/Blast.cgi ftp://toolkit.lmb.uni-muenchen.de/csblast/ http://hmmer.janelia.org/ www.ebi.ac.uk/fasta33

trình tự)

Multiple sequence MSAProbs alignment

◼ Mô tả genome (đánh dấu các gene và các thành phần cấu trúc của

DNA Alignment MultAlin DiAlign

http://msaprobs.sourceforge.net/ http://www.fluxus-ngineering.com/align.htm http://multalin.toulouse.inra.fr/multalin/multalin.html http://bibiserv.techfak.uni-bielefeld.de/dialign/

genome trên các NST)

Gene Finding

◼ Nghiên cứu sự biểu hiện của nhiều gene (đo các mức độ phiên mã

GenScan GenomeScan GeneMark

genes.mit.edu/GENSCAN.html http://genes.mit.edu/genomescan.html http://exon.biology.gatech.edu/

mRNA sử dụng các kỹ thuật: microarray, xác định trình tự các EST

(expressed cDNA), phân tính sự biểu hiện hàng loạt gene (SAGE).

Khai thác dữ liệu (Data mining)

Protein Domain

Pfam

http://pfam.sanger.ac.uk/

BLOCKS

http://blocks.fhcrc.org/

◼ Khai thác các kiến thức, hiểu biết từ các CSDL lớn

ProDom

http://prodom.prabi.fr/prodom/

current/html/home.php

◼ Tìm ra các mô hình hoặc mối liên quan giữa các dữ liệu (tìm công cụ, vật

liệu trong kho)

Pattern Identification

◼ Ứng dụng

Gibbs Sampler AlignACE MEME

http://bayesweb.wadsworth.org/gibbs/gibbs.html http://atlas.med.harvard.edu/ http://meme.sdsc.edu/

Genomic SLAM Analysis Multiz

http://bio.math.berkeley.edu/slam/ http://www.bx.psu.edu/miller_lab/

Motif finding

MEME/MAST eMOTIF

http://meme.sdsc.edu http://motif.stanford.edu

9

CSDL sinh học

Danh sách các CSDL trình tự sơ cấp

1. Trình tự DNA thô (raw)

2. Trình tự protein

3. Cấu trúc các đại phân tử sinh học

4. Các genome

5. Biểu hiện gene

6. Các CSDL khác: Các công trình nghiên cứu (Literature)

Các con đường trao đổi chất (Metabolic pathways)

Thăm các CSDL trình tự sinh học

NCBI

(sử dụng Internet)

http://www.ncbi.nlm.nih.gov/

EMBL

DDBJ

http://www.ebi.ac.uk/embl/

http://www.ddbj.nig.ac.jp/

10

Ensembl

UCSC

http://www.ensembl.org/index.html

http://www.ensembl.org/index.html

11

1/6/2019

Axit nucleic

Nền tảng sinh học của Bioinformatics

1. Axit nucleic

2. Protein

3. Cấu trúc gen của prokaryote và eukaryote

4. Phiên mã và dịch mã

1

2

Tổ chức của genome

Axit nucleic

ADN

3

4

http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html

Câu hỏi ?

1. Thế nào là nucleotide? 2. Phân tử DNA có 2 sợi. Sợi nào sẽ được phiên mã? 3. Sợi DNA mang nghĩa (sense/coding) và đối nghĩa (antisense/ anti coding)? 4. Quá trình phiên mã diễn ra theo hướng nào? và bắt đầu từ đầu nào của phân tử DNA antisense? 5. Quá trình dịch mã được diễn ra từ chiều nào của sợi mRNA? 6. Trình tự axit amin của chuỗi peptid được tổng hợp được bắt đầu từ chiều nào, đầu C hay N tận cùng?

Nucleotide

5

6

1

1/6/2019

Sợi mang nghĩa và sợi đối nghĩa (sense and antisense)

Một trình tự DNA được gọi là mang nghĩa (sense/ coding) nếu trình tự của nó giống hệ với trình tự của một phân tử mRNA (được dịch mã thành protein) Trình tự của sợi còn lại được gọi là đối nghĩa (antisense/ anti coding).

sense ATGCTCATCGATC 5‘ 3‘

3‘ 5‘

AUGCUCAUCGAUC

7

8

antisense TACGAGTAGCTAG 5‘ 3‘ mRNA

Một số trình tự DNA ở prokaryote, eukaryote, plasmid và nhiều virus khó phân biệt được khái niệm sợi mang nghĩa và sợi đối nghĩa vì có hiện Cả hai trình tự sense và antisense đều tồn tại ở những phần khác tượng các chồng gen (overlapping gene). nhau của cùng một sợi DNA (nói cách khác cả 2 sợi đều chứa các trình tự sense và antisense). Trong những trường hợp này một số trình tự DNA có thể mã hóa cho một protein trên sợi này và một protein khác trên sợi kia (theo chiều sense ngược lại)

+ NH3

5‘ 3‘ 3‘ 5‘ antisense mRNA 5‘ 3‘ 3‘ 5‘ Ở cả prokaryote và eukaryote các trình tự antisense RNA đều được 3‘ 5‘

tạo ra nhưng chức năng chưa rõ. Có khả năng các antisense RNA liên

quan đến việc điều hòa quá trình biểu hiện gen thông qua tương tác 3‘ 5‘ mRNA RNA-RNA.

+ NH3

9

10

Số lượng gene: Human Genome Project

Phân loại các RNA

◼ Năm 1999, dự đoán có khoảng hơn 100.000 mã hóa cho protein.

Tuy nhiên thực tế chỉ có khoảng hơn 20.000 gene được xác định

(2004).

◼ Sau năm 2004, các hướng tiếp cận bioinformatics kết hợp với việc

các nghiên cứu genome đã kiểm tra các transcriptome, xác định

◼ Có bao nhiêu loại RNA? ◼ Nguồn gốc của các RNA? ◼ Ý nghĩa của việc nghiên cứu các RNA?

trình tự các thư viện cDNA, thử nghiệm (tạo ra các RNA ức chế các

miRNA còn gọi là antagomir).

Có rất nhiều các bản phiên mã (transcript) không mã hóa cho

protein, những bản phiên mã này bao gồm các snoRNA và miRNA.

11

12

2

1/6/2019

RNA mã hóa (mRNA)

RNA

• Ribonucleic acid (RNA) là một

RNA thông tin (mRNA) là RNA mang thông tin từ DNA đến ribosome để thực hiện quá trình dịch mã. Trình tự mRNA quyết định trình tự amino acid trong phân tử protein

polymer bao gồm các nucleotide.

• RNA hoạt động trung gian giữa

được tạo ra.

DNA và sinh tổng hợp protein.

• Có 2 loại RNA:

RNA mã hóa (mRNA) và

RNA không mã hóa (non-coding RNA)

• Rất nhiều các RNA không mã hóa

cho protein (khoảng 97% ở eukaryote)

13

14

Các RNA không mã hóa (non-coding RNA)

rRNA

rRNA là thành phần RNA cấu tạo nên ribosome.

Những RNA không mã hóa protein (non-coding RNA) có thể được mã hóa bởi các gene mã hóa cho non-coding RNA, hoặc cũng có

thể từ các mRNA intron.

rRNA có tính bảo thủ rất cao ở tất cả các tế bào. Các gene mã

hóa cho rRNA (rDNA) có trình tự rất giống nhau ở các sinh vật

trong cùng một taxon. Do đó, hàng nghìn trình tự rRNA được biết

và lưu trữ trong các CSDL đặc thù.

Tại Bỉ, CSDL về trình tự rRNA được lưu trữ bao gồm CSDL về các

SSU (small subunit) và LSU (large subunit) của rRNA.

15

16

tRNA

rRNA prokaryote và eukaryote

◼ Là phân tử RNA nhỏ (74-95 nu) có vai trò vận chuyển

aa.

◼ tRNA gắn aa ở đầu 3‘ (aminoacyl tRNA synthetase)

Non-coding RNA bao gồm: 1. rRNA 2. tRNA 3. snRNA (small nuclear RNA) 4. miRNA (micro RNA) 5. snoRNA (small nucleolar RNA) 6. ribozyme

Loại Prokaryote Eukaryote

Kích thước Đơn vị lớn 70S 80S

Đơn vị nhỏ 50S (5S; 23S) 30S (16S) 60S (5S; 5,8S; 28S) 40S (18S)

◼ Mỗi loại tRNA gắn với chỉ 1 loại aa.

◼ Tính thoái hóa của mã di truyền (nhiều bộ ba cùng mã 1

aa). Do đó có nhiều tRNA khác nhau mang các vùng đối

mã khác nhau có thể mang cùng một loại aa.

17

18

Các rRNA liên quan đến các cơ chế kháng kháng sinh. Chẳng hạn rRNA 70S của vi khuẩn bị tấn công bởi chloramphenicol, trong khi rRNA 80S của eukaryote không bị ảnh hưởng gì. rRNA có vai trò quan trọng trong phân tích mối quan hệ di truyền của các sinh vật trong quá trình tiến hóa. Trên thực tế người ta thường so sánh trình tự của các gene mã hóa 16S (vi khuẩn), 18S, 23S ở

(eukaryote) để đánh giá mối quan hệ họ hàng.

3

1/6/2019

Genes mã hóa cho tRNA

Số lượng gene mã hóa cho tRNA rất khác nhau ở các sinh vật C. elegans: 620 gene mã hóa cho tRNA trong tổng số 29.647 gene (2,09%) S. Cerevisiae: 275/ ? H. sapien: 4.421 (non-coding RNA gene)/ 27.161 22 tRNA gene ở ty thể 497 tRNA gene ở nhân mã hóa cho các tRNA ở tế bào chất 324 tRNA có nguồn gốc từ các gene giả (pseudogenes)

Cấu trúc tRNA

http://en.wikipedia.org/wiki/TRNA

19

20

snoRNA

• Small nucleolar RNAs (snoRNAs): là một lớp các phân tử RNA nhỏ có

snRNA (small nuclear rRNA)

vai trò giúp cho các quá trình cải biến hóa học của các RNA khác, chủ

yếu là rRNA, tRNA và snRNA.

Có 2 nhóm snoRNA:

C/D box snoRNA: liên quan đến quá trình methyl hóa

⚫ snRNA là một lớp của các phân tử RNA nhỏ tìm thấy ở trong

H/ACA box: liên quan đến quá trình pseudouridyl hóa

⚫ snRNA liên quan đến quá trình loại bỏ intron khỏi các pre-mRNA

• Ở động vật có xương sống, các gene snoRNA nằm trong các vùng intron

nhân của eukaryote. snRNA được phiên mã bởi RNA pol II.

(hn RNA), điều hòa phiên mã và duy trì các telomere.

của các protein liên quan đến tổng hợp ribosome hoặc các protein tham

⚫ Các snRNA thường kết hợp với các protein để tạo thành phức

gia trong quá trình dịch mã. Các snoRNA được tổng hợp bởi RNA pol

hợp snRNP (small nuclear ribonucleoprotein).

II hoặc III (snoRNA không có mặt ở bacteria)

⚫ Một nhóm lớn trong số các snRNA là snoRNA (small nuleolar).

22

pseudouridyl (Ψ) hóa là quá trình tạo ra các dạng đồng phân của uridine (glycosyl) trong phân tử RNA dưới sự xúc tác của các enzym gọi là Ψ synthases.

21

miRNAs được tạo ra từ gene hoặc từ các intron

miRNA

◼ MicroRNAs (miRNAs) là các phân tử RNA có chiều dài trung bình 22

◼ miRNA là các yếu tố điều hòa sau phiên mã. Các miRNA gắn bổ sung với

nucleotide.

◼ Genome người có khoảng hơn 1000 miRNAs phân bố ở nhiều loại tế bào.

các trình tự ở vùng không được dịch mã (3' UTRs) của phân tử mRNA đích. Kết quả thường dẫn đến làm gene không hoạt động (không có sản phẩm gene).

◼ MiRNA có tính bảo thủ cao ở các sinh vật eukaryote, được cho là có vai trò

Mỗi loại miRNA có thể ức chế hoạt động của hàng trăm mRNA.

sống còn liên quan đến quá trình điều hòa biểu hiện gen.

miRNP: Ribonucleoprotein complex

23

24

4

1/6/2019

RNA genome

Break !!!

◼ Giống như DNA, RNA có thể mang thông tin di truyền. Ví dụ: Các virus RNA có

genome là RNA mã hóa cho nhiều protein.

◼ Các viroid là nhóm chỉ chứa RNA vòng, ở dạng trần không có vỏ (capsid). RNA

của viroid không mã hóa bất kì protein nào và được sao chép bởi các

polymerase của tế bào chủ.

◼ RNA sợi kép (dsRNA): là RNA có 2 sợi bổ sung giống như DNA. dsRNA là

genome của một số dsRNA virus. Các dạng dsRNA chẳng hạn như RNA virus

hoặc siRNA có thể gây ra quá trình RNA inteference ở eukaryote.

26

25

Trình tự nucleotide trên các NST đã được xác định

Where am I?

ATGCTACATCGATACGGTAATGCATGCATCAGTACTACTACGTACGCCGTAATGCTACATCAGATACGGTAATGCATGCATCAGTACT

TACGATGTAGCTATGCCATTACGTACGTAGTCATGATGATGCATGCGGCATTACGATGTAGTCTATGCCATTACGTACGTAGTCATGA

1700 km

27

28

200 km 800 km Quy Nhơn TP HCM Thanh Hóa Huế Vinh Đà Nẵng Nha Trang Ga Hà Nội

Cấu trúc genome

Cấu trúc gene prokaryote và eukaryote

Watson (2004) Molecular biology of the gene

So sánh mật độ gen trên NST ở các sinh vật khác nhau (1 vùng DNA genome có chiều dài 65 kb)

Số lượng các gen được mã hóa bên trong cùng một

đơn vị chiều dài DNA giảm dần khi mà tính phức tạp của

Watson (2004) Molecular biology of the gene

sinh vật tăng lên.

29

30

5

1/6/2019

Intergenic region

Khái niệm gene?

◼Gene: một đoạn DNA nằm trên NST mã hóa cho một hoặc nhiều protein/ RNA.

◼ Gene có nhiều loại:

 Gene tạo ra sản phẩm là protein, tRNA, rRNA: Gen cấu trúc

 Gene kiểm soát sự biểu hiện và mức độ biểu hiện của các gene khác: Gene

Intergenic region (IGR) là một vùng trình tự DNA định vị ở giữa các cụm gene (clusters of genes). IGR có thể chứa ít hoặc không có gene nào.

 Một số gene cần thiết phải được biểu hiện ở tất cả các mô: House keeping

điều hòa 1. Người ta vẫn cho rằng các IGR là những „junk“ DNA.

gene. (Liên quan đến quá trình sinh tổng hợp protein).

 Các gene khác chỉ biểu hiện ở những tế bào, mô nhất đinh: Gene đặc hiệu

2. Phần lớn chức năng của các IGR vẫn chưa rõ. Trong một số it trường hợp IGR tham gia điều khiển các gene xung quanh, mô. Chẳng hạn gene mã hóa insulin chỉ biểu hiện ở tế bào tuyến tụy (pancreatic β-cells).

3. Ở người, các IGR chiếm một phần lớn trong genome. Có thể

31

32

các RNA không mã hóa định vị trong những vùng IGR, và vì vậy các IGR có thể tham gia điều hòa biểu hiện gene. Tóm lại cho dù thực hiện chức năng nào thì tất cả các gene chứa một vùng mã hóa để tạo ra một chuỗi polypeptide hoặc một phân tử RNA. 4. Cần phân biệt rõ IGR và intron (intragenic)

Cấu trúc gene của prokaryote

Gene và hoạt động của gene ở prokaryote

1. Mật độ gene cao (ít hoặc không có intron)

Vùng Promoter • Shine-Dalgarno box (AGGAGG) • Pribnow box (TATAAT) • Vị trí -35 (TTGACA)

2. Các gene thường tập trung trong một cụm gọi là operon.

Terminator

5’

3’

3. Có 1 loại RNA polymerase chịu trách nhiệm tổng hợp tất cả các loại RNA

ORF

4. Quá trình phiên mã diễn ra đơn giản không đòi hỏi các giai đoạn

Start codon

Stop codon

33

34

xử lý sau phiên mã 5. Quá trình dịch mã diễn ra đơn giản không hoặc ít đỏi hỏi các cải biến sau dịch mã

Một số khái niệm

Cấu trúc gene Prokaryote

Promoter: Vùng nucleotide thông báo cho việc khởi đầu phiên mã.

Pribnow box

Terminator: Vùng nucleotide thông báo dừng quá trình phiên mã.

Shine-Dalgarno

+1 -10 -35

5‘

3‘

ORF: Một đoạn DNA có khả năng mã hóa cho một protein.

Việc tìm ra ORF là dấu hiệu đầu tiên chỉ ra rằng đoạn DNA

TTGACA TATAT AGGAGG ATG AUG TAG/TAA/TGA UAG/UAA/UGA

Start codon

Stop codon

đó có thể là một phần của một gene.

Vùng nhận dạng của RNA pol

Vị trí gắn của RNA pol

35

36

Promoter

6

1/6/2019

So sánh trình tự vùng promoter ở E.coli

◼ Trình tự vùng promoter rất đa dạng ◼ RNA polymearase nhận ra nhiều trình tự promoter khác nhau

37

38

Monocistronic & polycistronic mRNA

mRNA

◼ 1 phân tử mRNA được coi là monocistronic khi nó chỉ chứa thông tin

3‘

5‘

để dịch mã cho duy nhất 1 phân tử protein. Hầu hết các mRNA của

eukaryote thuộc loại này.

◼ Polycistronic mRNA mang thông tin của một số gene, các gene này

sẽ được dịch mã thành nhiều proteins (operon). Hầu hết các mRNA

tìm thấy ở vi khuẩn và vi khuẩn cổ ở dạng polycistronic.

◼ Dicistronic hoặc bicistronic: mRNA mã hóa cho 2 protein

39

40

RecA promoter là một promoter mạnh

Promoter: mạnh § yếu

RecA promoter

TTGATA……16……TATAAT TTGACA……17……TATAAT

Các promoter yếu:

Có độ tương đồng thấp với vùng trình tự của TATA box và vùng trình tự -35. Khoảng cách giữa 2 vùng trình tự không phải là 17 nucleotide. Mỗi lần phiên mã cách nhau khoảng 10 phút (E.coli).

Các promoter mạnh:

41

42

Có độ tương đồng cao với TATA box và vùng -35 Mỗi lần phiên mã cách nhau 2s (E.coli) Cần thiết một số yếu tố khác

7

1/6/2019

araBAD promoter là một promoter yếu

Shine-Dalgarno sequence

araBAD promoter 1. Đề xuất bởi John Shine và Lynn Dalgarno năm 1975

CTGACG -- 18 -- TACTGT TTGACA -- 17 -- TATAAT

43

44

2. Trình tự Shine-Dalgarno chỉ tồn tại ở Prokaryote, gồm khoảng 4-7 base phía trước của mã khởi đầu (AUG) trên mRNA. 3. Consensus sequence gồm 6 base: AGGAGG (ở E.coli AGGAGGU) 4. Giúp cho việc gắn của ribosome vào mRNA để khởi đầu tổng hợp protein. 5. Trình tự Shine-Dalgarno bổ sung với trình tự gaucaCCUCCUuaOH định vị ở đầu 3‘ của 16S rRNA. 6. Đột biến ở vùng trình tự Shine Dalgarno sẽ ảnh hưởng đến hiệu quả dịch mã.

Khởi đầu dịch mã: Trình tự Shine-Dalgarno

16S rRNA

30S ribosom

AUUCCUCC

mRNA

GGAGGNNNNNAUG

5‘

3‘

45

46

Shine-Dalgarno

Coffee break

Các đặc điểm chính của tổ chức gene ở eukaryote

Những tín hiệu quan trọng cho việc nhận biết gene ở Eukaryote

◼ Các thành phần của vùng promoter

TATA box

CCAAT box ◼ Trình tự Kozak ◼ Các tín hiệu loại bỏ intron (Splice donor), các, acceptor and lariat

signals

◼ Tín hiệu kết thúc phiên mã ◼ Tín hiệu polyadenyl hóa

47

48

1. Mật độ gene thấp (3% mã hóa, 27% các trình tự promoter và intron) 2. Các gene khác nhau về thành phần và kích thước 3. Có 3 loại RNA polymerase (từ 8-12 protein) 4. Các trình tự promoter tập trung ở vùng 5‘ upstream (có thể khá xa) 5. RNA pol I: (50% tổng các RNA được tổng hợp trong tế bào: 18S, 5.8S, 28S ) RNA pol II (mRNA, hầu hết snRNA và microRNA) RNA pol III (5S rRNA, tRNA và các RNA nhỏ khác) 6. Mỗi gene có trình tự promoter khác nhau: Chẳng hạn TATA box (-25) chiếm 70% các gene.

8

1/6/2019

Promoter của Eukaryote

Eukaryote

1. Các promoter của eukaryote cực kỳ đang dạng và rất khó xác

định.

Promoter region • TATA box • CAAT box (in mammals) • GC box (GGGCGGG)

2. Các promoter thường nằm ở vùng upstream của gene và có thể có

Tín hiệu Polyadenylation AATAA

các yếu tố điều hòa nằm xa điểm khởi đầu phiên mã vài kb.

Exon 3

Exon 4

Exon 2

Exon 1

3. Phức hợp phiên mã ở eukaryote có thể làm cho DNA bẻ gập vì thế

5’

3’

nó cho phép các yếu tố điều hòa nằm ở vị trí rất xa có thể tham gia

Intron 1

Intron 2

Intron 3

trong quá trình phiên mã.

Start codon

Stop codon

4. Nhiều promoter chứa TATA box (trình tự TATAAA). Trình tự này sẽ

gắn với TATA binding protein (hỗ trợ cho RNA pol).

49

50

TATA box

Dấu hiệu nhận biết Promoter ở Eukaryote?

1. TATA box (còn gọi là Goldberg-Hogness box) có trình

tự 5'-TATAAA-3' nằm trong vùng promoter của

eukaryote và VK cổ.

2. Khoảng 24% gene của người chứa TATA box trong

vùng promoter.

3. TATA box thường nằm rất gần với vị trí khởi đầu phiên

mã (khoảng +25 base).

51

52

◼ TATA box ◼ CCAAT box ◼ GC-box ◼ DPE (downstream promoter element ) ◼ TF binding site ◼ CpG islands

CAT box

GC box

1. CCAAT box (CAAT box/ CAT box) là một vùng trình tự phổ

◼ GC box nằm trong vùng Promoter thường có trình tự 5’-GGGCGG-3’

biến với các nucleotide GGCCAATCT định vị cách vị trí khởi

◼ Nằm ở vị trí +100-150 cách TATA box.

đầu phiên mã khoảng 75-80 bases.

◼ Tham gia vào quá trình bám của các TF cho việc khởi đầu quá trình

2. CAAT box cung cấp tín hiệu cho việc bám của các TF

phiên mã.

(transcriptin factor) cùng với sự tham gia của GC box.

3. CAAT và GC box thường định vị ở cách TATA box khoảng

+100-150bp.

53

54

9

1/6/2019

CpG island

Promoter region • TATA box • CAAT box (in mammals) • GC box (GGGCGGG)

Vị trí CpG là những vùng DNA mà ở đó một nucleotide Cytosine kế cận

Tín hiệu Polyadenylation AATAA

với một nucleotide Guanine. CpG là ký hiệu viết tắt cho C-Phosphate-

Exon 3

Exon 4

Exon 2

Exon 1

G.

5’

3’

Intron 1

Intron 2

Intron 3

CpG island: là những vùng trong genome có nhiều vị trí CpG.

Trong genome của động vật có vú, các CpG island có chiều dài từ

300-3000 cặp base. Chúng nằm liền kề nhau trong vùng promoter.

CDS

+25

+100-150

+75-80

+1

Khoảng 70% promoter của các gene ở người có thành phần CpG

rất cao.

CpG box GC box CAAT box TATA box

Kozak consensus sequence

55

56

Kozak consensus sequence:

Kozak consensus sequence:

Là một trình tự có mặt trên mRNA của eukaryote, có tính phổ biến. Trình tự Kozak (gcc)gccRccAUGG trong đó R là base purin (adenine hoặc guanine), R nằm ở vị trí +3 trước mã khởi đầu AUG và sau mã

AUG là một Guanine.

Các base bảo thủ xung quanh mã khởi đầu của các mRNA ở người

57

58

Trình tự Kozak đóng vai trò quan trọng trong việc khởi đầu quá trình dịch mã.

Đặc điểm cơ bản của một số vector biểu hiện

59

60

10

CHƯƠNG 22 CHƯƠNG

TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU

2.1. Các công cụ tìm kiếm thông tin

To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.

Cuộc chiến của các search engine và thị phần tương ứng

Nguyên lý hoạt động của các search engine

Các bước tìm kiếm

• Web crawling • Web crawling • Indexing • Searching

Web crawling/robot/spider

1.

Là một chương trình tự động duyệt qua các siêu liên kết (hyperlink) để thu thập tài liệu. Sau đó nó nhận về tất cả tài liệu có liên kết với tài liệu này.

2. 2.

Search engine điều khiển robot đi thu thập thông tin trên mạng Search engine điều khiển robot đi thu thập thông tin trên mạng

thông qua các siêu liên kết Khi robot phát hiện ra một site mới, nó gởi địa chỉ trang web về cho server chính để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin.

3.

Bởi vì thông tin trên mạng luôn thay đổi nên robots phải liên tục

cập nhật các site cũ. Mật độ cập nhật phụ thuộc vào từng hệ thống search engine. Khi search engine nhận câu truy vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu.

Indexing

• Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.

• Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các

từ khoá nào xuất hiện ở trang nào, địa chỉ nào.

Searching

• Tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query)

xuất hiện nhiều nhất.

• Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố

gắng ‘ hiểu ‘ ý nghĩa thực sự của câu hỏi thông qua những câu chữ do

người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi

chính tả, tìm cả những hình thức biến đổi khác nhau của một từ.

• Ví dụ : search engine sẽ tìm những từ như speaker, speaking, spoke khi

người dùng nhập vào từ speak

http://www.vietseo.net/articles/search-engine/chap1/

Cách tìm kiếm tài liệu phục vụ nghiên cứu, luận văn

Cách quản lý và trích dẫn tài liệu

• Lập CSDL tài liệu tham khảo • Quản lý và tìm kiếm tài liệu trong CSDL • Cách trích dẫn tài liệu • Chương trình Endnote

Chương 4

• Xác định trình tự • Đăng ký trình tự vào ngân hàng gene • Đăng ký trình tự vào ngân hàng gene

To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.

Classical sequencing methods

• Maxam-Gilber sequencing • Sanger sequencing

Lắp ráp trình tự

Nguyên lý của quá trình lắp ráp trình tự Nguyên lý của quá trình lắp ráp trình tự Các phần mềm hỗ trợ lắp ráp trình tự

To help protect y our priv acy , PowerPoint prev ented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.

Next generation sequencing

• 454 pyrosequencing • Illumina (Solexa) sequencing • SOLiD sequencing • SOLiD sequencing • Ion semiconductor sequencing • DNA nanoball sequencing • Future techniques

Nguyên lý lắp ráp trình tự

Lắp ráp trình tự là sự sắp xếp và nối các mảnh trình tự DNA theo trật tự đúng

để tái lập lại trình tự ban đầu của sợi DNA ban đầu. Chúng ta biết rằng một

NST thực chất là một sợi DNA rất dài. Người ta phải cắt ra thành những đoạn

nhỏ vừa đủ với các công nghệ xác định trình tự hiện nay (từ 200-1000 base).

Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp

xác định trình tự DNA bằng phương pháp shotgun (shotgun sequencing

genomic DNA) hoặc các bản phiên mã của gene (ESTs).

• Các trình tự ngắn được sắp xếp theo đúng vị trí của chúng trong sợi DNA ban

đầu. Cắt sợi DNA ra thành nhiều mảnh một cách ngẫu nhiên, sao cho một số

mảnh có những phần chung (overlapping) để làm cơ sở cho việc sắp xếp.

Nguyên lý cơ bản: gồm 3 bước

• Tất cả các trình tự overlap của các cặp trình tự được xác định.

• Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng • Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng

lựa chọn cho mỗi mảnh sao cho các đoạn trình tự overlap bây giờ

được dùng để quyết định trình tự.

• Căn, so sánh nhiều mảnh sử dụng kết quả bước 2 để suy diên ra

trình tự gốc

Phần mềm hỗ trợ lắp ráp trình tự

• Các phần mềm hỗ trợ lắp ráp trình tự • CAP3 là phần mềm hỗ trợ lắp ráp dùng phổ biến ở quy mô genome nhỏ (thực phổ biến ở quy mô genome nhỏ (thực hành), các công cụ khác tham khảo (wikipedia: http://en.wikipedia.org/wiki/Sequence_ass embly).

Các chương trình lắp ráp quan trọng

• TIGR Assembler - Assembly program developed at the Institute for

Genomic Research (TIGR).

• phrap - Assembly program developed at the University of Washington. .

Celera Assembler - Assembly program developed at Celera Genomics. . Celera Assembler - Assembly program developed at Celera Genomics. .

Arachne - Program developed at the Broad Institute of MIT, widely used in genome projects both at the Broad Institute and other research organizations. Phusion - The main workhorse for assembly at the Sanger Center, one of the leading genomic centers in the world. .

Atlas - Assembly program developed at the Baylor College of Medicine. .

Shotgun sequencing

Shotgun sequencing

Problems!!!

Scaffolding techniques

• Quá trình nhờ đó mà thông tin từ so sánh cặp

các “read” để định hướng và sắp đặt trật tự cho các contig dọc theo NST được gọi là scaffolding.

Scaffold của 3 contig (mũi tên đậm) được giữ với nhau bởi các cặp so sánh. Đường liền nối các đầu cặp đôi với nhau.

Đăng ký trình tự

1/6/2019

CHƯƠNG 4

CSDL sinh học là gì?

CƠ SỞ DỮ LIỆU SINH HỌC (Biological databases)

Knowledge is unlimited → No border for database

CSDL sinh học là gì?

Ý nghĩa của CSDL sinh học

• Là công cụ quan trọng hỗ trợ các nhà nghiên cứu hiểu và giải thích các hiện tượng sinh học, cấu trúc và sự tương tác giữa các cấu trúc phân tử, sự trao đổi chất ở tế bào, cơ thể, mối quan hệ tiến hóa loài và giữa các loài.

• CDLD giúp nhà nghiên cứu có thể:

• CSDL Sinh học là các thư viện chứa thông tin về khoa học sự sống • Nguồn gốc dữ liệu: Từ các thí nghiệm khoa học, các bài báo tạp chí công trình nghiên cứu, các thí nghiệm ở quy mô lớn (high through put), kết quả xử lý số liệu, phân tích… Loại thư viện: ✓ genomics ✓ proteomics ✓ metabolomics ✓ microarray gene expression ✓ phylogenetics ✓ gene function, structure, localization ✓ clinical effects of mutations ✓ similarities of biological sequences and structures

✓ Tìm thông tin ✓ Khai thác, xử lý thông tin theo mục đích nghiên cứu ✓ Phát hiện bệnh tât, phát triển các thuốc, trị liệu ✓ Điều khiển, cải biến các quá trình sinh học ✓ Tạo ra các quá trình mới, sinh vật mới mang đặc tính mong muốn

Phân loại CSDL sinh học

Primary nucleotide sequence databases

Protein sequence databases Proteomics databases Protein structure databases Protein model databases

Protein-protein interactions Signal transduction pathway databases

• • Metadatabases • Genome databases • • • • • RNA databases • Carbohydrate structure databases • • • Metabolic pathway databases • Microarray databases • Exosomal databases • Mathematical model databases • • •

PCR / real time PCR primer databases Specialized databases Taxonomic databases

1

1/6/2019

1. Các cơ sở dữ liệu trình tự nucleotide sơ cấp

International Nucleotide Sequence Database (INSD) (http://www.insdc.org/) bao gồm NCBI, EBI và DDBJ

• Tất cả trình tự DNA của các SV đều tìm thấy ở 1

trong 3 ngân hàng trên.

• Cả 3 CSDL này, ngoại trừ việc đăng ký trình tự có khác nhau như các dữ liệu đều được đồng bộ hóa.

International Nucleotide Sequence Database Collaboration

• 3 CSDL này là những CSDL sơ cấp, lưu trữ các

dữ liệu trình tự gốc.

2. Metadatabases

3. Genome databases

• Các CSDL này lưu trữ các trình tự genome của các sinh

vật, mô tả, giải thích, phân tích và cho phép truy cập

miễn phí.

• Các CSDL genome có thể lữu trữ genome của 1 loài

hoặc nhiều loài

3. Genome databases

• • • • • •

• • • •

• • •

• • • • • • • • •

SNPedia: Information about the effect of variations in DNA CAMERA Resource for microbial genomics and metagenomics Corn, the Maize Genetics and Genomics Database EcoCyc a database that describes the genome and the biochemical machinery of the model organism E. coli K-12 Ensembl provides automatic annotation databases for human, mouse, other vertebrate and eukaryote genomes. Ensembl Genomes provides genome-scale data for bacteria, protists, fungi, plants and invertebrate metazoa, through a unified set of interactive and programmatic interfaces (using the Ensembl software platform). Flybase, genome of the model organism Drosophila melanogaster MGI Mouse Genome (Jackson Lab.) JGI Genomes of the DOE-Joint Genome Institute provides databases of many eukaryote and microbial genomes. National Microbial Pathogen Data Resource. A manually curated database of annotated genome data for the pathogens Campylobacter, Chlamydia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria, Staphylococcus, Streptococcus, Treponema, Ureaplasma, and Vibrio. Saccharomyces Genome Database, genome of the yeast model organism. Viral Bioinformatics Resource Center Curated database containing annotated genome data for eleven virus families. The SEED platform for microbial genome analysis includes all complete microbial genomes, and most partial genomes. The platform is used to annotate microbial genomes using subsystems. Xenbase, genome of the model organism Xenopus tropicalis and Xenopus laevis Wormbase, genome of the model organism Caenorhabditis elegans Zebrafish Information Network, genome of this fish model organism. TAIR, The Arabidopsis Information Resource. UCSC Malaria Genome Browser, genome of malaria causing species (Plasmodium falciparumata and others) RGD Rat Genome Database: Genomic and phenotype data for Rattus norvegicus INTEGRALL: Database dedicated to integrons, bacterial genetic elements involved in the antibiotic resistance Fourmidable ant genome database provides ant genome blast search and sequence download. VectorBase The NIAID Bioinformatics Resource Center for Invertebrate Vectors of Human Pathogens

2

1/6/2019

4. Protein sequence databases

• UniProt: Universal Protein Resource (UniProt Consortium: EBI, Expasy, PIR)

• PIR: Protein Information Resource (Georgetown University Medical Center

(GUMC))

• Swiss-Prot: Protein Knowledgebase (Swiss Institute of Bioinformatics)

• PEDANT Protein Extraction, Description and ANalysis Tool

(Forschungszentrum f. Umwelt & Gesundheit)

• PROSITE: Database of Protein Families and Domains

• DIP: Database of Interacting Proteins (Univ. of California)

• Pfam: Protein families database of alignments and HMMs (Sanger Institute)

4. Protein sequence databases

5. Proteomics databases

PRINTS: a compendium of protein fingerprints (Manchester University)

ProDom: Comprehensive set of Protein Domain Families (INRA/CNRS)

SignalP 3.0: Server for signal peptide prediction (including cleavage site prediction),

based on artificial neural networks and HMMs

• Proteomics Identifications Database (PRIDE) là CSDL proteomic chứa các thông tin nhận dạng protein và peptide và thông tin về cải biến sau dịch mã

SUPERFAMILY Library of HMMs representing superfamilies and database of

(superfamily and family) annotations for all completely sequenced organisms

Annotation Clearing House a project from the National Microbial Pathogen Data

Resource

InterPro Classifies proteins into families and predicts the presence of domains and

sites.

3

1/6/2019

6. Protein structure databases

• Protein Data Bank (PDB) chứa:

Protein DataBank in Europe (PDBe)

ProteinDatabank in Japan (PDBj)

Research Collaboratory for Structural Bioinformatics (RCSB)

7. Protein model databases

6. Protein structure databases

• SWISS-MODEL Server and Repository for Protein Structure

Models

• ModBase Database of Comparative Protein Structure Models

(Sali Lab, UCSF)

• Protein Model Portal (PMP) Meta database that combines

several databases of protein structure models (Biozentrum,

Basel, Switzerland)

9. Carbohydrate structure databases

8. RNA databases

• EuroCarbDB: A repository for both

• Rfam, a database of RNA families

carbohydrate sequences/structures and experimental data.

• mirBase, the microRNA database

• snoRNAdb, a database of snoRNAs

4

1/6/2019

11. Signal transduction pathway databases

10. Protein-protein interactions

• BIND: Biomolecular Interaction Network Database

• Cancer Cell Map

• BioGRID A General Repository for Interaction Datasets (Samuel Lunenfeld

• Netpath: A curated resource of signal transduction pathways in

Research Institute)

humans

• CCSB Interactome

• NCI-Nature Pathway Interaction Database

• DIP Database of Interacting Proteins

• Reactome: Navigable map of human biological pathways,

IntAct molecular interaction database: a central, standards-compliant

ranging from metabolic processes to hormonal signalling.

repository of molecular interactions, including protein–protein, protein–

• SignaLink Database

small molecule and protein–nucleic acid interactions.

• WikiPathways

• NetPro

• STRING: a database of known and predicted protein-protein interactions.

(EMBL)

12. Metabolic pathway databases

12. Metabolic pathway databases

• Metabolic pathways (catabolic và anabolic) : tập hợp

các chuỗi phản ứng hóa học xảy ra trong tế bào (enzymes, vitamin, cofactor, các ion kim loại).

• BioCyc Database Collection including EcoCyc and MetaCyc • KEGG PATHWAY Database (Univ. of Kyoto) • MANET database (University of Illinois) • Metabolights Metabolomics experiments and derived information: metabolite

• Các chuỗi phản ứng hóa học liên kết với nhau thành

structures, reference spectra, biological roles, locations and concentrations.

mạng lưới (network).

(European Bioinformatics Institute)

• A metabolic pathway: tạo ra các sản phẩm: để dùng

• Reactome: Navigable map of human biological pathways, ranging from

metabolic processes to hormonal signalling. (Cold Spring Harbor Laboratory,

ngay, làm tiền chất cho các con đường khác, được dự trữ trong tế bào.

European Bioinformatics Institute, Gene Ontology Consortium)

5

1/6/2019

13. UniGene

13. UniGene

• Xác định gene trong các bản transcript ở các

locus.

• Phân tích sự biểu hiện gene ở các mô, tuổi, tình

trạng sức khỏe

• Thông tin về các protein có mối liên hệ với nhau

(protEST).

14. UniSTS

14. UniSTS

• UniSTS là một CSDL gồm các trình tự đánh dấu

vị trí (sequence tagged sites) xuất phát từ các

bản đồ STS và các thí nghiệm khác.

• STS được xác định bởi các cặp mồi PCR và kết

hợp với những thông tin về vị trí trong geome,

các gene, các trình tự.

16. Microarray databases

15. PubChem Substance

Cung cấp thông tin về các phản ứng hóa học, sinh học.

• Chứa CSDL biểu hiện gene (microarray gene

expression data)

• CSDL chia thành 2 nhóm riêng biệt:

Các dữ liệu được các chuyên gia thẩm định (peer

reviewed): Gene Expression Omnibus (GEO) ở NCBI và ArrayExpress ở EBI.

Các dữ liệu chuyên biệt: mang đặc thù phòng thí nghiệm,

công ty, trường ĐH…

6

1/6/2019

16. Specialized databases

16. Specialized databases

DiProDB A database to collect and analyse thermodynamic, structural and other dinucleotide

• Antibody Central Antibody information database and search resource.

properties.

Drug2Gene Provides integrated information for identified and reported relations between

• BIOMOVIE (ETH Zurich) movies related to biology and biotechnology

genes/proteins and drugs/compounds

• CGAP Cancer Genes (National Cancer Institute)

Dryad a repository of data underlying scientific publications in the basic and applied biosciences.

• Clone Registry Clone Collections (National Center for Biotechnology

Edinburgh Mouse Atlas

Information)

GreenPhylDB (A phylogenomic database for plant comparative genomics)

GDB Hum. Genome Db (Human Genome Organisation)

• Connectivity map Transcriptional expression data and correlation tools for

HGMD disease-causing mutations (HGMD Human Gene Mutation Database)

drugs

HUGO (Official Human Genome Database: HUGO Gene Nomenclature Committee)

• CTD The Comparative Toxicogenomics Database describes chemical-

HvrBase++ Human and primate mitochondrial DNA

gene-disease interactions

INTERFEROME The Database of Interferon Regulated Genes

List with SNP-Databases

• DBGET H.sapiens (Univ. of Kyoto)

16. Specialized databases

16. Specialized databases

• Minimotif Miner -Database of short contiguous functional peptide motifs

SciClyc An Open-access database to shared antibodies, cell cultures, and documents for biomedical

research.

• NCBI-UniGene (National Center for Biotechnology Information)

SNPSTR database A database of SNPSTRs - compound genetic markers consisting of a microsatellite

• Oncogenomic databases A compilation of databases that serve for cancer

(STR) and one tightly linked SNP - in human, mouse, rat, dog and chicken.

research.

TDR Targets A chemogenomics database focused on drug discovery in tropical diseases.

TRANSFAC A database about eukaryotic transcription factors, their genomic binding sites and DNA-

• OMIM Inherited Diseases (Online Mendelian Inheritance in Man)

binding profiles.

• OrthoMaM (A database of Orthologous Mammalian Markers)

TreeBASE An open-access database of phylogenetic trees and the data behind them

p53 The p53 Knowledgebase

Treefam TreeFam (Tree families database) is a database of phylogenetic trees of animal genes

XTractor Discovering Newer Scientific Relations Across PubMed Abstracts. A tool to obtain manually

• PhenCode linking human mutations with phenotype

annotated relationships for Proteins, Diseases, Drugs and Biological Processes as they get published in

• PhenomicDB multi-organism database linking genotype to phenotype

PubMed.

• Plasma Proteome Database Human plasma proteins along with their isoforms

• SHMPD The Singapore Human Mutation and Polymorphism Database

17. Taxonomic databases

17. Taxonomic databases

• Taxonomy Database là CSDL chính xác về định tên, vị

trí của sinh vật trong đã biết.

• Hiện nay có khoảng 10% số loài được xác định trên

hành tin này.

7

1/6/2019

18. Wiki-style databases

Entrez NCBI

• 1.CHDwiki • 2.EcoliWiki • 3.Gene Wiki • 4.GyDB • 5.NeuroLex • 6.OpenWetWare • 7.PDBWiki • 8.Proteopedia • 9.Topsan • 10.WikiGenes • 11.WikiPathways • 12.WikiProfessional • 13.YTPdb

19. PubMed

19. PubMed

• PubMed comprises more than 22 million citations for biomedical literature from MEDLINE, life science journals, and online books. Citations may include links to full-text content from PubMed Central and publisher web sites.

20. dbSNP

GSS

• Database of single nucleotide polymorphisms (SNPs)

and multiple

small-scale

variations

that

include

• Genome survey sequence database • The GSS database is a collection of

insertions/deletions,

microsatellites,

and

non-

polymorphic variants.

• Application: Rice breeding/ SNP nanochip

unannotated short single-read primarily genomic sequences from GenBank including random survey sequences clone-end sequences and exon-trapped sequences.

8

1/6/2019

21. CDD

• The Conserved Domain Database is a resource

for the annotation of functional units in proteins. Its collection of domain models includes a set curated by NCBI, which utilizes 3D structure to provide insights into sequence/structure/function relationships.

CDD

22. dbEST

• dbEST (Nature Genetics 4:332-3;1993) is a

division of GenBank that contains sequence data and other information on "single-pass" cDNA sequences, or "Expressed Sequence Tags", from a number of organisms.

23. HomoloGene

• HomoloGene is a system for automated

detection of homologs among the annotated genes of several completely sequenced eukaryotic genomes.

9

1/6/2019

24. SRA

• The Sequence Read Archive (SRA) stores raw

sequencing data from the next generation of

sequencing platforms including Roche 454 GS

System®, Illumina Genome Analyzer®, Applied

Biosystems SOLiD® System, Helicos

Heliscope®, Complete Genomics®, and Pacific

Biosciences SMRT®.

Probe

25. Probe

• Probe Database is a public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities.

• Giải thích probe, SNP new generation?

26. DbVar

27. Epigenetics

• Database of genomic structural variation

• Explore, view, and download genome-wide

maps of DNA and histone modifications from our diverse collection of epigenomic data sets.

10

1/6/2019

28. OMIM

27. Epigenetics

• OMIM is a comprehensive, authoritative, and timely

compendium of human genes and genetic phenotypes.

• The full-text, referenced overviews in OMIM contain

information on all known mendelian disorders and over 12,000

genes.

• OMIM focuses on the relationship between phenotype and

genotype.

It is updated daily, and the entries contain copious links to other

genetics resources.

29. OMIA

• Online Mendelian Inheritance in Animals (OMIA) is a database of genes, inherited disorders and traits in more than 135 animal species (other than human and mouse).

30. Protein cluster

• This collection of related protein sequences (clusters) consists of Reference Sequence proteins encoded by complete genomes. This database contains both curated and non-curated clusters.

• The Protein Clusters database provides easy access to

annotation information, publications, domains, structures, and external links and analysis tools including multiple alignments, phylogenetic trees, and genomic neighborhoods (ProtMap).

• Protein Clusters can be searched like any other Entrez

database.

11

1/6/2019

31. Bookshelf

• Bookshelf provides free access to books and documents in life science and healthcare.

• A vital node in the data-rich resource network at NCBI, Bookshelf enables users to easily browse, retrieve, and read content, and spurs discovery of related information.

31. Bookshelf

32. dbGaP

• The database of Genotypes and Phenotypes

(dbGaP) was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype.

33. PMC

• PMC is a free full-text archive of biomedical and life

sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM).

• PubMed Central® (PMC) is a free archive of biomedical and life sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM). In keeping with NLM’s legislative mandate to collect and preserve the biomedical literature, PMC serves as a digital counterpart to NLM’s extensive print journal collection.

12

1/6/2019

34. Popset

35. Popset

• A PopSet is a set of DNA sequences that have been collected to analyse the evolutionary relatedness of a population. The population could originate from different members of the same species, or from organisms from different species

• Genome assembly organization and additional information.

13

1/6/2019

Thế nào là xác định trình tự DNA

• Xác định trình tự một đoạn DNA là quá trình xác định trật tự sắp xếp của các nucleotide trong chuỗi trình tự đó.

CHƯƠNG 5 Dữ liệu trình tự, xác định trình tự

3 thế hệ xác định trình tự

– Phương pháp hóa học của Maxam-Gilbert và tổng

FIRST GENERATION

hợp enzyme của Sanger – Xác định trình tự tự động – xác định trình tự thế hệ mới

Các bước của phương pháp

• Công trình công bố sau 2 năm so với phương pháp của

Sanger

• Quá trình gồm 6 bước

Maxam- Gilbert sequencing

1

1/6/2019

Giới thiệu

1. Tinh sạch trình tự

• 1976-1977, Allan Maxam và Walter Gilbert phát triển kỹ thuật xác định trình tự DNA dựa vào cải biến hóa học phân tử DNA và sau đó cắt DNA ở những nucleotide nhất định.

Nhiều đoạn DNA giống nhau được tinh sạch (nguồn genome, kết hợp với sử dụng RE)

• Mặc dù phương pháp công bố chậm hơn so với Sanger 2 năm, tuy nhiên, do giới hạn về mặt kỹ thuật tại thời điểm đó (tạo dòng các DNA sợi đơn), phương pháp của Maxam và Gilbert đã được dùng khá phổ biến.

• Sau khi kỹ thuật chain-termination method ra đời, phương pháp của Maxam và Gilbert đã đi vào quá khứ do không thể áp dụng khi xác định nhiều trình tự ở quy mô lớn, sự nguy hiểm về hóa chất sử dụng và phóng xạ.

3. Chuẩn bị đoạn DNA cần xác định trình tự

2. Gắn P phóng xạ

• Đầu 5’ sẽ được gắn 32P • Enzyme phosphatase cắt nhóm phosphate, enzyme kinasse

sẽ gắn nhóm phosphate đánh dấu phóng xạ

• Phân tử DNA sẽ được phân tách riêng rẽ thành 2 sợi. • Chỉ một sợi đánh dấu phóng xạ được giữ lại để

chuẩn bị xác định trình tự

Xác định các base

• 4 mẫu DNA giống nhau được xử lý hóa chất

– Phản ứng G: – Phản ứng C: – Phản ứng A với một số G – Phản ứng T với một số C

• Chạy điện di phân tách các mảnh • Đưa lên máy đọc phóng xạ

2

1/6/2019

Sanger method

Sanger method Chain-termination methods

• Hỗn hợp phản ứng: một phân tử DNA sợi đơn, primer, DNA pol, các

dNTP bình thường và các nucleotide bị cải biến (ddNTP).

• Các phân tử ddNTP có thể đánh dấu phóng xạ hoặc huỳnh quang • Mẫu DNA được chia thành 4 phản ứng riêng rẽ, mỗi phản ứng chứa

• Sanger sequencing còn gọi là phản ứng xác định trình tự bằng cách kết thúc chuỗi phản ứng tổng hợp.

tất cả các thành phần (dATP, dGTP, dCTP và dTTP), DNA polymerase.

• Phương pháp này được Frederick Sanger

• Mỗi phản ứng được bổ sung 1 trong 4 loại ddNTP (ddATP, ddGTP,

ddCTP, hoặc ddTTP).

phát triển vào năm 1977.

• Phương pháp này dựa vào việc khuếch

• Phản ứng tổng hợp được thực hiện • Sau phản ứng tổng hợp, mỗi ống phản ứng được điện di phân tách các băng. Các băng DNA có thể được quan sát bằng phóng xạ trên phim nhạy với tia X.

• Vị trí của các băng sẽ được đọc từ cuối cùng lên trên → suy ra trình

đại một đoạn DNA bằng DNA polymerase và kết hợp với việc sử dụng một loại nucleotide đặc biệt: dideoxynucleotides.

tự DNA.

3

1/6/2019

Nguyên lý

Dye-terminator sequencing Automated DNA sequencing

• Đánh dấu huỳnh quang vào ddNTPs • Mỗi ddNTP được đánh dấu bởi 1 chất phát huỳnh quang khác nhau → sau khi bị kích thích sẽ giải phóng huỳnh quang ở các bước sóng khác nhau.

• Dye-terminator sequencing đã được phát

triển thành phương pháp xác định trình tự tự động phổ biến như ngày nay.

SECOND GENERATION

4

1/6/2019

NEXT GENERATION

Next generation

• Roche/454 FLX Pyrosequencing (2004/5) • Illumina Solexa sequencing • Applied Biosystems SOLiDTM System (Solid

sequencing)

• Helicos HeliscopeTM (gần đây) • Pacific Biosciences SMRT (2010)

5

1/6/2019

Pyrosequencing

• Pyrosequencing là phương pháp xác định trình

tự DNA dựa trên nguyên lý tổng hợp.

• Khác với Sanger sequencing ở chỗ: dựa vào việc xác định pyrophosphate giải phóng khi dNTP kết hợp vào chuỗi.

• Phương pháp được Pål Nyrén và Mostafa

Ronaghi ở viện nghiên cứu công nghệ hoàng gia Stockholm phát triển năm 1996.

Bước 1

Nguyên lý Pyrosequencing

• Một đoạn mồi được lai với một sợi DNA đơn (khuôn mẫu). • Phản ứng có sự tham gia của:

– DNA polymerase, – ATP sulfurylase, – Luciferase, – Apyrase – Adenosine 5' phosphosulfate (APS): cơ chất – Luciferin.

Bước 2

Bước 3

• ATP sulfurylase chuyển hóa PPi thành ATP

với sự có mặt của adenosine 5' phosphosulfate (APS).

• ATP được tạo ra sẽ giúp enzyme luciferase chuyển hóa luciferin thành oxyluciferin và tạo ra ánh sáng. Cường độ ánh sáng tỉ lệ thuận với lượng ATP.

• Phản ứng được bắt đầu khi một loại dNTP được cho

• Ánh sáng tạo ra bởi phản ứng xúc tác bởi

vào.

luciferase được đo bởi một thiết bị đặc biệt (CCD), cường độ ánh sáng thu được sẽ được biểu hiện thành một đỉnh (pick), tập hợp các pick → pyrogram.

• DNA pol xúc tác phản ứng kết hợp nucleotide vào chuỗi. Nếu nucleotide (dNTP) cho vào bổ sung với mạch khuôn, sẽ giải phóng pyrophosphate (Ppi).

• Độ cao của mỗi pick tỉ lệ với số nucleotide

được gắn vào chuỗi

6

1/6/2019

Bước 4

Bước 5

• Apyrase, enzyme phân giải nucleotide sẽ được bổ sung vào sau mỗi phản ứng. Enzyme này có chức năng phân giải các nucleotide và ATP còn lại.

• Sau khi phản ứng “dọn sạch” của Apyrase xong. Một đợt

• Việc bổ sung dNTPs được thực hiện kế tiếp nhau. • Trong phản ứng của Sanger, 4 loại (dATP, dGTP, dCTP, dTTP). Pyrosequencing sử dụng dATP·S thay cho dATP. • Quá trình được thực hiện liên tục đến khi hết chuỗi DNA khuôn. Các đỉnh sẽ được ghi lại và suy diễn ra trình tự.

nucleotide tiếp theo lại được bổ sung vào. Các đợt nucleotide sẽ được bổ sung lần lượt đến khi phản ứng xảy ra.

MOVIE

Illumina Solexa

Nguyên lý Illumina Solexa

7

1/6/2019

Gắn DNA vào flow cell

Khuếch đại nhờ cầu nối

Sequencing by Synthesis

Tạo cụm DNA

8

1/6/2019

MOVIE

9

1/6/2019

10

1/6/2019

SOLiD™ Sequencing

• Giảm giá đọc từ $0.01/base vào năm

SOLiD™ Sequencing Sequencing by Oligonucleotide Ligation and Detection

2004 xuống còn $0.0001/base vào năm 2006

• Tăng khả năng đọc từ 1,000,000

bases/máy/ngày vào năm 2004 đến hơn 5,000,000,000 bases/máy/ngày vào năm 2009.

Emulsion PCR/Bead Enrichment

Chuẩn bị thư viện Library Preparation

Xác định trình tự bằng cách lai (Sequencing by Ligation)

Gắn hạt lên bề mặt thủy tinh (Bead Deposition)

11

1/6/2019

Độ chính xác

Đổi các primer (primer reset)

• Phản ứng được lặp lại 5 lần với mỗi trình tự DNA. Như vậy mỗi base sẽ được kiểm tra và đọc 2 lần bởi 2 primer khác nhau.

• Chẳng hạn, base ở vị trí số 5 sẽ được kiểm tra bằng primer 2 ở lần lai trong chu kỳ 2 và bởi primer 3 trong chu kỳ 1. Việc kiểm tra 2 lần sẽ tăng độ chính xác của SOLiD™ System.

MOVIE

Sequence assembly

Whole genome sequencing

• Không có kỹ thuật xác định trình tự nào có thể xác định toàn bộ trình tự của 1 đoạn DNA dài (NST, genome)

• Mỗi mảnh trình tự DNA đọc được (read) thường có chiều dài từ 20 đến 1000 bp tùy thuộc vào kỹ thuật sử dụng.

• Sequence assembly là quá trình sắp xếp và hòa nhập (merge) các mảnh trình tự thành trình tự DNA dài từ đó tái thiết lập lại trình tự ban đầu của NST hoặc genome.

12

1/6/2019

Ví dụ

• 1 trang sách bị xé nhỏ → khó sắp xếp lại • Mua 10 cuốn sách giống nhau → xé thành nhiều

mảnh

• Nối các mảnh lại với nhau thành đoạn văn → trang

→ chương → cả cuốn sách.

• Những khó khăn: nhiều đoạn văn lặp lại, nhiều mảnh bị xé vụn (trình tự quá ngắn), mất một số mảnh…

• STS, EST: giúp cho quá trình sắp xếp • EST: nhược điểm do alternative splicing

13

06/01/2019

WEBBROWSER

CHƯƠNG 6 Genome Browsers

Genome Browsers

Khái niệm genome browser

1. 2. Đặc điểm và ứng dụng của các genome browser 3. Genome browser đặc thù 4. Giới thiệu một số genome browser quan trọng

GENOME BROWSER

Đặc điểm genome browser

Khái niệm genome browser

Internet Browser hoặc Webbrowser = Internet/Web + Browser

• • Genome browser = Genome + Browser • Là giao diện đồ họa cho phép:

• Chứa CSDL genome, các bản lắp ráp, các contig • Chứa các công cụ hiển thị đồ họa: hiển thị gene và công thông tin trên bản đồ NST (vị trí, tọa độ)

• Các công cụ search (tìm 1 gene trong genome,

BLAT, xác định các SNP, )

– Hiển thị thị thông tin về CSDL sinh học (genomic data) – Cho phép quan sát, quét toàn bộ genome – Cung cấp các thông tin đi kèm với hiển thị đồ họa (gene, cấu trúc, chức năng, protein do gene mã hóa, điều hòa biểu hiện gene, biến đổi về trình tự, so sánh…)

• Các công cụ download (tải trình tự nucleotide

• Khác biệt với các CSDL sinh học ở chỗ:

genome)

• Các công cụ phân tích trình tự (so sánh genome, gene, các vùng bảo thủ, chức năng, insilico-PCR)

– Dữ liệu hiển thị bằng đồ họa – Vị trí trong genome, trên NST – Thông tin hiển thị có tọa độ (vị trí và khoảng cách của các gene) – Thông tin sinh học gắn liên với trình tự – Liên kết mạnh với nhiều CSDL liên quan

1

06/01/2019

Genome browser đặc thù

Ứng dụng của Genome browser

• Là một Genome browser với các đặc điểm và công cụ

• Tìm và xác định được các sinh vật đã được xác định trình tự • Hiển thị các gene, marker trên NST kèm theo thông tin mô

cần thiết

tả về gene hoặc marker đó

• Xác định được vị trí của một gene quan tâm trong genome • So sánh genome, đối chiếu vị trí (locus) của các gene trong

các genome khác nhau

• Tập trung vào một CSDL mang tính đặc thù loài • Thông tin chi tiết về các NST, số lượng gene và sự phân bố các gene trên NST (gene đã biết và dự đoán).

• Xác định được các gene có mối quan hệ tiến hóa, các họ

• Các công cụ phân tích đặc thù đi kèm

gene, các gene có cùng nguồn gốc

• Xác định được các gene cùng tham gia trong một con

đường chuyển hóa hoặc có liên quan với nhau

EnsemblPlants

Animal Browsers

1000 Genomes A Deep Catalog of Human Genetic Variation

• • NONCODE genome browser. UCSC browser with special tracks for non-coding

annotations. Jim Watson genome browser at CSHL

dbRIP - Retroposon Insertions Roswell Park Cancer Institute, MD Vista Lawrence Berkeley Lab, CA

• Arabidopsis, rice, corn, tomato, soybean, Physcomitrella • Arabidopsis genome browser at UCLA • Arabidopsis genome browser at Dartmouth. • Arabidopsis arabidopsis.info Ensembl-based genome browser • UNLV Las Vegas Genome Browser hosting: Arabidopsis, rice,

Panda genome resources

• • Craig Venter genome data release • • • GARFIELD cat genome browser, Federick, MD • • C. intestinalis: UCSC-based, Gbrowse •

sorghum and soybean, as well as D. melanogaster • gramene.org many rice genomes and other grasses • Rice Genome Annotation Project hosts Oryza sativa browser • Rice-Map • RICE FPC Genome Browser from the Arizona Genomics

Institute (AGI)

The JGI-browser for various species: Fugu, C.intestinalis, waterflea, sponge, amphioxus, snail, hydra, etc... Bio2Rdf Semantic web atlas of postgenomic knowledge about human and mouse Epigenomics Epigenomics Roadmap mirror at Washington University, St. Louis. Eyebrowse specializing in eye tissue sequences Aedes aegypti Silkworm Bombyx mori, China

• • • • • • UNLV Las Vegas Genome Browser hosting: D. melanogaster and some plants • NRSP-8 National Animal Genome Research Program - Bioinformatics Coordination

• Zea mays Maize Genome Sequencing Project • Cannabis sativa Cannabis browser at U Toronto

Program

Other genome browser

Fungi/Yeast Browsers

• Saccharomyces cerevisiae database and

genome browser from SGD/Stanford University

• S. pombe (fission yeast) at NCI, NIH

• Archaea browser from the Lowe Lab at UCSC • EnsemblBacteria • EnsemblProtists • Paramecium tetraurelia Genoscope, France • JPGV Jena Prokaryotic Genome Browser

2

06/01/2019

Watch movies and dicussion

3

1/6/2019

BLAST

• Giới thiệu về BLAST

• Ứng dụng BLAST

CHƯƠNG 7 CÔNG CỤ BLAST Basic local alignment search tool

• Bản chất của BLAST

• Ý nghĩa và thông số của kết quả BLAST

• Các biến thể của BLAST (PHI/PSI/Delta-Blast)

BLAST dùng để làm gì?

Giới thiệu về BLAST

• Tìm hiểu mối quan hệ của một trình tự protein hoặc DNA (query sequence) với các trình tự đã biết trong CSDL liệu.

• BLAST được Stephen Altschul, Warren Gish, Webb Miller, Eugene Myers, và David J. Lipman phát triển tại NIH. Công trình nghiên cứu được công bố trên Journal of Molecular Biology vào năm 1990.

• (Những) loài SV nào có trình tự DNA/Protein giống với

trình tự truy vấn.

• Nguồn gốc của trình tự truy vấn • Trình tự protein do gene X mã hóa có chức năng gì? có những vùng hoạt động (domain), vung đặc thù (motif) gì?

• Basic Local Alignment Search Tool/BLAST là một công cụ cho phép tìm các trình tự trong cơ sở dữ liệu giống với trình tự truy vấn dựa trên cơ sở so sánh trình tự cục bộ. Kết quả tìm được sắp xếp theo các tiêu chí điểm số (score), mức độ che phủ (query coverage), giá trị kì vọng (E-value), mức độ giống nhau (identity %).

• Mối quan hệ tiến hóa giữa các sinh vật có các trình tự

• Có nhiều loại BLAST khác nhau (tùy thuộc vào trình tự

giống với trình tự truy vấn (paralog/ortholog)

truy vấn và mục đích sử dụng).

• Phát hiện trình tự DNA/ Protein mới

Identical /Homology /Similarity

BLAST dùng để làm gì? Tìm trình tự giống với trình tự query theo phương thức căn trình tự cục bộ

• • Dự đoán cấu trúc:

• Xác định các đặc điểm của sản phẩm gene:

– 2D DNA/RNA, 3D Protein

• Nhiều người dùng 2 thuật ngữ này lẫn lộn • Similarity: đo mức độ giống nhau về trình tự • Homology: đo mối quan hệ tiến hóa dựa trên cơ sở đánh giá mức độ giống nhau giữa các trình tự • 2 trình tự có 68% Similar nhưng 2 trình tự có thể

homologous hoặc không

• Dự đoán vị trí của sản phẩm gene – So sánh các concensus pattern • Dự đoán mối quan hệ tiến hóa • Multisequence alignment • Dự đoán gene trong genome

• Không có mức độ/thang để đo Homology. 2 trình

– Mw, pI, họ protein, – Vùng chức năng (motif, domain), concensus pattern

tự hoặc là có mối liên hệ hoặc là không

• Nếu kết luận X có 23% homologous với Y thì sai

• Dự đoán các vùng điều hòa hoạt động gene • Nghiên cứu tiến hóa ở mức độ genome • Hỗ trợ lắp ráp trình tự

1

– Các vùng exon, intron, promoter

1/6/2019

Bản chất của BLAST

Bản chất của BLAST

Mức tin cậy của BLAST

• Tính toán thống kê • Giá trị E (E-value) tỉ lệ nghịch với điểm số (điểm số càng cao → giá trị E càng nhỏ) • E-value sẽ xác nhận trình tự tìm được giống với trình tự truy vấn là ngẫu nhiên hay có ý nghĩa thống kê.

• Tìm các trình tự trong CSDL có cụm GTW • Mở rộng tìm kiếm cả hai phía của GTW • Đánh giá điểm số → tiếp tục hoặc dừng lại • Ngưỡng điểm số quyết định tiếp tục hay dừng lại

Biến thể của BLAST và chức năng

4 bước BLAST

• blastn:

• (1) Chọn trình tự truy vấn

– Tốt: tìm các trình tự giống nhau với điểm số cao, – Không tốt: khi các trình tự có mối quan hệ xa

• blastp:

• (2) Chọn chương trình BLAST

– Sử dụng substitution matrix để xác định khoảng cách mối quan hệ

• blastx:

• (3) Chọn CSDL

• (4) Chọn thông số (gap cost/ mismatch/matrix)

– Áp dụng cho các trình tự DNA mới – Phân tích ESTs tblastn: – Tìm các vùng mã hóa (Coding region) chưa xác định trong CSDL tblastx: – Phân tích ESTs

• Cuối cùng click “BLAST”

2

1/6/2019

Nhận xét kết quả BLAST

E-Value: Dừng lại e-10

Định dạng FAST cho query

3

1/6/2019

Lựa chọn chương trình BLAST

Số khung đọc của 1 đoạn DNA

Lựa chọn CSDL nucleotide

CSDL Protein

4

1/6/2019

5

1/6/2019

Câu hỏi

Loài là gì? Thế nào là dưới loài/loài phụ?

CHƯƠNG 8 CÂY TIẾN HÓA & PHÂN TÍCH TIẾN HÓA Phylogenetic tree

1. Tiến hóa là gì? 2. Quá trình tiến hóa là gì? 3. 4. Quá trình phát sinh loài? 5. Nghiên cứu tiến hóa để làm gì? 6. Thế nào là cây tiến hóa? 7. Dữ liệu gì được dùng để xây dựng cây tiến hóa? 8. Đột biến nguồn dữ liệu để phân tích tiến hóa? 9. Phương pháp xây dựng cây tiến hóa? 10. Cách “đọc” cây tiến hóa? 11. Các phần mềm xây dựng cây tiến hóa?

1. Tiến hóa là gì?

1. Tiến hóa là gì?

• The process by which different kinds of living

organism are believed to have developed from earlier forms during the history of the earth.

Definition of evolution in Oxford dictionary

• The process by which different kinds of living

organisms are thought to have developed and diversified from earlier forms during the history of the earth.

Definition of evolution in US English dictionary

1. Evolution?

2. Quá trình tiến hóa

• Evolution is the change in the inherited

• Quá trình tiến hóa là sự phát triển từ một nguồn gốc ban đầu tạo ra nhiều dạng khác nhau dưới các điều kiện khác nhau.

characteristics of biological populations over successive generations.

• Tiến hóa là sự biến đổi nguồn gene (gene

• Evolution is a change in the gene pool of a

pool) trong quần thể qua các thế hệ.

population over time.

1

1/6/2019

Species?

• Trong sinh học, một loài là đơn vị phân loại cơ

bản.

• Loài là một nhóm các sinh vật có khả năng giao phối với nhau và sinh ra con cái qua nhiều thế hệ.

4. Quá trình phát sinh loài?

Loài, dưới loài/loài phụ Species/subspecies/varieties

• Các giống (variety) có sự khác biệt về kiểu hình với nhau

nhưng vẫn có khả năng lai với nhau một cách tự do.

• Thông thường sự phân cách địa lý sẽ tạo ra nhiều giống

khác nhau.

• Ví dụ: có nhiều giống lúa địa phương khác nhau hoặc

giống lợn khác nhau…

• Là một quá trình dẫn đến thay đổi kiểu gene của quần thể ban đầu tạo ra kiểu gene mới cách li sinh sản với quần thể gốc – Cách li sinh sản – Cách li địa lí – Đa bội hóa – Đột biến

• Loài phụ: có sự khác biệt với nhau từ hai hoặc nhiều đặc điểm. Có thể giao phối tạo thế hệ con cái hữu thụ nhưng trong tự nhiên thường ít xảy ra. Nguyên nhân chủ yếu là do sự cách ly địa lý dẫn đến cách li sinh sản. Ví dụ ở lúa có hai loài phụ chính: indica và japonica.

5. Nghiên cứu tiến hóa để làm gì?

6. Thế nào là cây tiến hóa? Phylogenetic tree

• Lịch sử phát triển của sinh giới và hệ quả của

những sự kiện xảy ra trong tự nhiên

• Giải thích sự đa dạng sinh giới • Mối quan hệ giữa các loài và nguồn gốc tiến

hóa

• Phylogenetic tree/ evolution tree • Root/ Branch/ Node/ Leaf • Operational taxonomic units (OTU) • Hypothetical taxonomic unit (HTU) • Common ancester • Rooted/ unrooted tree • Descendant • Relatedness/change • Time

• Cơ chế của quá trình hình thành loài mới • Vị trí của loài trong hệ thống sinh giới • Dự đoán chiều hướng tiến hóa

2

1/6/2019

Phylogenetic tree

Phylogenetics

• Một sơ đồ tiến hóa minh họa

• Phylogenetics là khoa học nghiên cứu mối quan

mối quan hệ giữa các thực

hệ tiến hóa giữa các loài.

thể (thường là các nhóm

phân loại taxon) có cùng tổ

• Để dự đoán được mối quan hệ tiến hóa, các cây tiến hóa được xây dựng để liên kết các loài với nhau.

tiên chung.

• Một sơ đồ cây hiển thị mối

quan hệ tiến hóa giữa các

nhóm sinh vật.

Phylogenetic tree

Mối quan hệ/ Mức độ thay đổi

i

n a g

i

• Là cây tiến hóa là sơ đồ nhánh hiển thị mối quan hệ tiến hóa giữa các loài dựa vào sự giống và khác nhau về các đặc điểm vật lý hoặc di truyền.

ờ h T

• Các taxon được kết nối với nhau thành cây xuất phát từ tổ tiên chung.

Tại sao phải nghiên cứu mối quan hệ tiến hóa

So sánh các đặc điểm giống nhau

• Tìm ra mối quan hệ tiến hóa giữa các sinh vật (phân tích những biến đổi xảy ra ở các sinh vật khác nhau trong quá trình tiến hóa).

• Hiểu được mối quan hệ giữa một trình tự tổ tiên và các con cháu của nó (tiến hóa phân tử, tiến hóa trình tự).

• Dự đoán thời gian phân li (tách nhau ra) giữa một nhóm các sinh vật cùng chia sẻ tổ tiên chung.

3

1/6/2019

Giả thuyết về đồng hồ phân tử (Molecular clock)

• Tất cả các đột biến xảy ra với cùng một tốc độ

như nhau ở tất cả các nhánh của cây.

• Tốc độ đột biến là như nhau ở tất cả các vị trí

dọc theo chiều dài trình tự.

• Giả thuyết về đồng hồ sinh học phù hợp nhất đối với các loài có mối quan hệ gần gũi. Tuy nhiên đối với các loài có mối quan hệ xa thì việc áp dụng sẽ khó thuyết phục.

Cây dưới đây mô tả mỗi loài như một chiếc lá của một nhánh xuất phát từ một điểm gọi là node (tổ tiên chung gần nhất). Mối quan hệ giữa các loài được liên hệ coi như là cành. Chiều dài của cành thể hiện thời gian tiến hóa hoặc mức độ biến đổi của trình tự. Các cây (a) và (b) là những cây không gốc (dạng cladogram), chúng chỉ đơn thuần biểu diễn mối quan hệ giữa các taxon (A, B, C, D) trong cây tiến hóa.

Phương pháp tạo gốc là chỉ ra tổ tiên chung mà từ đó các con cháu được phát sinh.

• Gốc là tổ tiên của tất cả các

loài trong cây Có n-1 cách tạo ra cây có gốc với n là số điểm (node).

Các lá cây (1, 2, 3, 4, 5) được gọi là các OTU (operation taxon unit) Các điểm bên trong (internal node) là tổ tiên chung (6, 7, 8). Cây không gốc không chỉ ra tổ tiên mà từ đó các con cháu phát sinh.

Cây tiến hóa

• Có 2 loại cây tiến hóa: • Cây có gốc: những cây chỉ có một điểm duy nhất mà từ đó các điểm khác được phát sinh.

• Cây không có gốc: là những cây không xác định được nguồn gốc từ một điểm duy nhất làm tổ tiên ban đầu mà từ đó phát sinh ra các loài hoặc tổ tiên tiếp đó.

4

1/6/2019

7. Dữ liệu gì được dùng để xây dựng cây tiến hóa?

Xây dựng cây tiến hóa có gốc

• Để xây dựng cây tiến hóa có một điểm làm tổ tiên chung cần đưa 1 loài mới vào để phân tích chung gọi là nhóm ngoại. Nhóm ngoại phải có đặc điểm có tổ tiên chung gần nhất với tất cả các OTU có trong cây tiến hóa nhưng phải có sự khác biệt đủ lớn để tách biệt với tất cả các OTU khác.

• Một dấu hiện khác biệt rất dễ dàng nhận ra giữa cây có gốc và không có gốc là sự xuất hiện nhóm ngoại. Nhóm ngoại nằm ở vị trí gốc chung của tất cả các OTUs nhưng tách riêng ra một nhánh riêng biệt.

• Các dữ liệu hình thái • Dữ liệu sinh lý hóa sinh • Các protein, enzyme • Các đoạn DNA đa hình (microsatellite, RFLP, SSR, RAPD) • Các vùng trình tự không mã hóa (16S, 18S, ITS, LSU) • Trình tự amino acid • Trình tự nucleotide • Trình tự DNA ti thể

• Nếu việc tìm nhóm ngoại hoặc bổ sung nhóm ngoại rất khó thì các biện pháp khác có thể được áp dụng để xác định gốc cho một cây chẳng hạn dùng điểm giữa (midpoint) của nhánh dài nhất của cành liên tiếp gần kề. Cách này chỉ có thể áp dụng nếu cây tiến hóa tuân theo cùng một đồng hồ phân tử.

8. Đột biến là nguồn dữ liệu hữu ích trong phân tích tiến hóa

• Đột biến, lỗi xảy ra trong quá trình sao chép và

sửa chữa DNA

• Chỉ những đột biến xảy ra ở tế bào mầm

(germline cells) đóng vai trò quan trọng trong tiến hóa. Tuy nhiên ở một số sinh vật không có sự phân biệt giữa tế bào mầm hay tế bào soma. • Chỉ những đột biến mà được cố định trong quần thể (tồn tại ở một mức tần số allele nhất định) được gọi là sự thay thế.

5

1/6/2019

Phương pháp chính sử dụng để xây dựng cây tiến hóa

8. Phương pháp phổ biến xây dựng cây tiến hóa?

• Phương pháp dựa vào khoảng cách

– UPGMA (unweighted pair group method with

arithmetic mean)

• Phương pháp phổ biến và thông dụng nhất để xây dựng cây tiến hóa là dựa vào: khoảng cách và so sánh đặc điểm ký tự

– NJ (Neighbour Joining)

• Phương pháp khoảng cách đo khoảng cách

• Phương pháp dựa vào ký tự trình tự

của các cặp phân tích (cặp trình tự) trên cơ sở lập ra các ma trận khoảng cách.

– Parsimony methods – Maximum likelihood

• Phương pháp kiểm định cây tiến hóa

• Phương pháp so sánh ký tự xác định tất cả các cây có thể và tìm ra một cây phù hợp nhất trong tổng số các cây có thể.

– Bootstrapping – Jack Knife

6

1/6/2019

Phương pháp UGPMA

Phương pháp này được xây dựng trên cơ sở theo một quy trình sau: – –

Giả thuyết ban đầu mỗi loài phân bố ở một điểm (OTU) Ghép cặp các OTU, xác định khoảng cách của mỗi cặp trên cơ sở so sánh ma trận, chọn ra cặp có khoảng cách ngắn nhất. Khoảng cách giữa hai OTU này được tính bằng trung bình khoảng cách tính từ ma trận. Các cặp có khoảng cách ngắn nhất được ghép lại thành các OTU mới. Các OTU lại được ghép với nhau để xác định khoảng cách. Lặp lại quá trình này cho tới khi tất cả các loài được nối với nhau trong một cụm duy nhất.

Thuật toán này mang tính phân loại theo ngoại hình (phenetic), không thể hiện được thế hệ, dòng dõi và mức độ phân ly của mối quan hệ tiến hóa. Thuật toán này chấp nhận giả thuyết của đồng hồ sinh học. Ngoài phương pháp UGPMA còn có các phương pháp WPGMA và UPGMS với thuật toán tương tự.

UPGMA

UPGMA

6 OTU: A, B, C, D, E

Tính toán các cặp OTUs với khoảng cách nhỏ nhất. A và B tách nhau 1 khoảng cách = 2. Điểm phân nhánh giữa A và B tính bằng ½ khoảng cách giữa chúng → sơ đồ nhánh của A và B.

Các phương pháp ma trận khoảng cách

UPGMA & Neighbor Joining

• UPGMA và Neighbor Joining sử dụng quy trình phân tích nhóm. • Các “node” được nhóm với nhau ở mỗi bước để tạo thành một

• ClustalW, Phylo_win, Paup • Paupsearch, distances (GCG software package) • DNADist, PROTDist, Fitch, Kitch, Neighbor

“node” mới trên cây. Quá trình này được thực hiện liên tục từ The method works by clustering nodes at each stage and then forming a new node on a tree. This process continues from the bottom of the tree and in each step a new node is added, and the tree grows upward.

(Phylip package)

• The length of the branch at each step is determined by the

difference in heights of the nodes at each end of the branch. • UPGMA has built in assumptions that the tree is additive and that

all nodes are equally distance from the root.

• UPGMA is not used much today, but gave way to a very common

approach now termed “Neighbor Joining”

7

1/6/2019

Gene tree vs phylogenetic tree

• Sử dụng một vài trình tự DNA/Protein → cây

tiến hóa

• Liệu có đủ tin cậy?

Multisequence alignment → phylogenetic tree

8

1/6/2019

Cách “đọc” cây tiến hóa?

Cách “đọc” cây tiến hóa?

• To some biologists, use of the term "cladogram"

emphasizes that the diagram represents a hypothesis about the actual evolutionary history of a group, while "phylogenies" represent true evolutionary history

• To other biologists, "cladogram" suggests that the

lengths of the branches in the diagram are arbitrary, while in a "phylogeny," the branch lengths indicate the amount of character change.

Phylogenetic tree

Những cây sau đây là tương đương nhau

• A phylogenetic tree, also known as a phylogeny,

is a diagram that depicts the lines of evolutionary descent of different species, organisms, or genes from a common ancestor.

• Phylogenies are useful for organizing knowledge

of biological diversity, for structuring classifications, and for providing insight into events that occurred during evolution

9

1/6/2019

Trong các cây sau, các nhánh bên trong thay đổi dẫn đến làm thay đổi trật tự sắp xếp của các taxa

Các chương trình xây dựng cây tiến hóa…

Các chương trình xây dựng cây tiến hóa

Các chương trình xây dựng cây tiến hóa

Các chương trình xây dựng cây tiến hóa

10

1/6/2019

Các chương trình xây dựng cây tiến hóa

11