SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX

Chia sẻ: vuminhduong_88

Nắm được những nguyên tắc so sánh các trình tự sinh học Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ...) với trình tự yêu cầu. Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,...

Bạn đang xem 10 trang mẫu tài liệu này, vui lòng download file gốc để xem toàn bộ.

Nội dung Text: SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX

n to


SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX




1
Mục tiêu của bài học
 Nắm được những nguyên tắc so sánh các trình tự
sinh học

 Sử dụng chương trình BLAST giúp chúng ta nhanh
chóng tìm ra những trình tự sinh học tương đồng
(nếu có trong các CSDL lớn như NCBI, EMBL,
DDPJ…) với trình tự yêu cầu.

 Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng,…

2
Tì kim rnh ự i họ
m  ế tì t snh  c
Bắt cặp trình tự
 Sắp xếp thẳng hàng trình tự là phương pháp sắp
xếp hai hoặc nhiều trình tự nhằm đạt được sự giống
nhau tối đa.
 Các trình tự này có thể được xen bằng các
khoảng trống (thường được diễn tả bằng các gạch nối
ngang) tại các vị trí có thể để làm sao tạo thành các
cột giống nhau (identical) hoặc tương tự nhau (similar).
tcctctgcctctgccatcat---caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||
tcctgtgcatctgcaatcatgggcaaccccaaagt

3
Gi it ệ mô họ
ớ  hiu  n  c
 Phương pháp này thường được dùng để nghiên cứu sự
tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt
là các trình tự sinh học như trình tự protein hoặc trình
tự DNA.
 Các bắt cặp không đúng trong trình tự tương ứng với
các đột biến và các khoảng trống tương ứng với phần
thêm vào hoặc xóa đi.
 Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá
trình tạo ra sự sắp xếp này hay tìm ra các cách sắp
xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng
biệt.

4
Gi it ệ mô họ
ớ  hiu  n  c
Sắp gióng cột đôi một (Pairwise alignment)
 Sắp gióng cột đôi một là phương pháp phục vụ cho
việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay
(cục bộ) mà trùng khớp nhất của các chuỗi protein (
amino acid) hay DNA (nucleic acid).

 Thông thường, mục đích của nó là tìm ra (mối quan
hệ) đồng đẳng của một gene hay một sản phẩm-gen
trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn.
Thông tin này là hữu ích để trả lời một loạt các câu hỏi
sinh học khác nhau.


5
Gi it ệ mô họ
ớ  hiu  n  c
Ứng dụng
 Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu
dùng BLAST để tìm câu trả lời.
 Chủng loại vi khuẩn nào có các protein có liên hệ về
giống loài với một loại protein khác mà có
chuỗi amino-acid mà ta đã biết không?.
 Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
 Có gen nào khác dùng để mã hóa các protein có cấu
trúc hay dáng dấp gần với cái mà ta vừa xác định
không?.
 BLAST còn được dùng kết hợp với các giải thuật khác
có đòi hỏi sự so trùng chuỗi gần đúng.
6
Gi it ệ mô họ
ớ  hiu  n  c
Blast
 BLAST là một giải thuật để so sánh các chuỗi sinh
học, như các chuỗi của các protein hay của các chuỗi
DNA khác nhau.




 Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự
nào trong ngân hàng dữ liệu giống hoặc gần giống với
trình tự của bạn không”?.



7
Gi it ệ mô họ
ớ  hiu  n  c
Nguyên tắc trong blast

Thu thập và lựa
Phân tích kết
chọn trình tự Blast quả blast
(protein hay
DNA, RNA)


Thuật toán của BLAST có 2 phần, một phần tìm kiếm
và một phần đánh giá thống kê dựa trên kết quả tìm
được.



8
Gi it ệ mô họ
ớ  hiu  n  c
Thuật toán blast
 Thuật toán của BLAST có 2 phần, một phần tìm kiếm
và một phần đánh giá thống kê dựa trên kết quả tìm
được.
 Trong phần đánh giá thống kê, BLAST dựa trên cơ sở
đánh giá của một cặp trình tự để tính ra một giá trị gọi
là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng
tương tự của các bắt cặp càng cao.

 Ngoài ra BLAST tính toán một giá trị trông đợi E-Score
(Expect-Score) phụ thuộc vào Bit-Score.

9
Gi it ệ mô họ
ớ  hiu  n  c
Giá trị xác xuất trong blast




10
Gi it ệ mô họ
ớ  hiu  n  c
Các bước tìm kiếm trong blast
Bước 1: BLAST tìm kiếm các
chuỗi con ngắn với chiều dài cố
định W có tính tương tự cao
Bước 2: BLAST tiếp tục tìm
kiếp những cặp Hits tiếp theo
dựa trên cơ sở những Hit đã tìm
được trong bước 1
Minimum
Score (S)
Neighborhood
Score Threshold (T)


Những chuỗi con nào có số điểm lớn hơn
một giá trị ngưỡng T (threshold value) thì
được gọi là tìm thấy và được BLAST gọi là
Hits
11
Gi it ệ mô họ
ớ  hiu  n  c
Mở rộng so sánh các trình tự
 Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã
tìm được theo cả hai chiều và đồng thời đánh số điểm.
 Quá trình mở rộng kết thúc khi điểm của các cặp Hits
không thể mở rộng thêm nữa.


KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)
MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)

Hit!
Mở rộng Mở rộng




12
Gi it ệ mô họ
ớ  hiu  n  c
Những chuỗi con nucleotide trong blast




Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay
thế (Substitutionsmatrix) BLOSUM hoặc PAM.

13
Gi it ệ mô họ
ớ  hiu  n  c
Protein words




Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay
thế (Substitutionsmatrix) BLOSUM hoặc PAM.

14
Gi it ệ mô họ
ớ  hiu  n  c
Cách tính điểm

Phương pháp chung:
 Terminal mismatches (0)
 Bắt cặp nhau score (1)
 Mismatch penalty (-3)
 Gap penalty (-1)
 Gap extension penalty (-1)



DNA Defaults
Cách tính điểm số DNA
GGGGGGAGAA
|||||*|*|| 8(1)+2(-3)=2
GGGGGAAAAAGGGGG


GGGGGGAGAA--GGG
|||||*|*|| ||| 3
11(1)+2(-3)+1(-1)+1(-1)=
GGGGGAAAAAGGGGG
So sánh các đặc tính di truyền của các loài
Bò và Cá (DNA)
32 .ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC 80
| | | | | | || | | || | | |||| |
51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100
. . . . .
81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130
|||| |||||| ||||||| || |||| ||| ||| |
101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150
. . . . .
131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180
|| || | | | | ||||||| || || || ||||| || |||
151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200
. . . . .
181 CAAGTTTGCTGGC...ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227
|||||| | | | | | || || | | |
201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250




48% similarity
Bò và Heo
1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC 50
| ||| ||| || | ||||| |||| ||| ||||||
1 .......CAGAGCCAGGACACCCAGTACGCCCGCACTTGCTCTGTTTCTC 43
. . . . .
51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100
|||| ||||||| |||||||||||||||||||||||||||||| ||||||
44 TTCTGCAGACTGTGCCATGGGGCTCAGCGACGGGGAATGGCAGCTGGTGC 93
. . . . .
101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150
|||| | |||||||||||||||||||||||||||||||||||||||||||
94 TGAACGTCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 143
. . . . .
151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200
||||||||||||||||| | ||||| |||||||||||||||||||||||
144 GTCCTCATCAGGCTCTTTAAGGGTCACCCCGAGACCCTGGAGAAATTTGA 193
. . . . .
201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250
|||||| |||||||||||| |||||| ||||||||||||||| |||||||
194 CAAGTTTAAGCACCTGAAGTCAGAGGATGAGATGAAGGCCTCTGAGGACC 243


80% giống nhau (88% at aa!)
Các biến thể của blast


Program query Database
1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein



20
Blastn




 Megablast
 Discontiguous megablast


21
Gi it ệ mô họ
ớ  hiu  n  c
So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu




22
Gi it ệ mô họ
ớ  hiu  n  c
Megablast




Large numbers of query sequences (megablast):
Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một
BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với
chạy BLAST nhiều lần.
23
Gi it ệ mô họ
ớ  hiu  n  c
Protein-protein BLAST
Chương trình này, khi đưa vào một protein truy vấn, sẽ
trả về các chuỗi protein gần giống nhất từ cơ sở dữ
liệu protein mà người dùng chỉ định.
 Blastp
 PSI-blast
 PHI-blast




24
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả
PHI-Blast PSI-Blast




25
Gi it ệ mô họ
ớ  hiu  n  c
PSI blast Iteration 1




26
Gi it ệ mô họ
ớ  hiu  n  c
Chứa đựng những vùng protein-PSI blast




Một trong những chương trình BLAST mới nhất,
chương trình này dùng để tìm kiếm các mối quan hệ
xa (distant relative) của một protein.
27
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả




28
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả




29
Gi it ệ mô họ
ớ  hiu  n  c
Blastx




30
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả
Blastx dịch mã protein từ trình tự DNA nhập vào




31
Gi it ệ mô họ
ớ  hiu  n  c
So sánh hai trình tự bằng blast




32
Gi it ệ mô họ
ớ  hiu  n  c
So sánh H5N1 và streptococus




Load trình tự 1




Load trình tự 2

Nhấn thẻ


33
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả bảng đồ so sánh hai trình tự




34
Gi it ệ mô họ
ớ  hiu  n  c
Kết quả so sánh H5N1 và Streptococus




35
Gi it ệ mô họ
ớ  hiu  n  c
Phần mềm Clutalx
 Clustalx là một phần mềm (giao diện window) dùng
cho việc so sánh sự tương đồng của hai hay nhiều
trình tự sinh học.

 Clustalx mô tả kết quả bằng hệ thống màu sắc và các
ký hiệu nổi bậc những nét đặc trưng trong những đoạn
tương đồng.

 ClustaX ngày càng trở nên hữu ích cho các nhà nghiên
cứu trong việc tìm kiếm những vùng bảo tồn trên
những trình tự DNA hoặc protein
36
Gi it ệ mô họ
ớ  hiu  n  c
Nguyên tắc Clustalx
 Thu nhận và lựa chọn tập trình tự (protein hay DNA,
RNA)

 Nhập các trình tự sinh học vào Clustalx



 Phân tích kết quả sắp giống cột




37
Gi it ệ mô họ
ớ  hiu  n  c
Thu thập và lựa chọn tập trình tự
 Trước khi thực hiện việc gióng cột, phải lựa một cách
cẩn thận tập trình tự mà cần giống cột.
 Những trình tự này thuộc cùng một protein, DNA hay
RNA và cùng tổ tiên
 Tùy thuộc vào mục đích xây dựng sắp gióng cột thì ta
chọn ra một số trình tự để phân tích bằng ClustalX
Ví dụ: Để phát hiện đột biến thì ta phải tìm trình tự gen
của chủng hoang dại và các trình tự của gen của các
chủng được cho là đột biến
Nếu muốn tìm vùng bảo tồn thì ta phải thu thập các
trình tự gen cùng một họ protease A, gen độc tố LT
38
Gi it ệ mô họ
ớ  hiu  n  c
Sắp giống cột bằng Clustalx




39
Gi it ệ mô họ
ớ  hiu  n  c
40
Gi it ệ mô họ
ớ  hiu  n  c
Bài tập
1. Thực hiện sắp giống cột các trình tự protein HSP70 ở
một số loài vi khuẩn
2. Thu thập và chọn lọc tập trình tự gen quan tâm, ( ví
dụ gen C-prM ở virus Dengue, gây đột huyết ở người
3. Chọn vùng bảo tồn nhất trong tập trình tự được sắp
giống cột.
4. Đoạn bảo tồn được chọn làm trình tự đích để nhân
bản bằng phần mềm thiết kế mồi PDA



41
Gi it ệ mô họ
ớ  hiu  n  c
Tin sinh học trả lời mối quan hệ họ
hàng
 http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.h
tml




42
Gi it ệ mô họ
ớ  hiu  n  c
Đề thi vào lớp 10 môn Toán |  Đáp án đề thi tốt nghiệp |  Đề thi Đại học |  Đề thi thử đại học môn Hóa |  Mẫu đơn xin việc |  Bài tiểu luận mẫu |  Ôn thi cao học 2014 |  Nghiên cứu khoa học |  Lập kế hoạch kinh doanh |  Bảng cân đối kế toán |  Đề thi chứng chỉ Tin học |  Tư tưởng Hồ Chí Minh |  Đề thi chứng chỉ Tiếng anh
Theo dõi chúng tôi
Đồng bộ tài khoản