SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX
lượt xem 102
download
Nắm được những nguyên tắc so sánh các trình tự sinh học Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ...) với trình tự yêu cầu. Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX
- n to SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX 1
- Mục tiêu của bài học Nắm được những nguyên tắc so sánh các trình tự sinh học Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu. Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,… 2 Tì kim rnh ự i họ m ế tì t snh c
- Bắt cặp trình tự Sắp xếp thẳng hàng trình tự là phương pháp sắp xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa. Các trình tự này có thể được xen bằng các khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar). tcctctgcctctgccatcat---caaccccaaagt |||| ||| ||||| ||||| |||||||||||| tcctgtgcatctgcaatcatgggcaaccccaaagt 3 Gi it ệ mô họ ớ hiu n c
- Phương pháp này thường được dùng để nghiên cứu sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA. Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi. Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng biệt. 4 Gi it ệ mô họ ớ hiu n c
- Sắp gióng cột đôi một (Pairwise alignment) Sắp gióng cột đôi một là phương pháp phục vụ cho việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein ( amino acid) hay DNA (nucleic acid). Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. Thông tin này là hữu ích để trả lời một loạt các câu hỏi sinh học khác nhau. 5 Gi it ệ mô họ ớ hiu n c
- Ứng dụng Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời. Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà ta đã biết không?. Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu? Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?. BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng. 6 Gi it ệ mô họ ớ hiu n c
- Blast BLAST là một giải thuật để so sánh các chuỗi sinh học, như các chuỗi của các protein hay của các chuỗi DNA khác nhau. Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?. 7 Gi it ệ mô họ ớ hiu n c
- Nguyên tắc trong blast Thu thập và lựa Phân tích kết chọn trình tự Blast quả blast (protein hay DNA, RNA) Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được. 8 Gi it ệ mô họ ớ hiu n c
- Thuật toán blast Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được. Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao. Ngoài ra BLAST tính toán một giá trị trông đợi E-Score (Expect-Score) phụ thuộc vào Bit-Score. 9 Gi it ệ mô họ ớ hiu n c
- Giá trị xác xuất trong blast 10 Gi it ệ mô họ ớ hiu n c
- Các bước tìm kiếm trong blast Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1 Minimum Score (S) Neighborhood Score Threshold (T) Những chuỗi con nào có số điểm lớn hơn một giá trị ngưỡng T (threshold value) thì được gọi là tìm thấy và được BLAST gọi là Hits 11 Gi it ệ mô họ ớ hiu n c
- Mở rộng so sánh các trình tự Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm. Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa. KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit) Hit! Mở rộng Mở rộng 12 Gi it ệ mô họ ớ hiu n c
- Những chuỗi con nucleotide trong blast Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM. 13 Gi it ệ mô họ ớ hiu n c
- Protein words Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM. 14 Gi it ệ mô họ ớ hiu n c
- Cách tính điểm Phương pháp chung: Terminal mismatches (0) Bắt cặp nhau score (1) Mismatch penalty (-3) Gap penalty (-1) Gap extension penalty (-1) DNA Defaults
- Cách tính điểm số DNA GGGGGGAGAA |||||*|*|| 8(1)+2(-3)=2 GGGGGAAAAAGGGGG GGGGGGAGAA--GGG |||||*|*|| ||| 3 11(1)+2(-3)+1(-1)+1(-1)= GGGGGAAAAAGGGGG
- So sánh các đặc tính di truyền của các loài
- Bò và Cá (DNA) 32 .ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC 80 | | | | | | || | | || | | |||| | 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 . . . . . 81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130 |||| |||||| ||||||| || |||| ||| ||| | 101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 . . . . . 131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180 || || | | | | ||||||| || || || ||||| || ||| 151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 . . . . . 181 CAAGTTTGCTGGC...ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227 |||||| | | | | | || || | | | 201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250 48% similarity
- Bò và Heo 1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC 50 | ||| ||| || | ||||| |||| ||| |||||| 1 .......CAGAGCCAGGACACCCAGTACGCCCGCACTTGCTCTGTTTCTC 43 . . . . . 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 |||| ||||||| |||||||||||||||||||||||||||||| |||||| 44 TTCTGCAGACTGTGCCATGGGGCTCAGCGACGGGGAATGGCAGCTGGTGC 93 . . . . . 101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 |||| | ||||||||||||||||||||||||||||||||||||||||||| 94 TGAACGTCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 143 . . . . . 151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 ||||||||||||||||| | ||||| ||||||||||||||||||||||| 144 GTCCTCATCAGGCTCTTTAAGGGTCACCCCGAGACCCTGGAGAAATTTGA 193 . . . . . 201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250 |||||| |||||||||||| |||||| ||||||||||||||| ||||||| 194 CAAGTTTAAGCACCTGAAGTCAGAGGATGAGATGAAGGCCTCTGAGGACC 243 80% giống nhau (88% at aa!)
- Các biến thể của blast Program query Database 1 blastn DNA DNA 1 blastp protein protein 6 blastx DNA protein 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Chuyên đề nghiên cứu tin sinh học
34 p | 301 | 110
-
Bài giảng Tin sinh học: Chương 2 - ThS. Nguyễn Thành Luân
30 p | 362 | 83
-
Bằng chứng giải phẫu học so sánh
7 p | 306 | 55
-
Giải trình tự ADN
8 p | 214 | 55
-
Giáo trình thực tập vi sinh cở sở part 9
10 p | 120 | 21
-
phân loại vi sinh vật bằng sinh học phân tử (tt)
10 p | 107 | 16
-
So sánh nội dung kiến thức, yêu cầu cần đạt giữa môn Sinh học cấp trung học cơ sở - chương trình giáo dục phổ thông hiện hành và kiến thức sinh học trong môn Khoa học tự nhiên
7 p | 201 | 11
-
Phân tích so sánh các hệ gen
4 p | 107 | 10
-
Phả hệ cổ khuẩn dựa trên trình tự 16S rARN
15 p | 87 | 9
-
Bài giảng Công nghệ chế biến - Bài: Công nghệ chế biến cream từ sữa bò
27 p | 53 | 6
-
Ứng dụng mã vạch DNA hỗ trợ định loại loài một số mẫu sâm thuộc chi nhân sâm (Panax L.)
10 p | 88 | 5
-
So sánh thành phần loài tuyến trùng (nematoda) sống tự do tại các vùng biển ven bờ Hải Thịnh (Nam Định), Sầm Sơn (Thanh Hóa) và Cửa Lò (Nghệ An)
9 p | 40 | 3
-
So sánh thành phần loài tuyến trùng sống tự do ở sông Cầu, sông Đáy, sông Gấm và sông Nhuệ
7 p | 34 | 2
-
Phân tích một số đặc điểm đa hình và mối quan hệ phát sinh loài của lợn rừng Việt Nam khu vực Tây Nguyên dựa trên trình tự gen Cytochrome B ty thể
7 p | 72 | 2
-
So sánh một số thuật toán phân cụm phổ cho dữ liệu biểu diễn Gene
8 p | 67 | 1
-
Tách dòng và xác định trình tự gen EcHB1 liên quan đến cơ chế làm tăng chiều dài sợi gỗ ở bạch đàn
7 p | 72 | 1
-
Nghiên cứu chế tạo vật liệu compozit trên cơ sở nhựa nền sinh học ứng dụng chế tạo chậu trồng cây
4 p | 77 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn