Bài giảng Tin sinh học: Chương 2 - ThS. Nguyễn Thành Luân
lượt xem 83
download
Nội dung chính của chương 2 Cơ sở dữ liệu tin sinh học của bài giảng Tin sinh học nắm được những nguyên tắc so sánh các trình tự sinh học. Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu. Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tin sinh học: Chương 2 - ThS. Nguyễn Thành Luân
- 13/03/2013 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM KHOA CNSH & KTMT HỆ ĐẠI HỌC Chương II Cơ sở dữ liệu Tin sinh học (Bioinformatic Databases) Sự thử thách của nguồn thông tin mở GV: ThS. Nguyễn Thành Luân luannt@cntp.edu.vn Mục tiêu của bài học Nắm được những nguyên tắc so sánh các trình tự sinh học Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu. Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng, … 1
- 13/03/2013 Nội dung bài học • Khái niệm cơ sở dữ liệu (CSDL) • Các công cụ về cơ sở dữ liệu: – GenBank – BankIt – BLAST • Các nguồn cơ sở dữ liệu sinh học cơ bản • Các công cụ tìm kiếm dữ liệu • Phân loại CSDL Tin sinh học WHAT ARE DATABASES Cơ sở dữ liệu là gì? • Là tổ chức các chuỗi thông tin theo dạng tệp • Thông tin có thể bỏ vào và lấy ra bất kz khi nào (Ease of Access) • Đơn giản hóa nguồn thông tin bằng các ký hiệu đặc biệt (Số hóa – Digital databases) • Lưu trữ mọi nguồn dữ liệu thông qua các ngân hàng CSDL là các website • Chứa đựng các khám phá mới trong nghiên cứu khoa học 2
- 13/03/2013 Chức năng & nhiệm vụ CSDL • Định nghĩa và miêu tả • Chìa khóa duy nhất về: – Cập nhật các phiên bản phần mềm tin sinh học – Liên kết tới những nguồn CSDL khác – Lưu trữ tài liệu • Ấn bản, cập nhật và chỉnh sửa tài liệu, trình tự dựa trên nguồn của CSDL,… Cơ sở dữ liệu sinh học (Biological databases) • Trình tự DNA, RNA và protein hoặc 1 gene • Hầu hết các trường hợp, 1 trình tự protein được hiểu là 1 trình tự trong sinh học • Hiểu rõ các dạng khác nhau của trình tự là mấu chốt cho bất cứ sự giải thích vấn đề nào. • Phân tích các lỗi có thể xuất hiện trên trình tự nhằm so sánh các sự khác biệt giữa các trình tự. 3
- 13/03/2013 BIOLOGICAL PATHWAYS GENBANK HOW DID THEY DO THAT? Nguồn: http://ncbi.nlm.nih.gov KHÁI NIỆM GenBank? Là nơi mà cơ sở dữ liệu được chứa đựng tất cả thông tin về đoạn gen đã được mã hóa (DNA, RNA) hoặc những trình tự protein gốc với việc đính kèm và biểu hiện tất cả thông tin sinh học chứa đựng về đoạn gen mã hóa đó. http://www.ncbi.nlm.nih.gov/GenBank/Genb ank overview.html 4
- 13/03/2013 Cách khai thác & sử dụng Genbank • Chú trọng vào xử lý nucleotide của gene - nơi chứa nguồn thông tin trung tâm (Molecular Databases) • Là chỗ chứa đựng tất cả các trình tự mã hóa phổ biến theo dạng công cộng (public) • Dữ liệu được nhóm lại với nhau theo các cơ sở phân loại khác biệt • Chỉ có thể sử dụng & quản lý thông qua Internet • Nhanh, hiệu quả, cứ mỗi 2 tháng là có 1 ấn bản hoàn chỉnh về 1 gen. Cơ sở dữ liệu Genbank Chứa nhiều đoạn gene đã được mã hóa và công bố theo dạng gói (zip batch) – Nhiều thông tin lệ thuộc nhau về • Tác giả dữ liệu • Loài/giống của gen • Cách phân loại chính xác – Chứa cả các đoạn gen mã hóa chưa được công bố – Mọi người đều có thể đưa trình tự vào (thông tin mở và tính khoa học không cao). Tuy nhiên, nó được chỉnh sửa liên tục để ngày một hoàn thiện hơn 5
- 13/03/2013 Cơ sở dữ liệu Genbank • Dựa trên vào các trung tâm dữ liệu tin sinh học có thể chấp thuận việc nhập dữ liệu các gen mã hóa dưới dạng web cho phép sự truy cập của người dùng theo 3 website cơ bản. – GenBank (US) – EMBL- EBI (Europe) – DDBJ (Japan) • Thông tin có thể được trao đổi giữa 3 trung tâm trên Hệ thống phân loại loài trong GenBank • PRI –Primate (ĐV có vú • RNA -Structural (RNA cấu bậc cao như người, trúc) vượn) • VRL-Viral (Virus) • ROD -Rodent (Gặm • PHG-Phage (Các Phage nhấm) chuyển gen) • MAM -Mammalian (ĐV • SYN-Synthetic (Enzyme có vú) tổng hợp) • VRT -Vertebrate (ĐV có • BCT –Bacterial (Vi khuẩn) xương sống) • UNA-Unannotated (Chưa • INV -Invertebrate (ĐV xác định) không xương sống) • PLN -Plant (Thực vật) 6
- 13/03/2013 Hệ thống phân loại chức năng trong GenBank • PAT –Patent • EST -Expressed sequence tag • STS -Sequence tagged site • GSS -Genome survey sequence • HTG-High throughput genome Tại sao phải cập nhật các gen mã hóa trên Genbank? • Tính chia sẻ trong nghiên cứu khoa học • Không có nguồn gen mã hóa liên quan đến bài báo đã ấn bản • Các bài báo nghiên cứu khoa học trở nên lạc hậu và không còn đúng với hiện thực • Bản gen bằng điện tử hữu ích, hiệu quả hơn và được chấp nhận về tính giá trị • Cách tốt nhất trong việc trao đổi các thông tin dữ liệu mới và cập nhật 7
- 13/03/2013 Cấu trúc Genbank Tính liên kết trong Genbank Nguồn: http://ncbi.nlm.nih.gov 8
- 13/03/2013 Công cụ hỗ trợ việc ấn bản trình tự • BankIt: Công cụ dựa trên nền tảng web: – Nhanh & đơn giản, cần độ chính xác cao – Dễ sử dụng cho việc cập nhật các trình tự đơn giản – Kết nối với Internet để ấn bản online • Sequin: được download để sử dụng – Khó sử dụng hơn, chỉnh sửa được nhiều lần – Có các tư liệu hỗ trợ và lý tưởng cho các trình tự phức tạp, lớn và đa dạng hơn. – Làm việc không cần kết nối Internet (Offline) Giao diện BankIt 9
- 13/03/2013 BankIt BLAST BLAST = Basic Local Alignment Search Tool (Công cụ tìm kiếm trình tự cơ bản) BLAST là một giải thuật sử dụng để so sánh các chuỗi trình tự sinh học, như các trình tự của các protein hay của các DNA khác nhau. – Chúng ta dùng BLAST khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn đang làm không? ” 10
- 13/03/2013 Giao diện BLAST trên NCBI Trình tự tìm kiếm trong BLAST Chính xác và hiểu rõ công việc 11
- 13/03/2013 Thuật toán BLAST • Thuật toán của BLAST có 2 phần – Chức năng tìm kiếm – Đánh giá thống kê. • Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là [Bit-score]. Giá trị Score càng cao các trình tự bắt cặp càng cao. • Ngoài ra BLAST tính toán một giá trị trông đợi E-Value (Expected-Value) phụ thuộc vào Bit- Score THÔNG SỐ TÌM KIẾM BLAST • Dựa vào các mối quan hệ về số liệu của trình tự – Score (bits): đo lường ý nghĩa thống kê của việc so sánh trình tự Scores < 50 = không ý nghĩa – E-value: expectation value – (giá trị kỳ vọng) số lần mà giá trị Score có thể được dự báo thay đổi có thể xảy ra • Giá trị E-value càng thấp, các so sánh về trình tự mã hóa càng có ý nghĩa. • Giá trị E-value >0.001 = không ý nghĩa – L (locus information: điểm thông tin) –liên kết tới vị trí chính xác của đoạn gen đó trong hệ gen. 12
- 13/03/2013 Hiển thị cơ bản trong tìm kiếm BLAST • Chế độ view bằng giao diện đồ họa (Graphical View) • Chế độ view BLAST theo các cấu trúc khung đọc mở (Open Reading Frame - ORF) • Chế độ view theo Bảng chú thích (Description View) GRAPHICAL VIEW 13
- 13/03/2013 ORF VIEW DESCRIPTION VIEW 14
- 13/03/2013 Các dạng BLAST Nucleotide-nucleotide BLAST (blastn) Protein-protein BLAST (blastp) Position-Specific Iterative BLAST (PSI-BLAST) (blastpgp) Nucleotide 6-frame translation-protein (blastx) Nucleotide 6-frame translation-nucleotide (tblastx) Protein-nucleotide 6-frame translation (tblastn) Large numbers of query sequences (megablast) Các dạng BLAST 15
- 13/03/2013 BLAST Mỗi Entry CSDL chứa – Mã số nhận biết đặc hiệu (Accession number) – Tác giả (Author) – Trình tự (Sequence) – Tên gen (Gene name) – Vị trí chính xác điểm khởi đầu và kết thúc (Locus Information) – Trình tự dịch mã sang amino acid – Loài và phân loại (Organism and Classification) – Chi tiết về việc công bố xuất bản (Publication) PHÂN LOẠI CƠ SỞ DỮ LIỆU • CSDL Protein • CSDL Nucleotide • CSDL Genome • CSDL Primers 16
- 13/03/2013 CƠ SỞ DỮ LIỆU CẤU TRÚC (Structural Database) Nucleotide DNA NDB (Nucleic Acid Database) Cấu trúc 3D của DNA RNA RDP (Ribosomal Database Project) Cấu trúc 2D của gen rRNA, tRNA, mRNA Protein PDB (Protein Data Bank) Cấu trúc 3D của protein CSDL CẤU TRÚC PROTEIN • Nghiên cứu với các CSDL máy tính có các ấn bản trình tự protein – dựa trên các lập trình web cho phép đặt câu hỏi và thảo luận: SwissProt GenPept TrEMBL Brookh 17
- 13/03/2013 CSDL cấu trúc protein • Nhiệm vụ chính của hầu hết là – Tổ chức và xác định các cấu trúc protein, – Cung cấp cho cộng đồng sinh học các hữu ích nhất Quản lý nguồn dữ liệu nghiên cứu PDB -Insulin hexamer CSDL Protein CSDL cấu trúc đại phân tử (Macromolecular Structure Databases-EBI) -lựa chọn, quản lý và xây dựng dữ liệu về các cấu trúc đại phân tử. CSDL về phân loại trình tự cấu trúc (EBI) cấu trúc bậc 2, tính đồng đẳng và các đoạn gấp Cấu trúc 3D (EMBL) CSDL của tất cả các cấu trúc protein và các trình tự liên quan. PIR SWISS-PROT TrEMBL 18
- 13/03/2013 PIR (Protein Information Resource) là 1 phân nhánh của Tổ chức Nghiên cứu Y sinh Malaysia (The National Biomedical Research Foundation -NBRF) được liên kết với Trung tâm Y học Đại học Georgetown, Penang, Malaysia (GUMC) CSDL Protein SWISS-PROT-1 nguồn CSDL trình tự protein duy trì sự hợp tác bởi Viện Tin sinh học Thụy Sĩ (the Swiss Institute for Bioinformatics-SIB) và Viện Tin Sinh học Châu Âu (EBI-European Bioinformatics Institute) TrEMBL-là 1 phần phụ hỗ trợ xác định bằng máy tính của SWISS-PROT, chứa tất cả các dịch mã của các trình tự nucleotide chưa được hợp nhất trong SWISS-PROT Cả 2 CSDL trình tự trên đã được sát nhập vào CSDL UniProt 19
- 13/03/2013 Tiềm năng của CSDL Protein • Tìm kiếm các protein đồng đẳng nhằm tìm và nhận dạng các protein có cùng nguồn gốc chung. • So sánh các trình tự protein kết hợp tìm kiếm các trình tự đồng đẳng (cùng chức năng) từ các loài khác nhau tiến hóa loài. • Cấu trúc và chức năng protein từ đoạn trình tự • Hình thành nên ngành học mới là protein học (proteomics) 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Tin sinh học: Chương 3 - ThS. Nguyễn Thành Luân
21 p | 751 | 86
-
Bài giảng Tin sinh học: Chương 4 - ThS. Nguyễn Thành Luân
23 p | 721 | 86
-
Bài giảng Tin sinh học: Chương 1 - ThS. Nguyễn Thành Luân
33 p | 379 | 63
-
Bài giảng Tin sinh học: Chương 5 - ThS. Nguyễn Thành Luân
25 p | 173 | 56
-
Bài giảng Tin học ứng dụng trong sinh học - ThS. Bùi Hồng Quân
66 p | 289 | 49
-
Bài giảng Tin sinh học - ThS. Phan Trọng Nhật
140 p | 160 | 36
-
Bài giảng Tin sinh học đại cương - Chương 5: Tiến hóa phân tử và cây phân loại
21 p | 173 | 33
-
Bài giảng Tin sinh học đại cương - Chương 1: Giới thiều về Tin sinh học
54 p | 199 | 32
-
Bài giảng môn Độc học môi trường - Chương 6: Độc tính dầu lửa - Thuốc bảo vệ thực vật - TS. Trần Thị Thúy Nhàn
37 p | 142 | 30
-
Bài giảng Tin sinh học đại cương - Chương 3: Bắt cặp trình tự (Sequence Alignment)
37 p | 188 | 29
-
Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu
20 p | 107 | 25
-
Bài giảng Tin sinh học đại cương - Chương 4: Phân tích trình tự DNA
26 p | 133 | 24
-
Bài giảng môn Độc học môi trường - Chương 5: Độc học hóa học - Sinh học - Kim loại nặng (Phần 1) - TS. Trần Thị Thúy Nhàn
30 p | 145 | 22
-
Bài giảng môn Độc học môi trường - Chương 5: Độc học hóa học - Sinh học - Kim loại nặng (Phần 2) - TS. Trần Thị Thúy Nhàn
33 p | 144 | 21
-
Bài giảng môn Sinh học đại cương: Chương 2 - TS. Đồng Huy Giới
103 p | 258 | 20
-
Bài giảng Vi sinh vật đại cương: Chương 5 - TS. Nguyễn Thị Tuyết Lê
6 p | 36 | 5
-
Bài giảng Vi sinh vật học: Chương 0 - PGS. TS. Nguyễn Đức Hoàng
7 p | 9 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn