intTypePromotion=1
ADSENSE

Bài giảng Tin sinh học

Chia sẻ: Caphesuadathemhanh | Ngày: | Loại File: PDF | Số trang:90

18
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Tin sinh học với mục tiêu là giới thiệu khái quát cách tìm kiếm nguồn thông tin trên Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn. Trang bị kiến thức cơ bản và một số công cụ thông dụng của tin sinh học để: Khai thác và xử lý các thông tin sinh học Ứng dụng trong lĩnh vực nghiên cứu, trong phòng thí nghiệm và thực tiễn.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Tin sinh học

  1. 1/6/2019 Mục tiêu của môn học: Tin sinh học (Bioinformatics) Thông tin về học phần Giới thiệu khái quát cách tìm kiếm nguồn thông tin trên Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn. Mã học phần: SH3036 Số tín chỉ: 3 (2LT + 1TH) Trang bị kiến thức cơ bản và một số công cụ thông dụng của Học phần tiên quyết: tin sinh học để: + Sinh học phân tử I, II (SH2003; SH2004), Khai thác và xử lý các thông tin sinh học + Kỹ thuật di truyền - nguyên lý và ứng dụng Ứng dụng trong lĩnh vực nghiên cứu, trong phòng thí nghiệm và thực tiễn. Nội dung của môn học Tóm tắt nội dung môn học Phần 1. Lý thuyết Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học Phần 1. Lý thuyết Phần 3. Thực hành trên máy tính 1. Giới thiệu đôi nét về Internet và phương pháp tìm kiếm thông tin cơ bản Nhiệm vụ của sinh viên 2. Nền tảng sinh học của Bioinformatics Dự lớp, thảo luận Thực hành, làm bài tập 3. Sự ra đời và vai trò của Bioinformatics 4. Cơ sở dữ liệu sinh học (CSDL) Hình thức thi: Thi viết và thực hành trên máy tính Thang điểm đánh giá: Thang điểm 10,0 5. So sánh trình tự (sequence alignment) Chuyên cần: dự lớp, thảo luận…: 10% 6. Phân tích gene và promoter Kiểm tra giữa kỳ, báo cáo thực hành/tiểu luận…: 20% Điểm thi cuối kỳ (lý thuyết + thực hành) 70% Tóm tắt nội dung môn học Tóm tắt nội dung môn học Phần 2. Giới thiệu một số công cụ phân tích CSDL sinh học Phần 1. Lý thuyết 1. Tìm kiếm thông tin về các gene, các bài báo và những thông 7. Nghiên cứu mối quan hệ tiến hóa của sinh vật ở mức độ phân tử tin liên quan (molecular phylogenetics) 2. Tìm kiếm các CSDL tương đồng 8. Tin sinh học trong nghiên cứu cấu trúc phân tử 3. So sánh các trình tự sinh học 9. Nghiên cứu genomics và proteomics 4. Phân tích các trình tự ADN 10. Sinh học hệ thống (Systems Biology): Phân tích chức năng của các 5. Phân tích trình tự protein genome 6. Phân tích gene và promoter 7. Làm quen với cấu trúc 3 chiều của phân tử protein 1
  2. 1/6/2019 Tài liệu học tập Tóm tắt nội dung môn học 1. J.Xiong (2006). Essential bioinformatics, Cambridge University Press. Phần 3. Thực hành 2. Hui-Huang Hsu (2006). Advance in data mining technologies in bioinformatics. Idea Group Inc. 3. J. M.Claverie, C. Notredame (2007). Bioinformatics For 1. Các bài tập thực hành bao gồm những bài tập liên quan đến Dummies®, 2nd Edition. Wiley Publishing, Inc. 4. S.Q.Ye (2008). Bioinformatics: A Practical Approach. Taylor & việc ứng dụng các công cụ để phân tích CSDL sinh học. Francis Group. 5. J.Pevsner (2009). Bioinformatics and functional genomics. A 2. Phần thực hành cần thao tác trực tiếp trên máy tính có kết nối John Wiley & Sons, Inc. 6. P.M.Selzer, R.J. Marhöfer, A. Rohwer (2009). Applied Internet. Trước mỗi buổi thực hành sẽ có phần bài tập và tài bioinformatics: An introduction. Springer-Verlag Berlin Heidelberg. liệu hướng dẫn thực hành. 7. P. Kangueane (2009). Bioinformation Discovery. Data to 3. Thực hành ở hội trường của Khoa, lớp chia thành 3 nhóm Knowledge in Biology. Springer Dordrecht Heidelberg London New York. 8. Phan Trọng Nhật, Nguyễn Đức Bách. Bài giảng Tin sinh học, Đại học Nông nghiệp Hà Nội. 2
  3. Chương 1 1.1. Lịch sử ra đời và phát triển Giới thiệu • Khái niệm Bioinformatics • Những mốc lịch sử quan trọng Khái niệm Bioinformatics is the application of computer science and information technology to the field of biology and medicine. Khái niệm Requirements Bioinformatics liên quan đến: Thuật toán, CSDL, hệ thống thông tin, công nghệ Web, trí thông minh nhân tạo, phần mềm, khai thác CSDL, xử lý hình ảnh, mô hình, mô phỏng, xử lý thống kê, tạo ra các CSDL mới… Java, XML, Perl, C, C++, Python, R, SQL and Mat Lab are the programming languages popularly used in this DNA computing field. neural computing A bioinformatician needs to have a basic and general evolutionary computing sense of the ideas and approaches of science and immuno-computing engineering. swarm-computing cellular-computing 1
  4. 1866: Gregor Mendel công bố các kết quả nghiên Một vài mốc lịch sử quan trọng của sinh cứu về tính di truyền của các “yếu tố di truyền” ở học phân tử đậu Hà Lan 1950's Maurice Wilkins (1916- ), Rosalind Franklin Rosalind Franklin (1920-1958), Francis H. C. Crick (1916- ) (U.K) Nhà nghiên cứu lý sinh học, vật lý học, hóa học, và James D. Watson (1928- ) (U.S.) tinh thể học người Anh. Đóng góp quan trọng trong việc hiểu rõ về cấu trúc phân tử của DNA, RNA cấu trúc virus, than đá, than chì. Franklin được biết đến nhiều nhất từ kết quả Khám phá cấu trúc hóa học của DNA, khởi đầu nghiên cứu về những bức ảnh nhiễu xạ tia X của một nhánh mới trong DNA. khoa học: Sinh học phân Watson và Crick dựa trên kết quả quan trọng này tử để đưa ra giả thuyết về mô hình cấu trúc của phân tử DNA (1953) Khám phá cấu trúc DNA 1957: Arthur Kornberg (1918-2007 ) (U.S) đã tổng hợp được DNA trong ống nghiệm Ông đã giành giải thưởng Nobel về Book: The double helix sinh lý năm 1959 cho đóng góp về: “Các cơ chế trong tổng hợp sinh học Cuộc chiến giữa Watson và Crick vs Linus Carl Pauling của DNA” 2
  5. Một số mốc trong lịch sử xác định trình tự amino acid 1955 F. Sanger (U.K) phát triển quy trình xác định amino acid (insulin) 1975. F. Sanger phát triển phương pháp xác định trình tự nucleotide. Ông đã nhận 2 giải thưởng Nobel (1958, 1980) cho những đóng góp của mình Đến nay có 4 người đã nhận được 2 giải thưởng Nobel trong đời 1. Marie Curie (Physics, 1903 and Chemistry, 1911), 2. Linus Pauling (Chemistry, 1954 and Peace, 1962) 3. Frederick Sanger (2 Chemistry, 1956 and 1972) 4. John Bardeen (2 Physics, 1956 and 1972) Mã di truyền (Genetic code) Làm thế nào để xác định được mã di truyền? Năm 1966 mã di truyền đã được phát hiện. Kết quả này dẫn đến những đột phá quan trọng trong kỹ nghệ di truyền (genetic engineering) Khám phá mã di truyền 1972 Paul Berg (1926- ) (U.S) đã tạo ra phân tử DNA tái tổ hợp In 1980 ông đã cùng nhận giải thưởng Nobel cùng với 4 nucleotide trong phân tử DNA (RNA) và 20 amino acid trong chuỗi Walter Gilbert và Frederick Sanger. polypeptide đã được biết Năm 1953, cấu trúc DNA đã được xác định George Gamow giả thiết rằng sẽ phải là 3 chữ cái để mã cho 20 aa bởi vì 3 là số tự nhiên nhỏ nhất (43 = 64) Giả thuyết này đã được Crick và Brenner cùng các tác giả khác chứng tỏ bằng thực nghiệm (1961) Sử dụng hệ thống dịch mã không cần tế bào: Poly UUUU… tạo ra phenlyalanine Poly AAAA... tạo thành polylysine Poly CCCC... tạo thành polyproline 3
  6. Cuối những năm 1980, một hiệp hội quốc tế của một số phòng 1983 Barbara McClintock (1902-1992) (U.S.) đã nhận được giải thưởng Nobel cho những phát hiện các yếu tố di truyền vận động thí nghiệm lớn đã đưa ra dự án xác định lập bản đồ genome người. Năm 1993 Kary Mullis phát minh quy trình PCR (Giải thưởng Năm 1990, lần đầu tiên liệu pháp gen được đưa vào điều trị Nobel) Năm 1994 FDA chấp nhận cho phép dùng cây chuyển gene trong thực phẩm (Cà chua) Năm 1997: Động vật có vú lần đầu tiên được clone. Mốc lịch sử xác định trình tự genome 4
  7. 1992 Welcome Trust và United Kingdom Medical Research Council thiết lập trung tâm Sanger Centre để xác định trình tự genome ở quy mô lớn 1992 J. C. Venter sáng lập Viện nghiên cứu genome (The Institute for Genome Research 1953 Cấu trúc DNA. (TIGR). 1975 F. Sanger (độc lập), A. Maxam và W. Gilbert: phương pháp xác định trình tự DNA 1995 Genome vi khuẩn đầu tiên được giải trình tự Haemophilus influenzae (bởi TIGR) 1977 Genome φ X-174 được xác định trình tự Bản đồ liên kết (mức độ phân giải cao) của genome người được hoàn thành. 1980 Mỹ cấp bằng phát minh cho các vi khuẩn cải biến gen (cơ sở cho patent về gene) Khoảng cách giữa các marker khoảng 600. 000 nucleotide. 1981 DNA ti thể người được xác định trình tự:16 569 base pairs. 1996 Hoàn thành genome nấm men (genome đầu tiên của eukaryote) 1984 Epstein-Barr virus genome : 172 281 base pairs 1998 Hoàn thành xác định trình tự genome người 1990 Dự án xác định trình tự genome người (dự kiến 15 năm) 1998 Genome của Caenorhabditis elegans được công bố 1991 J. C. Venter và cộng sự xác định các gen hoạt động dựa trên cơ sở các EST. 1999 Genome của Drosophila melanogaster được công bố 1992 Bản đồ liên kết (mức độ phân giải thấp) của genome người được hoàn thành. 1999 Bản nháp được hoàn thành (90% các gene được xác định trình tự với mức chính 1992 Khởi động dự án xác định trình tự genome Caenorhabditis elegans xác >95%). 12/ 1999 Trình tự của NST số 1 ở người được công bố 2000 Bản nháp về trình tự DNA genome người được công bố Genome người ◼ Một thư viện có 46 cuốn sách (NST) ◼ Mỗi cuốn sách có 48 đến 250 triệu chữ (A,C,G,T). Toàn bộ thư viện có hơn 6 tỉ chữ ◼ Thư viện được đặt trong nhân của tế bào có kích thước rất nhỏ. ◼ Trong mỗi tế bào của cơ thế ngươi chứa 1 thư viến (gồm 46 cuốn sách) Những vấn đề tồn đọng trong phân tích genome Những vấn đề tồn đọng trong phân tích genome ◼ Mối quan hệ tiến hóa giữa các sinh vật ◼ Xác định số lượng gene, vị trí phân bố trên NST và chức năng ◼ Nghiên cứu cấu trúc và chức năng protein ◼ Điều hòa hoạt động gene ◼ Proteomes của các sinh vật ◼ Cấu trúc NST và tổ chức của các gene, trình tự DNA trên NST ◼ Mối tương quan giữa các SNP với sức khỏe và bệnh tật ◼ Các dạng DNA không mã hóa, số lượng, phân bố, thông tin, chức năng của ◼ Dự đoán khả năng mẫn cảm bệnh dựa trên cơ sở so sánh đa hình trình tự chúng. gene. ◼ Xác định vị trí của các gene biểu hiện trên NST, các sự kiên liên quan đến sinh ◼ Các gen liên quan đến các tính trạng phức tạp và các bệnh liên quan đến tổng hợp protein, cải biến sau dịch mã nhiều gen. ◼ Tương tác của các protein trong một phức hợp với các phân tử khác ◼ Sinh học hệ thống ◼ Dư đoán chức năng gene và so sánh với kết quả thực nghiệm 5
  8. Bioinformatics Paulien Hogeweg (1979) đưa ra thuật ngữ khi nghiên cứu các quá trình xử lý thông tin trong các hệ thống sinh học Những năm gần đây, một lượng lớn dữ liệu sinh học được tạo ra (genomic, proteomic) Để phân tích các CSDL này cần phải sử dụng các thuật toán, các công cụ thống kê, khoa học máy tính 1.2. Nhiệm vụ của bioinformatics 1.2. Nhiệm vụ của bioinformatics ◼ Xây dựng CSDL (Genomic, protein databases) ◼ Xây dựng CSDL về đột biến gene và các SNP 1. Quản lý CSDL ◼ Các trình duyệt cho genome (Genome browser) 2. Phát triển các công cụ, thuật toán để khám phá những thông tin ◼ So sánh trình tự (Sequence alignment) ẩn chứa trong các CSDL ◼ Dự đoán gene (Ab initio gene prediction), xác định tổ chức gene trên NST, genome. ◼ Xây dựng các mô hình về biểu hiện gene: SAGE, EST ◼ Dự đoán promoter (Promoter prediction) ◼ Xây dựng cấu trúc các đại phân tử và mô hình tương tác ◼ Các bước nghiên cứu sau: Tương tác CSDL và gene ontology 6
  9. 1.2. Nhiếm vủ và các hướng nghiên cứu bioinformatics ◼ Xây dưng CSDL (Databases) ◼ Phân tích trình tư (sequence analysis) ◼ Mô tả genome (Genome annotation) ◼ Sinh học tiến hóa (Computational evolutionary biology ◼ Phân tích biểu hiện gene (Analysis of gene expression ◼ Phân tích điều hòa phiên mã (Analysis of regulation) ◼ Phân tích biểu hiện protein (Analysis of protein expression) ◼ Phân tích các đột biến trong ung thư (Analysis of mutations in cancer ◼ Dư đoán cấu trúc protein (Prediction of protein structure) ◼ So sánh genome (Comparative genomics ◼ Mô hình hóa các hệ thống sinh học (Modeling biological systems) ◼ Phân tích hình ảnh quy mô lớn (High-throughput image analysis) ◼ Nghiên cứu tương tác protein (Protein-protein interaction Machine learning: ◼ Phát triển các phần mềm và công cụ (Software and tools) 1.2. Nhiệm vụ của bioinformatics Microarray 1. Phân tích biểu hiện gene ◼ Microarray kết hợp với high throughput (HT) mass spectrometry (MS) có thể cung cấp một bức tranh về sự có mặt của các protein trong một mẫu sinh học ◼ CSDL về microarray và MS là vô cùng cần thiết 2. Phân tích các đột biến trong ung thư 3. Dự đoán cấu trúc phân tử protein ◼ Các đột biến điểm: tạo ra các gen đột biến có thể dẫn đến ung thư. ◼ Các bậc cấu trúc protein ◼ Các nhà tin sinh học tạo ra các hệ thống để quản lý các dữ ◼ Phát triển các thuốc điều trị mới liệu trình tự và phát triển các thuật toán để so sánh các trình ◼ Phát triển các enzyme mới tự này nhằm phát hiện các đa hình ◼ Thuật toán cũng như các phần mềm, độ chính xác của cấu trúc của rất hạn chế ◼ Các thư viện SNPs là một trong những kho dữ liệu để phân tích các đột biến điểm. 7
  10. 3. So sánh genome 4. Mô phỏng, mô hình hóa hệ thống sinh học ◼ Nghiên cứu mối quan hệ giữa cấu trúc và chức năng genome của các loài khác nhau. ◼ Sử dụng các thuật toán, các cấu trúc dữ liệu, hiển thị và các công cụ ◼ Tìm kiếm gene là một trong những ứng dụng quan trọng trong nghiên cứu so sánh giao tiếp để xây dựng, mô phỏng các hệ thống sinh học, tạo ra một genome (phát hiện các vùng, yếu tố mã hóa, không mã hóa…) mạng lưới các con đường trao đổi chất (enzyme, dẫn truyền tín hiệu, ◼ So sánh genome sẽ cho biết sự giống và khác nhau về các protein (kết hợp với các mạng lưới điều hòa) nghiên cứu thực nghiệm) để phát hiện chức năng và cơ chế sinh học. ◼ So sánh genome cũng phát hiện được vai trò của các gene điều hòa và các vùng ◼ Mô phỏng các hệ thống sống đơn giản (hoạt động tế bào, dạng sống điều hòa ở các SV khác nhau. → Xác định được chức năng của các yếu tố trong đơn giản) genome. 6. Protein docking 5. Phân tích hình ảnh (High-throughput image analysis) ◼ Cho đến nay hơn 10.000 cấu trúc 3 chiều của protein đã được xác định bằng các kỹ thuật kết tinh và cộng hưởng từ hạt nhân, nhiễu xạ tia X. ◼ Câu hỏi đặt ra là các phân tử này sẽ tương tác với nhau như thế nào trong ◼ Sử dụng công nghệ máy tính để xử lý tự động lượng lớn của các không gian nếu chỉ dựa vào cấu trúc 3 D? hình ảnh (mang nhiều thông tin) sử dụng trong y học và chẩn đoán. ◼ Hiển thị các bản đồ, cấu trúc phân tử protein ở mức phân giải cao 7. Phân tích toàn bộ trình tự genome Các công cụ so sánh trình tự Nhận dạng và dự đoán các gene và các yếu tố khác (Ab initio gene prediction) Phân tích các EST Phân tích đa hình 8. Phân tích các con đường trao đổi chất và điều hòa Các hồ sơ (profilling) về biểu hiện gene (thư viện microarray) Proteomic Các mạng lưới trao đổi chất và điều hòa 8
  11. 8. Thao tác với các dữ liệu phức tạp 1.3. Xu hướng phát triển ◼ Tư phân tích trình tư genome đến việc điều trị ◼ Thuật toán và các thách thức trong khoa học máy tính ◼ Tương tác protein và các con đương chuyển hóa ◼ Phân tích chức năng protein ◼ Ứng dụng trong nghiên cứu và lâm sàng Các hướng nghiên cứu của bioinformatics Các công cụ của bioinformatics Sequence BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi alignment CS-BLAST ftp://toolkit.lmb.uni-muenchen.de/csblast/ ◼ Phân tích trình tự sinh học (tìm trình tự giống nhau, tương đồng, so sánh HMMER http://hmmer.janelia.org/ FASTA www.ebi.ac.uk/fasta33 trình tự) Multiple sequence MSAProbs http://msaprobs.sourceforge.net/ ◼ Mô tả genome (đánh dấu các gene và các thành phần cấu trúc của alignment DNA Alignment http://www.fluxus-ngineering.com/align.htm MultAlin http://multalin.toulouse.inra.fr/multalin/multalin.html genome trên các NST) DiAlign http://bibiserv.techfak.uni-bielefeld.de/dialign/ ◼ Nghiên cứu sự biểu hiện của nhiều gene (đo các mức độ phiên mã Gene Finding GenScan genes.mit.edu/GENSCAN.html GenomeScan http://genes.mit.edu/genomescan.html mRNA sử dụng các kỹ thuật: microarray, xác định trình tự các EST GeneMark http://exon.biology.gatech.edu/ (expressed cDNA), phân tính sự biểu hiện hàng loạt gene (SAGE). Khai thác dữ liệu (Data mining) Protein Domain Pfam http://pfam.sanger.ac.uk/ BLOCKS http://blocks.fhcrc.org/ ProDom http://prodom.prabi.fr/prodom/ ◼ Khai thác các kiến thức, hiểu biết từ các CSDL lớn current/html/home.php ◼ Tìm ra các mô hình hoặc mối liên quan giữa các dữ liệu (tìm công cụ, vật Pattern Gibbs Sampler http://bayesweb.wadsworth.org/gibbs/gibbs.html liệu trong kho) Identification AlignACE http://atlas.med.harvard.edu/ ◼ Ứng dụng MEME http://meme.sdsc.edu/ Genomic SLAM http://bio.math.berkeley.edu/slam/ Analysis Multiz http://www.bx.psu.edu/miller_lab/ Motif finding MEME/MAST http://meme.sdsc.edu eMOTIF http://motif.stanford.edu 9
  12. CSDL sinh học Danh sách các CSDL trình tự sơ cấp 1. Trình tự DNA thô (raw) 2. Trình tự protein 3. Cấu trúc các đại phân tử sinh học 4. Các genome 5. Biểu hiện gene 6. Các CSDL khác: Các công trình nghiên cứu (Literature) Các con đường trao đổi chất (Metabolic pathways) Thăm các CSDL trình tự sinh học NCBI (sử dụng Internet) http://www.ncbi.nlm.nih.gov/ EMBL DDBJ http://www.ebi.ac.uk/embl/ http://www.ddbj.nig.ac.jp/ 10
  13. Ensembl UCSC http://www.ensembl.org/index.html http://www.ensembl.org/index.html 11
  14. 1/6/2019 Nền tảng sinh học của Axit nucleic Bioinformatics 1. Axit nucleic 2. Protein 3. Cấu trúc gen của prokaryote và eukaryote 4. Phiên mã và dịch mã 1 2 Tổ chức của genome Axit nucleic ADN 3 4 http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html Câu hỏi ? 1. Thế nào là nucleotide? 2. Phân tử DNA có 2 sợi. Sợi nào sẽ được phiên mã? 3. Sợi DNA mang nghĩa (sense/coding) và đối nghĩa (antisense/ anti coding)? 4. Quá trình phiên mã diễn ra theo hướng nào? và bắt đầu từ đầu nào của phân tử DNA antisense? 5. Quá trình dịch mã được diễn ra từ chiều nào của sợi mRNA? 6. Trình tự axit amin của chuỗi peptid được tổng hợp được bắt đầu từ chiều nào, đầu C hay N tận cùng? Nucleotide 5 6 1
  15. 1/6/2019 Sợi mang nghĩa và sợi đối nghĩa (sense and antisense) Một trình tự DNA được gọi là mang nghĩa (sense/ coding) nếu trình tự của nó giống hệ với trình tự của một phân tử mRNA (được dịch mã thành protein) Trình tự của sợi còn lại được gọi là đối nghĩa (antisense/ anti coding). sense ATGCTCATCGATC 5‘ 3‘ 3‘ 5‘ TACGAGTAGCTAG antisense AUGCUCAUCGAUC 5‘ 3‘ mRNA 7 8 Một số trình tự DNA ở prokaryote, eukaryote, plasmid và nhiều virus khó Cả hai trình tự sense và antisense đều tồn tại ở những phần khác phân biệt được khái niệm sợi mang nghĩa và sợi đối nghĩa vì có hiện nhau của cùng một sợi DNA (nói cách khác cả 2 sợi đều chứa các tượng các chồng gen (overlapping gene). trình tự sense và antisense). Trong những trường hợp này một số trình tự DNA có thể mã hóa cho sense một protein trên sợi này và một protein khác trên sợi kia (theo chiều 5‘ 3‘ ngược lại) 3‘ 5‘ NH3+ antisense mRNA 5‘ 3‘ 3‘ Ở cả prokaryote và eukaryote các trình tự antisense RNA đều được 5‘ 3‘ 5‘ tạo ra nhưng chức năng chưa rõ. Có khả năng các antisense RNA liên quan đến việc điều hòa quá trình biểu hiện gen thông qua tương tác 5‘ 3‘ RNA-RNA. NH3+ mRNA 9 10 Số lượng gene: Human Genome Project Phân loại các RNA ◼ Năm 1999, dự đoán có khoảng hơn 100.000 mã hóa cho protein. Tuy nhiên thực tế chỉ có khoảng hơn 20.000 gene được xác định (2004). ◼ Có bao nhiêu loại RNA? ◼ Sau năm 2004, các hướng tiếp cận bioinformatics kết hợp với việc các nghiên cứu genome đã kiểm tra các transcriptome, xác định ◼ Nguồn gốc của các RNA? trình tự các thư viện cDNA, thử nghiệm (tạo ra các RNA ức chế các ◼ Ý nghĩa của việc nghiên cứu các RNA? miRNA còn gọi là antagomir). Có rất nhiều các bản phiên mã (transcript) không mã hóa cho protein, những bản phiên mã này bao gồm các snoRNA và miRNA. 11 12 2
  16. 1/6/2019 RNA mã hóa (mRNA) RNA RNA thông tin (mRNA) là RNA mang thông tin từ DNA đến ribosome để thực hiện quá trình dịch mã. • Ribonucleic acid (RNA) là một Trình tự mRNA quyết định trình tự amino acid trong phân tử protein polymer bao gồm các nucleotide. • RNA hoạt động trung gian giữa được tạo ra. DNA và sinh tổng hợp protein. • Có 2 loại RNA: RNA mã hóa (mRNA) và RNA không mã hóa (non-coding RNA) • Rất nhiều các RNA không mã hóa cho protein (khoảng 97% ở eukaryote) 13 14 Các RNA không mã hóa (non-coding RNA) rRNA Những RNA không mã hóa protein (non-coding RNA) có thể được mã hóa bởi các gene mã hóa cho non-coding RNA, hoặc cũng có ◼ rRNA là thành phần RNA cấu tạo nên ribosome. thể từ các mRNA intron. ◼ rRNA có tính bảo thủ rất cao ở tất cả các tế bào. Các gene mã Non-coding RNA bao gồm: hóa cho rRNA (rDNA) có trình tự rất giống nhau ở các sinh vật 1. rRNA trong cùng một taxon. Do đó, hàng nghìn trình tự rRNA được biết 2. tRNA và lưu trữ trong các CSDL đặc thù. 3. snRNA (small nuclear RNA) ◼ Tại Bỉ, CSDL về trình tự rRNA được lưu trữ bao gồm CSDL về các 4. miRNA (micro RNA) SSU (small subunit) và LSU (large subunit) của rRNA. 5. snoRNA (small nucleolar RNA) 6. ribozyme 15 16 tRNA rRNA prokaryote và eukaryote ◼ Là phân tử RNA nhỏ (74-95 nu) có vai trò vận chuyển Loại Kích thước Đơn vị lớn Đơn vị nhỏ aa. Prokaryote 70S 50S (5S; 23S) 30S (16S) Eukaryote 80S 60S (5S; 5,8S; 28S) 40S (18S) ◼ tRNA gắn aa ở đầu 3‘ (aminoacyl tRNA synthetase) ◼ Mỗi loại tRNA gắn với chỉ 1 loại aa. Các rRNA liên quan đến các cơ chế kháng kháng sinh. Chẳng hạn rRNA ◼ Tính thoái hóa của mã di truyền (nhiều bộ ba cùng mã 1 70S của vi khuẩn bị tấn công bởi chloramphenicol, trong khi rRNA 80S của eukaryote không bị ảnh hưởng gì. aa). Do đó có nhiều tRNA khác nhau mang các vùng đối rRNA có vai trò quan trọng trong phân tích mối quan hệ di truyền của mã khác nhau có thể mang cùng một loại aa. các sinh vật trong quá trình tiến hóa. Trên thực tế người ta thường so sánh trình tự của các gene mã hóa 16S (vi khuẩn), 18S, 23S ở 17 (eukaryote) để đánh giá mối quan hệ họ hàng. 18 3
  17. 1/6/2019 Genes mã hóa cho tRNA Số lượng gene mã hóa cho tRNA rất khác nhau ở các sinh vật C. elegans: 620 gene mã hóa cho tRNA trong tổng số 29.647 gene (2,09%) S. Cerevisiae: 275/ ? H. sapien: 4.421 (non-coding RNA gene)/ 27.161 22 tRNA gene ở ty thể 497 tRNA gene ở nhân mã hóa cho các tRNA ở tế bào chất 324 tRNA có nguồn gốc từ các gene giả (pseudogenes) Cấu trúc tRNA http://en.wikipedia.org/wiki/TRNA 19 20 snoRNA • Small nucleolar RNAs (snoRNAs): là một lớp các phân tử RNA nhỏ có snRNA (small nuclear rRNA) vai trò giúp cho các quá trình cải biến hóa học của các RNA khác, chủ yếu là rRNA, tRNA và snRNA. • Có 2 nhóm snoRNA: ⚫ snRNA là một lớp của các phân tử RNA nhỏ tìm thấy ở trong C/D box snoRNA: liên quan đến quá trình methyl hóa nhân của eukaryote. snRNA được phiên mã bởi RNA pol II. H/ACA box: liên quan đến quá trình pseudouridyl hóa ⚫ snRNA liên quan đến quá trình loại bỏ intron khỏi các pre-mRNA • Ở động vật có xương sống, các gene snoRNA nằm trong các vùng intron (hn RNA), điều hòa phiên mã và duy trì các telomere. của các protein liên quan đến tổng hợp ribosome hoặc các protein tham ⚫ Các snRNA thường kết hợp với các protein để tạo thành phức gia trong quá trình dịch mã. Các snoRNA được tổng hợp bởi RNA pol hợp snRNP (small nuclear ribonucleoprotein). II hoặc III (snoRNA không có mặt ở bacteria) ⚫ Một nhóm lớn trong số các snRNA là snoRNA (small nuleolar). pseudouridyl (Ψ) hóa là quá trình tạo ra các dạng đồng phân của uridine (glycosyl) trong phân tử RNA dưới sự xúc tác của các enzym gọi là Ψ 22 21 synthases. miRNA miRNAs được tạo ra từ gene hoặc từ các intron ◼ MicroRNAs (miRNAs) là các phân tử RNA có chiều dài trung bình 22 nucleotide. ◼ miRNA là các yếu tố điều hòa sau phiên mã. Các miRNA gắn bổ sung với các trình tự ở vùng không được dịch mã (3' UTRs) của phân tử mRNA đích. Kết quả thường dẫn đến làm gene không hoạt động (không có sản phẩm gene). ◼ Genome người có khoảng hơn 1000 miRNAs phân bố ở nhiều loại tế bào. Mỗi loại miRNA có thể ức chế hoạt động của hàng trăm mRNA. ◼ MiRNA có tính bảo thủ cao ở các sinh vật eukaryote, được cho là có vai trò sống còn liên quan đến quá trình điều hòa biểu hiện gen. miRNP: Ribonucleoprotein complex 23 24 4
  18. 1/6/2019 RNA genome Break !!! ◼ Giống như DNA, RNA có thể mang thông tin di truyền. Ví dụ: Các virus RNA có genome là RNA mã hóa cho nhiều protein. ◼ Các viroid là nhóm chỉ chứa RNA vòng, ở dạng trần không có vỏ (capsid). RNA của viroid không mã hóa bất kì protein nào và được sao chép bởi các polymerase của tế bào chủ. ◼ RNA sợi kép (dsRNA): là RNA có 2 sợi bổ sung giống như DNA. dsRNA là genome của một số dsRNA virus. Các dạng dsRNA chẳng hạn như RNA virus hoặc siRNA có thể gây ra quá trình RNA inteference ở eukaryote. 26 25 Where am I? Trình tự nucleotide trên các NST đã được xác định ATGCTACATCGATACGGTAATGCATGCATCAGTACTACTACGTACGCCGTAATGCTACATCAGATACGGTAATGCATGCATCAGTACT TACGATGTAGCTATGCCATTACGTACGTAGTCATGATGATGCATGCGGCATTACGATGTAGTCTATGCCATTACGTACGTAGTCATGA 200 km 800 km 1700 km Thanh Hóa Quy Nhơn TP HCM Huế Ga Hà Nội Vinh Đà Nẵng Nha Trang 27 Cấu trúc genome 28 Cấu trúc gene prokaryote và eukaryote Watson (2004) Molecular biology of the gene So sánh mật độ gen trên NST ở các sinh vật khác nhau (1 vùng DNA genome có chiều dài 65 kb) Số lượng các gen được mã hóa bên trong cùng một đơn vị chiều dài DNA giảm dần khi mà tính phức tạp của Watson (2004) Molecular biology of the gene sinh vật tăng lên. 29 30 5
  19. 1/6/2019 Intergenic region Khái niệm gene? Intergenic region (IGR) là một vùng trình tự DNA định vị ở giữa các cụm ◼Gene: một đoạn DNA nằm trên NST mã hóa cho một hoặc nhiều gene (clusters of genes). IGR có thể chứa ít hoặc không có gene nào. protein/ RNA. ◼ Gene có nhiều loại:  Gene tạo ra sản phẩm là protein, tRNA, rRNA: Gen cấu trúc  Gene kiểm soát sự biểu hiện và mức độ biểu hiện của các gene khác: Gene điều hòa  Một số gene cần thiết phải được biểu hiện ở tất cả các mô: House keeping 1. Người ta vẫn cho rằng các IGR là những „junk“ DNA. gene. (Liên quan đến quá trình sinh tổng hợp protein). 2. Phần lớn chức năng của các IGR vẫn chưa rõ. Trong một số it  Các gene khác chỉ biểu hiện ở những tế bào, mô nhất đinh: Gene đặc hiệu trường hợp IGR tham gia điều khiển các gene xung quanh, mô. Chẳng hạn gene mã hóa insulin chỉ biểu hiện ở tế bào tuyến tụy 3. Ở người, các IGR chiếm một phần lớn trong genome. Có thể (pancreatic β-cells). các RNA không mã hóa định vị trong những vùng IGR, và vì Tóm lại cho dù thực hiện chức năng nào thì tất cả các gene chứa một vậy các IGR có thể tham gia điều hòa biểu hiện gene. vùng mã hóa để tạo ra một chuỗi polypeptide hoặc một phân tử RNA. 4. Cần phân biệt rõ IGR và intron (intragenic) 31 32 Gene và hoạt động của gene ở prokaryote Cấu trúc gene của prokaryote Vùng Promoter 1. Mật độ gene cao (ít hoặc không có intron) • Shine-Dalgarno box (AGGAGG) • Pribnow box (TATAAT) • Vị trí -35 (TTGACA) 2. Các gene thường tập trung trong một cụm gọi là operon. Terminator 3. Có 1 loại RNA polymerase chịu trách nhiệm tổng hợp tất cả các 5’ 3’ loại RNA 4. Quá trình phiên mã diễn ra đơn giản không đòi hỏi các giai đoạn ORF Start codon Stop codon xử lý sau phiên mã 5. Quá trình dịch mã diễn ra đơn giản không hoặc ít đỏi hỏi các cải biến sau dịch mã 33 34 Cấu trúc gene Prokaryote Một số khái niệm Promoter: Vùng nucleotide thông báo cho việc khởi đầu phiên mã. Pribnow box Terminator: Vùng nucleotide thông báo dừng quá trình phiên mã. 5‘ -35 -10 Shine-Dalgarno +1 3‘ TTGACA TATAT AGGAGG ATG TAG/TAA/TGA ORF: Một đoạn DNA có khả năng mã hóa cho một protein. AUG UAG/UAA/UGA Việc tìm ra ORF là dấu hiệu đầu tiên chỉ ra rằng đoạn DNA Start codon Stop codon Vùng nhận dạng Vị trí gắn của RNA pol của RNA pol đó có thể là một phần của một gene. Promoter 35 36 6
  20. 1/6/2019 So sánh trình tự vùng promoter ở E.coli ◼ Trình tự vùng promoter rất đa dạng ◼ RNA polymearase nhận ra nhiều trình tự promoter khác nhau 37 38 Monocistronic & polycistronic mRNA ◼ 1 phân tử mRNA được coi là monocistronic khi nó chỉ chứa thông tin mRNA 3‘ để dịch mã cho duy nhất 1 phân tử protein. Hầu hết các mRNA của 5‘ eukaryote thuộc loại này. ◼ Polycistronic mRNA mang thông tin của một số gene, các gene này sẽ được dịch mã thành nhiều proteins (operon). Hầu hết các mRNA tìm thấy ở vi khuẩn và vi khuẩn cổ ở dạng polycistronic. ◼ Dicistronic hoặc bicistronic: mRNA mã hóa cho 2 protein 39 40 Promoter: mạnh § yếu RecA promoter là một promoter mạnh RecA promoter TTGATA……16……TATAAT TTGACA……17……TATAAT Các promoter yếu: Có độ tương đồng thấp với vùng trình tự của TATA box và vùng trình tự -35. Khoảng cách giữa 2 vùng trình tự không phải là 17 nucleotide. Mỗi lần phiên mã cách nhau khoảng 10 phút (E.coli). Các promoter mạnh: Có độ tương đồng cao với TATA box và vùng -35 Mỗi lần phiên mã cách nhau 2s (E.coli) Cần thiết một số yếu tố khác 41 42 7
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2