MỤC TIÊU MÔN HỌC
• Về kiến thức : trang bị kiến thức tin học ứng
dụng trong công nghệ sinh học như:
– cơ sở dữ liệu (CSDL) sinh học
phân tử,
TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) http://fair.conf.vn/lang/bioinf
– phương pháp phân tích các trình tự sinh học bằng các thuật toán tin học.
– một số hướng nghiên cứu mới của thế giới liên quan đến tin sinh học.
PGS.TS. Trần Văn Lăng Email: langtv@vast.vn
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
• Định hướng nghề nghiệp : Giải quyết những vấn đề cơ sở của sinh học phân tử đặt ra cho: – công nghệ sinh học, – y học, – dược liệu học
• Về kỹ năng (thông qua giờ thực hành) : Sử dụng được một số phần mềm thông dụng trong việc: – so sánh các trình tự, – phân tích trình tự, – cây phát sinh loài, – truy cập đến các CSDL sinh học lớn để tìm kiếm
sự tương đồng giữa các trình tự sinh học
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4
1
NỘI DUNG
• Phương pháp gióng hàng (bắt cặp) hai và
• Những khái niệm cơ bản
nhiều trình tự sinh học,
về tin sinh học
• Phương pháp BLAST trong việc tìm kiếm sự tương đồng các trình tự sinh học từ các ngân hàng trình tự.
• Cách thức khai thác một số ngân hàng dữ liệu lớn về trình tự sinh học như NCBI, EMBL, DDJB, PDB
TÀI LIỆU HỌC TẬP
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6
• Cách thức sử dụng một số
• Trần Linh Thước, et al,
phần mềm thông dụng đề thiết kế mồi, lập bản đồ enzyme, về cây phát sinh loài
Thực tập Bioinformatics, tài liệu lưu hành nội bộ của Khoa Sinh học, Trường ĐHKHTH, 2012.
• Một số hướng nghiên cứu mới trong lĩnh vực tin sinh học đang được thế giới quan tâm.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8
2
TÀI LIỆU ĐỌC THÊM
TÀI LIỆU ĐỌC THÊM
• Trần Văn Lăng , Ứng
• Nguyễn Văn Cách , Tin – Sinh học, Nxb. Khoa học Kỹ thuật, 2008, 144tr (eBook)
dụng Tin học trong việc giải quyết một số bài toán của Sinh học phân tử. Nxb. Giáo dục, 2008, 230tr.
TÀI LIỆU HỌC TẬP
TÀI LIỆU THAM KHẢO
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10
• Robert John, Introduction to Bioinformatics
http://macdevcenter.com/pub/a/mac/2004/06 /11/bioinformatics.html, 2004.
• Arthur M. Lesk, Introduction to
• Trần Nhân Dũng , Nguyễn Vũ Linh, Giáo trình Tin sinh học, Nxb. Đại học Cần Thơ, 2011, 168tr.
Bioinformatics, Oxford University Express, 2002 (eBook)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12
3
PHẦN MỀM HỖ TRỢ
• Blast: http://blast.ncbi.nlm.nih.gov/Blast.cgi
• A.D. Baxevanis, B.F F. Ouellette,
Bioinformatics: A practical guide to the analysis of genes and proteins, Third Edition, 2005, http://books.google.com.vn
• Cynthia Gibas, Per Jabeck, Developing
Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA, 2001,http://books.google.com.vn
Tương tự Clsutal
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14
• http://www.ebi.ac.uk/Tools/msa/
• Protein alignments: Clustal Omega
• DNA alignments: MUSCLE or MAFFT
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16
4
Bắt cặp đa trình tự
TreeView
• http://www.ebi.ac.uk/Tools/psa/
• http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
AnnHyb
BioEdit
• http://www.mbio.ncsu.edu/BioEdit/bioedit.html
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18
• http://www.bioinformatics.org/annhyb
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20
5
http://www.bioinformatics.org/sms2
Chương 1: GIỚI THIỆU VỀ TIN SINH HỌC
Who am I ?
NỘI DUNG
• Assoc. Prof. Tran Van Lang, PhD.
• Born: 18 Dec 1959, Quang Tri, Vietnam • Residence: Saigon, Vietnam • Nationality: Vietnam
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22
• Lịch sử
• Fields: Computer Science
– High Performance Parallel and Distributed Computing
• Định nghĩa
– Bioinformatics – Scientific Computation Methods Institutions: Vietnam Academy of Science and Technology
• Sự cần thiết • Một số khái niệm cơ bản
• • Alma mater:
– HCM University of Natural Science (1977) – Dorodnitsyn Computing Center (1991)
• And: I have two daughters
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24
6
1.1 Lịch sử
• Một trong những nền tảng cơ bản của sinh
• Tất cả vật thể sống (living
học đó là tế bào (cell).
thing), bao gồm con người, đều được tạo thành từ tế bào.
• DNA chứa các gene mã hóa RNA mà nó sẽ sinh ra các protein, để từ đó điều chỉnh tất cả các quá trình phát triển của một sinh vật.
• Chẳng hạn, với con người có khoảng 100 ngàn tỷ = 1014 tế bào (100 trilion cells).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26
• Chẳng hạn, mỗi tế bào người có 46 nhiễm sắc thể, được tổ chức thành 23 cặp.
• Bên trong mỗi tế bào có nhân (nucleus) để lưu trữ tất cả các chỉ thị di truyền (genetic instruction) hay thông tin di truyền (genetic information) - ngoại trừ hồng huyết cầu trưởng thành (mature red blood cell).
• Mỗi nhiễm sắc thể được
• Những chỉ thị này là chức
cấu thành bởi một phân tử DNA dài (gọi là một trình tự DNA)
năng của tế bào, và cũng để phân biệt cá thể này với cá thể khác.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28
7
• Những trình tự DNA này cấu tạo bởi các base
A, C, G, và T.
• Có khoảng 3 tỷ cặp base cho một phân tử
DNA.
• Những base này bắt cặp và xếp chồng với nhau tạo thành một dạng thang xoắn gấp (twisted ladder) hay một dạng xoắn kép (double helix)
• Một gene là một đoạn của DNA với trình tự base đặc trưng – cụ thể, gọi là mã di truyền (genetic code) để xác định chức năng của tế bào (hay là physical trait – nét vật chất) • Mỗi nhiễm sắc thể có khoảng 30.000 gene
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30
• Như vậy,
– Mỗi tế báo có nhiều nhiễm sắc thể, mỗi nhiễm
sắc thể là một trình tự DNA
– Những mã di truyền nằm trong trình tự DNA này
• Số lượng gene quá lớn, trong khi đó sự hiểu biết của con người về trình tự gene mã hóa thành một protein cụ thể lại quá cơ bản.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32
8
Ngoài ra,
• Chẳng hạn, chúng ta thiếu thông tin cần thiết
• Sự đột biến (mutation) là sự thay đổi một hay
nhiều base trong phân tử DNA.
để hiểu một cách đầy đủ – về vai trò của DNA trong rất nhiều căn bệnh – chức năng của những protein được sản sinh ra.
• Điều này có thể dẫn đến sự biến đổi đặc trưng (trait) hoặc dẫn đến bệnh di truyền – Chẳng hạn, màu mắt
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34
• Nó sẽ mang nhiễm sắc thể có đột biến này
• Sự đột biến có thể được chuyển xuống các
thế hệ sau từ cha mẹ.
lắm ghép với nhiễm sắc thể số 7 bình thường của tế bào trứng.
• Chẳng hạn, có đột biến ở nhiễm sắc thể số 7
• Từ đó tạo ra một tế bào mới, gọi là hợp tử
trong tế bào tinh trùng.
(zygote), rồi phát triển thành phôi (embryo), mà trong đó có đột biến ở nhiễm sắc thể số 7.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36
9
Kết luận
Bioinformatics
• Sự sống đang tồn tại vô cùng phong phú và
đa dạng
• Mà hiểu biết của con người quá ít ỏi.
• Từ đó cần: các phương pháp để tập hợp, lưu
trữ, khôi phục, phân tích
• Một ngành mới ra đời để tìm mối tương quan của một lượng khổng lồ thông tin phức tạp được nhóm lại trong một ngành gọi là BIOINFORMATICS (Tin sinh học hay Sinh tin học)
Chức năng chính của tin sinh học
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38
• Xây dựng các ngân hàng dữ liệu để lưu trữ
• Mục đích của nó là cung cấp cho những nhà
và quản lý dữ liệu sinh học phân tử
• Tìm ra các phương pháp để xác định mối quan hệ về mặt sinh học giữa các dữ liệu.
khoa học cách thức lý giải: – sự tiến triển sinh học bình thường – trục trặc trong quá trình phát triển này dẫn đến
bệnh tật
– cách thức tiếp cận để cải thiện, điều trị
• Xây dựng các công cụ để phân tích từ đó có những hiểu biết rõ hơn về nguồn dữ liệu sinh học.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40
10
• 1869: Friedrich Meischer, người Thụy Sĩ khám phá ra trong nhân tế bào chất có tính acid, Ông ta gọi đò là Nuclein hay Nucleic acid
LỊCH SỬ PHÁT TRIỂN TIN SINH HỌC
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42
• 1915: Hai cha con
nghiên cứu về tinh thể học, cùng nhận giải Nobel Vật Lý 1915.
• Họ có đóng góp trong
việc tạo ra X-rays
• 1891: Albrecht Kossel, người Đức đã thủy phân và xác định Nucleic acid có đường, phosphate và 4 base hữu cơ, và có 2 loại là DNA và RNA • Nhận giải Nobel Sinh lý
năm 1910
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44
11
(Nguồn: http://http://www.netsci.org)
• 1930: Arne Wilhelm Kaurin Tiselius
• Nhận giải Nobel về hóa học 1948
(Stockholm) sử dụng kỹ thuật điện di (electrophoresis) để đưa ra giải pháp phân tách protein trong luận án tiến sĩ "The moving-boundary method of studying the electrophoresis of proteins" (published in Nova Acta Regiae Societatis Scientiarum Upsaliensis, Ser. IV, Vol. 7, No. 4)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46
• 1951: Linus Carl Pauling và
Robert Brainard Corey (US) đề nghị cấu trúc cho xoắn alpha (alpha-helix) và dãi beta (beta- sheet) trong Proc. Natl. Acad. Sci. USA, 27: 205-211, 1951 và Proc. Natl. Acad. Sci. USA, 37: 729-740, 1951.
• Từ đó có “Pauling -Corey
structure of DNA”
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48
12
• 1952: Alexander R. Todd, nhà nghiên cứu sinh hóa người Scotland, tìm ra cấu trúc của đơn vị thành phần Nucleotide của Nucleic acid.
• Nhận giải Nobel Hóa học
• 1953: James Dewey Watson (US) và Francis Harry Compton Crick (UK) đề nghị mô hình xoắn kép của DNA
1957
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50
• Watson, Crick,
Wilkins nhận giải Nobel Sinh lý học năm 1962
• Mô hình này có được trên cơ sở hình chụp x-ray của DNA được nhận bởi Rosalind Franklin và Maurice Wilkins (Nature, 171: 737-738, 1953).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52
13
• 1954: Perutz's group phát triển phương pháp nguyên tử nặng (heavy atom) để giải quyết vấn đề nhiều giai đoạn trong việc mô tả hình thể protein.
• 1955: Frederick Sanger (UK) thông báo trình tự protein đầu tiên được phân tích - bovine insulin.
• Nhận giải Nobel hóa học 1958, 1980
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54
• 1958: (Tin học) Mạch tích hợp điện tử đầu tiên được xây dựng bởi Jack Kilby (US)
• Nhận giải Nobel Vật lý năm 2000.
• Cũng năm 1958, Tổ chức Advanced
Research Projects Agency (ARPA) được thành lập ở US
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56
14
• 1965: Margaret Belle (Oakley) Dayhoff (US) khởi động việc xây dựng tập bản đồ (atlas) của trình tự và cấu trúc protein.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58
• 1969: Mạng ARPANET được tạo ra bằng
cách nối các máy tính của Stanford University, UCSB, The University of Utah và UCLA lại với nhau.
• 1968: (Tin học) Giao thức mạng chuyển mạch gói (packet-switching network protocols) được trình diễn bởi ARPA
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60
15
• 1971: Raymond Samuel Tomlinson phát
• 1970: Chi tiết của thuật toán Needleman - Wunsch về việc so sánh các trình tự được xuất bản.
minh ra email, hiện thực đầu tiên trên mạng ARPANET.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62
• 1972: Phân tử DNA tái tổ hợp (recombinant DNA) đầu tiên được tạo ra bởi Paul Berg (US) và nhóm của ông ta
• Margaret Dayhoff xây dựng Protein
• Paul Berg nhận giải Nobel Hóa học 1980 cùng với Sanger và Gilbert
Sequence Database (PSD)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64
16
• 1973: Protein Data Bank ở Brookhaven
National Laboratories được công bố (Acta. Cryst.B, 1973, 29: 1746).
• 1973: Stanley Cohen phát minh ra việc nhân
• Stanley Cohen
bản DNA. Nhận giải Nobel Y khoa 1986
nhận giải Nobel Y học 1986
• 1973: Robert Melancton Metcalfe (US) đưa ra Ethernet trong luận án tiến sĩ của mình.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66
• 1975: Microsoft Corporation được thành lập
bởi Bill Gates và Paul Allen.
• 1975: E. M. Southern công bố phương pháp để phát hiện của một chuỗi DNA cụ thể trong các mẫu DNA gọi là Southern Blot (J. Mol. Biol., 98: 503-517, 1975).
• 1974: Vint Cerf và Robert Kahn phát triển khái niệm kết nối mạng các máy tính thành "internet”; đồng thời phát triển giao thức TCP Transmission Control Protocol TCP).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68
17
• 1981: Thuật toán Smith-Waterman về việc bắt cặp trình tự (sequence alignment) được công bố
• 1981: IBM giới thiệu máy tính cá nhân
(Personal Computer) ra thị trường
• 1980: Trình tự gene đầy đủ đầu tiên của một sinh vật (Bacteriophage FX174) được công bố; nó bao gồm 5.386 cặp base trong đó có 9 mã protein.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70
• 1983: Phản ứng PCR
(Polymerase Chain Reaction) được mô tả bởi Kary Banks Mullis (US, nhận giải Nobel Hóa học 1993) và đồng nghiệp.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72
18
• 1984: Hãng Apple công bố máy tính
• 1985: Thuật toán FASTP được công bố bởi
Macintosh
Lipman và Pearson
• National Center for Biotechnology Information (NCBI) được thành lập.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74
• 1986: Thuật ngữ "Genomics" xuất hiện lần đầu tiên để mô tả các nguyên tắc khoa học của việc sắp xếp (mapping), phân tích trình tự gene. Thuật ngữ này được đặt ra bởi Thomas Roderick thông qua tên của một tạp chí
• 1987: Perl (Practical Extraction Report Language) được đưa ra bởi Larry Wall
• Cơ sở dữ liệu SWISS -PROT được tạo bởi Department of Medical Biochemistry, University of Geneva và European Molecular Biology Laboratory (EMBL).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76
19
• 1988: Bản đồ vật lý của E.coli được công bố
• 1990: Chương trình BLAST program
• Sáng kiến về dự án gene người được khởi
(Altschul, et al.) được hiện thực
động
• Đặc tả HTTP 1.0 được công bố. Tim
• Thuật toán FASTA để so sánh trình tự được
công bố bởi Pearson và Lipman.
Berners-Lee công bố văn bản HTML đầu tiên.
• Des Higgins, Paul Sharpe thông báo phát
triển phần mềm CLUSTAL
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78
• 1991: CERN thông báo tạo ra giao thức để
• 1992: Human Genome Systems được hình
hiện thực World Wide Web.
thành bởi William Haseline.
• Linus Torvalds công bố về hệ điều hành
giống như Unix, sau này có tên gọi là Linux.
• The Institute for Genome Research (TIGR) được thành lập bởi Craig Venter ở Rockville.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 79 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 80
20
• 1995: Sun Microsystems đưa ra version 1.0 của ngôn ngữ Java. Sun và Netscape đưa ra version 1.0 của JavaScript
• Haemophilus influenzea và Mycoplasma
• 1994: The PRINTS database of protein motifs được công bố bởi Attwood và Beck
genitalium genome được giải trình tự
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82
• 1996: Affymetrix là chip
DNA thương mại đầu tiên.
• 1997: The genome for E. coli(4.7 Mbp) được công bố.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 84
21
• 1998: The Swiss Institute of Bioinformatics
• 2001: The human
được thành lập như một tổ chức phi lợi nhuận.
genome (3.000 Mbp) được công bố.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86
• Khám phá cơ chế điều hòa hệ thống vận chuyển trong tế bào.
• Qua đó giải mã được những bí ẩn về cách thức các tế bào tổ chức hệ thống vận chuyển
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 87 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 88
22
• Giải Nobel năm 2013 ba nhà khoa học đã
• Các tín hiệu hóa học được gọi là tín hiệu dẫn truyền thần kinh được gửi từ một tế bào thần kinh này đến tế bào thần kinh khác.
• Các phân tử này được vận chuyển xung
giải mã được bí ẩn về cách thức các tế bào tổ chức hệ thống vận chuyển của nó.
• Mỗi tế bào là một nhà máy sản xuất và xuất
khẩu sản phẩm là các phân tử.
• Chẳng hạn, insulin được sản xuất và xuất
vào máu
quanh tế bào trong các gói nhỏ được gọi là túi. Họ đã phát hiện ra các nguyên lý phân tử quản lý cách thức vận chuyển hàng hóa đến đúng nơi và đúng lúc trong tế bào [http://www.nobelprize.org/nobel_prizes/med icine/laureates/2013/press.html]
Nobel Y Sinh 2014
Nobel 2015
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 89 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 90
• Không có gì đặc sắc cho giải Nobel sinh lý học năm 2015. Giải này trao cho ba nhà khoa học: – Ông William C. Campbell (Đại học Drew, New
Jersey, Mỹ),
• Khám phá ra khả nẳng tế bào tạo thành một
– Ông Satoshi Omura (Đại học Kitasato, Tokyo,
Nhật Bản)
hệ thống định vị trong não.
– Bà Tu Youyou (Học viện Y học cổ truyền Trung
Quốc)
• Từ đó giải mã khả năng định hướng trong không gian của động vật và và con người.
• Về bệnh sốt rét và mù vĩnh viễn.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 91 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 92
23
• Trong khi đó giải Nobel về Hóa học có giá trị về Sinh học rất cao
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 93 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 94
• Ba nhà khoa học (Omas Lindahl - Thụy
• Viện HK Khoa học Thụy Điển công bố:
“Nghiên cứu này giúp cung cấp những tri thức vô cùng quan trọng về chức năng của tế bào, đồng thời mở ra những phương pháp mới trong điều trị ung thư”
Điển, Paul Modrich - Mỹ và Aziz Sancar - Thổ Nhĩ Kỳ) được trao giải cho công trình nghiên cứu về cơ chế sửa chữa DNA trong tế bào, nhằm ngăn chặn những lỗi bất thường xảy ra đối với thông tin di truyền (genetic information).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 95 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 96
24
Như chúng ta biết
• Một đoạn thang xoắn của DNA được tách ra, một RNA thông tin (mRNA - một đoạn thang đơn đặc biệt) tiếp hợp với đoạn vừa tách ra này để copy “bản thiết kế” rồi đi ra khỏi nhân tế bào
• Một trong những chức năng quan trọng của DNA đó là lưu trữ các bản thiết kế từ đó giúp các tế bào tạo ra vô vàn protein trong cơ thể của một sinh linh.
• Từ đó mang tới nơi sản xuất Protein – đó là
các Riboxom không nằm trong nhân.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 97 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 98
• Như vậy DNA là “bản thiết kế gốc” được lưu
trữ trong mỗi tế bào chuyên biệt
MỘT SỐ KẾT QUẢ GẦN ĐÂY
• Đồng thời, có một chương trình để kiểm soát và sửa chữa kịp thời các sai sót trong quá trình nhân bản và hoạt động tạo ra sự sống (protein) sử dụng “bản thiết kế gốc” này
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 99 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 100
25
3/2013
• Tạo ra phôi người:
– Shoukhrat Mitalipov, một nhà nghiên cứu của Oregon Health & Science University, tại Mỹ, cùng các đồng nghiệp đã áp dụng kỹ thuật nhân bản vô tính để tạo ra phôi thai người.
– Lấy các tế bào da trên cơ thể một em bé 8 tháng tuổi rồi đặt nhân của tế bào này vào bên trong trứng (của phụ nữ tình nguyện cung cấp) mà họ đã bỏ nhân.
– Sau đó dùng điện để kích thích trứng phát triển thành phôi thai. – Từ đó tế bào gốc được chiết xuất
ra
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 101 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 102
• Nhóm này đã lấy tế bào gốc trên phôi thai và
• Giới khoa học lấy tế bào gốc, hay tế bào
kiểm tra.
mầm từ phôi thai người. Tuy nhiên, một bộ phận học giả và dư luận phản đối việc khai thác tế bào gốc từ phôi thai vì cho rằng đó là hành động vô đạo đức.
• Mitalipov thông báo: kết quả cho thấy những tế bào gốc đó có thể biến thành mọi loại tế bào như tế bào thần kinh, tế bào gan và tế bào tim.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 103 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 104
26
• Vì thế, trong nhiều năm qua, các nhà khoa
học đã cố gắng tìm kiếm những giải pháp để tạo ra nguồn cung cấp tế bào mầm khác để thay thế phôi thai. – Kết quả của nhóm ở Đại học Y tế và Khoa học
Oregon có giá trị do cách tiếp cận này
Shinya Yamanaka và John Gurdon đoạt giải Nobel Y học 2012 khám phá sự tái lập trình của tế bào (tái tạo) để trở thành đa năng
18/6/2013
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 105 106
• Thuốc này có tác dụng gây ức chế PLK4,
một loại enzyme có vai trò quan trọng trong việc phân chia tế bào, đặc biệt là các tế bào ung thư.
• Tiến sĩ Tak Mak, Canada cho biết nhóm nghiên cứu của ông (tại Princess Margaret Cancer Centre) phát triển thuốc CFI- 400.945
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 107 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 108
27
28/6/2013
• Nhóm nghiên cứu tại Trung tâm Riken
BioResource, TP Tsukuba, tỉnh Ibaraki, Nhật Bản dẫn đầu bởi nhà khoa học Atsuo Ogura.
• Kỹ thuật: lấy máu từ đuôi một con chuột rồi phân lập bạch huyết cầu, sau đó chuyển nhân của bạch huyết cầu sang một tế bào trứng mà họ đã bỏ nhân.
Đã dùng một tế bào máu trong hệ tuần hoàn của một chú chuột để tạo ra bản sao của chính nó.
Tế bào trứng phát triển thành một con chuột cái. Con chuột này sinh trưởng bình thường và đẻ một số con.
12/9/2013
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 109 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 110
• Tế bào gốc đa năng (iPS), một dạng tế bào
• Một nhóm các nhà khoa học Nhật Bản thuộc Viện nghiên cứu Riken, Viện nghiên cứu Y Sinh và Bệnh viện Sáng tạo ở Kobe đã cấy ghép thành công tế bào võng mạc được phát triển từ các tế bào gốc đa năng cho một phụ nữ khoảng 70 tuổi
gốc do GS. Shinya Yamanaka phát triển, có thể sinh trưởng để thành các mô khác nhau trên cơ thể người
• Đây là lần đầu tiên các tế bào gốc đa năng được đưa vào cơ thể người thông qua phẫu thuật.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 111 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 112
28
21/9/2015
• Người ta đặt tên là Bacillius F; qua phân
tích, phát hiện ra vi khuẩn này không những sống lâu mà còn có thể được dùng để kéo dài sự sống của những loài khác.
• Các nhà khoa học người Nga đã phát hiện loài vi khuẩn đang sống khỏe mạnh trong tầng băng vĩnh cửu tại nước Cộng hòa Sakha, vùng Siberia của Nga cách đây 3,5 triệu năm.
• Một vấn đề đặt ra là liệu loài vi khuẩn này là chìa khóa kéo dài sự sống của con người.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 113 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 114
• Họ đã cấy vào một số cơ quan của chuột,
• Bacillus F đã kích thích sự phát triển và hoạt động của hệ miễn dịch. Thử nghiệm trên tế bào hồng cầu và bạch cầu người cũng cho kết quả rất khả quan.
ruồi giấm và cây trồng. – Kết quả vi khuẩn đã tăng cường và thúc đẩy sự phát triển của hệ miễn dịch ở các cơ quan đó.
• Họ vẫn chưa biết chính xác cơ chế hoạt động
của nó mặc dù biết được sự tác động. – Từ đó họ cho rằng, có thể tồn tại những thứ bất tử ở đâu đó; chúng không thể chết và có thể tự bảo vệ mình trước mọi thứ.
• Các nhà khoa học tiếp tục nghiên cứu nhằm xác định chính xác gene nào quy định khả năng kỳ diệu nói trên của Bacillus F. Đây không phải là điều đơn giản, mà phức tạp giống như chữa bệnh ung thư vậy.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 115 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 116
29
1.2. Định nghĩa tin sinh học
• Lĩnh vực khoa học kết hợp giữa sinh học
(sinh học phân tử) và tin học.
• Sử dụng máy tính và tư duy thuật toán để
ĐỊNH NGHĨA TIN SINH HỌC
phân tích, rút trích thông tin và quản lý các dữ liệu liên quan đến sinh học phân tử. • Nói cách khác, giải quyết các bài toán nảy sinh từ sinh học phân tử sử dụng phương pháp luận của tin học.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 117 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 118
• Một số thuật ngữ sử dụng mang ý nghĩa
• Đôi khi người ta dùng “Sinh học tính toán” (Computational Biology) trong trường hợp muốn sử dụng các công cụ toán học, tin học để trích rút các thông tin hữu ích từ những dữ liệu hỗn độn.
chung như: – bioinformatics – computational biology – computational molecular biology – biocomputing
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 119 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 120
30
• Chẳng hạn,
– khai phá dữ liệu, – lắp ráp (assembly) những trình tự DNA chất
lượng cao từ các đoạn DNA ngắn thu nhận từ kỹ thuật xác định trình tự DNA (shotgun sequencing)
SỰ CẦN THIẾT
– dự đoán quy luật điều hòa gen (gene regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry)
1.3 Sự cần thiết
Một số ngân hàng dữ liệu
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 121 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 122
• GenBank
• EMBL (European Molecular Bioinformatic
Laboratory)
• Swissprot
• Phát triển các cơ sở dữ liệu về thông tin sinh học là một nhiệm vụ quan trọng, để có được một kho lưu trữ lớn.
• PDB (Protein Databank)
• Nhiều cơ sở dữ liệu sinh học lớn trên thế giới
• SCOP (Strutural Classification Of Proteins
đã hình thành và phát triển.
Database)
• PRINTS (Protein Motif fingerprint database)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 123 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 124
31
• Với các ngân hàng dữ liệu, giúp:
– Tìm kiếm các gene trên các trình tự DNA ở các
sinh vật khác nhau.
– Tập hợp các trình tự có sự tương đồng cao vào các lớp chung, từ đó đưa ra cấu trúc protein.
– Phát triển các phương pháp nhằm dự đoán cấu trúc, chức năng của các protein mới được phát hiện (Hình vẽ).
– So sánh các trình tự protein tương đồng và thành
lập cây phả hệ mô tả mối quan hệ tiến hóa.
!
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 125 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 126
• Chẳng hạn,
• Ngoài việc phát triển các ngân hàng dữ liệu để lưu trữ (CSDL), còn có việc giải mã để hiểu biết và hiệu chỉnh.
– bệnh Alzheimer bị biến dị làm đột biến 4 gen thuộc các nhiễm sắc thể số 1, 14, 19, 21.
– Nhưng trong các nhiễm sắc thể này thì gen nào
• Đây là những vấn đề lớn, đòi hỏi sự hợp tác
quyết định sự biến dị đó.
của nhiều ngành.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 127 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 128
32
• Người ta chỉ biết sự thể hiện (triệu chứng): người bị Alzheimer có sự mất tế bào thần kinh và giảm thể tích những vùng não chi phối trí nhớ - vùng đảm nhận tâm thần kinh
• Dưới kính hiển vi điện tử, khi xem xét mô não về tế bào học thấy có tổn thương về mặt sinh học, – đó là sự thoái hóa của các sợi dây thần kinh, – hoặc bị tổn thương chỉ còn là những ống nhỏ • Từ đó ngăn cản vận chuyển chất dinh dưỡng
nuôi tế bào thần kinh
– Những chất này nằm xung quanh các tế bào
thần kinh chết,
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 129 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 130
• Nghiên cứu tiếp, thấy rằng:
– Một loại protein có tên Amyloid precursor (APP) cũng tồn tại ở đây giúp cho hoạt động hủy hoại tế bào thần kinh của Beta Amyloid
– Vấn đề này liên quan đến một protein tên là Tau. – Và sự xuất hiện protein beta Amyloid - không hòa tan nên tích tụ thành những mảng keo.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 131 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 132
33
• Sự có mặt quá nhiều của Beta Amyloid sẽ làm giảm chất trung gian dẫn truyền thần kinh acetylcholine cần thiết cho trí nhớ.
• Beta Amyloid cũng ngăn chặn sự vận
• Beta Amyloid là một peptide có từ 36 – 43 amino acid
chuyển ion kali, natri, calcium qua màng tế bào (giúp cho quá trình truyền tín hiệu thần kinh)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 133 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 134
• Vấn đề đặt ra là với những biểu hiện như
• Người ta thấy rằng trên nhiễm sắc thể 19 có một gene có ý nghĩa y tế rất lớn, nó được gọi là gene APOE; trình tự DNA của gene này gồm 897 chữ.
vậy, liệu con người có thể có những hiểu biết để kiểm soát quá trình phát triển này.
• Nucleotid thứ 334 thường là A, nhưng trong một số người lại là G. Những người này có khả năng lớn sẽ bị bệnh Alzheimer.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 135 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 136
34
• Từ đó hướng đến việc
• Vấn đề lớn đối với tin sinh học hiện nay là
– chuyển đổi thông tin trình tự sinh học sang các tri
thức hóa sinh và lý sinh;
làm sao để các thông tin về các trình tự sinh học phục vụ thiết thực hơn nữa cho sự sống, không dừng ở mức độ lưu trữ thông tin.
– giải mã các đầu mối tiến hóa; – chẩn đoán cấu trúc và chức năng của các cơ thể
sống.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 137 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 138
• Bệnh này được đặt tên từ hình dạng của các
tế bào máu
• Chẳng hạn, với bệnh tế bào thiếu máu hình
lưỡi liềm (sickle cell amenia),
• Đây là một bệnh di truyền ảnh hưởng đến
• Trong một điều kiện nào đó hồng huyết cầu (red blood cell) bị biến dạng thành hình lưỡi liềm
Hemoglobin hay Haemoglobin (huyết sắc tố) – phân tử vận chuyển dưỡng khí (oxygen) trong máu.
• và tế bào này kéo dài ra làm cho một số mạch máu nhỏ của cơ thể không nhận đủ lượng oxy cần thiết.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 139 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 140
35
• Bệnh này được gây ra bởi một sự thay đổi mã chữ cái trong trình tự DNA, nó làm cho một amino acid của protein hemoglobin là Glutamic acid bị thay bởi Valine.
• Valine làm cho các phân tử hemoglobin dính lại cùng nhau, hình thành các sợi dài bóp méo hình dạng của các hồng huyết cầu, dẫn đến tình trạng người khỏe mạnh bình thường trở nên thiếu máu trầm trọng.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 141 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 142
• Như vậy, Với DNA trên mạch GAG (CTC) khi phiên mã sang mRNA sẽ là GAG (đây là amino acid có tên Glutamic acid).
• Tuy nhiên, do sự biến đổi, GAG thay bởi
GTG (CAC), và được phiên mã sang mRNA thành GUG. Mà đó là một amino acid có tên là Valine.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 143 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 144
36
• Với người nghiên cứu về tin học:
– Protein như một bài văn, – Mà các câu văn là các trình tự Peptide – Những từ của câu văn đó là các Amino acid – Các chữ cái là A, C, G, T dùng để tạo nên từ
• Vấn đề làm sao biết quy tắc văn phạm để
tạo nên câu, tạo nên bài văn.
1.4. Một số khái niệm cơ bản
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 145 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 146
• Đại phân tử sinh học: hay đa phân tử sinh
học (biopolymer) là một đa phân tử (polymer) có trong các cơ thể sống.
• Có 4 đại phân tử không thể thiếu để hình
thành nên cơ thể sống; đó là:
MỘT SỐ KHÁI NIỆM CƠ BẢN
Một chút về lịch sử
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 147 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 148
37
• Protein
• Về mặt tổ chức, đây là
• Nucleic acid
• Quan trọng hơn cả là:
• Polysaccharide • Lipid
những hợp chất cấu tạo nên từ nhiều phân tử cùng hoại, gọi là đơn phân tử (monomer)
– Nucleic acid: lưu trữ thông tin di truyền – Protein: biểu hiện của vật chất sống
• Chúng liên kết với nhau bằng liên kết cộng hóa trị.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 149 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 150
• Còn:
• Một đặc điểm quan trọng là cấu trúc và tính chất hoá lý của các Nucleic acid, Lipid, Polysaccharide tương đối đồng nhất,
– Polysaccharide: tham gia cấu tạo tế bào, là
• Nhưng Protein lại đa dạng về cấu trúc và
nguồn dự trữ năng lượng chính
chức năng.
– Lipid: thành phần của màng tế bào, được cấu tạo từ các acid béo; là nhân tố chính để hình thành các màng sinh học.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 151 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 152
38
• Ngoài ra, như đã nói ở trên, tất cả các đại
• Chẳng hạn,
– Nucleic acid được hình thành từ nucleotide, các
nucleotide này bao gồm phosphate, đường pentose và base hữu cơ
phân tử sinh học đều được cấu thành từ một số đơn vị cấu tạo đơn giản và kết nối với nhau rất chặt chẽ đó là các đơn phân tử (monomer).
– Protein được hình thành từ các amino acid – Polysaccharide được hình thành từ các
monosaccharide
Nucleic acid
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 153 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 154
• Thực chất Nucleic acid là vật chất mang thông tin di truyền của các cơ thể sống, được hình thành từ các phân tử nucleotide.
• Mỗi nucleotide gồm 3 thành phần:
NUCLEIC ACID
– Phosphate – Đường Pentose – Và một Base hữu cơ
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 155 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 156
39
• Đại phân tử Nucleic acid gồm 2 loại đa phân
• Do các Nucleotide chỉ khác nhau ở thành
tử giống nhau: – DNA: Deoxyribonucleic Acid – RNA: Rebonucleic Acid
phần Base hữu cơ,
• Nên thỉnh thoảng người ta thường dùng thuật
ngữ Base thay cho Nucleotide.
Deoxyribonucleic Acid
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 157 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 158
• Đại phân tử DNA là chuỗi xoắn
kép gồm 2 mạch đơn, mỗi mạch đơn là một chuỗi nucleotide.
DEOXYRIBONUCLEIC ACID
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 159 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 160
40
Deoxyribonucleic Acid
• Các nucleotide trong một mạch đơn liên kết
với nhau bằng liên kết cộng hóa trị – là liên kết được hình thành giữa đường của
• Chuỗi nucleotide của DNA bao gồm
nucleotide này với phosphate của nucleotide kế tiếp.
• Hai mạch đơn liên kết với nhau bằng liên kết
– Phosphate, – Đường Desoxyribose – Và một trong 4 base hữu cơ là Adenine (A), Cytosine (C), Guanine (G) và Thymine (T).
hydro hình thành giữa các base – là tương tác tĩnh điện yếu giữa phần tử Hydro
mang điện tích dương với phần tử mang điện tích âm
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 161 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 162
• Lưu ý rằng, do DNA là một chuỗi xoắn kép
• Trong hai mạch đơn liên kết với nhau thì: – G của mạch này liên kết với C của mạch kia – A của mạch này liên kết với T của mạch kia
và liên kết giữa 2 chuỗi được thông qua liên kết giữa A-T và C-G.
• Nên trong trình tự DNA người ta thường gọi
AT và CG là các cặp base (base pair).
• Từ đó, chiều dài của trình tự DNA thường
được đo bằng base pase (bp)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 163 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 164
41
Cấu trúc DNA
• Do các Nucleotide chỉ khác nhau thành phần
base hữu cơ,
• Nên đại phân tử DNA như là một trình tự sinh học (Biology sequence) gồm các base là: – A (Adenine), – C (Cytosine), – G (Guanine), – T (Thymine).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 165 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 166
• Điều này rất thuận lợi khi biểu diễn các đại
C5H5N5
C5H6N2O2
phân tử DNA trên máy tính bằng chuỗi ký tự chứa bốn ký tự chữ A, C, G, T
• Như vậy, với một chuỗi nucleotid được người
nghiên cứu về tin học coi đó như là một chuỗi gồm 4 ký tự chữ như trên
C5H5N5O
C4H5N3O
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 167 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 168
42
• Khi đó, số lượng chuỗi nuleotide sẽ rất lớn – Ví dụ, một chuỗi có 10
nucleotide, thì số loại DNA khác nhau là 410 = 220 = 1.048.576
REBONUCLEIC ACID
Ribonucleic Acid
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 169 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 170
• Đại phân tử RNA tương tự DNA nhưng có 3
điểm khác nhau: – Là chuỗi xoắn đơn – Đường Pentose là Ribose – Thymine được thay bởi Uracil (U)
• Trong tế bào có 3 loại RNA chính, tham gia vào quá trình dịch mã sang protein: – mRNA (messenger RNA) – tRNA (transfer RNA) – rRNA (ribosomal RNA
C4H4N2O2
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 171 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 172
43
• mRNA: là các RNA thông
• tRNA: là các RNA vận chuyển, đóng vai trò vận chuyển các amino acid đến bộ máy dịch mã để tổng hợp ra protein từ mRNA tương ứng.
tin. – Đây chính là các bản sao của các trình tự trên DNA, nhằm chuyển thông tin mã hóa trên DNA đến bộ máy giải mã protein tương ứng.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 173 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 174
• rRNA: là các RNA của risbosome, rRNA này
chiếm phần lớn tổng số RNA của tế bào. • Ribosome là một thành phần trong bộ máy dịch mã của tế bào, được tạo thành bằng cách kết hợp rRNA với protein
PROTEIN
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 175 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 176
44
Amino acid
• Cấu trúc bao gồm
• Amino acid được cấu thành từ các base trên
– một nguyên tử carbon ở trung tâm, nguyên tử carbon này được gắn với nguyên tử Hydro và được gọi là nguyên tử C-α (α-carbon)
trình tự DNA,
• Có tất cả 20 Amino acid chính
– Nguyên tử C-α liên kết với 3 thành phần khác là nhóm amino (NH2), nhóm carboxylic (COOH) và gốc amino acid ký hiệu là R
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 177 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 178
• Các gốc amino acid khác nhau sẽ tạo ra các amino acid với tính chất hóa học khác nhau. • Chẳng hạn, với amino acid: Alanine, Serine
• Trình tự các base trên DNA quyết định trình
tự amino acid trên protein tương ứng.
• Mỗi amino acid có 3 base, nên với 4 base A, C, G, T sẽ có số lượng amino acid lý thuyết là 43 = 64 (gọi là 64 codon)
Alanine
Serine
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 179 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 180
45
• Margaret Oakley Dayhoff
• Tuy nhiên, hiện nay chỉ phát hiện được 20 amino acid với mã di truyền như hình.
(American Physical Chemist, pioneer in Bioinformatics) đề xuất dùng one-letter code để mã hóa 20 amino acid này.
Bảng mã ký tự của 20 amino acid
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 181 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 182
• Nên có hơn 1 codon mã
hóa một amino acid.
• Bảng mã di truyền chuẩn được Marshall Warren Nirenberg (Giải Nobel Y học 1968) và Matthaei đưa ra năm 1961 như hình
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 183 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 184
46
Mã di truyền
Bảng 20 amino acid
• Theo bảng mã này:
– chỉ có 61 codon chứa thông tin (mã hóa amino
acid cụ thể)
– 3 codon: UAA, UAG, UGA là dấu hiệu kết thúc – Codon AUG vừa là amino acid có tên Methionine
(Met) vừa là dấu hiệu bắt đầu
Công thức hóa học của 20 amino acid
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 185 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 186
• Trong 20 amino acid này có 9 amino acid gọi là thiết yếu • Bởi nó không thể được tạo ra trực tiếp từ cơ thể con người,
• Mà được cung cấp thông qua
nguồn thực phẩm dinh dưỡng từ bên ngoài.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 187 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 188
47
• 9 amino acid thiết yếu đó là: histidine, isoliucine, leucine, lysine, methionine, phenylalanine, threonine, tryptophan, valine.
CHUỖI PEPTIDE
Liên kết peptide (Peptide bond)
Chuỗi peptide
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 189 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 190
• Là liên kết giữa đầu Carboxylic (COOH) của
• Là chuỗi không nhiều hơn 50 amino acid
amino acid này với đầu amin (NH 2) của amino acid khác và loại bỏ đi một phân tử nước (H2O)
trong đó các amino acid này liên kết với nhau theo liên kết peptide.
• Một đầu của chuỗi là nhóm amino (H 3N+) và
một đầu là nhóm carboxylic (COO -)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 191 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 192
48
• Khi có nhiều hơn 50 amino acid người ta hay
gọi đó là chuỗi polypeptide.
• Nên thực chất: chuỗi polypeptide là một chuỗi gồm nhiều chuỗi peptid; nó dài và không phân nhánh.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 193 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 194
• Liên kết peptide trong cấu trúc bậc một của
protein là một liên kết đặc biệt, – mạnh hơn liên kết đơn nhưng lại yếu hơn liên kết
• Nhờ tính linh động này, phân tử protein có thể tự xoay quanh trục của nó một góc nhỏ.
đôi.
• Điều này có ý nghĩa đặc biệt quan trọng
trong việc hình thành cấu trúc bậc cao của protein.
• Chính điều này đã tạo cho các liên kết trong chuỗi peptide vừa có tính ổn định của một liên kết đôi, vừa có tính linh động của một liên kết đơn.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 195 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 196
49
Cấu trúc bậc I
• Do amino acid là các đơn phân tử cấu thành nên protein, nên chuỗi peptid hay polypeptide là protein.
CẤU TRÚC PROTEIN
• Trong trường hợp chỉ quan tâm đến các liên kết peptide trong chuỗi này, ta có cấu trúc bậc 1 của protein (protein primary structure)
Cấu trúc bậc II
Cấu trúc bậc III
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 197 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 198
• Khi các amino acid gần nhau liên kết
• Ngoài các liên kết hydro để tạo ra cấu trúc bậc II, các nhóm amino acid trên chuỗi polypeptide còn liên kết lại cùng nhau.
với nhau thông qua liên kết hydro giữa nhóm amin (NH) của amino acid này với nguyên tử Oxy của amino acid khác sẽ tạo nên vòng xoắn của chuỗi polypeptide.
• Chẳng hạn, các Cystein sẽ liên kết với nhau, hoặc các Proline liên kết với nhau để hình thành nên các nhóm riêng.
• Khi đó có cấu trúc bậc II của protein
(secondary structure)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 199 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 200
50
Cấu trúc bậc IV
• Khi có nhiều hơn một chuỗi polypeptite với
• Khi đó tạo nên cấu trúc
các cấu trúc bậc III được liên kết với nhau, sẽ tạo nên cấu trúc protein bậc IV (Quaternary structure)
không gian (3 chiều) của tất cả các nguyên tử trong phân tử protein. Gọi là cấu trúc bậc III (Protein tertiary structure)
Tổng kết
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 201 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 202
• Protein chiếm phần lớn cấu trúc của tế bào và hành động như những enzyme xúc tác vào các phản ứng tế bào
• Có 20 amino acid, và 9 trong số đó là rất cần
thiết cho chế độ ăn uống của con người.
• Tổng hợp : amino acid, peptid bond, protein
GIẢI TRÌNH TỰ (SEQUENCING)
structure
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 203 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 204
51
CODON
– Có tất cả 64 codon, trong đó có
• Như đã có
– Bộ ba mã hóa (codon) đóng vai trò dịch mã tế
bào
1 codon mở đầu là AUG (gọi là start codon), gọi là Methionine đóng vai trò mở đầu của quá trình dịch mã 3 codon (UAA, UAG, UGA) gọi là codon kết thúc (stop codon)
– Mỗi codon mã hóa cho một amino acid để cấu
còn lại 61 codon mã hóa cho 20 amino acid.
tạo nên đại phân tử protein
ORF
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 205 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 206
• Open Reading Frame – ORF
• Trong quá trình dịch mã, phân tử mRNA
– Là một đoạn trình tự DNA có khả năng dịch mã
thành một chuỗi polypeptide.
– Một ORF được bắt đầu bởi start codon và kết
thúc bởi stop codon
mang thông tin di truyền từ nhân ra ngoài tế bào chất với trình tự là các codon tương ứng với trình tự amino acid sắp được tổng hợp.
• Gene: là một ORF mã hóa cho một protein
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 207 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 208
52
Minh họa
Chẳng hạn
• Có thể truy cập trang web Sequence
Manipulation Siute (Ver 2.0) tại
http://www.bioinformatics.org/sms2
để thực hiện các thao tác liên quan đến trình tự sinh học.
Sau khi đã có trình tự, tìm ORF
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 209 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 210
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 211 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 212
53
Sequencing
• Mục đích là tìm ra nucleotide trong gene
• Frederick Sanger đưa ra phương pháp giải
trình tự vào năm 1977, gọi là Sanger Sequencing.
• Kĩ thuật phổ biến gọi là “chain termination“, sử dụng Defective DNA nucleotide (tức là nucleotide bị chỉnh sửa làm mất khả năng kết hợp thêm một nucleotide khác tại đầu 3′của nó)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 213 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 214