MỤC TIÊU MÔN HỌC

• Về kiến thức : trang bị kiến thức tin học ứng

dụng trong công nghệ sinh học như:

– cơ sở dữ liệu (CSDL) sinh học

phân tử,

TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) http://fair.conf.vn/lang/bioinf

– phương pháp phân tích các trình tự sinh học bằng các thuật toán tin học.

– một số hướng nghiên cứu mới của thế giới liên quan đến tin sinh học.

PGS.TS. Trần Văn Lăng Email: langtv@vast.vn

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY

• Định hướng nghề nghiệp : Giải quyết những vấn đề cơ sở của sinh học phân tử đặt ra cho: – công nghệ sinh học, – y học, – dược liệu học

• Về kỹ năng (thông qua giờ thực hành) : Sử dụng được một số phần mềm thông dụng trong việc: – so sánh các trình tự, – phân tích trình tự, – cây phát sinh loài, – truy cập đến các CSDL sinh học lớn để tìm kiếm

sự tương đồng giữa các trình tự sinh học

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4

1

NỘI DUNG

• Phương pháp gióng hàng (bắt cặp) hai và

• Những khái niệm cơ bản

nhiều trình tự sinh học,

về tin sinh học

• Phương pháp BLAST trong việc tìm kiếm sự tương đồng các trình tự sinh học từ các ngân hàng trình tự.

• Cách thức khai thác một số ngân hàng dữ liệu lớn về trình tự sinh học như NCBI, EMBL, DDJB, PDB

TÀI LIỆU HỌC TẬP

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6

• Cách thức sử dụng một số

• Trần Linh Thước, et al,

phần mềm thông dụng đề thiết kế mồi, lập bản đồ enzyme, về cây phát sinh loài

Thực tập Bioinformatics, tài liệu lưu hành nội bộ của Khoa Sinh học, Trường ĐHKHTH, 2012.

• Một số hướng nghiên cứu mới trong lĩnh vực tin sinh học đang được thế giới quan tâm.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8

2

TÀI LIỆU ĐỌC THÊM

TÀI LIỆU ĐỌC THÊM

• Trần Văn Lăng , Ứng

• Nguyễn Văn Cách , Tin – Sinh học, Nxb. Khoa học Kỹ thuật, 2008, 144tr (eBook)

dụng Tin học trong việc giải quyết một số bài toán của Sinh học phân tử. Nxb. Giáo dục, 2008, 230tr.

TÀI LIỆU HỌC TẬP

TÀI LIỆU THAM KHẢO

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10

• Robert John, Introduction to Bioinformatics

http://macdevcenter.com/pub/a/mac/2004/06 /11/bioinformatics.html, 2004.

• Arthur M. Lesk, Introduction to

• Trần Nhân Dũng , Nguyễn Vũ Linh, Giáo trình Tin sinh học, Nxb. Đại học Cần Thơ, 2011, 168tr.

Bioinformatics, Oxford University Express, 2002 (eBook)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12

3

PHẦN MỀM HỖ TRỢ

• Blast: http://blast.ncbi.nlm.nih.gov/Blast.cgi

• A.D. Baxevanis, B.F F. Ouellette,

Bioinformatics: A practical guide to the analysis of genes and proteins, Third Edition, 2005, http://books.google.com.vn

• Cynthia Gibas, Per Jabeck, Developing

Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA, 2001,http://books.google.com.vn

Tương tự Clsutal

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

• http://www.ebi.ac.uk/Tools/msa/

• Protein alignments: Clustal Omega

• DNA alignments: MUSCLE or MAFFT

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16

4

Bắt cặp đa trình tự

TreeView

• http://www.ebi.ac.uk/Tools/psa/

• http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

AnnHyb

BioEdit

• http://www.mbio.ncsu.edu/BioEdit/bioedit.html

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

• http://www.bioinformatics.org/annhyb

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

5

http://www.bioinformatics.org/sms2

Chương 1: GIỚI THIỆU VỀ TIN SINH HỌC

Who am I ?

NỘI DUNG

• Assoc. Prof. Tran Van Lang, PhD.

• Born: 18 Dec 1959, Quang Tri, Vietnam • Residence: Saigon, Vietnam • Nationality: Vietnam

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

• Lịch sử

• Fields: Computer Science

– High Performance Parallel and Distributed Computing

• Định nghĩa

– Bioinformatics – Scientific Computation Methods Institutions: Vietnam Academy of Science and Technology

• Sự cần thiết • Một số khái niệm cơ bản

• • Alma mater:

– HCM University of Natural Science (1977) – Dorodnitsyn Computing Center (1991)

• And: I have two daughters

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

6

1.1 Lịch sử

• Một trong những nền tảng cơ bản của sinh

• Tất cả vật thể sống (living

học đó là tế bào (cell).

thing), bao gồm con người, đều được tạo thành từ tế bào.

• DNA chứa các gene mã hóa RNA mà nó sẽ sinh ra các protein, để từ đó điều chỉnh tất cả các quá trình phát triển của một sinh vật.

• Chẳng hạn, với con người có khoảng 100 ngàn tỷ = 1014 tế bào (100 trilion cells).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

• Chẳng hạn, mỗi tế bào người có 46 nhiễm sắc thể, được tổ chức thành 23 cặp.

• Bên trong mỗi tế bào có nhân (nucleus) để lưu trữ tất cả các chỉ thị di truyền (genetic instruction) hay thông tin di truyền (genetic information) - ngoại trừ hồng huyết cầu trưởng thành (mature red blood cell).

• Mỗi nhiễm sắc thể được

• Những chỉ thị này là chức

cấu thành bởi một phân tử DNA dài (gọi là một trình tự DNA)

năng của tế bào, và cũng để phân biệt cá thể này với cá thể khác.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

7

• Những trình tự DNA này cấu tạo bởi các base

A, C, G, và T.

• Có khoảng 3 tỷ cặp base cho một phân tử

DNA.

• Những base này bắt cặp và xếp chồng với nhau tạo thành một dạng thang xoắn gấp (twisted ladder) hay một dạng xoắn kép (double helix)

• Một gene là một đoạn của DNA với trình tự base đặc trưng – cụ thể, gọi là mã di truyền (genetic code) để xác định chức năng của tế bào (hay là physical trait – nét vật chất) • Mỗi nhiễm sắc thể có khoảng 30.000 gene

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

• Như vậy,

– Mỗi tế báo có nhiều nhiễm sắc thể, mỗi nhiễm

sắc thể là một trình tự DNA

– Những mã di truyền nằm trong trình tự DNA này

• Số lượng gene quá lớn, trong khi đó sự hiểu biết của con người về trình tự gene mã hóa thành một protein cụ thể lại quá cơ bản.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

8

Ngoài ra,

• Chẳng hạn, chúng ta thiếu thông tin cần thiết

• Sự đột biến (mutation) là sự thay đổi một hay

nhiều base trong phân tử DNA.

để hiểu một cách đầy đủ – về vai trò của DNA trong rất nhiều căn bệnh – chức năng của những protein được sản sinh ra.

• Điều này có thể dẫn đến sự biến đổi đặc trưng (trait) hoặc dẫn đến bệnh di truyền – Chẳng hạn, màu mắt

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

• Nó sẽ mang nhiễm sắc thể có đột biến này

• Sự đột biến có thể được chuyển xuống các

thế hệ sau từ cha mẹ.

lắm ghép với nhiễm sắc thể số 7 bình thường của tế bào trứng.

• Chẳng hạn, có đột biến ở nhiễm sắc thể số 7

• Từ đó tạo ra một tế bào mới, gọi là hợp tử

trong tế bào tinh trùng.

(zygote), rồi phát triển thành phôi (embryo), mà trong đó có đột biến ở nhiễm sắc thể số 7.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

9

Kết luận

Bioinformatics

• Sự sống đang tồn tại vô cùng phong phú và

đa dạng

• Mà hiểu biết của con người quá ít ỏi.

• Từ đó cần: các phương pháp để tập hợp, lưu

trữ, khôi phục, phân tích

• Một ngành mới ra đời để tìm mối tương quan của một lượng khổng lồ thông tin phức tạp được nhóm lại trong một ngành gọi là BIOINFORMATICS (Tin sinh học hay Sinh tin học)

Chức năng chính của tin sinh học

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

• Xây dựng các ngân hàng dữ liệu để lưu trữ

• Mục đích của nó là cung cấp cho những nhà

và quản lý dữ liệu sinh học phân tử

• Tìm ra các phương pháp để xác định mối quan hệ về mặt sinh học giữa các dữ liệu.

khoa học cách thức lý giải: – sự tiến triển sinh học bình thường – trục trặc trong quá trình phát triển này dẫn đến

bệnh tật

– cách thức tiếp cận để cải thiện, điều trị

• Xây dựng các công cụ để phân tích từ đó có những hiểu biết rõ hơn về nguồn dữ liệu sinh học.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

10

• 1869: Friedrich Meischer, người Thụy Sĩ khám phá ra trong nhân tế bào chất có tính acid, Ông ta gọi đò là Nuclein hay Nucleic acid

LỊCH SỬ PHÁT TRIỂN TIN SINH HỌC

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

• 1915: Hai cha con

nghiên cứu về tinh thể học, cùng nhận giải Nobel Vật Lý 1915.

• Họ có đóng góp trong

việc tạo ra X-rays

• 1891: Albrecht Kossel, người Đức đã thủy phân và xác định Nucleic acid có đường, phosphate và 4 base hữu cơ, và có 2 loại là DNA và RNA • Nhận giải Nobel Sinh lý

năm 1910

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

11

(Nguồn: http://http://www.netsci.org)

• 1930: Arne Wilhelm Kaurin Tiselius

• Nhận giải Nobel về hóa học 1948

(Stockholm) sử dụng kỹ thuật điện di (electrophoresis) để đưa ra giải pháp phân tách protein trong luận án tiến sĩ "The moving-boundary method of studying the electrophoresis of proteins" (published in Nova Acta Regiae Societatis Scientiarum Upsaliensis, Ser. IV, Vol. 7, No. 4)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

• 1951: Linus Carl Pauling và

Robert Brainard Corey (US) đề nghị cấu trúc cho xoắn alpha (alpha-helix) và dãi beta (beta- sheet) trong Proc. Natl. Acad. Sci. USA, 27: 205-211, 1951 và Proc. Natl. Acad. Sci. USA, 37: 729-740, 1951.

• Từ đó có “Pauling -Corey

structure of DNA”

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

12

• 1952: Alexander R. Todd, nhà nghiên cứu sinh hóa người Scotland, tìm ra cấu trúc của đơn vị thành phần Nucleotide của Nucleic acid.

• Nhận giải Nobel Hóa học

• 1953: James Dewey Watson (US) và Francis Harry Compton Crick (UK) đề nghị mô hình xoắn kép của DNA

1957

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

• Watson, Crick,

Wilkins nhận giải Nobel Sinh lý học năm 1962

• Mô hình này có được trên cơ sở hình chụp x-ray của DNA được nhận bởi Rosalind Franklin và Maurice Wilkins (Nature, 171: 737-738, 1953).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

13

• 1954: Perutz's group phát triển phương pháp nguyên tử nặng (heavy atom) để giải quyết vấn đề nhiều giai đoạn trong việc mô tả hình thể protein.

• 1955: Frederick Sanger (UK) thông báo trình tự protein đầu tiên được phân tích - bovine insulin.

• Nhận giải Nobel hóa học 1958, 1980

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

• 1958: (Tin học) Mạch tích hợp điện tử đầu tiên được xây dựng bởi Jack Kilby (US)

• Nhận giải Nobel Vật lý năm 2000.

• Cũng năm 1958, Tổ chức Advanced

Research Projects Agency (ARPA) được thành lập ở US

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

14

• 1965: Margaret Belle (Oakley) Dayhoff (US) khởi động việc xây dựng tập bản đồ (atlas) của trình tự và cấu trúc protein.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

• 1969: Mạng ARPANET được tạo ra bằng

cách nối các máy tính của Stanford University, UCSB, The University of Utah và UCLA lại với nhau.

• 1968: (Tin học) Giao thức mạng chuyển mạch gói (packet-switching network protocols) được trình diễn bởi ARPA

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

15

• 1971: Raymond Samuel Tomlinson phát

• 1970: Chi tiết của thuật toán Needleman - Wunsch về việc so sánh các trình tự được xuất bản.

minh ra email, hiện thực đầu tiên trên mạng ARPANET.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

• 1972: Phân tử DNA tái tổ hợp (recombinant DNA) đầu tiên được tạo ra bởi Paul Berg (US) và nhóm của ông ta

• Margaret Dayhoff xây dựng Protein

• Paul Berg nhận giải Nobel Hóa học 1980 cùng với Sanger và Gilbert

Sequence Database (PSD)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

16

• 1973: Protein Data Bank ở Brookhaven

National Laboratories được công bố (Acta. Cryst.B, 1973, 29: 1746).

• 1973: Stanley Cohen phát minh ra việc nhân

• Stanley Cohen

bản DNA. Nhận giải Nobel Y khoa 1986

nhận giải Nobel Y học 1986

• 1973: Robert Melancton Metcalfe (US) đưa ra Ethernet trong luận án tiến sĩ của mình.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

• 1975: Microsoft Corporation được thành lập

bởi Bill Gates và Paul Allen.

• 1975: E. M. Southern công bố phương pháp để phát hiện của một chuỗi DNA cụ thể trong các mẫu DNA gọi là Southern Blot (J. Mol. Biol., 98: 503-517, 1975).

• 1974: Vint Cerf và Robert Kahn phát triển khái niệm kết nối mạng các máy tính thành "internet”; đồng thời phát triển giao thức TCP Transmission Control Protocol TCP).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

17

• 1981: Thuật toán Smith-Waterman về việc bắt cặp trình tự (sequence alignment) được công bố

• 1981: IBM giới thiệu máy tính cá nhân

(Personal Computer) ra thị trường

• 1980: Trình tự gene đầy đủ đầu tiên của một sinh vật (Bacteriophage FX174) được công bố; nó bao gồm 5.386 cặp base trong đó có 9 mã protein.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

• 1983: Phản ứng PCR

(Polymerase Chain Reaction) được mô tả bởi Kary Banks Mullis (US, nhận giải Nobel Hóa học 1993) và đồng nghiệp.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

18

• 1984: Hãng Apple công bố máy tính

• 1985: Thuật toán FASTP được công bố bởi

Macintosh

Lipman và Pearson

• National Center for Biotechnology Information (NCBI) được thành lập.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

• 1986: Thuật ngữ "Genomics" xuất hiện lần đầu tiên để mô tả các nguyên tắc khoa học của việc sắp xếp (mapping), phân tích trình tự gene. Thuật ngữ này được đặt ra bởi Thomas Roderick thông qua tên của một tạp chí

• 1987: Perl (Practical Extraction Report Language) được đưa ra bởi Larry Wall

• Cơ sở dữ liệu SWISS -PROT được tạo bởi Department of Medical Biochemistry, University of Geneva và European Molecular Biology Laboratory (EMBL).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

19

• 1988: Bản đồ vật lý của E.coli được công bố

• 1990: Chương trình BLAST program

• Sáng kiến về dự án gene người được khởi

(Altschul, et al.) được hiện thực

động

• Đặc tả HTTP 1.0 được công bố. Tim

• Thuật toán FASTA để so sánh trình tự được

công bố bởi Pearson và Lipman.

Berners-Lee công bố văn bản HTML đầu tiên.

• Des Higgins, Paul Sharpe thông báo phát

triển phần mềm CLUSTAL

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78

• 1991: CERN thông báo tạo ra giao thức để

• 1992: Human Genome Systems được hình

hiện thực World Wide Web.

thành bởi William Haseline.

• Linus Torvalds công bố về hệ điều hành

giống như Unix, sau này có tên gọi là Linux.

• The Institute for Genome Research (TIGR) được thành lập bởi Craig Venter ở Rockville.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 79 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 80

20

• 1995: Sun Microsystems đưa ra version 1.0 của ngôn ngữ Java. Sun và Netscape đưa ra version 1.0 của JavaScript

• Haemophilus influenzea và Mycoplasma

• 1994: The PRINTS database of protein motifs được công bố bởi Attwood và Beck

genitalium genome được giải trình tự

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82

• 1996: Affymetrix là chip

DNA thương mại đầu tiên.

• 1997: The genome for E. coli(4.7 Mbp) được công bố.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 84

21

• 1998: The Swiss Institute of Bioinformatics

• 2001: The human

được thành lập như một tổ chức phi lợi nhuận.

genome (3.000 Mbp) được công bố.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86

• Khám phá cơ chế điều hòa hệ thống vận chuyển trong tế bào.

• Qua đó giải mã được những bí ẩn về cách thức các tế bào tổ chức hệ thống vận chuyển

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 87 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 88

22

• Giải Nobel năm 2013 ba nhà khoa học đã

• Các tín hiệu hóa học được gọi là tín hiệu dẫn truyền thần kinh được gửi từ một tế bào thần kinh này đến tế bào thần kinh khác.

• Các phân tử này được vận chuyển xung

giải mã được bí ẩn về cách thức các tế bào tổ chức hệ thống vận chuyển của nó.

• Mỗi tế bào là một nhà máy sản xuất và xuất

khẩu sản phẩm là các phân tử.

• Chẳng hạn, insulin được sản xuất và xuất

vào máu

quanh tế bào trong các gói nhỏ được gọi là túi. Họ đã phát hiện ra các nguyên lý phân tử quản lý cách thức vận chuyển hàng hóa đến đúng nơi và đúng lúc trong tế bào [http://www.nobelprize.org/nobel_prizes/med icine/laureates/2013/press.html]

Nobel Y Sinh 2014

Nobel 2015

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 89 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 90

• Không có gì đặc sắc cho giải Nobel sinh lý học năm 2015. Giải này trao cho ba nhà khoa học: – Ông William C. Campbell (Đại học Drew, New

Jersey, Mỹ),

• Khám phá ra khả nẳng tế bào tạo thành một

– Ông Satoshi Omura (Đại học Kitasato, Tokyo,

Nhật Bản)

hệ thống định vị trong não.

– Bà Tu Youyou (Học viện Y học cổ truyền Trung

Quốc)

• Từ đó giải mã khả năng định hướng trong không gian của động vật và và con người.

• Về bệnh sốt rét và mù vĩnh viễn.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 91 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 92

23

• Trong khi đó giải Nobel về Hóa học có giá trị về Sinh học rất cao

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 93 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 94

• Ba nhà khoa học (Omas Lindahl - Thụy

• Viện HK Khoa học Thụy Điển công bố:

“Nghiên cứu này giúp cung cấp những tri thức vô cùng quan trọng về chức năng của tế bào, đồng thời mở ra những phương pháp mới trong điều trị ung thư”

Điển, Paul Modrich - Mỹ và Aziz Sancar - Thổ Nhĩ Kỳ) được trao giải cho công trình nghiên cứu về cơ chế sửa chữa DNA trong tế bào, nhằm ngăn chặn những lỗi bất thường xảy ra đối với thông tin di truyền (genetic information).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 95 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 96

24

Như chúng ta biết

• Một đoạn thang xoắn của DNA được tách ra, một RNA thông tin (mRNA - một đoạn thang đơn đặc biệt) tiếp hợp với đoạn vừa tách ra này để copy “bản thiết kế” rồi đi ra khỏi nhân tế bào

• Một trong những chức năng quan trọng của DNA đó là lưu trữ các bản thiết kế từ đó giúp các tế bào tạo ra vô vàn protein trong cơ thể của một sinh linh.

• Từ đó mang tới nơi sản xuất Protein – đó là

các Riboxom không nằm trong nhân.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 97 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 98

• Như vậy DNA là “bản thiết kế gốc” được lưu

trữ trong mỗi tế bào chuyên biệt

MỘT SỐ KẾT QUẢ GẦN ĐÂY

• Đồng thời, có một chương trình để kiểm soát và sửa chữa kịp thời các sai sót trong quá trình nhân bản và hoạt động tạo ra sự sống (protein) sử dụng “bản thiết kế gốc” này

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 99 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 100

25

3/2013

• Tạo ra phôi người:

– Shoukhrat Mitalipov, một nhà nghiên cứu của Oregon Health & Science University, tại Mỹ, cùng các đồng nghiệp đã áp dụng kỹ thuật nhân bản vô tính để tạo ra phôi thai người.

– Lấy các tế bào da trên cơ thể một em bé 8 tháng tuổi rồi đặt nhân của tế bào này vào bên trong trứng (của phụ nữ tình nguyện cung cấp) mà họ đã bỏ nhân.

– Sau đó dùng điện để kích thích trứng phát triển thành phôi thai. – Từ đó tế bào gốc được chiết xuất

ra

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 101 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 102

• Nhóm này đã lấy tế bào gốc trên phôi thai và

• Giới khoa học lấy tế bào gốc, hay tế bào

kiểm tra.

mầm từ phôi thai người. Tuy nhiên, một bộ phận học giả và dư luận phản đối việc khai thác tế bào gốc từ phôi thai vì cho rằng đó là hành động vô đạo đức.

• Mitalipov thông báo: kết quả cho thấy những tế bào gốc đó có thể biến thành mọi loại tế bào như tế bào thần kinh, tế bào gan và tế bào tim.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 103 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 104

26

• Vì thế, trong nhiều năm qua, các nhà khoa

học đã cố gắng tìm kiếm những giải pháp để tạo ra nguồn cung cấp tế bào mầm khác để thay thế phôi thai. – Kết quả của nhóm ở Đại học Y tế và Khoa học

Oregon có giá trị do cách tiếp cận này

Shinya Yamanaka và John Gurdon đoạt giải Nobel Y học 2012 khám phá sự tái lập trình của tế bào (tái tạo) để trở thành đa năng

18/6/2013

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 105 106

• Thuốc này có tác dụng gây ức chế PLK4,

một loại enzyme có vai trò quan trọng trong việc phân chia tế bào, đặc biệt là các tế bào ung thư.

• Tiến sĩ Tak Mak, Canada cho biết nhóm nghiên cứu của ông (tại Princess Margaret Cancer Centre) phát triển thuốc CFI- 400.945

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 107 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 108

27

28/6/2013

• Nhóm nghiên cứu tại Trung tâm Riken

BioResource, TP Tsukuba, tỉnh Ibaraki, Nhật Bản dẫn đầu bởi nhà khoa học Atsuo Ogura.

• Kỹ thuật: lấy máu từ đuôi một con chuột rồi phân lập bạch huyết cầu, sau đó chuyển nhân của bạch huyết cầu sang một tế bào trứng mà họ đã bỏ nhân.

Đã dùng một tế bào máu trong hệ tuần hoàn của một chú chuột để tạo ra bản sao của chính nó.

Tế bào trứng phát triển thành một con chuột cái. Con chuột này sinh trưởng bình thường và đẻ một số con.

12/9/2013

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 109 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 110

• Tế bào gốc đa năng (iPS), một dạng tế bào

• Một nhóm các nhà khoa học Nhật Bản thuộc Viện nghiên cứu Riken, Viện nghiên cứu Y Sinh và Bệnh viện Sáng tạo ở Kobe đã cấy ghép thành công tế bào võng mạc được phát triển từ các tế bào gốc đa năng cho một phụ nữ khoảng 70 tuổi

gốc do GS. Shinya Yamanaka phát triển, có thể sinh trưởng để thành các mô khác nhau trên cơ thể người

• Đây là lần đầu tiên các tế bào gốc đa năng được đưa vào cơ thể người thông qua phẫu thuật.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 111 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 112

28

21/9/2015

• Người ta đặt tên là Bacillius F; qua phân

tích, phát hiện ra vi khuẩn này không những sống lâu mà còn có thể được dùng để kéo dài sự sống của những loài khác.

• Các nhà khoa học người Nga đã phát hiện loài vi khuẩn đang sống khỏe mạnh trong tầng băng vĩnh cửu tại nước Cộng hòa Sakha, vùng Siberia của Nga cách đây 3,5 triệu năm.

• Một vấn đề đặt ra là liệu loài vi khuẩn này là chìa khóa kéo dài sự sống của con người.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 113 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 114

• Họ đã cấy vào một số cơ quan của chuột,

• Bacillus F đã kích thích sự phát triển và hoạt động của hệ miễn dịch. Thử nghiệm trên tế bào hồng cầu và bạch cầu người cũng cho kết quả rất khả quan.

ruồi giấm và cây trồng. – Kết quả vi khuẩn đã tăng cường và thúc đẩy sự phát triển của hệ miễn dịch ở các cơ quan đó.

• Họ vẫn chưa biết chính xác cơ chế hoạt động

của nó mặc dù biết được sự tác động. – Từ đó họ cho rằng, có thể tồn tại những thứ bất tử ở đâu đó; chúng không thể chết và có thể tự bảo vệ mình trước mọi thứ.

• Các nhà khoa học tiếp tục nghiên cứu nhằm xác định chính xác gene nào quy định khả năng kỳ diệu nói trên của Bacillus F. Đây không phải là điều đơn giản, mà phức tạp giống như chữa bệnh ung thư vậy.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 115 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 116

29

1.2. Định nghĩa tin sinh học

• Lĩnh vực khoa học kết hợp giữa sinh học

(sinh học phân tử) và tin học.

• Sử dụng máy tính và tư duy thuật toán để

ĐỊNH NGHĨA TIN SINH HỌC

phân tích, rút trích thông tin và quản lý các dữ liệu liên quan đến sinh học phân tử. • Nói cách khác, giải quyết các bài toán nảy sinh từ sinh học phân tử sử dụng phương pháp luận của tin học.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 117 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 118

• Một số thuật ngữ sử dụng mang ý nghĩa

• Đôi khi người ta dùng “Sinh học tính toán” (Computational Biology) trong trường hợp muốn sử dụng các công cụ toán học, tin học để trích rút các thông tin hữu ích từ những dữ liệu hỗn độn.

chung như: – bioinformatics – computational biology – computational molecular biology – biocomputing

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 119 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 120

30

• Chẳng hạn,

– khai phá dữ liệu, – lắp ráp (assembly) những trình tự DNA chất

lượng cao từ các đoạn DNA ngắn thu nhận từ kỹ thuật xác định trình tự DNA (shotgun sequencing)

SỰ CẦN THIẾT

– dự đoán quy luật điều hòa gen (gene regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry)

1.3 Sự cần thiết

Một số ngân hàng dữ liệu

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 121 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 122

• GenBank

• EMBL (European Molecular Bioinformatic

Laboratory)

• Swissprot

• Phát triển các cơ sở dữ liệu về thông tin sinh học là một nhiệm vụ quan trọng, để có được một kho lưu trữ lớn.

• PDB (Protein Databank)

• Nhiều cơ sở dữ liệu sinh học lớn trên thế giới

• SCOP (Strutural Classification Of Proteins

đã hình thành và phát triển.

Database)

• PRINTS (Protein Motif fingerprint database)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 123 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 124

31

• Với các ngân hàng dữ liệu, giúp:

– Tìm kiếm các gene trên các trình tự DNA ở các

sinh vật khác nhau.

– Tập hợp các trình tự có sự tương đồng cao vào các lớp chung, từ đó đưa ra cấu trúc protein.

– Phát triển các phương pháp nhằm dự đoán cấu trúc, chức năng của các protein mới được phát hiện (Hình vẽ).

– So sánh các trình tự protein tương đồng và thành

lập cây phả hệ mô tả mối quan hệ tiến hóa.

!

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 125 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 126

• Chẳng hạn,

• Ngoài việc phát triển các ngân hàng dữ liệu để lưu trữ (CSDL), còn có việc giải mã để hiểu biết và hiệu chỉnh.

– bệnh Alzheimer bị biến dị làm đột biến 4 gen thuộc các nhiễm sắc thể số 1, 14, 19, 21.

– Nhưng trong các nhiễm sắc thể này thì gen nào

• Đây là những vấn đề lớn, đòi hỏi sự hợp tác

quyết định sự biến dị đó.

của nhiều ngành.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 127 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 128

32

• Người ta chỉ biết sự thể hiện (triệu chứng): người bị Alzheimer có sự mất tế bào thần kinh và giảm thể tích những vùng não chi phối trí nhớ - vùng đảm nhận tâm thần kinh

• Dưới kính hiển vi điện tử, khi xem xét mô não về tế bào học thấy có tổn thương về mặt sinh học, – đó là sự thoái hóa của các sợi dây thần kinh, – hoặc bị tổn thương chỉ còn là những ống nhỏ • Từ đó ngăn cản vận chuyển chất dinh dưỡng

nuôi tế bào thần kinh

– Những chất này nằm xung quanh các tế bào

thần kinh chết,

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 129 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 130

• Nghiên cứu tiếp, thấy rằng:

– Một loại protein có tên Amyloid precursor (APP) cũng tồn tại ở đây giúp cho hoạt động hủy hoại tế bào thần kinh của Beta Amyloid

– Vấn đề này liên quan đến một protein tên là Tau. – Và sự xuất hiện protein beta Amyloid - không hòa tan nên tích tụ thành những mảng keo.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 131 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 132

33

• Sự có mặt quá nhiều của Beta Amyloid sẽ làm giảm chất trung gian dẫn truyền thần kinh acetylcholine cần thiết cho trí nhớ.

• Beta Amyloid cũng ngăn chặn sự vận

• Beta Amyloid là một peptide có từ 36 – 43 amino acid

chuyển ion kali, natri, calcium qua màng tế bào (giúp cho quá trình truyền tín hiệu thần kinh)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 133 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 134

• Vấn đề đặt ra là với những biểu hiện như

• Người ta thấy rằng trên nhiễm sắc thể 19 có một gene có ý nghĩa y tế rất lớn, nó được gọi là gene APOE; trình tự DNA của gene này gồm 897 chữ.

vậy, liệu con người có thể có những hiểu biết để kiểm soát quá trình phát triển này.

• Nucleotid thứ 334 thường là A, nhưng trong một số người lại là G. Những người này có khả năng lớn sẽ bị bệnh Alzheimer.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 135 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 136

34

• Từ đó hướng đến việc

• Vấn đề lớn đối với tin sinh học hiện nay là

– chuyển đổi thông tin trình tự sinh học sang các tri

thức hóa sinh và lý sinh;

làm sao để các thông tin về các trình tự sinh học phục vụ thiết thực hơn nữa cho sự sống, không dừng ở mức độ lưu trữ thông tin.

– giải mã các đầu mối tiến hóa; – chẩn đoán cấu trúc và chức năng của các cơ thể

sống.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 137 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 138

• Bệnh này được đặt tên từ hình dạng của các

tế bào máu

• Chẳng hạn, với bệnh tế bào thiếu máu hình

lưỡi liềm (sickle cell amenia),

• Đây là một bệnh di truyền ảnh hưởng đến

• Trong một điều kiện nào đó hồng huyết cầu (red blood cell) bị biến dạng thành hình lưỡi liềm

Hemoglobin hay Haemoglobin (huyết sắc tố) – phân tử vận chuyển dưỡng khí (oxygen) trong máu.

• và tế bào này kéo dài ra làm cho một số mạch máu nhỏ của cơ thể không nhận đủ lượng oxy cần thiết.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 139 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 140

35

• Bệnh này được gây ra bởi một sự thay đổi mã chữ cái trong trình tự DNA, nó làm cho một amino acid của protein hemoglobin là Glutamic acid bị thay bởi Valine.

• Valine làm cho các phân tử hemoglobin dính lại cùng nhau, hình thành các sợi dài bóp méo hình dạng của các hồng huyết cầu, dẫn đến tình trạng người khỏe mạnh bình thường trở nên thiếu máu trầm trọng.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 141 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 142

• Như vậy, Với DNA trên mạch GAG (CTC) khi phiên mã sang mRNA sẽ là GAG (đây là amino acid có tên Glutamic acid).

• Tuy nhiên, do sự biến đổi, GAG thay bởi

GTG (CAC), và được phiên mã sang mRNA thành GUG. Mà đó là một amino acid có tên là Valine.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 143 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 144

36

• Với người nghiên cứu về tin học:

– Protein như một bài văn, – Mà các câu văn là các trình tự Peptide – Những từ của câu văn đó là các Amino acid – Các chữ cái là A, C, G, T dùng để tạo nên từ

• Vấn đề làm sao biết quy tắc văn phạm để

tạo nên câu, tạo nên bài văn.

1.4. Một số khái niệm cơ bản

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 145 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 146

• Đại phân tử sinh học: hay đa phân tử sinh

học (biopolymer) là một đa phân tử (polymer) có trong các cơ thể sống.

• Có 4 đại phân tử không thể thiếu để hình

thành nên cơ thể sống; đó là:

MỘT SỐ KHÁI NIỆM CƠ BẢN

Một chút về lịch sử

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 147 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 148

37

• Protein

• Về mặt tổ chức, đây là

• Nucleic acid

• Quan trọng hơn cả là:

• Polysaccharide • Lipid

những hợp chất cấu tạo nên từ nhiều phân tử cùng hoại, gọi là đơn phân tử (monomer)

– Nucleic acid: lưu trữ thông tin di truyền – Protein: biểu hiện của vật chất sống

• Chúng liên kết với nhau bằng liên kết cộng hóa trị.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 149 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 150

• Còn:

• Một đặc điểm quan trọng là cấu trúc và tính chất hoá lý của các Nucleic acid, Lipid, Polysaccharide tương đối đồng nhất,

– Polysaccharide: tham gia cấu tạo tế bào, là

• Nhưng Protein lại đa dạng về cấu trúc và

nguồn dự trữ năng lượng chính

chức năng.

– Lipid: thành phần của màng tế bào, được cấu tạo từ các acid béo; là nhân tố chính để hình thành các màng sinh học.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 151 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 152

38

• Ngoài ra, như đã nói ở trên, tất cả các đại

• Chẳng hạn,

– Nucleic acid được hình thành từ nucleotide, các

nucleotide này bao gồm phosphate, đường pentose và base hữu cơ

phân tử sinh học đều được cấu thành từ một số đơn vị cấu tạo đơn giản và kết nối với nhau rất chặt chẽ đó là các đơn phân tử (monomer).

– Protein được hình thành từ các amino acid – Polysaccharide được hình thành từ các

monosaccharide

Nucleic acid

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 153 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 154

• Thực chất Nucleic acid là vật chất mang thông tin di truyền của các cơ thể sống, được hình thành từ các phân tử nucleotide.

• Mỗi nucleotide gồm 3 thành phần:

NUCLEIC ACID

– Phosphate – Đường Pentose – Và một Base hữu cơ

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 155 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 156

39

• Đại phân tử Nucleic acid gồm 2 loại đa phân

• Do các Nucleotide chỉ khác nhau ở thành

tử giống nhau: – DNA: Deoxyribonucleic Acid – RNA: Rebonucleic Acid

phần Base hữu cơ,

• Nên thỉnh thoảng người ta thường dùng thuật

ngữ Base thay cho Nucleotide.

Deoxyribonucleic Acid

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 157 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 158

• Đại phân tử DNA là chuỗi xoắn

kép gồm 2 mạch đơn, mỗi mạch đơn là một chuỗi nucleotide.

DEOXYRIBONUCLEIC ACID

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 159 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 160

40

Deoxyribonucleic Acid

• Các nucleotide trong một mạch đơn liên kết

với nhau bằng liên kết cộng hóa trị – là liên kết được hình thành giữa đường của

• Chuỗi nucleotide của DNA bao gồm

nucleotide này với phosphate của nucleotide kế tiếp.

• Hai mạch đơn liên kết với nhau bằng liên kết

– Phosphate, – Đường Desoxyribose – Và một trong 4 base hữu cơ là Adenine (A), Cytosine (C), Guanine (G) và Thymine (T).

hydro hình thành giữa các base – là tương tác tĩnh điện yếu giữa phần tử Hydro

mang điện tích dương với phần tử mang điện tích âm

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 161 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 162

• Lưu ý rằng, do DNA là một chuỗi xoắn kép

• Trong hai mạch đơn liên kết với nhau thì: – G của mạch này liên kết với C của mạch kia – A của mạch này liên kết với T của mạch kia

và liên kết giữa 2 chuỗi được thông qua liên kết giữa A-T và C-G.

• Nên trong trình tự DNA người ta thường gọi

AT và CG là các cặp base (base pair).

• Từ đó, chiều dài của trình tự DNA thường

được đo bằng base pase (bp)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 163 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 164

41

Cấu trúc DNA

• Do các Nucleotide chỉ khác nhau thành phần

base hữu cơ,

• Nên đại phân tử DNA như là một trình tự sinh học (Biology sequence) gồm các base là: – A (Adenine), – C (Cytosine), – G (Guanine), – T (Thymine).

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 165 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 166

• Điều này rất thuận lợi khi biểu diễn các đại

C5H5N5

C5H6N2O2

phân tử DNA trên máy tính bằng chuỗi ký tự chứa bốn ký tự chữ A, C, G, T

• Như vậy, với một chuỗi nucleotid được người

nghiên cứu về tin học coi đó như là một chuỗi gồm 4 ký tự chữ như trên

C5H5N5O

C4H5N3O

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 167 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 168

42

• Khi đó, số lượng chuỗi nuleotide sẽ rất lớn – Ví dụ, một chuỗi có 10

nucleotide, thì số loại DNA khác nhau là 410 = 220 = 1.048.576

REBONUCLEIC ACID

Ribonucleic Acid

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 169 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 170

• Đại phân tử RNA tương tự DNA nhưng có 3

điểm khác nhau: – Là chuỗi xoắn đơn – Đường Pentose là Ribose – Thymine được thay bởi Uracil (U)

• Trong tế bào có 3 loại RNA chính, tham gia vào quá trình dịch mã sang protein: – mRNA (messenger RNA) – tRNA (transfer RNA) – rRNA (ribosomal RNA

C4H4N2O2

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 171 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 172

43

• mRNA: là các RNA thông

• tRNA: là các RNA vận chuyển, đóng vai trò vận chuyển các amino acid đến bộ máy dịch mã để tổng hợp ra protein từ mRNA tương ứng.

tin. – Đây chính là các bản sao của các trình tự trên DNA, nhằm chuyển thông tin mã hóa trên DNA đến bộ máy giải mã protein tương ứng.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 173 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 174

• rRNA: là các RNA của risbosome, rRNA này

chiếm phần lớn tổng số RNA của tế bào. • Ribosome là một thành phần trong bộ máy dịch mã của tế bào, được tạo thành bằng cách kết hợp rRNA với protein

PROTEIN

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 175 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 176

44

Amino acid

• Cấu trúc bao gồm

• Amino acid được cấu thành từ các base trên

– một nguyên tử carbon ở trung tâm, nguyên tử carbon này được gắn với nguyên tử Hydro và được gọi là nguyên tử C-α (α-carbon)

trình tự DNA,

• Có tất cả 20 Amino acid chính

– Nguyên tử C-α liên kết với 3 thành phần khác là nhóm amino (NH2), nhóm carboxylic (COOH) và gốc amino acid ký hiệu là R

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 177 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 178

• Các gốc amino acid khác nhau sẽ tạo ra các amino acid với tính chất hóa học khác nhau. • Chẳng hạn, với amino acid: Alanine, Serine

• Trình tự các base trên DNA quyết định trình

tự amino acid trên protein tương ứng.

• Mỗi amino acid có 3 base, nên với 4 base A, C, G, T sẽ có số lượng amino acid lý thuyết là 43 = 64 (gọi là 64 codon)

Alanine

Serine

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 179 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 180

45

• Margaret Oakley Dayhoff

• Tuy nhiên, hiện nay chỉ phát hiện được 20 amino acid với mã di truyền như hình.

(American Physical Chemist, pioneer in Bioinformatics) đề xuất dùng one-letter code để mã hóa 20 amino acid này.

Bảng mã ký tự của 20 amino acid

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 181 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 182

• Nên có hơn 1 codon mã

hóa một amino acid.

• Bảng mã di truyền chuẩn được Marshall Warren Nirenberg (Giải Nobel Y học 1968) và Matthaei đưa ra năm 1961 như hình

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 183 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 184

46

Mã di truyền

Bảng 20 amino acid

• Theo bảng mã này:

– chỉ có 61 codon chứa thông tin (mã hóa amino

acid cụ thể)

– 3 codon: UAA, UAG, UGA là dấu hiệu kết thúc – Codon AUG vừa là amino acid có tên Methionine

(Met) vừa là dấu hiệu bắt đầu

Công thức hóa học của 20 amino acid

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 185 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 186

• Trong 20 amino acid này có 9 amino acid gọi là thiết yếu • Bởi nó không thể được tạo ra trực tiếp từ cơ thể con người,

• Mà được cung cấp thông qua

nguồn thực phẩm dinh dưỡng từ bên ngoài.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 187 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 188

47

• 9 amino acid thiết yếu đó là: histidine, isoliucine, leucine, lysine, methionine, phenylalanine, threonine, tryptophan, valine.

CHUỖI PEPTIDE

Liên kết peptide (Peptide bond)

Chuỗi peptide

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 189 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 190

• Là liên kết giữa đầu Carboxylic (COOH) của

• Là chuỗi không nhiều hơn 50 amino acid

amino acid này với đầu amin (NH 2) của amino acid khác và loại bỏ đi một phân tử nước (H2O)

trong đó các amino acid này liên kết với nhau theo liên kết peptide.

• Một đầu của chuỗi là nhóm amino (H 3N+) và

một đầu là nhóm carboxylic (COO -)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 191 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 192

48

• Khi có nhiều hơn 50 amino acid người ta hay

gọi đó là chuỗi polypeptide.

• Nên thực chất: chuỗi polypeptide là một chuỗi gồm nhiều chuỗi peptid; nó dài và không phân nhánh.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 193 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 194

• Liên kết peptide trong cấu trúc bậc một của

protein là một liên kết đặc biệt, – mạnh hơn liên kết đơn nhưng lại yếu hơn liên kết

• Nhờ tính linh động này, phân tử protein có thể tự xoay quanh trục của nó một góc nhỏ.

đôi.

• Điều này có ý nghĩa đặc biệt quan trọng

trong việc hình thành cấu trúc bậc cao của protein.

• Chính điều này đã tạo cho các liên kết trong chuỗi peptide vừa có tính ổn định của một liên kết đôi, vừa có tính linh động của một liên kết đơn.

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 195 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 196

49

Cấu trúc bậc I

• Do amino acid là các đơn phân tử cấu thành nên protein, nên chuỗi peptid hay polypeptide là protein.

CẤU TRÚC PROTEIN

• Trong trường hợp chỉ quan tâm đến các liên kết peptide trong chuỗi này, ta có cấu trúc bậc 1 của protein (protein primary structure)

Cấu trúc bậc II

Cấu trúc bậc III

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 197 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 198

• Khi các amino acid gần nhau liên kết

• Ngoài các liên kết hydro để tạo ra cấu trúc bậc II, các nhóm amino acid trên chuỗi polypeptide còn liên kết lại cùng nhau.

với nhau thông qua liên kết hydro giữa nhóm amin (NH) của amino acid này với nguyên tử Oxy của amino acid khác sẽ tạo nên vòng xoắn của chuỗi polypeptide.

• Chẳng hạn, các Cystein sẽ liên kết với nhau, hoặc các Proline liên kết với nhau để hình thành nên các nhóm riêng.

• Khi đó có cấu trúc bậc II của protein

(secondary structure)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 199 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 200

50

Cấu trúc bậc IV

• Khi có nhiều hơn một chuỗi polypeptite với

• Khi đó tạo nên cấu trúc

các cấu trúc bậc III được liên kết với nhau, sẽ tạo nên cấu trúc protein bậc IV (Quaternary structure)

không gian (3 chiều) của tất cả các nguyên tử trong phân tử protein. Gọi là cấu trúc bậc III (Protein tertiary structure)

Tổng kết

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 201 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 202

• Protein chiếm phần lớn cấu trúc của tế bào và hành động như những enzyme xúc tác vào các phản ứng tế bào

• Có 20 amino acid, và 9 trong số đó là rất cần

thiết cho chế độ ăn uống của con người.

• Tổng hợp : amino acid, peptid bond, protein

GIẢI TRÌNH TỰ (SEQUENCING)

structure

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 203 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 204

51

CODON

– Có tất cả 64 codon, trong đó có

• Như đã có

– Bộ ba mã hóa (codon) đóng vai trò dịch mã tế

bào

1 codon mở đầu là AUG (gọi là start codon), gọi là Methionine đóng vai trò mở đầu của quá trình dịch mã 3 codon (UAA, UAG, UGA) gọi là codon kết thúc (stop codon)

– Mỗi codon mã hóa cho một amino acid để cấu

còn lại 61 codon mã hóa cho 20 amino acid.

tạo nên đại phân tử protein

ORF

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 205 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 206

• Open Reading Frame – ORF

• Trong quá trình dịch mã, phân tử mRNA

– Là một đoạn trình tự DNA có khả năng dịch mã

thành một chuỗi polypeptide.

– Một ORF được bắt đầu bởi start codon và kết

thúc bởi stop codon

mang thông tin di truyền từ nhân ra ngoài tế bào chất với trình tự là các codon tương ứng với trình tự amino acid sắp được tổng hợp.

• Gene: là một ORF mã hóa cho một protein

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 207 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 208

52

Minh họa

Chẳng hạn

• Có thể truy cập trang web Sequence

Manipulation Siute (Ver 2.0) tại

http://www.bioinformatics.org/sms2

để thực hiện các thao tác liên quan đến trình tự sinh học.

Sau khi đã có trình tự, tìm ORF

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 209 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 210

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 211 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 212

53

Sequencing

• Mục đích là tìm ra nucleotide trong gene

• Frederick Sanger đưa ra phương pháp giải

trình tự vào năm 1977, gọi là Sanger Sequencing.

• Kĩ thuật phổ biến gọi là “chain termination“, sử dụng Defective DNA nucleotide (tức là nucleotide bị chỉnh sửa làm mất khả năng kết hợp thêm một nucleotide khác tại đầu 3′của nó)

Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 213 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 214

54