
Tin Sinh Học -
Bioinformatics
Tin sinh học (bioinformatics) là một lĩnh vực
khoa học sử dụng các công nghệ của các
ngành toán học ứng dụng, tin học, thống
kê và khoa học máy tính để giải quyết các vấn
đề sinh học.
Các nghiên cứu trong ngành sinh học tính
toán (computational biology) thường trùng lặp
với sinh học hệ thống (systems biology).
Những lĩnh vực nghiên cứu chính của nó bao
gồm bắt cặp trình tự (sequence
alignment), bắt cặp cấu trúc protein(protein
structural alignment), dự đoán cấu trúc
protein (protein structure prediction), dự
đoán biểu hiện gene (gene expression)
và tương tác protein - protein (protein-protein
interactions), và mô hình hóa quá trình tiến
hoá. Thuật ngữ tin sinh học và sinh học tính
toán thường được dùng hoán đổi cho nhau,
mặc dù cái trước, nói một cách nghiêm túc, là
tập con của cái sau. Những mối quan tâm
chính trong các dự án tin sinh học và sinh học
tính toán là việc sử dụng các công cụ toán học
để trích rút các thông tin hữu ích từ các dữ
liệu hỗn độn được thu nhận từ các kĩ thuật

sinh học với lưu lượng mức độ lớn. (Lĩnh
vực khai phá dữ liệu (data mining) trùng lắp
với sinh học tính toán về phương diện này.)
Những bài toán đặc trưng trong sinh học tính
toán bao gồm việc lắp ráp (assembly)
những trình tự DNA chất lượng cao từ các
đoạn ngắn DNA được thu nhận từ kỹ thuật
xác định trình tự DNA, và việc dự đoán qui
luật điều hòa gene (gene regulation) với dữ
liệu từ các mRNA, microarray hay khối
phổ(mass spectrometry).
Lý giải những thông tin thu được từ các nguồn
cơ sở dữ liệu khổng lồ về DNA chỉ là một
trong nhiều bài toán mà các nhà tin sinh học
phải giải quyết
Các lĩnh vực nghiên cứu chính

Genomics - Hệ gene học
Phân tích trình tự
Bài chính: Bắt cặp trình tự, CSDL trình tự
Kể từ khi Phage Φ-X174 được xác định trình
tự (1977) cho đến nay, trình tự DNA của rất
nhiều loài sinh vật đã được lưu trữ trong các
ngân hàng cơ sở dữ liệu gene. Những dữ liệu
này sẽ được phân tích để tìm ra những gene
cấu trúc (gene mã hoá cho một protein nào
đó), cũng như tìm ra qui luật của những trình
tự tương đồng giữa các protein). Việc so sánh
các gene trong cùng một loài hay giữa các loài
khác nhau có thể cho thấy sự tương đồng về
chức năng của protein, hay mối quan hệ phát
sinh chủng loài giữa những loài này (thể hiện
trên cây phát sinh chủng loài (phylogenetic
tree)). Với sự tăng trưởng khổng lồ của dữ
liệu loại này, việc phân tích trình tự DNA một
cách thủ công trở nên không thể thực hiện nổi.
Ngày nay, các chương trình máy tính được sử
dụng để giúp tìm các trình tự tương đồng
trong bản đồ gen (genome) của hàng loạt sinh
vật, với số lượng nucleotide trong trình tự lên
đến hàng tỉ. Những chương trình này có thể
tìm kiếm những trình tự DNA không giống

nhau hoàn toàn do các đột biến
nucleotide (thay thế, mất hay thêm các gốc
base). Những giải thuật bắt cặp trình
tự(sequence alignment) cũng được áp dụng
ngay cả trong quá trình xác định trình tự DNA,
là kỹ thuật xác định trình tự đoạn nhỏ(shotgun
sequencing). (Kỹ thuật này đã được công ty
Celera Genomics sử dụng để xác định trình tự
genome của vi khuẩnHaemophilus influenza.)
Kỹ thuật xác định trình tự hiện nay không thể
tiến hành với cả đoạn trình tự DNA lớn (cỡ vài
chục nghìn nucleotide trở lên) nên người ta sử
dụng xác định trình tự nhỏ để giải mã hàng
nghìn đoạn trình tự với kích thước khoảng 600
- 800 nucleotide. Sau đó, những đoạn trình tự
nhỏ này sẽ được sắp xếp thứ tự và nối lại với
nhau (thông qua việc bắt cặp trình tựở những
đầu gối lên nhau (overlap)) tạo thành một trình
tự genome hoàn chỉnh.
Kỹ thuật xác định trình tự đoạn nhỏ tạo ra
chuỗi dữ liệu một cách nhanh chóng, nhưng
nhiệm vụ sắp xếp lại các mảnh DNA có thể là
khá phức tạp cho các genome lớn. Trong
trường hợp dự án bản đồ gen người (Human
Genome Project), các nhà tin sinh học phải
mất cả hàng tháng đồng thời sử dụng hàng
loạt siêu máy tính (các máy DEC Alpha ra đời
năm 2000) để sắp xếp đúng trình tự ngắn lại.
Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên
sử dụng trong hầu hết các dự án giải mã

genome hiện nay vàgiải thuật lắp ráp
genome (genome assembly algorithms) là một
trong những lĩnh vực nóng của tin sinh học.
Một khía cạnh khác của tin sinh học trong việc
phân tích trình tự là việc tìm kiếm tự động các
gen và những trình tự điều khiển bên trong
một genome. Không phải là tất cả nucleotides
bên trong một genome đều là gene. Phần lớn
các DNA bên trong genome của các sinh vật
bậc cao là các đoạn DNA không phục vụ cho
một nhiệm vụ cụ thể nào (hoặc do khoa học
hiện nay chưa nhận ra) được gọi là những
đoạn DNA rác (junk DNA). Tin sinh học còn
giúp kết nối dữ liệu giữa các dự
án genomics vàproteomics, ví dụ việc sử dụng
trình tự DNA để nhận dạng protein.
Xem thêm: phân tích trình tự, công cụ định
danh chuỗi (sequence profiling tool), trình tự
motif.
Chỉ định Genome
Bài chính: Tìm kiếm gene
Về phía lĩnh vực gen chuyên về nghiên cứu
bản đồ gen (genomics), annotation là quá
trình đánh dấu các gen và các đặc tính sinh
học (biological features) khác trong một chuỗi
DNA. Hệ thống phần mềm làm nhiệm vụ
"genome annotation" đầu tiên đã được thiết kế
vào năm 1995 bởi Owen White, anh thuộc