Tin Sinh Học

Tin Sinh Học -

Bioinformatics

Tin sinh học (bioinformatics) là một lĩnh vực

khoa học sử dụng các công nghệ của các

ngành toán học ứng dụng, tin học, thống

kê và khoa học máy tính để giải quyết các vấn

đề sinh học.

Các nghiên cứu trong ngành sinh học tính

toán (computational biology) thường trùng lặp

với sinh học hệ thống (systems biology).

Những lĩnh vực nghiên cứu chính của nó bao

gồm bắt cặp trình tự (sequence

alignment), bắt cặp cấu trúc protein(protein

structural alignment), dự đoán cấu trúc

protein (protein structure prediction), dự

đoán biểu hiện gene (gene expression)

và tương tác protein - protein (protein-protein

interactions), và mô hình hóa quá trình tiến

hoá. Thuật ngữ tin sinh học và sinh học tính

toán thường được dùng hoán đổi cho nhau,

mặc dù cái trước, nói một cách nghiêm túc, là

tập con của cái sau. Những mối quan tâm

chính trong các dự án tin sinh học và sinh học

tính toán là việc sử dụng các công cụ toán học

để trích rút các thông tin hữu ích từ các dữ

liệu hỗn độn được thu nhận từ các kĩ thuật

sinh học với lưu lượng mức độ lớn. (Lĩnh

vực khai phá dữ liệu (data mining) trùng lắp

với sinh học tính toán về phương diện này.)

Những bài toán đặc trưng trong sinh học tính

toán bao gồm việc lắp ráp (assembly)

những trình tự DNA chất lượng cao từ các

đoạn ngắn DNA được thu nhận từ kỹ thuật

xác định trình tự DNA, và việc dự đoán qui

luật điều hòa gene (gene regulation) với dữ

liệu từ các mRNA, microarray hay khối

phổ(mass spectrometry).

Lý giải những thông tin thu được từ các nguồn

cơ sở dữ liệu khổng lồ về DNA chỉ là một

trong nhiều bài toán mà các nhà tin sinh học

phải giải quyết

Các lĩnh vực nghiên cứu chính

Genomics - Hệ gene học

Phân tích trình tự

Bài chính: Bắt cặp trình tự, CSDL trình tự

Kể từ khi Phage Φ-X174 được xác định trình

tự (1977) cho đến nay, trình tự DNA của rất

nhiều loài sinh vật đã được lưu trữ trong các

ngân hàng cơ sở dữ liệu gene. Những dữ liệu

này sẽ được phân tích để tìm ra những gene

cấu trúc (gene mã hoá cho một protein nào

đó), cũng như tìm ra qui luật của những trình

tự tương đồng giữa các protein). Việc so sánh

các gene trong cùng một loài hay giữa các loài

khác nhau có thể cho thấy sự tương đồng về

chức năng của protein, hay mối quan hệ phát

sinh chủng loài giữa những loài này (thể hiện

trên cây phát sinh chủng loài (phylogenetic

tree)). Với sự tăng trưởng khổng lồ của dữ

liệu loại này, việc phân tích trình tự DNA một

cách thủ công trở nên không thể thực hiện nổi.

Ngày nay, các chương trình máy tính được sử

dụng để giúp tìm các trình tự tương đồng

trong bản đồ gen (genome) của hàng loạt sinh

vật, với số lượng nucleotide trong trình tự lên

đến hàng tỉ. Những chương trình này có thể

tìm kiếm những trình tự DNA không giống

nhau hoàn toàn do các đột biến

nucleotide (thay thế, mất hay thêm các gốc

base). Những giải thuật bắt cặp trình

tự(sequence alignment) cũng được áp dụng

ngay cả trong quá trình xác định trình tự DNA,

là kỹ thuật xác định trình tự đoạn nhỏ(shotgun

sequencing). (Kỹ thuật này đã được công ty

Celera Genomics sử dụng để xác định trình tự

genome của vi khuẩnHaemophilus influenza.)

Kỹ thuật xác định trình tự hiện nay không thể

tiến hành với cả đoạn trình tự DNA lớn (cỡ vài

chục nghìn nucleotide trở lên) nên người ta sử

dụng xác định trình tự nhỏ để giải mã hàng

nghìn đoạn trình tự với kích thước khoảng 600

- 800 nucleotide. Sau đó, những đoạn trình tự

nhỏ này sẽ được sắp xếp thứ tự và nối lại với

nhau (thông qua việc bắt cặp trình tựở những

đầu gối lên nhau (overlap)) tạo thành một trình

tự genome hoàn chỉnh.

Kỹ thuật xác định trình tự đoạn nhỏ tạo ra

chuỗi dữ liệu một cách nhanh chóng, nhưng

nhiệm vụ sắp xếp lại các mảnh DNA có thể là

khá phức tạp cho các genome lớn. Trong

trường hợp dự án bản đồ gen người (Human

Genome Project), các nhà tin sinh học phải

mất cả hàng tháng đồng thời sử dụng hàng

loạt siêu máy tính (các máy DEC Alpha ra đời

năm 2000) để sắp xếp đúng trình tự ngắn lại.

Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên

sử dụng trong hầu hết các dự án giải mã

genome hiện nay vàgiải thuật lắp ráp

genome (genome assembly algorithms) là một

trong những lĩnh vực nóng của tin sinh học.

Một khía cạnh khác của tin sinh học trong việc

phân tích trình tự là việc tìm kiếm tự động các

gen và những trình tự điều khiển bên trong

một genome. Không phải là tất cả nucleotides

bên trong một genome đều là gene. Phần lớn

các DNA bên trong genome của các sinh vật

bậc cao là các đoạn DNA không phục vụ cho

một nhiệm vụ cụ thể nào (hoặc do khoa học

hiện nay chưa nhận ra) được gọi là những

đoạn DNA rác (junk DNA). Tin sinh học còn

giúp kết nối dữ liệu giữa các dự

án genomics vàproteomics, ví dụ việc sử dụng

trình tự DNA để nhận dạng protein.

Xem thêm: phân tích trình tự, công cụ định

danh chuỗi (sequence profiling tool), trình tự

motif.

Chỉ định Genome

Bài chính: Tìm kiếm gene

Về phía lĩnh vực gen chuyên về nghiên cứu

bản đồ gen (genomics), annotation là quá

trình đánh dấu các gen và các đặc tính sinh

học (biological features) khác trong một chuỗi

DNA. Hệ thống phần mềm làm nhiệm vụ

"genome annotation" đầu tiên đã được thiết kế

vào năm 1995 bởi Owen White, anh thuộc

Tin Sinh Học

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi