
13/03/2013
1
Cơ sở dữ liệu Tin sinh học
(Bioinformatic Databases)
HỆ ĐẠI HỌC
Chương II
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
Sự thử thách của nguồn thông tin mở
GV: ThS. Nguyễn Thành Luân
luannt@cntp.edu.vn
Mục tiêu của bài học
Nắm được những nguyên tắc so sánh các
trình tự sinh học
Sử dụng chương trình BLAST giúp chúng ta
nhanh chóng tìm ra những trình tự sinh học
tương đồng (nếu có trong các CSDL lớn như
NCBI, EMBL, DDPJ…) với trình tự yêu cầu.
Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng, …

13/03/2013
2
Nội dung bài học
•Khái niệm cơ sở dữ liệu (CSDL)
•Các công cụ về cơ sở dữ liệu:
–GenBank
–BankIt
–BLAST
•Các nguồn cơ sở dữ liệu sinh học cơ bản
•Các công cụ tìm kiếm dữ liệu
•Phân loại CSDL Tin sinh học
WHAT ARE DATABASES
Cơ sở dữ liệu là gì?
•Là tổ chức các chuỗi thông tin theo dạng tệp
•Thông tin có thể bỏ vào và lấy ra bất kz khi nào
(Ease of Access)
• Đơn giản hóa nguồn thông tin bằng các ký
hiệu đặc biệt (Số hóa – Digital databases)
• Lưu trữ mọi nguồn dữ liệu thông qua các ngân
hàng CSDL là các website
•Chứa đựng các khám phá mới trong nghiên cứu
khoa học

13/03/2013
3
Chức năng & nhiệm vụ CSDL
•Định nghĩa và miêu tả
•Chìa khóa duy nhất về:
–Cập nhật các phiên bản phần mềm tin sinh học
–Liên kết tới những nguồn CSDL khác
– Lưu trữ tài liệu
•Ấn bản, cập nhật và chỉnh sửa tài liệu, trình tự dựa
trên nguồn của CSDL,…
Cơ sở dữ liệu sinh học
(Biological databases)
•Trình tự DNA, RNA và protein hoặc 1 gene
•Hầu hết các trường hợp, 1 trình tự protein được hiểu
là 1 trình tự trong sinh học
• Hiểu rõ các dạng khác nhau của trình tự là mấu chốt
cho bất cứ sự giải thích vấn đề nào.
•Phân tích các lỗi có thể xuất hiện trên trình tự nhằm so
sánh các sự khác biệt giữa các trình tự.

13/03/2013
4
Nguồn: http://ncbi.nlm.nih.gov
BIOLOGICAL
PATHWAYS
HOW DID THEY DO
THAT?
GENBANK
KHÁI NIỆM GenBank?
Là nơi mà cơ sở dữ liệu được chứa đựng tất
cả thông tin về đoạn gen đã được mã hóa
(DNA, RNA) hoặc những trình tự protein gốc
với việc đính kèm và biểu hiện tất cả thông
tin sinh học chứa đựng về đoạn gen mã
hóa đó.
http://www.ncbi.nlm.nih.gov/GenBank/Genb
ank overview.html

13/03/2013
5
Cách khai thác & sử dụng Genbank
•Chú trọng vào xử lý nucleotide của gene - nơi chứa
nguồn thông tin trung tâm (Molecular Databases)
•Là chỗ chứa đựng tất cả các trình tự mã hóa phổ
biến theo dạng công cộng (public)
• Dữ liệu được nhóm lại với nhau theo các cơ sở
phân loại khác biệt
•Chỉ có thể sử dụng & quản lý thông qua Internet
•Nhanh, hiệu quả, cứ mỗi 2 tháng là có 1 ấn bản
hoàn chỉnh về 1 gen.
Cơ sở dữ liệu Genbank
Chứa nhiều đoạn gene đã được mã hóa và
công bố theo dạng gói (zip batch)
–Nhiều thông tin lệ thuộc nhau về
•Tác giả dữ liệu
•Loài/giống của gen
•Cách phân loại chính xác
– Chứa cả các đoạn gen mã hóa chưa được
công bố
– Mọi người đều có thể đưa trình tự vào (thông tin
mở và tính khoa học không cao).
Tuy nhiên, nó được chỉnh sửa liên tục để
ngày một hoàn thiện hơn