13/03/2013
1
sở dữ liệu Tin sinh học
(Bioinformatic Databases)
HỆ ĐẠI HỌC
Chương II
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
Sự thử thách của nguồn thông tin mở
GV: ThS. Nguyễn Thành Luân
luannt@cntp.edu.vn
Mục tiêu của bài học
Nắm được những nguyên tắc so sánh các
trình tự sinh học
Sử dụng chương trình BLAST giúp chúng ta
nhanh chóng tìm ra những trình tự sinh học
tương đồng (nếu trong các CSDL lớn như
NCBI, EMBL, DDPJ…) với trình tự yêu cầu.
Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng,
13/03/2013
2
Nội dung bài học
Khái niệm sở dữ liệu (CSDL)
Các công cụ về sở dữ liệu:
GenBank
BankIt
BLAST
Các nguồn sở dữ liệu sinh học bản
Các công cụ tìm kiếm dữ liệu
Phân loại CSDL Tin sinh học
WHAT ARE DATABASES
sở dữ liệu ?
tổ chức các chuỗi thông tin theo dạng tệp
Thông tin thể bỏ vào lấy ra bất kz khi nào
(Ease of Access)
Đơn giản hóa nguồn thông tin bằng các
hiệu đặc biệt (Số hóa Digital databases)
Lưu trữ mọi nguồn dữ liệu thông qua các ngân
hàng CSDL các website
Chứa đựng các khám phá mới trong nghiên cứu
khoa học
13/03/2013
3
Chức năng & nhiệm vụ CSDL
Định nghĩa miêu tả
Chìa khóa duy nhất về:
Cập nhật các phiên bản phần mềm tin sinh học
Liên kết tới những nguồn CSDL khác
Lưu trữ tài liệu
Ấn bản, cập nhật chỉnh sửa tài liệu, trình tự dựa
trên nguồn của CSDL,…
sở dữ liệu sinh học
(Biological databases)
Trình tự DNA, RNA protein hoặc 1 gene
Hầu hết các trường hợp, 1 trình tự protein được hiểu
1 trình tự trong sinh học
Hiểu các dạng khác nhau của trình tự mấu chốt
cho bất cứ sự giải thích vấn đề nào.
Phân tích các lỗi thể xuất hiện trên trình tự nhằm so
sánh các sự khác biệt giữa các trình tự.
13/03/2013
4
Ngun: http://ncbi.nlm.nih.gov
BIOLOGICAL
PATHWAYS
HOW DID THEY DO
THAT?
GENBANK
KHÁI NIỆM GenBank?
nơi cơ sở dữ liệu được chứa đựng tất
cả thông tin về đoạn gen đã được hóa
(DNA, RNA) hoặc những trình tự protein gốc
với việc đính kèm biểu hiện tất cả thông
tin sinh học chứa đựng về đoạn gen
hóa đó.
http://www.ncbi.nlm.nih.gov/GenBank/Genb
ank overview.html
13/03/2013
5
Cách khai thác & sử dụng Genbank
Chú trng vào xử nucleotide của gene - nơi chứa
nguồn thông tin trung tâm (Molecular Databases)
chỗ chứa đựng tất cả các trình tự hóa phổ
biến theo dạng công cộng (public)
Dữ liệu được nhóm lại với nhau theo các sở
phân loại khác biệt
Chỉ thể sử dụng & quản thông qua Internet
Nhanh, hiệu quả, cứ mỗi 2 tháng 1 ấn bản
hoàn chỉnh về 1 gen.
sở dữ liệu Genbank
Chứa nhiều đoạn gene đã được hóa
công bố theo dạng gói (zip batch)
Nhiều thông tin lệ thuộc nhau về
Tác giả dữ liệu
Loài/giống của gen
Cách phân loại chính xác
Chứa cả các đoạn gen mã hóa chưa được
công bố
Mọi người đều thể đưa trình tự vào (thông tin
mở nh khoa học không cao).
Tuy nhiên, được chỉnh sửa liên tục để
ngày một hoàn thiện hơn