CƠ SỞ DỮ LIỆU
(cid:1)Giới thiệu (cid:1)Mô hình dữ liệu NCBI (tuần1) (cid:1)Cơ sở dữ liệu trình tự GenBank (tuần2) (cid:1)Cơ sở dữ liệu về cấu trúc (tuần3) (cid:1)Cơ sở dữ liệu bản đồ genom (tuần4)
Các cơ sở dữ liệu
(cid:1) Cơ sở dữ liệu NCBI (National Center for
Biotechnology Information)
(cid:1) Cơ sở dữ liệu EMBL-EBI (European Molecular Biology Laboratory-European Bioinformatics Institute)
(cid:1) Cơ sở dữ liệu CIB-DDBJ (Center for Information
Biology-DNA Data Bank of Japan)
Mô hình dữ liệu NCBI
(cid:1) NCBI dựa trên 4 dữ liệu cơ bản:
- Bài báo khoa học - Trình tự ADN - Trình tự protein - Cấu trúc ba chiều.
(cid:1) Ngoài ra còn có các cơ sở dữ liệu khác:
- Taxonomy - Bản đồ genome
Mô hình dữ liệu NCBI: Bài báo khoa học
(cid:1) Tên tác giả (cid:1) Bài báo: Tên bài báo, tập, số, trang. (cid:1) Patent (cid:1) Yếu tố nhận dạng MEDLINE và PubMed: Để truy cập
bài báo. - MEDLINE unique identifier (MUID): số nguyên - PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận dạng: PubMed identifier (PMID). - Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID. - PubMed Central: Bao gồm cả các bài báo điện tử hoặc trước khi xuất bản chính thức trong các tạp chí in.
Mô hình dữ liệu NCBI: Yếu tố nhận dạng trình tự (SEQ-Ids)
(cid:1) Locus name: Nhằm cung cấp yếu tố nhận dạng duy nhất
- Có trong GenBank, EMBL và DDBJ - Gồm một số số (<=10) và chữ in hoa
(cid:1) Accession Number:
- 1 chữ in hoa kèm 5 số - Số mới gồm 2 chữ in hoa kèm 6 số
(cid:1) gi Number (GenInfo Identifiers) : yếu tố nhận dạng cho 1 trình
tự riêng biệt, bao gồm: - Trình tự nucleotid từ DDBJ/EMBL/GenBank - Trình tự protein từ dịch mã vùng CDS - Trình tự protein từ SWISS-PROT, PIR, PRF, PDB, patent, … ưu điểm của gi: - Yếu tố nhận dạng trình tự được sử dụng trong nhiều CSDL. - Yếu tố nhận dạng chuyên biệt cho một trình tự chính xác - Yếu tố nhận dạng ổn định và dễ truy cập.
Mô hình dữ liệu NCBI: Yếu tố nhận dạng trình tự (SEQ-Ids)
(cid:1) Accession.Version Combined Identifier: Do hợp tác
của GenBank, EMBL và DDBJ đưa ra - Vẫn cho phép truy cập một bản ghi chỉ dựa trên số truy cập mà không có phiên bản. - Cho phép truy cập trình tự đã thay đổi sử dụng số truy cập và số phiên bản. - Cho biết trình tự đã thay đổi bao nhiêu lần dựa trên số phiên bản.
(cid:1) Accession Numbers on Protein Sequences:
- Accession.version Numbers cũng đã được sử dụng cho trình tự protein trong CDS feature’s /protein ID qualifier. - Gồm 3 chữ in hoa kèm 5 số và 1 số chỉ phiên bản.