TIN SINH HỌC - CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC

Chia sẻ: anhphuonggl

1.1. Khái quát chung về cơ sở dữ liệu sinh học Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự Axit nucleic (ADN, ARN), trình tự axit amin của các phân tử Protein, thông tin về cấu trúc và giải phẫu của một số Genom, mô hình cấu trúc không gian của các đại phân tử.

Bạn đang xem 10 trang mẫu tài liệu này, vui lòng download file gốc để xem toàn bộ.

Nội dung Text: TIN SINH HỌC - CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC

Người hướng dẫn: TS.VÕ VĂN TOÀN
Người thực hiện: TRẦN THỊ PHƯƠNG
ANH
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC

1.1. Khái quát chung về cơ sở dữ liệu sinh học

Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ
yếu đề cập đến các thông tin về trình tự Axit nucleic
(ADN, ARN), trình tự axit amin của các phân tử
Protein, thông tin về cấu trúc và giải phẫu của một số
Genom, mô hình cấu trúc không gian của các đại phân
tử.
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC

1.1. Khái quát chung về cơ sở dữ liệu sinh học
1.2. Cơ sở dữ liệu về các trình tự
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự Nucleotide và Protein:
- The EMBL Nucleotide Sequence Database
- The GenBank sequence database
- The DNA Data Bank of Japan (DDBJ)
- The Swiss-Prot
- Protein Information Resource (PIR)
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự nucleotide và protein:
a.EMBL Cơ sở dữ liệu trình tự nucleotide (còn được
gọi là ngân hàng EMBL) cấu thành tài nguyên trình tự
nucleotide chính của châu Âu.
CSDL của EMBL/EBI
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự nucleotide và protein:
a. EMBL Cơ sở dữ liệu trình tự nucleotide (còn được
gọi là ngân hàng EMBL) cấu thành tài nguyên trình tự
nucleotide chính của châu Âu.
b. GenBank là một phần của chương trinh hợp tác quốc
̀
tế về cơ sở dữ liệu trình tự nucleotide, bao gồm ngân hàng
dữ liệu ADN của Nhật Bản (DDBJ), Phòng thí nghiệm Sinh
học phân tử châu Âu (EMBL), và GenBank tại NCBI.
b. GenBank là một phần của chương trinh hợp tác quốc
̀
tế về cơ sở dữ liệu trình tự nucleotide, bao gồm ngân hàng
dữ liệu ADN của Nhật Bản (DDBJ), Phòng thí nghiệm Sinh
học phân tử châu Âu (EMBL), và GenBank tại NCBI.
GenBank là một bộ sưu tập của tất cả các trình tự DNA
được công khai. Trong GenBank các cá nhân, các nhà khoa
học từ khắp nơi trên thế giới, cũng như từ các trung tâm
lớn tham gia vào dự án nghiên cứu bộ gen con người. Số
lượng các trình tự DNA được lưu trữ trong cơ sở dữ liệu
GenBank, từ tất cả các sinh vật, gần đây đã đạt đến số
lượng khổng lồ và tiếp tục phát triển với một tốc độ nhanh
chóng.
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự nucleotide và protein:
a. EMBL
b. GenBank
c. DDBJ
Ngân hàng dữ liệu DNA của Nhật Bản là ngân hàng dữ
liệu về các trình tự nucleotide duy nhất ở châu Á, đó là nơi
chính thức thu thập trình tự nucleotide được tim ra bởi các
̀
nhà nghiên cứu .Cơ sở dữ liêu nay trao đổi các dữ liệu thu
̣ ̀
thập với Cơ sở dữ liêu EMBL viên tin sinh hoc châu âu
̣ ̣ ̣
và GenBank / NCBI trên cơ sở hàng ngày, ba cơ sở dữ liêu ̣
chia sẻ dữ liệu hầu như tât cả dữ liệu tại bất kỳ thời gian
́
̀
nao.
CSDL của DDBJ
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự nucleotide và protein:
a. EMBL
b. GenBank
c. DDBJ
d. Swiss-Prot là một cơ sở dữ liệu protein. Cơ sở dữ
liệu này cố gắng để cung cấp những thông tin ở mức độ
cao bao gồm: các mô tả về chức năng của các protein và
cấu trúc của nó, sự cải biến sau phiên mã, các dạng biến
đổi và những thông tin khác.
1.2. Cơ sở dữ liệu về các trình tự
Năm cơ sở dữ liệu trình tự chính trên mạng Internet
cung cấp thông tin về trình tự nucleotide và protein:
a. EMBL
b. GenBank
c. DDBJ
d. Swiss-Prot
e. The Protein Information Resource (PIR) được tích hợp
tài nguyên sinh học công cộng để hỗ trợ nghiên cứu di
truyền, protein và nghiên cứu khoa học.
Hiên nay, PIR cung cấp các nguồn lực hàng đầu thế
̣
giới để hỗ trợ cac dữ liệu protein và di truyền.
́
CSDL của PIR
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
1.1. Khái quát chung về cơ sở dữ liệu sinh
1.2.ọcơ sở dữ liệu về các trình
hC
Trong thập niên 70, các phương pháp cô lập trình tự ADN đã
tự
được thành lập và ý tưởng về lập bản đồ toàn bộ bộ gen được
hình thành. Một số loài sinh vật (virút, E.coli, nấm men, ruồi giấm)
đã nhanh chóng được nghiên cứu. Một danh sách cập nhật của tất
cả các trình tự bộ gen hoàn toàn có sẵn tại
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj. Thông
tin về bộ gen của một số loài (con người, cây Arabidopsis,
Saccharomyces cerevisiae) được cung cấp bởi MIPS
(http://mips.gsf.de ) The Munich Information Center Protein
Sequences.
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
1.1. Khái quát chung về cơ sở dữ liệu sinh
1.2.ọcơ sở dữ liệu về các trình
hC
NCBI thành lập vào ngày 04 Tháng Mười Một 1988, như
tự
một bộ phận của Thư viện Y khoa Quốc gia (NLM ) tại
Viện Y tế Quốc gia (NIH). NLM đã được lựa chọn do kinh
nghiệm của họ trong việc tạo ra và duy trì cơ sở dữ liệu y
sinh học. NIH là cơ sở nghiên cứu y sinh học lớn nhất trên
thế giới.
CSDL của NCBI
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
1.1. Khái quát chung về cơ sở dữ liệu sinh
1.2.ọcơ sở dữ liệu về các trình
hC
Trình tự DNA
tự
GenBank
http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html
Cơ sở dữ liệu Nucleotide EMBL
http://www.ebi.ac.uk/embl/index.html
DDBJ (ngân hàng dữ liệu DNA Nhật Bản)
http://www.ddbj.nig.ac.jp/
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
1.1. Khái quát chung về cơ sở dữ liệu sinh
1.2.ọcơ sở dữ liệu về các trình
hC
tự
Trình tự Protein
UniProt (Universal Resource Protein)
http://www.expasy.uniprot.org
bao gồm SWISS-PROT, TrEMBL, PIR
Cơ sở dữ liệu protein (NCBI)
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein
Trình tự Protein : UniProt (Universal Resource Protein)
http://www.expasy.uniprot.org
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
1.1. Khái quát chung về cơ sở dữ liệu sinh
1.2.ọcơ sở dữ liệu về các trình
hC
tự
Protein cấu trúc
Ngân hàng dữ liệu protein (PDB)
http://www.rcsb.org/pdb/
cơ sở dữ liệu Mô hình hóa phân tử (NCBI)
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.html
Protein cấu trúc: Ngân hàng dữ liệu protein (PDB)
http://www.rcsb.org/pdb/
PDB là kho lưu trữ duy nhất trên toàn thế giới, thông tin về các
cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và
axit nucleic. Đây là những phân tử của sự sống được tìm thấy
trong tất cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật,
ruồi, động vật khác, và con người. Hiểu biết về hình dạng của
một phân tử giúp chúng ta hiểu nó hoạt động như thế nào. Kiến
thức này có thể được sử dụng để giúp suy ra vai trò của một cấu
trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát
triển. PDB miễn phí cho người sử dụng. Các kho lưu trữ PDB
được cập nhật thứ tư mỗi tuần.
Cơ sở dữ liệu di truyền
Toàn bộ hệ gen (NCBI)
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Toàn bộ hệ gen vi sinh vật (TIGR)
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
hệ gen chưa chỉnh lý (TIGR)
http://tigrblast.tigr.org/ufmg/
Cơ sở dữ liệu mạch đơn nucleotide
http://www.ncbi.nlm.nih.gov/SNP/
Đột biến gen của con người
http://www.uwcm.ac.uk/uwcm/mg/hgmd0.html



Các cơ sở dữ liệu có thể được tìm kiếm có hệ thống, bởi các
từ khoá, hoặc bằng trình tự giống nhau.
1.3. Cơ sở dữ liệu về các tác phẩm và sáng
chế trình duyệt Entrez cũng cung cấp khả năng tìm kiếm
Các
MEDLINE (cơ sở dữ liệu về y học)
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi)
một cơ sở dữ liệu về ấn phẩm sinh học và y tế có thể được
truy cập tại Thư viện Y khoa Quốc gia. Trích dẫn bao gồm cả
thông tin về trình tự protein hoặc nucleotide được liên kết với
các cơ sở dữ liệu tương ứng và các trích dẫn khác có liên quan.
Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn mà
bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên
quan, và làm tăng khả năng tìm kiếm của bạn lên đáng kể.
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi)
Một trình tìm kiếm các bằng sáng chế của Mỹ đang được
cung cấp bởi US Patent và Trademark Office
(http://www.uspto.gov/patft/index.html).
The Bioinformatic Links Directory
(http://bioinformatics.ubc.ca/resources/links_directory/)
là một nguồn tài nguyên cộng đồng trực tuyến có chứa các
công cụ, cơ sở dữ liệu, tài nguyên cho tin sinh học và nghiên
cứu sinh học phân tử.
2. CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL

2.1. Công cụ của EMBL/EBI

a/ Similarity & Homology: Công cụ phân tích mức độ giống
nhau và tương đồng giữa các trình tự.

• Các công cụ như: Fasta, Blast, MPsrch và Scanps. Dạng
tìm kiếm và kết quả trả về qua email cũng được phát triển.

• Hai chương trình có thể được sử dụng để tìm kiếm, so
sánh mức độ giống nhau và mức độ tương đồng suy diễn
là BLAST or Fasta.
Công cụ tìm kiếm DNA và Protein chung
Công cụ Ứng dụng, mô tả
Blast2-WU Protein Tìm kiếm CSDL protein (Blast 2.0 with gaps) của Washington
University
Blast2-WU Nucleotide Tìm kiếm CSDL nucleotide (Blast 2.0 with gaps) Washington
University
Blast2-NCBI Protein Chương trình tìm kiếm CSDL protein của NCBI.(blastall)
Blast2-NCBI Nucleotide Chương trình tìm kiếm CSDL nucleotide của NCBI.(blastall)

Blast2-NCBI EVEC Chương trình nhằm phát hiện các trình tự lẫn với trình tự của các
vector.
Fasta Nucleotide Sử dụng FASTA để tìm các trình tự giống với trình tự nucleotide
trong CSDL
Fasta Protein Sử dụng FASTA để tìm các trình tự giống với trình tự protein trong
CSDL
Fasta-Proteome server Tìm kiếm bằng Fasta trong máy chủ Proteome
Fasta-Genome server Tìm kiếm bằng Fasta trong máy chủ genome
Fasta-WGS server Tìm kiếm bằng Fasta trong máy chủ WGS (các genome thu được
bằng phương pháp shotgun Whole genome shotgun - WGS)
Các công cụ tìm kiếm chuyên biệt cho DNA
Công cụ
Ứng dụng, mô tả
Blast2-ASD Tìm kiếm trình tự giống nhau nhờ máy chủ Blast2-ASD


Blast2-Parasite Tìm kiếm trình tự giống nhau nhờ máy chủ Parasite Genomes
blast
Fasta-ASD Sử dụng Fasta để tìm trình tự protein giống với CSDL ASD


Fasta-LGIC Protein server dụng Fasta để tìm trình tự protein giống với CSDL Ligand
Sử
Gated Ion Channel.
Fasta-LGIC Nucleotide Sử dụng Fasta để tìm trình tự nucleotide giống với CSDL
server
Ligand Gated Ion Channel.


Fasta-SNP server Fasta tìm kiếm trình tự tương đồng trong CSDL European SNP
(HGBASE).
b/ Protein Functional Analysis: Phân tích chức năng
của protein
c/ Proteomic Services
Bao gồm các phương thức truy cập vào các dịch vụ
proteomic do EBI cung cấp.
Công cụ Ứng dụng, mô tả
Dasty Công cụ cho phép trình bày những thông tin về
đặc điểm trình tự protein dưới dạng dễ quan
sát.
UniProt DASMáy chủ UniProt DAS cho phép các nhà nghiên
cứu trình bày kết quả nhiên cứu của mình,
chẳng hạn xác định các peptide hoặc các trình
tự tín hiệu trên máy chủ UniProt dưới dạng mô
tả của UniProtKB/Swiss-Prot.
d/ Sequence Analysis: Phân tích trình tự

• Sử dụng rất nhiều phương pháp tin sinh học để xác

định chức năng sinh học, cấu trúc của các gen và protein

mà chúng mã hóa.

• Các công cụ như Transeq có thể giúp xác định các

vùng mã hóa protein của một trình tự DNA. ClustalW

được sử dụng để so sánh trình tự DNA hoặc protein để

làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa

của chúng.
e/ Phân tích cấu trúc (Structural Analysis):

Một trong những công cụ đó là DALI. và MSDfold. Công

cụ của MSDfold hoặc DALI cho phép xác định cấu trúc

protein cần nghiên cứu và so sánh nó với các cấu trúc

trong PDB (Protein Data Bank).
2.2. Công cụ của NCBI
a/ Các công cụ phân tích trình tự
• Cluster of Orthologous Groups (COGs): Một hệ thống
của các họ gen từ các genom hoàn chỉnh.
• Gene Expression Omnibus (GEO): Kho dữ liệu gen biểu
hiện và các nguồn trực tuyến cho việc thu nh ận các d ữ
liệu gen biểu hiện.
• HomoloGene: So sánh các trình tự nucleotide giữa các
cặp sinh vật để xác định các gen ở các loài khác nhau
được tiến hóa từ một gen tổ tiên chung do quá trình phân
loài và chúng thường vẫn giữ được nguyên chức năng
trong quá trình tiến hóa.
Tìm khung đọc mở (ORF Finder): Một công cụ phân
tích hiện thị dưới dạng đồ hoạ cho phép tìm các
khung đọc mở của một đoạn trình tự hoặc một trình
tự có trong CSDL.
b/ Tìm kiếm trình tự giống nhau (Sequence Similarity
Searching)
c/ Hệ thống đơn vị phân loại (Taxonomy)
d/ Đăng ký trình tự (Sequence Submission)
• Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF
finder, một công cụ để sửa chữa và xem trình tự.
e/ Tìm kiếm các thuật ngữ (Text Term Searching)
• Entrez: Truy cập vào các dữ liệu trình tự protein và DNA
từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D,
các thông tin và bản đồ gen và PubMed MEDLINE.
.
f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả
tìm kiếm trình tự giống nhau (Tools for 3d structure
display and similarity searching)
g/ CSDL bản đồ (MAPS)
Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau
CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC
1. CƠ SỞ DỮ LIỆU SINH HỌC
2. CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL
3. THỰC HÀNH TÌM KIẾM CÁC DLSH

Nguyên tắc:
Đề thi vào lớp 10 môn Toán |  Đáp án đề thi tốt nghiệp |  Đề thi Đại học |  Đề thi thử đại học môn Hóa |  Mẫu đơn xin việc |  Bài tiểu luận mẫu |  Ôn thi cao học 2014 |  Nghiên cứu khoa học |  Lập kế hoạch kinh doanh |  Bảng cân đối kế toán |  Đề thi chứng chỉ Tin học |  Tư tưởng Hồ Chí Minh |  Đề thi chứng chỉ Tiếng anh
Theo dõi chúng tôi
Đồng bộ tài khoản