1
ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
NGUYN HOÀNG ANH
NGHIÊN CU THUT TOÁN TÌM KIM CHUI
DNA S DỤNG PHƢƠNG PHÁP TÌM KIẾM
TƢƠNG TỰ NHANH
Ngành: H thng thông tin
Chuyên ngành: H thng thông tin
Mã s: 60 48 01 04
LUẬN VĂN THẠC SĨ HỆ THNG THÔNG TIN
NGƢỜI HƢỚNG DN KHOA HC: Tiến sĩ Nguyn Th Hu
HÀ NI 2016
2
LỜI CAM ĐOAN
Tôi xin cam đoan ni dung ca luận văn Nghiên cu thut toán tìm
kiếm chui DNA s dụng phương pháp tương t nhanh sn phm do
tôi thc hin dưới s hướng dn ca TS. Nguyn Th Hu. Trong toàn b ni
dung ca luận văn, những điều được trình bày hoc ca nhân hoc
được tng hp t nhiu ngun i liu. Tt c các tài liu tham khảo đều
xut x rõ ràng và được trích dn hp pháp.
Tôi xin hoàn toàn chu trách nhim và chu mi hình thc k lut theo
quy định cho lời cam đoan của mình.
Hà Nội, ngày 20 tháng 9 năm 2016
TÁC GI
Nguyn Hoàng Anh
3
MC LC
LỜI CAM ĐOAN ......................................................................................... 2
DANH MC KÍ HIU VÀ CH VIT TT ............................................ 5
GIỚI THIỆU ................................................................................................. 6
CHƢƠNG 1. TỔNG QUAN VỀ CÁC THUẬT TOÁN TÌM KIẾM
CHUỖI DNA ................................................................................................ 7
1.1. Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mô hình Markov
ẩn 7
1.2. Phƣơng pháp liên kết nhạy cảm đầy đủ ..................................... 8
1.3. Phƣơng pháp tìm kiếm tƣơng tự nhanh ..................................... 9
1.4. Phƣơng pháp sử dụng mô hình phù hợp gần đúng ................. 10
1.5. Phƣơng pháp sử dụng mô hình kết hợp chính xác và gần chính
xác 10
CHƢƠNG 2. N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI
TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM. ........................................... 12
2.1. Mô hình N-Gram ........................................................................ 12
2.1.1. Mt s khái nim .................................................................. 12
2.1.2. Mô hình ngôn ng N-gram ................................................... 12
2.1.3. Công thức tính “xác suất thô” ............................................... 12
2.1.4. Khó khăn khi xây dựng mô hình ngôn ng N-gram : ........... 13
2.2. Phƣơng pháp tƣơng tự nhanh áp dng N-gram tìm kiếm chui
DNA. ...................................................................................................... 13
2.2.1. Phân đoạn DNA .................................................................... 13
2.2.2. Các “từ DNA” ...................................................................... 13
2.2.3. Quá trình tìm kiếm chui và hin th kết qu ....................... 14
2.3. Bng kết qu các ln th phƣơng pháp tìm kiếm chuỗi tƣơng
t nhanh áp dng N-Gram .................................................................... 16
4
2.3.1. Định dng chuỗi cơ s d liu .............................................. 16
2.3.2. Bng kết qu các ln th phương pháp tìm kiếm chuỗi tương
t nhanh áp dng N-Gram .................................................................... 17
2.4. Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp
dng N-Gram .......................................................................................... 17
2.4.1. Ci thin thi gian tìm kiếm ................................................. 17
2.4.2. Tiết kim b nh trong quá trình tìm kiếm ........................... 18
CHƢƠNG 3. THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM
TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI PHƢƠNG PHÁP
BLAST VÀ PHƢƠNG PHÁP SMITH-WATERMAN ........................... 19
3.1. Môi trƣờng thc nghim ............................................................ 19
3.2. Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh
áp dụng N-Gram với phƣơng pháp BLAST và phƣơng pháp Smith-
Water Man .............................................................................................. 21
KT LUN ................................................................................................. 22
TÀI LIU THAM KHO .......................................................................... 23
5
DANH MC KÍ HIU VÀ CH VIT TT
Kí hiu
Tiếng Anh
Tiếng Vit
DNA
Deoxy Ribonucleic Acid
Phân t mang cu trúc
gen di truyn
NST
Chromosome
Nhim sc th
A
Adenine
T
Thymine
G
Guanine
C
Cytosine
SNP
Single nucleotide
polymorphisms
Tính đa hình của phân t
nucleotit. Mi SNP biu
din mt biến đổi trong
mt khi chui DNA
CPU
Cental Processing Unit
B x lý trung tâm
RAM
Random access memory
B nh truy cp ngu
nhiên
NCBI
National Center for
Biotechnology Information
Trung tâm quc gia
thông tin công ngh sinh
Differential Direct coding
Mã hóa trc tiếp phn
khác bit
HMM
Hidden Markov Modeling
Mô hình Markov n
BLAST
Basic Local Alignment Search
Tool
Công c tìm kiếm cc b
theo mu có sn
HTS
High Throughput Sequencing
Trình t chuỗi đa lưng