1
ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
NGUYN HOÀNG ANH
NGHIÊN CU THUT TOÁN TÌM KIM CHUI
DNA S DNG PHƢƠNG PHÁP TÌM KIM TƢƠNG
T NHANH
LUẬN VĂN THẠC SĨ H THNG THÔNG TIN
HÀ NI 2016
2
ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
NGUYN HOÀNG ANH
NGHIÊN CU THUT TOÁN TÌM KIM CHUI
DNA S DNG PHƢƠNG PHÁP TÌM KIM TƢƠNG
T NHANH
Ngành: H thng thông tin
Chuyên ngành: H thng thông tin
Mã s: 60 48 01 04
LUẬN VĂN THẠC SĨ HỆ THNG THÔNG TIN
NGƢỜI HƢỚNG DN KHOA HC: Tiến sĩ Nguyễn Th Hu
HÀ NI 2016
3
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung ca luận văn Nghiên cu thut toán tìm kiếm
chui DNA s dng phương pháp tương t nhanhsn phm do tôi thc hin
i s ng dn ca TS. Nguyn Th Hu. Trong toàn b ni dung ca luận văn,
những điều được trình bày hoc ca nhân hoặc được tng hp t nhiu
ngun tài liu. Tt c các tài liu tham khảo đu xut x ràng được trích
dn hp pháp.
Tôi xin hoàn toàn chu trách nhim chu mi hình thc k lut theo quy
định cho lời cam đoan của mình.
Hà Nội, ngày 20 tháng 9 năm 2016
TÁC GI
Nguyn Hoàng Anh
4
LI CẢM ƠN
Trước tiên tôi xin gi li cảm ơn chân thành tới tp th các các thy giáo
trong Khoa Công ngh Thông tin, Trường Đại hc Công nghệ, Đại hc Quc gia
Nội đã giúp đỡ tận tình và chu đáo đ tôi môi trưng tt hc tp nghiên
cu.
Đặc bit, tôi xin bày t lòng biết ơn sâu sc ti TS. Nguyn Th Hậu, người
trc tiếp đã hướng dn, ch bo tôi tn tình trong sut quá trình nghiên cu và hoàn
thin luận văn này.
Mt ln nữa tôi xin được gi li cảm ơn đến tt c các thy cô giáo, bn bè và
gia đình đã giúp đỡ tôi trong thi gian va qua. Tôi xin kính chúc các thy cô giáo,
các anh ch và các bn mnh khe và hnh phúc.
Hà Nội, ngày 20 tháng 9 năm 2016
TÁC GI
Nguyn Hoàng Anh
5
MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... 3
LỜI CẢM ƠN ........................................................................................................... 4
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT ....................................................... 7
GIỚI THIỆU ............................................................................................................ 8
CHƢƠNG 1. TỔNG QUAN V C THUẬT TOÁN M KIẾM CHUỖI
DNA .........................................................................................................................13
1.1. Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mô hình Markov ẩn ............ 13
1.2. Phƣơng pháp liên kết nhạy cảm đầy đủ....................................................... 15
1.3. Phƣơng pháp tìm kiếm tƣơng tự nhanh ...................................................... 21
1.4. Phƣơng pháp sử dụng mô hình phù hợp gần đúng .................................... 25
1.5. Phƣơng pháp sử dụng mô hình kết hợp chính xác và gần chính xác ........ 31
CHƢƠNG 2. N-GRAM PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG
TỰ NHANH ÁP DỤNG N-GRAM. ......................................................................35
2.1. Mô hình N-Gram ............................................................................................ 35
2.1.1. Mt s khái nim ...................................................................................................... 35
2.1.2. Mô hình ngôn ng N-gram ....................................................................................... 36
2.1.3. Khó khăn khi xây dựng mô hình ngôn ng N-gram : ............................................... 37
2.1.4. Các phương pháp khắc phc cm N-Gram phân b không đều ............................... 38
2.2. Phƣơng pháp tƣơng t nhanh áp dng N-gram tìm kiếm chui DNA. .... 39
2.2.1. Phân đoạn DNA ........................................................................................................ 39
2.2.2. Các “từ DNA” ........................................................................................................... 40
2.2.3. Quá trình tìm kiếm chui và hin th kết qu............................................................ 40
2.3. Bng kết quc ln th phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp
dng N-Gram ............................................................................................................ 48
2.3.1. Định dng chuỗi cơ sở d liu .................................................................................. 48