ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
NGUYN THU TRANG
BÀI TOÁN TÌM KIM MOTIF VÀ
PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN
Ngành : Công ngh thông tin
Chuyên ngành : H thng thông tin
Mã s : 60480104
TÓM TT LUẬN VĂN THẠC SĨ CÔNG NGH THÔNG TIN
Hà Ni - 2016
MC LC
M ĐẦU .................................................................................................................................................. 1
Chƣơng 1: TIN SINH HỌC VÀ BÀI TOÁN TÌM KIM (l,d) MOTIF .................................................. 3
1.1. Tin sinh hc ................................................................................................................................. 3
1.1.1 Gii thiu v tin sinh hc ...................................................................................................... 3
1.1.2 Khái nim trong sinh hc ...................................................................................................... 3
1.1.2.1 DNA ................................................................................................................................ 3
1.1.2.2 RNA ................................................................................................................................ 3
1.1.2.3 Protein ............................................................................................................................. 4
1.1.2.4 Quá trình tng hp protein .............................................................................................. 4
1.1.2.5 Mt s bài toán trong tin sinh hc ................................................................................... 4
1.1.3 Motif ..................................................................................................................................... 5
1.1.3.1 Quá trình điều hòa gen .................................................................................................... 5
1.1.3.2 Ý nghĩa của Motif ........................................................................................................... 5
1.1.3.3 Biu din Motif ............................................................................................................... 5
1.2. Bài toán tối ƣu tổ hp và bài toán tìm kiếm (l,d) motif ............................................................... 6
1.2.1 Bài toán tối ƣu tổ hp ........................................................................................................... 6
1.2.1.1 Gii thiu bài toán tối ƣu tổ hp ..................................................................................... 6
1.2.1.2 Gii thiệu bài toán ngƣời chào hàng ................................................................................ 7
1.2.1.3 Các cách tiếp cn gii quyết bài toán ti ƣu t hp ......................................................... 7
1.2.2 Phát biu bài toán tìm kiếm (l,d) motif ................................................................................. 8
CHƢƠNG 2. Giới thiu v thut toán ant colony optimization (ACO) ................................................. 10
2.1 Gii thiu v thut toán ACO ..................................................................................................... 10
2.2 Mô hình mô phng ca thut toán .............................................................................................. 10
2.2.1 Kiến t nhiên ...................................................................................................................... 10
2.2.2 Kiến nhân to (Artificial Ant) ............................................................................................. 11
2.3 Trình bày gii thut .................................................................................................................... 11
2.3.1 Đồ th cu trúc .................................................................................................................... 11
2.3.2 Trình bày thuật toán ACO cơ bản ....................................................................................... 12
2.3.3 Thông tin Heuristic ............................................................................................................. 12
2.3.4 Quy tc cp nht vết mùi .................................................................................................... 13
2.3.4.1 Thut toán AS................................................................................................................ 13
2.3.4.2 Thut toán ACS ............................................................................................................. 13
2.3.4.3 Thut toán Max-Min ..................................................................................................... 13
2.3.4.4 Thut toán Max- Min trơn ............................................................................................. 13
2.3.5 ACO kết hp vi tìm kiếm địa phƣơng .............................................................................. 13
2.3.6 S ng kiến ...................................................................................................................... 13
2.3.7 Tham s bay hơi ................................................................................................................. 13
Chƣơng 3: THUẬT TOÁN ĐỀ XUT .................................................................................................. 14
3.1 Thut toán tối ƣu đàn kiến .......................................................................................................... 14
3.2. Xây dựng đồ th cu trúc ........................................................................................................... 14
3.3. Thông tin heuristic ..................................................................................................................... 14
3.4. Xây dng li gii tun t ........................................................................................................... 14
3.5. Quy tc cp nht mùi (pheromone update rule)......................................................................... 15
3.6. Tìm kiếm địa phƣơng (local search) .......................................................................................... 15
Chƣơng 4: KẾT QU THC NGHIM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QU ............................... 17
4.1 B d liu chun ......................................................................................................................... 17
4.2 Tiến hành chy thc nghim trên h điu hành ubuntu .............................................................. 17
4. 3 Kết qu chy thc nghiệm và đánh g ...................................................................................... 17
4.3.1 Kết qu thc nghim ........................................................................................................... 17
4.3.2 So sánh và đánh g ............................................................................................................ 19
4.3.2.1 So sánh vi MEME ....................................................................................................... 19
4.3.2.2 Kết qu so sánh F-ACOMotif vi Pairmotif+ và MEME trên tp d liu thc ............ 19
KT LUẬN VÀ HƢỚNG PHÁT TRIN ............................................................................................. 21
1
M ĐẦU
Tin sinh hc có ng dng cao trong cuc sống, đặc biệt trong lĩnh vực y dƣợc.
V bản, tin sinh hc tp trung vào nghiên cu áp dụng các phƣơng pháp cũng
nhƣ các thuật trong tin học để gii quyết các bài toán trong sinh hc phân t. m
kiếm motif trong các chui gene mt trong nhng bài toán quan trng nht ca tin
sinh hc và thuc loi NP-khó.
Các thành phần điều hòa gene (gene regulatory elements) đƣc gi các DNA
motif (v sau gi motif cho gn), chúng cha nhiu thông tin sinh hc quan trng.
vy vic nhn dạng DNA motif đang một trong nhng bài toán quan trng nht
trong tin sinh hc thuộc loại NP-khó. Chủ yếu, 2 cách tiếp cận để m kiếm
motif: các phƣơng pháp thực nghiệm các phƣơng pháp tính toán. chi phí cao
tốn thời gian nên các phƣơng pháp thực nghiệm ít hiệu quả. Phƣơng pháp tính toán
đang đƣợc dùng rộng rãi cho d đoán motif.
Ngƣời ta đƣa ra nhiu phát biu cho bài toán tìm kiếm motif, nhiu thut
toán nghiên cu và công b gii quyết bài toán tìm kiếm motif. Trong luận văn này, tôi
trình bày bài toán (ℓ,d) motif. nhiu thuật toán đƣa ra đ gii quyết bài toán (ℓ,d)
motif, các thut toán y th chia thành 2 loi đó thuật toán chính xác thut
toán xp x. Các thut toán chính xác luôn luôn tìm ra nhng motif trong nhng chui
DNA đầu vào nhƣng chỉ hiu qu vi các d liệu kích thƣớc nh thc hin mt
nhiu thi gian. Các thut toán xp x th không tìm ra đƣợc tt c các motif nhƣng
nó chy hiu qu vi các d liu ln.
Luận văn đề xut gii quyết bài toán (,d) motif theo thut toán xp x, bng
việc đề xut thut toán tối ƣu đàn kiến Ant colony optimization (ACO) đ gii quyết
bài toán (,d) motif. Đây là thut toán mi lần đầu đƣợc đƣa o đ gii i toán
(ℓ,d) motif. Thuật toán đƣợc đặt tên F-ACOMotif. trong thc nghiệm đã chỉ ra
đƣợc thut toán F-ACOMotif tối ƣu hơn các thut toán PairMotif+ MEME v đ
chính xác khi tìm ra (ℓ,d) motif.
Ngoài phn kết lun, cu trúc ni dung ca luận văn bao gm 4 chƣơng nhƣ
sau:
Chƣơng 1: Trình bày lƣợc các khái nim v tin sinh hc, bài toán tối ƣu tổ
hp và phát biểu bài toán (ℓ,d) motif.
Chƣơng 2: Gii thiu thut toán Ant colony optimization (ACO) mt vài
thut toán cp nht mùi khác nhau trong ACO.
2
Chƣơng 3: Đề xut thut toán, đó thuật toán Ant colony optimization (ACO)
để gii quyết bài toán (,d) motif.
Chƣơng 4: Đƣa ra kết qu thc nghim ca luận văn, so sánh kết qu ca thut toán
ACO vi các thut toán PairMotif+ và thut toán MEME.