ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Hoàng Dũng
CÁC PHƯƠNG PHÁP SP HÀNG ĐA CHUI
NHANH
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công Ngh Thông Tin
Cán b hướng dn: Tiến sĩ. Lê S Vinh
HÀ NI - 2010
LI CM ƠN
Đầu tiên, tôi xin gi li cm ơn ti gia đình, nơi đã động viên và to mi điu
kin giúp tôi hc hành tt nht trong sut nhng năm qua.
Tôi xin chân thành cm ơn các thy cô giáo trong trường Đại hc Công ngh -
Đại hc Quc gia Hà Ni đã tn tình giúp đỡ và truyn đạt kiến thc cho tôi trong sut
4 năm hc qua để tôi có đủ kiến thc hoàn thành khóa lun này.
Đặc bit, tôi xin gi li cm ơn sâu sc ti thy Lê S Vinh – người đã nhit tình
giúp đỡ, định hướng cũng như động viên tôi trong quá trình nghiên cu và hoàn thành
khóa lun.
Tôi xin gi li cm ơn chân thành ti thy T Minh Phương trường đại hc Bưu
Chính Vin Thông, người đã truyn dy cho tôi nhng kiến thc quan trng liên quan
trc tiếp đến đề tài ca khóa lun.
Tôi cũng xin cm ơn các bn trong nhóm Tin sinh. Các bn đã giúp đỡ tôi rt
nhiu trong vic hoàn thành khóa lun.
Mc dù đã rt c gng hoàn thành khóa lun này, xong khóa lun s khó tránh
khi nhng thiếu sót, kính mong quý thy cô tn tình ch bo giúp tôi. Mt ln na tôi
xin cm ơn tt c mi người.
Hà Ni, tháng 5 năm 2010
Sinh viên
Nguyn Hoàng Dũng
Tóm tt
Tin Sinh hc (bioinformatics) là mt lĩnh vc khoa hc s dng các công ngh
ca các ngành tin hc, toán hc ng dng, thng kê, khoa hc máy tính, trí tu nhân
to, hóa hc và hóa sinh để gii quyết các vn đề sinh hc. Sp hàng đa chui là mt
vn đề quan trng trong lĩnh vc tin sinh hc. Trong nhng năm gn đây, cht lượng
ca các chương trình sp hàng đa chui đã được ci thin rt nhiu bi rt nhiu thut
toán mi. Mc dù vy, lĩnh vc vn là mt nhim v khó khăn cho các nhà khoa hc.
Mi mt thut toán, mt chương trình sp hàng đa chui đều có nhng ưu đim và
nhược đim riêng ca mình. Vì thế cn tìm cách ti ưu tng ưu đim ca tng phương
pháp, và hn chế nhược đim ca chúng.
Khóa lun s trình bày v các phương pháp sp hàng đa chui được ng dng
rng rãi hin nay đồng thi phân tích và đưa ra mt gii pháp nhm phát huy ti đa ưu
đim cũng như hn chế ti thiu nhược đim ca tng phương pháp.
Mc Lc:
Chương 1. Gii thiu .......................................................................................................1
1.1 Multiple alignment .................................................................................................1
1.2 Các chương trình sp hàng đa chui (multiple sequences alignment ) thông dng
hin nay ........................................................................................................................3
Chương 2. Các phương pháp bt cp đa chui................................................................5
2.1 CLUSTALW ..........................................................................................................5
2.1.1 Tính toán ma trn khong cách gia mi cp chui ........................................5
2.1.2 To cây hướng dn (guide tree).......................................................................5
2.1.3 Progressive alignment......................................................................................6
2.2. MUSCLE...............................................................................................................7
2.2.1 Các loi khong cách và các cách xây dng cây hướng dn ...........................7
2.2.2 Profile alignment..............................................................................................8
2.2.3 Thut toán ........................................................................................................8
2.3 MAFFT.................................................................................................................10
2.3.1 Bt cp nhóm s dng FFT............................................................................10
2.3.2 H thng tính đim.........................................................................................13
2.4 PROBCONS.........................................................................................................15
Chương 3. Cây quyết định.............................................................................................17
3.1 Cách gii quyết ca Chuong B. Do và Kazutaka Katoh ......................................17
3.2 Vn đề tc độ........................................................................................................18
3.2.1 D liu vi s lượng chui ln ( > 200 chui) ..............................................18
3.2.2 D liu vi s lượng sequence nh, tng s amino axit nh.........................19
3.2.3 D liu vi độ dài ca chui quá ln ( > 2000 amino acids).........................20
3.3 Vn đề đim chun (benchmark)..........................................................................21
3.3.1 Vi các chui có độ tương đồng cao .............................................................21
3.3.2 Vi các chui có độ tương đồng thp ............................................................21
3.4 Cây quyết định......................................................................................................22
3.4.1 Cây quyết định cho yêu cu tc độ x lý cao ................................................23
3.4.2 Cây quyết định cho yêu cu tc đim chun cao...........................................24
Chương 4: Kết qu thc nghim và bình lun...............................................................26
4.1 Gii thiu v BAliBASE......................................................................................26
4.1.1 BAliBASE 2...................................................................................................26
4.1.2 BAliBASE 3...................................................................................................26
4.1.3 Cách đánh giá ca BAliBASE .......................................................................27
4.2 Kết qu thc nghim ............................................................................................28
Chương 5: Kết Lun ......................................................................................................34
Tài Liu Tham Kho......................................................................................................35