ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Hà Tun Cường
SP HÀNG HOÀN CHNH HAI H GENOME
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY

Ngành: Công Ngh Thông Tin
HÀ NI – 2010
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Hà Tun Cường
SP HÀNG HOÀN CHNH HAI H GENOME
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY


Ngành: Công Ngh Thông Tin
GV hướng dn: TS. Lê S Vinh
HÀ NI – 2010
Page|1
Li cm ơn
Li đầu tiên, em xin gi li cm ơn sâu sc nht đến thy giáo TS. Lê S
Vinh người đã không qun vt v tn tình hướng dn em trong sut thi gian làm
khóa lun tt nghip va qua.
Em cũng xin bày t lòng biết ơn ti các thy, cô giáo trong trường Đại
hc Công ngh - Đại hc Quc gia Hà Ni. Các thy cô đã dy bo, ch dn
chúng em và luôn to điu kin tt nht cho chúng em hc tp trong sut quá
trình hc đại hc.
Em cũng xin gi li cm ơn ti thy giáo PGS.TS. T Minh Phương,
người đã cho em nhng li khuyên b ích trong quá trình làm khóa lun.
Tôi cũng xin cm ơn nhng người bn ca mình, các bn đã luôn bên
tôi, giúp đỡ và cho tôi nhng ý kiến đóng góp quý báu trong hc tp cũng như
trong cuc sng.
Cui cùng con xin gi ti b m và toàn th gia đình lòng biết ơn và tình
cm yêu thương nht. Con xin dành tng b m kết qu mà con đã đạt được trong
sut bn năm hc đại hc. Con cám ơn b m và ch nhiu.
Khóa lun được tài tr mt phn bi đề tài nghiên cu QC.09.09 thuc
Đại hc Quc Gia Hà Ni.
Hà Ni, tháng 5 năm 2010
Hà Tun Cường
Page|2
Tóm tt
S phát trin ca công ngh gii mã trình t đã giúp gii mã ngày càng
nhiu các h gen, đặc bit là nhng h gen có kích thước va và nh như vi rút
hay vi khun (hơn 7000 b gen ca vi rút và vi khun đã được gii mã). Bên
cnh đó h gen ca nhng sinh vt bc cao cũng đã được gii mã hoàn chnh như
người, chó, chut. Điu đó dn đến mt nhu cu cp thiết là phi nghiên cu các
phương pháp và xây dng mt chương trình so sánh và bt cp trình t cho hai
h gen.
Trong khóa lun này, em xin đưc trình bày phương pháp và xây dng
mt chương trình so sánh bt cp trình t hoàn chnh cho hai h gen. Chương
trình cho phép bt cp toàn b các ADN trên c hai h gen, xác định được c
nhng biến đổi ca tng nucleotide và các biến đổi mc độ gen.
Chương trình được xây dng da trên c s
kết hp và ci tiến các
phương pháp đã có như “Pairwise Alignment with Rearrangement” [23],
BLASTZ [18]“Optimal Alignment with Linear space” [9]. Qua đó khc
phc nhng hn chế và la chn nhng ưu đim ca chúng để to thành mt
chương trình sp hàng h gen hoàn chnh. Chương trình đã được thc nghim kết
qu trên các d liu mô phng và các d liu tht được ly t Gen Bank ti NCBI
http://www.ncbi.nlm.nih.gov và thu được nhng kết qu kh quan.
Đối vi các d mô phng, kết qu sp hàng ca chương trinh cho thy đã
xác định được các đon gen có độ tương đồng rt cao, t l sp hàng gia các
nucleotide ging nhau đạt mc trên 97%. Khi thc nghim vi d liu tht và so
sánh độ tương đồng vi giá tr bt cp thu được khi chy phương thc
Hungarian[8] vi các h gen được chia sn bng cách s dng các đon gen cung
cp ti Gen Bank cũng cho kết qu tương đương thm chí tt hơn trong hu hết
các trường hp.
Page|3
Mc lc
Li cm ơn...........................................................................................................1
Tóm tt..................................................................................................................2
Mc lc.................................................................................................................3
Danh sách hình v............................................................................................5
Danh sách các bng..........................................................................................6
Li m đầu..........................................................................................................7
Chương 1. Gii thiu........................................................................................8
1.1.Trình t....................................................................................................8
1.1.1. H thng ký t......................................................................................9
1.1.2. Các phép biến đổi.................................................................................9
1.1.3. Khong cách.......................................................................................10
1.2.Bt cp trình t.....................................................................................10
1.3.Bt cp trình t h gen .........................................................................12
Chương 2. Bài toán sp hàng hoàn chnh hai h gen..........................16
2.1. Tng quan .................................................................................................16
2.2 Pairwise Alignment with Rearrangement...............................................16
2.2.1. Cơ s lý thuyết...................................................................................17
2.2.2. Thut toán...........................................................................................18
2.2.3. Độ phc tp ca thut toán .................................................................21
2.3. Bt cp vi nhng trình t ln................................................................22
Chương 3. Full Genome Alignment ..........................................................24
3.1. Xây dng h thng ...................................................................................24