TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics)
Chương 3: BẮT CẶP TRÌNH TỰ (SEQUENCE ALIGNMENT)
PGS.TS. Trần Văn Lăng Email: langtv@vast.vn
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
NỘI DUNG
MỘT SỐ KHÁI NIỆM CHUNG
• Giới thiệu • Bắt cặp hai trình tự • Bắt cặp nhiều trình tự
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
1
Nhắc lại
• Các tế bào, với các ngăn khác nhau của nó gọi là bào quan, phải đối mặt với một vấn đề là: – Tế bào sản xuất các phân tử như kích thích tố, dẫn
truyền thần kinh, các cytokine và enzyme
– Chúng phải được gửi đến nơi khác bên trong tế bào,
• Sinh vật được tạo thành từ tế bào. • Bên trong mỗi tế bào - ngoại trừ hồng huyết cầu trưởng thành - có nhân (nucleus) chứa tất cả các chỉ thị di truyền (genetic instruction)
hoặc xuất ra khỏi tế bào.
• Những chỉ thị này là chức năng của tế bào
– Việc sản xuất và vận chuyển này phải được thực hiện
đúng nơi và đúng lúc.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Chẳng hạn, mỗi tế bào người có 46 nhiễm sắc
thể, được tổ chức thành 23 cặp.
• Mỗi nhiễm sắc thể được cấu thành bởi một trình
tự DNA
• DNA chứa các gen mã hóa RNA mà nó sẽ sinh
• Một gene là một đoạn của DNA với trình tự base đặc trưng – cụ thể, gọi là mã di truyền (genetic code), hay chỉ thị di truyền để xác định chức năng của tế bào
ra các protein, để từ đó điều chỉnh tất cả các quá trình phát triển của một sinh vật
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
2
Khái niệm bắt cặp
• Bắt cặp trình tự, hay là sắp xếp thẳng hàng trình
tự (Sequence Alignment)
• Việc thêm các gap biểu thị sự đột biến mất
• Mục đích đạt đến sự giống nhau đến mức tối đa
của các trình tự
nucliotide đã xãy ra tại vị trì này trên trình tự. • Trong tin học, việc thêm ký tự gap là khoảng
trống (“-”) giúp cho việc tạo ra 2 chuỗi ký tự gần giống nhau nhất.
• Việc bắt cặp được thực hiện bằng cách thêm các “gap” vào các vị trí có thể sao cho các cột giống nhau hoặc tương tự nhau
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Tiến hóa và đột biến
• Dưới góc độ sinh học, đột biến xãy ra trên cả một
• Trong sự tiến hóa, các gốc giống nhau đó chính
trình tự DNA của bộ gene.
là một phần của trình tự sinh học tổ tiên.
• Còn các gốc bắt cặp không giống nhau chính là
sự đột biến của một trong hai trình tự. – Tuy nhiên, không thể xác định trình tự nào bị đột biến
so với trình tự nào.
• Vì vậy có thể xãy ra tại: – các gene mã hóa protein – các gene mã hóa phân tử RNA chức năng – trình tự điều hòa tham gia bật tắc gene khác – vùng trình tự nối các gene
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
3
• Từ đó, đột biến có thể ảnh hưởng hay không ảnh
hưởng đến kiểu hình của sinh vật.
• Khi phân loại, có 2 loại đột biến
– đột biến điểm: chỉ xãy ra ở một nucleotide, sẽ rất
• Qua thời gian, những đột biến có lợi hoặc không có hại sẽ được giữ lại trong quần thể, kích thích sự hình thành và phát triển loài mới.
quan trọng nếu tại vùng mã hóa protein, hay vùng tín hiệu
• Đó chính là sự tiến hóa (evaluation), trong đó đột
biến là nguyên liệu quan trọng
– đột biến đoạn: do mất hay thêm một đoạn trình tự. Kết quả của việc đột biến đoạn là sự nhân đôi gene hay nhân đôi một vùng nhiễm sắc thể
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ví dụ
• Tương tự, với 2 trình tự dài hơn
• Ví dụ bắt cặp 2 trình tự
• Hoặc 2 trình tự
– GAATTCAGTTA – GGATCGA
• Kết quả
– tcctctgcctctgccatcat---caaccc – |||| ||| ||||| ||||| |||||| – tcctgtgcatctgcaatcatgggcaaccc
– ACGCTG – CATGT • Kết quả
– GAATTCAGTTA – | || | | | – GGAT-C-G—-A
– ACGCTG- – | | | – -C-ATGT
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
4
Ký tự “gap”
• Ký tự “gap” là chỗ trống, khe hở, chỗ gián đoạn,
Cho 2 trình tự: u = ATCTGATG v = TGCATAC
chỗ thiếu sót.
Nếu lấy v làm căn cứ, thì u có: • 4 match • 1 mismatch • 3 insertion • 2 deletion
match
• Trong sinh học gap có ý nghĩa: sự đột biến, hoặc
deletion
mất đi do quá trình tiến hóa
A
T
-
C
-
T
G
A
T
G
-
T
G
C
A
T
-
A
-
C
mismatch
insertion
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Về bắt cặp trình tự protein
• Sự bắt cặp trình tự không chỉ dừng lại ở trình tự
DNA mà cả trình tự protein.
• Trong đó, việc chỉ có 4 ký tự được thay bởi 20 ký
tự.
• Mục đích
– Bắt cặp trình tự nhằm nghiên cứu sự tiến hóa – Hoặc để tìm kiếm, so sánh mức độ tương đồng giữa
• Tuy nhiên, do protein có đặc điểm bảo tồn cấu trúc và chức năng cao (bởi nếu mất chức năng sẽ gây bất lợi)
các trình tự
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
5
Đánh giá sự bắt cặp
• Thế nào là sự bắt cặp tốt, tiêu chuẩn nào. • Có thể cho điểm tốt đối với giá trị Match, điểm
• Vì vậy, trong qua trình tiến hóa có khuynh hướng chỉ thay thế các amino acid có cấu trúc tương tự, ít làm thay đổi đến cấu trúc và chức năng protein
xấu với các trường hợp ngược lại.
• Những trình tự protein trong cùng một họ tiến
hóa chung thường có sự thay thế giữa các amino acid có cùng đặc tính hóa lý.
• Tuy nhiên, với trình tự protein việc thay thế một amino acid khác vẫn bảo toàn cấu trúc và chức năng cũng không thể là điểm xấu
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Đánh giá
• Sự tương tự giữa PAM và BLOSUM:
• Chính vì vậy, với việc bắt cặp trình tự protein có các ma trận điểm thay thế để xem xét khả năng thay thế amino acid mà không ảnh hưởng này.
– PAM100 ~ BLOSUM90 – PAM160 ~ BLOSUM62 – PAM250 ~ BLOSUM45
• Có 2 loại ma trận điểm thay thế:
• PAM được tạo ra từ khoảng cách tiến hóa trong
– Ma trận PAM (Percentage Accepted Mutation) – Ma trận BLOSUM (BLOck SUbstitution Matrix)
các trình tự liên quan. – Chẳng hạn, PAM100 có khoảng cách tiến hóa 100
lần đột biến trên 100 gốc amino acid
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
6
Hàm đánh giá trình tự DNA
• Đánh giá sự bắt cặp trình tự DNA: dùng hàm
đánh giá.
• Chẳng hạn, nếu
• BLOSUM được tính toán thông qua tần suất thay thế của các cặp amino acid trong việc bắt cặp các trình tự có độ tương đồng cao. – Chẳng hạn, BLOSUM45 gồm các nhóm trình tự giống
– Match (Giống nhau ở cùng vi trí): giá trị là +2 – Mismatch (Không giống nhau): giá trị là -1 – Gap (Thêm vào hoặc bị loại bỏ): giá trị là -2
nhau 45%
• Hàm đánh giá có giá trị càng cao thì sự giống
nhau càng nhiều.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Trong đó,
– na, ni, ng: tương ứng là số phần tử giống nhau (match),
không giống nhau (mitmatch) và số gap.
• Định nghĩa: Mức độ tương đồng (điểm đánh giá) của 2 trình tự bắt cặp S1’ và S2’ là đại lượng:
– match, mismatch, gap: tương ứng là giá trị tính toán
để đánh giá.
na x match + ni x mismatch + ng x gap
– Thông thường, điểm dương cho match, điểm âm cho
sự đột biến (mismatch và gap)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
7
Ví dụ
• Với
GAATTCAGTTA | || | | | GGAT-C-G—-A
– match = 2 – mismatch = -1 – gap = -2
• Điểm đánh giá: 6 x (+2) + 4 x (-2) + 1 x (-1) = 3
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
ACGCTG- | || -C-ATGT
AC--GCTG | | | -CATG-T-
• Điểm đánh giá: 3 x (+2) + 5 x (-2) + 0 x (-1) = -4
• Điểm: 3 x (+2) + 3 x (-2) + 1 x (-1) = -1 tcctctgcctctgccatcat---caaccc |||| ||| ||||| ||||| |||||| tcctgtgcatctgcaatcatgggcaaccc
• Điểm: 23 x (+2) + 3 x (-2) + 3 x (-1) = 37
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
8
Phân loại
• Có 2 loại:
– Bắt cặp cục bộ (Local alignment): chỉ thực hiện trên một vùng trình tự con tương đồng nằm ở các vị trí khác nhau trên hai trình tự.
– Bắt cặp toàn cục (Global alignment): được áp dụng trên toàn bộ trình tự để tìm sự tương đồng giữa các trình tự.
– Thường được sử dụng khi 2 trình tự có độ tương đồng
– Mục đích tìm ra vùng trình tự tương đồng nhất. – Sử dụng khi so sánh 2 trình tự có chiều dài khác nhau, mức độ tương đồng trên toàn bộ là thấp. Thuật toán: Smith - Waterman
cao, chiều dài xấp xỉ nhau Thuật toán sử dụng: Needleman - Wunsch
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bắt cặp hai trình tự
Ví dụ PSA
– S1 = “ACGCTG” – S2 = “CATGT”
• Bài toán (Pairwise Sequence Alignment - PSA): cho 2 trình tự sinh học S1, S2. Hãy tìm 2 trình tự S1’, S2’ bằng cách thêm các ký tự ‘-’ sao cho: – Điểm đánh giá Score(S1’, S2’) là lớn nhất với giá trị
match, mismatch và gap cho trước
– S1’ = “-ACGCTG” – S2’ = “CATG-T-”
– Chiều dài S1’, S2’ là bằnh nhau (|S1’| = |S2’|) – Nếu loại bỏ ký tự gap từ S1’, S2’ sẽ nhận được S1, S2
ban đầu
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
9
Bắt cặp đa trình tự
Ví dụ MSA
• Thông thường, bắt cặp đa trình tự được sử dụng khi cần tìm kiếm một trình tự đại diện trong tập hợp nhiều trình tự sinh học.
• Bài toán (Multiple Sequence Alignment - MSA): Cho k trình tự sinh học S1, S2, …, Sk. Hãy tìm k trình tự S1’, S2’,…, Sk’ bằng cách thêm các ký tự ‘-’ sao cho: – Mức độ tương đồng của các trình tự này là cao nhất – |S1’| = |S2’|= … = |Sk’| – Nếu loại bỏ ký tự gap từ S1’, S2’, …,Sk’ sẽ nhận được
S1, S2, …, S2 tương ứng
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ví dụ
• Trong quá trình tiến hóa, một đoạn gen có thể:
• Với đoạn trình tự “ACTCGATT” – Mất T,C ở vị trí 3, 4: “ACGATT” – Đột biết vị trí 2 (thay C bằng G), vị trí 3 (thay G bằng
C), vị trí 6 (thay T bằng C): “AGCATC”
– Thêm TA vào vị trí 4: “AGCTAATC”
– đột biến – mất đi – di truyền lại (giữ lại)
• Như vậy, từ “ACTCGATT” sẽ tiến hóa “AC--GATT”,
“AG--CATC”, “AG--CTAATC”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
10
• Như vậy, với 2 trình tự:
– ACTCGATT – AGCTAATC
• có thể được bắt cặp là:
• Khi đó, ký tự “gap” vừa: – deletion gap: mất đi – insertion gap: thêm vào
– ACTCG--ATT – | || – AG—CTAATC
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Có thể tìm tại http://www.clustal.org/clustal2/
Sử dụng PHẦN MỀM CLUSTALX
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
11
Ví dụ
>Seq1 ACTCCGATT >Seq2 AGCTAATC
• Để bắt cặp 2 trình tự, – tạo file dạng FASTA – chọn File/Load Sequences
• Có hai dạng Clustal trên 3 hệ điều hành khác
là file mới tạo
– chọn Alignment/Do
Complete Sequences
nhau: Linux, Mac OS X, Windows: – ClustalW: thực thi ở chế độ dòng lệnh – ClustalX: dùng ở chế độ khung của sổ (window)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Hoặc có thể viết một application
Thuật toán NEEDLEMAN - WUNSCH
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
12
• Cho 2 trình tự lần lượt có chiều dài là n và m • Thuật toán gồm các bước sau:
• Do Saul Needleman và Christian Wunsch đưa ra
– Bước 1: Khởi tạo giá trị ban đầu cho ma trận tính toán
vào năm 1970
M như sau:
• Áp dụng trên toàn bộ trình tự để tìm sự tương
,
{
đồng giữa toàn bộ 2 trình tự (bắt cặp toàn cục – Gobal Alignment)
Mi0 = id, ∀i = 0,n, M0 j = jd, ∀j = 0,m Mij = max Mi−1,j−1 +σij ,Mi−1,j + d,Mi,j−1 + d} ∀i = 1,n; j = 1,m match
, d = gap
σij =
mismatch
# $ %
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Giải thích kết quả
• Ví dụ cho 2 trình tự
– CATGT – ACGCTG
• Các giá trị tính toán
– match = 2 – mismatch = -1 – d = -2
• Ma trận M như bảng
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
52
13
T T G C A A T G T C -4 -8 -10 -6 -2 0 0 -4 -6 -8 -10 -2 -1 -2 A -2 A 0 -2 -4 -6 -1 -4 C -2 -1 -3 -5 0 -4 C -6 G -2 -1 -3 1 -1 -6 G -8 C -4 -3 -2 -1 0 -8 C -10 T -5 -1 -3 1 -6 -10 T -12 G -7 -3 1 -1 -8 -12 G
T
T
G
C
A
C
A
T
G
T
-6
-8
-10
-2
-4
0
-2
0
-4
-6
-8
-10
-1
0
-2
A
-1
-2
A
0 -2
-4
C
-4
C
-6
G
-6
G
-8
C
-8
C
-10
T
-10
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
53
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
54
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
55
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
56
14
A T G T C C A T G T -4 -6 -8 -10 -2 0 -2 0 -4 -6 -8 -10 0 -2 -4 -1 -2 A -1 -2 A 0 -2 -4 -6 -4 C -4 C -6 G -6 G -8 C -8 C -10 T -10 T -12 G -12 G
A
T
G
T
C
C
A
T
G
T
-4
-6
-8
-10
-2
0
-2
-4
-6
-8
-10
0
0
-2 -4 -6
-1
-2
A
-1
0
-2 -4 -6
-2
A
0
-4
C
0
-2
-4
C
-6
G
-6
G
-8
C
-8
C
-10
T
-10
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
57
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
58
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
59
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
60
15
C A T G T C A T G T -2 -4 -6 -8 -10 0 -2 -4 -6 -8 -10 0 -1 0 -2 -4 -6 -2 A -1 0 -2 -4 -6 -2 A 0 -2 -1 -4 C 0 -2 -1 -3 -4 C -6 G -6 G -8 C -8 C -10 T -10 T -12 G -12 G
C
A
T
G
T
A
T
G
T
C
-2
-4
-6
-8
-10
0
-4
-6
-8
-10
-2
0
-1
0
-2 -4 -6
-2
A
0
-2 -4 -6
-1
-2
A
0
-2
-1
-3
-5
-4
C
-2
-1
-3
-5
0
-4
C
-6
G
-2
-6
G
-8
C
-8
C
-10
T
-10
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
61
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
62
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
63
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
64
16
A T G T C A T G T C -4 -6 -8 -10 -2 0 -4 -6 -8 -10 -2 0 0 -2 -4 -6 -1 -2 A 0 -2 -4 -6 -1 -2 A -2 -1 -3 -5 0 -4 C -2 -1 -3 -5 0 -4 C -2 -1 -6 G -2 -1 -3 -6 G -8 C -8 C -10 T -10 T -12 G -12 G
A
T
G
T
C
A
T
G
T
C
-4
-6
-8
-10
-2
0
-4
-6
-8
-10
-2
0
0
-2 -4 -6
-1
-2
A
0
-2 -4 -6
-1
-2
A
-2
-1
-3
-5
0
-4
C
-2
-1
-3
-5
0
-4
C
-2 -1 -3
1
-6
G
-2 -1 -3
1
-1
-6
G
-8
C
-8
C
-10
T
-10
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
65
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
66
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
67
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
68
17
C A T G T C A T G T -2 -4 -6 -8 -10 0 -2 -4 -6 -8 -10 0 -1 0 -2 -4 -6 -2 A -1 0 -2 -4 -6 -2 A 0 -2 -1 -3 -5 -4 C 0 -2 -1 -3 -5 -4 C -2 -1 -3 1 -1 -6 G -2 -1 -3 1 -1 -6 G -4 -8 C -4 -3 -8 C -10 T -10 T -12 G -12 G
C
A
T
G
T
C
A
T
G
T
-2
-4
-6
-8
-10
0
-2
-4
-6
-8
-10
0
-1
0
-2 -4 -6
-2
A
-1
0
-2 -4 -6
-2
A
0
-2
-1
-3
-5
-4
C
0
-2
-1
-3
-5
-4
C
-2 -1 -3
1
-1
-6
G
-2 -1 -3
1
-1
-6
G
-4 -3 -2
-8
C
-4 -3 -2
-1
-8
C
-10
T
-10
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
69
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
70
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
71
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
72
18
A T G T C A T G T C -4 -6 -8 -10 -2 0 -4 -6 -8 -10 -2 0 0 -2 -4 -6 -1 -2 A 0 -2 -4 -6 -1 -2 A 0 -2 -1 -3 -5 -4 C 0 -4 -2 -1 -3 -5 C -2 -1 -3 1 -1 -6 G -6 -2 -1 -3 1 -1 G -4 -3 -2 -1 0 -8 C -8 -4 -3 -2 -1 0 C -10 T -10 -6 T -12 G -12 G
A
T
G
T
C
A
T
G
T
C
-4
-6
-8
-10
-2
0
-4
-6
-8
-10
-2
0
0
-2 -4 -6
-1
-2
A
0
-2 -4 -6
-1
-2
A
0
-4
-2
-1
-3
-5
C
0
-4
-2
-1
-3
-5
C
-6
-2 -1 -3
1
-1
G
-6
-2 -1 -3
1
-1
G
-8
-4 -3 -2
-1
0
C
-8
-4 -3 -2
-1
0
C
-10
-6
-5
T
-10
-6
-5
-1
T
-12
G
-12
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
73
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
74
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
75
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
76
19
A T G T C A T G T C -4 -6 -8 -10 -2 0 -4 -6 -8 -10 -2 0 0 -2 -4 -6 -1 -2 A 0 -2 -4 -6 -1 -2 A 0 -4 -2 -1 -3 -5 C 0 -4 -2 -1 -3 -5 C -6 -2 -1 -3 1 -1 G -6 -2 -1 -3 1 -1 G -8 -4 -3 -2 0 -1 C -8 -4 -3 -2 0 -1 C -3 -10 -6 -5 -1 T 1 -3 -10 -6 -5 -1 T -12 G -12 G
A
T
G
T
C
A
T
G
T
C
-4
-6
-8
-10
-2
0
-4
-6
-8
-10
-2
0
0
-2 -4 -6
-1
-2
A
0
-2 -4 -6
-1
-2
A
0
-4
-2
-1
-3
-5
C
0
-4
-2
-1
-3
-5
C
-6
-2 -1 -3
1
-1
G
-6
-2 -1 -3
1
-1
G
-8
-4 -3 -2
0
-1
C
-8
-4 -3 -2
0
-1
C
1
-3
-10
-6
-5
-1
T
1
-3
-10
-6
-5
-1
T
-12
-8
G
-12
-8
-7
G
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
77
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
78
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
79
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
80
20
A T G T C A T G T C -4 -6 -8 -10 -2 0 -4 -6 -8 -10 -2 0 0 -2 -4 -6 -1 -2 A 0 -2 -4 -6 -1 -2 A 0 -4 -2 -1 -3 -5 C 0 -4 -2 -1 -3 -5 C -6 -2 -1 -3 1 -1 G -6 -2 -1 -3 1 -1 G -8 -4 -3 -2 -1 0 C -8 -4 -3 -2 -1 0 C -3 -10 -6 -5 -1 1 T -3 -1 -10 -6 -5 1 T -12 -8 -7 -3 G -3 1 -12 -8 -7 G
C
A
T
G
T
-2
0
-4
-6
-8
-10
• Bước 2: Tìm vết dựa trên kết quả tính các giá trị của ma trận trước đó. Xuất phát từ Mnm nếu:
A
-1
-2
0
-2 -4 -6
C
0
-4
-2
-1
-3
-5
G
-6
-2 -1 -3
1
-1
C
-8
-4 -3 -2
0
-1
T
1
-3
-10
-6
-5
-1
− M i−1, j−1 = M ij −σij , theo duong chéo, (i,j) → (i-1,j-1) − M i−1, j = M ij − d , dich chuyen lên trên, (i,j) → (i-1,j) − M i , j−1 = M ij − d , dich chuyen lui, (i,j) → (i,j-1)
G
-1
1
-12
-8
-7
-3
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
81
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
82
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
83
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
84
21
C A T G T C A T G T -2 0 -4 -6 -8 -10 -2 0 -4 -6 -8 -10 A -1 -2 0 -2 -4 -6 -1 -2 0 -2 -4 -6 A C 0 -4 -2 -1 -3 -5 0 -4 -2 -1 -3 -5 C G -6 -2 -1 -3 1 -1 -6 -2 -1 -3 1 -1 G C -8 -4 -3 -2 0 -1 -8 -4 -3 -2 0 -1 C T 1 -3 -10 -6 -5 -1 1 -3 -10 -6 -5 -1 T G -1 1 -12 -8 -7 -3 -1 1 -12 -8 -7 -3 G
C
A
T
G
T
-2
0
-4
-6
-8
-10
-1
-2
0
-2 -4 -6
A
0
-4
-2
-1
-3
-5
C
• Bước 3: Bắt cặp trình tự – Xuất phát từ phần tử Mnm – Nếu phần tử kế nằm trên đường chéo: hai ký tự được
-6
-2 -1 -3
1
-1
G
bắt cặp với nhau
-CA-TGT ACGCTG-
-8
-4 -3 -2
0
-1
C
– Nếu phần tử kế nằm bên trái: thêm gap cho trình tự
1
-3
-10
-6
-5
-1
T
thứ hai (ở dưới)
-1
1
-12
-8
-7
-3
G
– Ngược lại, nếu phần tử kế nằm ở trên: thêm gap cho
trình tự thứ nhất
• Điểm đánh giá = 3x2 + 1x(-1) + 3(-2) = -1
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
85
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
86
Xem xét ví dụ khác
• Điểm: 3x2 + 1(-1) + 3(-2) = -1
CATG-T- -ACGCTG
• Xét 2 trình tự peptide như sau:
– U = AlaCysGlyCysAspGly – V = CysAlaAspGlyAsp
• Gồm các amino acid: Alanin (A), Cystein (C),
Glycine (G), Aspartic acid (D)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
87
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
22
C A T G T -2 0 -4 -6 -8 -10 -1 -2 0 -2 -4 -6 A 0 -4 -2 -1 -3 -5 C -6 -2 -1 -3 1 -1 G -8 -4 -3 -2 0 -1 C 1 -3 -10 -6 -5 -1 T -1 1 -12 -8 -7 -3 G
• Tạo ma trận đánh giá theo quy tắc:
• Có thể biểu diễn – U = “ACGCDG” – V = “CADGD”
– M00 = 0 – Mi0 = Mi-1,0 + d – M0j = M0,j-1 + d – Mij = Max {Mi-1,j-1 + σij, Mi,j-1 + d, Mi-1,j + d} – d = -1 • Trong đó
– σij = +2 nếu Ui và Vj giống nhau – σij = -1 nếu Ui và Vj khác nhau
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
C
A
D
G
D
• Tìm vết bằng cách dùng d = -1 và ma trận σ để
-1
-2
0
-3
-4
-5
1
-1
-1
0
-1
-2
A
1
0
-2
0
-1
-2
so sánh trên 2 trình tự: • Xuất phát từ M65, nếu:
C
0
0
-3
-1
2
1
– Mij = Mi-1,j-1 + σij thì vết (i,j) → (i-1,j-1) đi theo đường
G
chéo
-4
-1
-1
-1
1
1
C
-5
-2
-2
1
0
3
D
-6
-3
-3
0
3
2
– Mij = Mi,j-1 + d thì vết (i,j) → (i,j-1) đi lui – Mij = Mi-1,j + d thì vết (i,j) → (i-1,j) đi lên
G
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
23
• Trong trường hợp này, có nhiều vết được tạo ra
C
A
D
G
D
C
A
D
G
D
(màu red, blue, green)
-1
-2
0
-3
-4
-5
-1
-2
0
-3
-4
-5
C
A
D
G
D
1
-1
-1
0
-1
-2
1
-1
-1
0
-1
-2
A
A
-1
-2
0
-3
-4
-5
1
0
-2
0
-1
-2
1
0
-2
0
-1
-2
C
C
1
-1
-1
0
-1
-2
A
0
0
-3
-1
2
1
0
0
-3
-1
2
1
G
G
1
0
-2
0
-1
-2
C
1
1
1
1
-4
-1
-1
-1
-4
-1
-1
-1
C
C
0
0
-3
-1
2
1
G
-5
-2
-2
1
0
3
-5
-2
-2
1
0
3
D
D
-4
-1
-1
-1
1
1
C
-6
-3
-3
0
3
2
-6
-3
-3
0
3
2
G
G
-5
-2
-2
1
0
3
D
-6
-3
-3
0
3
2
G
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Vết Red: 3(2) + 1(-1) + 3(-1) = 2
CADG-D- -ACGCDG
• Sử dụng kỹ thuật lưu vết theo quy tắc:
• Vết Blue: 3(2) + 1(-1) + 3(-1) = 2
-CA-DGD ACGCDG-
– (i,j) →(i-1,j-1): Ui và Vj được ghi vào – (i,j) →(i-1,j): “-” và Vj được ghi và – (i,j) →(i,j-1): Ui và “-” được ghi vào
• Vết Green: 3(2) + 1(-1) + 3(-1) = 2
-C-ADGC ACGCDG-
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
24
Một ví dụ khác
G
A
A
T
T
C
A
G
T
T
A
0
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10 -11
-1
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
G
-2
1
1
0
-1
-2
-3
-4
-2
-3
-4
-5
• Cho 2 trình tự DNA:
G
-3
0
3
3
2
1
0
-1
-2
-3
-4
-2
A
GGATCGA GAATTCAGTTA
-4
-1
2
2
5
4
3
2
1
0
-1
-2
T
-5
-2
1
1
4
4
6
5
4
3
2
1
C
-6
-3
0
0
3
3
5
5
7
6
5
4
G
-7
-4
-1
2
2
2
4
7
6
6
5
7
A
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bài tập
• (P1) Tính toán các giá trị của ma trận với trường
• Bắt cặp 2 trình tự này là:
GGA-TC-G--A | | || | | GAATTCAGTTA
• Kết quả: 6(2) + 4(-1) + 1(-1) = 7
hợp tương tự, nhưng: – M00 = 0 – Mi0 = Mi-1,0 + d – M0j = M0,j-1 + d – d = -2
• Rút ra nhận xét
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
25
TG Needleman – Wunsch nguyên thủy
for i=0 to length(U) M(i,0) ← d*i for j=0 to length(V) M(0,j) ← d*j for i=1 to length(U)
for j=1 to length(V){
Match ← M(i-1,j-1) + σ(i,j) Delete ← M(i-1,j) + d Insert ← M(i,j-1) + d M(i,j) ← max(Match, Insert, Delete)
}
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
AlignmentU ← "" AlignmentV ← "" i ← length(U) j ← length(V) while (i > 0 and j > 0){ Score ← M(i,j) ScoreDiag ← M(i - 1, j - 1) ScoreUp ← M(i, j - 1) ScoreLeft ← M(i - 1, j) if (Score == ScoreDiag + σ(i,j)){ AlignmentU ← Ui + AlignmentU AlignmentV ← Vj + AlignmentV i ← i - 1 j ← j - 1 } PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Coi thêm NeedWun.java
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
26
while (i > 0){ AlignmentU ← Ui + AlignmentU AlignmentV ← "-" + AlignmentV i ← i - 1 } while (j > 0){ AlignmentU ← "-" + AlignmentU AlignmentV ← Vj + AlignmentV j ← j - 1 } else if (Score == ScoreLeft + d){ AlignmentU ← Ui + AlignmentU AlignmentV ← "-" + AlignmentV i ← i - 1 } otherwise (Score == ScoreUp + d){ AlignmentU ← "-" + AlignmentU AlignmentV ← Vj + AlignmentV j ← j - 1 } }
• Do Temple F. Smith và
Michael S. Waterman đưa ra vào 1981
• Khác biệt so với thuật toán Needleman –
Thuật toán SMITH - WATERMAN
Wunsch là chỉ sử dụng để bắt cặp 2 trình tự trong một đoạn của trình tự (bắt cặp cục bộ - Local Alignment)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Các bước tính toán hoàn toàn tương tự, chỉ khác
một số bước như sau: – Cách thức tính ma trận:
• Do chỉ bắt cặp cục bộ, nên vết được xác định
,
không phải bắt đầu từ giá trị cuối (Hnm), mà từ giá trị tốt nhất (điểm cao nhất của ma trận)
{
Hi0 = 0, ∀i = 0,n, H0 j = 0, ∀j = 0,m Hij = max 0,Hi−1,j−1 +σij ,Hi−1,j + d,Hi,j−1 + d} ∀i = 1,n; j = 1,m match
, d = gap
σij =
mismatch
# $ %
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
27
Ví dụ
• Với U = “ACA”, V = “AGCA”, với d = -1 ta có các
phần tử của ma trận H như sau:
A
C
A
0
0
0
0
0
A
0
G
0
C
0
A
H11 H12 H13 H21 H22 H23 H31 H32 H33 H41 H42 H43
H21 = max{0,H10 +σ21 ,H11 −1,H20 −1} = max{0,0−1,2−1,0−1} = 1 H22 = max{0,H11 +σ22 ,H12 −1,H21 −1} = max{0,2−1,1−1,2−1} = 1 H23 = max{0,H12 +σ23 ,H13 −1,H22 −1} = max{0,1−1,2−1,1−1} = 1
H11 = max{0,H00 +σ11 ,H01 −1,H10 −1} = max{0,0+2,0−1,0−1} = 2 H12 = max{0,H01 +σ12 ,H02 −1,H11 −1} = max{0,0−1,0−1,2−1} = 1 H13 = max{0,H02 +σ13 ,H03 −1,H12 −1} = max{0,0+2,0−1,1−1} = 2
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
H31 = max{0,H20 +σ31 ,H21 −1,H30 −1} = max{0,0−1,1−1,0−1} = 0 H32 = max{0,H21 +σ32 ,H22 −1,H31 −1} = max{0,1+2,1−1,0−1} = 3 H33 = max{0,H22 +σ33 ,H23 −1,H32 −1} = max{0,1−1,1−1,3−1} = 2
H41 = max{0,H30 +σ41 ,H31 −1,H40 −1} = max{0,0+2,0−1,0−1} = 2 H42 = max{0,H31 +σ42 ,H32 −1,H41 −1} = max{0,0−1,3−1,2−1} = 2 H43 = max{0,H32 +σ43 ,H33 −1,H42 −1} = max{0,3+2,2−1,2−1} = 5
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
28
Tạo vết
A
C
A
• Xuất phát từ Hnmax,mmax, nếu:
0
0
0
0
2
1
2
0
A
1
1
1
0
G
– Hij = Hi-1,j-1 + σij thì vết (i,j) → (i-1,j-1) theo đường chéo – Hij = Hi,j-1 + d thì vết (i,j) → (i,j-1) đi lui – Hij = Hi-1,j + d thì vết (i,j) → (i-1,j) đi lên
0
3
2
0
C
2
2
5
0
A
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Tìm kết quả
• Nếu
A
C
A
– (i,j) →(i-1,j-1): theo đường chéo
0
0
0
0
2
1
2
0
A
1
1
1
0
G
Ui và Vj được ghi vào – (i,j) →(i-1,j): đi lên “-” và Vj được ghi vào
0
3
2
0
C
– (i,j) →(i,j-1): đi lui
Ui và “-” được ghi vào
2
2
5
0
A
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
29
Ví dụ
• Với trình tự dài hơn, chẳng hạn:
U = “ATATGCTAAG” V = “ACTACTTAG”
• Kết quả bắt cặp – U’ = “A-CA” – V’ = “AGCA”
• Độ đánh giá: 3(2) + 1(-1) + 0(-1) = 5
• Chọn d = -1, Match = 2 và Mismatch = -1 cho sự tương đồng và không tương đồng của 2 phân tử trong 2 trình tự.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Với kỹ thuật lưu vết như trên
A
T
A
T
G
C
T
A
A
G
A
T
A
T
G
C
T
A
A
G
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
1
2
1
0
0
0
2
2
1
0
A
2
1
2
1
0
0
0
2
2
1
0
A
1
1
1
1
0
2
1
1
1
1
0
C
1
1
1
1
0
2
1
1
1
1
0
C
0
3
2
3
2
1
4
3
2
1
0
T
0
3
2
3
2
1
4
3
2
1
0
T
2
2
5
4
3
2
3
6
5
4
0
A
2
2
5
4
3
2
3
6
5
4
0
A
1
1
4
4
3
5
4
5
5
4
0
C
1
1
4
4
3
5
4
5
5
4
0
C
0
3
3
6
5
4
7
6
5
4
0
T
0
3
3
6
5
4
7
6
5
4
0
T
0
2
2
5
5
4
6
6
5
4
0
T
0
2
2
5
5
4
6
6
5
4
0
T
2
1
4
4
4
4
5
8
7
7
0
A
2
1
4
4
4
4
5
8
8
7
0
A
1
1
3
3
6
5
4
7
6 10
0
G
1
1
3
3
6
5
4
7
7 10
0
G
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
30
Ví dụ
• Với 2 trình tự như hình, có thể tính được
• Cũng bằng cách ghi kết quả theo vết, 2 trình tự
được bắt cặp: – U’ = “ACTA--CTAAG” – V’ = “A-TATGCTAAG”
• Kết quả: 8(2) + 3(-1) + 0(-1) = 13
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Kết quả trên ứng với match = 2, mismatch = -3
và gap = -2
• Khi đó, 8 là giá trị lớn nhất, nên bắt đầu từ vị trị
này để xác định vết.
• Từ đó, kết quả bắt cặp cục bộ của 2 đoạn trình
tự:
ATCC ATCC
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
31
Thuật toán ClustalW
• Dùng cho việc bắt cặp nhiều trình tự (giải
bài toán MSA)
• Lấy ý tưởng từ thuật toán lũy tiến
(Progessive Algorithm)
Thuật toán CLUSTAL
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán Clustal W
• Thuật toán lũy tiến như sau:
• Bước 1:
– Bước 1: giải bài toán PSA trên 2 trình tự bất kỳ được
chọn.
– Bước 2: chọn một trình tự khác rồi sắp hàng với nhóm
– Dùng PSA cho tất cả các trình tự – Xác định mức độ tương đồng mỗi cặp – Xây dựng ma trận khoảng cách tương đồng giữa các
đã thực hiện.
trình tự.
– Bước 3: lặp lại Bước 2 cho trình tự khác
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
32
• Bước 2:
• Bước 3: Thực hiện quá trình lũy tiến
– Xây dựng cây cây tương đồng (similarity tree) hay cây hướng dẫn (guide tree) bằng cách dùng thuật toán gom nhóm Neighbor – Joining.
– Căn cứ vào cây hướng dẫn xác định những nhánh có
cặp trình tự tương đồng lớn nhất
– Cây hướng dẫn hể hiện mối quan hệ tương đồng giữa
các trình tự với nhau
– Thực hiện PSA trên từng cặp – Kết hợp những cặp đó lại thu được kết quả đa trình tự.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Minh họa
• Lần lượt bắt cặp: – S1’ = “ARDFGI” – S2’ = “A-KHGL”
– S1’ = “ARDFG-I” – S4’ = “AR-FGLI”
– S1’ = “ARDFGI--” – S3’ = “A-DF-IKF”
– S1’ = “ARDFGI--” – S5’ = “AKD--ILM”
• Xét 5 trình tự: – S1 = “ARDFGI” – S2 = “AKHGL” – S3 = “ADFIKF” – S4 = “ARFGLI” – S5 = “AKDILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
33
– S2’ = “AKHGL-” – S5’ = “AKDILM”
– S2’ = “A---KHGL” – S3’ = “ADFIK--F”
– S3’ = “ADF--IKF” – S4’ = “ARFGLI--”
– S4’ = “ARFGLI” – S5’ = “AKDILM”
– S2’ = “AKHGL-” – S4’ = “ARFGLI”
– S3’ = “A-DFIKF” – S5’ = “AKD-ILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Khoảng cách D(S1’,S2’) giữa 2 trình tự bằng tỷ số
• Ví dụ:
giữa m và n. Trong đó – m = số mismatch giữa 2 trình tự (không tính gap) – n = số cặp không phải là gap giữa 2 trình tự
• Ví dụ:
– S1’ = “ARDFGI--” – S3’ = “A-DF-IKF”
Có m = 0, n = 4. Suy ra D(S1’,S3’) = 0/4 = 0
– S1’ = “ARDFGI” – S2’ = “A-KHGL”
Có m = 3, n = 5. Suy ra D(S1’,S2’) = 3/5 = 0,6
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
34
Ma trận khoảng cách
S2
S3
S4
S5
S1
-
S1
0,60
-
• Ví dụ:
S2
0
0,33
-
S3
– S1’ = “ARDFGI--” – S5’ = “AKD--ILM”
0
0,40
0,25
-
Có m = 1, n = 4. Suy ra D(S1’,S5’) = 1/4 = 0.25
S4
0,25
0,60
0,40
0,66
-
S5
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
S13
S2
S4
S5
S13
• Theo ma trận khoảng cách, có thể S1 và S3 là nhỏ nhất, nên mức độ gần nhau là nhiều nhất.
S2
• Hoặc S1 và S4
0,4
S4
(0,6+0,33)/2 = 0.465
0,6
0,66
S5
(0+0,25)/2 = 0.125
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
35
(0,25+0,4)/2 = 0.325
S13,4
S2
S5
S13,4
S2
• Tiếp tục, khoảng cách giữa S13 và S4 là nhỏ
(0,465+0,4)/2 = 0,4325
nhất.
0,6
S5
(0,325+0,66)/2 = 0,4925
• Nên S13 và S4 là gần nhau nhất
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
ARDFGI
S1
ARDFGI-- A-DF-IKF
• Tiếp tục, còn S134 và S2 là nhỏ nhất
S3
ARDFG-I-- A-DF--IKF AR-FGLI--
ADFIKF
S134,2
S5
S134,2
ARFGLI
ARDFG-I-- A-DF--IKF AR-FGLI-- A-KHGL---
S4
S5
S2
(0,4925+0,6)/2 = 0,54625
AKHGL
ARDFG-I-- A-DF--IKF AR-FGLI-- A-KHGL--- AKD---ILM
S5
AKDILM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
36
• Ở đây kết quả có được bằng cách gióng từng
cặp: – S1, S3 – Lấy kết quả S1 có được để bắt cặp với S4 – Tương tự, với S2 – Rồi với S5
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
37