TIN SINH HỌC ĐẠI CƯƠNG<br />
(Introduction to Bioinformatics)<br />
Chương 3:<br />
<br />
PGS.TS. Trần Văn Lăng<br />
Email: langtv@vast.vn<br />
PGS.TS. Trần Văn Lăng,<br />
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
BẮT CẶP TRÌNH TỰ (SEQUENCE<br />
ALIGNMENT)<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
NỘI DUNG<br />
<br />
• Giới thiệu<br />
• Bắt cặp hai trình tự<br />
• Bắt cặp nhiều trình tự<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
MỘT SỐ KHÁI NIỆM CHUNG<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
1<br />
<br />
Nhắc lại<br />
<br />
• Sinh vật được tạo thành từ tế bào.<br />
• Bên trong mỗi tế bào - ngoại trừ hồng huyết cầu<br />
trưởng thành - có nhân (nucleus) chứa tất cả các<br />
chỉ thị di truyền (genetic instruction)<br />
• Những chỉ thị này là chức năng của tế bào<br />
<br />
• Các tế bào, với các ngăn khác nhau của nó gọi<br />
là bào quan, phải đối mặt với một vấn đề là:<br />
– Tế bào sản xuất các phân tử như kích thích tố, dẫn<br />
truyền thần kinh, các cytokine và enzyme<br />
– Chúng phải được gửi đến nơi khác bên trong tế bào,<br />
hoặc xuất ra khỏi tế bào.<br />
– Việc sản xuất và vận chuyển này phải được thực hiện<br />
đúng nơi và đúng lúc.<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
• Chẳng hạn, mỗi tế bào người có 46 nhiễm sắc<br />
thể, được tổ chức thành 23 cặp.<br />
• Mỗi nhiễm sắc thể được cấu thành bởi một trình<br />
tự DNA<br />
• DNA chứa các gen mã hóa RNA mà nó sẽ sinh<br />
ra các protein, để từ đó điều chỉnh tất cả các quá<br />
trình phát triển của một sinh vật<br />
<br />
• Một gene là một đoạn của DNA với trình tự base<br />
đặc trưng – cụ thể, gọi là mã di truyền (genetic<br />
code), hay chỉ thị di truyền để xác định chức<br />
năng của tế bào<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
2<br />
<br />
Khái niệm bắt cặp<br />
<br />
• Bắt cặp trình tự, hay là sắp xếp thẳng hàng trình<br />
tự (Sequence Alignment)<br />
• Mục đích đạt đến sự giống nhau đến mức tối đa<br />
của các trình tự<br />
• Việc bắt cặp được thực hiện bằng cách thêm các<br />
“gap” vào các vị trí có thể sao cho các cột giống<br />
nhau hoặc tương tự nhau<br />
<br />
• Việc thêm các gap biểu thị sự đột biến mất<br />
nucliotide đã xãy ra tại vị trì này trên trình tự.<br />
• Trong tin học, việc thêm ký tự gap là khoảng<br />
trống (“-”) giúp cho việc tạo ra 2 chuỗi ký tự gần<br />
giống nhau nhất.<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
Tiến hóa và đột biến<br />
<br />
• Trong sự tiến hóa, các gốc giống nhau đó chính<br />
là một phần của trình tự sinh học tổ tiên.<br />
• Còn các gốc bắt cặp không giống nhau chính là<br />
sự đột biến của một trong hai trình tự.<br />
– Tuy nhiên, không thể xác định trình tự nào bị đột biến<br />
so với trình tự nào.<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
• Dưới góc độ sinh học, đột biến xãy ra trên cả một<br />
trình tự DNA của bộ gene.<br />
• Vì vậy có thể xãy ra tại:<br />
– các gene mã hóa protein<br />
– các gene mã hóa phân tử RNA chức năng<br />
– trình tự điều hòa tham gia bật tắc gene khác<br />
– vùng trình tự nối các gene<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
3<br />
<br />
• Từ đó, đột biến có thể ảnh hưởng hay không ảnh<br />
hưởng đến kiểu hình của sinh vật.<br />
• Khi phân loại, có 2 loại đột biến<br />
– đột biến điểm: chỉ xãy ra ở một nucleotide, sẽ rất<br />
quan trọng nếu tại vùng mã hóa protein, hay vùng tín<br />
hiệu<br />
– đột biến đoạn: do mất hay thêm một đoạn trình tự. Kết<br />
quả của việc đột biến đoạn là sự nhân đôi gene hay<br />
nhân đôi một vùng nhiễm sắc thể<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
• Qua thời gian, những đột biến có lợi hoặc không<br />
có hại sẽ được giữ lại trong quần thể, kích thích<br />
sự hình thành và phát triển loài mới.<br />
• Đó chính là sự tiến hóa (evaluation), trong đó đột<br />
biến là nguyên liệu quan trọng<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
Ví dụ<br />
<br />
• Tương tự, với 2 trình tự dài hơn<br />
<br />
• Ví dụ bắt cặp 2 trình tự<br />
– GAATTCAGTTA<br />
– GGATCGA<br />
<br />
• Kết quả<br />
– GAATTCAGTTA<br />
– | || | | |<br />
– GGAT-C-G—-A<br />
<br />
• Hoặc 2 trình tự<br />
– ACGCTG<br />
– CATGT<br />
<br />
– tcctctgcctctgccatcat---caaccc<br />
– |||| ||| ||||| |||||<br />
||||||<br />
– tcctgtgcatctgcaatcatgggcaaccc<br />
<br />
• Kết quả<br />
– ACGCTG– | | |<br />
– -C-ATGT<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
4<br />
<br />
Ký tự “gap”<br />
<br />
• Ký tự “gap” là chỗ trống, khe hở, chỗ gián đoạn,<br />
chỗ thiếu sót.<br />
• Trong sinh học gap có ý nghĩa: sự đột biến, hoặc<br />
mất đi do quá trình tiến hóa<br />
<br />
Nếu lấy v làm căn cứ,<br />
thì u có:<br />
• 4 match<br />
• 1 mismatch<br />
• 3 insertion<br />
• 2 deletion<br />
<br />
Cho 2 trình tự:<br />
u = ATCTGATG<br />
v = TGCATAC<br />
match<br />
<br />
deletion<br />
<br />
A<br />
<br />
T<br />
<br />
-<br />
<br />
C<br />
<br />
-<br />
<br />
T<br />
<br />
G<br />
<br />
A<br />
<br />
T<br />
<br />
G<br />
<br />
-<br />
<br />
T<br />
<br />
G<br />
<br />
C<br />
<br />
A<br />
<br />
T<br />
<br />
-<br />
<br />
A<br />
<br />
-<br />
<br />
C<br />
<br />
insertion<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
mismatch<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
Về bắt cặp trình tự protein<br />
<br />
• Mục đích<br />
– Bắt cặp trình tự nhằm nghiên cứu sự tiến hóa<br />
– Hoặc để tìm kiếm, so sánh mức độ tương đồng giữa<br />
các trình tự<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
• Sự bắt cặp trình tự không chỉ dừng lại ở trình tự<br />
DNA mà cả trình tự protein.<br />
• Trong đó, việc chỉ có 4 ký tự được thay bởi 20 ký<br />
tự.<br />
• Tuy nhiên, do protein có đặc điểm bảo tồn cấu<br />
trúc và chức năng cao (bởi nếu mất chức năng<br />
sẽ gây bất lợi)<br />
<br />
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
<br />
5<br />
<br />