Luận văn Thạc sĩ Công nghệ Sinh học: Nghiên cứu đặc điểm đa hình nucleotide đơn ở hai vùng siêu biến HVS-I và HVS-II trên D-loop ty thể của một số dân tộc Việt Nam

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:105

Thêm vào BST

Báo xấu

43
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Nghiên cứu đặc điểm đa hình nucleotide đơn ở hai vùng siêu biến HVS-I và HVS-II trên D-loop ty thể của một số dân tộc Việt Nam” được tiến hành với mục đích khai thác nguồn dữ liệu di truyền ty thể ở 3 dân tộc Cờ Lao, Phù Lá và Kinh đồng thời đánh giá làm rõ sự tương đồng và khác biệt di truyền giữa 3 dân tộc.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ Sinh học: Nghiên cứu đặc điểm đa hình nucleotide đơn ở hai vùng siêu biến HVS-I và HVS-II trên D-loop ty thể của một số dân tộc Việt Nam

BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Nguyễn Doãn Tình NGHIÊN CỨU ĐẶC ĐIỂM ĐA HÌNH NUCLEOTIDE ĐƠN Ở HAI VÙNG SIÊU BIẾN HVS-I VÀ HVS-II TRÊN D-LOOP TY THỂ CỦA MỘT SỐ DÂN TỘC VIỆT NAM LUẬN VĂN THẠC SĨ : CÔNG NGHỆ SINH HỌC Hà Nội, 2020
BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Nguyễn Doãn Tình NGHIÊN CỨU ĐẶC ĐIỂM ĐA HÌNH NUCLEOTIDE ĐƠN Ở HAI VÙNG SIÊU BIẾN HVS-I VÀ HVS-II TRÊN D-LOOP TY THỂ CỦA MỘT SỐ DÂN TỘC VIỆT NAM Chuyên ngành: Sinh học thực nghiệm Mã số: 8420114 LUẬN VĂN THẠC SĨ CÔNG NGHỆ SINH HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: Hướng dẫn 1: TS. Nguyễn Thùy Dương Hà Nội, 2020
i Lời cam đoan Tôi xin cam đoan: Đây là công trình nghiên cứu của tôi và một số kết quả cùng cộng tác với các cộng sự khác; Các số liệu và kết quả trình bày trong luận văn là trung thực, một phần đã được công bố tại hội nghị khoa học chuyên ngành với sự đồng ý và cho phép của các đồng tác giả; Phần còn lại chưa được ai công bố trong bất kỳ công trình nào khác. Tác giả Nguyễn Doãn Tình
ii Lời cảm ơn Để thực hiện thành công luận văn thạc sĩ này, tôi xin gửi lời cảm ơn sâu sắc và chân thành đến TS. Nguyễn Thùy Dương (Trưởng phòng Hệ gen học người - Viện Nghiên cứu hệ gen, Viện Hàn lâm Khoa học và Công nghệ Việt Nam), người đã trực tiếp hướng dẫn, chỉ bảo tận tình trong suốt thời gian tôi thực hiện đề tài. Cô là người đã tạo điều kiện cũng như truyền cho tôi những kinh nghiệm quý báu trong nghiên cứu khoa học. Tôi cũng xin được bày tỏ lòng biết ơn của mình đến PGS. TS. Nông Văn Hải (Chủ tịch Hội đồng Khoa học, Viện Nghiên cứu hệ gen), tập thể cán bộ Phòng Hệ gen học người và các cán bộ Viện Nghiên cứu hệ gen, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi và tận tình hướng dẫn, trợ giúp tôi thực hiện tốt đề tài nghiên cứu này. Tôi xin chân thành cảm ơn các thầy cô thuộc Khoa Công nghệ sinh học, Học viện Khoa học và Công nghệ đã tạo điều kiện tốt nhất cho tôi để hoàn thành luận văn này. Luận văn được thực hiện trong khuôn khổ của đề tài “Xây dựng cơ sở dữ liệu hệ gen biên thể ty thể và nhiễm sắc thể Y của một số dân tộc người Việt Nam” mã số ĐTĐL.CN-60/19 thuộc Bộ Khoa học và Công nghệ. Tác giả Nguyễn Doãn Tình
iii Danh mục các ký hiệu và chữ viết tắt Chữ viết tắt Tên đầy đủ Tên tiếng việt bp Base pair Cặp bazơ DNA Deoxyribonucleic acid Axit Deoxyribonucleic ddNTP Dideoxynucleoside Dideoxynucleoside triphosphate triphosphate dNTP Deoxynucleoside Deoxynucleoside triphosphate triphosphate EDTA Ethylene diamine tetra-acetic Axit ethylene diamine tetra- acid acetic EtOH Ethanol Etanol HVS-I Hypervariable segment 1 Đoạn siêu biến 1 HVS-II Hypervariable segment 2 Đoạn siêu biến 2 PCR Polymerase chain reaction Phản ứng chuỗi polymerase RNA Ribonucleic acid Axit ribonucleic RFLP Restriction Fragment Length Đa hình chiều dài đoạn cắt giới Polymorphism hạn TAE Tris – acetate – EDTA Tris – acetate – EDTA SNP Single nucleotide Đa hình nucleotide đơn polymorphism
iv Danh mục các bảng Bảng 2.1. Danh sách mẫu nghiên cứu của mỗi dân tộc Kinh ......................... 19 Bảng 3.1. Thống kê các đa hình xuất hiện ở 2 vùng trình tự HVS-I và HVS-II ở 120 mẫu nghiên cứu ..................................................................................... 47 Bảng 3.2. Số lượng các đa hình trung bình phát hiện được trong từng dân tộc ......................................................................................................................... 52 Bảng 3.3. Tần suất các đa hình trình tự vùng siêu biến D-loop thuộc hệ gen ty thể ở ba nhóm cá thể thuộc các tộc người Kinh, Cờ Lao và Phù Lá .............. 53 Bảng 3.4. Các đa hình có phân bố khác biệt ở các tộc người trong nghiên cứu ......................................................................................................................... 54 Bảng 3.5. Khoảng cách di truyền giữa các dân tộc trong nghiên cứu ............ 56
v Danh mục các hình vẽ, đồ thị Hình 1.1. Cách thiết lập bản đồ SNP ................................................................ 5 Hình 1.2. Vị trí các gen trên DNA ty thể .......................................................... 8 Hình 1.3. Cấu trúc vùng điều khiển (D-loop) DNA ty thể ............................. 11 Hình 3.1. Kết quả điện di DNA tổng số 51 mẫu dân tộc Kinh. ...................... 26 Hình 3.2. Kết quả điện di DNA tổng số 34 mẫu dân tộc Cờ Lao ................... 26 Hình 3.3. Kết quả điện di DNA tổng số 35 mẫu dân tộc Phù Lá.................... 27 Hình 3.4. Kết quả PCR nhân vùng trình tự HVS-I ở 120 mẫu dân tộc Kinh, Cờ Lao và Phù Lá............................................................................................ 28 Hình 3.5. Kết quả PCR nhân vùng trình tự HVS-II ở 120 mẫu dân tộc Kinh, Cờ Lao và Phù Lá............................................................................................ 30 Hình 3.6. Kết quả giải trình tự một số mẫu đại diện chứa một số đa hình trên đoạn HVS-II .................................................................................................... 31 Hình 3.7. Kết quả so sánh trình tự vùng HVS-II với trình tự chuẩn rCRS của 120 mẫu dân tộc tộc Kinh, Cờ Lao và Phù Lá ................................................ 38 Hình 3.8. Kết quả so sánh trình tự vùng HVS-I với trình tự chuẩn rCRS của 120 mẫu dân tộc tộc Kinh, Cờ Lao và Phù Lá ................................................ 46
vi MỤC LỤC MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU................................................ 2 1.1. TỔNG QUAN VỀ ĐA HÌNH NUCLEOTIDE ĐƠN ................................ 2 1.1.1. Đặc điểm của đa hình nucleotide đơn ............................................................2 1.1.2. Tầm quan trọng và ứng dụng của đa hình nucleotide đơn .......................4 1.1.2.1. Bản đồ SNP ........................................................................................................4 1.1.2.2. Phát triển SNP và y học ....................................................................................5 1.1.2.3. Phát triển SNP và dược phẩm..........................................................................6 1.2. HỆ GEN TY THỂ ...................................................................................... 7 1.2.1. Đặc điểm cấu trúc và di truyền hệ gen ty thể ...............................................7 1.2.1.1. Cấu trúc hệ gen ty thể .......................................................................................7 1.2.1.2. Đặc điểm di truyền hệ gen ty thể......................................................................9 1.2.2. Đặc điểm vùng điều khiển (D-loop) trên ty thể ..........................................10 1.2.3. Tình hình nghiên cứu hệ gen ty thể trên thế giới và ở Việt Nam............12 1.2.3.1. Tình hình nghiên cứu trên thế giới.................................................................12 1.2.3.2. Tình hình nghiên cứu DNA ty thể tại Việt Nam............................................13 1.3. ĐẶC ĐIỂM DÂN TỘC HỌC CỦA CÁC DÂN TỘC TRONG NGHIÊN CỨU ................................................................................................................ 15 1.3.1. Người Kinh ........................................................................................................15 1.3.2. Người Cờ Lao....................................................................................................16 1.3.3. Người Phù Lá ....................................................................................................17 CHƯƠNG 2. NGUYÊN VẬT LIỆU, PHƯƠNG PHÁP NGHIÊN CỨU. 19 2.1. VẬT TƯ, THIẾT BỊ ................................................................................ 19 2.1.1. Nguyên vật liệu..................................................................................................19 2.1.2. Hóa chất..............................................................................................................18 2.1.3. Thiết bị ................................................................................................................19 2.2. PHƯƠNG PHÁP NGHIÊN CỨU............................................................ 21 2.2.1. Tách chiết DNA tổng số ..................................................................................21 2.2.2. Phương pháp điện di kiểm tra trên gel agarose .........................................22
vii 2.2.3. Phương pháp khuếch đại 2 vùng siêu biến DNA HVS–I và HVS–II bằng phản ứng PCR...................................................................................................23 2.2.4. Phương pháp tinh sạch sản phẩm PCR ......................................................24 2.2.5. Phương pháp giải trình tự DNA....................................................................25 2.2.4. Phương pháp xử lý số liệu thống kê và so sánh CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN ............................................. 196 3.1. TÁCH CHIẾT DNA TỔNG SỐ TỪ CÁC MẪU MÁU ......................... 24 3.2. KHUẾCH ĐẠI 2 VÙNG SIÊU BIẾN HVS-I VÀ HVS-II BẰNG PHẢN ỨNG PCR ....................................................................................................... 27 3.3. XÁC ĐỊNH CÁC ĐA HÌNH THUỘC HAI VÙNG SIÊU BIẾN HVS-I VÀ HVS-II TRÊN TY THỂ Ở CÁC MẪU NGHIÊN CỨU. ......................... 30 3.4. PHÂN TÍCH THỐNG KÊ SO SÁNH ĐA HÌNH VÀ TÍNH TOÁN KHOẢNG CÁCH DI TRUYỀN GIỮA 3 DÂN TỘC KINH, CỜ LAO VÀ PHÙ LÁ........................................................................................................... 52 KẾT LUẬN .................................................................................................... 57 KIẾN NGHỊ ................................................................................................... 58 TÀI LIỆU THAM KHẢO ............................................................................ 59 DANH MỤC PHỤ LỤC................................................................................ 63 PHỤ LỤC ....................................................................................................... 62
1 MỞ ĐẦU Ty thể là bào quan đóng vai trò trung tâm trong tổng hợp năng lượng tế bào. Chúng tham gia chuyển hóa vật chất hữu cơ thành năng lượng nội bào thông qua quá trình phosphoryl hóa và vận chuyển electron. Ty thể sở hữu hệ thống vật chất di truyền riêng, tồn tại độc lập với hệ gen nhân dưới dạng DNA mạch vòng kép. Tuy có kích thước bé (tương đương 0,0005% kích thước hệ gen nhân) nhưng hệ gen ty thể có những đặc trưng quan trọng, rất thuận lợi cho nghiên cứu di truyền như di truyền chủ yếu theo dòng mẹ, không hoặc rất ít xảy ra trao đổi chéo… Ngoài ra, trên DNA ty thể tồn tại 2 đoạn siêu biến HVS-I và HVS-II với mật độ xuất hiện các đa hình cao. Đây là những khu vực chứa nhiều điểm đa hình, có trình tự thay đổi theo thời gian và tương đối khác biệt giữa các nhóm người thuộc các dân tộc và khu vực địa lý khác nhau. Do đó, chúng được xem là những đối tượng phù hợp và được sử dụng rộng rãi trong nhiều nghiên cứu nhân chủng học, xác định nguồn gốc và mối quan hệ giữa các dân tộc [1]. Việt Nam là một quốc gia đa dân tộc với 54 dân tộc anh em cùng chung sống [2]. Hiện đã có nhiều nghiên cứu về các đặc điểm văn hóa, phong tục tập quán ở 54 dân tộc được tiến hành. Tuy nhiên, tính đến nay, số lượng những nghiên cứu dựa trên nền tảng di truyền nhằm xác định nguồn gốc cũng như mối quan hệ giữa các dân tộc vẫn rất ít ỏi, đặc biệt đối với các dân tộc ít người [3-5]. Nhận thức rõ tầm quan trọng của vấn đề này, chúng tôi đã tiến hành thực hiện đề tài “Nghiên cứu đặc điểm đa hình nucleotide đơn ở hai vùng siêu biến HVS-I và HVS-II trên D-loop ty thể của một số dân tộc Việt Nam” với mục đích khai thác nguồn dữ liệu di truyền ty thể ở 3 dân tộc Cờ Lao, Phù Lá và Kinh đồng thời đánh giá làm rõ sự tương đồng và khác biệt di truyền giữa 3 dân tộc. Các mục tiêu chính của nghiên cứu bao gồm: 1. Xác định được các đa hình nucleotide đơn ở 2 vùng siêu biến HVS-I và HVS-II trên ty thể của các mẫu thuộc 3 dân tộc Kinh, Cờ Lao và Phù Lá. 2. Phân tích đánh giá các đặc điểm đa hình cũng như sự khác biệt di truyền dựa trên trình tự 2 vùng siêu biến của các mẫu thuộc 3 dân tộc.
2 CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU 1.1. TỔNG QUAN VỀ ĐA HÌNH NUCLEOTIDE ĐƠN 1.1.1. Đặc điểm của đa hình nucleotide đơn Đa hình nucleotide đơn hay SNP (“Single Nucleotide Polymorphisms”) là những biến thể trình tự DNA xảy ra khi một đơn nucleotide (A, T, C, G) trong trình tự hệ gen bị thay đổi so với các cá thể khác trong cùng loài sinh học hoặc so với NST còn lại trong cặp NST tương đồng [6]. Ví dụ: SNP rs4680 (G>A) ở vị trí chr22:19963748 làm thay đổi trình tự DNA từ GGCGTGAAG thành GGCATGAAG. Xét về nguyên lý, sự phát sinh đa hình đơn nucleotide hoàn toàn giống với đột biến điểm. Hai loại biến thể này chỉ khác nhau ở tần suất xuất hiện trong quần thể. Trong khi SNP phải xảy ra trong ít nhất 1% dân số thì đột biến điểm chỉ xảy ra với tần suất bé hơn 1% [6]. Trung bình cứ mỗi 1000 nucleotide sẽ xuất hiện 1 SNP, do đó sẽ có khoảng 4 đến 5 triệu SNP trong mỗi một hệ gen. Tính đến nay, các nhà khoa học đã thiết lập nhận diện được hơn 100 triệu SNP ở các cá thể thuộc nhiều dân tộc khác nhau trên thế giới [7]. Hầu hết các đa hình SNP đã được xác định nằm ở các vùng không mã hóa và xuất hiện ít hơn trong các vùng mã hóa [8]. SNP nằm ở vùng không mã hóa không làm thay đổi trình tự protein, có thể đóng vai trò là các chỉ thị di truyền và vật lý quan trọng cho các nghiên cứu so sánh và nhân chủng học tiến hóa. Trong khi đó, các SNP nằm ở vùng điều hòa có thể ảnh hưởng đến quá trình ghép nối và tác động đến các yếu tố phiên mã, làm suy thoái RNA thông tin hoặc trình tự của RNA không mã hóa. Sự biểu hiện gen bị ảnh hưởng bởi loại SNP này được gọi là eSNP, dẫn đến sự tăng hoặc giảm biểu hiện gen. Các SNP khác ở vùng mã hóa có thể dẫn đến những thay đổi trong cấu trúc và chức năng protein. Tùy vào mức độ ảnh hưởng, SNP được phân thành 2 nhóm đồng nghĩa (không làm thay đổi trình tự chuỗi polypeptide) hoặc không đồng nghĩa (làm thay đổi trình tự chuỗi polypeptide). Các SNP không đồng nghĩa bao gồm 2 phân nhóm SNP sai nghĩa (missense) hoặc vô nghĩa (nonsense). Các SNP sai nghĩa sẽ dẫn đến việc thay thế 1 amino acid
3 trong chuỗi polypeptide. Trong khi đó, SNP vô nghĩa tạo ra stop codon, báo hiệu tế bào ngưng tổng hợp protein dẫn tới hình thành protein có chức năng không hoàn chỉnh hoặc không có chức năng. Thực tế chứng minh có tới hơn một nửa trong số những đột biến bệnh hiện nay có nguồn gốc từ các đa hình vô nghĩa [9]. Do đó chúng có thể được sử dụng như là các chỉ thị phân tử tiềm năng trong các nghiên cứu dược lý và di truyền học. Ngoài ra, dựa vào mức độ ảnh hưởng đến chức năng cơ thể, SNP cũng được chia thành các nhóm: vô hại (không gây bệnh), có hại (gây các bệnh như tiểu đường, ung thư, bệnh tim, bệnh Huntington và chứng Haemophilia) và tiềm tàng (biến thể xảy ra trong vùng mã hóa và vùng điều khiển; không gây hại trong điều kiện bình thường nhưng khi đáp ứng một số điều kiện cụ thể có thể làm tăng khả năng phát triển thành bệnh, ví dụ như tính mẫn cảm của ung thư phổi) [10]. 1.1.2. Tầm quan trọng và ứng dụng của đa hình nucleotide đơn SNP là kiểu đa hình cực kỳ phổ biến, chiếm đến 80% sự biến đổi trong hệ gen [11]. Mặt khác, chúng cũng tiến hóa ổn định, không thay đổi nhiều từ thế hệ này sang thế hệ khác. Do đó, SNP rất có giá trị trong các nghiên cứu di truyền học ở người. 1.1.2.1. Bản đồ SNP Các nhà khoa học tin rằng việc thiết lập một bản đồ SNP sẽ đem lại tiềm năng rất lớn, cho phép xác định được các gen liên quan đến các bệnh phức tạp như ung thư hay tiểu đường. Với mục đích đó, hai nhóm nghiên cứu gồm Human Genome Project (HGP) và SNP Consortium đã tập trung vào xác định và thiết lập một bản đồ SNP. Tháng 10 năm 2000, kết quả của cả 2 nhóm đã được công bố rộng rãi trên thế giới [12, 13]. Thành quả này đã cung cấp một công cụ mới mẻ, cho phép nghiên cứu hiệu quả đặc tính của các biến thể trình tự DNA trên hệ gen người. Ngoài ra, bản đồ SNP cũng đã được sử dụng để mô tả sự đa dạng haplotype trên hệ gen, phục vụ cho các nghiên cứu tiến hóa. Hiện, rất nhiều cấu trúc haplotype hiện vẫn chưa được khám phá. Bản đồ này cho phép xác định quy mô, sự biến đổi của các haplotype giống nhau; số
4 lượng, tần số của haplotype phổ biến và sự phân bố của chúng giữa và trong các nhóm dân tộc hiện có. Hình 1.1. Cách thiết lập bản đồ SNP: (1) Giải mã bộ gen trên số lượng lớn người, (2) So sánh bộ gen giữa các cá thể để tìm kiếm SNP, (3) Xây dựng 1 bản đồ chứa các SNP đã tìm thấy 1.1.2.2. Phát triển SNP và y học Hiện nay nhiều chứng minh cho thấy hầu hết các SNP không chịu trách nhiệm cho một bệnh, tuy nhiên chúng có thể giúp xác định rằng ai đó có khả năng phát triển một căn bệnh cụ thể. Một ví dụ rõ ràng về cách SNP ảnh hưởng đến sự phát triển của bệnh là ảnh hưởng của chúng đến gen apolipoprotein E hoặc APOE, một trong những gen liên quan với bệnh Alzheimer [1]. Giống như các rối loạn mãn tính như bệnh tim, tiểu đường, hoặc ung thư phổ biến nhất, bệnh Alzheimer là một bệnh được gây ra bởi các biến thể trong một vài gen. Gen APOE chứa đến hai SNP trong ba alen của nó: E2, E3, E4. Mỗi allele khác nhau bởi một base DNA, và các sản phẩm protein của mỗi gen sẽ khác bởi một amino axit. Nghiên cứu cho thấy rằng một người được thừa hưởng ít nhất một E4 allele sẽ có một khả năng lớn để phát triển bệnh Alzheimer. Rõ ràng, sự thay đổi của một amino acid trong các protein E4 làm thay đổi cấu trúc và chức năng của protein và tạo điều kiện cho sự phát triển của bệnh. Còn nếu một người kế thừa allele E2 thì có ít khả năng phát triển bệnh Alzheimer. Tất nhiên, SNP không phải là chỉ số tuyệt
5 đối của sự phát triển của bệnh. Cụ thể, đối với bệnh Alzheimer nếu một người được thừa hưởng hai alen E4 sẽ không bao giờ có thể phát triển bệnh, trong khi một người đã được thừa hưởng hai alen E2 thì có thể [1, 14]. Trong chuẩn đoán bệnh, các SNP còn được sử dụng như các dấu hiệu sinh học để xác định chính xác một căn bệnh trên bản đồ hệ gen của con người, bởi chúng thường nằm gần một gen được tìm thấy có liên quan đến một căn bệnh nào đó. Thỉnh thoảng, một SNP thực sự có thể gây ra một căn bệnh,và do đó, cũng có thể được sử dụng để tìm kiếm và cô lập các gen gây bệnh. Cụ thể, để tiến hành nghiên cứu liên hệ giữa SNP và một căn bệnh, các nhà khoa học sẽ thu thập mẫu máu từ một nhóm các bệnh nhân và phân tích DNA của họ để cho ra các mẫu SNP. Tiếp theo, các nhà nghiên cứu tiếp tục phân tích DNA từ một nhóm các cá nhân không bị ảnh hưởng bởi căn bệnh này và tiến hành so sánh các mẫu thu được. Nhờ các so sánh này (còn gọi là "association study") các nhà khoa học có thể phát hiện sự khác biệt giữa các mô hình SNP của hai nhóm, thông qua đó xác định sự liên quan của SNP với gen gây bệnh. Và cuối cùng, hồ sơ SNP đặc trưng của nhiều loại bệnh khác nhau sẽ được thành lập. Sau đó, chỉ là vấn đề thời gian, các bác sĩ có thể xác định một người có thể nhạy cảm với một căn bệnh nào đó chỉ bằng cách phân tích các mẫu DNA của họ cho mô hình SNP cụ thể. Ngoài ra các đa hình DNA như SNP cũng rất hữu ích trong việc giúp các nhà nghiên cứu xác định và hiểu lý do tại sao các cá nhân khác nhau trong khả năng của mình có thể hấp thụ các loại thuốc nhất định, cũng như xác định lý do tại sao một cá nhân có thể chịu một tác dụng phụ bất lợi cho một loại thuốc cụ thể. Vì vậy, các nghiên cứu về SNP hứa hẹn sẽ mang đến một cuộc cách mạng lớn trong quá trình phát hiện, phòng ngừa và chữa bệnh. 1.1.2.3. Phát triển SNP và dược phẩm Thuốc trị bệnh đã được con người sử dụng từ hàng ngàn năm trước. Một số loại thuốc vẫn được sử dụng cho đến ngày nay như các chế phẩm làm từ anh túc để giảm đau, tiền thân cho thuốc phiện tổng hợp được sử dụng cho mục đích tương tự bởi các bác sĩ hiện đại. Ngày nay chúng vẫn được được
6 phát triển liên tục không ngừng, bao gồm các chế phẩm sinh học và tổng hợp để điều trị các bệnh mới. Tuy nhiên cho đến hiện tại, việc xác định một bệnh nhân sẽ đáp ứng với một loại thuốc cụ thể hay không vẫn là một vấn đề nan giải. Cụ thể một loại thuốc được chứng minh có hiệu quả trong các bệnh nhân “thông thường” nhưng lại không hiệu quả ở một số người khác hoặc tệ hơn nữa nó có thể đem lại các tác dụng phụ tương đối nặng nề. Do đó các công ty dược phẩm mới chỉ phát triển các sản phẩm đáp ứng các bệnh nhân "thông thường" và loại thuốc dành cho số ít bệnh nhân “bất thường” vẫn chưa được sản xuất. Như đã đề cập ở trên, các đa hình SNP rất hữu ích cho việc nghiên cứu sự hấp thu và thanh thải cũng như tác dụng phụ của thuốc. Do đó các nhà khoa học rất kì vọng, bằng cách phân tích hồ sơ SNP của sẽ tạo ra các loại thuốc thích hợp cho từng cá nhân và phù hợp với cấu trúc di truyền của riêng từng người. Nhờ vậy sẽ cho phép các công ty dược phẩm cung ứng nhiều loại thuốc hơn cho thị trường và giúp các bác sĩ kê toa điều trị một cách hiệu quả. Các nhà khoa học dự kiến chỉ tính riêng ở Hoa Kỳ, "thuốc cá nhân hoá” sẽ có khả năng làm giảm khoảng 100.000 trường hợp tử vong và 2 triệu ca nhập viện do phản ứng phụ với thuốc xảy ra mỗi năm. 1.2 HỆ GEN TY THỂ 1.2.1. Đặc điểm cấu trúc và di truyền hệ gen ty thể 1.2.1.1. Cấu trúc hệ gen ty thể Khác với hệ gen nhân, hệ gene ty thể là một phân tử DNA dạng vòng, mạch kép, có kích thước nhỏ (khoảng 16569 bp) và không liên kết với protein histon. Hai sợi của DNA ty thể (mtDNA) được chia thành chuỗi nặng (H) và nhẹ (L) dựa trên độ nổi của chúng trong trong các gradient celsium clorua . Chuỗi nặng nằm phía ngoài, rất giàu guanine và có chứa điểm khởi đầu sao chép OH. Bắt đầu từ điểm này, quá trình sao chép DNA ty thể được tiến hành tuần tự cho đến điểm khởi đầu sao chép của chuỗi nhẹ (O L), nằm giữa một cụm gen tRNA. Khi điểm OL nằm ở dạng sợi đơn, quá trình tổng hợp mtDNA mới bắt đầu theo hướng ngược lại. Ngoài ra, trên phân tử mtDNA chứa 3 vùng trình tự khởi đầu phiên mã (promoter) khác nhau, bao gồm 2 điểm H1 và H2 trên chuỗi nặng và L trên chuỗi nhẹ.
7 Hình 1.2. Vị trí các gen trên DNA ty thể Có tổng cộng 37 gene mã hóa nằm trên DNA ty thể, bao gồm: 2 gen mã hóa rRNA (12S và 16S), 22 gen mã hóa tRNA và 13 gen mã hóa chuỗi polypeptide (Hình 1.2). Tất cả các chuỗi polypeptide được mã hóa đều là thành phần của phức hệ hô hấp OXPHOS (Oxidative phosphorylation): - Bảy gene MTND1, MTND2, MTND3, MTND4L, MTND4, MTND5, MTND6 mã hóa cho 7 tiểu phần (1, 2, 3, 4L, 4, 5, 6 của phức hệ I (NADH: ubiquinone oxyoreductase) [15]. - Gen MTCYB mã hóa cho tiểu phần Cytochrome b của phức hệ III (ubiquinol: cytochrom coxyoreductase) [16]. - Ba gene MT-COI, MT-COII, MT-COIII mã hóa cho 3 chuỗi polypeptide Cytochrom c oxyase I, II, III của phức hợp IV (cytochrom c oxyase). - Hai gene MT-ATP6, MT-ATP8 mã hóa cho 2 tiểu phần (ATP synthase Fo tiểu phần 6 và 8) của phức hợp V (ATP synthase). Các gen DNA ty thể không chứa intron và có rất ít các đoạn intergenic (đoạn trình tự nằm giữa các gen). Ngoài ra, ở DNA ty thể còn có hiện tượng các gen nằm gối lên nhau (overlapping genes), tương tự như ở một số virus.
8 Một số các gen kết thúc bằng T hoặc TA mà không có một codon kết thúc đúng nghĩa. Ở các gen này, codon kết thúc chỉ được hình thành sau quá trình polyadenyl hóa của các mRNA tương ứng. Các gen mã hóa tRNA trên ty thể thường nằm giữa mỗi hai gen mã hóa rRNA hoặc protein, thuận lợi cho quá trình xử lý RNA sau đó. Chỉ có 22 loại tRNA (tất cả được mã hóa trong mtDNA) tham gia vào quá trình tổng hợp protein của ty thể, ít hơn nhiều so với ở tế bào chất (từ 31-61 loại khác nhau). Ngoài ra, so với các tRNA tương ứng trong tế bào chất, cấu trúc của tRNA này có những sai khác nhất định. Ví dụ, phân tử tRNA Ser(AGY) trong ty thể thiếu hoàn toàn một cánh so với tế bào chất. Ngoài ra, so với hệ gen nhân, mã di truyền ty thể cũng có những khác biệt. Cụ thể, mã di truyền trên DNA ty thể chỉ sử dụng 2 codon mở đầu ‘AUA’ và ‘AUU’ và 2 codon kết thúc 'AGA' và 'AGG', trong khi DNA nhân sử dụng 1 codon mở đầu AUG và 3 codon kết thúc 'UAA', 'UGA' và 'UAG'. Một số các codon cũng mã hóa những acid amin khác nhau như AUA mã hóa cho isoleucin ở nhân nhưng lại xác định methionin ở ty thể. 1.2.1.2. Đặc điểm di truyền hệ gen ty thể Mặc dù có kích thước rất nhỏ (chỉ bằng 0,0005% kích thước bộ gene trong nhân) nhưng hệ gen ty thể có nhiều đặc điểm quan trọng, thuận lợi cho nghiên cứu di truyền quần thể và lịch sử tiến hóa. Đầu tiên, DNA ty thể có đặc tính di truyền theo dòng mẹ, chỉ được truyền từ mẹ sang con [17]. Điều này có thể được giải thích bởi ty thể trong tinh trùng sớm biến mất trong phôi bởi sự phá hủy có chọn lọc, sự bất hoạt, hoặc đơn giản bởi số lượng áp đảo của ty thể của noãn. Như vậy, mtDNA sẽ được kế thừa theo một dòng duy nhất, không có sự tái tổ hợp. Điều này cho phép loại bỏ các ảnh hưởng gây nhiễu, tạo điều kiện thuận lợi cho quá trình nghiên cứu lịch sử di truyền theo mẫu hệ. Các đột biến trên DNA ty thể cũng được xác định xảy ra với tốc độ nhanh hơn 5 đến 10 lần so với DNA nhân, khoảng 2% đến 4% trong một triệu năm [18]. Tốc độ đột biến này có thể do sự thiếu sót các cơ chế sửa chữa các sai hỏng DNA như ở nhân của ty thể. Mặt khác, ty thể cũng là nơi diễn ra
9 nhiều quá trình oxy hóa và do đó sản sinh ra nhiều chất oxy hóa mạnh như các gốc tự do, gây tác động và phát sinh các đột biến đến ở hệ gen ty thể. Ngoài ra, trong tế bào cũng có thể chứa hàng trăm đến hàng ngàn ty thể. Do đó, số lượng các phân tử mtDNA trong 1 tế bào lớn gấp nhiều lần so với DNA nhân [19]. Mặt khác, DNA ty thể có kích thước bé, tồn tại ở dạng mạch vòng nên rất bền theo thời gian. Hai đặc điểm làm cho việc phân tích DNA ty thể đặc biệt có ý nghĩa trong việc phân tích các mẫu sinh phẩm cổ hoặc đã xuống cấp, 1.2.2. Đặc điểm vùng điều khiển (D-loop) trên ty thể Vùng điều khiển D-loop có kích thước 1121 bp, nằm từ vị trí 16024- 16569/0-576 và nằm giữa hai gene tRNA vận chuyển cho Phenyanalin và Prolin, chiếm 7% tổng lượng DNA ty thể (Hình 1.3). Vùng này chứa các trình tự khởi đầu cho quá trình tái bản DNA ty thể và chứa các đoạn điều khiển cho quá trình phiên mã của các gen chức năng trong vùng được mã hóa . Vùng D-Loop ty thể được đặc trưng bởi tỉ lệ xuất hiện các đa hình cao hơn hẳn so với các khu vực khác trên DNA ty thể (khoảng 10 lần) [20, 21]. Điều này có thể được giải thích do các đột biến nằm ở các vùng mã hóa thường chịu ảnh hưởng mạnh của quy luật chọn lọc tự nhiên. Trong khi đó, vùng D-Loop ty thể là vùng không mã hóa, chỉ chịu trách nhiệm điều khiển quá trình tái bản và phiên mã DNA và do đó tích lũy nhiều đột biến hơn. Tuy nhiên, các đột biến này này phân bố không đồng đều trên khắp D-loop và chỉ tập trung chủ yếu ở 2 vùng siêu biến HVS-I (có kích thước 359 bp, nằm ở vị trí 16024 –16365) và HVS-II (kích thước 325 bp, nằm ở vị trí 57 –372) [22]. Hai vùng siêu biến này đã được Greenberg và các cộng sự xác định lần đầu tiên vào năm 1983 [23]. Ngoài ra, trên ty thể còn xuất hiện một vùng siêu biến khác, được gọi là HVS-III với tổng chiều dài 137 bp (438 - 574), chứa nhiều các đoạn trình tự lặp lại 2 nucleotide CA [19].
10 Hình 1.3. Cấu trúc vùng điều khiển (D-loop) DNA ty thể. CSB domain (Conserved Sequences Block domain): vùng các khối trình tự bảo thủ liên quan đến quá trình khởi đầu sao chép và phiên mã; Central conserved domain: Vùng trung tâm; ETAS domain (Extended Termination-associated Sequences domain): vùng trình tự liên quan đến kết thúc sao chép. Cho đến nay, đã có nhiều trình tự hoàn chỉnh vùng D-loop của các dân tộc trên thế giới được công bố trong ngân hàng dữ liệu gen quốc tế về DNA ty thể [24]. Tổng cộng đã có hơn vài nghìn trình tự vùng D-loop được công bố - trong đó có 349 trình tự hoàn chỉnh của hệ gen ty thể người thuộc các chủng tộc khác nhau được nghiên cứu và đăng ký [23]. Số lượng các trình tự D-loop cũng như toàn bộ hệ gen ty thể của các cá thể người thuộc các dân tộc khác nhau trên thế giới được giải mã vẫn tăng lên không ngừng. Tuy nhiên với tần số đột biến cao, nhiều điểm đa hình nên hai vùng siêu biến HVS-I và HVS-II trên DNA ty thể vẫn được tập trung nghiên cứu nhiều hơn, đặc biệt đối với HVS-I. Các đa hình trên 2 khu vực này được sử dụng trong nghiên cứu với các bệnh di truyền, ung thư hoặc các hội chứng bất thường về cơ, thần kinh... Chúng cũng được sử dụng để xác định cá thể và quan hệ huyết thống, trong giám định hài cốt liệt sỹ, giám định pháp y, điều tra tội phạm... Ngoài ra, các đa hình trên mtDNA cũng được sử dụng trong các nghiên cứu nhân chủng học tiến hóa. Bằng cách sử dụng kết hợp 2 nguồn dữ liệu mtDNA (đặc trưng theo mẫu hệ) và MSY (đặc trưng cho phụ hệ), các nhà khoa học đã mở ra một bức tranh tổng thể về lịch sử tiến hóa của loài người cũng như mối liên hệ giữa các dân tộc trên toàn thế giới.
11 1.2.3. Tình hình nghiên cứu hệ gen ty thể trên thế giới và ở Việt Nam 1.2.3.1. Tình hình nghiên cứu trên thế giới Hiện nay, phân tích biến thể hệ gen ty thể được sử dụng rộng rãi để nghiên cứu quan hệ tiến hóa của các cá nhân và quần thể, cả trong phạm vi và giữa các loài. Các nghiên cứu nhân chủng học tiến hóa gần đây về hệ gen ty thể tập trung chủ yếu vào các nhóm đơn bội (haplogroup) ty thể, được xác định dựa trên các nhóm đa hình mtDNA đặc trưng. Dựa trên việc phân loại và sắp xếp các nhóm haplogroup, cây phả hệ tiến hóa và con đường di cư theo DNA ty thể của các nhóm người sẽ được định hình. Cụ thể, nghiên cứu nhân chủng học phân tử của Li và Durbin năm 2011 cho thấy, người hiện đại bắt đầu xuất hiện ở châu Phi cách đây khoảng 200.000 năm (Hình 1.4) [25]. Nghiên cứu hoàn chỉnh trình tự hệ gen ty thể đã hỗ trợ cho việc xác định lịch sử nhân chủng học tiến hóa của loài người ở các châu lục trên thế giới. Người châu Phi đặc trưng bởi Macro-haplogroup L và 7 haplogroup (L0, L1, L2, L3, L4, L5 và L6) phân bố khắp các lục địa châu Phi. Khoảng 85.000 năm trước, haplogroup L3 di cư ra khỏi vùng Đông Phi tới các lục địa châu Á và châu Âu, các vùng rất đa dạng về môi trường, các dân tộc, các nền văn hóa và ngôn ngữ. Hai dòng ADN ty thể M và N xuất hiện từ L3 là tổ tiên của tất cả các dòng ADN ty thể trên lục địa Á, Âu. Các haplogroup phát sinh từ Macro-haplogroup M xuất hiện tại các lục địa Ấn Độ và Đông Nam Á, điều này chứng tỏ đã có một quá trình thực dân hóa rất nhanh dọc theo bờ biển phía nam châu Á vào khoảng 60.000 năm trước [26, 27]. Một sự mở rộng khác của Macro-haplogroup M theo hướng Bắc châu Á vào khoảng 45.000 năm trước đã tạo ra hơn 30 haplogroup khác. Với quần thể người châu Âu, haplogroup L3 và Macro-haplogroup N tạo nên 9 Macro-haplogroup (H, I, J, K, T, U, V, W và X), xuất hiện phổ biến rộng khắp châu lục cách đây khoảng 45.000 năm [27].Trong khi với người châu Mỹ, các nghiên cứu nhân chủng học phân tử chỉ ra họ là con cháu của người châu Á, đặc trưng bởi các Macro- haplogroup: A, B, C, D và X vào khoảng 18.000 năm trước [28].