Tóm tắt Luận án tiến sĩ Kỹ thuật: Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Chia sẻ: Trần Văn Yan | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

36
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” nhằm mục đích nghiên cứu, xây dựng một phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án tiến sĩ Kỹ thuật: Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Đặng Vũ Tùng PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017
Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông Người hướng dẫn khoa học: 1. PGS. TS. Từ Minh Phương 2. PGS. TS. Lê Đức Hậu Phản biện 1: .................................................................................. Phản biện 2: .................................................................................. Phản biện 3: .................................................................................. Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: Học viện Công nghệ Bưu chính Viễn thông Vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Học viện Công nghệ Bưu chính Viễn thông
1 PHẦN MỞ ĐẦU 1. Tính cấp thiết của luận án Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh. Việc khám phá cơ sở phân tử của các căn bệnh có giá trị trong phòng ngừa, chẩn đoán và điều trị bệnh. Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong y sinh học và sinh học phân tử. Trước đây, việc xác định gen được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao. Trong lĩnh vực tin sinh học, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí. Các phương pháp tính toán, xử lý dữ liệu sinh học đã được phát triển giúp các nhà nghiên cứu y sinh học tìm ra các gen liên quan đến bệnh tiết kiệm thời gian và chi phí hơn rất nhiều so với phương pháp truyền thống. Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân tử. Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan vẫn chưa được phát hiện. Mặt khác, các phương pháp đã đề xuất gặp khó khăn khi cần phải thu hẹp danh sách các gen ứng viên. Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học cho thấy các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng. Chúng tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người. Phát hiện này là cơ sở của các phương pháp dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học. Cho tới thời điểm hiện nay, đã có nhiều phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng sinh học đã được nghiên cứu, đề xuất với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh. Tuy nhiên, vẫn còn tồn tại một số vấn đề như: (1)
2 mức độ bao phủ của các mạng sinh học còn hạn chế, (2) hầu hết các phương pháp mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số, (3) trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác và (4) các phương pháp sử dụng mạng tích hợp chưa nhiều và chưa khai thác được các nguồn dữ liệu mới. Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết. Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” nhằm mục đích nghiên cứu, xây dựng một phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học. 2. Mục tiêu của luận án Nghiên cứu, phát triển một số phương pháp tính toán cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các phương pháp đã công bố. Nghiên cứu, ứng dụng các mô hình tính toán mới trong lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên quan đến bệnh. Nghiên cứu, thu thập mạng tương tác gen/protein liên kết chức năng, có trọng số từ các y văn hoặc nguồn dữ liệu công cộng và sử dụng mạng này trong các phương pháp phân hạng gen để nâng cao độ chính xác của kết quả dự đoán. Nghiên cứu, tìm hiểu các mô hình mạng sinh học tích hợp và đề xuất phương án xây dựng mạng tích hợp dựa trên các nguồn dữ liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh. Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh. 3. Các đóng góp của luận án Đề xuất phương pháp phân hạng gen ứng viên bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ
3 sung xác suất tiên nghiệm hợp lý cho các gen liên quan đến bệnh đã biết. Phương pháp được thử nghiệm trên mạng tương tác gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp đã có. Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các phương pháp được so sánh thể hiện thông qua giá trị AUC. Đề xuất ứng dụng một phương pháp phân tích mạng xã hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các gen liên quan đến bệnh đã biết. Trong đó, các gen ứng viên có xác suất liên kết với gen bệnh nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán. Kết quả cho thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui. Phương pháp này được đề xuất áp dụng trên các mạng tương tác gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao. Đề xuất phương pháp xây dựng mạng không đồng nhất bao gồm một mạng bệnh tương đồng dựa trên HPO bằng cách sử dụng các độ đo tương đồng ngữ nghĩa và một mạng gen/protein nhằm mục đích cải thiện, nâng cao hiệu quả dự đoán gen liên quan đến bệnh so với các mạng không đồng nhất được giới thiệu trong các nghiên cứu trước đây. Các kết quả nghiên cứu của luận án sẽ là những đóng góp mới về mặt lý thuyết cho lĩnh vực Tin sinh học, đồng thời có thể ứng dụng để giải quyết bài toán phát hiện các gen liên quan đến những căn bệnh cụ thể. Đây cũng là bước tiền đề để tìm ra các phương pháp điều trị thích hợp cho các bệnh liên quan đến gen (ví dụ: bệnh cao huyết áp, tiểu đường, ung thư, …) và tiến tới giai đoạn “y học cá nhân hóa” hoặc “cá nhân hóa điều trị”. Các phương pháp phân hạng gen được đề xuất cũng có thể phát triển thành các phần mềm ứng dụng để triển khai trong các cơ sở nghiên cứu về y sinh học phục vụ công tác nghiên cứu và đào tạo. 4. Bố cục của luận án Nội dung luận án được chia thành ba chương, cụ thể như sau: Chương 1 - Tổng quan về phân hạng, dự đoán gen liên quan đến bệnh và các vấn đề liên quan: Giới thiệu một số khái niệm về sinh học
4 phân tử; bài toán phân hạng gen; các hướng tiếp cận giải quyết bài toán và tóm lược các nghiên cứu liên quan đã được công bố. Chương 2 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng tương tác gen/protein: Trình bày hai phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng tương tác gen/protein cùng các thực nghiệm được tiến hành để đánh giá hiệu quả của các phương pháp. Chương 3 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng không đồng nhất: Trình bày phương pháp xây dựng mạng không đồng nhất bao gồm mạng bệnh tương đồng ngữ nghĩa dựa trên HPO và mạng gen/protein. Phương pháp đề xuất cho thấy hiệu quả tốt hơn khi so sánh với phương pháp dựa trên hồ sơ OMIM. Phần cuối cùng của luận án là một số kết luận và đề xuất hướng nghiên cứu tiếp theo. Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 1.1. CƠ SỞ VỀ SINH HỌC PHÂN TỬ 1.1.1. Tế bào Tế bào là đơn vị cấu tạo cơ bản của sự sống, chúng cung cấp cấu trúc cho cơ thể, tạo nên chất dinh dưỡng từ thức ăn, chuyển hóa chất dinh dưỡng thành năng lượng và thực hiện các chức năng chuyên biệt. Tế bào chứa các yếu tố di truyền và có thể tự nhân bản. 1.1.2. DNA DNA là yếu tố di truyền ở hầu hết các sinh vật sống. Thông tin trong DNA được lưu trữ dưới dạng mã hóa gồm bốn bazơ: A, G, C và T. Các bazơ DNA bắt cặp với nhau tạo thành các cặp bazơ. Mỗi cặp bazơ liên kết với một phân tử đường và một phân tử phosphate tạo thành một nucleotide. Các nucleotide được sắp xếp thành hai sợi dài xoắn đều quanh một trục tạo thành một đường xoắn kép. 1.1.3. Gen Gen là một đơn vị cơ sở của hiện tượng di truyền ở cấp độ phân tử. Mỗi gen là một đoạn DNA chứa thông tin quy định cấu tạo của các phân
5 tử chức năng như RNA và protein. Các protein tương tác với nhau để thực hiện các chức năng của cơ thể. Như vậy có thể coi các protein là các dạng chức năng của gen. 1.1.4. Quá trình điều khiển tổng hợp protein từ gen Quá trình điều khiển tổng hợp protein từ gen gồm hai bước chính:  Phiên mã: thông tin lưu trữ trong gen của DNA được chuyển tải sang cho một phân tử tương tự là mRNA trong nhân tế bào.  Dịch mã: các mRNA được ghép nối, tổng hợp thành các protein. 1.2. PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT 1.2.1. Bài toán phân hạng gen Phân hạng gen là sử dụng các phương pháp tính toán để xếp hạng các gen theo khả năng liên quan của chúng đối với căn bệnh được xem xét. Các gen có thứ hạng cao sau đó được xác nhận bằng thực nghiệm sinh học để kiểm chứng khả năng liên quan tới căn bệnh. Bài toán phân hạng gen có thể phát biểu như sau: Với một căn bệnh D, một bộ gen C là ứng viên cần xem xét và dữ liệu huấn luyện T. Sau khi nhập dữ liệu và tính toán, phương pháp sẽ tính điểm số cho mỗi gen ứng viên, những gen có điểm số cao là những gen có nhiều khả năng liên quan đến bệnh. Mục đích của phân hạng gen là cung cấp cho các nhà nghiên cứu y sinh học những gợi ý ban đầu về các gen có khả năng liên quan tới căn bệnh, giúp thu hẹp danh sách các gen ứng viên và các cơ chế liên quan của chúng đến căn bệnh. Những đóng góp này rất cần thiết để xác định các gen liên quan đến bệnh, đặc biệt là đối với các căn bệnh phức tạp. 1.2.2. Các hướng tiếp cận giải quyết bài toán phân hạng gen 1.2.2.1. Các phương pháp dựa trên dữ liệu chú giải chức năng Các phương pháp này tính điểm số phân hạng các gen ứng viên bằng cách xác định mức độ tương đồng của mỗi gen ứng viên so với một tập các gen liên quan đến bệnh đã biết đến dựa trên hồ sơ được xây dựng từ nhiều nguồn dữ liệu chú giải chức năng. Hạn chế của các phương pháp dựa trên dữ liệu chú giải chức năng là các nguồn dữ liệu chưa bao phủ được toàn bộ hệ gen của con người.
6 1.2.2.2. Các phương pháp dựa trên học máy Vấn đề dự đoán gen được xem xét giống như một bài toán phân lớp nhị phân, trong đó tập huấn luyện gồm các gen liên quan đến bệnh đã biết và các gen không liên quan đến bệnh. Các phương pháp học máy gặp hạn chế khi cần xây dựng tập dữ liệu huấn luyện là các gen thực sự không liên quan tới bệnh. Mặt khác, chúng cũng không đạt được mục đích thu hẹp danh sách các gen ứng viên cần xem xét. 1.2.2.3. Các phương pháp dựa trên mạng sinh học Các phương pháp này sử dụng các mạng sinh học để thực hiện quá trình phân hạng. Các mạng sinh học được xây dựng dựa trên các dữ liệu y sinh học khác nhau, do đó không bị giới hạn bởi mức độ bao phủ như các nguồn dữ liệu chú giải chức năng. Ngoài ra, các phương pháp này có thể được coi như kỹ thuật học bán giám sát sử dụng dữ liệu không gán nhãn và kết quả thu được là bảng xếp hạng các gen ứng viên được ước tính dựa trên sự liên quan của chúng với các gen bệnh đã biết. 1.3. CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC 1.3.1. Các cơ sở dữ liệu sinh học Trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh, nguồn dữ liệu sử dụng đóng vai trò quan trọng, có liên quan trực tiếp tới chất lượng và khả năng dự đoán. Đã có nhiều nguồn dữ liệu khác nhau được khai thác thành công để dự đoán sự liên quan tới căn bệnh của các gen ứng viên. Điển hình là: dữ liệu khai thác từ các y văn; chú giải chức năng gen; quan hệ kiểu hình; thuộc tính nội tại của gen; trình tự gen; tương tác protein; biểu hiện gen... 1.3.2. Các mạng sinh học Các mạng sinh học bao gồm mạng tương tác và mạng chức năng, được xây dựng, thử nghiệm và phát triển liên tục để mô tả các tương tác vật chất hoặc chức năng giữa các phân tử sinh học. Các mạng này thường được biểu diễn bởi đồ thị vô hướng hoặc có hướng với các nút là các phân tử và các cạnh thể hiện liên kết vật chất hoặc chức năng giữa chúng. Việc giải mã thuộc tính của các mạng sinh học sẽ cung cấp những hiểu biết sâu hơn về các mối quan hệ giữa kiểu gen và kiểu hình phức tạp.
7 1.3.3. Mạng tương tác gen/protein Mạng tương tác gen/protein là nguồn dữ liệu thường được sử dụng để dự đoán các gen liên quan đến bệnh. Mỗi tương tác vật chất giữa các gen/protein sẽ tạo ra một chức năng cơ bản. Chính vì vậy, khi một tương tác có sự thay đổi sẽ dẫn đến một kiểu hình bệnh. Các tương tác gen/protein thường được thu thập bằng phương pháp thực nghiệm như: sử dụng hệ thống thông lượng cao Y2H để chọn lọc các tương tác nhị phân trực tiếp giữa các cặp protein ; phương pháp làm sạch đồng dạng hiệu năng cao bằng khối phổ và phương pháp thu thập từ các y văn. 1.4. CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC 1.4.1. Phương pháp dựa trên mức độ gần nhau của các gen/protein Các phương pháp này sử dụng các chiến lược ghi điểm khác nhau nhưng về bản chất là đo khoảng cách giữa gen liên quan đến bệnh đã biết và gen ứng viên trên mạng tương tác gen/protein. Các phép đo được chia thành ba loại chính là: khoảng cách cục bộ, khoảng cách tổng thể và phương pháp phân hoạch đồ thị để tính toán mức độ gần nhau của từng cặp gen/protein trong mạng. 1.4.2. Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn Các phương pháp này dựa trên giả thuyết cho rằng các gen liên quan đến bệnh sẽ chia sẻ những đặc tính chung trong các dữ liệu về chú giải gen, ngữ nghĩa gen, biểu hiện gen, trình tự gen... Các phương pháp tích hợp thường được sử dụng là: tính toán xếp hạng tổng thể bằng cách kết hợp các xếp hạng của từng đặc tính; xây dựng mạng tích hợp từ các nguồn dữ liệu khác nhau ... 1.4.3. Phương pháp dựa trên tích hợp thông tin kiểu hình Thực tế đã chứng minh rằng các bệnh với kiểu hình tương đồng thường chia sẻ một tập hợp các gen có nguy cơ tiềm ẩn hoặc có quan hệ chức năng. Quan sát này đã được sử dụng để xây dựng các mạng bệnh, trong đó hai bệnh được kết nối với nhau nếu chúng chia sẻ ít nhất một gen chung. Việc tích hợp mạng kiểu hình và mạng gen để phân hạng các
8 gen và kiểu hình một cách đồng thời đã tăng cường đáng kể hiệu quả phân hạng gen ứng viên. 1.4.4. Phương pháp xây dựng các mô đun bệnh Khái niệm mô đun bệnh đã được sử dụng trong nghiên cứu nhiều bệnh khác nhau như bệnh ung thư, tiểu đường, thần kinh.... Cách tiếp cận mô đun bệnh, đặc biệt là đối với những bệnh chưa được nghiên cứu nhiều thường yêu cầu những nỗ lực thực nghiệm để xác định các tương tác cho việc xây dựng những mô đun bệnh căn bản. Các thành phần mạng trong các mô đun topo được cho là có liên quan theo chức năng và sự cố của một mô đun sẽ dẫn đến một bệnh cụ thể. Thông tin về các gen liên quan đến bệnh đã biết được thu thập để xây dựng các mô đun bệnh hoặc các mạng con, trong đó các thành viên sẽ chia sẻ các chức năng tương đồng, mô hình biểu hiện hoặc các lộ trình chuyển hóa. 1.5. PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 1.5.1. Phương pháp kiểm tra chéo Kiểm tra chéo (Cross Validation - CV) là một phương pháp được sử dụng để đánh giá các mô hình học máy trên một tập dữ liệu cho trước. Có ba phương pháp kiểm tra chéo được sử dụng phổ biến là: Hold-out, K-fold cross validation và Leave-one-out cross validation (LOOCV). Kiểm tra chéo bỏ ra một (LOOCV) là phương pháp thường được sử dụng để đánh giá các thuật toán phân hạng gen. 1.5.2. Xác định hiệu quả của các phương pháp phân hạng Phương pháp vẽ đường cong ROC: thường được sử dụng kết hợp với phương pháp LOOCV để so sánh hiệu quả của các thuật toán phân hạng gen khác nhau. Hiệu quả của các thuật toán phân hạng được xác định bằng cách tính toán giá trị AUC (diện tích dưới đường cong ROC). Phương pháp tính hệ số làm giàu: căn cứ vào thứ hạng của các gen liên quan đến bệnh đã biết bị loại bỏ trong tất các trường hợp thử nghiệm để tính toán hệ số làm giàu. Phương pháp tính tỷ lệ trung vị hạng: một số nghiên cứu sử dụng phương pháp đánh giá dựa vào tỷ số giữa giá trị trung vị của các gen liên quan đến bệnh được dự báo đúng trên tổng số các gen ứng viên.
9 Phương pháp tính độ lợi tích lũy giảm dần: là công cụ được sử dụng trong đánh giá các xếp hạng trang Web và các hệ thống truy vấn thông tin, đôi khi cũng được sử dụng để đánh giá các phương pháp phân hạng gen. 1.6. KẾT LUẬN CHƯƠNG 1 Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng sinh học là phương pháp tiếp cận được sử dụng phổ biến. Mặc dù tới thời điểm hiện tại, các phương pháp được đề xuất đã giải quyết khá tốt bài toán, tuy nhiên trên thực tế vẫn còn tồn tại các vấn đề như: mức độ bao phủ của các mạng sinh học còn hạn chế; hầu hết các phương pháp mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số; các phương pháp sử dụng mạng tích hợp chưa nhiều và chưa khai thác được các nguồn dữ liệu mới... Chương 2 và chương 3 của luận án tập trung giải quyết một số vấn đề tồn tại nêu trên. Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 2.1. ĐẶT VẤN ĐỀ Phân tích các mạng sinh học, đặc biệt là mạng tương tác gen/protein là một yếu tố quan trọng để xác định các gen/protein không rõ chức năng. Kết quả nghiên cứu về các tương tác trong mạng có thể dẫn đến những hiểu biết mới về các hệ thống sinh học, góp phần làm rõ cơ chế phân tử của kiểu hình và các quá trình sinh học bị gián đoạn trong căn bệnh có liên quan; tạo cơ hội để khám phá các căn bệnh di truyền dựa trên tính năng topo trong các mạng. Một số kỹ thuật phân tích mạng đã được đề xuất để tính toán độ trung tâm và xếp hạng các nút mạng theo một mức độ quan trọng nhất định. Mặt khác, do các mạng sinh học trên thực tế có các đặc tính cấu trúc tương đồng với các mạng xã hội/mạng web như “kích thước tự do” (scale-free) và “thế giới nhỏ” (small-world) nên nhiều nghiên cứu đã áp dụng các thuật toán phân tích mạng xã hội/mạng web để phân hạng các gen/protein trong các mạng sinh học.
10 2.1.1. Bài toán phân hạng nút trên đồ thị Mạng tương tác protein trong các nghiên cứu liên quan được biểu diễn bởi một đồ thị vô hướng G = (V, E), trong đó tập các nút V là các gen/protein và tập các cạnh E thể hiện tương tác giữa các gen/protein. Giả sử cho trước S là tập các gen bệnh đã biết (còn gọi là tập hạt giống hay tập nút gốc). Bài toán phân hạng gen được định nghĩa như sau: Cho G và tập các nút gốc S (S ⊆ V). Hãy phân hạng tất cả các nút trong C (C = V \S) theo độ liên quan với S. Độ liên quan của một nút t  C được định nghĩa là trung bình cộng độ liên quan của t với các nút trong S. ( | )= ∑ ∈ ( | ) (2.1) | | 2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm (PageRank with priors) là sự mở rộng của thuật toán phân hạng trạng web truyền thống PageRank để tạo ra thuật toán phân hạng tùy biến. PageRank with priors cho phép phân hạng các nút trên đồ thị trong mối tương quan với một tập các nút gốc cho trước. Thuật toán đã được Chen và cộng sự ứng dụng cho bài toán phân hạng gen để dự đoán các gen liên quan đến bệnh và thu được các kết quả khả quan. Điểm phân hạng theo PageRank with priors được xác định theo công thức: ( ) ( )( ) = (1 − ) ∑ ( | ) () ( ) + (2.6) trong đó: β là xác suất quay lui; p(v|u) là xác suất chuyển từ u tới v; pv là xác suất tiên nghiệm của nút v; PR(i)(u) là điểm phân hạng của u tại bước thứ i; din(v) là bậc vào của nút v. 2.1.3. Thuật toán phân hạng bằng học tăng cường Thuật toán phân hạng bằng học tăng cường (Reinforcement Learning Rank- RL_Rank) được đề xuất bởi Vali Derhami và cộng sự. RL_Rank sử dụng cấu trúc liên kết của các trang web và định nghĩa sự phân hạng theo hình thái của bài toán học tăng cường. Trong giải thuật này, một thực thể được xem như một người dùng duyệt web ngẫu nhiên và mỗi trang web là một trạng thái. Điểm phân hạng theo RL_Rank được xác định theo công thức:
11 ( ) ( )=∑ (( ( )⁄ ( )) × ( + ( ))) (2.8) trong đó: Rt+1(v) là thứ hạng của trang v tại thời điểm t+1; Rt(u) là thứ hạng của trang u tại thời điểm t; din(v) bậc vào của trang v; prob(u) là xác suất về sự hiện diện của thực thể tại trang u; dout(u) là bậc ra của trang u; ruv là khoản thưởng dành cho việc chuyển từ trang u sang trang v; γ là hệ số giảm trừ. 2.1.4. Thuật toán bước ngẫu nhiên có quay lui Bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR) là một biến thể của thuật toán bước ngẫu nhiên trên đồ thị. Thuật toán đã được Kohler và cộng sự phát triển cho bài toán phân hạng gen dựa trên đồ thị. Điểm phân hạng theo RWR được xác định theo công thức: = (1 − ) ′ + (2.9) trong đó: pt+1 là vector xác suất của tập các nút |V| tại thời điểm t; Phần tử thứ i biểu diễn xác suất của thực thể tại nút vi  V; W’ là ma trận chuẩn hóa từ ma trận kề W, trong đó W’i j (kí hiệu các phần tử (i, j) trong W’) biểu diễn xác suất mà thực thể di chuyển từ vi tới vj nằm trong tập V\{vi}; p0 là vector xác suất khởi đầu trong đó các phần tử có giá trị bằng 0 (nếu chúng không thuộc tập S) hoặc bằng 1/|S| (nếu chúng thuộc tập S). 2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIỀN NGHIỆM 2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm Thuật toán RL_Rank cho phép xếp hạng các nút trên mạng một cách toàn cục, tức là thuật toán này tính toán độ quan trọng nói chung hay độ quan trọng tuyệt đối của các nút. Trong các bài toán tìm kiếm trên Web, cách xếp hạng này là phù hợp. Tuy nhiên, mục tiêu của bài toán phân hạng gen không phải là tính độ quan trọng tuyệt đối của các nút mà là tính độ quan trọng tương đối của các nút so với các nút gốc (tức là các nút tương ứng với các gen liên quan đến bệnh đã biết). Để giải quyết vấn đề này, phương pháp phân hạng học tăng cường kết hợp với xác suất tiên nghiệm (RL_Rank with priors) sử dụng ý tưởng về “thứ hạng
12 ban đầu” hay xác suất tiên nghiệm trong phương pháp PageRank with priors. Bên cạnh đó, đồ thị mạng tương tác gen/protein là đồ thị vô hướng nên khi áp dụng thuật toán cho bài toán phân hạng gen, có thể coi bậc vào của một nút bằng bậc ra và được xác định là số liên kết với nút (tức là din(v) = dout(v) = d(v)). Giả sử S là tập gen gốc và pS = {p1, … ,p|v|} là vector thứ hạng ban đầu có tổng bằng 1, trong đó pv biểu thị độ quan trọng tương đối của nút v. Ở đây pv = 1/ |S| đối với v  S và pv = 0 đối với v  S. β (0 ≤ β ≤ 1) biểu thị cho xác suất quay trở lại các nút gốc trong quá trình duyệt, nhằm mục đích xem các nút gốc là quan trọng nhất. Khi đó công thức (2.8) của RL_Rank được viết lại như sau: ( ) ( ) = (1 − ) ∑ (( ( )⁄ ( )) × ( + ( ))) + (2.11) Cùng với việc tính đến các xác suất đầu prob(u) là xác suất xuất hiện của agent tại nút u (theo PageRank with priors), thuật toán RL_Rank with priors khi áp dụng cho bài toán phân hạng gen dựa trên mạng tương tác gen/protein được mô tả như sau: Bước 1: Sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để lấy toàn bộ các gen liên kết với tập gen gốc. Bước 2: Xây dựng tập ứng viên C bao gồm các gen gốc và gen liên kết với chúng. Bước 3: Khởi tạo giá trị R, prob và ps Bước 4: Tính toán các giá trị của vector prob (đây cũng chính là thứ hạng của các gen theo thuật toán PageRank with priors). Bước 5: Sử dụng Học tăng cường để tăng cường điểm cho các thứ hạng gốc của các gen để nhận được thứ hạng cuối cùng của chúng. 2.2.2. Dữ liệu thực nghiệm Dữ liệu sử dụng cho thực nghiệm bao gồm một mạng tương tác gen/protein có 11.886 gen và 111.943 liên kết; cơ sở dữ liệu về bệnh và các gen liên quan đến bệnh đã biết được trích xuất từ OMIM gồm 398 bệnh gây ra bởi từ hai gen trở lên và các gen này có trong mạng tương tác protein.
13 2.2.3. Thực nghiệm và kết quả 2.2.3.1. Ảnh hưởng của các tham số Phương pháp thực nghiệm là phân hạng các gen ứng viên đối với từng bệnh cụ thể và tính toán giá trị AUC. Giá trị AUC trung bình trên 398 bệnh sẽ được sử dụng làm kết quả để đánh giá độ chính xác của phương pháp. Đối với tham số γ , kết quả thử nghiệm cho thấy: Khi β >= 0.8, khi tăng hay giảm giá trị γ, kết quả thực hiện thuật toán hầu như không thay đổi. Khi β = 0.5. Đối với tham số β, thiết lập γ = 0.5 và thay đổi giá trị β từ 0.1 đến 0.9. Kết quả thực nghiệm cho thấy độ chính xác của thuật toán không thay đổi nhiều khi thay đổi β. Cụ thể, giá trị cao nhất đạt được khi β = 0.7 chỉ chênh lệch khoảng 1% so với giá trị thấp nhất khi β = 0.1. 2.2.3.2. So sánh với các thuật toán cùng lớp Thực nghiệm tiếp theo được tiến hành để so sánh kết quả phân hạng của phương pháp đề xuất với các phương pháp cùng lớp trên một bộ dữ liệu. Kết quả thực nghiệm trong Bảng 2.1 cho thấy độ chính xác của thuật toán RL_Rank with priors tốt hơn các phương pháp được so sánh. Lý do là bởi có sự kết hợp yếu tố tăng cường trong kết quả phân hạng. Bảng 2. 1. Kết quả của RL_Rank with priors và các thuật toán cùng lớp Phương pháp Tham số β Tham số  Giá trị AUC trung bình RL_Rank with priors 0.7 0.5 0.961 PageRank with priors 0.7 - 0.936 Random Walk with Restart 0.7 - 0.919 K-Step Markov K=6 - 0.908 2.2.3.3. Dự đoán các gen liên quan tới bệnh cao huyết áp Thực nghiệm được tiến hành để phân hạng các gen liên quan đến bệnh cao huyết áp (hypertension) có mã OMIM 145500 và thu thập các bằng chứng y văn của các gen có thứ hạng cao trong kết quả phân hạng. Kết quả tra cứu cho thấy, trong số 20 gen ứng viên có thứ hạng cao nhất, 9 gen đã được báo cáo có liên quan trực tiếp tới bệnh cao huyết áp.
14 Các gen còn lại mặc dù không có bằng chứng trực tiếp liên quan đến bệnh nhưng chúng lại có liên quan đến các bệnh có thể là nguyên nhân gây ra bệnh cao huyết áp như rối loạn chuyển hóa kẽm hoặc tiểu đường. 2.3. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 2.3.1. Thuật toán dựa trên xác suất liên kết Thuật toán dựa trên xác xuất liên kết (SigPathSum) là một phương pháp mới trong phân tích mạng xã hội được đề xuất bởi của HeyongWang và cộng sự. Ý tưởng của thuật toán là xác định tất cả các đường đi không chu trình từ một nút tới một nút truy vấn trên đồ thị. Tại mỗi con đường, từ nút khởi đầu, xác suất lựa chọn nút kế tiếp sẽ được tính toán cho tới nút kết thúc. Tích các xác suất lựa chọn các nút dọc theo con đường được biểu diễn bởi một đại lượng gọi là "xác suất đường đi" (path probability). Đường đi được coi là "có ý nghĩa" nếu "xác suất đường đi" của nó lớn hơn hoặc bằng một giá trị ngưỡng  cho trước. Độ liên quan của một nút với một nút truy vấn được xác định bằng tổng các xác suất đường đi "có ý nghĩa" giữa hai nút. Kết quả đầu ra của thuật toán là k nút có độ liên quan cao nhất đối với các nút truy vấn. Khi áp dụng phương pháp này cho bài toán phân hạng gen dựa trên mạng, giả sử s là một gen liên quan đến bệnh đã biết và t là một gen ứng viên trên đồ thị mạng tương tác gen/protein. Thuật toán sẽ tính các xác suất đường đi có ý nghĩa từ s tới t theo thủ tục SigPathSum. Tầm quan trọng của gen t đối với gen s được xác định bằng tổng các xác suất đường đi có ý nghĩa từ s tới t. Độ liên quan trung bình của gen t đối với tập gen gốc S là điểm phân hạng của gen t. Cuối cùng, k gen có độ liên quan trung bình cao nhất đối với tập gen gốc S sẽ được lựa chọn. Thuật toán thực hiện theo các bước sau: Bước 1: Khởi tạo giá trị , PathProb. Bước 2: Sử dụng DFS để xác định các đường đi không chu trình từ gen s  S tới các gen còn lại. Tại bước i, tính PathProb(s, vi) theo thủ tục SigPathSum; quá trình dừng tại t khi PathProb(s, t) <  . Bước 3: Tính độ liên quan của gen t đối với s.
15 ( | )= ℎ ( , ) Bước 4: Lặp bước 1-3 cho các gen còn lại thuộc S Bước 5: Tính độ liên quan trung bình của gen t đối với tập S. 1 ( | )= ( | ) | | ∈ 2.3.2. Dữ liệu thực nghiệm Bộ dữ liệu thực nghiệm như mô tả trong phần 2.2.2 2.3.3. Thực nghiệm và kết quả 2.3.3.1. Ảnh hưởng của các tham số Đối với tham số f, với một ngưỡng  cố định ( = 10-6), kết quả cho thấy: khi f ≤ 0.1, giá trị AUC không thay đổi nhiều nhưng khi f > 0.1, số lượng gen bị loại bỏ nhiều, dẫn đến giá trị AUC giảm rất nhanh. Mặt khác, thời gian thực hiện trung bình khi f = 0.1 gần gấp đôi thời gian thực hiện trung bình khi f = 0.3. Để thỏa mãn cả 2 tiêu chí về thời gian thực hiện nhanh và hiệu quả theo AUC cao, tham số f được lựa chọn bằng 0.1. Đốivới tham số , thiết lập lần lượt các giá trị  = (10-3, 10-4, 10-5, 10- 6 ). Kết quả cho thấy: khi giá trị ngưỡng  giảm, số lượng các gen được duyệt tăng dẫn đến kết quả phân hạng cũng tăng. Tuy nhiên, thời gian thực hiện thuật toán cũng tăng một cách đáng kể (từ 614.27s với  = 10-3 đến 6013.35s với  = 10-6). Do đó, việc chọn ngưỡng  đóng vai trò quan trọng trong phương pháp tiếp cận này. 2.3.3.2. So sánh với phương pháp bước ngẫu nhiên có quay lui RWR là phương pháp được sử dụng phổ biến nhất cho bài toán phân hạng gen dựa trên mạng. Phương pháp này đã được chứng minh đạt hiệu quả tốt nhất với xác suất quay lại  = 0.7. Trong phương pháp đề xuất, giá trị các tham số được thiết lập tương ứng là: f = 0.1 và  = 10-6 . Kết quả thực nghiệm của hai phương pháp được thể hiện trong Bảng 2.2 cho thấy với  = 10-6, phương pháp đề suất đạt giá trị AUC lớn hơn và thời gian thực hiện chỉ bằng 1/6 thời gian thực hiện của phương pháp RWR.
16 Bảng 2. 2. Kết quả thực hiện SigPathSum (f = 0.1,  = 10-6) và RWR ( = 0.7) Thuật toán Thời gian thực hiện Số gen được duyệt Giá trị AUC SigPathSum 6013.35s 3614 0.925 RWR 37133.98s 11592 0.919 Từ kết quả thực nghiệm thu được có thể kết luận việc kết hợp xác suất giảm trừ f và xác suất đường đi nhanh chóng rút ngắn các con đường, giảm số lượng các gen ứng viên cần xem xét. Với các đồ thị có kích thước lớn như mạng tương tác gen/protein của con người, phương pháp RWR có chi phí tính toán cao cả về thời gian và không gian lưu trữ cần thiết. Khi đó, phương pháp đề xuất ứng dụng sẽ là một lựa chọn tối ưu hơn. 2.3.3.3. Dự đoán các gen liên quan đến bệnh tiểu đường tuýp 2 Theo OMIM, có 31 gen đã được xác định là liên quan đến bệnh tiểu đường tuýp 2, trong đó có 27 gen nằm trên mạng tương tác gen/protein đã thu thập được sử dụng như các nút gốc. Sau khi phân hạng tất cả các gen ứng viên, chọn 20 gen có thứ hạng cao nhất và thu thập các bằng chứng y văn được công bố trong cơ sở dữ liệu PubMed về sự liên quan của các gen này với bệnh. Kết quả tra cứu thu thập được cho thấy 11 gen đã được báo cáo có liên quan trực tiếp đến bệnh tiểu đường tuýp 2. 2.4. SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT 2.4.1. Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng Phương pháp phân hạng Học tăng cường kết hợp xác suất tiên nghiệm (RL_Rank with Prior): được xây dựng dựa trên nền tảng của thuật toán PageRank, đồng thời bổ sung thêm các yếu tố xác suất tiên nghiệm và điểm thưởng theo phương pháp Học tăng cường sau mỗi bước tính toán. Khi thực hiện, phương pháp này duyệt toán bộ các gen trong mạng tương tác gen/protein và tính toán mức độ liên quan/ tầm quan trọng của các gen ứng viên đối với tập gen hạt giống S. Chính vì vậy, độ chính xác trong kết quả phân hạng đạt được khá cao, tuy nhiên vì phải duyệt tất cả các gen và thực hiện các phép tính toán dựa trên ma trận đồ thị chuẩn hóa của mạng tương tác gen/protein nên chi phí thực hiện sẽ cao cả về thời gian thực hiện, không gian lưu trữ cần thiết.
17 Phương pháp này được đề xuất áp dụng cho các mạng tương tác nhỏ và vừa, khi đó sẽ đạt được hiệu quả cao. Phương pháp phân hạng dựa trên tổng xác suất liên kết trong mạng tương tác gen/protein (SigPathSum): dựa trên khái niệm đường đi có ý nghĩa, kết hợp hệ số giảm trừ f và giá trị ngưỡng xác suất đường đi . Khi thực hiện, phương pháp này cho phép rút ngắn các con đường, giảm số lượng các gen cần xem xét (không cần duyệt tất cả các gen trên đồ thị mạng tương tác gen/protein), nhanh chóng xác định k gen có độ liên quan/tầm quan trọng cao nhất đối với tập gen hạt giống S. Mặt khác, phương pháp dựa trên tổng xác suất liên kết phản ánh được mức độ liên quan toàn cục của các gen ứng viên và gen hạt giống (gen ở xa gen hạt giống nhưng có tổng xác suất liên kết lớn vẫn có khả năng liên quan đến bệnh nhiều hơn). Phương pháp này có độ phức tạp tính toán thấp và thời gian thực hiện nhanh hơn so với RL_Rank with Priors. Do đó được đề xuất áp dụng dụng trên các mạng tương tác có kích thước lớn nhưng vẫn đảm bảo hiệu quả dự đoán cao. 2.4.2. Về thực nghiệm Với cùng một bộ dữ liệu và các bước thực nghiệm như đã trình bày trong các phần 2.2.3, 2.3.3. Kết quả thực nghiệm cho thấy: Về hiệu quả phân hạng: Thuật toán RL_Rank with priors đạt được hiệu quả phân hạng cao nhất. Giá trị AUC trung bình trên 398 bệnh là 0.961, cao hơn thuật toán SigPathSum (AUC = 0.925) và thuật toán RWR (AUC = 0.919). Về thời gian thực hiện: Thuật toán SigPathSum có thời gian thực hiện ngắn nhất (6013.35s), trong khi đó thời gian thực hiện của RL_Rank gấp gần 7 lần so với SigPathSum là (41329.74s), xấp xỉ thời gian thực hiện của RWR (37133.98s). Ý nghĩa kiểm chứng về mặt sinh học: Các phương pháp đề xuất đều có khả năng dự đoán gen mới liên quan đến những căn bệnh cụ thể. 2.5. KẾT LUẬN CHƯƠNG 2 Chương này trình bày hai phương pháp phân hạng gen dựa trên mạng tương tác gen/protein. Với mỗi phương pháp, các thực nghiệm đã được tiến hành trên mạng tương tác gen/protein và mối quan hệ bệnh – gen đã biết của con người, đồng thời kiểm chứng về mặt sinh học đối với căn bệnh cụ thể.
18 Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 3.1. ĐẶT VẤN ĐỀ Đa số các phương pháp phân hạng và dự đoán gen liên quan đến bệnh hiện nay chỉ dựa trên một mạng sinh học duy nhất. Do đó, gặp phải một số hạn chế như: các mạng sinh học hiện nay chưa bao phủ hết bộ gen của con người và vấn đề nhiễu dữ liệu trong các mạng sinh học. Để khắc phục những hạn chế này, một số giải pháp sử dụng chiến lược tích hợp dữ liệu mạng đã được đề xuất nhằm tăng cường hiệu quả phân hạng và dự đoán. Chương này đề xuất phương pháp xây dựng một mạng không đồng nhất bao gồm: mạng tương đồng ngữ nghĩa giữa các kiểu hình bệnh và mạng tương tác gen/protein. Mạng bệnh tương đồng được khai thác từ những kiểu hình bệnh được chú giải bởi cơ sở dữ liệu bản thể kiểu hình của con người (Human Phenotype Ontology - HPO), đồng thời sử dụng một số biện pháp tương đồng ngữ nghĩa đã được đề xuất để tính toán mức độ tương đồng giữa các chú giải của các đối tượng y sinh. Phần thực nghiệm được tiến hành để so sánh hiệu quả của phương pháp đề xuất với các phương pháp cùng lớp. Bên cạnh đó, phương pháp đề xuất cũng được sử dụng để tìm kiếm những gen mới liên quan đến bệnh Alzheimer. 3.2. MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 3.2.1. Tổng quan về xây dựng mạng không đồng nhất Mạng không đồng nhất được xây dựng bằng cách kết hợp hai hoặc nhiều mạng đơn lẻ của các đối tượng y sinh mà giữa chúng có chia sẻ một số thuộc tính chung. Trong nghiên cứu này, mạng không đồng nhất bệnh-gen được xây dựng từ hai loại mạng: (1) mạng gen/protein, trong đó các gen/protein được kết nối với nhau bằng các tương tác chức năng, (2) mạng bệnh tương đồng, trong đó liên kết giữa hai bệnh được xác định bởi mức độ tương đồng ngữ nghĩa giữa chúng. Hai mạng này được kết nối bởi một mạng lưỡng phân gồm các liên kết bệnh-gen đã biết.