Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:116

Thêm vào BST

Báo xấu

17
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu của đề tài "Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư" nhằm hệ thống hoá các kiến thức cơ bản về lý thuyết đồ thị và mạng phức hợp; Thu thập và mô hình hoá dữ liệu mạng sinh học; Nghiên cứu các mô hình tính toán và thuật toán xếp hạng đỉnh; Nghiên cứu và phát triển mô hình động lực cạnh tranh mạng, ứng dụng dự đoán gen mục tiêu điều trị ung thư.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư

BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ PHẠM ĐỨC TĨNH Phạm Đức Tĩnh HỆ THỐNG THÔNG TIN NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỘNG LỰC CẠNH TRANH TRONG MẠNG THÔNG TIN PHỨC HỢP VÀ ỨNG DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN 2024 Hà Nội - 2024
BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Phạm Đức Tĩnh NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỘNG LỰC CẠNH TRANH TRONG MẠNG THÔNG TIN PHỨC HỢP VÀ ỨNG DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Mã số: 9480104 Xác nhận của Học viện Người hướng dẫn 1 Người hướng dẫn 2 Khoa học và Công nghệ (Ký, ghi rõ họ tên) (Ký, ghi rõ họ tên) Hà Nội - 2024
LỜI CAM ĐOAN Tôi xin cam đoan luận án "Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư" là công trình nghiên cứu của chính tôi, dưới sự hướng dẫn khoa học của tập thể hướng dẫn. Luận án sử dụng thông tin trích dẫn từ nhiều nguồn tham khảo khác nhau và các thông tin trích dẫn được ghi rõ nguồn gốc. Các kết quả nghiên cứu của tôi được công bố chung với các tác giả khác đã được sự đồng ý của đồng tác giả khi đưa vào luận án. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác ngoài các công trình công bố của tác giả. Luận án được hoàn thành trong thời gian tôi làm nghiên cứu sinh tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Hà Nội, ngày 27 tháng 6 năm 2024 Tác giả luận án Phạm Đức Tĩnh
LỜI CẢM ƠN Luận án Tiến sĩ “Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư” được hoàn thiện bằng sự cố gắng của bản thân và sự giúp đỡ của tập thể hướng dẫn khoa học, Viện Công nghệ Thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Trường Đại học Công nghiệp Hà Nội, và các Chuyên gia, các Nhà khoa học, đồng nghiệp, bạn bè, cũng như người thân trong gia đình. Trước tiên, NCS xin được bày tỏ lòng biết ơn chân thành đến tập thể hướng dẫn khoa học là TS. Trần Tiến Dũng và TS. Hoàng Đỗ Thanh Tùng. Trong suốt thời gian làm nghiên cứu, NCS đã luôn nhận được những định hướng khoa học, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học của tập thể hướng dẫn. Tôi xin chân thành cảm ơn Viện Công nghệ Thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình làm nghiên cứu và thực hiện luận án. Tôi cũng xin chân thành cảm ơn Ban Lãnh đạo Trường Đại học Công nghiệp Hà Nội, Trung tâm Công nghệ Thông tin - Trường Đại học Công nghiệp Hà Nội, đã quan tâm giúp đỡ tạo mọi điều kiện tốt nhất để tôi hoàn thành quá trình học tập và nghiên cứu của mình. Tôi xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý báu của quý đồng nghiệp và các Nhà khoa học. Cuối cùng, tôi xin cảm ơn sự động viên hết mình của mọi thành viên trong gia đình tôi, sự khuyến khích động viên của gia đình là động lực học để tôi hoàn thành luận án này. Hà Nội, ngày 27 tháng 6 năm 2024 Tác giả luận án Phạm Đức Tĩnh
1 MỤC LỤC MỤC LỤC ..................................................................................................... 1 DANH MỤC CÁC KÝ HIỆU ........................................................................ 4 DANH MỤC CÁC TỪ VIẾT TẮT ................................................................ 5 DANH MỤC CÁC BẢNG ............................................................................. 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ......................................................... 8 DANH MỤC THUẬT TOÁN ........................................................................ 8 MỞ ĐẦU ....................................................................................................... 9 Chương 1. TỔNG QUAN VỀ XẾP HẠNG ĐỂ DỰ ĐOÁN GEN MỤC TIÊU ĐIỀU TRỊ UNG THƯ .................................................................................. 13 1.1. Bài toán xếp hạng để dự đoán gen bệnh......................................................... 13 1.2. Cơ sở lý thuyết .............................................................................................. 15 1.2.1. Lý thuyết đồ thị ................................................................................... 16 1.2.2. Biểu diễn đồ thị trên máy tính ............................................................. 18 1.2.3. Mạng phức hợp ................................................................................... 19 1.2.4. Dữ liệu và mô hình hoá dữ liệu mạng sinh học .................................... 29 1.3. Các phương pháp và nghiên cứu liên quan dự đoán gen điều trị bệnh dựa trên mạng phức hợp ................................................................................................................ 31 1.3.1. Thuộc tính gần gũi của một đỉnh ......................................................... 32 1.3.2. Thuộc tính gần gũi theo thứ bậc của đỉnh ............................................ 32 1.3.3. Thuộc tính trung tâm giữa của một đỉnh .............................................. 33 1.3.4. Thuật toán bước nhảy ngẫu nhiên có quay lại ...................................... 34 1.3.5. Thuật toán ORIENT ............................................................................ 35 1.3.6. Thuật toán sử dụng xác xuất tiền nhiệm PRINCE ................................ 36 1.4. Tổng quan về mạng quy mô lớn .................................................................... 36 1.4.1. Khái niệm mạng quy mô lớn ............................................................... 36 1.4.2. Một số hướng nghiên cứu trên mạng quy mô lớn ................................. 36 1.5. Mô hình động lực mạng. ............................................................................... 38 1.6. Kết luận ........................................................................................................ 40 Chương 2. MÔ HÌNH ĐỘNG LỰC CẠNH TRANH TRÊN MẠNG PHỨC HỢP ỨNG DỤNG TRONG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ ......... 41
2 2.1. Mô hình động lực cạnh tranh trên mạng phức hợp ......................................... 41 2.2. Đề xuất mô hình động lực cạnh tranh ngoài trên mạng phức hợp ................... 44 2.3. Xây dựng thuật toán của mô hình động lực cạnh tranh ngoài ......................... 47 2.3.1. Ý tưởng của thuật toán ........................................................................ 47 2.3.2. Chức năng, đầu vào, đầu ra của thuật toán ........................................... 48 2.3.3. Sơ đồ luồng và mã giả của thuật toán .................................................. 48 2.4. Đánh giá độ phức tạp của thuật toán .............................................................. 52 2.5. Xây dựng hệ thống dự đoán gen điều trị ung thư sử dụng mô hình động lực học cạnh tranh ngoài .............................................................................................................. 53 2.5.1. Bài toán dự đoán gen mục tiêu điều trị ung thư .................................... 54 2.5.2. Dữ liệu thực nghiệm............................................................................ 54 2.5.3. Sự tương quan giữa các phép đo .......................................................... 56 2.5.4. Mô hình tổng thể hệ thống chẩn đoán gen ung thư dựa trên mạng phức hợp ........................................................................................................................... 58 2.5.5. Kết quả dự đoán gen mục tiêu điều trị ung thư .................................... 60 2.5.6. So sánh kết quả dự đoán ...................................................................... 64 2.6. Kết luận ........................................................................................................ 66 Chương 3. TƯƠNG TÁC GIÁN TIẾP TRONG MÔ HÌNH ĐỘNG LỰC CẠNH TRANH NGOÀI VÀ ỨNG DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ ............................................................................................................. 67 3.1. Đề xuất mô hình tính toán tương tác gián tiếp động lực cạnh tranh ngoài. ..... 67 3.1.1. Mô hình tính toán tương tác trực tiếp động lực cạnh tranh ngoài ......... 67 3.1.2. Đề xuất mô hình tính toán gián tiếp động lực cạnh tranh ngoài ............ 68 3.2. Xây dựng thuật toán tính toán tương tác gián tiếp động lực cạnh tranh ngoài. 69 3.2.1. Thuật toán tính toán ma trận khoảng cách ........................................... 70 3.2.2. Thuật toán tính toán ma trận ảnh hưởng .............................................. 72 3.2.3. Thuật toán tính tổng sự ảnh hưởng trên mỗi đỉnh mạng ....................... 75 3.3. Tính toán hiệu năng cao cho mô hình động lực cạnh tranh ngoài ................... 76 3.3.1. Xây dựng thuật toán tính toán hiệu năng cao cho mô hình ................... 76 3.3.2 Thiết kế công cụ phần mềm tính toán hiệu năng cao ............................. 78 3.3.3. Đánh giá tốc độ tính toán của thuật toán .............................................. 79 3.4. Thực nghiệm ................................................................................................. 79 3.4.1. Dữ liệu thực nghiệm............................................................................ 80
3 3.4.2. Kiến trúc của mô hình dự đoán ............................................................ 81 3.4.3. Kết quả dự đoán gen mục tiêu điều trị ung thư .................................... 83 3.4.5. So sánh kết quả dự đoán với các nghiên cứu khác ............................... 87 3.5. Kết luận ........................................................................................................ 90 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 91 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ..................................... 93 THUỘC LUẬN ÁN ..................................................................................... 93 TÀI LIỆU THAM KHẢO ............................................................................ 94 PHỤ LỤC .................................................................................................. 107
4 DANH MỤC CÁC KÝ HIỆU Ký hiệu Diễn giải Đồ thị biểu diễn mạng phức hợp, gồm tập đỉnh V, tập cạnh G (V , E ) E n, m Số đỉnh và số cạnh của đồ thị G (V , E ) (k ) Trung bình bậc của mạng  (G ) Độ bền vững của mạng G Ma trận kề kết nối biến thiên theo thời gian giữa các đỉnh A(t ) tại thời điểm t deg(v ) Bậc của đỉnh v degin (v);deg out (v) Bậc trong và bậc ngoài của đỉnh v d (v, w) Khoảng cách của đường đi ngắn nhất từ đỉnh v đến đỉnh w Cclo (v) Mức độ gần gũi của đỉnh v với các đỉnh khác trong mạng N R (v ) Thứ bậc của một đỉnh v trong mạng Mức độ gần gũi theo thứ bậc của đỉnh v với các đỉnh khác Chc (v) trong mạng Mức độ trung tâm giữa của một đỉnh so với các đỉnh khác Cbet (v) trong mạng  st Tổng số đường đi ngắn nhất giữa hai đỉnh s và t  st (v) Số đường đi ngắn nhất đi qua v mà từ s đến t ¯ ¯ G = (V, E ) Đồ thị phần bù của đồ thị G(V,E) N(v); Nv Tập các đỉnh lân cận của đỉnh v trong G xu (t ) Trạng thái của đỉnh u ở thời điểm t C (t ) Ma trận định lượng liên kết của mạng tại thời điểm t A; auv Ma trận kề của mạng; trọng số kề giữa đỉnh u và v; Deg max Bậc ngoài lớn nhất của đỉnh trong mạng Trạng thái của các đỉnh bình thường trong mô hình động XnormRN-2 lực cạnh tranh mạng G(V, E) xi Trạng thái hội tụ của đỉnh i
5 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết Tiếng Anh Diễn giải tắt Thuộc tính trung tâm của một đỉnh trong BC Betweenness mạng Thuộc tính gần gũi của một đỉnh trong CC Closeness mạng Thuộc tính bậc của một đỉnh trong mạng DC Degree (gọi tắt là bậc của đỉnh) Hierarchical Thuộc tính gần gũi theo thứ bậc của một HC closeness đỉnh trong mạng Là phân tử mang thông tin di truyền cho sự Deoxyribonucleic phát triển và hoạt động của một sinh vật. DNA Acid https://www.genome.gov/genetics- glossary/Deoxyribonucleic-Acid Application Giao diện lập trình ứng dụng (API) là cách API Programming để hai hoặc nhiều chương trình máy Interface tính giao tiếp với nhau. Kyoto Encyclopedia KEGG là nguồn cơ sở dữ liệu tin sinh học KEGG of Gens and quy mô lớn, được tạo ra bởi trình tự bộ gen Genomes và thông lượng cao. Ngôn ngữ đánh dấu KEGG (KGML) là định dạng tương tác của bản đồ lộ trình Kyoto Encyclopedia KEGG. KGML cho phép vẽ các con of Gens and KGML đường KEGG và cung cấp các phương tiện Genomes Markup để phân tích tính toán và mô hình hóa Language mạng lưới gen/protein và mạng trao đổi chất. Trung tâm Thông tin Công nghệ sinh học Quốc gia Hoa Kỳ (NLM). NCBI chứa một National Center for loạt cơ sở dữ liệu liên quan đến công nghệ NCBI Biotechnology sinh học và là nguồn tài nguyên quan trọng Information cho các công cụ và dịch vụ tin sinh học. Cơ sở dữ liệu chính bao gồm GenBank cho trình tự DNA và PubMed.
6 Tương tác protein-protein (PPI) là các tiếp xúc vật lý được thiết lập giữa hai hoặc nhiều phân tử protein do các sự kiện sinh Protein-protein hóa được thúc đẩy bởi các tương PPI interaction tác. Protein hiếm khi hoạt động một mình vì chức năng của chúng có xu hướng được điều chỉnh. PPI bất thường có thể là nền tảng của nhiều bệnh liên quan. Là một chuỗi đơn gồm những Ribonucleotide. RNA có chức năng mang RNA Ribonucleic Acid thông điệp di truyền từ DNA đến vị trí tổng hợp protein và giúp cơ thể tổng hợp protein. Central Processing Bộ vi xử lý đơn lõi CPU Unit CPUs Bộ vi xử lý đa lõi
7 DANH MỤC CÁC BẢNG Tên và nội dung bảng Trang Bảng 2.1. Kết quả dự đoán gen mục tiêu điều trị ung thư bởi mô hình động lực cạnh tranh ngoài. .............................................................................................................................. 61 Bảng 2.2. Bảng minh chứng gen mục tiêu điều trị ung thư ............................................... 62 Bảng 2.3: Kết quả so sánh giữa hai mô hình khác nhau trên cùng bộ dữ liệu. ................... 65 Bảng 3.1: Ví dụ về ma trận khoảng cách. ......................................................................... 72 Bảng 3.2: Ví dụ về ma trận ảnh hưởng............................................................................. 73 Bảng 3.3: Năng lực tính toán song song bởi Drivergen.net............................................... 79 Bảng 3.4: Xác định gen mục tiêu thuốc ung thư trên 3 mạng lớn. .................................... 85 Bảng 3.5: Xác định lõi k-core và r-core. .......................................................................... 87 Bảng 3.6: Kết quả dự đoán trên 2 mô hình cạnh tranh ngoài đề xuất. ............................... 87 Bảng 3.7: So sánh kết quả dự đoán giữa các nghiên cứu độc lập. ..................................... 88
8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Tên hình vẽ, đồ thị Trang Hình 1.1. Bức tranh tổng quan dự đoán gen mục tiêu điều trị ung thư trên các mạng sinh học. ........................................................................................................................................ 13 Hình 1.2: Một số hình ảnh về mạng phức hợp.................................................................. 20 Hình 1.3: Ví dụ về mô hình mạng small-world. ............................................................... 21 Hình 1.4: Mạng trao đổi chất của sinh vật đặc trưng scale-free [32]. ................................ 23 Hình 1.5: Một ví dụ về phân tách lõi [13]. ....................................................................... 27 Hình 1.6: Phân cụm mạng dựa trên khoảng cách [38]. ..................................................... 28 Hình 2.1: Một ví dụ về mô hình động lực cạnh tranh trong trên mạng phức hợp [73]. ...... 41 Hình 2.2. Một ví dụ về mô hình động lực cạnh tranh ngoài. ............................................. 45 Hình 2.3. Sơ đồ khối thuật toán mô hình động lực cạnh tranh ngoài................................. 50 Hình 2.4: Ví dụ về mạng tín hiệu ung thư bàng quang [86]. ............................................. 55 Hình 2.5: Sự tương quan phép đo gần gũi với tổng sự ảnh hưởng. ................................... 57 Hình 2.6: Mô hình tổng thể xác định gen mục tiêu điều trị ung thư. ................................. 59 Hình 3.1. Hiệu suất tính toán của Drivergene.net ............................................................. 79 Hình 3.2: Kiến trúc của mô hình dự đoán gen mục tiêu điều trị ung thư trên mạng lớn. ... 81 Hình 3.3: So sánh kết dự đoán với các nghiên cứu trước. ................................................. 89 DANH MỤC THUẬT TOÁN Thuật toán 2.1. Thuật toán của mô hình động lực cạnh tranh ngoài. ................................. 50 Thuật toán 3.1: Thuật toán tính toán ma trận khoảng cách. .............................................. 70 Thuật toán 3.2: Thuật toán tính toán ma trận ảnh hưởng. ................................................. 73 Thuật toán 3.3: Thuật toán tính toán tổng sự ảnh hưởng của các đỉnh đến mỗi đỉnh mạng trong mô hình động lực cạnh tranh ngoài cải tiến. ............................................................ 75 Thuật toán 3.4: Thuật toán tính toán song song. ............................................................... 77
9 MỞ ĐẦU 1. Tình hình thực tiễn Ung thư là tên gọi chung cho hơn 200 loại bệnh có liên quan và có tỷ lệ tử vong cao, chỉ đứng sau các bệnh về tim mạch. Điều trị bệnh nhân ung thư rất phức tạp và tốn kém, mức độ tiên lượng thấp (mức độ sống sót sau một khoảng thời gian, thường là 5 năm), phát hiện bệnh thường ở giai đoạn muộn. Nguyên nhân của ung thư được cho là từ đột biến gen gây ra. Tuy nhiên không phải gen nào đột biến cũng gây ra ung thư, chỉ có một số gen đột biến được xác định là nguyên nhân gây ung thư [1]. Dựa vào đặc điểm, cơ chế hoạt động và chức năng của một số gen, người ta gọi đó là gen điều khiển (tạm gọi là đỉnh điều khiển trong mạng sinh học) ung thư, và cũng thường là mục tiêu điều trị ung thư [2]. Hiện nay việc xác định các gen đột biến gây ra bệnh (bệnh nói chung và bệnh ung thư nói riêng) hay còn được gọi là gen bệnh ở các cơ sở y tế được thực hiện chủ yếu bằng các thực nghiệm xét nghiệm sinh học lâm sàng trên các mẫu bệnh phẩm [3]. Công việc này thường được thực hiện thủ công trong phòng thí nghiệm cho hàng nghìn gen ứng viên nằm trên một vùng nhiễm sắc thể khả nghi từ mẫu bệnh và cho độ chính xác cao nhưng đòi hỏi nhiều thời gian và chi phí [4]. Để giảm khối lượng mẫu cho việc thực nghiệm lâm sàng, các hướng tiếp cận công nghệ đã được giới thiệu. Cụ thể như cách tiếp cận theo thống kê dựa trên sự tương đồng về đột biến gen [5], cách tiếp cận học máy bao gồm cả học sâu dựa trên dữ liệu tập mẫu các gen đột biến hay tập mẫu chữ ký gen liên quan đến bệnh đã biết [6, 7]. Các phương pháp thống kê dựa trên sự tương đồng đột biến tập trung vào việc đánh giá các đột biến và sự tương đồng của chúng để xác định các gen mục tiêu của thuốc chống ung thư. DrGaP là một công cụ linh hoạt xác định các gen mục tiêu của thuốc chống ung thư và kiểm soát các con đường tín hiệu trong các bộ giải trình tự gen [10]. OncodriveCLUST là một phương pháp khác xác định các gen mục tiêu bằng cách đánh giá các đột biến không mã hóa từ các đột biến soma [11]. OncoVar sử dụng các thuật toán tin sinh học đã biết để xác định các gen mục tiêu dựa trên tiềm năng gây ung thư của các đột biến soma và các gen ung thư [12]. Một hạn chế của phương pháp này xuất hiện khi các gen bệnh đã biết và chưa biết có mối quan hệ gián tiếp hoặc chức năng tương tự, dẫn đến việc gán chức năng sai và ảnh hưởng đến kết quả dự đoán [13, 14]. Các phương pháp dựa trên học
10 máy bao gồm cả học sâu đều cần một tập mẫu lớn rõ các gen ung thư đã biết, các đặc trưng trên tập mẫu rõ có thể được trích xuất và gán nhãn làm đầu vào của quá trình học, để xác định các gen trên tập kiểm tra. Ví dụ về các công cụ như vậy bao gồm DriverML, công cụ lượng hóa các tác động chức năng của các đột biến lên protein để xác định các gen mục tiêu [6]. EARN (Ensemble of Artificial Neural Network, Random Forest, and non-linear Support Vector Machine) sử dụng học máy để đánh giá các gen mục tiêu của thuốc chống ung thư trong di căn vú [7]. Một công cụ khác gọi là PCDG-Pred phân biệt các thuộc tính của các gen mục tiêu của thuốc chống ung thư từ các thuộc tính (hành khách) sử dụng dữ liệu giải trình tự gen và mô hình học máy [8]. Hiệu quả của hướng nghiên cứu này phụ thuộc nhiều vào dữ liệu tập mẫu rõ và cả mô hình học. Trong khi việc xác định tập các gen mà đột biến của chúng có liên quan đến bệnh cho việc xây dựng tập mẫu vẫn còn là một thách thức [10]. Tuy vậy, hướng nghiên cứu học máy bao gồm cả học sâu đang có những phát triển vượt trội trong những năm gần đây, hỗ trợ quan trọng trong việc giảm số lượng mẫu trong thực nghiệm lâm sàng [6, 7]. Dữ liệu sinh học ở người được cho là gồm khoảng 22.000-25.000 gen và tồn tại trong trạng thái “động”, chúng tồn tại trong sự tương tác lẫn nhau như kích hoạt, ức chế, trao đổi chất, tuyền tín hiệu và kiểm soát lẫn nhau [11]. Do đó nhìn từ góc độ đồ thị và mạng lưới, dữ liệu sinh học có thể được mô hình hóa thành các mạng phức hợp, mà ở đó các đỉnh được hiểu là các gen hoặc sản phẩm của gen (protein), liên kết thể hiện sự tương tác giữa chúng [11]. Vì vậy, việc khai phá dữ liệu sinh học có thể được quy về bài toán khai phá dữ liệu trên mạng phức hợp. Từ quan điểm đó, gần đây cách tiếp cận mới theo hướng mạng lưới trong việc dự đoán gen mục tiêu điều trị ung thư đã được giới thiệu và đang nhận được sự quan tâm [12]. Cách tiếp cận này thường dẫn đến việc đề xuất các mô hình tính toán trên mạng [13], các mô hình tính toán này thường đưa ra một bảng xếp hạng các đỉnh (gen) theo một thuộc tính nào đó và các đỉnh có thứ hạng cao được cho là quan trọng và có thể liên quan đến mục tiêu dự đoán [13]. Sau khi xếp hạng, một số lượng nhỏ các đỉnh (gen/protein) có thứ hạng cao sẽ được đưa vào thực nghiệm lâm sàng, hoặc tìm kiếm minh chứng, để khẳng định chức năng của gen có liên quan đến bệnh hay không. Các tiến bộ gần đây trong lĩnh vực gen, protein và sức mạnh của máy tính đã mở ra một cơ hội mới cho các nhà khoa học dữ liệu, khoa học mạng
11 lưới, nghiên cứu, đề xuất và thử nghiệm các thuật toán, mô hình tính toán mới trên các mạng sinh học, để khai phá các dữ liệu mạng sinh học tìm gen mục tiêu điều trị bệnh nói chung và ung thư nói riêng [14]. Hiện tại đã có một số kết quả nghiên cứu đáng khích lệ nhưng còn nhiều thách thức và cần tiếp tục được nghiên cứu thêm [15]. Cụ thể như, hiệu suất dự đoán còn khiêm tốn và cần tiếp tục được cải thiện, mạng sinh học được cho là động [16], với thời gian tính toán lớn, vì vậy các mô hình tính toán trên mạng tĩnh và tuần tự có thể chưa hiệu quả. Từ những phân tích trên, luận án chọn đề tài “Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư” để thực hiện các nhiệm vụ của đề tài, luận án. 2. Mục tiêu nghiên cứu của luận án Mục tiêu nghiên cứu của luận án là nghiên cứu và phát triển các mô hình động lực cạnh tranh trên các mạng thông tin phức hợp, xác định thành phần điều khiển mạng, ứng dụng trên các mạng sinh học dự đoán gen mục tiêu điều trị ung thư. 3. Nội dung nghiên cứu - Tìm hiểu bài toán xếp hạng để dự đoán gen bệnh. - Khảo cứu các phương pháp xếp hạng gen liên quan. - Hệ thống hoá các kiến thức cơ bản về lý thuyết đồ thị và mạng phức hợp. - Thu thập và mô hình hoá dữ liệu mạng sinh học. - Nghiên cứu các mô hình tính toán và thuật toán xếp hạng đỉnh. - Nghiên cứu và phát triển mô hình động lực cạnh tranh mạng, ứng dụng dự đoán gen mục tiêu điều trị ung thư. 4. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu: Mô hình động lực cạnh tranh trên mạng thông tin phức hợp mạng, gen mục tiêu điều trị ung thư trên mạng sinh học. - Phạm vi nghiên cứu thực nghiệm: 17 mạng tín hiệu ung thư được tải từ cơ sở dữ liệu KEGG và 03 bộ dữ liệu mạng sinh học quy mô lớn khác nhau. 5. Phương pháp nghiên cứu Luận án sử dụng các phương pháp tổng hợp lý thuyết, phân tích, đánh giá các nghiên cứu liên quan. Từ đó tiến hành thu thập và mô hình hóa dữ liệu, đề xuất mô hình tính toán và tiến hành thực nghiệm.
12 6. Các đóng góp chính của luận án Luận án có 2 đóng góp chính: - Đề xuất một mô hình và thuật toán động lực cạnh tranh ngoài để xác định đỉnh điều khiển mục tiêu trong mạng phức hợp, với khả năng ứng dụng dự đoán gen điều trị ung thư; - Đề xuất một mô hình động lực cạnh tranh ngoài cải tiến với khả năng xử lý tương tác gián tiếp giữa các đỉnh mô hình mạng phức hợp, giúp nâng cao khả năng dự đoán gen mục tiêu điều trị ung thư, đặc biệt trên các mạng sinh học có kích thước lớn. 7. Bố cục của luận án Sau phần mở đầu, luận án được bố cục gồm 4 phần: - Chương 1. Tổng quan về xếp hạng để dự đoán gen bệnh. Nội dung Chương trình bày tổng quan về bài toán xếp hạng để dự đoán gen điều khiển mà cũng là gen mục tiêu điều trị ung thư. Tiếp theo là các kiến thức cơ bản về lý thuyết đồ thị và mạng phức hợp. Cuối cùng, luận án trình bày các nghiên cứu liên quan và đề ra nội dung luận án cần giải quyết; - Chương 2. Mô hình động lực cạnh tranh ngoài trên mạng phức hợp, ứng dụng trong dự đoán gen mục tiêu điều trị ung thư. Nội dung Chương đề xuất một mô hình động lực mạng mới trên các mạng phức hợp, gọi là mô hình động lực học cạnh tranh ngoài. Mô hình thể hiện sự cạnh tranh giữa một tác nhân (đỉnh) trong mạng và một tác nhân đối thủ cạnh tranh bên ngoài mạng. Cuối cùng, ứng dụng mô hình vào dự đoán gen mục tiêu điều trị ung thư trên 17 mạng bệnh tín hiệu ung thư. - Chương 3. Tương tác gián tiếp trong mô hình động lực cạnh tranh ngoài, ứng dụng nâng cao hiệu quả dự đoán gen mục tiêu điều trị ung thư. Nội dung Chương đề xuất một mô hình động lực cạnh tranh ngoài cải tiến, mô hình xem xét tất cả các tương tác trực tiếp và gián tiếp từ các đỉnh đến mỗi đỉnh trong mạng. Ngoài ra, luận án thiết kế thuật toán của mô hình theo hướng tính toán hiệu năng cao để đảm bảo năng lực thực thi trên các mạng quy mô lớn. Áp dụng dự đoán các gen mục tiêu điều trị ung thư cho nhiều loại ung thư khác nhau. - Kết luận và hướng phát triển.
13 Chương 1. TỔNG QUAN VỀ XẾP HẠNG ĐỂ DỰ ĐOÁN GEN MỤC TIÊU ĐIỀU TRỊ UNG THƯ 1.1. Bài toán xếp hạng để dự đoán gen bệnh Gen là một đoạn xác định của phân tử axit nuclêic (DNA (Deoxyribonucleic Acid) hoặc RNA (Ribonucleic Acid)) có chức năng di truyền nhất định. Gen có thể thu nạp các đột biến sinh học nằm trong trình tự của chúng, dẫn đến những đột biến, biến thể. Đột biến gen có thể xuất hiện trong quá trình phiên mã tự nhiên hoặc chịu sự tác động của các yếu tố bên ngoài. Gen bị đột biến có thể gây ra một bệnh nào đó ở người [17]. Thuốc được thiết kế nhắm đến các gen đột biến liên quan đến bệnh, có thể làm nhiễu loạn bản sao hoặc ức chế khả năng đột biến của chúng, từng bước kìm hãm sự tiến triển của bệnh, khôi phục chức năng của gen về trạng thái khỏe mạnh [2, 17]. Việc xác định một gen mà đột biến của nó liên quan đến một bệnh nào đó có ý nghĩa quan trọng trong quy trình phát triển thuốc và điều trị bệnh [13]. Bài toán đặt ra là làm thế nào để giảm bớt thời gian và chi phí, đồng thời vẫn đảm bảo được độ chính xác trong việc dự đoán các gen gây bệnh ?. Để giải Hình 1.1: Bức tranh tổng quan dự đoán gen mục tiêu điều trị ung thư trên các mạng sinh học. (a) hướng tiếp cận thống kê, (b) hướng tiếp cận học máy, (c) hướng tiếp cận dựa trên mạng, (d) thực nghiệm lâm sàng.
14 quyết vấn đề đó, cách tiếp cận theo hướng mạng lưới đã được giới thiệu, cách tiếp cận này được tiến hành dựa trên việc quan sát thấy rằng các gen liên quan đến cùng một bệnh hoặc những bệnh tương tự thường có xu hướng nằm gần nhau trong cấu trúc tương tác của mạng sinh học [13]. Cách tiếp cận mạng sử dụng các mô hình tính toán trên mạng để sắp xếp các gen, sao cho các gen có khả năng liên quan nhiều nhất đến bệnh được xếp hạng cao hơn. Sau khi xếp hạng, một nhóm nhỏ các gen (một vài gen) có thứ hạng cao sẽ được kiểm tra bằng thực nghiệm, để khẳng định xem các gen này có phải là gen gây bệnh hay không [18]. Để sử dụng được các kỹ thuật xếp hạng gen theo hướng mạng lưới, cần phải có dữ liệu mạng sinh học và các thuật toán, mô hình tính toán để phân tích. Có nhiều nghiên cứu đã sử dụng các thuật toán, mô hình tính toán xếp hạng các đỉnh trong mạng xã hội ứng dụng trong xếp hạng các mạng sinh học, do tính tương đồng về cấu trúc của mạng sinh học với các mạng xã hội [19]. Các thuật toán xếp hạng gen dựa trên mạng đã được phát triển để khai phá chức năng các phân tử sinh học và các liên kết quan trọng giữa chúng [13]. Các nhà khoa học dữ liệu và tin sinh học thường áp dụng xếp hạng tương tác gen/protein dựa trên bộ gen để phục vụ cho các thực nghiệm tiếp sau. Gần đây, trong nước có một số nhóm nghiên cứu đã có những công bố liên quan đến hướng nghiên cứu này, như nhóm của TS. Trần Tiến Dũng ở Trường Đại học Công nghiệp Hà Nội, với một số công bố về dự đoán gen bệnh và gen chỉ dấu ung thư dựa trên việc xếp hạng đỉnh theo thuộc tính mức độ gần gũi theo thứ bậc [12, 20]. Nhóm nghiên cứu của PGS.TS Lê Đức Hậu ở Trường Đại học Thủy lợi, với một số công bố về dự đoán gen bệnh dựa trên xếp hạng gen theo thuộc tính của đỉnh được xác định bởi thuật toán bước nhảy ngẫu nhiên và bước nhảy ngẫu nhiên có quay lại (RWR), nhóm đã cải tiến phương pháp RWR bằng cách tăng cường trọng số hàng xóm của các gen gây bệnh đã biết [21], hay sử dụng mô hình mạng Boolean Network với thử nghiệm dự đoán được 27 gene có liên quan đến bệnh ung thư vú [18]. Nhóm nghiên cứu của PGS.TS Trần Đăng Hưng và TS. Nguyễn Văn Tỉnh ở Trường Đại học Sư phạm Hà Nội, với một số công bố về dự đoán mối liên quan giữa miRNA và bệnh bằng cách sử dụng thuật toán bước nhảy ngẫu nhiên có quay lại và tích hợp nhiều điểm tương đồng [22], hay sử dụng thuật toán lọc cộng tác và phân bổ nguồn lực trên biểu đồ ba bên miRNA-bệnh-lncRNA [23]. Chi tiết nội dung
15 của hai công bố này cũng đã được thể hiện và bảo vệ thành công trong bản luận án tiến sĩ của TS. Nguyễn Văn Tỉnh năm 2023 tại Trường Đại học Sư phạm Hà Nội. Các phương pháp xếp hạng gen/protein dựa trên mạng phức hợp nhìn chung đã được chứng minh là có độ chính xác cao, nhờ vào việc tích hợp các mối quan hệ liên kết gen đã được chú thích từ các tập nguồn toàn diện vào cơ sở tri thức, như cơ sở dữ liệu STRING [24] và cơ sở dữ liệu HAPPYI 2.0 [25]. Ví dụ về các ứng dụng xếp hạng gen dựa trên mạng bao gồm khám phá các gen bệnh cho các trật tự di truyền phức tạp của người [26], tìm mục tiêu và định vị lại thuốc [27]. Sau đây, luận án phát biểu bài toán xếp hạng để dự đoán gen mục tiêu điều trị ung thư: - Phát biểu bài toán: Cho một mạng sinh học gồm các gen/protein được cho là có liên quan đến bệnh, các đỉnh biểu thị các gen/protein và các cạnh thể hiện sự tương tác giữa chúng. Dự đoán các gen/protein (đỉnh) mà đột biến của chúng có liên quan đến sự phát triển một bệnh nào đó ở người và là mục tiêu tác động của thuốc điều trị; - Đầu vào: Cho trước một mạng sinh học G = (V, E), với V là tập đỉnh (các phân tử sinh học như gen/protein) (𝑉 = { 𝑣1, 𝑣2 , … , 𝑣 𝑛 } E là tập cạnh (tương tác giữa các phần tử sinh học) (𝐸 = {(𝑣 𝑖 , 𝑣 𝑗 )|𝑣 𝑖 , 𝑣 𝑗 ∈ 𝑉, 𝑖, 𝑗 = 1, . . , 𝑛}); - Đầu ra: Một mối quan hệ S(V, F), trong đó V là tập đỉnh; FR* cho biết khả năng đột biến của gen v gây ra ung thư và là mục tiêu điều trị. Các báo cáo trước đây đã đề cập, xếp hạng theo mức độ thuộc tính gần gũi và thuộc tính gần gũi theo thứ bậc của một đỉnh so với các đỉnh khác trong mạng được sử dụng để xếp hạng các gen bệnh [12, 13]. Trong đó thuộc tính các phép đo này coi là thuộc tính F của quan hệ đầu ra S(V, F). 1.2. Cơ sở lý thuyết Cấu trúc mạng sinh học đề cập đến các vấn đề của mối quan hệ phức tạp giữa các thành phần sinh học như gen/protein và các sản phẩm của tế bào. Vì vậy, việc khai phá dữ liệu sinh học có thể được quy về bài toán khai phá dữ liệu trên các mạng phức hợp. Việc này có thể được thực hiện bằng các mô hình tính toán và thuật toán trên mạng. Để làm được điều đó, người ta thường biểu diễn chúng dưới dạng một đồ thị và sử dụng các kỹ thuật tính toán trên đồ thị và mạng phức hợp để giải quyết. Sau đây luận án trình bày một số kiến thức cơ
16 bản về lý thuyết đồ thị và mạng phức hợp, làm cơ sở cho việc đề xuất các mô hình tính toán và thuật toán cho việc giải quyết bài toán đặt ra. 1.2.1. Lý thuyết đồ thị Đồ thị là một công cụ mô hình hóa quan hệ giữa các đối tượng trong một hệ thống, ở đó mỗi đối tượng là một đỉnh và quan hệ giữa chúng được hiểu là cạnh liên kết chúng. Trong phân tích mạng phức hợp, đồ thị được sử dụng để biểu diễn mạng phức hợp, trong đó các đỉnh đại diện cho các đơn vị trong hệ thống và các cạnh đại diện cho các liên kết giữa chúng. Sau đây luận án trình bày một số khái niệm cơ bản về đồ thị: - Đỉnh là các thành phần của hệ thống được biểu diễn bởi các điểm trên đồ thị; - Cạnh là thành phần liên kết giữa các đỉnh được biểu diễn bởi các đường nối trên đồ thị. Các cạnh có thể được đánh số hoặc không (trọng số cạnh); - Đường đi là một chuỗi các đỉnh kết nối với nhau bởi các cạnh. Đường đi độ dài n từ đỉnh u đến đỉnh v, trong đó n là số nguyên dương. Trên đồ thị vô hướng G = (V, E) là dãy x0, x1,…, xn-1, xn; trong đó u = x0, v = xn, (xi , xi+1) E, i = 0, 1, 2,…, n-1. Đường đi nói trên còn có thể biểu diễn dưới dạng dãy các cạnh: (x0, x1), (x1, x2), …, (xn-1, xn). Đỉnh u gọi là đỉnh đầu, còn đỉnh v gọi là đỉnh cuối của đường đi. Đường đi có đỉnh đầu trùng với đỉnh cuối (tức là u = v) được gọi là chu trình. Đường đi hay chu trình được gọi là đơn nếu như không có cạnh nào bị lặp lại; - Bậc của đỉnh: Trong lý thuyết đồ thị, bậc của một đỉnh v là số cạnh liên thuộc với v (trong đó, khuyên được tính hai lần). Bậc của v được ký hiệu là deg(v). Trong một đồ thị có hướng, bậc trong của đỉnh v là số cung kết thúc tại v, còn bậc ngoài là số cung xuất phát từ v. Bậc trong và bậc ngoài của v được ký hiệu là deg−(v) và deg+(v). Do đó, deg(v)= deg−(v) + deg+(v). Đỉnh có deg(v)=0 được gọi là đỉnh cô lập. Đỉnh có deg(v)=1 được gọi là lá. Nếu mỗi đỉnh của đồ thị đều có bậc bằng nhau và bằng k thì đồ thị được gọi là đồ thị chính quy bậc k và đồ thị được coi là có bậc bằng k. Đỉnh có deg+(v)=0 được gọi là đỉnh phát, đỉnh có deg−(v) =0 là đỉnh thu; - Đồ thị vô hướng là đồ thị trong đó E là tập các cặp không thứ tự chứa các đỉnh phân biệt. Hai đỉnh thuộc một cạnh được gọi là các đỉnh đầu cuối của cạnh đó. Như vậy, trong đồ thị vô hướng, nếu (vi, vj) ∈ E thì (vj, vi) ∈ E và (vj, vi) ≡ (vi, vj). Đơn đồ thị vô hướng là mọi cặp đỉnh chỉ có duy nhất một cạnh nối