intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:29

6
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu của đề tài "Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh" là tập trung vào đề xuất và cải tiến các phương pháp tính toán để nâng cao hiệu quả dự đoán quan hệ giữa các RNA không mã hóa và bệnh trên mạng thông tin hỗn tạp.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI NGUYỄN VĂN TỈNH DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ GIỮA RNA KHÔNG MÃ HÓA VÀ BỆNH Chuyên ngành: Khoa học máy tính Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà nội, 2023
  2. Công trình được hoàn thành tại: Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Trần Đăng Hưng 2. TS. Lê Thị Tú Kiên Phản biện 1: PGS.TS. Nguyễn Long Giang, Viện Công nghệ thông tin-Viện Hàn lâm KHCN Việt Nam Phản biện 2: PGS.TS. Lê Đức Hậu, Trường Đại học Thủy Lợi Phản biện 3: PGS.TS. Nguyễn Ngọc Hóa, Trường Đại học Công nghệ-ĐHQG Hà Nội Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại Trường Đại học Sư phạm Hà Nội vào hồi …..giờ … ngày … tháng… năm… Có thể tìm hiểu luận án tại thư viện: Thư viện Quốc Gia, Hà Nội hoặc Thư viện Trường Đại học Sư phạm Hà Nội
  3. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [VTN1] Van Tinh Nguyen, Thi Tu Kien Le and Dang Hung Tran, "A new method on lncRNA-disease-miRNA tripartite graph to predict lncRNA-disease associations", 2020 12th International Conference on Knowledge and Systems Engineering (KSE), 2020, pp. 287-293, doi: 10.1109/KSE50997.2020.9287563 (Scopus indexed). [VTN2] Van Tinh Nguyen, Thi Tu Kien Le, Tran Quoc Vinh Nguyen and Dang Hung Tran, “Inferring miRNA-disease associations using collaborative filtering and resource allocation on a tripartite graph”, BMC Med Genomics 14, 225 (2021). https://doi.org/10.1186/s12920-021-01078-8 (ISI Q2 journal). [VTN3] Van Tinh Nguyen and Dang Hung Tran, "An improved computational method for prediction of lncRNA-disease associations based on collaborative filtering and resource allocation", 2021 13th International Conference on Knowledge and Systems Engineering (KSE), 2021, pp. 1-6, doi: 10.1109/KSE53942.2021.9648632 (Scopus indexed). [VTN4] Van Tinh Nguyen, Thi Tu Kien Le, Khoat Than and Dang Hung Tran, “Predicting miRNA–disease associations using improved random walk with restart and integrating multiple similarities”, Sci Rep 11, 21071 (2021). https://doi.org/10.1038/s41598-021-00677-w (ISI Q1 journal).
  4. 1 MỞ ĐẦU Chúng ta đang sống trong một thế giới kết nối nơi mà hầu hết dữ liệu hay thông tin của các đối tượng, các tác nhân, nhóm đối tượng hay nhóm các thành phần tương tác với nhau để tạo thành các mạng lớn. Chúng chứa nhiều loại nút và nhiều loại tương tác. Những mạng như vậy được gọi là các mạng thông tin hỗn tạp. Những mạng này giàu ngữ nghĩa và có thể được xây dựng từ nhiều nguồn dữ liệu khác nhau. Phân tích mạng thông tin hỗn tạp sản sinh một xu hướng nghiên cứu mới trong khai phá dữ liệu, truy vấn thông tin, phân tích mạng xã hội, dự đoán liên kết, khai phá đồ thị, khoa học mạng lưới,… Dự đoán liên kết là một nhiệm vụ then chốt và tích cực trong phân tích mạng thông tin hỗn tạp. Nó mang lại nhiều lợi ích cho các nhà nghiên cứu và các tổ chức trong nhiều lĩnh vực khác nhau. Mục tiêu của dự đoán liên kết là tìm ra những liên kết thiếu trong một mạng hoặc những liên kết có thể xuất hiện trong tương lai gần trong mạng. Dự đoán liên kết được áp dụng rộng rãi trong nhiều lĩnh vực, từ các mạng xã hội tới các hệ thống sinh học. Với các hệ thống sinh học, dự đoán liên kết được sử dụng để dự đoán các mối quan hệ giữa nhiều loại đối tượng sinh học khác nhau, chẳng hạn quan hệ Triệu chứng bệnh-Gen, tương tác Thuốc-Protein, quan hệ Thuốc-miRNA, quan hệ Thuốc-bệnh, quan hệ giữa các RNA không mã hóa-bệnh… Trong một khoảng thời gian dài, việc xác định các RNAs không mã hóa (ncRNAs) trong bộ gen người là một công việc khó khăn. Chúng được coi như nhiễu sinh học và không có chức năng sinh học nào. Nhưng trên thực tế các ncRNAs đóng vai trò quan trọng trong các hoạt động khác nhau của sự sống. Việc xác định mối quan hệ giữa các RNAs không mã hóa và bệnh đã mở ra cơ hội cho việc chẩn đoán và điều trị các bệnh trên người. Vì vậy các nghiên cứu về mối quan hệ giữa các ncRNAs và bệnh trên
  5. 2 người đã được thực hiện rộng rãi trong những năm gần đây. Việc xác định mối quan hệ giữa ncRNAs và bệnh bằng các phương pháp thực nghiệm sinh học truyền thống là đắt đỏ, tốn thời gian và công sức. Vì vậy, nó đòi hỏi phải có các phương pháp tính toán để xác định các mối quan hệ ncRNA-bệnh trên người, đặc biệt là để xác định mối quan hệ giữa RNA không mã hóa nhỏ (miRNA)-bệnh và mối quan hệ giữa RNA không mã hóa dài (lncRNA)- bệnh. Trong những năm gần đây, khá nhiều phương pháp tính toán đã được phát triển để dự đoán quan hệ giữa RNA không mã hóa và bệnh. Các phương pháp tính toán này đã mang lại nhiều lợi ích trong phát hiện các ncRNAs liên quan đến bệnh, tuy nhiên còn một số hạn chế gần phải giải quyết. Thứ nhất, các phương pháp tính toán để dự đoán quan hệ ncRNA- disease phải đối mặt với vấn đề tính thưa của dữ liệu. Điều đó dựa trên thực tế rằng số lượng mối quan hệ ncRNA-disease đã biết là rất hạn chế so với số lượng các mối quan hệ chưa biết giữa chúng. Từ đó chúng ta khó xây dựng một mạng thông tin đáng tin cậy để biểu diễn các mạng sinh học. Do đo, nó hạn chế tính chính xác của dự đoán. Thứ nhì, do vấn đề tính thưa của dữ liệu có thể dẫn đến vấn đề mất cân bằng giữa các mẫu dương tính và mẫu âm tính trong thực thi các phương pháp tính toán để dự đoán các quan hệ ncRNA-disease. Đó là lý do hiệu quả của các phương pháp tính toán chưa thực sự có độ tin cậy cao. Thứ ba, việc tính toán tương đồng trong các phương pháp tính toán hiện hành dựa quá nhiều vào các mối quan hệ ncRNA-disease đã biết. Điều đó có thể dẫn đến những sai lệch đáng kể trong dự đoán các mối quan hệ giữa RNA không mã hóa và bệnh. Vì vậy đòi hỏi cần phải tích hợp thông tin sinh học từ nhiều nguồn khác nhau để cải thiện hiệu quả của việc dự đoán.
  6. 3 Thứ tư, hầu hết các phương pháp tính toán hiện hành không thể áp dụng để dự đoán các quan hệ cho các bệnh hoặc ncRNA cô lập, những bệnh hoặc ncRNA chưa có mối quan hệ với ncRNA hoặc bệnh khác trong tập dữ liệu được xem xét. Do đó cần phải tích hợp thông tin từ nhiều nguồn khác nhau để nâng cao hiệu quả dự đoán của các phương pháp tính toán đối với các bệnh hoặc ncRNA cô lập. Thứ năm, có quá nhiều tham số cần điều chỉnh trong các phương pháp tính toán hiện hành dẫn đến việc khó thực thi việc dự đoán quan hệ ncRNA-disease. Do đó các nhà nghiên cứu cần phải triển các phương pháp tính toán dễ triển khai hơn để dự đoán quan hệ giữa các RNA không mã hóa và bệnh. Cuối cùng, ngày càng nhiều các cơ sở dữ liệu sinh học trở nên sẵn có, vì vậy chúng ta cần phải tích hợp dữ liệu từ nhiều nguồn khác nhau để cải thiện độ tin cậy của các phương pháp dự đoán. Cho tới nay, hàng tuần vẫn có một số nghiên cứu được xuất bản trên các tạp chí hoặc hội thảo khoa học để đưa ra những kết quả mới trên các phương pháp tính toán dự đoán quan hệ RNA không mã hóa và bệnh. Nhiều nghiên cứu tập trung vào việc giải quyết những hạn chế đã được chỉ ra ở trên. Tuy nhiên, việc lựa chọn dữ liệu hữu ích từ các nguồn thông tin hỗn tạp để xây dựng một mạng hỗn tạp đáng tin cậy vẫn còn là một thách thức, vì vậy nó vẫn còn không gian cho các nhà khoa học và các nhà nghiên cứu để xây dựng một mạng thông tin hỗn tạp đáng tin cậy và xây dựng một phương pháp tính toán để đạt hiệu quả cao hơn trong dự đoán quan hệ ncRNA-bệnh. . Đó là lý do mà nghiên cứu sinh lựa chọn đề tài “Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh” cho luận án của mình. • Mục tiêu luận án và vấn đề nghiên cứu cần giải quyết. Nghiên cứu trong luận án này tập trung vào đề xuất và cải tiến
  7. 4 các phương pháp tính toán để nâng cao hiệu quả dự đoán quan hệ giữa các RNA không mã hóa và bệnh trên mạng thông tin hỗn tạp bằng cách giải quyết các vấn đề sau đây. Thứ nhất, vấn đề tính thưa của dữ liệu cần được giải quyết để cải thiện hiệu quả dự đoán. Thứ nhì, nghiên cứu trong luận án cần tích hợp nhiều bộ dữ liệu sinh học khác nhau để xây dựng các độ tương đồng hợp lý hơn và giảm ảnh hưởng của việc sự phụ thuộc quá nhiều vào các mối quan hệ ncRNA-disease đã biết. Thứ ba, các phương pháp tính toán từ các lĩnh vực khác như dự đoán quan hệ vi khuẩn-bệnh (microbe-disease), dự đoán quan hệ metabolite-disease…cũng có thể được áp dụng trong lĩnh vực dự đoán quan hệ ncRNA-disease. Do đó, luận án có thể kế thừa các phương pháp tính toán từ những lĩnh vực đó và hiệu chỉnh chúng để đạt hiệu quả tốt hơn trong dự đoán quan hệ ncRNA-disease. Các đóng góp khoa học của luận án: Luận án sau khi được thực hiện có những đóng góp sau: - Đóng góp 1: Đề xuất một mô hình tính toán cải tiến bằng cách kết hợp một giải thuật lọc cộng tác và một tiến trình phân bổ tài nguyên trên đồ thị 3 phía dựa trên nhiều loại quan hệ đã biết giữa nhiều loại đối tượng sinh học để dự đoán quan hệ giữa các RNA không mã hóa và bệnh. - Đóng góp 2: Đề xuất một phương pháp tính toán mới có hiệu quả cao để dự đoán quan hệ miRNA-disease. Phương pháp này sử dụng một giải thuật K-láng giềng gần nhất đã biết (WKNKN) như một bước tiền xử lý dữ liệu để giải quyết vấn đề tính thưa của dữ liệu và dự đoán quan hệ miRNA-disease sử dụng giải thuật Random walk with restart cải tiến và tích hợp nhiều độ tương đồng từ nhiều mạng hỗn tạp. Đóng góp 1 được trình bày trong chương 2 của luận án, những nội
  8. 5 dung liên quan của đóng góp này được xuất bản trong các kỷ yếu hội thảo và tạp chí trong các công trình [VTN1], [VTN2] và [VTN3]. Đóng góp 2 được trình bày ở chương 3 của luận án. Những nội dung liên quan của đóng góp này được xuất bản trong công trình [VTN4] trên tạp chí Scientific Reports (ISI Q1). • Cấu trúc luận án: Luận án được trình bày bao gồm phần các phần: Mở đầu, 3 chương chính và Kết luận và hướng nghiên cứu trong tương lai như được mô tả trong hình dưới đây. CHƯƠNG 1. CÁC KIẾN THỨC CƠ BẢN 1.1. Các khái niệm cơ bản 1.1.1. Mạng thông tin hỗn tạp • Mạng thông tin Định nghĩa 1.1. Mạng thông tin. Một mạng thông tin được định nghĩa như một đồ thị 𝐺 = (𝑉, 𝐸) với một hàm ánh xạ loại đối tượng
  9. 6 ϕ: V → A và một hàm ánh xạ loại liên kết ψ: E → R. Mỗi nút v ϵ V có một loại đối tượng duy nhất, ϕ(v) ϵ A và mỗi liên kết e ϵ E thuộc về một loại liên kết cụ thể, ψ(e) ϵ R. Nếu hai liên kết thuộc về cùng một loại liên kết, chúng có cùng loại đối tượng bắt đầu cũng như cùng loại đối tượng kết thúc. • Mạng thông tin hỗn tạp/đồng nhất. Định nghĩa 1.2. Mạng thông tin hỗn tạp/đồng nhất. Nếu mạng thông tin có nhiều hơn một loại đối tượng hoặc nhiều hơn một loại liên kết thì nó được gọi là mạng thông tin hỗn tạp (HIN), tức là mạng hỗn tạp có |A|>1 hoặc |R|>1; Ngược lại, mạng thông tin được gọi là mạng thông tin đồng nhất, tức là |A|=1 và |R|=1. 1.1.2. Các hệ thống sinh học Các hệ thống sinh học là một lớp đặc biệt của các mạng thông tin không đồng nhất bao gồm một số lượng lớn các thực thể sinh học như gen, miRNA, lncRNA, biểu hiện gen, kiểu hình, v.v 1.1.3. Các RNAs không mã hóa (ncRNAs) Những RNAs không thể chuyển hóa thành protein được gọi là các RNAs không mã hóa (ncRNAs). miRNAs miRNAs là một lớp con của các ncRNAs sợi đơn, nội sinh, nhỏ, được bảo tồn tiến hóa với chiều dài khoảng 20-26 nucleotides. lncRNAs lncRNAs là một lớp con của các ncRNAs với chiều dài lớn hơn 200 nucleotides. 1.2. Dự đoán liên kết trong các mạng thông tin hỗn tạp 1.2.1. Bài toán dự đoán liên kết Định nghĩa 1.5. Dự đoán liên kết trong mạng thông tin hỗn tạp. Cho một mạng hỗn tạp được biểu diễn bởi đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪ … ∪ 𝑉 𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸 𝑁 ), trong đó 𝑉𝑖 (𝑖 = 1,2, … , 𝑀) là tập các
  10. 7 nút loại i và 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn tập các cạnh loại j. Nhiệm vụ của dự đoán liên kết là tìm câu trả lời có hoặc không một liên kết 𝑒 𝑘 giữa nút 𝑣 𝑖 (𝑣 𝑖 ∈ 𝑉𝑖 ) và nút 𝑣 𝑗 (𝑣 𝑗 ∈ 𝑉𝑗 ) bất kỳ. Đầu vào: Đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪ … ∪ 𝑉 𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸 𝑁 ): 𝑉𝑖 (𝑖 = 1,2, … , 𝑀) là tập các nút loại i và 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn tập các cạnh loại j. Output: Với 2 đối tượng bất kỳ có kết nối tiềm ẩn 𝑣 𝑖 (𝑣 𝑖 ∈ 𝑉𝑖 ) và 𝑣 𝑗 (𝑣 𝑗 ∈ 𝑉𝑗 ), liệu liên kết 𝑒 𝑘 là tồn tại (1) hoặc không tồn tại (0)? 1.2.2. Các phương pháp dự đoán liên kết Các phương pháp dự đoán liên kết có thể được phân loại thành: Các phương pháp dựa trên độ tương đồng mạng, các phương pháp dựa trên xác xuất và xác xuất cực đại, các phương pháp dựa trên học máy, các dựa trên học sâu…Chúng có thể được áp dụng trong nhiều lĩnh vực từ các mạng xã hội tới các mạng sinh học. 1.2.3. Các ứng dụng của dự đoán liên kết trong các hệ thống sinh học Trong các hệ thống sinh học, dự đoán liên kết thường được sử dụng để dự đoán quan hệ giữa các đối tượng sinh học như dự đoán quan hệ Gen-bệnh, dự đoán quan hệ bệnh-các trao đổi chất, phát triển thuốc, dự đoán tương tác thuốc-protein, dự đoán quan hệ thuốc-miRNA, dự đoán quan hệ thuốc-bệnh, dự đoán quan hệ giữa các ncRNA-bệnh… 1.3. Các phương pháp tính toán dự đoán quan hệ giữa các RNAs không mã hóa và bệnh 1.3.1. Dự đoán quan hệ ncRNA-bệnh được coi là bài toán dự đoán liên kết Dự đoán quan hệ ncRNA-disease được coi là bài toán dự đoán liên kết trong mạng thông tin hỗn tạp. Nó thường sử dụng một mạng hỗn tạp chứa nhiều loại đối tượng sinh học và quan hệ giữa chúng. Những loại đối tượng sinh học và quan hệ giữa chúng có thể được thu
  11. 8 thập từ nhiều nguồn dữ liệu khác nhau, bao gồm các nút ncRNAs (miRNA, lncRNA) và bệnh. Sau đó nó dự đoán quan hệ giữa các ncRNAs và bệnh. Các quan hệ có thể là quan hệ mới hoặc quan hệ thiếu chưa được kiểm chứng trước đó. 1.3.2. Các tài nguyên dùng để dự đoán quan hệ ncRNA-disease Thông tin về miRNAs và các quan hệ miRNA-target có thể được thu thập từ nhiều nguồn dữ liệu khác nhau như miRBase, miReg, miRTarBase, miRecords,... Các quan hệ miRNA-disease được kiểm chứng có thể được thu thập từ các cơ sở dữ liệu có sẵn đã được kiểm chứng như MiRCancer, MiR2Disease, HMDD, MiREC, DbDEMC,… Thông tin về lncRNAs có thể được thu thập từ nhiều nguồn như LNCipedia, NONCODE database, LncRBase,...Thông tin về các tương tác của lncRNA có thể được thu thập từ các cơ sở dữ liệu như DIANA-LncBase, lncRNA2Target,…Thông tin quan hệ lncRNA- disease có thể được thu thập từ nhiều cơ sở dữ liệu khác nhau như LncRNADisease, Lnc2Cancer, MNDR, ... 1.3.3. Tính toán độ tương đồng và xây dựng mạng hỗn tạp Tính toán độ tương đồng giữa các bệnh Một phương pháp tiêu biểu tính toán độ tương đồng của bệnh bằng cách tính toán đóng góp của các nút tổ tiên của bệnh trong một cấu trúc cây như MeSH. Một loại phương pháp khác đã sử dụng thông tin của các phân tử sinh học có liên quan khác để tính toán mức độ giống nhau của bệnh Tính toán tương đồng ncRNAs Phương pháp phổ biến nhất là tính độ tương đồng ncRNA là sử dụng thông tin sinh học của chính ncRNA. Xây dựng mạng thông tin hỗn tạp Sau khi có các độ tương đồng, mạng thông tin hỗn tạp được xây dựng.
  12. 9 1.3.4. Khảo sát tổng quan các phương pháp tính toán để dự đoán quan hệ ncRNA-disease Nhiều phương pháp tính toán để dự đoán quan hệ ncRNA-disease đã được phát triển trong những năm gần đây. Nhìn chung, chúng có thể được phân loại thành các loại : Các phương pháp dự đoán dựa trên mô hình mạng, các phương pháp dựa trên phân bổ tài nguyên, các phương pháp dựa trên hệ thống khuyến nghị, các phương pháp dựa trên học máy, các phương pháp dựa trên học sâu và các phương pháp dựa trên nhiều nguồn thông tin và tích hợp nhiều mô hình. Mỗi loại phương pháp có những ưu, nhược điểm riêng. 1.4. Các hướng nghiên cứu của luận án Nghiên cứu trong luận án có thể được thực hiện theo các hướng : Đầu tiên, cần phát triển các phương pháp để trích chọn đặc trưng, tính toán tương đồng hoặc tổng hợp thông tin phù hợp hơn để giải quyết vấn đề tính thưa của dữ liệu hoặc nâng cao tính tin cậy của hiệu quả dự đoán. Thứ hai, luận án có thể tập trung vào việc tích hợp dữ liệu từ nhiều tập dữ liệu sinh học khác nhau để xây dựng độ tương đồng hợp lý hơn và phát triển các phương pháp tính toán mới để dự đoán quan hệ ncRNA-disease. Thứ ba, các phương pháp tính toán để dự đoán quan hệ ncRNA- disease có thể được áp dụng cho các lĩnh vực nghiên cứu khác như dự đoán quan hệ mircrobe-disease, metabolite-disease, drug-disease...Do đó, các phương pháp tính toán để dự đoán quan hệ ncRNA-disease cũng có thể kế thừa các phương pháp tính toán từ các lĩnh vực khác và hiệu chỉnh chúng để đạt hiệu quả tốt hơn trong dự đoán quan hệ ncRNA-disease. 1.5. Các phương pháp đánh giá và các đo lường đánh giá hiệu quả dự đoán
  13. 10 Trong luận án này, hiệu quả dự đoán của các phương pháp được đánh giá bằng đo lường Diện tích dưới đường cong ROC (AUC), Diện tích dưới đường cong Precision-Recall (AUPR) bằng các thực nghiệm 5-fold-cross-validation và leave-one-out-cross-validation (LOOCV). Bên cạnh đó, để hỗ trợ tính tin cậy của hiệu quả dự đoán, một số trường hợp kiểm tra (checking case studies) có thể được thực thi trong mỗi phương pháp. Ngoài ra, mặc dù độ phức tạp tính toán thường không được quan tâm để đánh giá hiệu quả dự đoán nhưng trong luận án này, độ phức tạp tính toán về thời gian của các phương pháp được ước lượng để đảm bảo các phương pháp sẽ kết thúc trong thời gian thực thi chấp nhận được. 1.6. Tóm tắt chương Trong chương này, trước tiên một số khái niệm cơ bản được trình bày. Sau đó, bài toán dự đoán liên kết trong mạng thông tin hỗn tạp được phát biểu và các ứng dụng của dự đoán liên kết trong sinh học hệ thống được tóm tắt. Tiếp đó, các phương pháp tính toán để dự đoán quan hệ giữa các ncRNAs và bệnh được khảo sát tổng quan. Từ khảo sát đó, các hướng nghiên cứu của luận án đã được chỉ ra. Cuối cùng, một số phương pháp đánh giá và các đo lường đánh giá hiệu quả dự đoán đã được trình bày. CHƯƠNG 2. DỰ ĐOÁN QUAN HỆ GIỮA CÁC NCRNAS VÀ BỆNH KẾT VỚI LỌC CỘNG TÁC VÀ MỘT TIẾN TRÌNH PHÂN BỔ TÀI NGUYÊN TRÊN ĐỒ THỊ BA PHÍA 2.1. Động lực nghiên cứu Gần đây nhiều phương pháp tính toán khác nhau để dự đoán quan hệ ncRNA-disease, đặc biệt là quan hệ miRNA-bệnh và quan hệ lncRNA-bệnh, đã được phát triển. Nhiều phương pháp trong đó chủ yếu dựa vào các mối quan hệ ncRNA-disease đã biết. Chúng cần phải
  14. 11 sử dụng nhiều ma trận tương đồng khác nhau mà những ma trận này không kết nối trực tiếp với các quan hệ ncRNA-bệnh đã biết. Vì vậy, gần đây nhiều phương pháp tính toán đã được xây dựng sử dụng nhiều loại quan hệ giữa nhiều loại đối tượng để dự đoán quan hệ ncRNA- bệnh. Nhìn chung những phương pháp dựa vào nhiều loại quan hệ đã biết của nhiều loại đối tượng cải thiện được hiệu quả của việc dự đoán. Trong chương này, một mô hình tính toán mới được đề xuất để dự đoán quan hệ ncRNA-disease nhằm giải quyết vấn đề tính thưa của dữ liệu và tận dụng những ưu điểm của việc tích hợp nhiều loại quan hệ đã biết giữa nhiều loại đối tượng sinh học trong cải thiện hiệu quả của việc dự đoán. Trước tiên, vấn đề tính thưa của dữ liệu được giải quyết bởi một giải thuật lọc cộng tác dựa theo item. Sau đó một tiến trình phân bổ tài nguyên được triển khai trên đồ thị 3 phía để dự đoán quan hệ ncRNA-disease. 2.2. Các nghiên cứu liên quan chính 2.2.1. Giải thuật lọc cộng tác dựa theo item để dự đoán quan hệ ncRNA-disease. Mô hình mới được đề xuất sử dụng giải thuật lọc cộng tác dựa trên item để giải quyết vấn đề tính thưa của dữ liệu quan hệ ncRNA- disease. 2.2.2. Phân bổ tài nguyên trên đồ thị 3 phía Phân bổ tài nguyên trên đồ thị 3 phía đã được thực thi thành công trong nhiều phương pháp tính toán để dự đoán quan hệ ncRNA-disease bao gồm các phương pháp TPGLDA và ncPRED. 2.3. Mô hình được đề xuất Mô hình được đề xuất mới được minh họa như trong Hình 2.1 dưới đây. Một cách tổng quan, mô hình được đề xuất bao gồm 4 giai đoạn. Ở giai đoạn thứ nhất, một đồ thị G0 được xây dựng dựa trên các loại quan
  15. 12 Hình 2.1. Sơ đồ luồng tiến trình của mô hình được đề xuất hệ miRNA-disease, lncRNA-disease và miRNA-lncRNA đã biết. Ở giai đoạn thứ 2, để giải quyết vấn đề tính thưa của dữ liệu, một giải
  16. 13 thuật lọc cộng tác được triển khai trên đồ thị G0 để thu được một đồ thị 3 phía mới Gu. Sau đó, đồ thị 3 phía Gu được sử dụng trong một tiến trình phân bổ tài nguyên ở giai đoạn thứ 3 để tính toán điểm tài nguyên của các ứng viên ncRNA cho mỗi bệnh liên quan. Ở giai đoạn cuối cùng, tất cả các điểm tài nguyên của các ncRNA ứng viên với mỗi bệnh sẽ được xếp hạng theo thứ tự giảm dần mà ứng viên với điểm tài nguyên cao hơn sẽ có khả năng lớn hơn có mối quan hệ đúng và được kiểm chứng trong tương lai. 2.4. Triển khai mô hình được đề xuất để suy diễn các mối quan hệ miRNA-disease dựa trên lọc cộng tác và phân bổ tài nguyên 2.4.1. Các giai đoạn của mô hình được đề xuất trong suy diễn quan hệ miRNA-disease • Giai đoạn 1: Xây dựng đồ thị 3 phía G0 • Giai đoạn 2: Xây dựng đồ thị 3 phía Gu • Giai đoạn 3: Triển khai tiến trình phân bổ tài nguyên trên đồ thị 3 phía Gu để suy diễn quan hệ miRNA-disease • Giai đoạn 4: Xếp hạng các Rscores của các miRNA ứng viên cho mỗi bệnh theo thứ tự giảm dần 2.4.2. Thực nghiệm và kết quả của phương pháp được đề xuất • Bước 1: Chuẩn bị tập dữ liệu thực nghiệm Phương pháp được đề xuất sử dụng các tập dữ liệu đến từ nghiên cứu của Zhao et al. Các tập dữ liệu này bao gồm 190 bệnh, 111 lncRNAs và 264 miRNAs, 936 quan hệ lncRNA-disease đã biết, 3552 quan hệ miRNA-disease đã được kiểm chứng và 1880 quan hệ đã biết giữa các lncRNAs và miRNAs. Thông tin về các tập dữ liệu này được tóm tắt trong Hình 2.2 dưới đây • Bước 2: Cài đặt phương pháp được đề xuất và ước lượng độ phức tạp tính toán Phương pháp được đề xuất được cài đặt sử dụng ngôn ngữ lập
  17. 14 Hình 2.2. Các tập dữ liệu và số nút dữ liệu trong phương pháp được đề xuất trình Python và các thư viện có liên quan. Độ phức tạp tính toán của phương pháp được ước lượng tương đương với O(n3). Đây là độ phức tạp thời gian đa thức. • Bước 3: Đánh giá hiệu năng dự đoán Để đánh giá hiệu quả của phương pháp được đề xuất trong suy diễn mối quan hệ miRNA-disease, các thực nghiệm 5-fold-cross-validation được thực hiện và các đo lường AUC và AUPR được đánh giá. Đánh giá AUC bằng các thực nghiệm 5-fold-cross-validation Hình 2.3. Đường cong ROC và giá trị AUC của phương pháp được đề xuất trong một lần chạy thực nghiệm với γ = 0.9. Giá trị AUC trung bình tốt nhất đạt được 0.9788 với γ = 0.9 sau khi
  18. 15 thực hiện các thực nghiệm 5-fold-cross-validation 10 lần. Hình 2.3 minh họa đường cong ROC và giá trị AUC của phương pháp được đề xuất với γ = 0.9 trong một lần chạy thực nghiệm. • Đánh giá AUPR bằng thí nghiệm 5-fold cross-validation Sau khi thực hiện các thí nghiệm 5-fold-cross-validation 10 lần, phương pháp được đề xuất đạt được giá trị AUPR trung bình tốt nhất là 0.9373 với γ = 0.9. Hình 2.4 minh họa đường Precision-Recall và giá trị AUPR của phương pháp được đề xuất với γ = 0.9 trong một lượt chạy thí nghiệm. Hình 2.3. Đường cong Precision-Recall và giá trị AUPR của phương pháp đề xuất trong một lần chạy thực nghiệm với γ = 0.9. • So sánh hiệu quả dự đoán với các phương pháp khác có liên quan. Hiệu quả của phương pháp được đề xuất được so sánh với hiệu quả của các phương pháp có liên quan DCSMDA và TPGLDA. Hiệu quả của những phương pháp này được chỉ ra trong Bảng 2.1. Method AUC value AUPR value TPGLDA 0.9703 0.7421 DCSMDA 0.8155 - The proposed method 0.9788 0.9373 • Kiểm tra các Case studies
  19. 16 Các trường hợp nghiên cứu trên các bệnh Ung thư tiền liệt tuyến, Suy tim, U thần kinh đệm và Tăng nhãn áp (Bệnh thiên đầu thống) được thực thi để chỉ ra khả năng của mô hình được đề xuất trong dự đoán các miRNA có quan hệ với từng bệnh. 2.5. Triển khai mô hình được đề xuất để dự đoán quan hệ lncRNA- disease dựa trên lọc cộng tác và phân bổ tài nguyên. 2.5.1. Các giai đoạn của mô hình được đề xuất trong dự đoán quan hệ lncRNA-disease • Giai đoạn 1: Xây dựng đồ thị 3 phía G0. • Giai đoạn 2: Áp dụng giải thuật lọc cộng tác trên các quan hệ đã biết lncRNA-disease và lncRNA-miRNA để thu được đồ thị 3 phía mới Gu. • Giai đoạn 3: Sử dụng tiến trình phân bổ tài nguyên cải tiến để thu được các quan hệ lncRNA-disease dự đoán. • Giai đoạn 4: Xếp hạng tất cả các lncRNAs được dự đoán cho mỗi bệnh theo thứ tự giảm dần để thu được kết quả cuối cùng. 2.5.2. Thực nghiệm và kết quả của phương pháp được đề xuất • Bước 1: Thu thập dữ liệu Các tập dữ liệu của phương pháp được đề xuất bao gồm các quan hệ lncRNA-disease đã biết, quan hệ miRNA-disease đã biết và tương tác lncRNA-miRNA đã kiểm chứng. Các nút dữ liệu và các mối quan hệ của các nguồn dữ liệu trong phương pháp được đề xuất được trình bày trong hình 2.5. Hình 2.5. Mối quan hệ giữa các tập dữ liệu và số nút dữ liệu trong từng tập
  20. 17 • Cài đặt phương pháp được đề xuất và ước lượng độ phức tạp tính toán Phương pháp được đề xuất này cũng được cài đặt bằng ngôn ngữ lập trình Python và các thư viện có liên quan. Độ phức tạp tính toán của phương pháp được đề xuất là O(nl*nd*nm) ≈ O(n3). Nghĩa là độ phức tạp tính toán của phương pháp được đề xuất có độ phức tạp đa thức. • Bước 3: Đánh giá hiệu quả dự đoán Các thực nghiệm 5-fold-cross-validation được triển khai và các độ đo AUC và AUPR được sử dụng để đánh giá hiệu năng của phương pháp được đề xuất. Đánh giá AUC bằng thí nghiệm 5-fold-cross-validation Phương pháp được đề xuất đạt hiệu quả AUC tốt nhất khi 𝛾 = 0.8 trong các thí nghiệm 5-fold-cross-validation. Hình 2.6 chỉ ra đường cong ROC và giá trị AUC trong 5 lượt chạy thí nghiệm. Hình 2.6. Đường cong ROC và giá trị AUC của phương pháp được đề xuất trong 5 lần chạy thực nghiệm với 𝛾 = 0.8 Đánh giá AUPR bằng thí nghiệm 5-fold cross-validation Phương pháp mới được đề xuất đạt giá trị AUPR tốt nhất khi 𝛾 = 0.8 trong các thực nghiệm 5-fold-cross-validation. Hình 2.7 minh họa các đường PR và các giá trị AUPR trong 5 lượt chạy thí nghiệm.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
73=>1