Dự đoán mối quan hệ giữa miRNAs và bệnh bằng phương pháp RWRs

Chia sẻ: ViHasaki2711 ViHasaki2711 | Ngày: | Loại File: PDF | Số trang:11

Thêm vào BST

Báo xấu

31
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

MicroRNAs (miRNAs) là một loại non-coding RNAs có vai trò đặc biệt đối với quá trình biểu hiện gen. miRNAs không trực tiếp sản sinh ra các protein mà ngược lại có vai trò gây ức chế một số gen. Các nghiên cứu thực nghiệm gần đây cho thấy vai trò của miRNAs trong một số mẫu bệnh.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự đoán mối quan hệ giữa miRNAs và bệnh bằng phương pháp RWRs

JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0048 Educational Sci., 2015, Vol. 60, No. 7A, pp. 10-20 This paper is available online at http://stdb.hnue.edu.vn DỰ ĐOÁN MỐI QUAN HỆ GIỮA MIRNAs VÀ BỆNH BẰNG PHƯƠNG PHÁP RWRs Nguyễn Đình Hùng1 , Trương Thị Tiến2 , Trần Đăng Hưng3 1 Công ty FPT Information System 2 Trường Trung học phổ thông Chuyên Sơn La 3 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. MicroRNAs (miRNAs) là một loại non-coding RNAs có vai trò đặc biệt đối với quá trình biểu hiện gen. miRNAs không trực tiếp sản sinh ra các protein mà ngược lại có vai trò gây ức chế một số gen. Các nghiên cứu thực nghiệm gần đây cho thấy vai trò của miRNAs trong một số mẫu bệnh. Vì vậy việc nghiên cứu và dự đoán mối quan hệ giữa các miRNAs và bệnh sẽ cho chúng ta hiểu thêm về cơ chế gây bệnh của một số gen. Trong bài báo này, chúng tôi sử dụng phương pháp RWRs để tích hợp thông tin từ mạng tương tự chức năng của các miRNAs và mạng quan hệ miRNA và bệnh để dự đoán các mối quan hệ mới giữa miRNAs và bệnh.. Từ khóa: MicroRNA, Random Walk with Restarts. 1. Mở đầu MicroRNA là một non-coding RNA có chiều dài khoảng 22 nucleotide, thường có chức năng ức chế biểu hiện của của một số gen. Gần đây, nhiều nghiên cứu đã xác định miRNA là một trong những thành phần quan trọng trong tế bào và đóng vai trò chủ chốt trong nhiều quá trình sinh học cơ bản khác nhau [1]. Do vậy, sự thay đổi chức năng miRNA có liên quan đến nhiều loại bệnh khác nhau [4, 5]. Việc tìm kiếm mỗi quan hệ giữa các miRNA và các bệnh trên diện rộng đã trở thành một đích quan trọng trong nghiên cứu y sinh, qua đó thúc đẩy hiểu biết về các bệnh ở mức phân tử và mang lại lợi ích trong việc tiên lượng, chẩn đoán, đánh giá, điều trị và ngăn ngừa bệnh ở người [8, 10, 12]. Tuy nhiên, hiểu biết hiện tại về mối quan hệ giữa các miRNA với bệnh là tương đối hạn chế. Việc xác định bằng thực nghiệm đối với các bệnh liên quan đến miRNA thông qua những kĩ thuật sinh học đã có là đắt đỏ và tốn thời gian [10, 11]. Tuy nhiên, với lượng lớn dữ liệu sinh học về các miRNA được tạo ra, chúng ta có thể xây dựng các phương pháp tính toán mạnh mà có thể phát hiện ra những mối quan hệ tiềm năng giữa miRNA và bệnh. Một số phương pháp tính toán để dự đoán các miRNA có liên quan đến bệnh đã được đề xuất. Lu et al. [7] đã phân tích dữ liệu về mối quan hệ giữa miRNA và bệnh và đã đề xuất nhiều mẫu quan hệ giữa các miRNA với các bệnh của người. Qua đó đã đặt một nền tảng mới cho các nghiên cứu về các miRNA có liên quan tới bệnh và đã mang lại sự hỗ trợ cho các nghiên cứu về các bệnh ở mức miRNA. Dựa trên giả định rằng các bệnh tương tự nhau về kiểu hình có xu hướng có mối quan hệ với các miRNA có liên quan về chức năng được đề xuất bởi Lu et al., Zhang et al. Ngày nhận bài: 20/7/2015. Ngày nhận đăng: 8/11/2015. Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn 10 Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs đã xây dựng phương pháp dự đoán tập hợp các bệnh liên quan đến miRNA đầu tiên. Phương pháp này xác định miRNA tiềm năng có liên quan đến bệnh tim mạch bằng cách tích hợp thông tin từ tập miRNA đã biết và Gene Ontology. Tuy nhiên, thực tế là việc phương pháp này dựa nhiều vào tập miRNA đã hạn chế tính ứng dụng của nó. Jiang et al. [2] đã xây dựng một phương pháp tính toán dựa trên phân bố siêu bội (hypergeometric distribution) để xác định các miRNA liên quan đến bệnh bằng cách tích hợp mạng tương tác chức năng miRNA, mạng bệnh tương tự và mạng miRNA đã biết, trong đó có tập mối quan hệ giữa miRNA với bệnh đã được kiểm chứng qua thực nghiệm lấy từ cơ sở dữ liệu miR2Disease. Mặc dù vậy mạng chức năng miRNA được xây dựng chỉ có thông tin về các láng giềng gần của mỗi miRNA được sử dụng trong việc tính trọng số quan hệ. Việc tận dụng đầy đủ thông tin tương tự trong mạng toàn cục sẽ cải thiện độ chính xác của thuật toán này. Jiang et al. [3] đã đề xuất thêm một cách tiếp cận cho việc xếp hạng các miRNA ứng viên dựa trên dữ liệu gen tích hợp bởi mô hình Naive Bayes. Cách tiếp cận này dựa nhiều vào tập dữ liệu giữa gen và bệnh và các tương tác giữa các gen bị tác động của miRNA. Các phương pháp đã được đề cập ở trên cho tập quan hệ giữa miRNA và bệnh có nhiều hạn chế. Do vậy, rất cần đề xuất các phương pháp tính toán mới, có thể tích hợp được nhiều loại thông tin và cho kết quả dự đoán cao hơn. Trong bài báo này, chúng tôi xem xét một giả thuyết sử dụng độ đo tương tự trên mạng toàn cục trong việc xác định những quan hệ giữa các miRNA và các bệnh. Dựa trên độ đo tương tự trên mạng toàn cục và giả định rằng các miRNA có liên quan về mặt chức năng có xu hướng liên quan đến các bệnh tương tự về kiểu hình. Phương pháp của chúng tôi được chia làm 3 bước, đầu tiên chúng tôi tích hợp thông tin từ các nguồn dữ liệu sinh học để xây dựng một mạng tương tự chức năng giữa các miRNAs. Sau đó sử dụng phương pháp RWRs (bước đi ngẫu nhiên trên mạng có quay trở lại) để tính toán sự ảnh hưởng của các nút láng giềng lên từng nút trong mạng. Phương pháp RWRs đã được áp dụng một cách rộng rãi trong nhiều bài toán Tin-sinh học. Sử dụng việc đánh giá bằng phương pháp thẩm tra chéo trên tập dữ liệu đã biết, chúng tôi thấy phương pháp đề xuất cho kết quả dự đoán tốt hơn so với những phương pháp tiên lượng trước đó dựa trên độ đo tương tự trong mạng cục bộ. 2. Nội dung nghiên cứu Để giải quyết bài toán ở trên chúng tôi tích hợp hai mạng: là mạng quan hệ giữa miRNA và bệnh (MDAN - miRNA Disease Association Network) và mạng tương tự về chức năng giữa các miRNAs (MFSN – miRNA Function Similarity Network), sau đó áp dụng phương pháp RWRs để thực hiện việc xếp hạng các miRNA có mối quan hệ đến các bệnh. 2.1. Mạng quan hệ giữa miRNA và bệnh Dữ liệu về mối quan hệ giữa miRNA và bệnh được lấy từ cơ sở dữ liệu HMDD. Sau đó dữ liệu trên sẽ được xử lí như gom nhóm, ví dụ, những bản sao miRNA khác nhau mà tạo ra cùng một một miRNA trưởng thành (mature miRNA) (như hsa-let-7a-1, hsa-let-7a-2, hsa-let-7a-3) được gom lại thành một nhóm (hsa-let-7a); xử lí đồng nhất tên của các miRNA trưởng thành thành một gen miRNA và thống nhất tên bệnh sử dụng thuật ngữ bệnh từ cơ sở dữ liệu MeSH. Dữ liệu sau xử lí gồm có 1395 mối quan hệ của miRNA và bệnh trong đó có 271 miRNA và 137 bệnh. Dữ liệu trên sẽ được sử dụng để đánh giá độ chính xác của dự đoán và được dùng để xác định các miRNA được dùng làm seed (hạt nhân) trong phương pháp RWRs. Việc sử dụng phiên bản cũ của cơ sở dữ liệu HMDD thay vì phiên bản mới là do ta có thể đánh giá mô hình dự đoán bằng dữ liệu về các mối quan hệ ở phiên bản mới hơn của cơ sở dữ liệu HMDD. Từ dữ liệu về quan hệ giữa miRNA và bệnh, mạng quan hệ giữa miRNA và bệnh MDAN được xây dựng. Mạng này gồm có tập đỉnh M = {m1 , m2 , ..., mn } đại diện cho tập gồm n miRNA và tập đỉnh D = {d1 , d2 , ..., dk } đại diện cho tập gồm k bệnh. Các đỉnh mi và dj được liên kết bởi 11 Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng một cạnh trong mạng MDAN nếu miRNA i có mối quan hệ với bệnh j trong tập dữ liệu quan hệ với trọng số của cạnh được đặt là 1. Thực tế, mạng quan hệ giữa miRNA và bệnh MDAN là một đồ thị hai phía chứa hai tập đỉnh tương ứng là miRNA và bệnh. Liên kết giữa hai tập đỉnh trên ở những miRNA và bệnh có quan hệ với nhau. 2.2. Mạng tương tự về chức năng của miRNA Mạng tương tự về chức năng MFSN (MiRNA Functional Similarity Network) của miRNA biểu diễn độ tương tự về chức năng giữa các miRNA thông qua các trọng số (score) tương tự chức năng giữa chúng, trong đó, các trọng số cho mỗi cặp miRNA được tính toán dựa trên quan sát rằng các gen có độ tương tự về chức năng thường có quan hệ với các bệnh tương tự nhau. Ma trận tương tự về chức năng được kí hiệu là S trong đó phần tử S(i, j) của ma trận ở dòng i và cột j biểu thị tỉ số tương tự về chức năng giữa miRNA i và j. Các thức xây dựng ma trận tương tự về chức năng sẽ được đề cập ở phần dưới. Dựa trên ma trận tương tự về chức năng, mạng tương tự về chức năng MFSN được xây dựng trong đó tập đỉnh M = {m1 , m2 , ..., mn } biểu diễn tập gồm n miRNA. Giữa hai đỉnh mi và mj được kết nối với nhau bằng một cạnh trong mạng nếu mối tỉ số tương tự về chức năng giữa miRNA i và j lớn hơn một ngưỡng nhất định, ở đây là lớn hơn ngưỡng 0. Trọng số về độ tương tự về chức năng cũng được dùng làm trọng số cho cạnh trên đồ thị MFSN. 2.3. Xây dựng mạng tương tự chức năng MFSN của miRNA Ta biết rằng các gen có chức năng tương tự thường có quan hệ với các bệnh tương tự nhau, và mối quan hệ giữa các bệnh có thể biểu diễn bằng đồ thị có hướng không chu trình DAG (Directed Acyclic Graph). Điều này cũng đúng cho các gen miRNA. Do đó, việc suy luận độ tương tự về chức năng của các miRNA bằng cách đo độ tương tự của đồ thị có hướng không chu trình DAG của các bệnh có mối quan hệ với miRNA là khả thi. Dựa trên những quan sát ở trên cùng dữ liệu về mối quan hệ giữa miRNA và bệnh được thu thập được một cách nhanh chóng, mối quan hệ giữa các bệnh của chúng, một phương pháp để suy luận độ tương tự về chức năng theo cặp (pairwise). Phương pháp này dựa trên dữ liệu về mối quan hệ giữa miRNA và bệnh cùng với đồ thị DAG để đo lường độ tương tự giữa chức năng của miRNA và hơn nữa để xây dựng mạng tương tự chức năng MFSN của miRNA dựa trên độ tương tự về chức năng đã được tính toán. Các bước chính để đo độ tương tự về chức năng giữa hai miRNA (ví dụ MA và MB): - Bước 1: Các bệnh có mối quan hệ với 2 miRNA này được xác định, kí hiệu là DA, DB. - Bước 2: Giá trị ý nghĩa của các bệnh được tính toán dựa trên đồ thị DAG đối với bệnh tương ứng. - Bước 3: Độ tương tự về ý nghĩa của cặp bệnh DA và DB được tính toán dựa trên giá trị ý Hình 1. Các bước chính trong phương pháp nghĩa có được ở bước 2. tính độ tương tự giữa hai miRNA 12 Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs - Bước 4: Độ tương tự về chức năng giữa MA và MB được tính toán dựa trên dộ tương tự về ý nghĩa của DA và DB. Trước khi xét cụ thể các bước chính trong phương pháp tính toán độ tương tự giữa hai miRNA, chúng ta cần tìm hiểu về cấu trúc của đồ thị DAG và dữ liệu về mối quan hệ giữa miRNA và bệnh. Cấu trúc đồ thị có hướng không chu trình DAG của bệnh: Mối quan hệ giữa các bệnh mô tả dưới dạng đồ thị có hướng không chu trình DAG thể hiện trong mô tả MeSH được tải từ cơ sở dữ liệu quốc gia Hoa Kỳ về y học (http://www.nlm.nih.gov). Mô tả MeSH được sắp xếp vào 16 nhóm danh mục: Danh mục A dành cho các thuật ngữ về giải phẫu học (Anatomy), danh mục B dành cho các thuật ngữ về vi sinh vật (Organisms), danh mục C là các thuật ngữ về bệnh (Diseases), danh mục D là các thuật ngữ về thuốc và các hóa chất (Chemicals and Drugs)... Ở đây ta quan tâm đến danh mục C là các thuật ngữ về bệnh. Cơ sở dữ liệu MeSH cung cấp một hệ thống chặt chẽ cho việc phân loại bệnh và có thể có ích cho nghiên cứu về mối quan hệ của các bệnh. Nó có thể được mô tả như là một đồ thị DAG với các nút đại diện cho các bệnh và các liên kết biểu diễn mối quan hệ giữa các nút. Có duy nhất một loại quan hệ là quan hệ ‘is –a’ dùng trong kết nối giữa nút con tới nút cha. Mỗi bệnh có một hoặc nhiều hơn một địa chỉ trong đồ thị DAG dưới dạng các mã, để định nghĩa về mặt số lượng vị trí của nó trong đồ thị MeSH. Các mã của một nút con được định nghĩa bằng mã của nút cha cộng thêm địa chỉ của nút con. Hình 2 dưới đây minh họa mô tả MeSH cho bệnh u ngực (Breast Neoplasms). Hình 2: Mô tả MeSH cho bệnh u ngực Ở hình trên là một đồ thị có hướng không có chu trình DAG cho bệnh u ngực với các địa chỉ có thể có là C04.588.180 và C17.800.090.500 xác định hai nút cha tương ứng của bệnh này là C04.588 và C17.800.090. Dữ liệu về mối quan hệ giữa miRNA và bệnh: Dữ liệu về mối quan hệ giữa các bệnh được lấy từ cơ sở dữ liệu HMDD. Giá trị ý nghĩa của một bệnh: Một bệnh A có thể được biểu diễn là một đồ thị, DAGA = (A, TA , EA ), với TA là tập tất cả các nút cha của A tính cả nút A, EA là tập các liên kết tương ứng. Gọi mức đóng góp của một bệnh t trong đồ thị DAGA đối với ý nghĩa của bệnh A là DA (t) được tính theo công thức: 1 if t = A DA (t) = (2.1) max{∆ ∗ DA (t )|t′ ∈ children of t}if t 6= A ′ Với ∆ là yếu tố đóng góp ý nghĩa cho các cạnh (EA ) liên kết bệnh t với bệnh con t’ của nó. Với giả sử là các nút cha càng xa nút A thì sẽ có mức đóng góp vào giá trị ý nghĩa của bệnh A 13 Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng càng nhỏ, giá trị ∆ được lấy trong khoảng từ 0 đến 1 để giảm mức đóng góp của các nút xa nút A. Trong đồ thị DAG của bệnh A, bệnh A là bệnh cụ thể nhất và do vậy chúng ta định nghĩa mức đóng góp của nó chính là giá trị ý nghĩa của nó và có giá trị là 1. Như ở Hình 2, chúng ta có thể xác định các mức đóng góp ý nghĩa của các bệnh đối với bệnh u ngực (Breast Neoplasms) C04.588.180;C17.800.090.500 như sau (với ∆ lấy giá trị 0.5): - Mức đóng góp của bệnh u ngực với chính nó là: 1. - Mức đóng góp của C17.800.090 là: 0.5 × 1 = 0.5. - Mức đóng góp của C17.800 là: 0.5 × 0.5 = 0.25. - Mức đóng góp của C17 là: 0.5 × 0.25 = 0.125. - Mức đóng góp của C04.588 là: 0.5 × 1 = 0.5. - Mức đóng góp của C04 là: 0.5 × 0.5 = 0.25. Giá trị ý nghĩa cho bệnh A, DV (A) được tính theo công thức sau: X DV(A) = DA (t) (2.2) t∈TA Theo như công thức trên giá trị ý nghĩa của bệnh A là: 1.0 + 0.5 + 0.25 + 0.125 + 0.5 + 0.25 = 2.625 Độ tương tự giữa hai bệnh: Với giả sử rằng các bệnh có lượng lớn điểm chung trên các đồ thị DAG thì có xu hướng có độ tương tự cao hơn. Độ tương tự giữa hai bệnh được định nghĩa như sau: P (DA (t) + DB (t)) t∈TA ∩TB S(A, B) = (2.3) DV(A) + DV (B) Với DA (t) là giá trị ý nghĩa của bệnh t liên quan đến bệnh A và DB (t) là giá trị ý nghĩa của bệnh t liên quan tới bệnh B. Độ tương tự về chức năng của miRNA: Kí hiệu ‘dt’ biểu diễn một bệnh và ‘DT’ để biểu diễn một nhóm bệnh. Độ tương tự giữa dt và DT, kí hiệu S(dt, DT) độ tương tự tối đa giữa một bệnh và một nhóm bệnh, ví dụ DT = {dt1 , dt2 , ..., dtk} được tính theo công thức: S(dt, DT ) = max (S(dt, dti )) (2.4) 1≤i≤k Giả sử rằng DT1 biểu diễn các bệnh có liên quan (là một nhóm các bệnh) đến miRNA M1 và DT2 biểu diễn các bệnh có liên quan đến miRNA M2 (một nhóm các bệnh khác). DT1 chứa m bệnh và DT2 chứa n bệnh. Để xác định độ tương tự về chức năng của hai miRNA cần phải xem xét tất cả các bệnh DT1 và DT2 . Độ tương tự của hai miRNA được định nghĩa như sau: P P S(d1i , DT2 ) + S(dt2j , DT1 ) 1≤i≤m 1≤j≤n MISIM(M1, M2) = (2.5) m+n Tập bệnh DT1 và DT2 có thể xác định dựa trên tập dữ liệu quan hệ giữa miRNA và bệnh. Xây dựng mạng tương tự về chức năng MFSN của miRNA: 14 Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs Với một danh sách gồm các miRNA và một ngưỡng cho trước (ví dụ, 0.7). Cặp miRNA với hệ số tương tự về chức năng lớn hơn hoặc bằng ngưỡng này sẽ được kết nối với nhau thông qua một liên kết trực tiếp, ngược lại, chúng không được kết nối trực tiếp. Xét quan hệ này cho mọi cặp miRNA trong danh sách miRNA chúng ta sẽ xây dựng được một mạng chức năng MFSN. 2.4. Phương pháp RWRs (Random Walk with Restarts) Thông qua việc sử dụng dữ liệu mạng tương tác chức năng kế thừa từ các nguồn khác nhau về thông tin sinh học tế bào, Matteo Re và Giorgio Valentini đã chỉ ra rằng thuật toán RWRs có khả năng xếp hạng gen một cách chính xác. Cụ thể, thuật toán RWRs thông qua việc khai thác topo mạng toàn cục của mạng tương tác chức năng và các kết nối cục bộ về chức năng giữa các gen tương đối gần với các gen đã đạt được các kết quả tốt hơn so với các phương pháp khác. Điều này cho thấy phương pháp RWRs có thể được áp dụng để khám phá các gen mới có liên quan đến các quá trình sinh học tiềm ẩn bên trong các bệnh di truyền. RWRs là phương pháp thực hiện việc xếp hạng các gen thông qua việc di chuyển ngẫu nhiên trong mạng tương tự về chức năng để xếp hạng các gen có liên quan đến một bệnh cụ thể đang được xét đến. RWRs sử dụng đồ thị trọng số vô hướng G = (V, E), trong đó các nút i, j ∈ V tương ứng với các gen, với |V | = n, và các cạnh (i, j) ∈ E được đánh trọng số tương ứng với ma trận trọng số W với các phần tử wij là trọng số của các cạnh (i, j) thể hiện “độ mạnh” của tương tác về chức năng giữa gen i và j. Một Random Walk (RW ) trên đồ thị G(V, E) là chuỗi Markov có thể khôi phục ngược với ma trận chuyển đổi trạng thái Q, với các phần tử qij thỏa mãn ràng buộc về xác xuất X X qij = 1 : qij = wij / wik (2.6) j k Trong ngữ cảnh xếp hạng gen liên quan đến các gen trong mô-đun gen gây ung thư, các thuật toán RW khai thác và khám phá topo của mạng chức năng, bắt đầu và di chuyển quanh tập gen con VM ⊂ V thuộc về mô-đun gen gây ung thư cụ thể M bằng việc sử dụng ma trận xác suất chuyểnP đổi Q = D − 1W , trong đó D là ma trận đường chéo với các phần tử nằm trên đường chéo dii = j wij . Phần tử qij thuộc Q biểu diễn xác suất của bước nhảy ngẫu nhiên từ i đến j. Xác suất khởi tạo của những gen thuộc về mô đun M được đặt là po = 1/ |VM | đối với gen i ∈ VM và po = 0 với những gen i thuộc V V M . Nếu p biểu diễn vec-tơ xác suất khi di chuyển đến nút i ∈ V ở bước thứ t thì vectơ xác suất ở bước t + 1 là: pt+1 = (1 − θ)QT pt + θpo (2.7) Ở mỗi bước từ một nút ta có thể di chuyển đến nút láng giềng của nó hoặc có thể bắt đầu lại từ điều kiện ban đầu của với xác suất là θ. Khi RWRs ở trạng thái ổn định chúng ta có thể xếp hạng vectơ p để sắp xếp thứ tự ưu tiên các gen theo khả năng thuộc về mô đun gen gây bệnh ung thư CM mà đang được nghiên cứu. 2.5. Sử dụng phương pháp RWRs vào bài toán đự đoán quan hệ Dựa trên quan sát rằng các miRNA có liên quan với nhau về mặt chức năng thường có quan hệ với cách bệnh tương tự về kiểu hình, phương pháp RWRs được áp dụng để xác định các mối quan hệ tiềm năng giữa miRNA và bệnh của con người. Phương pháp này mô phỏng việc di chuyển một cách ngẫu nhiên từ một nút tới các nút láng giềng của nó trong mạng tương tự về chức năng MFSN. Việc di chuyển bắt đầu từ các nút nhân (seed) là các miRNA có mối quan hệ với bệnh đã biết trước. Phương pháp RWRs thực hiện qua các bước như sau: - Bước 1: Xác định xác suất khởi đầu cho mỗi miRNA 15 Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng - Bước 2: Thực hiện việc di chuyển ngẫu nhiên (random walk) trên mạng MFSN. - Bước 3: Từ xác suất ổn định (sau khi hội tụ), thực hiện xếp hạng các miRNA. Hình vẽ dưới đây minh họa phương pháp RWRs cho bài toán dự đoán mối quan hệ giữa miRNAs và bệnh: Hình 3: Phương pháp đề xuất Tại bước 1, ta thực hiện việc xác định xác suất khởi đầu cho các miRNA thông qua véc-tơ xác suất khởi đầu p(0). Đầu tiên, ta thực hiện xác định các miRNA có liên quan đến bệnh cụ thể mà ta đang quan tâm, các miRNA đó sẽ được dùng làm seed. Việc này thực hiện thông qua dữ liệu về quan hệ giữa miRNA và bệnh được đề cập tại mục 2.2. Giá trị xác suất tương ứng với các seed 1 trong véc-tơ p(0) có giá trị trong đó n là tổng số miRNA dùng làm seed. Các miRNA không n phải là seed (miRNA ứng viên) sẽ có giá trị xác suất là 0 trong véc-tơ p(0). Ở bước 2, ta thực hiện việc thuật toán RWRs với giá trị xác suất khởi động lại r (0 < r < 1). Véc-tơ p(t) là véc-tơ xác suất trong đó phần tử thứ i của nó là xác suất của việc di chuyển ngẫu nghiên tại nút i ở bước thứ t. Việc di chuyển ngẫu nhiên được thực hiện lặp lại bước sau: p(t + 1) = (1 − r)W p(t) + rp(0) (2.8) Công thức 2.8 tương đương với công thức 2.7 trong mục 2.4. Trong đó W là ma trận đã được chuẩn hóa cột từ ma trận ban đầu của nó là ma trận tương tự về chức năng của miRNA. Ta giả sử ma trận tương tự về chức năng có kích thước (m x m) thì hai véc-tơ là p(0) và p(t) là véc-tơ cột có kích thước m. Việc di chuyển ngẫu nhiên dừng lại khi sự thay đổi giữa p(t) và p(t + 1) được đo bằng chuẩn L1 (L1 norm) nhỏ hơn một giá trị tới hạn (giá trị hội tụ). Ở đây giá trị hội tụ được chọn là 10−6 . Véc-tơ hội tụ được kí hiệu là p(∞). Bước 3, từ véc-tơ p(∞) ta thực hiện việc sắp xếp theo thứ tự giảm dần của giá trị xác suất. Các miRNA có giá trị xác suất cao thường có khả năng cao có mối quan hệ với bệnh cụ thể mà chúng ta đang xét. Dựa vào kết quả này ta có thể chọn ra những miRNA tiềm năng có mối quan hệ với bệnh cụ thể cho các thực nghiệm về sinh học. 16 Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs 2.6. Thực nghiệm và đánh giá kết quả 2.6.1. Dữ liệu Dữ liệu được sử dụng để dự đoán mối quan hệ giữa miRNA và bệnh bằng phương pháp RWRs gồm có dữ liệu về mối quan hệ giữa miRNA và bệnh và dữ liệu về mạng tương tự chức năng của miRNA. Trong đó, dữ liệu về mối quan hệ giữa miRNA được lấy tại nguồn cơ sở dữ liệu HMDD. Dữ liệu dùng để đánh giá kết quả của phương pháp gồm có: Dữ liệu về mối quan hệ giữa miRNA và bệnh tại cơ sở dữ liệu HMDD (http://cmbi.bjmu.edu.cn/hmdd), cơ sở dữ liệu miR2Disease, cơ sở dữ liệu dbDMEC về mối quan hệ giữa miRNA và các bệnh ung thư. 2.6.2. Cách đánh giá phương pháp Hiệu quả của phương pháp RWRs có thể được đánh giá thông qua việc tính toán các giá trị cho đường cong ROC và giá trị AUC thông qua phương pháp đánh giá chéo (leave-one-out cross validation) cho 1.395 mối quan hệ giữa miRNA và bệnh đã biết trước và đã được kiểm chứng bằng thực nghiệm. Với một bệnh d dựa vào dữ liệu mối quan hệ giữa miRNA và bệnh ta xác định được tập các miRNA có quan hệ với bệnh d kí hiệu là tập S và tập các miRNA ứng viên kí hiệu là tập C là các miRNA còn lại. Một gen u ∈ S được lấy ra khỏi tập sau đó tất cả các gen thuộc tập C ∪ {u} sẽ được xếp hạng dựa trên véc-tơ hội tụ p(∞) với các seed thuộc tập S\{u}. Bước trên được lặp lại cho lần lượt từng miRNA trong tập S. Sau đó ta cho ngưỡng τ thay đổi từ 1 đến số lượng miRNA có trong 2 tập S và C, tại mỗi giá trị của ngưỡng ta tính toán được hai số là tỉ lệ dương tính thật hay còn gọi là độ nhạy (sensitivity) và tỉ lệ dương tính giả (1-specificity) theo công thức sau: TP sensitivity = (2.9) TP + FN FP 1 − specif icity = (2.10) FP + TN 2.6.3. Cài đặt chương trình Chương trình cài đặt thuật toán RWRs được trình bày trong phần trước. Chương trình thực hiện việc đọc vào hai mảng: mảng 2 chiều biểu thị độ tương tự về chức năng của miRNA (misim.in), mảng quan hệ giữa miRNA và bệnh (DMAs.in) cùng với các tham số đầu vào như diseaseId (id của bệnh), c (điều kiện số xét hội tụ), r (xác suất khởi động lại). Sau khi chạy chương trình thì dữ liệu đẩu ra sẽ là véc-tơ hội tụ p(∞). Thực hiện việc sắp xếp giảm dần các phần tử trong véc-tơ này ta sẽ được danh sách các miRNA tiềm năng có liên quan tới bệnh cụ thể mà ta quan tâm (bệnh có tham số id diseaseId). Việc đánh giá chéo cũng được thực hiện trong chương trình. Sau khi chạy đánh giá chéo, đường cong ROC được biểu diễn và giá trị AUC tương ứng với đường cong đó cũng được tính toán. 2.6.4. Một số kết quả Với giá trị tham số đầu vào là c = 10−6 (xét điều kiện hội tụ), và giá trị xác suất khởi động lại r = 0.5, chúng tôi đã thực hiện việc đánh giá chéo và có được kết quả là biểu đồ đường cong ROC cùng với giá trị AUC như hình 4. Tọa độ mỗi điểm trên đường cong ROC là trung bình cộng tọa độ điểm trên đường cong ROC của 137 bệnh. Ở đây giá trị AUC tính được là 0.8049 cho thấy kết quả dự đoán bằng phương pháp RWRs là tốt. Chúng tôi cũng thực hiện việc xác định ảnh hưởng của xác suất khởi động lại r tới kết quả đánh giá chéo của phương pháp RWRs theo bảng 1. 17 Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng Hình 4: Biểu đồ biểu diễn ROC cho phương pháp RWRs Bảng 1: Ảnh hưởng của xác suất khởi động lại r tới giá trị AUC r 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 AUC 0.78799 0.79688 0.80077 0.80304 0.8049 0.80607 0.80691 0.80742 0.80787 Hình 5: Ảnh hưởng của tham số r tới giá trị AUC Ở đây khi tham số r thay đổi thì giá trị AUC thay đổi khá ít. Căn cứ vào kết quả tính toán được chúng ta thấy với các giá trị r ≤ 0.2 thì giá trị AUC thuộc ngưỡng trung bình, với r ≥ 0.3 18 Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs giá trị AUC thuộc ngưỡng tốt. Chúng tôi cũng thực hiện việc dự đoán mối quan hệ giữa các miRNA với bệnh u ngực (breast cancer) và kết quả dự đoán như sau: Bảng 2: Kết quả dự đoán 20 miRNA tiềm năng có liên quan đến bệnh u ngực Tên miRNA Xác minh PubmedId hsa-let-7e dbDEMC, HMDD 21969366 hsa-let-7b dbDEMC, HMDD 22294324 hsa-let-7c dbDEMC, HMDD 22388088 hsa-let-7i dbDEMC, HMDD, mir2Disease 22388088 hsa-mir-126 dbDEMC, HMDD, mir2Disease 22524830 hsa-let-7g dbDEMC, HMDD 22821209 hsa-mir-191 dbDEMC, HMDD, mir2Disease 22898264 hsa-mir-92b dbDEMC hsa-mir-223 dbDEMC, HMDD 19624877 hsa-mir-30e Chưa xác định hsa-mir-101 dbDEMC, HMDD, mir2Disease 23071542 hsa-mir-520b dbDEMC, HMDD 21343296 hsa-mir-18b dbDEMC, HMDD 21755340 hsa-mir-27a dbDEMC, HMDD, mir2Disease 22407812 hsa-mir-373 dbDEMC, HMDD, mir2Disease 22524830 hsa-mir-130a dbDEMC hsa-mir-16 dbDEMC, HMDD 19250063 hsa-mir-92a HMDD 20484043 hsa-mir-372 dbDEMC hsa-mir-98 dbDEMC Các miRNA tiềm năng được dự đoán có mối quan hệ với bệnh u ngực bằng phương pháp RWRs được xác minh qua các cơ sở dữ liệu HMDD (phiên bản 2.0- cập nhật tháng 04/2014), cơ sở dữ liệu dbDEMC, mir2Disease, cột PubmedId chứa Id tới bài báo gốc tại cơ sở dữ liệu Pubmed. 3. Kết luận Trong bài báo này chúng tôi đã trình bày về bài toán dự đoán mối quan hệ giữa miRNA và bệnh, đồng thời đã đưa ra phương pháp giải quyết bài toán nói trên thông qua việc trình bày cách thức xây dựng mạng tương tự về chức năng miRNA, giới thiệu về mạng quan hệ giữa miRNA và bệnh, áp dụng phương pháp RWRs vào bài toán nói trên để xếp hạng các miRNA ứng viên với bệnh đang được quan tâm. Chúng tôi cũng đã thực hiện việc thực nghiệm để đánh giá hiệu quả của phương pháp RWRs và thực hiện việc dự đoán đối với bệnh u ngực và xác minh kết quả dự đoán thông qua các cơ sở dữ liệu sẵn có. Kết quả cho thấy phương pháp RWRs cho hiệu quả dự đoán ở mức tốt với giá trị AUC tính toán được là 0.8049. Lời cảm ơn. Bài báo được hoàn thành với sự tài trợ của Quỹ NAFOSTED (mã số đề tài: 102.01-2011.05). 19 Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng TÀI LIỆU THAM KHẢO [1] Bartel D.P., 2004. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell, 116:281–297. [2] Jiang Q, Wang G, and Wang Y, 2010. An approach for prioritizing disease-related microRNAs based on genomic data integration. BMEI, 2010, 6, 2270–2274. [3] Jiang, Q., Hao, Y., Wang, G., Juan, L., Zhang, T., Teng, M., Liu, Y. and Wang, Y., 2010. Prioritization of disease microRNAs through a human phenome-microRNAome network. BMC Systems Biology, 4, S2. [4] Joung JG, Fei Z, 2009. Identification of microRNA regulatory modules in Arabidopsis via a probabilistic graphical model. Bioinformatics, 25(3):387–393. [5] Li, Y. and Kowdley, K.V., 2012. MicroRNAs in Common Human Diseases. Genomics, Proteomics & Bioinformatics, 10, 246-253. [6] Li, Y. and Patra, J.C., 2010. Genome-wide inferring gene-phenotype relationship by walking on the heterogeneous network. Bioinformatics, 26, 1219-1224. [7] Lu M, Zhang Q, Deng M, Miao J, Guo Y, et al, 2008. An Analysis of Human MicroRNA and Disease Associations. PloS One, 3, e3420. [8] Nelson PT, Wang WX, Rajeev BW, 2008. MicroRNAs (miRNAs) in neurodegenerative diseases. Brain Pathol., 18(1):130-8. [9] Ortutay C. and Vihinen M., 2009. Identification of candidate disease genes by integrating Gene Ontologies and protein-interaction networks: case study of primary immunodeficiencies. Nucleic Acids Research, 37(2), 622-628. [10] Schmitz et al., 2013. MicroRNA Cancer Regulation: Advanced Concepts, Bioinformatics and Systems Biology Tools. Advances in Experimental Medicine and Biology, pp. 243-315. [11] Shi et al., 2013. Walking the interactome to identify human miRNA-disease associations through the functional link between miRNA targets and disease genes. BMC Systems Biology, 7:101. [12] Tran D.H., Satou K., Ho T.B., 2008. Finding MicroRNA Regulatory Modules in Human Genome Using Rule Induction. BMC Bioinformatics, 9(S12):S5. ABSTRACT Prediction of microRNA-disease relationships using Random Walk with Restarts MicroRNA (miRNA) is one non-coding RNA that plays an important role in gene expression. It inhibits some types of genes rather than producing proteins directly. Recent experimental research has revealed the influence of miRNAs in several disease samples. Therefore, predicting the relationship between miRNAs and diseases provides us with more information about disease causing mechanisms. In this paper, we exploit RWR’s approach to integrate knowledge of miRNAs function-corresponding network, relational network and information from diseases to predict new relationships between them. Keywords: MicroRNAs, Random Walk with Restarts, RWRs, Integrated Network. 20