JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0048<br />
Educational Sci., 2015, Vol. 60, No. 7A, pp. 10-20<br />
This paper is available online at http://stdb.hnue.edu.vn<br />
<br />
<br />
<br />
<br />
DỰ ĐOÁN MỐI QUAN HỆ GIỮA MIRNAs VÀ BỆNH<br />
BẰNG PHƯƠNG PHÁP RWRs<br />
<br />
Nguyễn Đình Hùng1 , Trương Thị Tiến2 , Trần Đăng Hưng3<br />
1 Công<br />
ty FPT Information System<br />
2 Trường<br />
Trung học phổ thông Chuyên Sơn La<br />
3 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội<br />
<br />
<br />
<br />
Tóm tắt. MicroRNAs (miRNAs) là một loại non-coding RNAs có vai trò đặc biệt đối với<br />
quá trình biểu hiện gen. miRNAs không trực tiếp sản sinh ra các protein mà ngược lại có<br />
vai trò gây ức chế một số gen. Các nghiên cứu thực nghiệm gần đây cho thấy vai trò của<br />
miRNAs trong một số mẫu bệnh. Vì vậy việc nghiên cứu và dự đoán mối quan hệ giữa các<br />
miRNAs và bệnh sẽ cho chúng ta hiểu thêm về cơ chế gây bệnh của một số gen. Trong<br />
bài báo này, chúng tôi sử dụng phương pháp RWRs để tích hợp thông tin từ mạng tương tự<br />
chức năng của các miRNAs và mạng quan hệ miRNA và bệnh để dự đoán các mối quan hệ<br />
mới giữa miRNAs và bệnh..<br />
Từ khóa: MicroRNA, Random Walk with Restarts.<br />
<br />
1. Mở đầu<br />
MicroRNA là một non-coding RNA có chiều dài khoảng 22 nucleotide, thường có chức<br />
năng ức chế biểu hiện của của một số gen. Gần đây, nhiều nghiên cứu đã xác định miRNA là một<br />
trong những thành phần quan trọng trong tế bào và đóng vai trò chủ chốt trong nhiều quá trình<br />
sinh học cơ bản khác nhau [1]. Do vậy, sự thay đổi chức năng miRNA có liên quan đến nhiều loại<br />
bệnh khác nhau [4, 5]. Việc tìm kiếm mỗi quan hệ giữa các miRNA và các bệnh trên diện rộng đã<br />
trở thành một đích quan trọng trong nghiên cứu y sinh, qua đó thúc đẩy hiểu biết về các bệnh ở<br />
mức phân tử và mang lại lợi ích trong việc tiên lượng, chẩn đoán, đánh giá, điều trị và ngăn ngừa<br />
bệnh ở người [8, 10, 12]. Tuy nhiên, hiểu biết hiện tại về mối quan hệ giữa các miRNA với bệnh là<br />
tương đối hạn chế. Việc xác định bằng thực nghiệm đối với các bệnh liên quan đến miRNA thông<br />
qua những kĩ thuật sinh học đã có là đắt đỏ và tốn thời gian [10, 11]. Tuy nhiên, với lượng lớn<br />
dữ liệu sinh học về các miRNA được tạo ra, chúng ta có thể xây dựng các phương pháp tính toán<br />
mạnh mà có thể phát hiện ra những mối quan hệ tiềm năng giữa miRNA và bệnh.<br />
Một số phương pháp tính toán để dự đoán các miRNA có liên quan đến bệnh đã được đề<br />
xuất. Lu et al. [7] đã phân tích dữ liệu về mối quan hệ giữa miRNA và bệnh và đã đề xuất nhiều<br />
mẫu quan hệ giữa các miRNA với các bệnh của người. Qua đó đã đặt một nền tảng mới cho các<br />
nghiên cứu về các miRNA có liên quan tới bệnh và đã mang lại sự hỗ trợ cho các nghiên cứu về<br />
các bệnh ở mức miRNA. Dựa trên giả định rằng các bệnh tương tự nhau về kiểu hình có xu hướng<br />
có mối quan hệ với các miRNA có liên quan về chức năng được đề xuất bởi Lu et al., Zhang et al.<br />
Ngày nhận bài: 20/7/2015. Ngày nhận đăng: 8/11/2015.<br />
Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn<br />
<br />
<br />
<br />
10<br />
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs<br />
<br />
<br />
đã xây dựng phương pháp dự đoán tập hợp các bệnh liên quan đến miRNA đầu tiên. Phương pháp<br />
này xác định miRNA tiềm năng có liên quan đến bệnh tim mạch bằng cách tích hợp thông tin từ<br />
tập miRNA đã biết và Gene Ontology. Tuy nhiên, thực tế là việc phương pháp này dựa nhiều vào<br />
tập miRNA đã hạn chế tính ứng dụng của nó. Jiang et al. [2] đã xây dựng một phương pháp tính<br />
toán dựa trên phân bố siêu bội (hypergeometric distribution) để xác định các miRNA liên quan<br />
đến bệnh bằng cách tích hợp mạng tương tác chức năng miRNA, mạng bệnh tương tự và mạng<br />
miRNA đã biết, trong đó có tập mối quan hệ giữa miRNA với bệnh đã được kiểm chứng qua thực<br />
nghiệm lấy từ cơ sở dữ liệu miR2Disease. Mặc dù vậy mạng chức năng miRNA được xây dựng chỉ<br />
có thông tin về các láng giềng gần của mỗi miRNA được sử dụng trong việc tính trọng số quan hệ.<br />
Việc tận dụng đầy đủ thông tin tương tự trong mạng toàn cục sẽ cải thiện độ chính xác của thuật<br />
toán này. Jiang et al. [3] đã đề xuất thêm một cách tiếp cận cho việc xếp hạng các miRNA ứng<br />
viên dựa trên dữ liệu gen tích hợp bởi mô hình Naive Bayes. Cách tiếp cận này dựa nhiều vào tập<br />
dữ liệu giữa gen và bệnh và các tương tác giữa các gen bị tác động của miRNA.<br />
Các phương pháp đã được đề cập ở trên cho tập quan hệ giữa miRNA và bệnh có nhiều hạn<br />
chế. Do vậy, rất cần đề xuất các phương pháp tính toán mới, có thể tích hợp được nhiều loại thông<br />
tin và cho kết quả dự đoán cao hơn. Trong bài báo này, chúng tôi xem xét một giả thuyết sử dụng<br />
độ đo tương tự trên mạng toàn cục trong việc xác định những quan hệ giữa các miRNA và các<br />
bệnh. Dựa trên độ đo tương tự trên mạng toàn cục và giả định rằng các miRNA có liên quan về<br />
mặt chức năng có xu hướng liên quan đến các bệnh tương tự về kiểu hình. Phương pháp của chúng<br />
tôi được chia làm 3 bước, đầu tiên chúng tôi tích hợp thông tin từ các nguồn dữ liệu sinh học để<br />
xây dựng một mạng tương tự chức năng giữa các miRNAs. Sau đó sử dụng phương pháp RWRs<br />
(bước đi ngẫu nhiên trên mạng có quay trở lại) để tính toán sự ảnh hưởng của các nút láng giềng<br />
lên từng nút trong mạng. Phương pháp RWRs đã được áp dụng một cách rộng rãi trong nhiều bài<br />
toán Tin-sinh học. Sử dụng việc đánh giá bằng phương pháp thẩm tra chéo trên tập dữ liệu đã biết,<br />
chúng tôi thấy phương pháp đề xuất cho kết quả dự đoán tốt hơn so với những phương pháp tiên<br />
lượng trước đó dựa trên độ đo tương tự trong mạng cục bộ.<br />
<br />
2. Nội dung nghiên cứu<br />
Để giải quyết bài toán ở trên chúng tôi tích hợp hai mạng: là mạng quan hệ giữa miRNA và<br />
bệnh (MDAN - miRNA Disease Association Network) và mạng tương tự về chức năng giữa các<br />
miRNAs (MFSN – miRNA Function Similarity Network), sau đó áp dụng phương pháp RWRs để<br />
thực hiện việc xếp hạng các miRNA có mối quan hệ đến các bệnh.<br />
2.1. Mạng quan hệ giữa miRNA và bệnh<br />
Dữ liệu về mối quan hệ giữa miRNA và bệnh được lấy từ cơ sở dữ liệu HMDD. Sau đó dữ<br />
liệu trên sẽ được xử lí như gom nhóm, ví dụ, những bản sao miRNA khác nhau mà tạo ra cùng<br />
một một miRNA trưởng thành (mature miRNA) (như hsa-let-7a-1, hsa-let-7a-2, hsa-let-7a-3) được<br />
gom lại thành một nhóm (hsa-let-7a); xử lí đồng nhất tên của các miRNA trưởng thành thành một<br />
gen miRNA và thống nhất tên bệnh sử dụng thuật ngữ bệnh từ cơ sở dữ liệu MeSH. Dữ liệu sau xử<br />
lí gồm có 1395 mối quan hệ của miRNA và bệnh trong đó có 271 miRNA và 137 bệnh.<br />
Dữ liệu trên sẽ được sử dụng để đánh giá độ chính xác của dự đoán và được dùng để xác<br />
định các miRNA được dùng làm seed (hạt nhân) trong phương pháp RWRs. Việc sử dụng phiên<br />
bản cũ của cơ sở dữ liệu HMDD thay vì phiên bản mới là do ta có thể đánh giá mô hình dự đoán<br />
bằng dữ liệu về các mối quan hệ ở phiên bản mới hơn của cơ sở dữ liệu HMDD.<br />
Từ dữ liệu về quan hệ giữa miRNA và bệnh, mạng quan hệ giữa miRNA và bệnh MDAN<br />
được xây dựng. Mạng này gồm có tập đỉnh M = {m1 , m2 , ..., mn } đại diện cho tập gồm n miRNA<br />
và tập đỉnh D = {d1 , d2 , ..., dk } đại diện cho tập gồm k bệnh. Các đỉnh mi và dj được liên kết bởi<br />
<br />
11<br />
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng<br />
<br />
<br />
một cạnh trong mạng MDAN nếu miRNA i có mối quan hệ với bệnh j trong tập dữ liệu quan hệ<br />
với trọng số của cạnh được đặt là 1. Thực tế, mạng quan hệ giữa miRNA và bệnh MDAN là một<br />
đồ thị hai phía chứa hai tập đỉnh tương ứng là miRNA và bệnh. Liên kết giữa hai tập đỉnh trên ở<br />
những miRNA và bệnh có quan hệ với nhau.<br />
<br />
2.2. Mạng tương tự về chức năng của miRNA<br />
Mạng tương tự về chức năng MFSN (MiRNA Functional Similarity Network) của miRNA<br />
biểu diễn độ tương tự về chức năng giữa các miRNA thông qua các trọng số (score) tương tự chức<br />
năng giữa chúng, trong đó, các trọng số cho mỗi cặp miRNA được tính toán dựa trên quan sát rằng<br />
các gen có độ tương tự về chức năng thường có quan hệ với các bệnh tương tự nhau.<br />
Ma trận tương tự về chức năng được kí hiệu là S trong đó phần tử S(i, j) của ma trận ở<br />
dòng i và cột j biểu thị tỉ số tương tự về chức năng giữa miRNA i và j. Các thức xây dựng ma trận<br />
tương tự về chức năng sẽ được đề cập ở phần dưới.<br />
Dựa trên ma trận tương tự về chức năng, mạng tương tự về chức năng MFSN được xây dựng<br />
trong đó tập đỉnh M = {m1 , m2 , ..., mn } biểu diễn tập gồm n miRNA. Giữa hai đỉnh mi và mj<br />
được kết nối với nhau bằng một cạnh trong mạng nếu mối tỉ số tương tự về chức năng giữa miRNA<br />
i và j lớn hơn một ngưỡng nhất định, ở đây là lớn hơn ngưỡng 0. Trọng số về độ tương tự về chức<br />
năng cũng được dùng làm trọng số cho cạnh trên đồ thị MFSN.<br />
2.3. Xây dựng mạng tương tự chức năng MFSN của miRNA<br />
Ta biết rằng các gen có chức năng tương tự thường có quan hệ với các bệnh tương tự nhau, và<br />
mối quan hệ giữa các bệnh có thể biểu diễn bằng đồ thị có hướng không chu trình DAG (Directed<br />
Acyclic Graph). Điều này cũng đúng cho các gen miRNA. Do đó, việc suy luận độ tương tự về<br />
chức năng của các miRNA bằng cách đo độ tương tự của đồ thị có hướng không chu trình DAG<br />
của các bệnh có mối quan hệ với miRNA là khả thi.<br />
Dựa trên những quan sát ở trên cùng dữ<br />
liệu về mối quan hệ giữa miRNA và bệnh được<br />
thu thập được một cách nhanh chóng, mối quan hệ<br />
giữa các bệnh của chúng, một phương pháp để suy<br />
luận độ tương tự về chức năng theo cặp (pairwise).<br />
Phương pháp này dựa trên dữ liệu về mối quan hệ<br />
giữa miRNA và bệnh cùng với đồ thị DAG để đo<br />
lường độ tương tự giữa chức năng của miRNA và<br />
hơn nữa để xây dựng mạng tương tự chức năng<br />
MFSN của miRNA dựa trên độ tương tự về chức<br />
năng đã được tính toán. Các bước chính để đo độ<br />
tương tự về chức năng giữa hai miRNA (ví dụ MA<br />
và MB):<br />
- Bước 1: Các bệnh có mối quan hệ với 2<br />
miRNA này được xác định, kí hiệu là DA, DB.<br />
- Bước 2: Giá trị ý nghĩa của các bệnh được<br />
tính toán dựa trên đồ thị DAG đối với bệnh tương<br />
ứng.<br />
- Bước 3: Độ tương tự về ý nghĩa của cặp<br />
bệnh DA và DB được tính toán dựa trên giá trị ý<br />
Hình 1. Các bước chính trong phương pháp<br />
nghĩa có được ở bước 2.<br />
tính độ tương tự giữa hai miRNA<br />
<br />
12<br />
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs<br />
<br />
<br />
- Bước 4: Độ tương tự về chức năng giữa MA và MB được tính toán dựa trên dộ tương tự về<br />
ý nghĩa của DA và DB.<br />
Trước khi xét cụ thể các bước chính trong phương pháp tính toán độ tương tự giữa hai<br />
miRNA, chúng ta cần tìm hiểu về cấu trúc của đồ thị DAG và dữ liệu về mối quan hệ giữa miRNA<br />
và bệnh.<br />
Cấu trúc đồ thị có hướng không chu trình DAG của bệnh:<br />
Mối quan hệ giữa các bệnh mô tả dưới dạng đồ thị có hướng không chu trình DAG thể hiện<br />
trong mô tả MeSH được tải từ cơ sở dữ liệu quốc gia Hoa Kỳ về y học (http://www.nlm.nih.gov).<br />
Mô tả MeSH được sắp xếp vào 16 nhóm danh mục: Danh mục A dành cho các thuật ngữ về giải<br />
phẫu học (Anatomy), danh mục B dành cho các thuật ngữ về vi sinh vật (Organisms), danh mục<br />
C là các thuật ngữ về bệnh (Diseases), danh mục D là các thuật ngữ về thuốc và các hóa chất<br />
(Chemicals and Drugs)... Ở đây ta quan tâm đến danh mục C là các thuật ngữ về bệnh.<br />
Cơ sở dữ liệu MeSH cung cấp một hệ thống chặt chẽ cho việc phân loại bệnh và có thể có<br />
ích cho nghiên cứu về mối quan hệ của các bệnh. Nó có thể được mô tả như là một đồ thị DAG với<br />
các nút đại diện cho các bệnh và các liên kết biểu diễn mối quan hệ giữa các nút. Có duy nhất một<br />
loại quan hệ là quan hệ ‘is –a’ dùng trong kết nối giữa nút con tới nút cha. Mỗi bệnh có một hoặc<br />
nhiều hơn một địa chỉ trong đồ thị DAG dưới dạng các mã, để định nghĩa về mặt số lượng vị trí của<br />
nó trong đồ thị MeSH. Các mã của một nút con được định nghĩa bằng mã của nút cha cộng thêm<br />
địa chỉ của nút con. Hình 2 dưới đây minh họa mô tả MeSH cho bệnh u ngực (Breast Neoplasms).<br />
<br />
<br />
<br />
<br />
Hình 2: Mô tả MeSH cho bệnh u ngực<br />
<br />
Ở hình trên là một đồ thị có hướng không có chu trình DAG cho bệnh u ngực với các địa<br />
chỉ có thể có là C04.588.180 và C17.800.090.500 xác định hai nút cha tương ứng của bệnh này là<br />
C04.588 và C17.800.090. Dữ liệu về mối quan hệ giữa miRNA và bệnh: Dữ liệu về mối quan hệ<br />
giữa các bệnh được lấy từ cơ sở dữ liệu HMDD.<br />
Giá trị ý nghĩa của một bệnh:<br />
Một bệnh A có thể được biểu diễn là một đồ thị, DAGA = (A, TA , EA ), với TA là tập tất<br />
cả các nút cha của A tính cả nút A, EA là tập các liên kết tương ứng. Gọi mức đóng góp của một<br />
bệnh t trong đồ thị DAGA đối với ý nghĩa của bệnh A là DA (t) được tính theo công thức:<br />
<br />
1 if t = A<br />
<br />
DA (t) = (2.1)<br />
max{∆ ∗ DA (t )|t′ ∈ children of t}if t 6= A<br />
′<br />
<br />
<br />
Với ∆ là yếu tố đóng góp ý nghĩa cho các cạnh (EA ) liên kết bệnh t với bệnh con t’ của nó.<br />
Với giả sử là các nút cha càng xa nút A thì sẽ có mức đóng góp vào giá trị ý nghĩa của bệnh A<br />
<br />
13<br />
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng<br />
<br />
<br />
càng nhỏ, giá trị ∆ được lấy trong khoảng từ 0 đến 1 để giảm mức đóng góp của các nút xa nút<br />
A. Trong đồ thị DAG của bệnh A, bệnh A là bệnh cụ thể nhất và do vậy chúng ta định nghĩa mức<br />
đóng góp của nó chính là giá trị ý nghĩa của nó và có giá trị là 1.<br />
Như ở Hình 2, chúng ta có thể xác định các mức đóng góp ý nghĩa của các bệnh đối với<br />
bệnh u ngực (Breast Neoplasms) C04.588.180;C17.800.090.500 như sau (với ∆ lấy giá trị 0.5):<br />
- Mức đóng góp của bệnh u ngực với chính nó là: 1.<br />
- Mức đóng góp của C17.800.090 là: 0.5 × 1 = 0.5.<br />
- Mức đóng góp của C17.800 là: 0.5 × 0.5 = 0.25.<br />
- Mức đóng góp của C17 là: 0.5 × 0.25 = 0.125.<br />
- Mức đóng góp của C04.588 là: 0.5 × 1 = 0.5.<br />
- Mức đóng góp của C04 là: 0.5 × 0.5 = 0.25.<br />
Giá trị ý nghĩa cho bệnh A, DV (A) được tính theo công thức sau:<br />
X<br />
DV(A) = DA (t) (2.2)<br />
t∈TA<br />
<br />
Theo như công thức trên giá trị ý nghĩa của bệnh A là:<br />
<br />
1.0 + 0.5 + 0.25 + 0.125 + 0.5 + 0.25 = 2.625<br />
<br />
Độ tương tự giữa hai bệnh:<br />
Với giả sử rằng các bệnh có lượng lớn điểm chung trên các đồ thị DAG thì có xu hướng có<br />
độ tương tự cao hơn. Độ tương tự giữa hai bệnh được định nghĩa như sau:<br />
P<br />
(DA (t) + DB (t))<br />
t∈TA ∩TB<br />
S(A, B) = (2.3)<br />
DV(A) + DV (B)<br />
Với DA (t) là giá trị ý nghĩa của bệnh t liên quan đến bệnh A và DB (t) là giá trị ý nghĩa<br />
của bệnh t liên quan tới bệnh B.<br />
Độ tương tự về chức năng của miRNA:<br />
Kí hiệu ‘dt’ biểu diễn một bệnh và ‘DT’ để biểu diễn một nhóm bệnh. Độ tương tự giữa<br />
dt và DT, kí hiệu S(dt, DT) độ tương tự tối đa giữa một bệnh và một nhóm bệnh, ví dụ DT =<br />
{dt1 , dt2 , ..., dtk} được tính theo công thức:<br />
<br />
S(dt, DT ) = max (S(dt, dti )) (2.4)<br />
1≤i≤k<br />
<br />
<br />
Giả sử rằng DT1 biểu diễn các bệnh có liên quan (là một nhóm các bệnh) đến miRNA M1<br />
và DT2 biểu diễn các bệnh có liên quan đến miRNA M2 (một nhóm các bệnh khác). DT1 chứa m<br />
bệnh và DT2 chứa n bệnh. Để xác định độ tương tự về chức năng của hai miRNA cần phải xem<br />
xét tất cả các bệnh DT1 và DT2 . Độ tương tự của hai miRNA được định nghĩa như sau:<br />
P P<br />
S(d1i , DT2 ) + S(dt2j , DT1 )<br />
1≤i≤m 1≤j≤n<br />
MISIM(M1, M2) = (2.5)<br />
m+n<br />
<br />
Tập bệnh DT1 và DT2 có thể xác định dựa trên tập dữ liệu quan hệ giữa miRNA và bệnh.<br />
Xây dựng mạng tương tự về chức năng MFSN của miRNA:<br />
<br />
14<br />
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs<br />
<br />
<br />
Với một danh sách gồm các miRNA và một ngưỡng cho trước (ví dụ, 0.7). Cặp miRNA với<br />
hệ số tương tự về chức năng lớn hơn hoặc bằng ngưỡng này sẽ được kết nối với nhau thông qua<br />
một liên kết trực tiếp, ngược lại, chúng không được kết nối trực tiếp. Xét quan hệ này cho mọi cặp<br />
miRNA trong danh sách miRNA chúng ta sẽ xây dựng được một mạng chức năng MFSN.<br />
2.4. Phương pháp RWRs (Random Walk with Restarts)<br />
Thông qua việc sử dụng dữ liệu mạng tương tác chức năng kế thừa từ các nguồn khác nhau<br />
về thông tin sinh học tế bào, Matteo Re và Giorgio Valentini đã chỉ ra rằng thuật toán RWRs có<br />
khả năng xếp hạng gen một cách chính xác. Cụ thể, thuật toán RWRs thông qua việc khai thác<br />
topo mạng toàn cục của mạng tương tác chức năng và các kết nối cục bộ về chức năng giữa các<br />
gen tương đối gần với các gen đã đạt được các kết quả tốt hơn so với các phương pháp khác. Điều<br />
này cho thấy phương pháp RWRs có thể được áp dụng để khám phá các gen mới có liên quan đến<br />
các quá trình sinh học tiềm ẩn bên trong các bệnh di truyền.<br />
RWRs là phương pháp thực hiện việc xếp hạng các gen thông qua việc di chuyển ngẫu nhiên<br />
trong mạng tương tự về chức năng để xếp hạng các gen có liên quan đến một bệnh cụ thể đang<br />
được xét đến. RWRs sử dụng đồ thị trọng số vô hướng G = (V, E), trong đó các nút i, j ∈ V<br />
tương ứng với các gen, với |V | = n, và các cạnh (i, j) ∈ E được đánh trọng số tương ứng với ma<br />
trận trọng số W với các phần tử wij là trọng số của các cạnh (i, j) thể hiện “độ mạnh” của tương<br />
tác về chức năng giữa gen i và j. Một Random Walk (RW ) trên đồ thị G(V, E) là chuỗi Markov<br />
có thể khôi phục ngược với ma trận chuyển đổi trạng thái Q, với các phần tử qij thỏa mãn ràng<br />
buộc về xác xuất X X<br />
qij = 1 : qij = wij / wik (2.6)<br />
j<br />
k<br />
<br />
Trong ngữ cảnh xếp hạng gen liên quan đến các gen trong mô-đun gen gây ung thư, các<br />
thuật toán RW khai thác và khám phá topo của mạng chức năng, bắt đầu và di chuyển quanh tập<br />
gen con VM ⊂ V thuộc về mô-đun gen gây ung thư cụ thể M bằng việc sử dụng ma trận xác suất<br />
chuyểnP đổi Q = D − 1W , trong đó D là ma trận đường chéo với các phần tử nằm trên đường chéo<br />
dii = j wij . Phần tử qij thuộc Q biểu diễn xác suất của bước nhảy ngẫu nhiên từ i đến j. Xác<br />
suất khởi tạo của những gen thuộc về mô đun M được đặt là po = 1/ |VM | đối với gen i ∈ VM và<br />
po = 0 với những gen i thuộc V V M . Nếu p biểu diễn vec-tơ xác suất khi di chuyển đến nút i ∈ V<br />
ở bước thứ t thì vectơ xác suất ở bước t + 1 là:<br />
pt+1 = (1 − θ)QT pt + θpo (2.7)<br />
<br />
Ở mỗi bước từ một nút ta có thể di chuyển đến nút láng giềng của nó hoặc có thể bắt đầu<br />
lại từ điều kiện ban đầu của với xác suất là θ. Khi RWRs ở trạng thái ổn định chúng ta có thể xếp<br />
hạng vectơ p để sắp xếp thứ tự ưu tiên các gen theo khả năng thuộc về mô đun gen gây bệnh ung<br />
thư CM mà đang được nghiên cứu.<br />
2.5. Sử dụng phương pháp RWRs vào bài toán đự đoán quan hệ<br />
Dựa trên quan sát rằng các miRNA có liên quan với nhau về mặt chức năng thường có quan<br />
hệ với cách bệnh tương tự về kiểu hình, phương pháp RWRs được áp dụng để xác định các mối<br />
quan hệ tiềm năng giữa miRNA và bệnh của con người. Phương pháp này mô phỏng việc di chuyển<br />
một cách ngẫu nhiên từ một nút tới các nút láng giềng của nó trong mạng tương tự về chức năng<br />
MFSN. Việc di chuyển bắt đầu từ các nút nhân (seed) là các miRNA có mối quan hệ với bệnh đã<br />
biết trước. Phương pháp RWRs thực hiện qua các bước như sau:<br />
- Bước 1: Xác định xác suất khởi đầu cho mỗi miRNA<br />
<br />
15<br />
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng<br />
<br />
<br />
- Bước 2: Thực hiện việc di chuyển ngẫu nhiên (random walk) trên mạng MFSN.<br />
- Bước 3: Từ xác suất ổn định (sau khi hội tụ), thực hiện xếp hạng các miRNA.<br />
Hình vẽ dưới đây minh họa phương pháp RWRs cho bài toán dự đoán mối quan hệ giữa<br />
miRNAs và bệnh:<br />
<br />
<br />
<br />
<br />
Hình 3: Phương pháp đề xuất<br />
<br />
Tại bước 1, ta thực hiện việc xác định xác suất khởi đầu cho các miRNA thông qua véc-tơ<br />
xác suất khởi đầu p(0). Đầu tiên, ta thực hiện xác định các miRNA có liên quan đến bệnh cụ thể<br />
mà ta đang quan tâm, các miRNA đó sẽ được dùng làm seed. Việc này thực hiện thông qua dữ liệu<br />
về quan hệ giữa miRNA và bệnh được đề cập tại mục 2.2. Giá trị xác suất tương ứng với các seed<br />
1<br />
trong véc-tơ p(0) có giá trị trong đó n là tổng số miRNA dùng làm seed. Các miRNA không<br />
n<br />
phải là seed (miRNA ứng viên) sẽ có giá trị xác suất là 0 trong véc-tơ p(0).<br />
Ở bước 2, ta thực hiện việc thuật toán RWRs với giá trị xác suất khởi động lại r (0 < r < 1).<br />
Véc-tơ p(t) là véc-tơ xác suất trong đó phần tử thứ i của nó là xác suất của việc di chuyển ngẫu<br />
nghiên tại nút i ở bước thứ t. Việc di chuyển ngẫu nhiên được thực hiện lặp lại bước sau:<br />
<br />
p(t + 1) = (1 − r)W p(t) + rp(0) (2.8)<br />
<br />
<br />
Công thức 2.8 tương đương với công thức 2.7 trong mục 2.4. Trong đó W là ma trận đã<br />
được chuẩn hóa cột từ ma trận ban đầu của nó là ma trận tương tự về chức năng của miRNA. Ta<br />
giả sử ma trận tương tự về chức năng có kích thước (m x m) thì hai véc-tơ là p(0) và p(t) là véc-tơ<br />
cột có kích thước m. Việc di chuyển ngẫu nhiên dừng lại khi sự thay đổi giữa p(t) và p(t + 1) được<br />
đo bằng chuẩn L1 (L1 norm) nhỏ hơn một giá trị tới hạn (giá trị hội tụ). Ở đây giá trị hội tụ được<br />
chọn là 10−6 . Véc-tơ hội tụ được kí hiệu là p(∞).<br />
Bước 3, từ véc-tơ p(∞) ta thực hiện việc sắp xếp theo thứ tự giảm dần của giá trị xác suất.<br />
Các miRNA có giá trị xác suất cao thường có khả năng cao có mối quan hệ với bệnh cụ thể mà<br />
chúng ta đang xét. Dựa vào kết quả này ta có thể chọn ra những miRNA tiềm năng có mối quan hệ<br />
với bệnh cụ thể cho các thực nghiệm về sinh học.<br />
<br />
16<br />
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs<br />
<br />
<br />
2.6. Thực nghiệm và đánh giá kết quả<br />
2.6.1. Dữ liệu<br />
Dữ liệu được sử dụng để dự đoán mối quan hệ giữa miRNA và bệnh bằng phương pháp<br />
RWRs gồm có dữ liệu về mối quan hệ giữa miRNA và bệnh và dữ liệu về mạng tương tự chức<br />
năng của miRNA. Trong đó, dữ liệu về mối quan hệ giữa miRNA được lấy tại nguồn cơ sở dữ<br />
liệu HMDD. Dữ liệu dùng để đánh giá kết quả của phương pháp gồm có: Dữ liệu về mối quan<br />
hệ giữa miRNA và bệnh tại cơ sở dữ liệu HMDD (http://cmbi.bjmu.edu.cn/hmdd), cơ sở dữ liệu<br />
miR2Disease, cơ sở dữ liệu dbDMEC về mối quan hệ giữa miRNA và các bệnh ung thư.<br />
2.6.2. Cách đánh giá phương pháp<br />
Hiệu quả của phương pháp RWRs có thể được đánh giá thông qua việc tính toán các giá trị<br />
cho đường cong ROC và giá trị AUC thông qua phương pháp đánh giá chéo (leave-one-out cross<br />
validation) cho 1.395 mối quan hệ giữa miRNA và bệnh đã biết trước và đã được kiểm chứng bằng<br />
thực nghiệm.<br />
Với một bệnh d dựa vào dữ liệu mối quan hệ giữa miRNA và bệnh ta xác định được tập các<br />
miRNA có quan hệ với bệnh d kí hiệu là tập S và tập các miRNA ứng viên kí hiệu là tập C là các<br />
miRNA còn lại. Một gen u ∈ S được lấy ra khỏi tập sau đó tất cả các gen thuộc tập C ∪ {u} sẽ<br />
được xếp hạng dựa trên véc-tơ hội tụ p(∞) với các seed thuộc tập S\{u}. Bước trên được lặp lại<br />
cho lần lượt từng miRNA trong tập S. Sau đó ta cho ngưỡng τ thay đổi từ 1 đến số lượng miRNA<br />
có trong 2 tập S và C, tại mỗi giá trị của ngưỡng ta tính toán được hai số là tỉ lệ dương tính thật<br />
hay còn gọi là độ nhạy (sensitivity) và tỉ lệ dương tính giả (1-specificity) theo công thức sau:<br />
TP<br />
sensitivity = (2.9)<br />
TP + FN<br />
FP<br />
1 − specif icity = (2.10)<br />
FP + TN<br />
2.6.3. Cài đặt chương trình<br />
Chương trình cài đặt thuật toán RWRs được trình bày trong phần trước. Chương trình<br />
thực hiện việc đọc vào hai mảng: mảng 2 chiều biểu thị độ tương tự về chức năng của miRNA<br />
(misim.in), mảng quan hệ giữa miRNA và bệnh (DMAs.in) cùng với các tham số đầu vào như<br />
diseaseId (id của bệnh), c (điều kiện số xét hội tụ), r (xác suất khởi động lại). Sau khi chạy chương<br />
trình thì dữ liệu đẩu ra sẽ là véc-tơ hội tụ p(∞). Thực hiện việc sắp xếp giảm dần các phần tử trong<br />
véc-tơ này ta sẽ được danh sách các miRNA tiềm năng có liên quan tới bệnh cụ thể mà ta quan<br />
tâm (bệnh có tham số id diseaseId). Việc đánh giá chéo cũng được thực hiện trong chương trình.<br />
Sau khi chạy đánh giá chéo, đường cong ROC được biểu diễn và giá trị AUC tương ứng với đường<br />
cong đó cũng được tính toán.<br />
2.6.4. Một số kết quả<br />
Với giá trị tham số đầu vào là c = 10−6 (xét điều kiện hội tụ), và giá trị xác suất khởi động<br />
lại r = 0.5, chúng tôi đã thực hiện việc đánh giá chéo và có được kết quả là biểu đồ đường cong<br />
ROC cùng với giá trị AUC như hình 4.<br />
Tọa độ mỗi điểm trên đường cong ROC là trung bình cộng tọa độ điểm trên đường cong<br />
ROC của 137 bệnh. Ở đây giá trị AUC tính được là 0.8049 cho thấy kết quả dự đoán bằng phương<br />
pháp RWRs là tốt. Chúng tôi cũng thực hiện việc xác định ảnh hưởng của xác suất khởi động lại r<br />
tới kết quả đánh giá chéo của phương pháp RWRs theo bảng 1.<br />
<br />
17<br />
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng<br />
<br />
<br />
<br />
<br />
Hình 4: Biểu đồ biểu diễn ROC cho phương pháp RWRs<br />
<br />
<br />
Bảng 1: Ảnh hưởng của xác suất khởi động lại r tới giá trị AUC<br />
r 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9<br />
AUC 0.78799 0.79688 0.80077 0.80304 0.8049 0.80607 0.80691 0.80742 0.80787<br />
<br />
<br />
<br />
<br />
Hình 5: Ảnh hưởng của tham số r tới giá trị AUC<br />
<br />
Ở đây khi tham số r thay đổi thì giá trị AUC thay đổi khá ít. Căn cứ vào kết quả tính toán<br />
được chúng ta thấy với các giá trị r ≤ 0.2 thì giá trị AUC thuộc ngưỡng trung bình, với r ≥ 0.3<br />
<br />
18<br />
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs<br />
<br />
<br />
giá trị AUC thuộc ngưỡng tốt.<br />
Chúng tôi cũng thực hiện việc dự đoán mối quan hệ giữa các miRNA với bệnh u ngực<br />
(breast cancer) và kết quả dự đoán như sau:<br />
<br />
Bảng 2: Kết quả dự đoán 20 miRNA tiềm năng có liên quan đến bệnh u ngực<br />
Tên miRNA Xác minh PubmedId<br />
hsa-let-7e dbDEMC, HMDD 21969366<br />
hsa-let-7b dbDEMC, HMDD 22294324<br />
hsa-let-7c dbDEMC, HMDD 22388088<br />
hsa-let-7i dbDEMC, HMDD, mir2Disease 22388088<br />
hsa-mir-126 dbDEMC, HMDD, mir2Disease 22524830<br />
hsa-let-7g dbDEMC, HMDD 22821209<br />
hsa-mir-191 dbDEMC, HMDD, mir2Disease 22898264<br />
hsa-mir-92b dbDEMC<br />
hsa-mir-223 dbDEMC, HMDD 19624877<br />
hsa-mir-30e Chưa xác định<br />
hsa-mir-101 dbDEMC, HMDD, mir2Disease 23071542<br />
hsa-mir-520b dbDEMC, HMDD 21343296<br />
hsa-mir-18b dbDEMC, HMDD 21755340<br />
hsa-mir-27a dbDEMC, HMDD, mir2Disease 22407812<br />
hsa-mir-373 dbDEMC, HMDD, mir2Disease 22524830<br />
hsa-mir-130a dbDEMC<br />
hsa-mir-16 dbDEMC, HMDD 19250063<br />
hsa-mir-92a HMDD 20484043<br />
hsa-mir-372 dbDEMC<br />
hsa-mir-98 dbDEMC<br />
<br />
Các miRNA tiềm năng được dự đoán có mối quan hệ với bệnh u ngực bằng phương pháp<br />
RWRs được xác minh qua các cơ sở dữ liệu HMDD (phiên bản 2.0- cập nhật tháng 04/2014), cơ<br />
sở dữ liệu dbDEMC, mir2Disease, cột PubmedId chứa Id tới bài báo gốc tại cơ sở dữ liệu Pubmed.<br />
<br />
3. Kết luận<br />
Trong bài báo này chúng tôi đã trình bày về bài toán dự đoán mối quan hệ giữa miRNA và<br />
bệnh, đồng thời đã đưa ra phương pháp giải quyết bài toán nói trên thông qua việc trình bày cách<br />
thức xây dựng mạng tương tự về chức năng miRNA, giới thiệu về mạng quan hệ giữa miRNA và<br />
bệnh, áp dụng phương pháp RWRs vào bài toán nói trên để xếp hạng các miRNA ứng viên với<br />
bệnh đang được quan tâm. Chúng tôi cũng đã thực hiện việc thực nghiệm để đánh giá hiệu quả của<br />
phương pháp RWRs và thực hiện việc dự đoán đối với bệnh u ngực và xác minh kết quả dự đoán<br />
thông qua các cơ sở dữ liệu sẵn có. Kết quả cho thấy phương pháp RWRs cho hiệu quả dự đoán ở<br />
mức tốt với giá trị AUC tính toán được là 0.8049.<br />
Lời cảm ơn. Bài báo được hoàn thành với sự tài trợ của Quỹ NAFOSTED (mã số đề tài:<br />
102.01-2011.05).<br />
<br />
19<br />
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng<br />
<br />
<br />
TÀI LIỆU THAM KHẢO<br />
<br />
[1] Bartel D.P., 2004. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell,<br />
116:281–297.<br />
[2] Jiang Q, Wang G, and Wang Y, 2010. An approach for prioritizing disease-related<br />
microRNAs based on genomic data integration. BMEI, 2010, 6, 2270–2274.<br />
[3] Jiang, Q., Hao, Y., Wang, G., Juan, L., Zhang, T., Teng, M., Liu, Y. and Wang, Y., 2010.<br />
Prioritization of disease microRNAs through a human phenome-microRNAome network.<br />
BMC Systems Biology, 4, S2.<br />
[4] Joung JG, Fei Z, 2009. Identification of microRNA regulatory modules in Arabidopsis via a<br />
probabilistic graphical model. Bioinformatics, 25(3):387–393.<br />
[5] Li, Y. and Kowdley, K.V., 2012. MicroRNAs in Common Human Diseases. Genomics,<br />
Proteomics & Bioinformatics, 10, 246-253.<br />
[6] Li, Y. and Patra, J.C., 2010. Genome-wide inferring gene-phenotype relationship by walking<br />
on the heterogeneous network. Bioinformatics, 26, 1219-1224.<br />
[7] Lu M, Zhang Q, Deng M, Miao J, Guo Y, et al, 2008. An Analysis of Human MicroRNA and<br />
Disease Associations. PloS One, 3, e3420.<br />
[8] Nelson PT, Wang WX, Rajeev BW, 2008. MicroRNAs (miRNAs) in neurodegenerative<br />
diseases. Brain Pathol., 18(1):130-8.<br />
[9] Ortutay C. and Vihinen M., 2009. Identification of candidate disease genes by<br />
integrating Gene Ontologies and protein-interaction networks: case study of primary<br />
immunodeficiencies. Nucleic Acids Research, 37(2), 622-628.<br />
[10] Schmitz et al., 2013. MicroRNA Cancer Regulation: Advanced Concepts, Bioinformatics and<br />
Systems Biology Tools. Advances in Experimental Medicine and Biology, pp. 243-315.<br />
[11] Shi et al., 2013. Walking the interactome to identify human miRNA-disease associations<br />
through the functional link between miRNA targets and disease genes. BMC Systems<br />
Biology, 7:101.<br />
[12] Tran D.H., Satou K., Ho T.B., 2008. Finding MicroRNA Regulatory Modules in Human<br />
Genome Using Rule Induction. BMC Bioinformatics, 9(S12):S5.<br />
<br />
ABSTRACT<br />
<br />
Prediction of microRNA-disease relationships using Random Walk with Restarts<br />
<br />
MicroRNA (miRNA) is one non-coding RNA that plays an important role in gene<br />
expression. It inhibits some types of genes rather than producing proteins directly. Recent<br />
experimental research has revealed the influence of miRNAs in several disease samples. Therefore,<br />
predicting the relationship between miRNAs and diseases provides us with more information about<br />
disease causing mechanisms. In this paper, we exploit RWR’s approach to integrate knowledge of<br />
miRNAs function-corresponding network, relational network and information from diseases to<br />
predict new relationships between them.<br />
Keywords: MicroRNAs, Random Walk with Restarts, RWRs, Integrated Network.<br />
<br />
<br />
<br />
<br />
20<br />