Chương 1

MỞ ĐẦU

1.1 Giới thiệu

Trong khoảng một thập kỷ gần đây, với sự phát triển nhanh chóng của ngành Công nghệ sinh học, dữ liệu sinh học được sinh ra ngày một nhiều. Chẳng hạn, dữ liệu biểu hiện gien (gene expression data), dữ liệu biểu sinh gien (epigenetic data), dữ liệu tương tác protein (protein interaction data), dữ liệu phổ khối lượng của mẫu sinh học (metabolomic data). Các loại dữ liệu này gọi chung là dữ liệu sinh học hệ thống (high-throughput data) và thường được coi là "ảnh chụp" của các tổ chức sinh học. Việc phân tích các dữ liệu sinh học hệ thống để từ đó có thể xây dựng lại các mạng sinh học gọi là tái tạo mạng (network reconstruction). Bài toán tái tạo mạng sinh học là một loại bài toán ngược. Đây là một bài toán quan trọng và đang là thách thức của ngành sinh học hệ thống. Việc tái tạo mạng sinh học giúp chúng ta làm sáng tỏ bản chất của các quá trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinh học. Đặc biệt, giúp chúng ta có thể tiên lượng, chẩn đoán các tác nhân, chỉ dấu sinh học gây bệnh. Từ đó, giúp con người có thể can thiệp kịp thời và chính xác vào các quá trình đó như: lựa chọn chế độ dinh dưỡng, đưa ra phác đồ điều trị bệnh, điều chế thuốc, . . . .

Trong một tổ chức sinh học, mọi tiến trình sinh học đều được điều khiển bởi các phần tử cơ bản như: gen, protein, metabolite. Quan hệ giữa các phần tử cơ bản trong tế bào sẽ quyết định đến chức năng của tế bào. Do đó, từ dữ liệu sinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa các phần tử sẽ cho chúng ta bức tranh tổng thể của sự sống. Cho đến nay, có hai cách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm trong lĩnh vực Sinh học và cách tiếp cận tính toán trong lĩnh vực Tin-Sinh. Với cách tiếp cận thực nghiệm, các nhà thực nghiệm Sinh học sử dụng các phương tiện của công nghệ sinh học để đo đạc sự liên kết giữa các phần tử, sau đó kết hợp với tri thức chuyên gia để tái tạo lại mô hình mạng sinh học. Cách tiếp cận này thường cho kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinh học hoàn chỉnh rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh lại sử dụng sức mạnh tính toán của máy tính, các thuật toán, các mô hình để xây dựng cấu trúc mạng phù hợp với dữ liệu quan sát nhất. Kết quả là thu được mô hình mạng, ở đó các nút biểu diễn các phần tử sinh học, các cạnh biểu diễn quan hệ giữa chúng. Mặc dù, mạng tái tạo được bằng cách này có thể còn khác so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩa quan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ. Quá trình đó sẽ giúp các nhà Sinh học có định hướng tốt hơn trong các thực nghiệm, giảm thời gian và chi phí thực nghiệm. Ngoài ra, tái tạo mạng sinh học bằng cách tiếp cận tính toán có thể dự đoán được các mối quan hệ giữa các phần tử sinh

1

học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm được. Chính vì vậy, trong khuôn khổ luận án này, chúng tôi sử dụng cách tiếp cận tính toán để tái tạo mạng sinh học từ dữ liệu.

1.2 Bối cảnh thực hiện luận án

Ý tưởng về mô hình hóa các quá trình sinh học bằng các mạng gồm các nút và các cạnh là một vẫn đề hấp dẫn. Việc tìm ra các cạnh nối các nút trong mạng rất quan trọng, vì từ đó sẽ xác định nhóm các phần tử cùng thực hiện một chức năng hoặc cùng tham gia vào một con đường sinh học, đây là một vấn đề quan trọng trong sinh học hệ thống. Cho đến nay, đã có nhiều hướng nghiên cứu giải quyết bài toán tái tạo mạng, mỗi hướng đều có ưu điểm và nhược điểm [He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014]. Một cách tiếp cận sử dụng mô hình toán học trong tái tạo mạng đó là dựa trên phương trình vi phân, tích phân (differential and integral equations) [Gardner et al., 2003], [Mazur et al.,2009], [Steuer et al., 2003]. Trong phương pháp này, tác động của các phần tử lên một phần tử nào đó được biểu diễn bằng một phương trình vi phân tuyến tính. Như vậy, đối với tất cả các phần tử, ta sẽ có một hệ phương trình. Mô hình này có ưu điểm là đơn giản vì đã có cách giải phương trình vi phân tuyến tính. Tuy nhiên, trong thực tế, dữ liệu biểu hiện của các phần tử trong tế bào lại thường không tuân theo qui luật đơn giản như vậy. Hơn nữa, do mô hình đòi hỏi nhiều tham số nên chi phí ước lượng lớn.

Một cách tiếp cận khác để tái tạo mạng sinh học đó là sử dụng mô hình đồ thị (graphical models). Đây là cách tiếp cận được nhiều người sử dụng và đã có nhiều kết quả nghiên cứu. Mạng logic (boolean network ) là một trong những mô hình mạng sớm nhất được đề xuất năm 1969 bởi Kauffman, được biểu diễn đơn giản bằng một đồ thị có hướng. Mạng logic có ưu điểm là một mô hình đơn giản nhất để biểu diễn một mạng thực. Tuy nhiên, nhược điểm lớn nhất của mô hình này là đòi hỏi thời gian tính toán rất cao để xây dựng cấu trúc mạng đáng tin cậy. Do đó, phương pháp này thường chỉ áp dụng trên mạng nhỏ, không áp dụng để xây dựng mạng có qui mô lớn [Trairatphisan et al., 2013]. Một sự kết hợp của mô hình đồ thị và mô hình xác suất đó là mô hình đồ thị xác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003], [Wang et al., 2014]. Đây là mô hình xác suất sử dụng đồ thị để biểu diễn sự phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan. Mục đích của cách tiếp cận mô hình đồ thị là tìm ra cấu trúc mạng phù hợp nhất với dữ liệu. Có rất nhiều mô hình đồ thị khác nhau đã được sử dụng cho bài toán tái tạo mạng. Trong đó, phải kể đến mô hình đồ thị xác suất thường được sử dụng là mô hình mạng logic xác suất (probabilistic boolean network ) [Trairatphisan et al., 2013], mô hình mạng Bayesian (Bayesian network ) và các biến thể của chúng như: mạng Bayesian động (dynamic Bayesian network ), mô hình Markov ẩn (hidden Markov model ), mạng logic Markov (Markov logic network ), trường ngẫu nhiên Markov (Markov random field ), . . . . Tuy nhiên, thời gian tính toán

2

để tìm được mô hình phù hợp nhất với dữ liệu khá cao. Ngoài ra, cách tiếp cận mô hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng được xây dựng theo kiểu top-down. Chính vì vậy, phương pháp này thường bỏ sót các quan hệ mang tính địa phương.

Một hướng tiếp cận khác để tái tạo mạng là sử dụng mô hình Lý thuyết thông tin (information theory models). Ý tưởng của phương pháp này là dựa trên các độ đo để tìm ra sự phụ thuộc thống kê giữa các phần tử sinh học. Một số độ đo trong Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutual information), Hệ số thông tin cực đại (maximal information coefficient-MIC ) có thể phát hiện được các quan hệ cặp đôi, tức là phát hiện sự phụ thuộc giữa hai phần tử. Nhiều nghiên cứu đã sử dụng độ đo Thông tin tương hỗ để tái tạo mạng điều hòa gen và mạng tương tác protein [Butte et al. 2000], [Cakir et al., 2006], [Margolin et al., 2006]. Cách tiếp cận Lý thuyết thông tin thường hướng đến các quan hệ cục bộ, sau đó mở rộng dần dần để xây dựng mạng toàn cục. Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng được xây dựng theo kiểu bottom-up. Do đó, phương pháp này thường không bỏ sót các quan hệ mang tính địa phương.

Tóm lại, có nhiều cách tiếp cận để giải quyết bài toán tái tạo mạng sinh học, mỗi cách tiếp cận đều có những ưu điểm và nhược điểm. Phần lớn các nghiên cứu trước đây chỉ tập trung vào việc tìm các quan hệ cặp đôi giữa hai phần tử và cho rằng quan hệ cặp đôi chính là cơ sở để xây dựng mạng quan hệ đa biến. Gần đây, một số nghiên cứu đã xem xét đến mối quan hệ của một phần tử với nhiều phần tử khác trong mạng sinh học. Chẳng hạn, cách tiếp cận mô hình đồ thị và độ đo Thông tin tương hỗ trong tái tạo mạng điều hòa gen [Kinney et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013]. Tuy nhiên, các mối quan hệ đa biến đó lại không phải là các quan hệ xảy ra đồng thời. Trong khi, một phản ứng sinh hóa trong mạng trao đổi chất lại thường chứa đựng mối quan hệ của nhiều chất, đồng thời xảy ra. Do đó, các mối quan hệ như vậy có thể sẽ không được phát hiện bằng các phương pháp đã nêu trên.

1.3 Mục tiêu nghiên cứu của luận án

Để tái tạo mạng trao đổi chất, trong luận án này, chúng tôi lựa chọn hướng tiếp cận Lý thuyết thông tin, cụ thể là sử dụng các độ đo Thông tin tương hỗ. Độ đo Thông tin tương hỗ trước đây được áp dụng để phát hiện quan hệ hai biến trong mạng điều hòa gen và mạng tương tác protein do quan hệ trong các mạng này phần lớn là quan hệ hai biến hoặc các quan hệ nhiều biến nhưng có thể suy diễn từ các quan hệ hai biến. Trong mạng trao đổi chất, một phản ứng có thể có nhiều chất tham gia. Do đó, quan hệ giữa các chất thường là các quan hệ ba biến, bốn biến, . . . , hay nói cách khác là các quan hệ đa biến và hơn nữa chúng xảy ra đồng thời. Cho đến nay, một số mở rộng của độ đo Thông tin tương hỗ cũng đã xem xét đến mối quan hệ đa biến. Tuy nhiên, có những kiểu quan hệ chỉ xuất hiện khi có nhiều biến đồng thời cùng tham gia. Chính vì vậy,

3

để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thông tin tương hỗ để có thể phát hiện được các quan hệ đa biến xảy ra đồng thời.

Bài toán 1

Bài toán 2

Dữ →

Tái tạo quan hệ đa biến

Loại bỏ quan hệ dư thừa

→ Mạng

liệu

trao

Mở rộng độ đo MI

Mở rộng độ đo CMI

đổi

chất

Như vậy, mục tiêu nghiên cứu của luận án là mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất. Để tái tạo mạng trao đổi chất từ dữ liệu sinh học, chúng tôi sẽ thực hiện hai bước, tương ứng với hai bài toán (Hình 1.1).

Hình 1.1: Sơ đồ tóm tắt Mục tiêu nghiên cứu của luận án

• Bài toán 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ đa biến.

• Bài toán 2: Mở rộng độ đo Thông tin tương hỗ có điều kiện (CMI) để phát hiện quan hệ đa biến gián tiếp và loại bỏ quan hệ dư thừa.

1.4 Các đóng góp chính của luận án

Luận án có ba đóng góp chính: Thứ nhất: Đề xuất một cách diễn giải trực quan mới và công thức mới cho Thông tin tương hỗ trong trong trường hợp hai biến và ba biến. Cách diễn giải này khắc phục được các nhược điểm của một số cách diễn giải trước đây.

Thứ hai: Trên cơ sở đóng góp thứ nhất, đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa biến. Từ công thức tổng quát, có nhiều công thức được suy ra, mỗi công thức phản ánh một loại quan hệ tồn tại giữa các biến.

Thứ ba: Đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa biến có điều kiện nhằm phát hiện quan hệ đa biến gián tiếp và loại bỏ các quan hệ dư thừa.

1.5 Tổ chức luận án

Luận án gồm 130 trang được chia thành 4 chương. Chương 1: Giới thiệu tổng quan về bài toán tái tạo mạng sinh học, bối cảnh thực hiện luận án, mục tiêu nghiên cứu và những đóng góp chính của luận án. Chương 2: Những kiến thức nền tảng, bao gồm những khái niệm cơ bản trong Tin-Sinh học và các kiến thức liên quan đến một số độ đo trong Lý thuyết thông tin.

4

Chương 3: Giới thiệu một số mở rộng độ đo Thông tin tương hỗ của các tác giả khác. Đề xuất một diễn giải trực quan mới và công thức mới cho Thông tin tương hỗ trong trường hợp hai biến và ba biến. Từ đó, đề xuất một công thức tổng quát cho Thông tin tương hỗ trong trường hợp đa biến. Cuối cùng là một ứng dụng của các độ đo Thông tin tương hỗ đa biến vào bài toán tái tạo mạng trao đổi chất và đánh giá các độ đo này.

Chương 4: Đề xuất một công thức tổng quát của độ đo Thông tin tương hỗ đa biến có điều kiện. Ứng dụng của các độ đo Thông tin tương hỗ đa biến có điều kiện trong việc phát hiện các quan hệ đa biến gián tiếp để loại bỏ các quan hệ dư thừa trong mạng trao đổi chất. Cuối cùng là phần Kết luận của luận án.

Chương 2

KIẾN THỨC NỀN TẢNG

2.1 Một số khái niệm cơ bản trong Sinh học

Mọi sinh vật đều được tạo thành từ vô số tế bào. Tất cả các quá trình sinh học trong tế bào đều được điều khiển bới các phần tử cơ bản trong tế bào như: gien, protein, metabolite. Các phần tử này không hoạt động riêng rẽ mà chúng thường kết hợp với nhau để tạo thành các phức hợp và thực hiện một chức năng nào đó. Tập các phần tử sinh học và các quan hệ giữa chúng tạo thành một mạng sinh học (biological network ). Về mặt hình thức, mạng sinh học thường được biểu diễn bằng đồ thị gồm các nút và các cạnh. Trong đó, nút đại diện cho các phần tử cơ bản trong tế bào, cạnh đại diện cho quan hệ giữa các phần tử cơ bản đó.

Mạng tương tác protein (protein-protein interaction network-PIN ) là một mạng sinh học. Trong đó, các nút của mạng là các protein, các cạnh là các tương tác vật lý giữa các protein. Tương tác protein-protein xảy ra khi các protein kết hợp với nhau, thường là để thực hiện chức năng sinh học của chúng.

Trong mạng điều hòa gien (gene regulatory network-GRN ), mỗi nút là một gien, mỗi cạnh là một quan hệ điều khiển của gien này đối với gien kia. Một trong các nguồn dữ liệu quan trọng là dữ liệu biểu hiện gien (gene expression data). Dữ liệu biểu hiện gien thường cho dưới dạng ma trận, trong đó mỗi cột tương ứng với mỗi gien và mỗi dòng tương ứng với một thời điểm lấy mẫu hay một điều kiện thí nghiệm. Mỗi ô của ma trận chứa mức độ biểu hiện của gien trong điều kiện tương ứng.

Trong mạng trao đổi chất (metabolic network-MN ), mỗi nút là một chất trao đổi (metabolite), là phân tử nhỏ có trong mẫu sinh học. Các chất trao đổi này thường là các chất tham gia phản ứng, các chất xúc tác, các sản phẩm của các phản ứng hóa sinh trong cơ thể sinh học. Mỗi cạnh trong mạng biểu diễn cho một quan hệ chuyển hóa từ chất này sang chất kia.

5

Dữ liệu chuỗi thời gian (time-series) là tập hợp các dữ liệu thu được tại các mốc thời gian, cách nhau một khoảng thời gian nhất định. Dữ liệu time-series được sử dụng trong thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dự báo,. . . . Dựa vào dữ liệu time-series, ta có thể tìm thấy các qui luật của các sự kiện. Vì vậy, mô hình time-series còn được sử dụng để sinh ra các dữ liệu dựa trên các quan sát đã có.

Trong quá trình thu thập dữ liệu thường xuất hiện các dữ liệu nhiễu (per- turbation). Dữ liệu nhiễu thường sinh ra do lỗi chương trình, lỗi thiết bị dùng để thu thập dữ liệu hoặc do ảnh hưởng của điều kiện thí nghiệm, . . . . Chúng thường làm ảnh hưởng xấu đến các kết quả phân tích hoặc khai phá dữ liệu.

Dữ liệu In silico là dữ liệu sinh học được sinh ra từ máy tính thông qua các mô hình mô phỏng, không phải thu được từ các thí nghiệm sinh học. Nghiên cứu In silico có khả năng làm tăng tốc độ thực hiện và đồng thời làm giảm chi phí khi tiến hành trong phòng thí nghiệm và trên các thử nghiệm lâm sàng.

2.2 Một số khái niệm cơ bản trong Lý thuyết thông tin

x

x

Định nghĩa 2.1. Entropy của biến ngẫu nhiên rời rạc X, ký hiệu là H(X), đo lượng thông tin không chắc chắn của biến X, được định nghĩa như sau [Shannon, 1948]: (cid:88) (cid:88) = − p(x) log p(x) (2.1) H(X) = p(x) log 1 p(x)

trong đó, p(x) là hàm phân phối xác suất (probability mass function) của X.

Khi các biến là liên tục, phép tính tổng trong các công thức được thay bởi phép tính tích phân. Tính chất: H(X) ≥ 0

Định nghĩa 2.2. Entropy đồng thời (joint entropy) của cặp hai biến ngẫu nhiên rời rạc (X, Y ), ký hiệu H(X, Y ), được định nghĩa như sau:

x,y

(cid:88) H(X, Y ) = − p(x, y) log p(x, y) (2.2)

Tính chất: H(X, Y ) ≤ H(X) + H(Y )

x,y

Định nghĩa 2.3. Cho hai biến ngẫu nhiên rời rạc X và Y . Entropy có điều kiện (conditional entropy) của biến X trên điều kiện Y , ký hiệu là H(X|Y ), đo lượng thông tin không chắc chắn của biến X khi đã biết biến Y , được xác định như sau: (cid:88) (2.3) p(x, y) log H(X|Y ) = − p(x, y) p(y)

Tính chất

(i) H(X|Y ) ≥ 0

(ii) H(X, Y ) = H(X) + H(Y |X); H(X, Y ) = H(Y ) + H(X|Y )

6

(iii) H(X|Y ) ≤ H(X)

x1,...,xn

Định nghĩa 2.4. Entropy của n biến ngẫu nhiên rời rạc X1, . . . , Xn với phân bố xác suất đồng thời p(x1, . . . , xn) được xác định bởi: (cid:88) (2.4) H(X1, . . . , Xn) = − p(x1, . . . , xn) log p(x1, . . . , xn)

n (cid:80) i=1

Tính chất: H(X1, . . . , Xn) ≤ H(Xi)

Định nghĩa 2.5. Thông tin tương hỗ (mutual information) của hai biến ngẫu nhiên X và Y , ký hiệu là M I(X, Y ), đo mức độ tương hỗ của hai biến X và Y , được định nghĩa như sau:

x,y

(cid:88) M I(X, Y ) = p(x, y) log (2.5) p(x, y) p(x).p(y)

= H(X) + H(Y ) − H(X, Y ) (2.6)

Khi giá trị độ đo này lớn, có nghĩa rằng mức độ tương hỗ giữa hai biến lớn và ngược lại, giá trị của độ đo bé nghĩa là mức độ tương hỗ của hai biến nhỏ. Tính chất

(i) M I(X, Y ) ≥ 0

(ii) M I(X, Y ) = M I(Y, X)

(iii) M I(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)

(iv) M I(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y )

Định nghĩa 2.6. Thông tin tương hỗ có điều kiện (conditional mutual infor- mation) của hai biến ngẫu nhiên X và Y trên điều kiện Z đo mức độ tương hỗ của hai biến X và Y khi có điều kiện Z, được định nghĩa như sau:

x,y,z (cid:88)

(cid:88) (2.7) M I(X, Y |Z) = p(x, y, z) log p(x, y|z) p(x|z).p(y|z)

z

= p(z)M I(X, Y |Z = z) (2.8)

Một số biểu diễn khác của CMI:

M I(X, Y |Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z) (2.9)

M I(X, Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z) (2.10)

Tính chất: M I(X, Y |Z) ≥ 0

Định nghĩa 2.7. Ba biến ngẫu nhiên X, Y, Z được gọi là tạo thành chuỗi Markov (Markov chain), ký hiệu X → Y → Z, nếu:

p(x, y, z) = p(x).p(y|x).p(z|y) (2.11)

7

Bổ đề 2.1. X → Y → Z khi và chỉ khi X và Z độc lập với nhau trên điều kiện Y , tức là M I(X, Z|Y ) = 0

Bổ đề 2.2. Nếu X → Y → Z thì Z → Y → X

Định lý 2.1. Bất đẳng thức xử lý dữ liệu (data processing inequality-DPI) Nếu X → Y → Z thì:

M I(X, Y ) ≥ M I(X, Z) (2.12)

Dấu đẳng thức xảy ra khi và chỉ khi M I(X, Y |Z) = 0

Bổ đề 2.3. Nếu X → Y → Z thì

M I(X, Z) ≤ min(cid:0)M I(X, Y ); M I(Y, Z)(cid:1) (2.13)

Bổ đề 2.4. Nếu X → Y → Z thì:

M I(X, Y |Z) ≤ M I(X, Y ) (2.14)

2.3 Đánh giá tính chính xác của dự đoán

Trong phân lớp nhị phân hay trong dự đoán, các kết quả được gán nhãn hoặc là dương (positive-P ) hoặc âm (negative-N ). Có bốn khả năng có thể xảy ra: Nếu kết quả dự đoán là P và giá trị thực tế cũng là P thì khi đó được gọi là true positive-TP. Nếu kết quả dự đoán là P mà giá trị thực là N , thì được gọi là false positive-FP. Ngược lại, nếu kết quả dự đoán và giá trị thực đều là N thì gọi là true negative-TN, và là false negative-FN khi kết quả dự đoán là N , trong khi giá trị thực tế là P .

Quan sát dương (P) Quan sát âm (N)

Dự đoán dương (P) Dự đoán âm (N) TP FN FP TN

Có nhiều thước đo độ chính xác của dự đoán như: Precision, Recall, độ chính xác (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC và diện tích dưới đường cong ROC (area under the curve-AUC ). Trong đó,

P recision = (2.15) T P T P + F P

Recall = (2.16)

(2.17) ACC = T P T P + F N T P + T N T P + F P + T N + F N

F − measure = 2 = (2.18) P recision.Recall P recision + Recall 2T P 2T P + F P + F N

Một thước đo được sử dụng phổ biến nhất trong khoa học đó là đường cong ROC (Receiver Operating Characteristic). Đường cong ROC được tạo thành từ 8

tập hợp các điểm ứng với các ngưỡng khác nhau. Với mỗi ngưỡng sẽ cho ta một điểm. Mỗi điểm được xác định bởi 2 tọa độ: 1-Specificity (hay còn gọi là False Positive Rate) và Sensitivity (hay còn gọi là True Positive Rate). Trong đó, (2.19) Sensitivity = T P T P + F N

1 − Specif icity = (2.20) F P F P + T N

Đường cong ROC có một tính chất quan trọng là: nếu đường cong càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên của không gian ROC, thì chứng tỏ kết quả của dự đoán càng chính xác. Đường cong càng tiến tới thành đường chéo 45o trong không gian ROC, thì độ chính xác của dự đoán càng kém. Tuy nhiên, nếu căn cứ vào các đường cong ROC thì rất khó để kết luận được dự đoán nào tốt hơn. Vì vậy, người ta thường sử dụng phần diện tích dưới đường cong ROC, ký hiệu là AUC, để đánh giá tính chính xác của dự đoán. Đường cong nào có AUC càng lớn thì độ chính xác của dự đoán càng cao và ngược lại, đường cong nào có AUC càng bé thì độ chính xác của dự đoán càng thấp.

Chương 3

MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO QUAN HỆ ĐA BIẾN

3.1 Một số mở rộng độ đo Thông tin tương hỗ

3.1.1 Mở rộng của Watanabe

Mở rộng đầu tiên của độ đo Thông tin tương hỗ là độ đo Tương quan tổng hợp (total correlation) do Watanabe đưa ra năm 1960 [Watanabe, 1960].

Định nghĩa 3.1. Cho n biến ngẫu nhiên X1, . . . , Xn, tương quan tổng hợp của n biến, ký hiệu là T C(X1, . . . , Xn), được định nghĩa:

x1,...,xn

n (cid:88)

(cid:88) (3.1) T C(X1, . . . , Xn) = p(x1, . . . , xn) log p(x1, . . . , xn) p(x1). . . . p(xn)

i=1

= (3.2) H(Xi) − H(X1, . . . , Xn)

Trong trường hợp ba biến, công thức (3.2) có dạng:

T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.3)

Một mở rộng nữa của Watanabe là Tương quan tổng hợp có điều kiện được định nghĩa như sau:

9

n (cid:88)

Định nghĩa 3.2. Tương quan tổng hợp có điều kiện của n biến ngẫu nhiên X1, . . . , Xn trên điều kiện Y , ký hiệu là T C(X1, . . . , Xn|Y ), được định nghĩa:

(3.4)

T C(X1, . . . , Xn|Y ) =

H(Xi|Y ) − H(X1, . . . , Xn|Y )

i=1

Trong trường hợp ba biến, công thức (3.4) có dạng:

T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (3.5)

Độ đo Thông tin tương tác chỉ phản ánh được kiểu quan hệ đồng thời của n biến, không phản ánh được các kiểu quan hệ khác giữa các biến.

3.1.2 Mở rộng của Fano

Mở rộng thứ hai của độ đo Thông tin tương hỗ là độ đo Thông tin tương tác (interaction information) do Fano đưa ra năm 1961 [Fano, 1961].

Định nghĩa 3.3. Thông tin tương tác của n biến ngẫu nhiên X1, . . . , Xn−1, Xn (với n > 2), được định nghĩa như sau: n (cid:88)

(cid:88)

H(Xi, Xj ) + . . . + (−1)n+1H(X1, . . . , Xn) (3.6)

M I(X1, . . . , Xn) =

H(Xi) −

i=1

1≤i

Trong trường hợp ba biến, công thức (3.6) được viết:

M I(X, Y, Z) = H(X) + H(Y ) + H(Z) − (cid:2)H(X, Y ) + H(Y, Z) + H(Z, X)(cid:3) + H(X, Y, Z) (3.7)

Thông tin tương hỗ có tính chất là luôn có giá trị không âm, giá trị M I = 0 khi và chỉ khi các biến độc lập. Trong khi đó, theo công thức (3.6), giá trị MI có thể nhận cả giá trị âm. Như vậy, mở rộng của Fano không phản ánh đúng mối quan hệ giữa các biến.

3.1.3 Mở rộng của Cover và Thomas

Mở rộng của Cover và Thomas đưa ra năm 1991 [Cover et al., 1991], trong đó, các tác giả sử dụng biểu đồ Venn để biểu diễn cho entropy của các biến (Hình 3.2). Phần giao nhau của H(X) và H(Y ) biểu diễn cho lượng thông tin chung của hai biến X, Y , chính là Thông tin tương hỗ của hai biến. Khi mở rộng sang trường hợp ba biến, phần giao nhau của H(X), H(Y ) và H(Z) chính là thông tin tương hỗ của ba biến.

Nhìn vào độ lớn phần giao nhau của H(X), H(Y ) và H(Z), chúng ta có thể biết được mức độ tương hỗ giữa ba biến. Tuy nhiên, phương pháp biểu diễn trực quan này không biểu diễn được các kiểu quan hệ khác trong trường hợp ba biến.

3.1.4 Mở rộng của Jakulin và Bratko

Năm 2003, Aleks Jakulin và Ivan Bratko đưa ra một phương pháp trực quan khác [Jakulin et al., 2003]. Jakulin và Bratko gọi quan hệ giữa hai biến là tương tác. Trong phương pháp này, mỗi biến được biểu diễn bằng một hình tròn lớn, 10

Hình 3.2: Biểu diễn Thông tin tương hỗ bằng biểu đồ Venn.

tương tác giữa hai biến được biểu diễn bằng một hình tròn nhỏ nằm trên đường nối giữa hai hình tròn lớn (Hình 3.3). Khi mở rộng sang trường hợp ba biến, Jakulin và Bratko đưa thêm khái niệm tương tác dương và tương tác âm. Để biểu diễn điều này, các tác giả dùng hình tròn nhỏ màu trắng biểu diễn tương tác dương và hình tròn nhỏ màu xám biểu diễn tương tác âm.

Hình 3.3: Biểu đồ tương tác giữa các biến của Jakulin-Bratko.

Trong cách biểu diễn này, Jakulin và Bratko chỉ tập trung mô tả cấu trúc tương tác mà không mô tả được mức độ mạnh/yếu của tương tác đó. Cách biểu diễn này có tính trực quan thấp. Nhìn vào hình vẽ, chúng ta không thể nói gì về hình tròn nhỏ trong sự tương quan với các hình tròn lớn biểu diễn các biến X, Y, Z.

Tóm lại, trong những mở rộng độ đo Thông tin tương hỗ vừa trình bày, mỗi mở rộng đều có nhược điểm. Mở rộng của Watanabe, Cover và Thomas không biểu diễn được đầy đủ các kiểu quan hệ tồn tại trong trường hợp đa biến. Công thức mở rộng của Fano không biểu diễn chính xác mức độ quan hệ giữa các biến. Mở rộng của Jakulin và Bratko lại chỉ biểu diễn được cấu trúc của tương tác mà không biểu diễn được mức độ của tương tác đó.

3.2 Đề xuất một mở rộng độ đo Thông tin tương hỗ

3.2.1 Đề xuất một diễn giải trực quan và công thức mới cho MI của hai biến

Từ những nhược điểm của các mở rộng trình bày trong phần 3.1, chúng tôi đề xuất một phương pháp trực quan mới để biểu diễn Thông tin tương hỗ. Ở đây, chúng tôi mô tả quan hệ giữa hai biến trong một không gian hai chiều (Hình 3.4). Giả sử, ta có dữ liệu quan sát trên hai biến X, Y . Khi đó, entropy 11

của phân bố xác suất của dữ liệu quan sát, ký hiệu là H(pX,Y ), được biểu diễn bằng một hình S có dạng bất kỳ (phần diện tích kẻ ca rô).

Khi hai biến X, Y độc lập, entropy của phân bố xác suất của dữ liệu được biểu diễn bằng hình chữ nhật nhỏ nhất chứa S, ký hiệu là H(pX × pY ). Do entropy được biểu diễn qua logarit nên H(pX × pY ) = H(pX ) + H(pY ) = H(X) + H(Y ).

Hình 3.4: Đề xuất biểu diễn trực quan mới cho MI của hai biến.

Do đó, công thức (2.6) của Shannon, tương đương với công thức (3.8)

(3.8) M I(X, Y ) = H(pX × pY ) − H(pX,Y )

Ở đây, H(pX,Y ) và H(pX × pY ) là ký hiệu mới mà chúng tôi đưa ra để sử dụng trong diễn giải của mình. Nếu hình kẻ ca rô S biểu diễn cho H(pX,Y ) càng lớn gần với hình chữ nhật biểu diễn cho H(pX × pY ), khi đó ta kết luận rằng hai biến X và Y độc lập. Ngược lại, nếu S càng thu hẹp so với hình chữ nhật thì điều đó có nghĩa là Thông tin tương hỗ giữa hai biến X, Y càng lớn.

Như vậy, từ cách diễn giải trực quan mới cho MI trong trường hợp hai biến, chúng tôi đã đề xuất một công thức biểu diễn mới cho Thông tin tương hỗ (công thức (3.8)). Theo đó, Thông tin tương hỗ của hai biến chính là phần chênh lệch giữa entropy của phân bố xác suất đồng thời với entropy của phân bố xác suất trong trường hợp giả định hai biến độc lập. Về mặt trực quan, Thông tin tương hỗ của hai biến được biểu diễn bằng phần diện tích (kẻ chéo) nằm giữa hình chữ nhật và hình kẻ ca rô S. Công thức (3.8) sẽ là cơ sở cho việc mở rộng độ đo Thông tin tương hỗ cho trường hợp ba biến trong phần tiếp theo.

3.2.2 Đề xuất một diễn giải trực quan và công thức mới cho MI của ba biến

Khi mở rộng sang trường hợp ba biến, ngoài các quan hệ cặp đôi giữa các biến, ta có thêm các kiểu quan hệ khác như: quan hệ đồng thời giữa ba biến và quan hệ giữa một biến với cặp hai biến còn lại. Chúng tôi sẽ tiếp tục mở rộng công thức (3.8) đối với hai kiểu quan hệ trên.

12

• Kiểu quan hệ thứ nhất: ba biến có quan hệ đồng thời với nhau. Từ dạng công thức (3.8), chúng tôi đề xuất công thức mở rộng cho kiểu quan hệ này như sau:

(3.9) M I(X, Y, Z) = H(pX × pY × pZ ) − H(pX,Y,Z )

Giả sử, ta có dữ liệu quan sát, được biểu diễn trực quan bằng một khối S(cid:48) có hình dạng méo mó như trong Hình 3.5. Khi đó, H(pX,Y,Z ) là entropy của phân bố xác suất của dữ liệu quan sát trên ba biến X, Y, Z. Trong trường hợp ba biến độc lập, entropy của phân bố xác suất của dữ liệu là hình hộp chứa khối S(cid:48). Khi đó, H(pX,Y,Z ) = H(pX × pY × pZ ) = H(pX ) + H(pY ) + H(pZ ) = H(X) + H(Y ) + H(Z). Do đó, công thức (3.9) tương đương với công thức:

M I(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.10)

Hình 3.5: Biểu diễn trực quan M I(X, Y, Z).

Chúng tôi gọi độ đo thông tin tương hỗ của ba biến trong trường hợp này là Thông tin tương hỗ tổng hợp của ba biến. Công thức (3.10) chính là công thức T C(X, Y, Z) đo tương quan tổng hợp của ba biến mà Watanabe đã đưa ra. Nếu hình S(cid:48) khớp với hình hộp, ta nói rằng ba biến X, Y, Z độc lập. Ngược lại, nếu S(cid:48) càng thu hẹp so với hình hộp thì chúng ta có thể khẳng định rằng ba biến X, Y, Z phụ thuộc. Như vậy, căn cứ vào khoảng chênh lệch giữa S(cid:48) và hình hộp, có thể đi đến kết luận rằng ba biến là độc lập hay phụ thuộc.

• Kiểu quan hệ thứ hai: một biến có quan hệ với cặp hai biến còn lại. Chúng tôi đề xuất công thức mở rộng cho kiểu quan hệ này như sau:

(3.11) M I(Z, [X, Y ]) = H(pZ × pX,Y ) − H(pX,Y,Z )

Khi X và Y độc lập với Z, entropy của phân bố xác suất của dữ liệu là hình trụ chứa khối S(cid:48) (Hình 3.6). Khi đó, H(pX,Y,Z ) = H(pZ × pX,Y ) = 13

H(pZ ) + H(pX,Y ) = H(Z) + H(X, Y ). Do đó, công thức (3.11) tương đương với công thức:

M I(Z, [X, Y ]) = H(Z) + H(X, Y ) − H(X, Y, Z) (3.12)

Chúng tôi gọi độ đo thông tin tương hỗ của ba biến trong trường hợp này là Thông tin tương hỗ bộ phận giữa một biến với cặp hai biến.

Hình 3.6: Biểu diễn trực quan M I(Z, [X, Y ]).

Tương tự, trong trường hợp X có quan hệ với cặp biến [Y, Z]; Y có quan hệ với cặp biến [Z, X], ta có các công thức:

(3.13) M I(cid:0)X, [Y, Z](cid:1) = H(pX × pY,Z ) − H(pX,Y,Z ) = H(X) + H(Y, Z) − H(X, Y, Z) (3.14)

(3.15) M I(cid:0)Y, [Z, X](cid:1) = H(pY × pZ,X ) − H(pX,Y,Z ) = H(Y ) + H(Z, X) − H(X, Y, Z) (3.16)

Từ đó, ta thấy mỗi loại thông tin tương hỗ cung cấp cho ta một kiểu quan hệ trong mối quan hệ đa biến. Ví dụ, M I(X, Y ) cho biết mức độ tương hỗ giữa biến X và Y ; M I(cid:0)Z, [X, Y ](cid:1) đo mức độ tương hỗ giữa biến Z và cặp biến [X, Y ]; thông tin tương hỗ tổng hợp M I(X, Y, Z) cho ta biết mức độ tương hỗ đồng thời giữa ba biến X, Y, Z.

3.2.3 Mở rộng độ đo Thông tin tương hỗ cho nhiều biến

Từ các diễn giải trong trường hợp ba biến, chúng ta thấy rằng, khi mở rộng sang nhiều biến, sẽ xuất hiện nhiều kiểu quan hệ. Mỗi một kiểu quan hệ sẽ tương ứng với một phân bố xác suất biên hay một phân hoạch {D1, . . . , Dk} của tập các biến X1, . . . , Xn. Từ các công thức mở rộng độ đo MI trong trường hợp ba biến vừa trình bày, chúng tôi đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến như sau:

14

Định nghĩa 3.4. Thông tin tương hỗ của n biến X1, . . . , Xn với tập phân hoạch {D1, . . . , Dk} được định nghĩa:

(3.17)

M I{D1,...,Dk}(X1, . . . , Xn) = H(pD1 × . . . × pDk ) − H(pX1,...,Xn )

k (cid:88)

tương đương với

(3.18)

H(Di) − H(X1, . . . , Xn)

M I{D1,...,Dk}(X1, . . . , Xn) =

i=1

trong đó, {X1, . . . , Xn} = D1 ⊕ . . . ⊕ Dk; pDi là phân bố xác suất biên của phân bố xác suất đồng thời pX1,...,Xn trên tập con Di của các biến.

n (cid:88)

Trong trường hợp đặc biệt Di = {Xi}, công thức (3.18) được viết như sau:

i=1

(3.19) H(Xi) − H(X1, . . . , Xn) M I(X1, . . . , Xn) =

Đây chính là công thức T C(X1, . . . , Xn) đo tương quan tổng hợp của n biến.

3.3 Ứng dụng MI đa biến trong tái tạo mạng trao đổi chất

3.3.1 Tái tạo quan hệ đa biến

Trong phần này, chúng tôi sử dụng dữ liệu trao đổi chất trong tế bào hồng cầu (red blood cell-RBC ) được công bố bởi Nemenman và các cộng sự [Nemen- man et al.,2007] để tái tạo mạng. Đây là dữ liệu biểu diễn dưới dạng một ma trận 1000 × 39 mô tả nồng độ phân tử Mol của 39 chất trao đổi, tham gia trong 44 phản ứng được đo tại 1000 mốc thời gian. Dữ liệu này có thể tải về từ địa chỉ http://menem.com/∼ilya/wiki/index.php/RBC _Metabolic_Network. Chúng tôi sử dụng MATLAB để tính toán tái tạo mạng RBC gồm 39 chất trao đổi. Ở đây, chúng tôi sử dụng phương pháp ước lượng thông tin tương hỗ dựa trên phân bố xác suất Gaussian. Trước hết, để tái tạo quan hệ cặp đôi, chúng tôi sẽ sử dụng công thức tính MI của hai biến. Số lượng các cặp đôi trong mạng trao đổi chất RBC là C 2 39 = 741. Sau khi có được 714 giá trị M I(X, Y ), chúng tôi có một ma trận 4 cột và 714 dòng. Cột thứ nhất tương ứng với biến X, cột thứ hai tương ứng với Y , cột thứ ba là giá trị M I(X, Y ) tương ứng, cột thứ tư nhận giá trị 1 nếu trong mạng RBC tồn tại cạnh nối giữa X và Y , ngược lại cột thứ tư sẽ nhận giá trị 0. Sau đó, chúng tôi sắp xếp ma trận theo thứ tự giảm dần của cột M I(X, Y ). Độ chính xác của dự đoán tái tạo quan hệ cặp đôi là AUC=0.753. Tương tự như vậy, để tái tạo quan hệ giữa ba biến, chúng tôi tính C 3 39 = 9.139 giá trị MI tổng hợp M I(X, Y, Z) và 27.417 giá trị MI bộ phận. Kết quả thực nghiệm cho thấy các độ đo đề xuất có khả năng tái tạo được các tương tác đa biến, chẳng hạn, diện tích dưới đường cong ROC của mạng tái tạo bằng độ đo Thông tin tương hỗ tổng hợp là AUC=0.874.

Sau đây, chúng tôi sẽ minh họa quá trình tái tạo mạng con gồm 10 chất đầu tiên (viết tắt là RBC10) của mạng RBC. Bảng 3.1 hiển thị 20 quan hệ cặp đôi

15

Bảng 3.1: Các quan hệ cặp đôi được tái tạo trong mạng RBC10

X, Y

Thứ tự M I(X, Y )

Phản ứng

n

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

G6P,F6P DHAP,GAP PG2,PEP PG3,PG2 PG3,PEP FDP,DHAP FDP,GAP GAP,PG3 DPG13,PG3 DPG13,PG2 DPG13,DPG23 GAP,DPG13 F6P,FDP G6P,FDP F6P,DHAP F6P,GAP DHAP,DPG13 DPG23,PG2 DPG23,PG3 DHAP,PG3

(1,2) (4,5) (9,10) (8,9) (8,10) (3,4) (3,5) (5,8) (6,8) (6,9) (6,7) (5,6) (2,3) (1,3) (2,4) (2,5) (4,6) (7,9) (7,8) (4,8)

8.22 7.58 5.77 5.44 5.07 3.78 3.77 1.87 1.33 1.33 1.26 1.21 1.06 1.05 0.98 0.96 0.82 0.71 0.70 0.68

pgi tip en pgm pgm,en ald ald gapdh,pgk pgk pgk,pgm dpgm gapdh pfk hk,pgi pfk,ald tald tpi,gapdh dpgase, pgm dpgase tpi,gap,pgk

có giá trị M I(X, Y ) lớn nhất trong mạng RBC10, được sắp theo thứ tự giảm dần.

Bảng 3.2 hiển thị 7 quan hệ bộ ba có giá trị M I(X, Y, Z) lớn nhất trong mạng RBC10. Đây là các quan hệ bộ ba thường là các sản phẩm hoặc chất nền của cùng một phản ứng hoặc các phản ứng liền kề trong mô hình trao đổi chất RBC. Ví dụ, (3, 4, 5) là (F DP, DHAP, GAP ) liên quan tới hai phản ứng liền kề là ald và tpi; (8, 9, 10) là (P G3, P G2, P EP ) liên quan tới hai phản ứng liền kề là pgm và en.

Bảng 3.2: Các quan hệ bộ ba được tái tạo trong mạng RBC10

M I(cid:0)X, [Y, Z](cid:1) M I(cid:0)Y, [Z, X](cid:1) M I(cid:0)Z, [X, Y ](cid:1) M I(X, Y, Z)

n

X, Y, Z

Thứ tự

1 2 3 4 5 6 7

FDP, DHAP, GAP PG3,PG2, PEP G6P, F6P, FDP DHAP,GAP, DPG13 DHAP,GAP, PG3 DPG13,PG3,PG2 G6P, F6P, DHAP

(3,4,5) (8,9,10) (1,2,3) (4,5,6) (4,5,8) (6,8,9) (1,2,4)

3.78 5.52 8.22 7.57 7.58 1.35 5.22

7.58 6.21 8.22 7.57 7.58 5.46 5.22

7.58 5.85 0.75 1.00 1.87 5.46 0.72

11.36 11.29 9.98 8.57 8.54 6.98 6.95

Chọn ngưỡng θ2 = 0.9 đối với MI của hai biến và ngưỡng θ3 = 10 đối với MI của ba biến. Khi đó, chúng tôi tái tạo được mạng gồm các quan hệ cặp đôi và bộ ba của RBC10. Trong Hình 3.7, chúng tôi so sánh mạng được tái tạo bằng các độ đo MI đa biến với mạng được tái tạo bằng thực nghiệm của các nhà 16

Sinh học (gọi tắt là mạng đích). Nét liền là những quan hệ cặp đôi được tái tạo trùng khớp với mạng đích và nét đứt là những quan hệ cặp đôi được tái tạo không khớp với mạng đích. Chấm tròn nối ba đường nét liền là những quan hệ bộ ba được tái tạo trùng khớp với mạng đích và chấm tròn nối ba đường nét đứt biểu diễn cho quan hệ bộ ba được tái tạo không khớp với mạng đích.

(a) (b)

Hình 3.7: So sánh mạng tái tạo nhờ MI đa biến (b) với mạng đích (a)

Với mạng kết quả tái tạo được, chúng tôi đánh giá tính chính xác của dự đoán tái tạo các quan hệ cặp đôi và quan hệ bộ ba thông qua các độ đo đã trình bày trong Chương 2 (Bảng 3.3).

Bảng 3.3: Độ chính xác của dự đoán tái tạo các quan hệ trong mạng RBC10

Kiểu quan hệ

TP

FP

FN

Precision

Recall

ACC

F-measure

TN

Cặp đôi Bộ ba

11 1

5 1

1 0

0.69 0.5

0.92 1

0.87 0.99

0.79 0.67

28 118

Mạng được tái tạo bằng độ đo MI đa biến gồm 16 quan hệ cặp đôi, 2 quan hệ bộ ba. So với mạng đích được tái tạo bằng thực nghiệm, ta thấy có 5 quan

17

hệ cặp đôi và 1 quan hệ bộ ba tái tạo không khớp. Ngoài ra, có 1 quan hệ cặp đôi không được tái tạo là (DP G23, P G3).

3.3.2 Đánh giá các độ đo đề xuất

Để so sánh các độ đo chúng tôi đề xuất với các độ đo của các tác giả khác, chúng tôi sử dụng dữ liệu DREAM3 gồm 15 tập dữ liệu, trong đó có 5 tập dữ liệu kích thước 10 (dữ liệu của mạng 10 gien), 5 tập kích thước 50 và 5 tập kích thước 100. Chúng tôi sẽ so sánh hiệu năng của ba độ đo: Thông tin tương tác do Fano đưa ra (viết tắt là InteractInfo), Thông tin tương hỗ tổng hợp (viết tắt là TotalMI ) và Thông tin tương hỗ bộ phận. Trong trường hợp ba biến, có ba giá trị Thông tin tương hỗ bộ phận. Vì vậy, chúng tôi chọn giá trị nhỏ nhất trong ba giá trị đó để so sánh, gọi giá trị đó là RelationshipMI.

RelationshipM I(X, Y, Z) = min

M I(cid:0)X, [Y, Z](cid:1); M I(cid:0)Y, [Z, X](cid:1); M I(cid:0)Z, [X, Y ](cid:1)(cid:17) (cid:16)

(3.20)

Bảng 3.4 cho thấy hiệu năng của các độ đo trong việc tái tạo các quan hệ bộ ba trên các mạng khác nhau của dữ liệu DREAM3. Trung bình AUC của InteractInfo, TotalMI và RelationshipMI trên 15 bộ dữ liệu tương ứng là 0.52, 0.66 và 0.68. Kết quả thực nghiệm cho thấy, độ đo RelationshipMI và TotalMI có hiệu năng tái tạo quan hệ bộ ba tốt hơn độ đo InteractInfo.

Bảng 3.4: So sánh hiệu năng của các độ đo trong tái tạo các quan hệ bộ ba trên dữ liệu DREAM3.

Các độ đo

Ecoli1

Ecoli2

Yeast1

Yeast2

Yeast3

TB

K.thước mạng

TB trên 15 bộ dl

InteractInfo

0.52

TotalMI

0.66

RelationshipMI

0.68

10 50 100 10 50 100 10 50 100

0.20 0.70 0.69 0.66 0.85 0.79 0.74 0.85 0.80

0.56 0.64 0.57 0.73 0.73 0.63 0.79 0.75 0.68

0.34 0.38 0.49 0.83 0.53 0.59 0.89 0.58 0.61

0.62 0.51 0.45 0.69 0.60 0.50 0.66 0.63 0.50

0.51 0.57 0.48 0.56 0.68 0.52 0.52 0.68 0.53

0.45 0.56 0.54 0.69 0.68 0.61 0.72 0.70 0.63

3.4 Kết luận Chương 3

Trong Chương 3, chúng tôi đã đề xuất một cách diễn giải trực quan và công thức mới cho Thông tin tương hỗ trong trường hợp hai biến và ba biến. Từ đó, chúng tôi đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến. Trong phần cuối của Chương 3, chúng tôi đã trình bày một ứng dụng các độ đo mở rộng vào bài toán tái tạo mạng trao đổi chất trong tế bào hồng cầu gồm 39 chất. Kết quả thực nghiệm cho thấy các độ đo mà chúng tôi đề xuất có khả năng tái tạo tốt các quan hệ đa biến. Ngoài ra, để đánh giá hiệu năng của các độ đo đề xuất, chúng tôi đã tiến hành thực nghiệm trên các loại dữ liệu khác nhau với các kích thước khác nhau, kết quả cho thấy các độ đo đề xuất có thể sử dụng để phát hiện các quan hệ đa biến trong mạng sinh học. Như vậy, so với mục tiêu nghiên cứu của Luận án, chúng tôi đã giải quyết được Bài toán 1. 18

Chương 4

MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ CÓ ĐIỀU KIỆN ĐỂ PHÁT HIỆN QUAN HỆ ĐA BIẾN GIÁN TIẾP

Mặc dù các độ đo Thông tin tương hỗ đề xuất trong Chương 3 đã tái tạo được các quan hệ đa biến nhưng một số quan hệ được tái tạo lại dư thừa do đã tồn tại các mối quan hệ gián tiếp. Trong Chương 4, chúng tôi sẽ tiếp tục mở rộng độ đo Thông tin tương hỗ có điều kiện để phát hiện các quan hệ đa biến gián tiếp.

4.1 Thông tin tương hỗ có điều kiện của hai biến

Thông tin tương hỗ có điều kiện (conditional mutual information-CMI ) dùng để đo mức độ tương hỗ của hai biến khi có sự xuất hiện của một hay nhiều biến khác. Thông tin tương hỗ có điều kiện của hai biến trên biến thứ ba là trung bình thông tin tương hỗ của hai biến đó tại các giá trị mà biến thứ ba có thể nhận.

z

(cid:88) M I(X, Y |Z) = p(z)M I(X, Y |Z = z)

= H(X|Z) + H(Y |Z) − H(X, Y |Z)

Khi các biến X và Y có mối quan hệ gián tiếp thông qua biến thứ ba (chẳng hạn biến Z), dựa vào độ đo MI ta sẽ phát hiện được sự tồn tại quan hệ giữa X và Y . Nếu quan sát thêm được biến Z thì ta có thể biết thêm thông tin về mối quan hệ này. Bằng cách lấy trung bình thông tin tương hỗ của hai biến X và Y trên biến Z, ta có thể biết được X và Y có quan hệ gián tiếp thông qua Z (ký hiệu, X ↔ Z ↔ Y ) hay không.

Khi có sự xuất hiện của biến Z, Thông tin tương hỗ của hai biến X và Y có thể tăng lên hoặc giảm đi. Trong khi M I(X, Y |Z) đo mức độ tương hỗ trung bình giữa hai biến X và Y trên các giá trị của Z thì M I(X, Y ) đo mức độ tương hỗ trên không gian dữ liệu của hai biến X và Y . Nếu M I(X, Y ) lớn và M I(X, Y |Z) cũng lớn, điều đó có nghĩa là Z không ảnh hưởng đến mối quan hệ của X và Y . Khi đó, X và Y hoặc có quan hệ trực tiếp hoặc có quan hệ gián tiếp nhưng không phải qua Z. Nếu M I(X, Y ) lớn nhưng M I(X, Y |Z) nhỏ, điều đó có nghĩa là Z chi phối mối quan hệ giữa X và Y , khi đó ta có quan hệ gián tiếp X ↔ Z ↔ Y .

Như vậy, dựa vào độ đo CMI ta có thể phát hiện được các quan hệ gián tiếp giữa hai biến thông qua biến trung gian. Tuy nhiên, độ đo CMI chỉ phát hiện được quan hệ gián tiếp giữa hai biến. Vì vậy, trong phần tiếp theo, chúng tôi đề xuất một mở rộng độ đo CMI cho nhiều biến để phát hiện kiểu quan hệ đa biến gián tiếp.

19

4.2 Mở rộng thông tin tương hỗ có điều kiện

Tương tự như đề xuất công thức tổng quát của MI trong Chương 3, chúng tôi đề xuất một mở rộng độ đo Thông tin tương hỗ có điều kiện như sau:

k (cid:88)

Định nghĩa 4.1. Thông tin tương hỗ có điều kiện của n biến X1, . . . , Xn với phân hoạch {D1, . . . , Dk} trên điều kiện C được định nghĩa:

i=1

(4.1) H(Di|C) − H(X1, . . . , Xn|C) M I{D1,...,Dk}(X1, . . . , Xn|C) =

trong đó, {D1, . . . , Dk} là các phân hoạch của tập các biến {X1, . . . , Xn}; {X1, . . . , Xn} = D1 ⊕ . . . ⊕ Dk.

Trong trường hợp ba biến, ta có các độ đo sau:

• Thông tin tương hỗ tổng hợp của ba biến X, Y, Z trên điều kiện T

M I(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T )

(4.2)

• Thông tin tương hỗ bộ phận giữa một biến với cặp hai biến trên điều kiện T

M I(X, [Y, Z]|T ) = H(X|T ) + H(Y, Z|T ) − H(X, Y, Z|T ) (4.3)

M I(Y, [Z, X]|T ) = H(Y |T ) + H(Z, X|T ) − H(X, Y, Z|T ) (4.4)

M I(Z, [X, Y ]|T ) = H(Z|T ) + H(X, Y |T ) − H(X, Y, Z|T ) (4.5)

Ví dụ 4.1. Để khảo sát kiểu quan hệ giữa biến X với cặp hai biến [Y, Z] trên điều kiện T , chúng tôi sinh ngẫu nhiên hai biến Y, Z độc lập. Biến T phụ thuộc vào Y và Z theo quan hệ T = f (Y, Z) + noise1. Biến X phụ thuộc vào biến T , giả sử X = g(T ) + noise2. Bảng 4.5 hiển thị các giá trị tính MI và CMI.

Bảng 4.5: Phát hiện quan hệ gián tiếp X ↔ T ↔ [Y, Z] nhờ CMI.

n MI(Y,Z) MI(cid:0)T,[Y,Z](cid:1) MI(cid:0)X,[Y,Z](cid:1) MI(cid:0)T,[Y,Z]|X(cid:1) MI(cid:0)X,[Y,Z]|T(cid:1) 1 2 3 4 5 6 7 8 9 10

2.6680 2.6469 2.7685 2.6481 2.6646 2.6413 2.7581 2.5400 2.6122 2.7149

1.4355 1.5718 1.5094 1.6885 1.3962 1.6344 1.4426 1.2922 1.4902 1.6008

1.2326 1.0890 1.2775 0.9748 1.2699 1.0353 1.3253 1.2746 1.1236 1.1272

0.0001 0.0138 0.0184 0.0152 0.0015 0.0284 0.0097 0.0269 0.0017 0.0130

0.0019 0.0002 0.0040 0.0012 0.0003 0.0001 0.0020 0.0054 0.0051 0.0002

20

Các giá trị trong cột thứ hai của bảng cho ta thấy M I(Y, Z) ≈ 0, điều này hoàn toàn chính xác do hai biến Y và Z độc lập. Giá trị trong cột M I(cid:0)T, [Y, Z](cid:1) rất lớn, do T có quan hệ trực tiếp với [Y, Z]. Cột M I(cid:0)X, [Y, Z]|T (cid:1) có giá trị rất nhỏ so với các giá trị CMI trên các biến điều kiện khác. Điều đó có nghĩa là giữa X và [Y, Z] có mối quan hệ gián tiếp thông qua biến T (ký hiệu, X ↔ T ↔ [Y, Z]).

4.3 Ứng dụng CMI đa biến trong tái tạo mạng trao đổi chất

4.3.1 Phát hiện quan hệ đa biến gián tiếp

Sau khi kết thúc Chương 3, chúng tôi đã tái tạo được mạng trao đổi chất với các mối quan hệ đa biến. Trong phần này, chúng tôi sẽ sử dụng các độ đo CMI đa biến đề xuất để phát hiện các quan hệ đa biến gián tiếp trong mạng kết quả đó. Trước hết, chúng tôi tính tất cả các giá trị thông tin tương hỗ có điều kiện của các cặp chất cùng có quan hệ với một chất khác. Chẳng hạn, 1 và 3 cùng có quan hệ với 2; 3 và 4 cùng có quan hệ với 5,. . . . Bảng 4.6 là kết quả sắp theo thứ tự giảm dần của CMI.

Bảng 4.6: CMI của các cặp cạnh trong RBC10

chất Đ.kiện

chất Đ.kiện

n 1 2 3 4 5 6 7 8 9 10 11 12

Cặp 1 4 8 4 3 3 5 9 6 8 2 2

2 5 9 5 4 5 8 10 8 9 3 3

3 2 6 3 2 2 6 8 5 10 5 4

CMI 7.4656 6.8527 4.1229 3.8133 3.3847 3.3816 1.0506 0.7819 0.5214 0.4479 0.3692 0.3689

n 13 14 15 16 17 18 19 20 21 22 23 24

Cặp 6 5 3 3 2 2 2 8 2 6 2 1

8 6 4 5 3 4 5 10 5 9 4 3

9 8 5 4 1 3 3 9 4 8 5 2

CMI 0.2084 0.1888 0.1315 0.1086 0.1050 0.0861 0.0089 0.0084 0.0064 0.0010 0.0005 0.0001

Chọn ngưỡng θCM I = 0.1. Khi đó, loại bỏ được một số các quan hệ dư thừa có CM I < θCM I , đó là các quan hệ: (1,3), (2,4), (6,9), (2,5), (8,10).

Tiếp tục xét tính dư thừa của các quan hệ bộ ba (3,4,5), (8,9,10) đã tái tạo được trong mạng trao đổi chất RBC10 ở Chương 3. Trong hai bộ ba này, chỉ có (3,4,5) là cùng có quan hệ với 2; bộ (8,9,10) không cùng có quan hệ với chất nào. Vì vậy, (8,9,10) không có quan hệ gián tiếp qua chất trung gian. Đối với bộ (3,4,5), chúng ta có M I(3, 4, 5|2) = 10.24, trong khi đó M I(3, 4, 5) = 11.36. Như vậy, sự xuất hiện của 2 không ảnh hưởng đến mối quan hệ giữa (3,4,5), hay nói cách khác (3,4,5) không có quan hệ gián tiếp thông qua 2. Do đó, quan hệ bộ ba (3,4,5) không phải là quan hệ dư thừa.

So sánh mạng được tái tạo sau khi loại bỏ dư thừa với mạng đích (Hình 4.8), ta thấy mạng được tái tạo bằng các độ đo MI và CMI đa biến gần với mạng

21

đích RBC10, rất nhiều quan hệ trên hai mạng trùng khớp. Chỉ có 2 quan hệ (2,5) và (7,8) bị loại bỏ không giống với mạng đích; quan hệ (5,8) và (8,9,10) được tái tạo thêm.

(a) (b)

Hình 4.8: So sánh mạng sau khi loại bỏ dư thừa (b) với mạng đích (a)

4.4 Kết luận Chương 4

Trong Chương 4, chúng tôi đã đề xuất các độ đo Thông tin tương hỗ đa biến có điều kiện nhằm phát hiện các quan hệ đa biến gián tiếp để từ đó loại bỏ các quan hệ dư thừa. Trong phần ứng dụng, chúng tôi đã áp dụng độ đo Thông tin tương hỗ đa biến có điều kiện lên mạng trao đổi chất trong tế bào hồng cầu đã tái tạo được ở Chương 3. Kết quả thực nghiệm cho thấy, các độ đo Thông tin tương hỗ đa biến có điều kiện phát hiện được các quan hệ gián tiếp. Khi so sánh mạng được tái tạo theo phương pháp của chúng tôi với mạng đích, tỉ lệ các quan hệ được tái tạo chính xác cao. Mặc dù, việc tái tạo mạng mới chỉ dừng lại ở mức mạng thô nhưng dựa vào mạng kết quả đó, khi kết hợp với các tri thức của chuyên gia, có thể sẽ cho ta nhiều tri thức mới về các quá trình thực sự xảy ra bên trong các sự việc, hiện tượng.

22

KẾT LUẬN

Tái tạo mạng sinh học là một bài toán quan trọng của ngành sinh học hệ thống và là bài toán có ý nghĩa. Việc tái tạo mạng sinh học giúp chúng ta biết được các quá trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinh học. Cách tiếp cận thực nghiệm trong lĩnh vực Sinh học thường cho kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinh học rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh sử dụng các công cụ tính toán, các mô hình để xây dựng mạng phù hợp với dữ liệu quan sát. Cách tiếp cận này giảm đáng kể thời gian và chi phí thực nghiệm.

Bài toán tái tạo mạng trao đổi chất là bài toán phức tạp do các quan hệ trong mạng trao đổi chất thường là các quan hệ của nhiều chất. Các nghiên cứu trước đây nhằm tái tạo mạng trao đổi chất thường sử dụng các phương pháp tái tạo mạng dựa trên các quan hệ cặp đôi. Tuy nhiên, có nhiều kiểu quan hệ chỉ xuất hiện khi có đồng thời nhiều chất tham gia. Chính vì vậy, với mục tiêu tái tạo mạng trao đổi chất từ dữ liệu sinh học, theo hướng tiếp cận tính toán, luận án đã giải quyết hai bài toán. Bài toán thứ nhất, tái tạo quan hệ đa biến bằng cách mở rộng độ đo Thông tin tương hỗ. Bài toán thứ hai, phát hiện quan hệ đa biến gián tiếp bằng cách mở rộng độ đo Thông tin tương hỗ có điều kiện, từ đó loại bỏ các quan hệ dư thừa.

Mặc dù, mạng được tái tạo có thể còn khác so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩa quan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ. Kết quả đó sẽ giúp các nhà Sinh học có định hướng trong quá trình tiến hành thực nghiệm, giảm được đáng kể thời gian cũng như chi phí thực nghiệm. Ngoài ra, cách tiếp cận này còn có thể dự đoán được các mối quan hệ giữa các phần tử sinh học, tiên lượng được các quá trình gây bệnh xảy ra bên trong tổ chức sinh học, mà có thể cách tiếp cận thực nghiệm chưa tìm được.

Đóng góp khoa học của luận án

Trong quá trình nghiên cứu và thực hiện luận án, tác giả đã công bố 6 bài báo tại các tạp chí và hội nghị chuyên ngành trong nước và quốc tế. Kết quả nghiên cứu của luận án đã góp phần vào việc mở rộng một số độ đo trong Lý thuyết thông tin để ứng dụng vào các bài toán sinh học, mang ý nghĩa thực tiễn. Dưới đây là những đóng góp chính của luận án.

• Đề xuất một cách diễn giải trực quan và công thức mới cho Thông tin tương hỗ trong trường hợp hai biến và ba biến. Cách diễn giải này khắc phục được một số nhược điểm của các cách diễn giải trước đây.

• Đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến và ứng dụng tái tạo quan hệ đa biến trong mạng trao đổi chất. Từ công thức tổng quát, nhiều công thức được suy ra. Mỗi công thức phản ánh một

23

loại quan hệ tồn tại giữa các biến.

• Đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến có điều kiện và ứng dụng phát hiện quan hệ đa biến gián tiếp, từ đó loại bỏ các quan hệ dư thừa trong mạng trao đổi chất.

Những vấn đề tồn tại của luận án và hướng nghiên cứu

• Khi số biến càng tăng thì số quan hệ và số kiểu quan hệ giữa các biến càng nhiều. Khi đó, sẽ xảy ra tình trạng bùng nổ tổ hợp, việc tính toán trở nên vô cùng phức tạp. Chính vì vậy, mặc dù luận án đã đề xuất công thức độ đo Thông tin tương hỗ và Thông tin tương hỗ có điều kiện đa biến, nhưng các thực nghiệm mới chỉ ứng dụng trong trường hợp ba biến và bốn biến.

• Các nguồn dữ liệu đã công bố không cung cấp dữ liệu về các kiểu quan hệ gián tiếp phức tạp. Vì vậy, việc đánh giá độ đo Thông tin tương hỗ đa biến có điều kiện trên các tập dữ liệu lớn còn gặp khó khăn. Trong tương lai, khi có nguồn dữ liệu phù hợp, tác giả sẽ đánh giá hiệu năng của độ đo Thông tin tương hỗ đa biến có điều kiện một cách toàn diện hơn.

• Hiện nay, hướng tiếp cận mô hình đồ thị theo kiểu top-down đang được nhiều người sử dụng và có nhiều kết quả. Tác giả sẽ nghiên cứu kết hợp hướng tiếp cận mô hình đồ thị với hướng tiếp cận Lý thuyết thông tin theo kiểu bottom-up, hi vọng sẽ nâng cao chất lượng của mạng tái tạo.

24