intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phát hiện các quan hệ từ dữ liệu sinh học để tái tạo mạng trao đổi chất

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

14
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Phát hiện các quan hệ từ dữ liệu sinh học để tái tạo mạng trao đổi chất trình bày phương pháp mở rộng độ đo Thông tin tương hỗ từ hai biến sang nhiều biến để có thể phát hiện được các loại quan hệ đa biến trong dữ liệu sinh học. Từ đó, tái tạo mạng sinh học hiệu quả hơn một số phương pháp trước đây.

Chủ đề:
Lưu

Nội dung Text: Phát hiện các quan hệ từ dữ liệu sinh học để tái tạo mạng trao đổi chất

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 PHÁT HIỆN CÁC QUAN HỆ TỪ DỮ LIỆU SINH HỌC ĐỂ TÁI TẠO MẠNG TRAO ĐỔI CHẤT Nguyễn Quỳnh Diệp, Kiều Tuấn Dũng Trường Đại học Thủy lợi, email: {diepnq, dungkt}@tlu.edu.vn 1. GIỚI THIỆU CHUNG bốn… Trong phương pháp này, chúng tôi sử dụng độ đo Thông tin tương hỗ để phát hiện Nhờ có sự tiến bộ của công nghệ sinh học, các tương tác đa biến [2]. chúng ta có thể đo đồng thời nồng độ của Khi áp dụng trên các dữ liệu nhân tạo về hàng ngàn phân tử trong một hệ thống sinh sự chuyển hóa trong tế bào hồng cầu của học. Những dữ liệu này là ảnh chụp của một người [1], phương pháp của chúng tôi đã cho hệ thống sinh học và có nhiều thông tin để kết quả đầy hứa hẹn. Các tập con tương tác suy ra những gì đã xảy ra trong hệ thống. với thông tin tương hỗ cao nhất được tìm Phân tích các dữ liệu để khám phá tiềm ẩn cơ thấy từ phương pháp của chúng tôi thường chế sinh học, ví dụ: mạng gen hoặc các mạng tương ứng với các phản ứng trao đổi chất trao đổi chất [1] là một trong những thách trong mạng ban đầu. Đồng thời, cũng có thức trong các hệ thống sinh học. nhiều phản ứng ban đầu đã được tìm thấy Tính toán tái tạo các mạng gen từ dữ liệu trong các kết quả của chúng tôi. sinh học đã được nghiên cứu bằng các phương pháp tiếp cận khác nhau. Có thể kể 2. PHƯƠNG PHÁP SỬ DỤNG ĐỘ ĐO đến như: mô hình lý thuyết thông tin, các THÔNG TIN TƯƠNG HỖ mạng đồ thị và Bayess, phương trình vi phân Trong lý thuyết thông tin và xác suất thống và tích phân… Mục đích của việc tái tạo kê, có nhiều độ đo được sử dụng để đo sự mạng điều khiển gen cho đến nay là nhằm phụ thuộc lẫn nhau của hai biến như: Hệ số tìm ra các tương tác cặp đôi giữa hai gen. tương quan Pearson (Pearson Correlation Sự khác nhau giữa mạng điều khiển gen và coefficient), Thông tin tương hỗ (Mutual mạng các chất chuyển hóa là mạng điều Information-MI )… khiển gen chỉ quan tâm đến các tương tác cặp 2.1. Thông tin tương hỗ giữa hai biến đôi, còn mạng chất chuyển hóa chủ yếu là các phản ứng thường bao gồm 2 - 6 chất Độ đo thông tin tương hỗ (MI) là một độ chuyển hóa. Đến nay, đã có rất nhiều nỗ lực đo dùng để đo sự phụ thuộc thông tin giữa để xây dựng mạng trao đổi chất bằng cách sử hai hay nhiều biến ngẫu nhiên. Đối với dụng các phương pháp đã áp dụng trong việc trường hợp hai biến, ta có thể dễ dàng tính xây dựng mạng điều khiển gen [1]. Kết quả là toán và diễn giải ý nghĩa của MI. Cho hai họ chỉ có thể phát hiện các tương tác cặp đôi biến ngẫu nhiên rời rạc X và Y. Thông tin mà không phát hiện được các tương tác của tương hỗ giữa hai biến này được định nghĩa nhiều hơn hai chất chuyển hóa. như sau: p  x,y  Trong bài báo này, chúng tôi phát triển MI  X ,Y   xX  yY p  x,y  log (1) một phương pháp tính toán cho việc tái tạo p  x .p  y  mạng trao đổi chất có thể phát hiện ra tương Trong đó, p(x) và p(y) lần lượt là hàm tác không chỉ cặp đôi mà còn phát hiện ra các phân phối biên duyên của X và của Y; p(x,y) tương tác khác, ví dụ, tương tác ba, tương tác là hàm phân phối xác suất đồng thời của hai 144
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 biến X và Y. Khi các biến X,Y là biến liên tục biến thứ ba, biến thứ tư… làm nảy sinh một thì phép tính tổng trong công thức trên được số loại quan hệ mới. Chẳng hạn, mối quan thay bằng phép tính tích phân trên miền giá hệ giữa một biến với cặp hai biến, quan hệ trị của X và Y. giữa cặp hai biến này với cặp hai biến Thông tin tương hỗ MI(X,Y) cũng có thể khác… Một kiểu quan hệ khác nữa là quan được biểu diễn thông qua entropy-là độ đo hệ tương hỗ lẫn nhau giữa tất cả các biến. không chắc chắn của các biến ngẫu nhiên rời Chúng tương tác và phụ thuộc lẫn nhau tạo rạc [3] thành một module thống nhất. Có thể thấy, MI  X ,Y   H  X   H Y   H  X ,Y  (2) mỗi một kiểu quan hệ sẽ tương ứng với một  H  X   H  X |Y  (3) phân hoạch D1, D2,…, Dk của tập các biến  H Y   H Y | X  (4) {X1, X2,…, Xn}. Ví dụ, trong trường hợp ba biến, ta sẽ có Trong đó, H(X), H(Y) và H(X,Y) lần lượt là các kiểu quan hệ sau: quan hệ đồng thời của entropy của biến X, biến Y và cặp biến (X,Y). ba biến, quan hệ giữa một biến với cặp hai Mối quan hệ của các entropy này có thể biến còn lại. Khi đó, chúng ta có các kiểu được biểu diễn bằng biểu đồ Venn trong phân hoạch sau: hình 1. 1. {X1}{X2 }{X3}. 2. {X1}{X2, X3} hoặc {X2}{X1, X3} hoặc {X3}{X1, X2}. Trong [4], chúng tôi đã trình bày chi tiết cơ sở của việc mở rộng độ đo Thông tin tương hỗ từ hai biến sang trường hợp nhiều biến. Theo đó, công thức mở rộng được biểu diễn như sau: MID ,D ,,D   X 1 , X 2 , , X n   H  D1   1 2 k (5) H  D2     H  Dk   H  X 1 , X 2 , , X n  Hình 1. Biểu đồ Venn của thông tin tương hỗ Đặc biệt, khi Di = {Xi}, công thức (5) của 2 biến trở thành: 2.2. Thông tin tương hỗ giữa nhiều biến MI X ,X ,,X   X 1 , X 2 , , X n   1 2 n (6)   i 1 H  X i   H  X 1 , X 2 , , X n  n Khi sử dụng độ đo Thông tin tương hỗ trên dữ liệu sinh học, ta có thể phát hiện được các tương tác giữa hai phần tử trong mạng. Tuy 3. KẾT QUẢ NGHIÊN CỨU nhiên, trong hầu hết các mạng sinh học, mỗi phần tử có thể tương tác với nhiều phần tử 3.1. Dữ liệu và kết quả thực nghiệm khác trong cùng một phản ứng hóa học hoặc Trong phần thực nghiệm, chúng tôi sử dụng phản ứng khác. Mạng trao đổi chất là một ví dữ liệu trao đổi chất RBC trong tế bào hồng dụ của các mạng như vậy. Ở đó, mỗi chất cầu được công bố bởi Nemenman và các cộng chuyển hóa có thể tương tác với một số chất sự. Dữ liệu này được biểu diễn dưới dạng ma khác trong các phản ứng khác nhau. trận 1000x39 mô tả nồng độ của 39 chất Khi mở rộng từ hai biến sang nhiều biến, chuyển hóa tại 1000 thời điểm khác nhau. Dữ các mối quan hệ trở nên phức tạp hơn rất liệu này có thể được download tại nhiều. Với hai biến, chỉ có hai khả năng xảy http://menem.com~ilya/wiki/index.php/RBC_ ra là hoặc hai biến độc lập hoặc hai biến phụ Metabolic_Network. Sử dụng phương pháp độ thuộc. Tuy nhiên, khi có nhiều biến, sẽ có đo Thông tin tương hỗ, chúng tôi phát hiện nhiều mối quan hệ mới nảy sinh. Ngoài quan được nhiều tương tác giữa các chất với độ hệ tương hỗ giữa hai biến, sự xuất hiện của chính xác cao. Cụ thể: tái tạo được 741 quan 145
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 hệ giữa hai chất, độ chính xác AUC = 0.753; quan hệ giữa các phần tử không đơn giản chỉ 9.139 quan hệ đồng thời giữa ba chất và là quan hệ hai biến. Chính vì thế, việc sử 27.417 quan hệ giữa 1 chất với cặp 2 chất, đạt dụng độ đo Thông tin tương hỗ để tái tạo độ chính xác AUC = 0.874. mạng trao đổi chất bằng cách tái tạo từng cặp Hình 2 là hình ảnh mạng gốc của 10 chất hai biến không còn chính xác. Trong bài báo và mạng tái tạo bằng cách sử dụng độ đo này, chúng tôi đã trình bày phương pháp mở thông tin tương hỗ đa biến mà chúng tôi đề. rộng độ đo Thông tin tương hỗ từ hai biến sang nhiều biến để có thể phát hiện được các loại quan hệ đa biến trong dữ liệu sinh học. Từ đó, tái tạo mạng sinh học hiệu quả hơn một số phương pháp trước đây. Kết quả thực nghiệm khi chạy trên dữ liệu trao đổi chất trong hồng cầu của người cho thấy các độ đo thông tin tương hỗ mà chúng tôi đề xuất có khả năng tái tạo tốt các quan hệ ba biến. Ngoài ra để so sánh hiệu năng của phương pháp sử dụng độ đo của chúng tôi đề xuất với các phương pháp khác, chúng tôi đã tiến hành thực nghiệm trên các dữ liệu với kích thước khác nhau, kết quả cho thấy tính chính xác khi tái tạo mạng trao đổi chất của phương pháp mà chúng tôi đưa ra cao hơn Hình 1. Mạng gốc và mạng tái tạo được phương pháp InteractInfo của Fano. của 10 chất 5. TÀI LIỆU THAM KHẢO 3.2. Đánh giá hiệu suất của phương pháp [1] I. Nemenman, G.S. Escola, W.S. Hlavacek, Để so sánh các độ đo chúng tôi đề xuất với P.J. Unkefer, C.J. Unkefer and M.E. Wall, các độ đo của các tác giả khác, chúng tôi sử "Reconstruction of Metabolic Networks dụng bộ dữ liệu gồm 15 tập dữ liệu trong đó from High-throughput Metabolite Profiling có 5 tập kích thước 10, 5 tập kích thước 50 và Data: in silico Analysis of Red Blood Cell 5 tập kích thước 100. Dữ liệu được dowload Metabolism," Ann N. Y. Acad Sci., vol. tại http://dreamchallenges.org. Kết quả cho 1115, pp. 102-115, 2007. [2] R. Fano, "A Statistical Theory of thấy các độ đo chúng tôi đề xuất đều cho kết Communication"," MIT Press, Cambridge, quả cao hơn. Massachussets, 1961. Bảng 1. Độ chính xác (AUC) [3] T. Cover and J. Thomas, "Elements of của các độ đo trên tập dữ liệu DREAM3 Information Theory," in Molecular Systems Biology, A John Wiley & Sons, Inc., Publication, 2006. [4] T.H. Pham, T.B. Ho, Q.D. Nguyen, D.H. Tran and V.H. Nguyen, "Multivariate Mutual Information Measures for Discovering Biological Networks," in The 9th IEEE - RIVF International Conference 4. KẾT LUẬN on Computing and Comunication Độ đo Thông tin tương hỗ đã được ứng Technologies Research, Ho Chi Minh city, dụng rộng rãi trong trường hợp hai biến. Vietnam, 103-108, 2012.   Trong bài toán tái tạo mạng trao đổi chất, 146
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
11=>2