Xây dựng công cụ chuyển đổi dữ liệu y sinh
lượt xem 2
download
Mục tiêu của bài báo "Xây dựng công cụ chuyển đổi dữ liệu y sinh" là xây dựng công cụ phần mềm dùng để chuyển đổi dữ liệu từ văn bản không có cấu trúc về dạng dữ liệu có cấu trúc. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Xây dựng công cụ chuyển đổi dữ liệu y sinh
- Kỷ yếu Hội thảo khoa học Khoa Công nghệ thông tin, năm 2024 XÂY DỰNG CÔNG CỤ CHUYỂN ĐỔI DỮ LIỆU Y SINH Huỳnh Hữu Nghĩa1, *, Lê Nguyễn Thảo Nguyên1, Dương Ngọc Hương Trà1, Nguyễn Mai Quỳnh Giao1 Trường Đại học Công thương Thành phố Hồ Chí Minh 1 * Email: nghiahh@huit.edu.vn Ngày nhận bài: 11/05/2024; Ngày chấp nhận đăng: 20/05/2024 TÓM TẮT Những nhà nghiên cứu y sinh học thường xuyên nghiên cứu dữ liệu lâm sàng và dữ liệu biểu hiện của Gen được cung cấp từ các phòng thí nghiệm để tìm hiểu những biểu hiện bất thường của Gen trên nhóm bệnh nhân ung thư và không ung thư; tìm các mẫu bệnh nhân bị xơ gan và ung thư gan nguyên phát hay không; tìm các thông tin về sự sống còn, sự sống còn không bệnh và tái phát nhằm xây dựng và kiểm định mô hình tiên lượng bệnh. Nhà nghiên cứu gặp nhiều khó khăn trong việc đọc các tài liệu để tìm kiếm thông tin do dữ liệu lớn, lưu trữ dưới dạng văn bản không có cấu trúc và không thể sử dụng các công cụ phần mềm hỗ trợ. Vì vậy cần có sự biến đổi dữ liệu về dạng có cấu trúc và có thể tính toán thống kê được. Mục tiêu của bài báo là xây dựng công cụ phần mềm dùng để chuyển đổi dữ liệu từ văn bản không có cấu trúc về dạng dữ liệu có cấu trúc. Từ khóa: Công cụ chuyển đổi dữ liệu y sinh, xử lý dữ liệu y sinh, phân tích dữ liệu y sinh. 1. MỞ ĐẦU Ngày nay, chứng kiến rõ được sự thay đổi vượt bậc của công nghệ số trong cuộc cách mạng công nghiệp lần thứ tư, đặc biệt là lĩnh vực y sinh. Các nguồn thông tin phong phú đa dạng từ các phòng thí nghiệm, bệnh viện, trường học, các nghiên cứu lâm sàng v..v… [1] [2]Các thông tin này thường được thể hiện dưới dạng văn bản và đóng một vai trò quan trọng vì chứa các kết quả nghiên cứu, báo cáo lâm sàng, hoặc mô tả chi tiết đặc biệt là những văn bản chứa thông tin về “biểu hiện gen của nhóm người mắc bệnh ung thư và nhóm người không mắc bệnh ung thư”. [3] Tuy nhiên, dữ liệu văn bản y sinh thường tồn tại dưới dạng không cấu trúc, gây ra một loạt các thách thức trong việc hiểu biết và sử dụng thông tin chứa trong đó. [1] [4] Một trong những thách thức lớn nhất là việc xử lý, chuyển đổi dữ liệu không cấu trúc thành dữ liệu có cấu trúc, để nhà nghiên cứu dễ dàng phân tích và tổng hợp. Đặc biệt, với dữ liệu y sinh, việc này trở nên phức tạp hơn do số lượng lớn và tính đa dạng của các thông tin chưa được tổ chức hoặc phân loại một cách hợp lý chứa trong các tài liệu. Điều này gây ra khó khăn cho các y bác sĩ và các nghiên cứu sinh trong việc nghiên cứu, phân tích sự khác biệt về những chỉ số biểu hiện Gen giữa 2 nhóm người. Những Gen có chỉ số biểu hiện cao hoặc thấp hơn bình thường chính là dấu hiệu của bệnh mà họ muốn nghiên cứu. 21
- Huỳnh Hữu Nghĩa và CS Hình 1. Website của National Center for Biotechnology Information - NCBI [5] Dữ liệu y sinh thường chứa các kết quả từ các phòng thí nghiệm, liên quan đến biểu hiện gen trên bệnh nhân, bao gồm cả những người mắc bệnh ung thư và không ung thư. Đây là một nguồn thông tin quý giá, nhưng để có thể sử dụng tối đa, dữ liệu này cần được tổ chức và chuyển đổi thành dạng có cấu trúc. [3] Hiện nay, dữ liệu y sinh thường được công bố qua nhiều nguồn, bao gồm các trang web chính thống được quản lý bởi các tổ chức y tế và nghiên cứu, cùng với các công bố khoa học trong các tạp chí uy tín. Trong bài báo này, nhóm tác giả sử dụng dữ liệu được cung cấp bởi Quốc Viện Y học Hoa Kỳ (National Institutes of Health - NIH) thông qua Trung tâm Thông tin Y học Quốc gia (I). Hình 2. Dữ liệu sinh học được lấy từ website NCBI Tuy nhiên, với dữ liệu ở dạng không có cấu trúc (Hình 2), việc tìm kiếm và phân tích các biểu hiện gen đặc biệt giữa các nhóm bệnh nhân trở nên vô cùng phức tạp và mất thời gian. Ước tình mỗi người có từ 20.000 đến 25.000 Gen [6]. Phân tích Gen giữa hai nhóm người bệnh thì những chỉ số mà họ phải nghiên cứu lên đến hàng trăm ngàn, và việc thống kê, tính toán cũng như xử lý số liệu là việc cần phải mất rất nhiều thời gian và công sức. Một vấn đề lớn khi xử lý dữ liệu văn bản không cấu trúc là khả năng phân tích và tóm tắt các thông tin quan trọng một cách tự động và hiệu quả. Với một lượng lớn thông tin được chứa trong các báo cáo và tài liệu y sinh, việc thực hiện thủ công để trích xuất và phân loại thông 22
- tin có thể trở nên không khả thi và tốn kém. Điều này không chỉ là một quá trình tốn thời gian mà còn dễ dàng dẫn đến các sai sót và không chính xác trong quá trình xử lý. Đặc biệt, việc xử lý dữ liệu văn bản y sinh đòi hỏi sự hiểu biết sâu rộng về lĩnh vực y sinh và genom học, cùng với kỹ năng về xử lý ngôn ngữ tự nhiên và máy học. Để giải quyết vấn đề này, cần phải phát triển các công cụ và phương pháp tự động để chuyển đổi dữ liệu văn bản không cấu trúc thành dữ liệu có cấu trúc. [7] Công cụ này có thể sử dụng các kỹ thuật tiên tiến của máy học và xử lý ngôn ngữ tự nhiên để tự động nhận dạng, trích xuất và phân loại các thông tin quan trọng từ các tài liệu y sinh. Việc tự động hóa quá trình chuyển đổi dữ liệu từ không cấu trúc sang có cấu trúc giúp giảm thiểu thời gian và chi phí cho các nhà nghiên cứu. Thay vì phải tiêu tốn nhiều ngày hoặc thậm chí tháng để thực hiện thủ công, các công cụ tự động có thể hoàn thành công việc này một cách nhanh chóng và hiệu quả hơn. Giúp các nhà nghiên cứu dễ dàng truy cập và sử dụng các công cụ phân tích thống kê để tìm kiếm và phát hiện ra các mẫu và xu hướng quan trọng. Từ đó đưa ra những phát hiện mới về bệnh ung thư và di truyền, phát triển các phương pháp điều trị mới và hiệu quả hơn, giúp cải thiện chất lượng điều trị cho bệnh nhân. Thành công trong việc xử lý dữ liệu văn bản không cấu trúc sẽ mang lại nhiều lợi ích, bao gồm việc giảm thiểu thời gian và chi phí cho nhà nghiên cứu, tăng cường khả năng phân tích và hiểu biết về dữ liệu y sinh, và tạo ra những tri thức mới trong lĩnh vực y sinh và genom học. Đồng thời, việc này cũng mở ra cơ hội để ứng dụng những công nghệ mới nhất vào việc nghiên cứu và điều trị bệnh. Phần tiếp theo sẽ mô tả yêu cầu của hệ thống chuyển đổi dữ liệu văn bản không có cấu trúc về dạng có cấu trúc để có truy xuất dễ dàng, phân tích thống kê và phân tích mối quan hệ giữa các thông tin trong văn bản. 2. MÔ TẢ YÊU CẦU HỆ THỐNG Yêu cầu của hệ thống được xác định dựa trên phân tích đặc điểm của dữ liệu đầu vào và mong muốn của người dùng trong lĩnh vực nghiên cứu y sinh. Dữ liệu đầu vào ở dạng văn bản không có cấu trúc (xem hình 2) thể hiện ba nội dung chính gồm thông tin liên quan đến công bố, thông tin lâm sàng và thông tin y sinh. Thông tin tài liệu thể hiện ngày sinh ra dữ liệu, ngày cập nhật cuối cùng, mô tả tóm tắt nội dung của tài liệu. Thông tin lâm sàng bao gồm danh sách bệnh nhân ung thư và không ung thư, tuổi, giới tính, tình trạng sức khoẻ, v.v. [8] Thông tin y sinh gồm tập các mã số bệnh nhân, danh sách các tên gen và giá trị biểu hiện gen trên bệnh nhân cụ thể. Yêu cầu đầu tiên của hệ thống là tách dữ liệu đầu vào ra ba phần lưu thành ba tập tin khác nhau gồm dữ liệu về thông tin tài liệu, dữ liệu về thông tin lâm sàng và dữ liệu biểu hiện gen. Yêu cầu tiếp theo là xây dựng cơ sở dữ liệu bao gồm ba quan hệ tài liệu, lâm sàng và biểu hiện gen. Yêu cầu thứ ba là chuyển đổi dữ liệu từ ba tập tin (tài liệu, lâm sàng và biểu hiện gen) vào các quan hệ tương ứng trong cơ sở dữ liệu. Sau khi chuyển đổi thành công hệ thống có thêm chức năng phân tích thống kê tìm ra những gen có biểu hiện khác thường giữa tập bệnh nhân ung thư và không ung thư. Kết quả thống kê này cung cấp thông tin hữu ích cho những nhà nghiên cứu y sinh dễ dàng nhanh chóng tìm ra những gen có khả năng gây ra bệnh ung thư. Kiến trúc hệ thống được đề xuất nhằm giải quyết yêu cầu của hệ thống được mô tả phần tiếp theo. 3. KIẾN TRÚC HỆ THỐNG 23
- Huỳnh Hữu Nghĩa và CS Kiến trúc hệ thống được đề xuất bao gồm các thành phần như dữ liệu đầu vào, xử lý chia tách dữ liệu, chuyển đổi dữ liệu, kho dữ liệu và phân tích dữ liệu (xem hình 3). Chức năng của từng thành được trình bày như sau. Hình 3. Mô tả kiến trúc hệ thống 3.1 Dữ liệu đầu vào Thông tin dữ liệu đầu vào là một tập tin văn bản chứa thông tin liên quan tới phòng xét nghiệm/thí nghiệm, thông tin lâm sàng và y sinh. 3.2 Xử lý chia tách dữ liệu Dữ liệu được biểu diễn theo nhiều dạng khác nhau, không đồng nhất. [8]Phần thông tin lâm sàng được biểu diễn theo từng dòng, còn ở thông tin y sinh được biểu diễn theo dạng ma trận hai chiều. Điều này gây khó khăn trong việc xử lý và phân tích dữ liệu một cách tự động. Vì vậy, cần có chức năng để phân tách dữ liệu thành các tập tin riêng biệt, mỗi tập tin chứa một loại thông tin cụ thể, giúp cho việc quản lý và xử lý dữ liệu trở nên dễ dàng hơn. Dữ liệu chứa thông tin liên quan đến tài liệu gồm những dòng có chứa từ khoá series, thông tin liên quan đến lâm sàng là những dòng có chứa từ khoá sample và còn lại dữ liệu biểu hiện gen. Dựa trên những từ khoá nêu trên để tách dữ liệu văn bản thành ba tập khác nhau. Kết quả xử lý tách dữ liệu liên quan đến thông tin tài liệu được lưu vào tập tin với tên là *-series.txt, dữ liệu liên quan đến thông tin lâm sàng được lưu vào tập tin với tên là *- sample.txt và một tập chứa thông tin về biểu hiện gen được lưu với tên *-table.txt. Từ tập tin ban đầu, để phân tách thành 3 tập tin khác nhau sẽ áp dụng thuật toán sau đây: Read all lines from file into array lines For each line in lines: If line equals "Series" (case-insensitive): Append line to file *-series.txt Else if line equals "Sample" (case-insensitive): Append line to file *-sample.txt Else: Append line to file *-table.txt 24
- 3.3 Chuyển đổi dữ liệu 3.2.1 Dữ liệu tài liệu Dữ liệu tài liệu được chuyển đổi lưu trữ trong cơ sở dữ liệu nhằm đích truy hồi thông tin về nguồn gốc cũng như thời gian mà dữ liệu được sinh ra. Thông tin lưu trữ gồm một số thông tin chọn lọc không phải toàn bộ dữ liệu. 3.2.2 Dữ liệu lâm sàng Dữ liệu lâm sàng chứa thông tin của những bệnh nhân ung thư và không ung thư được lấy mẫu làm xét nghiệm. Dữ liệu lưu trữ theo từng dòng như một dòng lưu danh sách mã số bệnh nhân, một dòng lưu danh sách tuổi bệnh nhân, v.v. Mỗi dòng được xem như một thuộc tính của bệnh nhân, số lượng thuộc tính khác nhau giữa các phòng thí nghiệm dẫn đến dữ liệu không đồng nhất. Việc chuyển đổi dữ liệu lâm sàng chỉ thực hiện trên một số thuộc tính mà người dùng quan tâm để đưa vào quản lý và phân tích dữ liệu như mã số bệnh nhân, tình trạng (ung thư hoặc không ung thư), hút thuốc hay không, tuổi, giới tính, v.v. 3.2.3 Dữ liệu biểu hiện Gen Dữ liệu chứa thông tin về biểu hiện Gen được lưu trữ dạng ma trận hai chiều, tiêu đề cột mã số bệnh nhân và tiêu đề dòng là mã Gen, giao giữa dòng và cột là giá trị biểu hiện Gen của bệnh nhân tương ứng. Dạng dữ liệu này không thể tính toán thống kê cần được chuyển về dạng có cấu trúc để thuận lợi trong thống kê. 3.4 Cơ sở dữ liệu Cơ sở dữ liệu được thiết kế để lưu trữ dữ liệu có cấu trúc. Dựa trên kết quả phân tích dữ liệu đầu vào và nhu cầu thông tin theo yêu cầu của người dùng thì cấu trúc cơ sở dữ liệu gồm ba quan hệ (table) như sau: Quan hệ Document lưu một số thông tin cơ bản về tài liệu được sinh ra, quan hệ ClinicalTable lưu trữ những thông tin về lâm sàng và quan hệ BioTable lưu giá trị biểu hiện Gen của từng bệnh nhân (xem hình 4). 25
- Huỳnh Hữu Nghĩa và CS Hình 4. Lược đồ cơ sở dữ liệu. 3.5 Phân tích dữ liệu Sau khi dữ liệu văn bản không có cấu trúc được chuyển về dạng có cấu trúc thì hệ thống phát triển các chức năng phân tích dữ liệu. Yêu cầu đầu tiên trong phân tích dữ liệu là tìm những Gen có biểu hiện khác biệt giữa hai nhóm bệnh nhân ung thư và không ung thư. Mục đích của yêu cầu này giúp những nhà nghiên cứu y sinh xác định được những Gen nào có thể nghi ngờ có khả năng cao gây ra bệnh ung thư. Dựa trên kết quả này nhà nghiên cứu y sinh sẽ tiến hành một loạt các thực nghiệm trên tập Gen bị nghi ngờ. Trước đây những nhà nghiên cứu y sinh sử dụng một số công cụ đơn giản như excel để hỗ trợ quá trình phân tích thủ công và họ mất nhiều thời gian để tìm ra những Gen có biểu hiện khác biệt giữa hai nhóm bệnh ung thư và không ung thư. [9] Phân tích áp dụng phương pháp giá trị trung bình trong thống kê, chỉ số biểu hiện của những Gen mà không có khả năng gây ra bệnh ung thư có độ chênh lệch nhỏ (có thể xem là không đáng kể) trong hai nhóm bệnh nhân ung thư và không ung thư, còn chỉ số biểu hiện của những Gen có khả năng gây ra bệnh ung thư sẽ có độ chênh lệch lớn (đáng kể) giữa hai nhóm bệnh nhân. Hệ thống không xử lý tìm ra những Gen có độ chênh lệch lớn (vì không định nghĩa được giá trị ngưỡng) mà tính ra độ lệch trung bình của từng Gen dựa trên hai nhóm bệnh nhân ung thư và không ung thư. Những nhà nghiên cứu y sinh sẽ đưa ra ý kiến nhận định riêng dựa trên độ lệch trung bình mà hệ thống toán được. 4. HIỆN THỰC HỆ THỐNG Hệ thống được phát triển bằng công nghệ .NET và sử dụng ngôn ngữ C# để hiện thực các tính năng và công cụ quản lý cơ sở dữ liệu được xây dựng trên nền tảng SQL Server. Kết quả hiện thực hệ thống được trình bày chi tiết trong phần tiếp theo. 4.1 Xử lý tách dữ liệu Phần thực hiện này, người dùng bấm nút chức năng Folder Input để chọn thư mục chứa dữ liệu cần tách, hệ thống sẽ đọc tất cả các tên tập tin dữ liệu vào danh sách tập tin (Hình 5) 26
- Hình 5. Giao diện tách tập tin Dưới đây là mô tả chi tiết về form File Split: Khi nhấn nút "Folder Input" để chọn thư mục chứa các tập dữ liệu mà người dùng muốn xử lý. Địa chỉ của thư mục sẽ hiện ở textbox bên dưới và toàn bộ tập tin văn bản có trong thư mục được chọn sẽ hiện ở ListView bên trái. Để chọn vị trí lưu trữ dữ liệu sau khi tách, người dùng nhấn chọn nút "Folder Output" để lấy vị trí của thư mục lưu trữ dữ liệu. Ở đây người dùng có thể chọn tách toàn bộ tập văn bản có trong danh sách bằng nút "Folder Process" hoặc chọn một tập tin riêng lẻ để xử lý bằng cách nhấn chọn một tập tin văn bản trong ListView sau đó chọn "File Process". Ở đây một tập tin văn bản đầu vào sẽ được tách thành ba tập văn bản: *_Series.txt chứa các thông tin cơ bản của phòng thí nghiệm, *_Sample.txt chứa các dữ liệu lâm sàng và *_Table.txt chứa các dữ liệu y sinh. Về cách đặt tên các dữ liệu sau khi tách nhóm nghiên cứu lấy tên của tập văn bản ban đầu đã bỏ đi phần “_series-matrix'”sau đó kết hợp với ý nghĩa của từng phần. Ví dụ: tập tin GSE102079_series_matrix.txt sẽ được tách thành ba file là GSE102079_Series.txt, GSE102079_Sample.txt và GSE102079_Table.txt. Sau đó nhấn chọn "Close" để đóng form và tiếp tiệp các bước tiếp theo. 4.2 Chuyển đổi dữ liệu 4.2.1 Chuyển đổi thông tin tài liệu Trước hết, người dùng cần chọn nút "Folder Input" để tải lên thư mục chứa tập tin cần lưu trữ, hệ thống sẽ hiển thị danh sách các tập tin có trong thư mục đã chọn. Khi xử lý dữ liệu, chọn tập tin liên quan đến tài liệu có đuôi "_Series.txt" và chọn nút “File Process”, hệ thống sẽ đọc toàn bộ thông tin và hiển thị lên bảng (Hình 6). Người dùng chỉ cần chọn những thuộc tính cần quan tâm để lưu trữ trong cơ sở dữ liệu, hệ thống hỗ trợ người dùng lưu trữ những thông tin như tên tập tin, ngày đăng tải, ngày cập nhật gần nhất và tóm tắt tài liệu. Phần mềm sẽ đc mở rộng ra trong tương lai nếu người dùng cần lưu trữ thêm những nội dung khác của tập tin. 27
- Huỳnh Hữu Nghĩa và CS Hình 6. Giao diện lưu tập tin 4.2.2 Chuyển đổi thông tin lâm sàng Khi nhấn chọn "Folder Input" để chọn thư mục chứa các tập tin văn bản cần xử lý, danh sách các tập tin có trong thư mục sẽ hiển thị ở ListView "Folder Input". Khi người dùng chọn 1 tập dữ liệu chứa thông tin lâm sàng cần được phân tích, chương trình sẽ đọc toàn bộ những thuộc tính có trong tập thông tin lâm sàng đưa vào danh sách ở "Map Columns" và hiển thị tất cả dữ liệu tương ứng của từng thuộc tính vào "Loading Data" theo dạng cột. Tuy nhiên, người dùng không quan tâm hết tất cả các thuộc tính và từng tập dữ liệu khác nhau thì số lượng và nội dung các thuộc tính sẽ khác nhau. Vì vậy chương trình cung cấp cho người dùng có sự ánh xạ để chỉ lưu trữ những thuộc tính quan trọng mà người dùng muốn phân tích. Danh sách các thuộc tính có thể ánh xạ sẽ được trích xuất từ cơ sở dữ liệu và hiển thị trong các ô lựa chọn (combobox). Người dùng có thể chọn thuộc tính mà họ quan tâm từ danh sách này và xác định cột tương ứng trong cơ sở dữ liệu để lưu trữ giá trị. Ở đây "Loading Data" hiển thị các dữ liệu thực tế có trong tập tin lâm sàng để người dùng dễ dàng xem xét và lựa chọn những thuộc tính nào cần đưa vào cơ sở dữ liệu. Ví dụ thuộc tính "type" có id là 6 tương ứng với các dữ liệu có ở cột 6 trong "Loading Data" và người dùng có thể dễ dàng lựa chọn thuộc tính ánh xạ tương ứng là "Gene Type". Sau khi người dùng hoàn tất việc lựa chọn, nút "Save to Database" để lưu trữ những thuộc tính đã được chọn vào cơ sở dữ liệu. (Hình 7). Hình 7. Giao diện lưu dữ liệu lâm sàng 28
- 4.2.3 Chuyển đổi thông tin y sinh Người dùng chọn nút "Folder Input" để tải lên thư mục chứa tập tin cần lưu trữ, hệ thống sẽ hiển thị danh sách các tập tin có trong thư mục đã chọn. Khi xử lý dữ liệu, chọn tập tin liên quan đến tài liệu có đuôi "_Table.txt" có chứa những biểu hiện gen và chọn nút “File Process”, hệ thống sẽ đọc toàn bộ thông tin và hiển thị lên bảng cho người dùng đọc, tham khảo. Dữ liệu đọc từ tập tin văn bản có dữ liệu hiển thị như một ma trận với hàng trên cùng, tiêu đề cột là mã số bệnh nhân và cột đầu tiên, tiêu đề dòng là danh mục các gen, biểu diễn dưới dạng như trên rất khó nhìn, vì thế hệ thống có phần biến đổi lại về dạng từng cột (Hình 8) và cách biến đổi này cũng là cách để lưu vào cơ sở dữ liệu, chuyển về thành văn bản có cấu trúc. Cách biểu diễn văn bản có cấu trúc này sẽ thuận lợi cho việc truy vấn, thống kê, tính toán trong tương lai. Hình 8. Giao diện chức năng đọc dữ liệu từ database hiển thị lên Datagridview 4.3 Phân tích dữ liệu Bên cạnh chuyển đổi dữ liệu từ văn bản ko có cấu trúc sang có cấu trúc thì hệ thống còn cung cấp một chức năng nữa là thống kê số liệu. Trong phần thống kê này, chương trình sẽ xử lý và tính toán ra được mức độ khác biệt gen giữa hai tập bệnh nhân bệnh ung thư và không bệnh ung thư. Một tập gen được thể hiện trên nhiều bệnh nhân thì khi đó sẽ tính trung bình để ra được giá trị trung bình cộng và bên tập bệnh nhân ung thư cũng tính tương tự. Độ chênh lệch được tính bằng cách lấy 2 giá trị vừa nêu trừ đi cho nhau. Hai bảng số liệu (Hình 9) là như nhau nhưng một bên được thể hiện thành từng dòng trong bảng gây khó khăn trong việc đọc, bên còn lại, hệ thống cũng cung cấp biểu đồ trực quan hóa dữ liệu cho người dùng nhìn vào biểu đồ dễ phát hiện những gen có biểu hiện bất thường cũng như giúp những nhà phân tích dữ liệu dễ dàng xác định được những gen nào cần có sự nghi ngờ để nghiên cứu chuyên sâu xem gen đó có gây ra bệnh ung thư hay không. 29
- Huỳnh Hữu Nghĩa và CS Hình 9. Giao diện thể hiện biểu đồ 5. TỔNG KẾT Trong bài báo này, nhóm tác giả đã trình bày về đề xuất một công cụ chuyển đổi dữ liệu dạng văn bản (phi cấu trúc) về dữ liệu có cấu trúc. Đối với dữ liệu có cấu trúc này đã tạo điều kiện thuận lợi trong việc thống kê và phân tích dữ liệu. Ngoài các chức năng chuyển đổi dữ liệu, công cụ cũng đã phát triển chức năng phân tích dữ liệu để tìm ra những gen khác biệt giữa hai nhóm bệnh nhân ung thư và không ung thư nhằm giúp cho các nhà nghiên cứu y sinh tiết kiệm rất nhiều thời gian. Kết quả nghiên cứu này là cơ sở cho những nghiên cứu tiếp theo về việc thu thập và chuyển đổi nhiều nguồn dữ liệu đầu vào nhằm xây dựng cơ sở dữ liệu lớn cho lĩnh vực y sinh (big data for biomedical), mở rộng các tính năng phân tích dữ liệu chuyên sâu và trực quan hóa dữ liệu để cung cấp nhiều thông tin bổ ích cho nghiên cứu. TÀI LIỆU THAM KHẢO [1] K. H-J, “Managing Unstructured Big Data in Healthcare System,” 2019. [Trực tuyến]. Available: https://e-hir.org/journal/view.php?id=10.4258/hir.2019.25.1.1. [2] “What Are Clinical Trials?,” National Cancer Institute - Cancer.gov. [3] G. M. WEBER, K. D. MANDL và I. S. KOHANE, “Finding the missing link for big biomedical data,” Jama, tập 311.24 , pp. 2479-2480 , 2014. [4] S. Topics, “Unstructured Data—an overview”. [5] Affymetrix, “[HT_HG-U133A] Affymetrix HT Human Genome U133A Array,” 2006. [Trực tuyến]. Available: 30
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL3921. [6] N. L. o. M. (US), “What is a gene?,” 2007. [Trực tuyến]. [7] D. e. a. STEPHENSON, “Precompetitive Consensus Building to Facilitate the Use of Digital Health Technologies to Support Parkinson Disease Drug Development through Regulatory Science,” Digital biomarkers, tập 4.Suppl. 1, pp. 28-49, 2020. [8] K. e. a. Kim, “A text-based data mining and toxicity prediction modeling system for a clinical decision support in radiation oncology,” 2017. [Trực tuyến]. Available: https://link.springer.com/article/10.3938/jkps.71.231. [9] F. o. M. S. H. M. U. B. T. Department of Orthopedic Surgery, “imitations of Using Microsoft Excel Version 2016 (MS Excel 2016) for Statistical Analysis for Medical Research,” Journal of Spinal Disorders & Techniques (LWW Journals). [10] K. H. e. a. KIM, “A text-based data mining and toxicity prediction modeling system for a clinical decision support in radiation oncology: a preliminary study,” Journal of the Korean Physical Society, tập 71, pp. 231-237, 2017. ABSTRACT BUILDING BIOMEDICAL DATA CONVERSION TOOL Huynh Huu Nghia1, *, Le Nguyen Thao Nguyen1, Duong Ngoc Huong Tra1, Nguyen Mai Quynh Giao1 1 Ho Chi Minh City University of Industry and Trade * Email: nghiahh@huit.edu.vn Biomedical researchers regularly study clinical data and gene expression data provided from laboratories to understand abnormal gene expression in cancer and non-cancer patient groups; find samples of patients with cirrhosis and primary liver cancer; Find information about survival, disease-free survival and recurrence to build and test a disease prognosis model. Researchers encounter many difficulties in reading documents to find information due to large data, stored in unstructured text, and the inability to use supporting software tools. Therefore, there is a need to transform the data into a structured and statistically computable form. The goal of the article is to build a software tool to convert data from unstructured text to structured data. Keywords: Biomedical data conversion tool, biomedical data processing, biomedical data analysis. 31
CÓ THỂ BẠN MUỐN DOWNLOAD
-
SỬ DỤNG CÔNG CỤ LẬP TRÌNH MACRO VBA XÂY DỰNG CÁC TIỆN ÍCH XỬ LÝ VĂN BẢN
8 p | 641 | 236
-
Bài giảng môn thiết kế web - CHƯƠNG VIII DREAMWEAVER
76 p | 377 | 164
-
Quy trình làm seo
4 p | 164 | 83
-
Chuyển trang ASP.NET sang Ajax với Magic
8 p | 215 | 67
-
Những công cụ không thể thiếu cho PC
16 p | 179 | 48
-
Đồ họa máy tính - Chương 5: Thư viện đồ họa 2D, 3D
19 p | 186 | 22
-
Mạng xã hội thay đổi việc kinh doanh như thế nào?
6 p | 116 | 16
-
Mô hình kết hợp giữa ChatGPT và một số công nghệ AI khác tự động tạo Short-Video tại Việt Nam
10 p | 41 | 16
-
SEO, nghề hấp dẫn "dân" công nghệ thông tin
3 p | 57 | 14
-
Cách xây dựng AuthorRank năm 2013 như thế nào?
15 p | 71 | 6
-
Nghiên cứu mô phỏng các hệ thống hàng đợi
6 p | 101 | 6
-
Lướt web an toàn với công cụ mã hóa DNS request
2 p | 64 | 6
-
Xây dựng và thử nghiệm công cụ CODEGER-UWE phát triển ứng dụng Web hướng mô hình
5 p | 28 | 5
-
Nghiên cứu xây dựng, khai thác kho dữ liệu
11 p | 42 | 4
-
Bài giảng Phân tích Web: Phần 2 - ThS. Nguyễn Ngọc Anh
80 p | 37 | 4
-
Chuyển đổi các ứng dụng một bên thuê thành các ứng dụng nhiều bên thuê
11 p | 62 | 3
-
Kỷ yếu hội thảo Khoa học và công nghệ
271 p | 9 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn