Khóa luận tốt nghiệp: Bước đầu xây dựng mạng tương tác y học áp dụng trí tuệ nhân tạo lên dữ liệu sách y khoa của Đại học Oxford

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:63

Thêm vào BST

Báo xấu

34
lượt xem 9
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài "Bước đầu xây dựng mạng tương tác y học áp dụng trí tuệ nhân tạo lên dữ liệu sách y khoa của Đại học Oxford" xây dựng được mạng tương tác nhờ của các phương pháp học máy của trí tuệ nhân tạo dối với tập dữ liệu thu thập được; kiểm định định tính được mạng tương tác đã xây dựng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Khóa luận tốt nghiệp: Bước đầu xây dựng mạng tương tác y học áp dụng trí tuệ nhân tạo lên dữ liệu sách y khoa của Đại học Oxford

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC Y DƯỢC ------ LÊ VĂN TUYÊN BƯỚC ĐẦU XÂY DỰNG MẠNG TƯƠNG TÁC Y HỌC ÁP DỤNG TRÍ TUỆ NHÂN TẠO LÊN DỮ LIỆU SÁCH Y KHOA CỦA ĐẠI HỌC OXFORD KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC HÀ NỘI - 2022
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC Y DƯỢC ------ Người thực hiện: LÊ VĂN TUYÊN BƯỚC ĐẦU XÂY DỰNG MẠNG TƯƠNG TÁC Y HỌC ÁP DỤNG TRÍ TUỆ NHÂN TẠO LÊN DỮ LIỆU SÁCH Y KHOA CỦA ĐẠI HỌC OXFORD KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC Khóa: QH.2017.Y Cán bộ hướng dẫn 1: ThS. LÊ ĐÌNH KHIẾT Cán bộ hướng dẫn 2: ThS. NGUYỄN THÁI HÀ DƯƠNG HÀ NỘI - 2022
LỜI CẢM ƠN Em là Lê Văn Tuyên, sinh viên K6 Dươc̣ ho ̣c. Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể Ban Giám hiệu Trường Đại học Y Dược, Đại học Quốc Gia Hà Nội và Bộ môn Y Dược học cơ sở đã tạo điều kiện cho em được làm khóa luận tốt nghiệp. Em xin chân thành cảm ơn các thầy cô giáo trong trường đã dìu dắt, giúp đỡ em hoàn thành chương trình học tập suốt 5 năm qua. Sau này dù có ra trường, em sẽ vẫn nhớ rằng mình là một người con, một người trò của ngôi trường thân thương đã nuôi nấng mình lên người. Những kỉ niệm ở đây em chắc chắn không bao giờ quên. Em xin bày tỏ lòng biết ơn sâu sắc đến ThS. Lê Đình Khiết và ThS. Nguyễn Thái Hà Dương, những người đã luôn tận tình hướng dẫn, tạo điều kiện giúp đỡ em hoàn thành khóa luâ ̣n, nhờ sự chỉ bảo của hai thầy em đã học hỏi được rất nhiều điều bổ ích. Thầy là nguồn cảm hứng và tạo cho em động lực rất nhiều. Cảm ơn em Vi Thế Quang và Nguyễn Quang Trung đã giúp đỡ anh rất nhiều trong bài nghiên cứu này, nhờ có hai em mà anh đã giải quyết được rất nhiều khó khăn khi thực hiện đề tài. Cuối cùng em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và người thân đã luôn quan tâm, động viên giúp em hoàn thành khóa luận. Dù đã rất cố gắng, nhưng lần đầu làm nghiên cứu em khó tránh khỏi những thiếu sót. Em rất mong nhận được ý kiến đóng góp của các thầy cô để khoá luận thêm hoàn thiện. Em xin chân thành cảm ơn! Hà Nội, ngày 26 tháng 06 năm 2022 Sinh viên Lê Văn Tuyên
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT AI Artificial Intelligence (Trí tuệ nhân tạo) EMR Electronic Medical Records (Hồ sơ bệnh án điện tử) KG Knowledge Graph (Mạng tương tác) NLP Natural Language Processing( Xử lý ngôn ngữ tự nhiên) TMK Textual Medical Knowledge (Kiến thức Y tế dạng văn bản)
DANH MỤC CÁC BẢNG Bảng 3.1. Bảng thông kê tập dữ liệu gốc ................................................................... 15 Bảng 3.2. Bảng thông kê tập dữ liệu nghiên cứu ....................................................... 15 Bảng 3.3. Bảng thống kê tập dữ liệu gốc sau tiền xử lý ............................................. 16 Bảng 3.4. Danh sách các từ khóa .............................................................................. 17 Bảng 3.5. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu gốc ....... 20 Bảng 3.6. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Tim mạch ................................................................................................................................. 22 Bảng 3.7. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Nội tiết 24 Bảng 3.8. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Thần kinh ................................................................................................................................. 26 Bảng 3.9. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ liệu gốc ..................................................................................................................... 28 Bảng 3. 10. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ liệu Tim mạch........................................................................................................... 30 Bảng 3.11. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ liệu Nội tiết............................................................................................................... 32 Bảng 3.12. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ liệu Thần kinh........................................................................................................... 34 Bảng 3.13. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu gốc............................................................................................................................ 36 Bảng 3.14. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu Tim Mạch ................................................................................................................. 38 Bảng 3.15. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu Nội tiết ..................................................................................................................... 40 Bảng 3.16. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu Thần kinh ................................................................................................................. 42
DANH MỤC CÁC HÌ NH Hình 1. 1. Minh họa một mạng tương tác ................................................................ 3 Hình 1. 2. Mạng tương tác được tạo bằng cách trích xuất thực thể và quan hệ........ 5 Hình 2. 1. Minh họa cách lượng hóa ảnh hưởng của từ khóa B lên từ khóa A…… 12 Hình 3. 1. Mạng tương tác Y học dưới góc nhìn toàn cảnh của tập dữ liệu gốc…. 19 Hình 3. 2. Mạng tương tác Y học dưới góc nhìn toàn cảnh của tập dữ liệu Tim mạch .............................................................................................................................. 21 Hình 3. 3. Mạng tương tác Y học dưới góc nhìn toàn cảnh của tập dữ liệu Nội tiết 23 Hình 3. 4. Mạng tương tác Y học dưới góc nhìn toàn cảnh của tập dữ liệu Thần kinh .............................................................................................................................. 25 Hình 3. 5. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu gốc ............... 27 Hình 3. 6. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Tim mạch ..... 29 Hình 3. 7. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Nội tiết ......... 31 Hình 3. 8. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Thần kinh ..... 33 Hình 3. 9. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu gốc .................... 35 Hình 3. 10. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Tim mạch ......... 37 Hình 3. 11. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Nội tiết............. 39 Hình 3. 12. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Thần kinh......... 41
MỤC LỤC LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU ................................................................................................................ 1 CHƯƠNG 1: TỔNG QUAN ................................................................................... 3 1.1. Tổng quan về mạng tương tác trong trí tuệ nhân tạo ................................... 3 1.1.1. Khái niệm mạng tương tác ................................................................ 3 1.1.2. Trí tuệ nhân tạo ................................................................................ 3 1.1.3. Xây dựng mạng tương tác bằng trí tuệ nhân tạo ................................ 4 1.2. Mạng tương tác trong Y học ....................................................................... 5 1.3. Các nghiên cứu liên quan ........................................................................... 7 1.3.1. Mạng tương tác trong lĩnh vực Y tế .................................................. 7 1.3.2. Mạng tương tác Y học trong thế giới thực: xây dựng và ứng dụng .... 7 1.3.3. Nghiên cứu mạng tương tác Y học về đột quỵ .................................. 8 1.4. Ý nghĩa của nghiên cứu .............................................................................. 9 CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ....................... 10 2.1. Đối tượng nghiên cứu ............................................................................... 10 2.2. Phương pháp nghiên cứu .......................................................................... 10 2.2.1. Xây dựng mạng ................................................................................. 10 2.2.2. Kiểm định mạng ................................................................................ 13 CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN ............................................................ 15 3.1. Dữ liệu .................................................................................................. 15 3.2. Xây dựng mạng ..................................................................................... 16 3.2.1. Tiền xử lý dữ liệu ........................................................................... 16 3.2.2. Danh sách từ khóa .......................................................................... 16 3.2.3. Ma trận tương tác ........................................................................... 17 3.3. Mạng tương tác và kiểm định định tính ................................................. 17 3.3.1. Mạng tương tác tổng thể ................................................................. 19 3.3.2. Mạng tương tác Triệu chứng và Cơ quan ........................................ 27
3.3.3. Mạng tương tác Bệnh và Triệu chứng ............................................. 35 CHƯƠNG 4: KẾT LUẬN ..................................................................................... 43 TÀI LIỆU THAM KHẢO PHỤ LỤC
MỞ ĐẦU Sự vận động bình thường, ổn định của cơ thể sống là kết quả của sự tương tác đa chiều, phức tạp của rất nhiều yếu tố. Sự bất thường của yếu tố này dẫn đến tới sự bất thường trong hoạt động của các yếu tố khác thông qua sự tương tác. Việc hiểu được sự tương tác, mối quan hệ của các yếu tố mở ra cơ hội hiểu được và kiểm soát các bất thường và từ đó nhanh chóng xử lý tình trạng bệnh lý. Tuy nhiên việc xây dựng được biểu đồ tương tác phức tạp này trong lĩnh vực Y học tương đối khó khăn. Những thách thức đó đến cả từ việc cần xử lý một lượng rất lớn các thông tin lẫn sự phức tạp đặc thù của dữ liệu. Thông thường, các mạng tương tác (Knowledge Graph- KG) thường được xây dựng bởi các chuyên gia của các chuyên ngành hẹp và thường ở dạng tri thức ẩn (taxit knowledge). Cũng do đó, các mạng này thường có kích thước nhỏ và phụ thuộc vào năng lực lẫn kinh nghiệm của các chuyên gia. Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà tốc độ phân tích đáp ứng không kịp với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo (Artificial Intelligence-AI) bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là sự kết hợp giữa năng tư duy của con người và năng lực tính toán của máy tính, cho phép tăng tốc các quá trình xử lý. Nó đã có những bước tiến lớn trong các bài toán xử lý ảnh, nhận diện hình ảnh, dịch máy,… tiêu biểu trong game khi robot Alpha-Go đã chơi thắng nhà vô địch cờ vây thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên cứu để áp dụng cho hầu hết các lĩnh vực của cuộc sống. Cũng như thế, trong lĩnh vực Y tế nó còn được gọi là health-informatics hay medical informatics, được kì vọng sẽ tạo ra sự bùng nổ tri thức, giảm bớt được sức người. Trong nghiên cứu này, chúng tôi cũng sử dụng hướng tiếp cận trí tuệ nhân tạo, dùng các thuật toán học máy phân tích trên dữ liệu Y học để xây dựng mạng tương tác. Tuy nhiên, chúng tôi có sự cải biến khi áp dụng trên dữ liệu văn bản Y khoa là các sách thay vì dữ liệu bệnh án. Sự khác nhau về cấu trúc dữ liệu, cũng như mật độ thông tin loãng hơn, và lượng tri thức nhiều hơn có thể dẫn tới sự khó khăn trong việc 1
cô đọng thông tin. Tuy nhiên, chúng tôi kỳ vọng xây dựng được mạng tương tác có tính phổ dụng rộng và ít bị chi phối hơn bởi thiên lệch trong phân bố dữ liệu. Xuấ t phát từ những thực tế trên, đề tài “Xây dựng mạng tương tác Y học áp dụng trí tuệ nhân tạp lên dữ liệu văn bản” đươc̣ thực hiê ̣n với những mu ̣c tiêu: 1. Xây dựng được mạng tương tác nhờ của các phương pháp học máy của trí tuệ nhân tạo dối với tập dữ liệu thu thập được. 2. Kiểm định định tính được mạng tương tác đã xây dựng. 2
CHƯƠNG 1: TỔNG QUAN 1.1. Tổng quan về mạng tương tác trong trí tuệ nhân tạo 1.1.1. Khái niệm mạng tương tác Mạng tương tác (KG) là một cách biểu diễn dữ liệu bằng đồ thị, nó bao gồm “nốt - cạnh – nốt” biểu thị mối quan hệ phong phú của các thực thể với nhau trong thế giới thực. Nốt đại diện cho “một yếu tố”, “một thực thể” hoặc “một khái niệm” và cạnh biểu thị mối quan hệ giữa hai thực thể. Ví dụ, trong Hình 1. 1., một bộ ba: Thực thể 1, Thực thể 2 và Quan hệ 1 liên kết giữa chúng. KG có thể kết hợp cả dữ liệu không có cấu trúc và dữ liệu có cấu trúc [1]. Thực thể 1 Thực thể 5 Quan hệ 6 Thực thể 2 Quan hệ 4 Thực thể 6 Quan hệ 2 Thực Thực thể 4 thể 3 Quan hệ 3 Hình 1. 1. Minh họa một mạng tương tác Việc xây dựng các mạng tương tác thường bị hạn chế vì tính phức tạp và tính đồ sộ của lượng thông tin - tích lũy từ trước và ngày càng tăng nhanh theo thời gian. Vì vậy, sự hỗ trợ của AI có vai trò rất quan trọng trong việc tổng hợp, xây dựng một mạng tương tác hoàn chỉnh, chính xác [33]. 1.1.2. Trí tuệ nhân tạo Trí tuệ nhân tạo (AI) được định nghĩa là một lĩnh vực khoa học máy tính [26]. Trí tuệ nhân tạo là trí tuệ do con người lập trình với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người. Sau một thời gian khó khăn trong việc tìm kiếm tài trợ cho các dự án AI [34] và tốn nhiều chi phí, đến thế kỷ 21, AI đã 3
hồi sinh sau những tiến bộ vượt bậc của sức mạnh máy tính, Big Data,… AI đã trở thành một phần thiết yếu của ngành công nghệ. Trong các công việc thường ngày, con người có thể nhầm lẫn khi mắc lỗi hoặc thực hiện nhiều công việc lặp đi lặp lại như gửi thư cảm ơn, trả lời email, ... Khi sử dụng AI, các dữ liệu được áp dụng các bộ thuật toán cụ thể. AI có thể xử lý hiệu quả các công việc thông thường này, loại bỏ các công việc “nhàm chán” và có thể đạt được độ chính xác ở mức độ cao hơn [4]. 1.1.3. Xây dựng mạng tương tác bằng trí tuệ nhân tạo Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà tốc độ phân tích không kịp đáp ứng với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là sự kết hợp giữa năng tư duy của con người và năng lực tính toán của máy tính, cho phép tăng tốc các quá trình xử lý. Nó đã có những bước tiến lớn trong các bài toán xử lý ảnh, nhận diện hình ảnh, dịch máy,… tiêu biểu trong game khi robot Alpha-Go đã thắng nhà vô địch cờ vây thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên cứu để áp dụng cho hầu hết các lĩnh vực của cuộc sống. Và việc xây dựng mạng tương tác bằng trí tuệ nhân tạo là một thách thức lớn trong thời đại công nghệ ngày nay. Có hai hình thức xây dựng mạng tương tác là thủ công hoặc bán tự động. Việc xây dựng các mạng tương tác theo cách thủ công vẫn rất tốn kém. Do đó, bất kỳ sự tự động hóa nào cũng có thể đạt được một mạng tương tác hiệu quả, tiết kiệm chi phí hơn. Cho đến một vài năm trước, các thuật toán xử lý ngôn ngữ tự nhiên (Natural Language Processing-NLP) và thị giác máy tính (Computer Vision) đang cố gắng trong việc nhận dạng thực thể từ văn bản và phát hiện đối tượng từ hình ảnh. Do những tiến bộ gần đây, các thuật toán này đang bắt đầu vượt ra khỏi các nhiệm vụ cơ bản để trích xuất các mối quan hệ giữa các thực thể. Trong đó các quan hệ được trích xuất có thể được lưu trữ để xử lý và suy luận thêm. Trích xuất thực thể và trích xuất quan hệ từ văn bản là hai nhiệm vụ cơ bản trong NLP. Các phương pháp tiếp cận dựa trên quy tắc cú pháp của câu hoặc các thực thể, mối quan hệ có thể được xác định trong văn bản đầu vào [31]. Thông tin được trích xuất từ nhiều phần của văn bản cần phải có mối tương quan. Ví dụ, trong Hình 1. 2., có các thực thể: “Albert Einstein, Đức, Nhà vật lý lý thuyết, Thuyết tương đối” và các quan hệ: “sinh ở, nghề nghiệp, đã phát triển”. Khi 4
đoạn kiến thức này được kết hợp vào một KG lớn hơn, có thể sử dụng suy luận logic để có được các liên kết (quan hệ) bổ sung (được thể hiện bằng các đường nét đứt), chẳng hạn như Nhà vật lý lý thuyết thuộc về Nhà vật lý và Thuyết tương đối là một nhánh của Vật lý [31]. Đức Albert Nhà vật lý lý thuyết Nhà vật lý Einstein thực hành Thuyết tương đối Vật lý Hình 1. 2. Mạng tương tác được tạo bằng cách trích xuất thực thể và quan hệ 1.2. Mạng tương tác trong Y học Các nghiên cứu đã khám phá ra các ứng dụng tiềm năng của trí tuệ nhân tạo trong lĩnh vực Y học [13, 20]. Ứng dụng của công nghệ AI trong lĩnh vực phẫu thuật lần đầu tiên được Gunn nghiên cứu thành công vào năm 1976, khi ông khám phá ra khả năng chẩn đoán cơn đau bụng cấp tính bằng cách phân tích thông qua máy tính [9]. Từ đó đến nay đã chứng kiến sự quan tâm đáng kể của AI trong lĩnh vực Y học, ví dụ như hệ thống hỗ trợ quyết định lâm sàng để chẩn đoán và điều trị [3, 5, 22, 32], tự chẩn đoán để hỗ trợ bệnh nhân đánh giá tình trạng sức khỏe dựa trên các triệu chứng [8, 30]. Hầu hết các công trình trước đây đều cố gắng xây dựng KG từ các bài báo liên quan đến Y học. Một số được xây dựng theo cách thủ công và một số khác là bán tự động. Tuy nhiên, việc xây dựng KG theo cách thủ công đòi hỏi thời gian và công sức rất nhiều từ các chuyên gia lâm sàng. Ví dụ, có báo cáo rằng cần khoảng mười lăm năm để xây dựng cơ sở kiến thức Internist-1/QMR [21, 28]. Bán tự động xây dựng KG từ các bài báo là một công việc đầy thách thức vì các dữ liệu gần như không có cấu trúc, rất khó xử lý bằng máy tính. 5
Y học hiện đại đang phải đối mặt với thách thức trong việc tiếp thu, phân tích và áp dụng một lượng lớn các kiến thức cần thiết để giải quyết các vấn đề lâm sàng phức tạp. Trong khi đó thông tin chăm sóc sức khỏe đang phát triển bùng nổ, kiến thức Y tế dạng văn bản (Textual Medical Knowledge-TMK) đang ngày càng chiếm một vị trí quan trọng trong hệ thống thông tin chăm sóc sức khỏe. Vì vậy, một số nghiên cứu đã phát triển và tích hợp TMK vào mạng tương tác để cung cấp cho máy tính việc truy xuất và giải thích các kiến thức Y khoa một cách nhanh chóng và chính xác. Ernst và cộng sự, đề xuất phương pháp xây dựng một mạng tương tác lớn một cách tự động. Nguồn dữ liệu của họ là từ điển đồng nghĩa từ (Unified Medical Language System) và nguồn đầu vào từ nhiều ấn phẩm khoa học và bài đăng trên các cổng thông tin sức khỏe khác nhau [7]. Shi và cộng sự, cung cấp một thuật toán để loại bỏ suy luận vô nghĩa trên biểu đồ kiến thức để cải thiện hiệu suất của kết quả suy luận [27]. Rotmensch và cộng sự, đề xuất tạo một biểu đồ quan hệ giữa các bệnh với các triệu chứng mà dữ liệu có thể lấy từ EMR một cách tự động. Nguồn dữ liệu của họ bao gồm hồ sơ Y tế ở khoa cấp cứu của hơn 270,000 lượt bệnh nhân [25]. Những cách tiếp cận để xây dựng các mạng tương tác Y học phụ thuộc vào thuật ngữ Y tế tiêu chuẩn, vốn còn thiếu trong một số ngôn ngữ như tiếng Trung Quốc. Do đó, những nỗ lực xây dựng các mạng tương tác Y học trên các ngôn ngữ như vậy luôn nhận được kết quả có độ chính xác tương đối thấp. Các thuật toán xây dựng vẫn cần được cải thiện để giải quyết các vấn đề như vậy trong công việc trong tương lai [37]. Sự phát triển của trí tuệ nhân tạo trong việc giúp các bác sĩ lâm sàng chẩn đoán, đưa ra quyết định điều trị và dự đoán kết quả. Chúng được thiết kế để hỗ trợ nhân viên Y tế trong công việc hàng ngày của họ dựa vào các thao tác máy móc với các dữ liệu và kiến thức đã được lưu trữ. Các hệ thống như vậy bao gồm mạng nơ ron nhân tạo (Artificial Neural Network), hệ thống chuyên gia mở, hệ thống thông minh kết hợp, …[23]. Và nhờ sự tiến bộ của công nghệ xử lý dữ liệu lớn (big data) và NLP, tự động khái thác dữ liệu từ hồ sơ sức khỏe điện tử (Electronic Medical Records- EMR) [10, 12, 14-16, 18, 19, 29, 32, 35], khai thác dữ liệu từ các văn bản Y khoa trở thành một xu hướng nghiên cứu đầy hứa hẹn trong việc xây dựng mạng tương tác. 6
1.3. Các nghiên cứu liên quan 1.3.1. Mạng tương tác trong lĩnh vực Y tế Năm 2020, Gyanesh Anand [2] đã xây dựng mạng tương tác Y học với tập dữ liệu đã được thu thập từ các nguồn khác nhau. Nguồn nổi bật là trang web MedIndia. Các nguồn khác là Medline, WebMD và trang web NIH. Dữ liệu Y tế dạng văn bản đã được thu thập từ Bách khoa toàn thư Y tế với mã nguồn mở có sẵn trên mạng internet. Sau khi thu thập dữ liệu, dữ liệu phải được xử lý. Dữ liệu đã xử lý được lưu trữ ở định dạng JSON. Số trang sau khi xử lý còn lại 1742. Tác giả tạo bản thể MedOnto để mô hình hóa các khái niệm khác nhau trong lĩnh vực Y tế. Dữ liệu thực tế được đưa vào bản thể một cách tự động. Phương pháp Entity Recognition (NER) trích xuất thực thể trong trường hợp văn bản ở định dạng ngôn ngữ tự nhiên thuần túy tiếng Anh. MetaMap NER của Unified Medical Language System đã được sử dụng để trích xuất các thực thể mong muốn từ các đoạn văn. Hai phương pháp phân biệt đã được sử dụng để trích xuất các thực thể có liên quan sau đó được thêm vào mạng tương tác. 1.3.2. Mạng tương tác Y học trong thế giới thực: xây dựng và ứng dụng Năm 2020, Linfeng Li cùng các cộng sự [17] đã xây dựng mạng tương tác Y học từ các EMR quy mô lớn. Quy trình xây dựng KG bao gồm 8 bước, đó là chuẩn bị dữ liệu, nhận dạng các thực thể, chuẩn hóa thực thể, trích xuất quan hệ, tính toán thuộc tính, làm sạch biểu đồ, xếp hạng thực thể liên quan và xây dựng KG tương ứng. Mạng tương tác Y học được xây dựng dựa trên dữ liệu y tế từ năm 2015 đến 2018, bao gồm 16,217,270 lượt khám chưa xác định của tổng số 3,767,198 bệnh nhân. Các triệu chứng được trích xuất từ lịch sử bệnh Named Entity Recognition (NER), tất cả các thực thể khác được trích xuất trực tiếp từ trường cấu trúc của EMR. Có thể tồn tại các thuật ngữ khác nhau cho cùng một thực thể, chuẩn hóa chúng đưa về thuật ngữ chuẩn duy nhất (ví dụ Bệnh tật dùng thuật ngữ chuẩn của ICD-10). Khai thác quan hệ, xác định mối liên hệ giữa 2 thực thể. Đối với mỗi quan hệ, bốn thuộc tính cơ bản được tính toán, đó là số lần cùng xuất hiện, xác suất, tính đặc hiệu và độ tin cậy. Các quan hệ và thực thể ở dưới ngưỡng chỉ định sẽ bị xóa. Một thực thể sẽ liên quan dến rất nhiều thực thể khác, vì thế các thực thể được xếp hạng mức độ liên quan bằng cách sử dụng hàm Probability-Specificity-Reliability (PSR). PrTransH được sử dụng để tạo vectơ cho mỗi thực thể và mối quan hệ, chúng được đưa vào một chiều không gian để tạo được một KG hoàn chỉnh. 7
1.3.3. Nghiên cứu mạng tương tác Y học về đột quỵ Năm 2021, Binjie Cheng cùng các cộng sự [6] đã xây dựng một mạng tương tác về bệnh đột quỵ. Đầu tiên, tác giả xây dựng từ điển xoay quanh bệnh đột quỵ, sử dụng chú thích bán tự động và xây dựng mô hình bản thể của KG kết hợp với thuật ngữ Y tế tiêu chuẩn quốc tế như ICD-10. Nghiên cứu xây dựng mô hình bản thể dựa trên phương pháp xây dựng bán tự động kết hợp chú thích thủ công. Phương pháp này có thể thu được bản thể với chất lượng cao hơn và tiết kiệm nguồn nhân lực. Thứ hai, tổng hợp dữ liệu thông tin về bệnh đột quỵ tại 2 trang web: Xunyiwenyao.com, Dingxiangyuan.com và bách khoa toàn thư Baidu. Các nguồn dữ liệu khác nhau yêu cầu các phương pháp xử lý khác nhau, nghiên cứu này sử dụng trình thu thập thông tin phân tán để tự động thu thập dữ liệu Y tế. Và thu được 4,113 thực thể liên quan đến bệnh đột quỵ, thuộc 8 loại thuộc tính. Đồng nhất dữ liệu bằng việc căn chỉnh thuộc tính và chuẩn hóa các giá trị của thuộc tính. Sau đó tính toán độ tương đồng, xác định mối quan hệ giữa các thực thể. Liên kết các thực thể bằng cách ánh xạ vector. Sau đó, KG được xây dựng. Cơ sở dữ liệu bản thể học đột quỵ đã được xây dựng trước đó tiếp tục được cải thiện và bổ sung các dữ liệu mới để KG được cập nhật liên tục để tăng độ chính xác của mối liên kết giữa các thực thể. Với mong muốn khắc phục các khó khăn tồn tại trong việc nghiên cứu và phân tích dữ liệu Y khoa từ đó tạo ra một công cụ hỗ trợ chẩn đoán (Medical Diagnostic Decision Support), trong nghiên cứu này, chúng tôi đề xuất xây dựng mạng tương tác của các yếu tố Y học bằng sự hỗ trợ của các thuật toán trí tuệ nhân tạo. Cụ thể, chúng tôi phân tích dữ liệu văn bản, lọc ra các từ khoá và lượng hoá mối quan hệ của các từ khoá với nhau, sau đó biểu diễn mối quan hệ đó thành một mạng lưới tương tác và đánh giá kết quả. Thông qua nghiên cứu này, chúng tôi kỳ vọng đóng góp một phương pháp xây dựng các mạng tương tác biểu diễn tri thức Y học một cách toàn diện và hiệu quả, hỗ trợ cho các bác sĩ trong chẩn đoán và bệnh nhân trong việc tiếp cận các thông tin Y khoa. Bên cạnh đó, ứng dụng của nghiên cứu này còn mở ra nhiều triển vọng trong liên ngành Y sinh- tin học. 8
1.4. Ý nghĩa của nghiên cứu  Ý nghĩa khoa học: - Nghiên cứu đưa ra cách xây dựng mạng tương tác Y học áp dụng trí tuệ nhân tạo bằng các thuật toán khác nhau. - Các thuật toán được sử dụng có độ chính xác khác nhau khi áp dụng dữ liệu văn bản Y khoa được đưa vào máy tính, nghiên cứu này cho phép đánh giá được sự chính xác của từng thuật toán đối với bộ dữ liệu đã sử dụng. - Diễn giải được cách thức xử lý thông tin của máy tính, đánh giá kết quả được đưa ra, từ đó có thể đánh giá và điều chỉnh nếu có sai sót trong việc đưa ra kết quả đánh giá.  Giá trị thực tiễn: - Phục vụ cho nhân viên Y tế trong việc đưa ra chẩn đoán và quyết định điều trị cho bệnh nhân. - Cung cấp công cụ hữu ích với tính cập nhật cao phục vụ trong Y tế. - Xử lý được lượng thông tin lớn một cách nhanh chóng và chính xác.  Giá trị giáo dục: - Trang bị cho chính mình các kiến thức về trí tuệ nhân tạo và ứng dụng trong Y học, cụ thể là ứng dụng trí tuệ nhân tạo vào xây dựng mạng tương tác Y học. - Nghiên cứu có thể làm tài liệu tham khảo cho học sinh và sinh viên của các trường đại học Y Dược. - Nghiên cứu có thể dùng làm tài liệu tham khảo và phát triển cho các đề tài sau này dựa vào những kết đã thu được. 9
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Đối tượng nghiên cứu Dữ liệu được lựa chọn để phân tích là các Y văn, được viết bằng tiếng Anh và được sử dụng để giảng dạy cũng như áp dụng lâm sàng của các cơ sở giáo dục, Y học đã được công nhận trên thế giới, cụ thể các Y văn này là các sách, giáo trình của trường Đại học Oxford. Các Y văn này được biên soạn bởi các giáo sư, phó giáo sư và có sự tham gia của các giảng viên chuyên ngành, các thạc sỹ, các học giả, … là những người có kiến thức, nghiên cứu chuyên sâu trong lĩnh vực nhất định. Các Y văn tiếng Anh được viết rất chi tiết, đầy đủ và sử dụng từ ngữ chuyên ngành một cách chính xác chuẩn Quốc tế phù hợp với tất cả độc giả. Dữ liệu được thu thập tại trang web: https://oxfordmedicine.com. 2.2. Phương pháp nghiên cứu 2.2.1. Xây dựng mạng 2.2.1.1. Tiền xử lý dữ liệu Hệ thống tiền xử lý dữ liệu (Preprocessing) của Python (ngôn ngữ lập trình) [11] được sử dụng để đọc và nhận diện văn bản thành các trang, từ. Các hình vẽ, mục lục, tài liệu tham khảo, phụ lục đều bị loại bỏ. Các từ tiếng Anh được chuyển về dạng từ gốc, ví dụ “program”, “programs”, “programer”, “programing” đều được chuyển thành “program”. Các từ không mang nghĩa đặc trưng cho Y học hay các lĩnh vực đặc thù (còn gọi là stopword) cũng bị loại bỏ. Sau quá trình này, tất cả các trang trong cùng một nhóm sách được chia ngẫu nhiên thành các tập con, mỗi tập con gồm khoảng 1000 trang và việc có nhiều tập con được dùng cho kiểm định giả thuyết thống kê, đánh giá mức độ tin cậy của giá trị tương tác. 2.2.1.2. Bán tự động đề xuất từ khóa Các từ khoá có thể được tạo ra bằng cách chỉ định trực tiếp bởi con người hoặc do máy đề xuất căn cứ vào tần suất xuất hiện. Ở đây, chúng tôi kết hợp cả hai phương thức trên. Thuật toán học máy tiến hành đếm số lần xuất hiện của mỗi từ có trong dữ liệu. Bằng cách đưa vào giá trị ngưỡng, thuật toán tự động loại bỏ các từ có tần suất 10
dưới ngưỡng. Bước tiếp theo, chúng tôi lọc thủ công tối đa các từ hợp lý (liên quan đến Y học) làm từ khoá. 2.2.1.3. Lượng hóa ma trận tương tác Lượng hoá ma trận tương tác: giá trị tương tác giữa các thực thể xuất phát từ vị trí tương đối của chúng trong văn bản. Chúng xuất hiện càng gần nhau thì khả năng có sự tương tác giữa chúng càng lớn và ngược lại. Trong định lượng, chúng tôi xây dựng thử nghiệm một hàm đánh giá tường minh f cho các cặp từ khoá (A, B) thoả mãn giả thuyết trên. Cụ thể f(A, B) lượng hoá giá trị tương tác của B với A, được gọi là “A cites B” nghĩa là sự xuất hiện của A kéo theo sự xuất hiện của B. Gọi x và y lần lượt là thứ tự của câu chứa từ khoá A và B. Do giả thuyết về A xuất hiện trước rồi mới kéo theo B nên chúng ta chỉ lấy các cặp (x, y) thoả mãn x≤y. Khoảng các câu giữa cặp (A, B) này được định nghĩa là d(A, B) = (y–x). Giá trị tương tác của A kéo theo B trong tập dữ liệu là một phép tổng: n m F(A, B) = ∑ ∑ f(d(Ax , By )) x=0 y≥x Trong nghiên cứu thử nghiệm, chúng tôi sử dụng f là hàm Laplacian [36] với ý nghĩa mức độ tương tác sẽ giảm hàm mũ bậc nhất theo khoảng cách: f(x) = e−αx (α là hệ số dương). Với định nghĩa trên, giá trị tương tác là một số dương, giá trị của nó càng lớn khi cặp từ khoá có càng nhiều vị trí gần nhau. Cũng lưu ý rằng: F(A, B) và F(B, A) là khác nhau, nó phù hợp với việc phản ánh thực tế rằng kết quả của sự tương tác ảnh hưởng lên mỗi yếu tố có mức độ nặng nhẹ khác nhau. 11
Như vậy, giá trị của “A cites B” là tổng khoảng cách của tất cả các cặp Ax, B y sao cho By chỉ tính cho Ax duy nhất đứng trước nó trong văn bản. Điều này được minh hoạ ở Hình 2. 1. Hình 2. 1. Minh họa cách lượng hóa ảnh hưởng của từ khóa B lên từ khóa A 2.2.1.4. Lược giản mạng tương tác Kiểm định thống kê mạng tương tác: Mạng tương tác được biểu diễn bởi một ma trận vuông từ sự tương tác của n thực thể. Tuy nhiên có những giá trị tương tác mang tính ngẫu nhiên đến từ tập dữ liệu. Ma trận này được xây dựng từ các tập con của dữ liệu, sử dụng kiểm định giả thuyết thống kê để bác bỏ các tương tác có độ tin cậy thấp. ̅̅̅ 𝑥 ̅−𝑥 ̅̅̅̅ Kiểm định thông kê t-test: t = 1 2 . 𝑆∆ 𝑆 2 𝑆 2 Trong đó: S∆ = √ 1 + 2 𝑛1 𝑛2 ̅̅̅ 𝑥1 : Giá trị trung bình của tập con thứ nhất ̅̅̅ 𝑥2 : Giá trị trung bình của tập con thứ 2 S1: Độ lệch chuẩn của tập con thứ nhất S2: Độ lệch chuẩn của tập con thứ 2 12