Luận văn Thạc sĩ Hệ thống thông tin: Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng

Chia sẻ: Yi Yi | Ngày: | Loại File: PDF | Số trang:72

Thêm vào BST

Báo xấu

20
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế Attention kết hợp với mạng BiLSTM dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờ dùng thuốc Vancomycin.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ CẨM VÂN CÁC MÔ HÌNH HỌC SÂU TIÊN TIẾN VÀ ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI THỜI GIAN LÂM SÀNG LUẬN VĂN THẠC SĨ Ngành: Hệ thống thông tin HÀ NỘI - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Cẩm Vân CÁC MÔ HÌNH HỌC SÂU TIÊN TIẾN VÀ ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI THỜI GIAN LÂM SÀNG LUẬN VĂN THẠC SĨ Ngành: Hệ thống thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thuỵ TS. Trần Mai Vũ HÀ NỘI - 2019
Tóm tắt Trong thập kỉ qua, lượng dữ liệu được lưu trữ trong hồ sơ sức khỏe điện tử (Electronic Heath Records) tăng lên nhanh chóng, việc sử dụng các hệ thống EHR đã tăng lên rất nhiều ở cả bệnh viện và cơ sở chăm sóc. Các hệ thống EHR lưu trữ dữ liệu liên quan đến mỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và kết quả trong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng ... Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quan điểm vận hành, nhiều nghiên cứu đã tìm thấy việc sử dụng cho các ứng dụng tin học lâm sàng. Trong những năm gần đây, cộng đồng nghiên cứu về chăm sóc sức khỏe ứng dụng các công nghệ trí tuệ nhân tạo ngày càng tăng để cung cấp các phương pháp phân tích dữ liệu lớn và hỗ trợ ra quyết định trong chẩn đoán lâm sàng. Một trong những lý do chính cho điều này là tác động to lớn của việc áp dụng các kĩ thuật học sâu để sử dụng dữ liệu lớn trong các trường hợp phân tích hồ sơ chăm sóc sức khỏe phức tạp. Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế Attention kết hợp với mạng BiLSTM dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờ dùng thuốc Vancomycin. Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu từ cơ sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập: LSTM, Attention và BiLSTM để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất. Từ khóa: Dự đoán sự kiện lâm sàng, EHR, MIMIC-III, Nhồi máu cơ tim, Nhiễm trùng huyết, Vancomycin, Học sâu trong y tế. iii
Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới PGS.TS. Hà Quang Thuỵ, người thầy đã mang đến cho em nguồn cảm hứng vô tận trong nghiên cứu khoa học. Em thật sự biết ơn những giúp đỡ, lời khuyên và sự tận tình hướng dẫn của thầy trong luận văn cũng như định hướng nghiên cứu trong suốt thời gian học tập và làm việc tại Phòng Thí nghiệm và Công nghệ tri thức (DS&KT Lab - Đại học Công nghệ, Đại học quốc gia Hà Nội. Em muốn gửi lời cảm ơn sâu sắc đến TS. Trần Mai Vũ, người đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em không chỉ trong quá trình thực hiện đề tài luận văn này mà còn trong suốt quãng thời gian học tập và nghiên cứu tại Phòng Thí nghiệm. Em xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo trong Khoa Công nghệ thông tin nói riêng và trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung, đã truyền đạt kiến thức quý báu cho em trong những năm tháng ngồi trên ghế nhà trường. Em xin gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong DS&KTLab, đặc biệt là chị Quỳnh, chị Hồng, chị Yến, Trang và Cát đã giúp đỡ em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành luận văn tốt nghiệp này. Cuối cùng, con xin nói lên lòng biết ơn vô hạn đối với gia đình, những người luôn luôn chăm sóc, là nguồn động viên, khích lệ con, giúp con vượt qua những khó khăn trong cuộc sống. Gửi tới chồng em, cảm ơn anh đã luôn bên cạnh em qua bao thăng trầm trong cuộc sống, luôn là điểm tựa vững chắc để em vượt qua mọi khó khăn và cố gắng hoàn thiện bản thân mình từng ngày. Tôi xin chân thành cảm ơn! iv
Lời cam đoan Tôi xin cam đoan rằng luận văn thạc sĩ hệ thống thông tin "Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng" là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS. Hà Quang Thuỵ và TS.Trần Mai Vũ. Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích dẫn nguồn gốc rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn này, không có việc sao chép tài liệu, các công trình nghiên cứu của người khác mà không trích dẫn nguồn. Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng cũng như kết quả luận văn của mình. Học viên cao học Nguyễn Thị Cẩm Vân v
Mục lục Tóm tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv Lời cam đoan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Mục lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Danh mục thuật ngữ viết tắt và giải nghĩa . . . . . . . . . . . . . . . . . . . . . . ix Danh sách hình vẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x Danh sách bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii 1 Khái quát bài toán phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . 1 1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . . . 1 1.1.1 Giới thiệu về chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng . . . . . 2 1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . 3 1.2.1 Hệ thống chấm điểm trong ICU . . . . . . . . . . . . . . . . . . . 3 1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc sức khỏe lớn MIMIC-III . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Khó khăn và thách thức trong phân tích chuỗi thời gian lâm sàng . . . . . 10 1.4 Giới thiệu về ba mục tiêu dự báo: Nhiễm trùng huyết, Nhồi máu cơ tim, và nồng độ Vancomycin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.1 Nhiễm trùng huyết . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2 Nhồi máu cơ tim . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.3 Vancomycin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5 Phát biểu bài toán của luận văn . . . . . . . . . . . . . . . . . . . . . . . . 12 vi
2 Mô hình bộ nhớ dài ngắn hạn hai chiều BiLSTM . . . . . . . . . . . . . . . 14 2.1 Mạng nơ-ron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Mạng truyền thẳng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Học với mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.1 Hàm lỗi và cực tiểu hóa Gradient Descent . . . . . . . . . . . . . 17 2.3.2 Lan truyền ngược . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.3 Hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4 Bộ nhớ dài ngắn hạn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4.1 Mạng nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4.2 Mạng bộ nhớ dài ngắn hạn . . . . . . . . . . . . . . . . . . . . . . 20 2.4.3 Bộ nhớ dài ngắn hạn hai chiều . . . . . . . . . . . . . . . . . . . . 21 2.5 Cơ chế chú ý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6 Cơ chế che dấu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3 Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.1 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.1.1 Dữ liệu đầu vào của mô hình . . . . . . . . . . . . . . . . . . . . . 26 3.1.2 Áp dụng cơ chế che dấu . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.3 Áp dụng cơ chế chú ý . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.4 Các lớp BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.2 Đường cong AUC-ROC . . . . . . . . . . . . . . . . . . . . . . . 30 4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1 Môi trường thực nghiệm và cài đặt cấu hình . . . . . . . . . . . . . . . . . 32 4.1.1 Thư viện xây dựng mô hình . . . . . . . . . . . . . . . . . . . . . 32 4.1.2 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . 33 4.1.3 Cài đặt tham số mô hình . . . . . . . . . . . . . . . . . . . . . . . 33 4.2 Dữ liệu và phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.2 Xây dựng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.3.1 Kết quả thực nghiệm 1: Dự đoán trong ngày . . . . . . . . . . . . 38 4.3.2 Kết quả thực nghiệm 2: Dự đoán ngày hôm sau . . . . . . . . . . 39 vii
4.3.3 Kết quả thực nghiệm 3: Đánh giá dựa trên mức độ sẵn có của dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.3.4 Nghiên cứu mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.3.5 Định hướng nghiên cứu tương lai . . . . . . . . . . . . . . . . . . 45 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Danh sách bài báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 viii
Danh mục thuật ngữ viết tắt và giải nghĩa Attention Mechanism Cơ chế chú ý AUC Diện tích phía dưới đường cong Bi-directional Long Short-term Memory (BiLSTM) Bộ nhớ dài ngắn hạn hai chiều Electronic Heath Record (EHR) Bản ghi sức khỏe điện tử Intensive Care Unit (ICU) Đơn vị chăm sóc chuyên sâu Long short-term memory (LSTM) Bộ nhớ dài ngắn hạn Medical Information Mart for Intensive Care III (MIMIC-III) Trung tâm thông tin y tế cho chăm sóc chuyên sâu III Myocardial Infarction (MI) Nhồi máu cơ tim Natural Language Processing (NLP) Xử lý ngôn ngữ tự nhiên Reccurent Neural Network (RNN) Mạng nowrron hồi quy Receiver Operating Characteristic (ROC) Curve Đường cong đặc trưng hoạt động của bộ thu nhận Sepsis Nhiễm trùng máu ix
Danh sách hình vẽ 1 Sự phổ biến của hồ sơ sức khỏe điện tử . . . . . . . . . . . . . . . . . . . xii 1.1 Mô hình xây dựng MIMIC-III. . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1 Mạng nơ-ron nhân tạo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Cấu trúc mạng nơ-ron truyền thẳng . . . . . . . . . . . . . . . . . . . . . 16 2.3 Các hàm kích hoạt khác nhau trong mạng nơ-ron nhân tạo . . . . . . . . . 19 2.4 Mạng nơ-ron hồi quy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Kiến trúc của một đơn vị bộ nhớ dài ngắn hạn LSTM. . . . . . . . . . . . 21 2.6 Kiến trúc mở ra của BiLSTM với ba bước thời gian liên tiếp. . . . . . . . 22 2.7 Cơ chế che dấu cho chuỗi thời gian mất mát dữ liệu. . . . . . . . . . . . . 24 3.1 Mô hình đề xuất. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1 Các bước trích xuất dữ liệu từ MIMIC-III và tiền xử lý. . . . . . . . . . . 34 4.2 SEPSIS ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.3 MI ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.4 Vancomycin ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.5 SEPSIS Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.6 MI Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.7 Vancomycin Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . . 44 4.8 Mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN. . . . . . . . 45 4.9 Mức độ ảnh hưởng của các đặc trưng theo ngày lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN. . . 46 x
Danh sách bảng 1.1 Một số loại chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . . 6 1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . . 7 1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . . 8 2.1 Một số hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.1 Tham số mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3 Kết quả dự báo trong ngày trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.4 Kết quả dự báo cho ngày tiếp theo trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.5 Kết quả dự đoán của các mô hình trên các nhiệm vụ mục tiêu theo ngày. . 39 4.6 Kết quả AUC của LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . . . . . . . . 41 4.7 Kết quả AUC của Attention+LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 41 4.8 Kết quả AUC của mô hình BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 42 4.9 Kết quả AUC của Attention+BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 42 xi
Mở đầu Chăm sóc sức khỏe là một trong những ứng dụng nổi bật của khai phá dữ liệu và học máy, nó đã thu hút được sự quan tâm nghiên cứu của cộng đồng nghiên cứu trong thời gian gần đây. Điều này có được phải kể đến việc áp dụng rộng rãi hồ sơ sức khỏe điện tử (EHR – Electronic Heath Records) trong đời sống xã hội, tạo ra một nguồn dữ liệu lâm sàng kĩ thuật số vô cùng phong phú, ví dụ: các đơn vị chăm sóc tăng cường (ICU – Intensive Care Unit), thường bao gồm các giá trị đa biến được quan sát theo chuỗi thời gian tương ứng với các phép đo cảm biến, kết quả xét nghiệm và các đánh giá chủ quan khác. Hình 1: Sự phổ biến của hồ sơ sức khỏe điện tử Một thách thức phổ biến trong chăm sóc sức khỏe hiện nay là các bác sĩ có quyền truy cập vào một lượng lớn dữ liệu về bệnh nhân, nhưng có ít thời gian cũng như công cụ hỗ trợ để đưa ra quyết định điều trị. Hỗ trợ ra quyết định dự đoán về kết quả lâm sàng xii
tại thời điểm chăm sóc dành riêng cho bệnh nhân đóng vai trò quan trọng trong chẩn đoán y học. Hồ sơ sức khỏe điện tử hiện rất phổ biến trong chăm sóc sức khỏe trên thế giới. Những dữ liệu này đang được sử dụng với tần suất tăng dần để dự đoán các sự kiện trong tương lai. Trong khi các mô hình dự đoán đã được phát triển để dự đoán nhu cầu, hầu hết các công việc hiện tại đã tập trung vào các mô hình dự đoán chuyên biệt dự đoán một tập hợp kết quả hạn chế. Tuy nhiên, thực hành lâm sàng hàng ngày liên quan đến sự pha trộn không theo lịch trình và không đồng nhất của các kịch bản và cần các mô hình dự đoán khác nhau trong hàng trăm đến hàng ngàn bản ghi. Việc phát triển và triển khai các mô hình chuyên ngành từng cái một là không thực tế. Cùng với sự phát triển của mạng nơ ron học sâu, nhiều mô hình được đề xuất cho bài toán phân tích dữ liệu lâm sàng [23, 28]. Phương pháp cổ điển để phân tích dữ liệu chăm sóc sức khỏe tập trung vào việc trích xuất các đặc trưng được xử lý bằng tay và xây dựng các mô hình dự đoán theo nhiệm vụ cụ thể. Các mô hình học máy thường đối mặt với thách thức là các yếu tố như nhu cầu phụ thuộc dài hạn, lấy mẫu không đều và các giá trị bị thiếu. Trong những năm gần đây, mạng nơ ron hồi quy RNN dựa trên bộ nhớ dài ngắn hạn LSTM đã trở thành giải pháp thực tế để xử lý dữ liệu chuỗi thời gian lâm sàng. RNN được thiết kế để mô hình hóa dữ liệu có độ dài khác nhau và đã đạt được các kết quả tiên tiến trong mô hình hóa trình tự, chú thích hình ảnh và gần đây trong chẩn đoán lâm sàng. Hơn nữa, các LSTM có hiệu quả trong việc khai thác các phụ thuộc tầm xa và xử lý phi tuyến. Các RNN thực hiện tính toán tại mỗi vị trí của chuỗi thời gian bằng cách tạo ra một chuỗi các trạng thái ẩn dưới dạng hàm của trạng thái ẩn trước đó và đầu vào cho vị trí hiện tại. Bản chất tuần tự vốn có này làm cho việc song song hóa thách thức. Mặc dù những nỗ lực để cải thiện hiệu quả tính toán mô hình tuần tự đã xuất hiện gần đây, một số hạn chế vẫn còn tồn tại. Công trình gần đây của Vaswani và cộng sự [29] lập luận rằng các cơ chế chú ý, mà không có bất kỳ sự tái phát, có thể có hiệu quả trong các nhiệm vụ mô hình hóa theo trình tự. Các cơ chế chú ý (Attention Mechanism) được sử dụng để mô hình hóa các phụ thuộc theo trình tự mà không quan tâm đến khoảng cách thực tế của chúng trong chuỗi [1]. Do đó, luận văn quan tâm đến việc áp dụng các mô hình học sâu vào việc phân tích dữ liệu lâm sàng, cụ thể là bài toán dự đoán sự kiện lâm sàng hỗ trợ cho việc ra quyết định trong chẩn đoán lâm sàng sử dụng dữ liệu hồ sơ sức khỏe điện tử. xiii
Các đóng góp chính của luận văn • Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế chú ý kết hợp với bộ nhớ dài ngắn hạn hai chiều với mục đích dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờ dùng thuốc Vancomycin hỗ trợ trong việc ra quyết định chẩn đoán lâm sàng. • Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu từ cơ sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập: Mạng bộ nhớ dài ngắn hạn, Cơ chế chú ý và Mạng bộ nhớ dài ngắn hạn hai chiều để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất. • Luận văn cũng nghiên cứu và đánh giá sự đóng góp của các đặc trưng đối với từng sự kiện mục tiêu nhằm tăng hiệu suất cho mô hình và cung cấp cái nhìn sâu sắc hữu ích về một số khía cạnh của phương pháp mà luận văn đề xuất trong các nghiên cứu tương lai. Ngoài phần Mở đầu và Kết luận, luận văn được cấu trúc bao gồm các Chương sau: Chương 1: Khái quát bài toán phân tích chuỗi thời gian lâm sàng: Trong chương ngày, luận văn giới thiệu sơ lược về bài toán phân tích dữ liệu chuỗi thời gian lâm sàng nói chung và bài toán dự đoán sự kiện lâm sàng nói riêng. Bên cạnh đó, luận văn giới thiệu về các phương pháp tiếp cận phổ biến trong phân tích và dự đoán chuỗi thời gian lâm sàng và các nghiên cứu liên quan.Luận văn đồng thời phân tích các khó khăn và thách thức của bài toán và phát biểu bài toán sẽ triển khai trong luận văn này. Chương 2: Mô hình bộ nhớ dài ngắn hạn hai chiều BiLSTM: Trong chương này, luận văn giới thiệu về mô hình BiLSTM. Đồng thời, luận văn trình bày các kiến thức nền tảng về trí tuệ nhân tạo, các mô hình học sâu cơ sở như mạng nơ-ron hồi quy, bộ nhờ dài ngắn hạn, cơ chế chú ý... và các kĩ thuật xử lý dữ liệu được sử dụng trong luận văn Chương 3: Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM: Trong chương này, luận văn đầu tiên giới thiệu về các mô hình đề xuất của luận văn. Chương 4: Thực nghiệm và kết quả: Luận văn trình bày chi tiết về môi trường thực nghiệm, chi tiết các pha trong quá trình triển khai mô hình, các kịch bản thực nghiệm và tham số của mô hình. Luận văn đồng thời trình bày chi tiết kết quả đạt được xiv
và đưa ra nhận xét. Kết luận: Trình bày tổng kết lại các đóng góp của luận văn và các kết quả đã đạt được. Các điểm hạn chế cũng như kế hoạch cải tiến mô hình đề xuất trong tương lai sẽ được trình bày trong chương này. xv
Chương 1 Khái quát bài toán phân tích chuỗi thời gian lâm sàng 1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng 1.1.1 Giới thiệu về chuỗi thời gian Một chuỗi thời gian là một tập hợp các quan sát được thực hiện tuần tự theo thời gian. Thời gian tiến hành quan sát có thể thường xuyên hoặc khoảng cách không đều. Hơn nữa, thời gian có thể liên tục hoặc rời rạc [26]. Định nghĩa: Theo [4], một chuỗi thời gian được định nghĩa như sau: Với k ∈ N, T ∈ R, một hàm x : T → Rk , t → xt , tương đương với một tập các chỉ mục xt |xt ∈ R, t ∈ T được gọi là một chuỗi thời gian được quan sát. Chúng ta cũng có thể viết tương đương xt (t ∈ T ) hoặc (xt )t∈T Với k N, T ⊆ R, một không gian xác suất (Ω, F, P ), hay một tập các chỉ mục của các biến ngẫu nhiên Xt |X + t ∈ Rk , t ∈ T, (Xt )t∈T ∼ P được gọi là một chuỗi thời gian hay một mô hình chuỗi thời gian. Trong đó, Ω = (Rk )T là không gian của hàm X : T → Rk , F là đại số φ trong Ω, P là xác suất trên (Ω, F). Bảng 1.1 mô tả một số loại chuỗi thời gian Xt ∈ R(t ∈ T, T 6= ∅) 1
Bảng 1.1: Một số loại chuỗi thời gian Giá trị Thuật ngữ k=1 Chuỗi thời gian đơn biến k≥2 Chuỗi thời gian đa biến T đếm được, ∀a < b ∈ R : T ∩ [a, b] hữu hạn Thời gian rời rạc T rời rạc, ∃u ∈ R+ s, t, tj+1 − tj = u Thời gian bình đẳng T = [a, b](a < b ∈ R), t = R+ hoặc T = R Thời gian liên tục 1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng Thập kỷ qua đã chứng kiến sự bùng nổ về lượng thông tin kỹ thuật số được lưu trữ trong hồ sơ sức khỏe điện tử (EHR).Các hệ thống EHR lưu trữ dữ liệu liên quan đến mỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và kết quả trong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng và nhiều hơn nữa [5]. Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quan điểm vận hành, nhiều nghiên cứu đã tìm thấy việc sử dụng cho các ứng dụng tin học lâm sàng [6, 16]. Cụ thể, dữ liệu bệnh nhân có trong các hệ thống EHR đã được sử dụng cho các nhiệm vụ như trích xuất khái niệm y tế [17, 24], mô hình quỹ đạo bệnh nhân [11], suy luận bệnh tật [20]. Trong cùng thời gian, cộng đồng học máy đã chứng kiến những tiến bộ rộng rãi trong lĩnh vực học sâu và ứng dụng trong phân tích hồ sơ sức khỏe điện tử. Việc sử dụng các hệ thống EHR đã tăng lên rất nhiều ở cả bệnh viện và cơ sở chăm sóc xe cứu thương [6, 7]. Việc sử dụng EHR tại bệnh viện và phòng khám có khả năng cải thiện chăm sóc bệnh nhân bằng cách giảm thiểu sai sót, tăng hiệu quả và cải thiện sự phối hợp chăm sóc, đồng thời cung cấp nguồn dữ liệu phong phú cho các nhà nghiên cứu. Các hệ thống EHR có thể khác nhau về chức năng, nhưng ngay cả các hệ thống EHR cơ bản cũng có thể cung cấp nhiều thông tin về tiểu sử bệnh, các biến chứng và lịch sử sử dụng thuốc của bệnh nhân [7]. Cho đến vài năm trước, hầu hết các kỹ thuật phân tích dữ liệu EHR phong phú đều dựa trên các kỹ thuật thống kê và học máy truyền thống như hồi quy logistic, máy vectơ hỗ trợ (SVM) và rừng ngẫu nhiên [19]. Gần đây, các kỹ thuật học sâu đã đạt được thành công lớn trong nhiều lĩnh vực thông qua xây dựng mạng nơ-ron nhân tạo và nắm bắt các phụ thuộc tầm xa trong dữ liệu theo cách hiệu quả [21]. Do sự gia tăng phổ biến của các 2
phương pháp học sâu và số lượng dữ liệu bệnh nhân ngày càng lớn, cũng đã có sự gia tăng số lượng nghiên cứu áp dụng học sâu vào dữ liệu EHR cho các nhiệm vụ tin học lâm sàng [9, 17, 25], mang lại hiệu suất tốt hơn các phương pháp truyền thống và yêu cầu kỹ thuật tiền xử lý và tính năng tốn ít thời gian hơn. Hồ sơ y tế điện tử của mỗi bệnh nhân có thể được biểu diễn dưới dạng một chuỗi thời gian đa biến (multivariate time series). Giả sử chúng ta có r biến quan sát, bệnh nhân thứ n trong số N bệnh nhân có thể được biểu diễn bằng một chuỗi T (n) với các bộ (n) (n) (n) (ti , (xi ∈ R × Rr trong đó i = 1, . . . , T (n) . Dấu thời gian ti biểu thị lần nhập viện thứ i của bệnh nhân thứ n và T (n) là số lượt khám của bệnh nhân n. Mục tiêu của mô hình dự đoán là để dự đoán nhãn ở mỗi bước yi ∈ 0, 1s hoặc ở cuối dãy yi ∈ 0, 1s . Số lượng các nhãn có thể nhiều hơn 1. Ví dụ: Trong mô hình trình tự truy cập (ESM) [8], mỗi lần truy cập hay một lần nhập viện của một bệnh nhân, trình tự truy cập được thể hiện bằng một bộ mã số y tế khác nhau c1 , c2 , . . . , cn . cj là mã thứ j từ từ vựng C . Do đó, trong ESM, số lượng biến r = |C| và đầu vào xi ∈ 0, 1|C| là một vector nhị phân trong đó giá trị của thứ j chỉ ra rằng cj là dữ liệu của lần truy cập thứ i. Đưa ra một chuỗi các lượt truy cập x1 , x2 , . . . , xT , mục tiêu của ESM là tại mỗi bước thời gian i, cần phải dự đoán mã tương ứng cho lần truy cập x2 , x3 , . . . , xT +1 với số lượng nhãn là s = |C|. Trong trường hợp học mã (L2D) hay dự đoán mã cho chuỗi thời gian lâm sàng[22], vector đầu vào xi chứa các giá trị liên tục đo được trong quá trình điều trị. Giả sử có r các giá trị đo được khác nhau, thì xi ∈ Rr . Mục tiêu của L2D là đưa một chuỗi đầu vào x1 , x2 , . . . , xT để dự đoán sự xuất hiện của một bệnh cụ thẻ s = 1 hoặc nhiều bệnh (s > 1). Không mất tính tổng quát, L2D có thể được xem là một trường hợp đặc biệt của ESM. 1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng 1.2.1 Hệ thống chấm điểm trong ICU Thang đo nghiêm trọng là những điều chỉnh quan trọng trong điều trị tại khoa chăm sóc đặc biệt (ICU) để dự đoán kết quả điều trị của bệnh nhân, so sánh chất lượng chăm sóc và phân tầng cho các thử nghiệm lâm sàng. Mặc dù điểm số nghiêm trọng của bệnh không phải là yếu tố chính của điều trị, tuy nhiên, chúng là một phần thiết yếu của sự cải thiện trong các quyết định lâm sàng và trong việc xác định bệnh nhân có kết quả không mong muốn. Các mô hình dự đoán phải đối mặt với nhiều thách thức, nhưng, việc áp 3
dụng đúng các mô hình này sẽ giúp đưa ra quyết định đúng lúc và giảm chi phí bệnh viện. Trên thực tế, chúng đã trở thành một công cụ cần thiết để mô tả các quần thể ICU và để giải thích sự khác biệt về tỷ lệ tử vong. Tuy nhiên, cũng cần lưu ý rằng việc lựa chọn thang điểm, chỉ số hoặc mô hình điểm nghiêm trọng phải phù hợp chính xác với sự kiện, cài đặt hoặc ứng dụng; khi áp dụng sai, các hệ thống như vậy có thể dẫn đến lãng phí thời gian, tăng chi phí, ngoại suy không chính đáng và khoa học kém. Bài viết này cung cấp một cái nhìn tổng quan ngắn gọn về thang đo mức độ nghiêm trọng của ICU (cùng với các tính toán tỷ lệ tử vong / tỷ lệ sống dự đoán của họ) được phát triển trong 3 thập kỷ qua, bao gồm một vài trong số chúng đã được sửa đổi cho phù hợp. Trong hầu hết các hệ thống tính điểm, điểm số được tính từ dữ liệu thu thập được vào ngày đầu tiên của ICU - sinh lý cấp tính và đánh giá sức khỏe mãn tính (APACHE), điểm sinh lý cấp tính đơn giản (SAPS) và mô hình dự đoán tử vong (MPM). Những người khác lặp đi lặp lại và thu thập dữ liệu mỗi ngày trong suốt thời gian ở ICU hoặc trong 3 ngày đầu tiên - rối loạn chức năng nội tạng và hệ thống nhiễm trùng (ODIN), đánh giá suy cơ quan tuần tự (SOFA), điểm rối loạn chức năng đa cơ quan (MODS), rối loạn chức năng cơ quan hậu cần (LOD) mô hình và kết quả kiểm tra lại ICU trong ba ngày (TRIOS). Điểm số có thể là chủ quan hoặc khách quan. [5] Điểm số chủ quan được thiết lập bởi một nhóm các chuyên gia chọn các biến và gán trọng số cho từng biến dựa trên ý kiến cá nhân của họ. Ví dụ: APACHE II, ODIN và SOFA. Các biến số điểm khách quan được thu thập bằng cách sử dụng các kỹ thuật mô hình hồi quy logistic và phán đoán lâm sàng để xác định phạm vi và để gán trọng số. Ví dụ: APACHE III, SAPS II, MPM II, MODS, điểm LOD (LODS) và TRIOS. 1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc sức khỏe lớn MIMIC-III 1.2.2.1 Giới thiệu về MIMIC-III Bộ dữ liệu MIMIC-III bao gồm các dữ liệu y tế được thu thập tại Trung tâm y tế Beth Israel Deaconess ở Boston, Massachusetts, Hoa Kỳ. Bộ dữ liệu này chứa dữ liệu từ 38.597 bệnh nhân khác nhau, được thu thập từ năm 2001 đến 2012. Đồng thời, nó được kết hợ từ hai cơ sở dữ liệu riêng biệt đó là cơ sở dữ liệu CareVue và cơ sở dữ liệu Metavision. Trái với dữ liệu của Bệnh viện Đại học Ghent, MIMIC-III không chỉ chứa các thông số liên quan đến chẩn đoán cấy máu. Một loạt các chẩn đoán được lưu giữ trong cơ sở dữ liệu. Nó nhằm mục đích cung cấp một bộ sưu tập dữ liệu đa dạng cho các loại phân 4
tích y tế khác nhau. Mặc dù MIMIC-III là một cơ sở dữ liệu mở, quyền truy cập chỉ được cấp sau khi hoàn thành một quy trình được xác định. Việc hoàn thành chương trình Sáng kiến Đào tạo Thể chế Hợp tác (CITI) liên quan đến dữ liệu hoặc nghiên cứu mẫu vật cần phải được chứng minh. Hơn nữa, danh tính và viện nghiên cứu liên kết của người nộp đơn được xem xét. MIMIC-III xây dựng thêm dựa trên cơ sở dữ liệu MIMIC-II phổ biến đã được sử dụng trong nhiều nghiên cứu khác nhau. Trong quá trình hoàn thành luận văn này, tôi đã hoàn thành chương trình đào tạo liên quan đến dữ liệu nói trên và được cấp quyền truy cập cơ sở dữ liệu MIMIC-III. Giấy chứng nhận được đặt tại Phụ lục. Hình 1.1: Mô hình xây dựng MIMIC-III. Các bảng của bộ dữ liệu này được trình bày chi tiết tại Bảng 1.2. 5