Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:139

Thêm vào BST

Báo xấu

12
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của đề tài "Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh" là nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng cho các hệ hỗ trợ ra quyết định một cách hiệu quả.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Cù Kim Long NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP VÀ ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Cù Kim Long NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP VÀ ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Phạm Văn Hải 2. PGS.TS Hà Quốc Trung Hà Nội - 2023
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong quyển luận án này là công trình nghiên cứu của riêng tôi được hoàn thành dưới sự hướng dẫn của tập thể giáo viên hướng dẫn, PGS.TS. Phạm Văn Hải và PGS.TS. Hà Quốc Trung. Các kết quả khoa học được trình bày trong quyển luận án này là hoàn toàn trung thực và chưa từng được các tác giả khác công bố trước đây. Hà Nội, ngày 25 tháng 5 năm 2023 Tác giả luận án NCS. Cù Kim Long TẬP THỂ GIÁO VIÊN HƯỚNG DẪN HƯỚNG DẪN 1 HƯỚNG DẪN 2 PSG.TS. Phạm Văn Hải PGS.TS. Hà Quốc Trung i
LỜI CẢM ƠN Lời đầu tiên, tác giả xin được bày tỏ lòng biết ơn sâu sắc nhất tới tập thể các thầy hướng dẫn khoa học, PGS.TS. Phạm Văn Hải và PGS.TS. Hà Quốc Trung. Các Thầy đã trực tiếp định hướng nghiên cứu, chia sẻ kinh nghiệm cách viết và công bố các bài báo khoa học, chỉ bảo tận tình, hướng dẫn trách nhiệm, luôn động viên, khuyến khích và tạo nhiều điều kiện thuận lợi nhất cho nghiên cứu sinh trong suốt quá trình làm nghiên cứu tại Đại học Bách khoa Hà Nội. Đặc biệt, các Thầy đã dành nhiều thời gian, công sức để đọc, góp ý và chỉnh sửa tỉ mỉ giúp tác giả có thể hoàn thành xuất sắc quyển luận án tiến sĩ này. Tác giả xin gửi lời cảm ơn chân thành nhất đến Ban Giám hiệu và tập thể cán bộ, giảng viên thuộc Trường Công nghệ thông tin và Truyền thông (Đại học Bách khoa Hà Nội) đã tạo điều kiện giúp đỡ trong suốt quá trình học tập, làm nghiên cứu tại Khoa Khoa học máy tính. Tác giả cũng xin gửi lời cảm ơn sâu sắc nhất đến Bộ phận quản lý đào tạo sau đại học thuộc Phòng Đào tạo (Đại học Bách khoa Hà Nội) đã hướng dẫn nhiệt tình, trách nhiệm về các nội quy, quy chế và thủ tục hành chính trong suốt quá trình làm nghiên cứu sinh. Tác giả xin gửi lời cảm ơn sâu sắc nhất đến Quý thầy/cô, các anh chị em trong Lab AI 4.0, đặc biệt là PGS.TS Lê Hoàng Sơn và các thành viên thuộc nhóm FKG-Group đã đồng hành, giúp đỡ, tạo điều kiện và chia sẻ nhiều kinh nghiệm học thuật quý báu trong suốt quá trình tác giả làm các thực nghiệm, công bố các bài báo khoa học, và đặc biệt là viết quyển luận án tiến sĩ này. Nhờ đó tác giả đã tiếp thu được nhiều ý kiến đóng góp bổ ích và nhận xét xác đáng thông qua các buổi thảo luận khoa học để hoàn chỉnh quyển luận án tiến sĩ của mình. ii
Tác giả xin lời cảm ơn chân thành nhất đến tập thể Ban Giám đốc và các anh chị em đồng nghiệp thuộc Trung tâm Công nghệ thông tin (Bộ Khoa học và Công nghệ) đã tạo điều kiện thuận lợi nhất về thời gian và công việc để tác giả có thể tập trung thời gian hoàn thành nhiệm vụ học tập, làm nghiên cứu và hoàn thiện quyển luận án tiến sĩ. Cuối cùng, tác giả xin được bày tỏ lòng biết ơn vô hạn đến Bố mẹ kính yêu đã luôn tin tưởng, kỳ vọng và động viên con trai của mình. Cảm ơn người vợ hiền Phạm Nguyệt Anh, con trai yêu quý Cù Đăng Hưng và các anh chị em trong gia đình đã luôn đồng hành, cổ vũ và động viên kịp thời về mặt tinh thần trong suốt quá trình làm nghiên cứu sinh, cũng như trong thời gian thực hiện viết quyển luận án này. Tác giả luận án NCS. Cù Kim Long iii
MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN ............................................................................................................ ii MỤC LỤC ................................................................................................................. iv DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ................................................. vii DANH MỤC BẢNG BIỂU ....................................................................................... x DANH MỤC HÌNH VẼ .......................................................................................... xii MỞ ĐẦU .................................................................................................................... 1 1. Tổng quan ............................................................................................................ 1 2. Các công trình nghiên cứu có liên quan .............................................................. 5 3. Mục tiêu, đối tượng và phạm vi nghiên cứu ........................................................ 7 4. Phương pháp nghiên cứu ..................................................................................... 8 5. Những đóng góp mới của luận án ........................................................................ 9 6. Cấu trúc của luận án .......................................................................................... 10 Chương 1. CƠ SỞ LÝ THUYẾT ........................................................................... 12 1.1. Tập mờ ............................................................................................................ 12 1.2. Các hệ suy diễn mờ ......................................................................................... 13 1.2.1. Hệ suy diễn mờ phức dạng Mamdani....................................................... 15 1.2.2. Hệ suy diễn mờ phức dạng Tagaki-Sugeno ............................................. 15 1.3. Đồ thị mờ, cấu trúc đồ thị mờ ......................................................................... 15 1.4. Đồ thị tri thức, đồ thị tri thức mờ ................................................................... 16 1.5. Kỹ thuật Q-learning trong học tăng cường ..................................................... 21 1.6. Phân tích ANOVA .......................................................................................... 23 1.7. Bộ dữ liệu thực nghiệm .................................................................................. 23 iv
1.7.1. Bộ dữ liệu chuẩn UCI ............................................................................... 23 1.7.2. Bộ dữ liệu thực tế ..................................................................................... 25 1.7.3. Phương pháp đánh giá thực nghiệm ......................................................... 28 1.8. Kết luận Chương 1 .......................................................................................... 29 Chương 2. MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP FKG-PAIRS TRONG HỖ TRỢ RA QUYẾT ĐỊNH ................................................................. 30 2.1. Phát biểu bài toán............................................................................................ 30 2.2. Mô hình FKG-Pairs ........................................................................................ 33 2.2.1. Giai đoạn tiền xử lý .................................................................................. 33 2.2.2. Giai đoạn xây dựng đồ thị FKG-Pairs ...................................................... 33 2.2.3. Giai đoạn suy diễn xấp xỉ ......................................................................... 37 2.3. Thuật toán FKG-Pairs ..................................................................................... 38 2.3.1. Độ phức tạp của thuật toán ....................................................................... 39 2.3.2. Phân tích các cặp trong thuật toán đề xuất ............................................... 40 2.4. Kết quả thực nghiệm ....................................................................................... 41 2.4.1. Minh họa mô hình đề xuất ........................................................................ 41 2.4.2. Kết quả cài đặt trên bộ dữ liệu chuẩn UCI ............................................... 48 2.5. Ứng dụng FKG-Pairs trong hỗ trợ chẩn đoán bệnh tiền sản giật ................... 57 2.5.1. Giới thiệu tiền sản giật ............................................................................. 57 2.5.2. Các triệu chứng của tiền sản giật.............................................................. 59 2.5.3. Phân loại tiền sản giật theo triệu chứng tăng huyết áp trong thai kỳ ....... 60 2.5.4. Sàng lọc tiền sản giật ................................................................................ 62 2.5.5. Kết quả cài đặt .......................................................................................... 62 2.5.6. Nhận xét kết quả thực hiện bài toán chẩn đoán tiền sản giật ................... 68 2.6. Kết luận Chương 2 .......................................................................................... 69 Chương 3. MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP RA QUYẾT ĐỊNH TRONG TRƯỜNG HỢP CỰC ĐOAN FKG-EXTREME ...................... 71 3.1. Phát biểu bài toán............................................................................................ 74 3.2. Mô hình FKG-Extreme ................................................................................... 75 v
3.2.1. Mô hình đề xuất FKG-Extreme ................................................................ 77 3.2.2. Thuật toán FKG-Extreme ......................................................................... 80 3.2.3. Độ phức tạp của thuật toán ....................................................................... 82 3.3. Sự khác biệt và ưu điểm của mô hình FKG-Extreme ..................................... 83 3.4. Kết quả thực nghiệm ....................................................................................... 84 3.4.1. Môi trường thực nghiệm........................................................................... 84 3.4.2. Kết quả so sánh giữa các phương pháp .................................................... 87 3.4.3. Phân tích ANOVA.................................................................................... 93 3.4.4. Một số phát hiện mới ................................................................................ 96 3.5. Ứng dụng FKG-Extreme trong hỗ trợ chẩn đoán bệnh thận mạn .................. 97 3.5.1. Giới thiệu bệnh thận mạn ......................................................................... 97 3.5.2. Phân giai đoạn bệnh thận mạn.................................................................. 99 3.5.3. Các phương pháp chẩn đoán bệnh thận mạn .......................................... 100 3.5.4. Kết quả cài đặt ........................................................................................ 102 3.5.5. Nhận xét kết quả thực hiện bài toán chẩn đoán bệnh thận mạn ............. 106 3.6. Kết luận Chương 3 ........................................................................................ 107 KẾT LUẬN ............................................................................................................ 110 Kết luận ................................................................................................................ 110 Hướng nghiên cứu phát triển trong tương lai ...................................................... 112 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN .............. 114 TÀI LIỆU THAM KHẢO .................................................................................... 116 vi
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT TT Từ viết tắt Từ viết đầy đủ Giải thích 1 AI Artifical Intelligence Trí tuệ nhân tạo 2 ANOVA Analysis of Variance Phân tích phương sai 3 AVG Average Trung bình 4 BTM Chronic Kidney Disease Bệnh thận mạn 5 C-FIS Complex Fuzzy Inference Hệ suy diễn mờ phức System 6 CFS Complex Fuzzy System Hệ mờ phức 7 DB Database Cơ sở dữ liệu 8 FIS Fuzzy Inference System Hệ suy diễn mờ 9 FISA Fast Inference Search Thuật toán suy diễn nhanh Algorithm trên đồ thị tri thức mờ 10 FKG Fuzzy Knowledge Graph Đồ thị tri thức mờ 11 FKG-Extreme Fuzzy Knowledge Graph Phương pháp ra quyết in Extreme Case định dựa trên đồ thị tri thức mờ trong trường hợp cực đoan 12 FKG-Pairs Paired Fuzzy Knowledge Phương pháp ra quyết Graph định dựa trên đồ thị tri thức mờ dạng cặp vii
TT Từ viết tắt Từ viết đầy đủ Giải thích 13 FKG-Pairs1 Fuzzy Knowledge Graph Phương pháp suy diễn on Single Pairs dựa trên đồ thị tri thức mờ dạng cặp đơn 14 FKG-Pairs2 Fuzzy Knowledge Graph Phương pháp suy diễn on Double Pairs dựa trên đồ thị tri thức mờ dạng cặp đôi 15 FKG-Pairs3 Fuzzy Knowledge Graph Phương pháp suy diễn on Tripple Pairs dựa trên đồ thị tri thức mờ dạng cặp ba 16 FKG-Pairs4 Fuzzy Knowledge Graph Phương pháp suy diễn on Quadruple Pairs dựa trên đồ thị tri thức mờ dạng cặp tư 17 FG Fuzzy Graph Đồ thị mờ 18 FGS Fuzzy Graph Structure Cấu trúc đồ thị mờ 19 FKGS Fuzzy Knowledge Graph Cấu trúc đồ thị tri thức Structure mờ 20 FRB Fuzzy Rule Base Cơ sở luật mờ 21 FS Fuzzy Sets Hệ mờ 22 GFR Glomerular Filtration Rate Mức lọc cầu thận 23 KG Knowledge Graph Đồ thị tri thức 24 MCDM Multicriteria Decision Hệ hỗ trợ ra quyết định đa Making tiêu chí 25 M-CFIS Mamdani Complex Fuzzy Hệ suy diễn mờ phức Inference System dạng Mamdani viii
TT Từ viết tắt Từ viết đầy đủ Giải thích 26 M-CFIS-FKG Mamdani Complex Fuzzy Hệ suy diễn mờ phức Inference System - Fuzzy dạng Mamdani - Đồ thị tri Knowledge Graph thức mờ 27 M-CFIS-R Mamdani Complex Fuzzy Hệ suy diễn mờ phức Inference System - Reduce dạng Mamdani - Tinh Rule giản luật 28 Q-learning Q-learning technique Kỹ thuật Q-learning trong học tăng cường 29 RL Reinforcement Learning Học tăng cường 30 UCI UC Irvine Machine Kho dữ liệu học máy Learning Repository chuẩn UCI 31 WBCD Breast Wisconsin Dataset Bộ dữ liệu ung thư vú 32 Diabetes Diabetes Dataset Bộ dữ liệu tiểu đường 33 Liver Liver Dataset Bộ dữ liệu bệnh viêm gan 34 Wine Wine Quality Dataset Bộ dữ liệu chất lượng rượu 35 CTG Cardiotocography Dataset Bộ dữ liệu hình ảnh tim thai và cơn co tử cung 36 Arrhythmia Arrhythmia Dataset Bộ dữ liệu rối loạn nhịp tim ix
DANH MỤC BẢNG BIỂU Bảng 1.1. Các bộ dữ liệu thực nghiệm chuẩn UCI [62-65] ...................................... 24 Bảng 1.2. Các thuộc tính dữ liệu đầu vào bộ dữ liệu bệnh nhân tiền sản giật.......... 26 Bảng 1.3. Các thuộc tính dữ liệu đầu vào bộ dữ liệu bệnh thận mạn ....................... 27 Bảng 2.1. Cơ sở luật mờ. .......................................................................................... 31 Bảng 2.2. Danh mục các ký hiệu. ............................................................................. 32 Bảng 2.3. Một tập gồm sáu luật mờ.......................................................................... 41 Bảng 2.4. Bộ trọng số ( ) của sáu luật mờ trong cơ sở luật mờ. ............................. 42 Bảng 2.5. Bộ trọng số ( ) của sáu luật mờ trong cơ sở luật mờ. ............................ 43 Bảng 2.6. Tổng trọng số của các cạnh ( ) nối từ các siêu đỉnh đến nhãn đầu ra . . 46 Bảng 2.7. Độ chính xác của các phương pháp áp dụng cơ chế sinh luật FIS (%). ... 51 Bảng 2.8. Thời gian tính toán của các phương pháp áp dụng cơ chế sinh luật FIS (giây). ........................................................................................................................ 52 Bảng 2.9. Độ chính xác của phương pháp FKG-Pairs2 và FIS (%). ........................ 54 Bảng 2.10. Thời gian tính toán của phương pháp FKG-Pairs2 và FIS (giây). ......... 54 Bảng 2.11. Độ chính xác của các phương pháp áp dụng cơ chế sinh luật M-CFIS (%). ............................................................................................................................ 55 Bảng 2.12. Thời gian tính toán của các phương pháp áp dụng cơ chế sinh luật M- CFIS (giây). ............................................................................................................... 56 Bảng 2.13. Kết quả các độ đo hiệu năng về mặt độ chính xác. ................................ 65 Bảng 3.1. Cơ sở luật mờ (fuzzy rule base) ............................................................... 75 Bảng 3.2. Danh mục các ký hiệu .............................................................................. 76 Bảng 3.3. Các bộ dữ liệu sử dụng trong thực nghiệm [62-65] ................................. 84 Bảng 3.4. Các hành động sử dụng trong các thực nghiệm ....................................... 87 Bảng 3.5. Độ chính xác của các phương pháp sử dụng cách lấy mẫu theo cụm (%)91 x
Bảng 3.6. Thời gian tính toán của các phương pháp sử dụng cách lấy mẫu theo cụm (giây) ......................................................................................................................... 92 Bảng 3.7. Phân tích ANOVA dựa trên độ chính xác của phương pháp đề xuất. ..... 93 Bảng 3.8. Phân tích ANOVA giữa các phương pháp dựa trên độ chính xác ........... 94 Bảng 3.9. Phân tích ANOVA giữa các nhóm phương pháp ..................................... 95 Bảng 3.10. Kết quả so sánh giữa các nhóm phương pháp. ....................................... 96 Bảng 3.11. Các giai đoạn của bệnh thận mạn. .......................................................... 99 Bảng 3.12. Phân giai đoạn hỗ trợ đánh giá tiên lượng và tiến triển bệnh thận mạn. ................................................................................................................................. 100 Bảng 3.13. Độ chính xác và thời gian tính toán trung bình của hai phương pháp . 106 xi
DANH MỤC HÌNH VẼ Hình 1. Hình ảnh minh họa các triệu chứng liên quan đến tiền sản giật.................... 4 Hình 2. Hình ảnh minh họa dữ liệu trường hợp cực đoan .......................................... 5 Hình 3. Cấu trúc của luận án. ................................................................................... 11 Hình 1.1. Sơ đồ tổng quát của một hệ suy diễn mờ [28] .......................................... 14 Hình 1.2. Minh họa đồ thị tri thức ............................................................................ 17 Hình 1.3. Minh họa đơn giản về đồ thị tri thức mờ [3] ............................................ 19 Hình 1.4. Tổng quan các thành phần của Q-learning [52] ....................................... 22 Hình 1.5. Biểu đồ phân bố dữ liệu của sáu bộ dữ liệu chuẩn UCI ........................... 25 Hình 2.1. Mô hình đề xuất đồ thị tri thức mờ dạng cặp FKG-Pairs ......................... 34 Hình 2.2. Minh họa đồ thị tri thức mờ dạng cặp từ tập dữ liệu huấn luyện .......... 36 Hình 2.3. Đồ thị tri thức mờ dạng cặp đôi (FKG-Pairs2)......................................... 44 Hình 2.4. Một ví dụ đơn giản minh họa đồ thị FKG-Pairs....................................... 50 Hình 2.5. Kết quả tính toán của các phương pháp áp dụng hàm giá trị ℱ( ).......... 53 Hình 2.6. Kết quả của hai phương pháp áp dụng hàm giá trị ℱ( ) ......................... 54 Hình 2.7. Biểu đồ so sánh độ chính xác của các phương pháp ................................ 64 Hình 2.8. Biểu đồ so sánh thời gian tính toán của các phương pháp ....................... 64 Hình 2.9. Giao diện trang chủ phần mềm chẩn đoán tiền sản giật ........................... 66 Hình 2.10. Màn hình nhập thông tin nhân khẩu học của thai phụ ........................... 67 Hình 2.11. Màn hình nhập thông tin các chỉ số cận lâm sàng của thai phụ ............. 67 Hình 2.12. Màn hình hiển thị kết quả chẩn đoán và các thông tin khuyến nghị cho thai phụ ...................................................................................................................... 68 Hình 3.1. Cách tiếp cận đồ thị tri thức mờ dạng cặp dựa trên kỹ thuật Q-learning. 72 Hình 3.2. Khung FKG-Pairs dựa trên Q-learning tại mỗi bước .......................... 74 Hình 3.3. Mô hình đề xuất FKG-Extreme ................................................................ 78 xii
Hình 3.4. Biểu đồ phân bố dữ liệu trên bộ dữ liệu Liver ......................................... 85 Hình 3.5. Biểu đồ phân bố dữ liệu trên bộ dữ liệu Wine ......................................... 85 Hình 3.6. Biểu đồ phân bố dữ liệu trên bộ dữ liệu CTG .......................................... 86 Hình 3.7. Độ chính xác của phương pháp đề xuất trên bộ dữ liệu Liver ................. 88 Hình 3.8. Độ chính xác của phương pháp đề xuất trên bộ dữ liệu CTG .................. 89 Hình 3.9. Độ chính xác của phương pháp đề xuất trên bộ dữ liệu Wine ................. 89 Hình 3.10. Thời gian tính toán của phương pháp đề xuất theo các hành động trên các bộ dữ liệu (giây) .................................................................................................. 90 Hình 3.11. Độ chính xác của phương pháp đề xuất theo các hành động trên các bộ dữ liệu ........................................................................................................................ 91 Hình 3.12. Biểu đồ so sánh độ chính xác giữa các phương pháp............................. 92 Hình 3.13. Kết quả so sánh về mặt độ chính xác trong trường hợp cực đoan ....... 104 Hình 3.14. Kết quả hiển thị mức tăng trưởng về mặt độ chính xác ....................... 105 Hình 3.15. Kết quả so sánh về mặt thời gian tính toán trong trường hợp cực đoan ................................................................................................................................. 106 xiii
MỞ ĐẦU 1. Tổng quan Ra quyết định luôn đóng một vai trò quan trọng trong các hệ thống thông tin nhằm mục đích giúp người sử dụng ra quyết định chính xác, kịp thời và hiệu quả. Nó được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Một trong những lĩnh vực ứng dụng hệ hỗ trợ ra quyết định từ rất sớm đó là y học, tiêu biểu nhất là hệ chuyên gia MYCIN đã được giới thiệu vào năm 1975 [1]. MYCIN đã sử dụng tri thức của chuyên gia y học để chẩn đoán bệnh và đưa ra khuyến nghị điều trị cho các bệnh nhân viêm não tủy cấp và nhiễm trùng máu. Chẩn đoán bệnh được hiểu là quá trình ra quyết định nhằm xác định bệnh hoặc căn nguyên tạo ra các triệu chứng của người bệnh. Chẩn đoán bệnh trong y học hiện đại là việc hỏi bệnh, khai thác tiền sử bệnh, thăm khám thực thể, khi cần thiết thì chỉ định làm xét nghiệm cận lâm sàng, thăm dò chức năng để chẩn đoán và chỉ định phương pháp điều trị phù hợp đã được công nhận. Chẩn đoán bệnh trong y học cổ truyền là tổng hợp của các kiến thức, kỹ năng và thực hành dựa trên lý thuyết, niềm tin và kinh nghiệm bản địa của các nền văn hóa khác nhau, dù có thể giải thích hay không, được sử dụng để chẩn đoán bệnh cả về thể chất lẫn tinh thần [2]. Trong những năm gần đây, đội ngũ lương y, bác sĩ thường sử dụng kết hợp giữa phác đồ điều trị trong y học cổ truyền với kết quả khám, xét nghiệm trong y học hiện đại nhằm nâng cao chất lượng chẩn đoán bệnh. Điều này đã thúc đẩy mạnh mẽ công tác nghiên cứu y học và áp dụng công nghệ thông tin vào trong quá trình khám và chẩn đoán bệnh nhằm mục đích hỗ trợ đội ngũ lương y, bác sĩ tại bệnh viện ở các địa phương. 1
Gần đây, hướng nghiên cứu suy diễn dựa trên đồ thị tri thức mờ (FKG) với ưu điểm cho phép thực hiện suy diễn trong những trường hợp dữ liệu thu thập chưa đầy đủ hoặc thiếu tri thức trong kho dữ liệu đã nhận được nhiều sự quan tâm và chú ý của các nhà nghiên cứu trong và ngoài nước. FKG lần đầu được giới thiệu vào năm 2020 trong mô hình M-CFIS-FKG [3]. Nó đã giải quyết hạn chế của đồ thị tri thức (KG) khi giải quyết bài toán chẩn đoán bệnh dựa trên bộ dữ liệu có tính chất chu kỳ, thông tin đầu vào không chắc chắn. FKG sử dụng các nhãn ngôn ngữ cho các thuộc tính trong tập dữ liệu huấn luyện. Đầu tiên, đồ thị tri thức mờ được xây dựng sau giai đoạn tiền xử lý (hay gọi là biểu diễn đồ thị tri thức mờ). Sau đó, quá trình suy diễn xấp xỉ được áp dụng để tìm nhãn đầu ra của các bản ghi mới trong tập dữ liệu kiểm tra. Đồ thị tri thức mờ suy diễn dựa trên tập luật IF-THEN (hay gọi là cơ sở luật mờ), trong đó tác động của nhãn ngôn ngữ có khả năng tạo ra nhãn đầu ra tương ứng. Hơn nữa, mô hình M-CFIS-FKG cũng đã vượt qua được hạn chế của mô hình dựa trên hệ suy diễn mờ phức dạng Mamdani (chẳng hạn M-CFIS-R) trong việc tìm nhãn đầu ra của các mẫu mới chưa có trong cơ sở luật mờ bằng cách áp dụng thuật toán FISA sử dụng cơ chế suy diễn xấp xỉ. Lấy ví dụ trong bài toán chẩn đoán dấu hiệu tiền sản giật, việc bác sĩ đưa ra quyết định kết luận chẩn đoán bệnh (hay nhãn đầu ra) là “Bình thường”, “Tiền sản giật”, hay “Tiền sản giật nặng” phụ thuộc vào nhãn ngôn ngữ “Cao”, “Bình thường” hay “Thấp” của thuộc tính đầu vào “Huyết áp”, và nhãn ngôn ngữ “Cao” hay “Bình thường” của thuộc tính đầu vào “LDH” (axit lactic dehydrogenase), với độ chính xác khoảng 90%. Trong trường hợp này, một luật mờ được biểu diễn như sau: IF “Huyết áp” là “Cao” và “LDH” là “Cao” THEN “Tiền sản giật nặng”, với độ tin cậy là 90%. Bằng cách tích lũy từng sự kiện đơn lẻ (hoặc cặp đơn trong đồ thị tri thức mờ), kết quả sẽ xác định được nhãn đầu ra của bản ghi mới. Tuy nhiên, mô hình M-CFIS-FKG chỉ sử dụng các cặp đơn (single pairs) trong quá trình suy diễn nên vẫn chưa xử lý vấn đề trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ. Hơn nữa, trong một số trường hợp cực đoan, các phương pháp suy 2
diễn mờ hiện nay chưa giải quyết được bài toán phân loại, hỗ trợ ra quyết định khi bộ dữ liệu đầu vào lớn hoặc cơ sở luật mờ quá nhỏ (chẳng hạn bài toán chẩn đoán bệnh trong lĩnh vực y tế). Đây là động cơ chính của luận án đã được tập trung nghiên cứu phát triển mô hình mới nhằm giải quyết bài toán hỗ trợ ra quyết định trong trường hợp cực đoan hiệu quả hơn, đáp ứng yêu cầu thực tế đặt ra. Trong phạm vi nghiên cứu của luận án tiến sĩ này, hai câu hỏi nghiên cứu thực sự cần thiết và cấp bách được tập trung nghiên cứu nhằm giúp các hệ hỗ trợ ra quyết định hoạt động hiệu quả hơn, đáp ứng được yêu cầu thực tế, cụ thể là:  Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ? Trường hợp tập dữ liệu đầu vào chưa đầy đủ được hiểu là tập dữ liệu được thu thập còn thiếu thông tin, có nghĩa là lượng thông tin đầu vào phục vụ cho việc sinh luật còn ít. Lấy ví dụ trong chẩn đoán dấu hiệu tiền sản giật của các sản phụ, bác sĩ thường theo dõi các dữ liệu liên quan đến các triệu chứng (được minh họa trong Hình 1), chẳng hạn: phù nề chân tay, huyết áp cao, men gan cao, giảm tiểu cầu, dư thừa protein niệu đạo, đau đầu dữ dội, đau bụng trên, buồn nôn, hụt hơi, v.v. nhằm đưa ra kết luận chẩn đoán bệnh một cách chính xác. Tuy nhiên, dữ liệu triệu chứng về sản phụ được thu thập thường chưa đầy đủ. Bên cạnh đó, thực tế số lượng phác đồ thường hữu hạn nên việc chẩn đoán và điều trị bệnh thường phải qua quá trình thử sai với một liệu pháp điều trị nhất định cho một tập triệu chứng của sản phụ. Ngay cả khi đã có mô hình hóa quan hệ giữa và thì việc lựa chọn cặp liên kết nào với quan hệ ra sao, chẳng hạn: + + + v.v.  là tương đối phức tạp. Nó không thể mô hình hóa bằng đồ thị tri thức (KG) thường và đồ thị tri thức mờ (FKG) cặp đơn. Do đó, làm thế nào để nghiên cứu phát triển đề xuất mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng 3
cặp là một yêu cầu có tính cấp thiết và thời sự, có tính khoa học và có ý nghĩa thực tiễn. Hình 1. Hình ảnh minh họa các triệu chứng liên quan đến tiền sản giật.  Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong các trường hợp cực đoan với các tập dữ liệu lớn hoặc tập dữ liệu huấn luyện quá nhỏ, thiếu tri thức? Một trong những thách thức khi làm việc với đồ thị tri thức (KG), ngoài vấn đề về dữ liệu lớn (5V), là việc xử lý ra quyết định một cách chính xác và hợp lý khi lượng thông tin đầu vào phục vụ cho việc sinh luật hạn chế hoặc cơ sở tri thức quá nhỏ. Chẳng hạn, Hình 2 minh họa trường hợp cực đoan trong bài toán ra quyết định, chẳng hạn tập dữ liệu đầu vào lớn nếu áp dụng các phương pháp truyền thống với tỷ lệ chia bộ dữ liệu 70% để huấn luyện và 30% để kiểm tra thì thời gian huấn luyện mô hình chậm, dẫn đến hệ thống chạy chậm; hoặc tập huấn luyện 4
quá nhỏ (dưới 10%) so với tập dữ liệu kiểm tra (trên 90%), thậm chí hệ thống mới hoàn toàn chưa có cơ sở luật mờ (cơ sở tri thức chưa đầy đủ) thì dẫn đến độ chính xác thấp, không đáp ứng được yêu cầu đầu ra của các bài toán hỗ trợ ra quyết định trong thực tế. Hình 2. Hình ảnh minh họa dữ liệu trường hợp cực đoan. 2. Các công trình nghiên cứu có liên quan Trong thời gian qua, có nhiều kỹ thuật thông minh đã được áp dụng nhằm nghiên cứu đề xuất các mô hình ra quyết định trong hỗ trợ ra quyết định nói chung và hỗ trợ chẩn đoán bệnh nói riêng đã được công bố trên các tạp chí khoa học uy tín. Dưới đây là các công trình tiêu biểu đã được công bố liên quan đề tài nghiên cứu của luận án tiến sĩ này. Các mô hình ra quyết định trong hệ hỗ trợ chẩn đoán bệnh dựa vào đồ thị tri thức (KG). Chẳng hạn, Bernard và cộng sự [4] đã đề xuất mô hình biểu diễn tri thức và cơ chế suy diễn nhằm lựa chọn ra phác đồ điều trị và loại thuốc tốt nhất để điều trị trong 5