intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án tiến sĩ Toán học: Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơ ron min max mờ và ứng dụng

Chia sẻ: Phong Tỉ | Ngày: | Loại File: PDF | Số trang:129

64
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án được nghiên cứu với mục tiêu nhằm xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu được dán nhãn. Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ.

Chủ đề:
Lưu

Nội dung Text: Luận án tiến sĩ Toán học: Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơ ron min max mờ và ứng dụng

  1. i BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ------------------------- VŨ ĐÌNH MINH NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM BÁN GIÁM SÁT SỬ DỤNG MẠNG NƠ-RON MIN-MAX MỜ VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2019
  2. ii BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ------------------------ VŨ ĐÌNH MINH NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM BÁN GIÁM SÁT SỬ DỤNG MẠNG NƠ-RON MIN-MAX MỜ VÀ ỨNG DỤNG Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: 1. PGS. TS. LÊ BÁ DŨNG 2. TS. NGUYỄN DOÃN CƢỜNG Hà Nội - 2019
  3. i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả nghiên cứu và các số liệu sử dụng trong luận án là trung thực, chƣa từng đƣợc công bố ở bất cứ công trình nào khác, các dữ liệu tham khảo đƣợc trích dẫn đầy đủ. Tác giả luận án Vũ Đình Minh
  4. ii LỜI CẢM ƠN Trƣớc hết, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo hƣớng dẫn, PGS.TS. Lê Bá Dũng và TS. Nguyễn Doãn Cƣờng. Sự hƣớng dẫn chỉ bảo trách nhiệm, nhiệt tình của Thầy cùng với nỗ lực của bản thân đã giúp tôi hoàn thành đề tài của mình. Tôi xin cảm ơn Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ quân sự, nơi đã tạo cho tôi môi trƣờng làm việc thuận lợi. Xin chân thành cảm ơn các cán bộ nghiên cứu trong Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ quân sự, những ngƣời không chỉ thƣờng xuyên động viên dạy bảo, mà còn có những nhắc nhở nghiêm khắc giúp tôi hoàn thành công việc nghiên cứu đề tài. Tôi xin chân thành cảm ơn lãnh đạo Trƣờng Cao đẳng Công nghiệp Thái Nguyên đã động viên và tạo điều kiện về mọi mặt giúp tôi tập trung vào công việc nghiên cứu. Tôi xin gửi lời cảm ơn đến tất cả các đồng nghiệp và bạn bè, những ngƣời đã động viên, chia sẻ những kinh nghiệm trong nghiên cứu khoa học cũng nhƣ đã giúp đỡ tôi trong công tác để tôi có thời gian học tập. Cuối cùng, luận án sẽ không thể hoàn thành nếu nhƣ không có sự động viên và hỗ trợ về mọi mặt của gia đình. Tôi xin gửi tới cha mẹ, anh chị em và những ngƣời thân trong gia đình lời cảm ơn chân thành với lòng biết ơn sâu sắc. Xin chân thành cảm ơn. Hà Nội, ngày 13 tháng 5 năm 2019 Vũ Đình Minh
  5. iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT...................................... VI DANH MỤC CÁC BẢNG................................................................................... X DANH MỤC CÁC HÌNH VẼ............................................................................XII MỞ ĐẦU ............................................................................................................... 1 1. Tính cấp thiết của luận án ................................................................................. 1 2. Mục tiêu nghiên cứu .......................................................................................... 5 3. Đối tƣợng và phạm vi nghiên cứu ..................................................................... 5 4. Phƣơng pháp nghiên cứu ................................................................................... 5 5. Đóng góp của luận án ........................................................................................ 6 6. Bố cục của luận án ............................................................................................ 6 CHƢƠNG 1 TỔNG QUAN VỀ MẠNG NƠRON MIN-MAX MỜ .................... 8 1.1. Cơ bản về mạng nơron min-max mờ ............................................................. 8 1.1.1. Giới thiệu về mạng nơron min-max mờ............................................. 8 1.1.2. Khái niệm siêu hộp........................................................................... 10 1.1.3. Hàm thuộc siêu hộp........................................................................... 10 1.1.4. Cấu trúc mạng nơron min-max mờ ................................................... 12 1.1.5. Kiểm tra và điều chỉnh chồng lấn giữa các siêu hộp ........................ 14 1.1.6. Thuật toán học trong mạng nơron min-max mờ ............................... 16 1.2. Một số nghiên cứu nâng cao chất lƣợng của FMNN .................................. 18 1.2.1. Điều chỉnh giới hạn kích thƣớc siêu hộp .............................................. 18 1.2.2. Sửa đổi cấu trúc FMNN quản lý khu vực chồng lấn ............................ 21 1.2.2.1. Mô hình FMCN .............................................................................. 21 1.2.2.2. Mô hình DCFMN ........................................................................... 23 1.2.3. Bổ sung thêm các trƣờng hợp chồng lấn trong FMNN ........................ 25 1.2.4. Cải tiến phƣơng pháp học trong mạng nơron min-max mờ .................. 26 1.3. Đặc điểm chung của các phƣơng thức cải tiến FMNN ................................ 28 1.4. Một số vấn đề cần tiếp tục nghiên cứu của FMNN cho phân cụm dữ liệu.... 30 1.5. Kết luận chƣơng 1 ........................................................................................ 30
  6. iv CHƢƠNG 2 PHÁT TRIỂN THUẬT TOÁN PHÂN CỤM BÁN GIÁM SÁT SỬ DỤNG MẠNG NƠRON MIN-MAX MỜ .......................................................... 32 2.1. Thuật toán phân cụm bán giám sát mờ SS-FMM ........................................ 32 2.1.1. Ý tƣởng thuật toán ................................................................................. 32 2.1.2. Thuật toán học trong SS-FMM ............................................................. 34 2.1.3. Đánh giá độ phức tạp thuật toán SS-FMM ........................................... 41 2.2. Thuật toán phân cụm bán giám sát mờ kết hợp SCFMN............................. 42 2.2.1. Ý tƣởng thuật toán ................................................................................. 42 2.2.2. Thuật toán học trong SCFMN ............................................................... 46 2.2.3. Đánh giá độ phức tạp thuật toán SCFMN ............................................. 49 2.3. Thuật toán phân cụm mờ dựa trên tâm cụm dữ liệu CFMNN ..................... 50 2.3.1. Ý tƣởng thuật toán ................................................................................. 50 2.3.2. Thuật toán học trong CFMNN .............................................................. 53 2.3.3. Đánh giá độ phức tạp thuật toán CFMNN ............................................ 55 2.4. Thực nghiệm và đánh giá ............................................................................. 56 2.4.1. Phƣơng pháp thực nghiệm .................................................................... 56 2.4.1.1. Tập dữ liệu thực nghiệm ................................................................ 56 2.4.1.2. Mục tiêu và phƣơng pháp thực nghiệm ......................................... 57 2.4.1.3. Độ đo và tiêu chí đánh giá kết quả ................................................. 57 2.4.2. Kết quả thực nghiệm ............................................................................. 58 2.4.2. So sánh mô hình đề xuất với một số phƣơng thức khác ....................... 71 2.4.2.1. So sánh SS-FMM với GFMM và RFMN ...................................... 71 2.4.2.2. So sánh SCFMN, CFMNN với FMNN và MFMM ....................... 72 2.4.2.3. So sánh SCFMN với FMM, FMM-CF và FMM-GA .................... 74 2.4.2.4. So sánh SCFMN, CFMNN với một số phƣơng thức khác ........... 75 2.5. Kết luận chƣơng 2 ........................................................................................ 76 CHƢƠNG 3 ỨNG DỤNG MẠNG NƠRON MIN-MAX MỜ HỖ TRỢ CHẨN ĐOÁN BỆNH GAN ............................................................................................ 78 3.1. Bài toán chẩn đoán xơ gan ........................................................................... 78 3.1.1. Bệnh viêm gan mạn và đánh giá xơ gan ............................................... 78
  7. v 3.1.2. Các phƣơng pháp đánh giá xơ gan ........................................................ 79 3.2. Ứng dụng mạng nơron min-max mờ trong chẩn đoán bệnh gan ................. 81 3.2.1. Mô hình hóa bài toán............................................................................. 82 3.2.2. Phân tích mô hình.................................................................................. 83 3.2.3. Cắt tỉa siêu hộp ...................................................................................... 84 3.2.4. Rút trích luật quyết định........................................................................ 84 3.3. Thực nghiệm và đánh giá ............................................................................. 85 3.3.1. Tập dữ liệu thực nghiệm ....................................................................... 85 3.3.2. Mục tiêu và phƣơng pháp thực nghiệm ................................................ 86 3.3.3. Độ đo và tiêu chí đánh giá. ................................................................... 87 3.3.4. Kết quả thực nghiệm ............................................................................. 89 3.3.4.1. Kết quả trên tập cơ sở dữ liệu Cirrhosis......................................... 89 3.3.4.2. Kết quả trên tập cơ sở dữ liệu LiverDisease. ................................. 96 3.3.5. So sánh kết quả thuật toán đề xuất với một số thuật toán khác .......... 100 3.4. Kết luận chƣơng 3 ...................................................................................... 103 KẾT LUẬN ....................................................................................................... 104 TÀI LIỆU THAM KHẢO ................................................................................. 106 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ .................. 114
  8. vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT B lj Nhãn của siêu hộp Bj. |B| Lực lƣợng của tập B. b(A,B) Hàm xác định độ thuộc của mẫu A vào siêu hộp B. f(x,y) Hàm ngƣỡng hai tham số x, y. max(x,y) Hàm chọn giá trị max. min(x,y) Hàm chọn giá trị min. Không gian Euclide n-chiều. V Đỉnh min của siêu hộp. W Đỉnh max của siêu hộp. α Tham số chọn. β Tham số ngƣỡng. γ Tham số mờ. ε Tham số nhiễu. θ Kích thƣớc của siêu hộp. θ(A,B) Kích thƣớc của siêu hộp B khi kết nạp thêm mẫu A. θmax Kích thƣớc tối đa của siêu hộp. φ Tham số giảm ngƣỡng. A2M Protein huyết tƣơng phân tử lớn (Alpha-2-Macroglobulin). AIS Hệ thống miễn dịch nhân tạo (Artificial Immune System). ALP Phosphatase kiềm (Alkaline Phosphatase). ALT Men Aspartate AminoTransferase. ANN Mạng nơron nhân tạo (Artificial Neural Network). APRI Phƣơng pháp phân loại xơ hóa gan dựa vào tiểu cầu (Aspartate aminotransferase to Platelet Ratio Inde). ART Lý thuyết cộng hƣởng thích nghi (Adaptive Resonance Theory).
  9. vii AST Men Aspartat transaminase. CCH Siêu hộp bù chứa (Containment Compensation Hyperbox). CDS Hệ thống chẩn đoán xơ gan (Cirrhosis Diagnosis System). CF Hệ số đóng góp CF (Contribution Factor). CFMN Thuật toán FMNN cải tiến dựa trên hệ số CF (Contribution-factor based Fuzzy Min-max Neural network). CFMNN FMNN dựa trên tâm cụm (Centroid-based Fuzzy Min-max Neural Netwwork). CN Siêu hộp không có chồng lấn (Classifying Neurons). CSPA Phân cụm dựa trên thuật toán phân vùng tƣơng tự (Cluster-based Similarity Partitioning Algorithm). DCFMN Mạng FMNN dựa trên tâm cụm dữ liệu (Data-Core-Based Fuzzy Min–Max Neural Network). ECT Cây phân cụm (Ensemble of Clustering Trees). EGWCA Thuật toán phân cụm dựa trên hàm khoảng cách Euclidean (Euclidean distance Generalized Weighted Cluster Aggregation). EFMN Mạng nơron FMNN tăng cƣờng (Enhanced Fuzzy Min–max Neural). eGWCA Thuật toán phân cụm dựa trên hàm khoảng cách Exponential (exponential distance Generalized Weighted Cluster Aggregation). eSFCM Thuật toán phân cụm bán giám sát mờ sử dụng quy tắc Entropy (Semi-supervised Entropy regularized Fuzzy Clustering). FART Lý thuyết cộng hƣởng thích nghi mờ (Fuzzy Adaptive Resonance Theory). FIB-4 Phƣơng pháp phân loại xơ hóa gan dựa vào tuổi, chỉ số AST, chỉ số ALT và tiểu cầu (FIBrosis-4). FMCN Thuật toán FMNN cải tiến sử dụng nút chồng lấn (Fuzzy Min-max
  10. viii neural network classifier with Compensatory Neurons). FMM Lý thuyết min-max mờ (Fuzzy Min-Max). FMNN Mạng nơron min-max mờ (Fuzzy Min-max Neural Network). GFMM Mạng nơron FMNN cải tiến (General Fuzzy Min-Max). GGT Hoạt độ men GGT trong máu (Gamma Glutamyl Transferase). GSOM Mạng nơron bản đồ tự tổ chức (Growing Self-Organizing Map). HCF Hệ số CF của siêu hộp (Hyperbox Confidence Factor). HE Hệ số Entropy (Hyperbox Entropy). ID3 Thuật toán xây dựng cây quyết định (Itemized Dichotomozer 3). INR Tỉ số bình thƣờng hóa quốc tế (International Normalized Ratio). IT Kỹ thuật thông minh (Intelligent Techniques). LCA Thuật toán nhóm dẫn đầu (Leader-Cluster Algorithm). MLF Mạng nơron FMNN đa lớp (Multi-Level Fuzzy min-max neural network). MLP Mạng nơron đa lớp (Multi-Layer Perceptron). MRI Chụp hình cộng hƣởng từ trƣờng (Magnetic Resonance Imaging). NAFLD Bệnh gan nhiễm mỡ không do rƣợu (Non-Alcoholic Fatty Liver Disease). NMFC Thuật toán gom cụm NMFC (Non-negative Matrix Factorization based Consensus). NoH Số siêu hộp (Number of Hyperbox). OCH Siêu hộp chồng lấn bù (Overlapped Compensation Hyperbox). OLN Nút chồng lấn (OverLapping Neurons). PLT Tiểu cầu (Platelet Counts). PT Thời gian đông máu (Prothrombin Time). RFMN FMNN phản xạ (Reflex Fuzzy Min-max Neural network).
  11. ix ROI Phƣơng pháp đa lựa chọn (Regions of Interest). SoL Tỉ lệ mẫu có nhãn (Scale of Labeled pattern). SS-FMM Học bán giám sát trong FMM (Semi-Supervised in Fuzzy Min- Max). UCI Cơ sở dữ liệu máy học (University of California, Irvine). ULN Giới hạn bình thƣờng trên (Upper Level of Normal). WC Phƣơng pháp phân cụm WC (Weighted Consensus).
  12. x DANH MỤC CÁC BẢNG Trang Bảng 2.1. Thông tin các tập dữ liệu thực nghiệm Benchmark............................ 56 Bảng 2.2. Thống kê độ đo Accuracy khi thay đổi tỉ lệ mẫu có nhãn của SS-FMM ...................................................................................... 62 Bảng 2.3. Giá trị độ đo Accuracy của CFMNN .................................................. 63 Bảng 2.4. Giá trị độ đo Accuracy của SCFMN ................................................... 64 Bảng 2.5. So sánh độ đo Accuracy của SS-FMM và SCFMN ........................... 65 Bảng 2.6. Tổng số siêu hộp khi thay đổi tỉ lệ mẫu có nhãn của SS-FMM ......... 67 Bảng 2.7. So sánh độ đo Accuracy giữa SS-FMM và GFMM, RFMN trên tập dữ liệu Iris ..................................................................................... 71 Bảng 2.8. So sánh độ đo Accuracy của SS-FMM, GFMM và RFMN ............... 72 Bảng 2.9. So sánh độ đo Accuracy của SCFMN, CFMNN với FMNN, MFMM ............................................................................................... 73 Bảng 2.10. So sánh độ đo CCC của SCFMN, CFMNN với MFMN, MFMM ... 73 Bảng 2.11. So sánh thời gian thực hiện của SCFMN, CFMNN với FMNN, MFMM................................................................................................ 73 Bảng 2.12. So sánh NoH của SCFMN với FMNN, FMM-CF, FMM-GA ....... 74 Bảng 2.13. So sánh độ đo Accuracy của CFMNN, SCFMN với một số phƣơng thức trên tập dữ liệu Iris ..................................................................... 75 Bảng 2.14. So sánh độ đo Accuracy của CFMNN, SCFMN với một số phƣơng thức khác cài đặt trong WEKA .......................................................... 76 Bảng 3.1. Các chỉ điểm sinh học gián tiếp trong đánh giá xơ hóa gan ............... 80 Bảng 3.2. Các thuộc tính dữ liệu đầu vào trong tập dữ liệu bệnh gan ................ 86 Bảng 3.3. Bảng thông tin về các giá trị chẩn đoán.............................................. 87 Bảng 3.4. Đánh giá hiệu năng của SCFMN trên Cirrhosis theo APRI ............... 90 Bảng 3.5. Đánh giá hiệu năng của SCFMN trên Cirrhosis theo FIB-4 .............. 91 Bảng 3.6. So sánh NoH của SCFMN và SS-FMM trên tập dữ liệu Cirrhosis khi thay đổi max ........................................................................................ 93
  13. xi Bảng 3.7. Tập 23 luật chẩn đoán theo thông tin từ tập dữ liệu Cirrhosis của SS-FMM với max = 0.09 .................................................................... 95 Bảng 3.8. Tập 16 luật chẩn đoán theo thông tin từ tập dữ liệu Cirrhosis của SCFMN với max = 0.09 ..................................................................... 95 Bảng 3.9. Tập 6 luật chẩn đoán theo thông tin từ tập dữ liệu Cirrhosis của SCFMN với max = 0.09 và CF = 0.039 ............................................. 96 Bảng 3.10. Độ đo Accuracy, Jaccard, Rand, FM, Precision, Recall trên tập dữ liệu LiverFibrosis của CFMNN, SCFMN, SS-FMM ......................... 96 Bảng 3.11. Độ đo Accuracy và NoH trên tập dữ liệu LiverDisease khi thay đổi max ...................................................................................................... 97 Bảng 3.12. Thông tin các luật chẩn đoán theo thông tin từ tập dữ liệu LiverDisease của SCFMN .................................................................. 99 Bảng 3.13. Kết quả chẩn đoán dựa trên thông tin của các mẫu bệnh đƣợc trích xuất từ kết quả thử nghiệm trên tập dữ liệu LiverDisease của SCFMN ..... 100 Bảng 3.14. Các giá trị dự đoán của SS-FMM, SCFMN, FMM-GA trên tập dữ liệu Cirrhosis .................................................................................... 101 Bảng 3.15. So sánh NoH của FMM-GA, SCMFN và SS-FMM theo APRI ..... 101
  14. xii DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1. Siêu hộp min-max mờ trong không gian 3D....................................... 10 Hình 1.2. Sự biến động bj khi thay đổi  ............................................................. 11 Hình 1.3. Vùng che phủ của bj trong không gian 2D .......................................... 12 Hình 1.4. Mô hình mạng nơron 2 lớp.................................................................. 12 Hình 1.5. Mô hình mạng nơron 3 lớp.................................................................. 13 Hình 1.6. Cấu tạo của một nơron Bj .................................................................... 13 Hình 1.7. Các trƣờng hợp chồng lấn giữa các siêu hộp ...................................... 14 Hình 1.8. Phƣơng pháp điều chỉnh chồng lấn giữa các siêu hộp của FMNN ..... 15 Hình 1.9. Quá trình mở rộng các siêu hộp trong không gian 2D của FMNN..... 19 Hình 1.10. Quá trình tạo các siêu hộp mới của FMNN ...................................... 21 Hình 1.11. Các dạng chồng lấn giữa hai siêu hộp của FMCN............................ 22 Hình 1.12. Vùng che phủ độ thuộc các nút bù của FMCN ................................ 23 Hình 1.13. Giá trị hàm thuộc liên hệ tới thay đổi  của FMNN ......................... 24 Hình 1.14. Giá trị hàm thuộc khi thay đổi λ của FMNN .................................... 25 Hình 1.15. Các dạng chồng lấn giữa các siêu hộp .............................................. 26 Hình 2.1. Các siêu hộp tạo bởi GFMM và RFMN ............................................. 33 Hình 2.2. Sơ đồ thuật toán học SS-FMM............................................................ 35 Hình 2.3. Cấu trúc SCFMN sử dụng các siêu hộp lớn và nhỏ ............................ 43 Hình 2.4. Lƣợc đồ tổng quan thuật toán SCFMN ............................................... 44 Hình 2.5. Thuật toán học SCFMN ...................................................................... 46 Hình 2.6. Giá trị dự đoán sai của FMNN ............................................................ 51 Hình 2.7. So sánh khoảng cách mẫu vào với tâm của siêu hộp của CFMNN ... 52 Hình 2.8. Đồ họa phân bố dữ liệu của tập dữ liệu thực nghiệm ......................... 59 Hình 2.9. Đồ họa phân bố các siêu hộp của SS-FMM ........................................ 60 Hình 2.10. Sự biến động độ đo Accuracy khi thay đổi tỉ lệ mẫu có nhãn của SS-FMM.............................................................................................. 62 Hình 2.11. Sự biến động độ đo Accuracy khi thay đổi max của SS-FMM ......... 63 Hình 2.12. Sự biến động độ đo Accuracy của CFMNN khi thay đổi max .......... 64
  15. xiii Hình 2.13. Sự biến động độ đo Accuracy của SCFMN khi thay đổi max .......... 65 Hình 2.14. Sự biến động độ đo Accuracy khi thay max của SS-FMM và SCFMN ............................................................................................... 66 Hình 2.15. Sự biến động tổng số siêu hộp khi thay đổi max của SS-FMM ........ 68 Hình 2.16. Sự biến động tổng số siêu hộp khi thay đổi max của SCFMN ......... 68 Hình 2.17. Sự biến động tổng số siêu hộp khi thay đổi max của SCFMN và SS-FMM.............................................................................................. 69 Hình 2.18. So sánh Error của GFMM, RFMN và SS-FMM .............................. 71 Hình 2.19. So sánh độ đo Accuracy của SCFMN, CFMNN với FMNN, MFMM ............................................................................................................. 74 Hình 2.20. So sánh NoH của SCFMN với một số phƣơng thức khác ................ 75 Hình 3.1. Mô hình hệ hỗ trợ chẩn đoán bệnh gan CDS ...................................... 82 Hình 3.2. So sánh độ đo Accuracy trên tập dữ liệu Cirrhosis của SCMFN và SS- FMM ................................................................................................... 92 Hình 3.3. So sánh NoH của SS-FMM và SCFMN trên tập dữ liệu Cirrhosis khi thay đổi max ......................................................................................... 93 Hình 3.4. So sánh thời gian thực hiện của SS-FMM, SCFMN trên Cirrhosis khi thay đổi max ........................................................................................ 94 Hình 3.5. Sự biến động độ đo Accuracy của SCFMN, SS-FMM khi thay đổi max trên tập dữ liệu LiverDisease ....................................................... 98 Hình 3.6. Sự biến động NoH của SCFMN với SS-FMM khi thay đổi max trên tập dữ liệu LiverDisease ..................................................................... 98 Hình 3.7. So sánh giá trị dự đoán của SS-FMM, SCFMN, FMM-GA theo APRI .................................................................................................. 102 Hình 3.8. So sánh giá trị dự đoán của SS-FMM, SCFMN, FMM-GA theo FIB-4 ................................................................................................. 102 Hình 3.9. So sánh thời gian tính toán của SS-FMM, SCFMN, FMM-GA ....... 102 Hình 3.10. So sánh NoH của SS-FMM, SCFMN, FMM-GA ........................... 103
  16. 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phƣơng pháp học không có giám sát trong học máy. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhƣng về bản chất ta có thể hiểu phân cụm dữ liệu là quá trình nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng cùng cụm là tƣơng đồng [12]. Phân cụm là một kỹ thuật phổ biến để phân tích số liệu thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân loại mẫu…. Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Các thuật toán phân cụm đều sinh ra các cụm, tuy nhiên không có tiêu chí nào là đƣợc xem là tốt nhất, điều này phụ thuộc vào mục đích của phân cụm. Phân cụm dữ liệu truyền thống bao gồm hai mô hình lớn: phân cụm có giám sát và phân cụm không có giám sát. Phân cụm bán giám sát là sự kết hợp giữa phân cụm giám sát và phân cụm không có giám sát, trong đó sử dụng một số thông tin bổ trợ cho trƣớc trong quá trình phân cụm. Ngoài cách phân chia các phƣơng pháp phân cụm nhƣ trên, các phƣơng pháp phân cụm còn đƣợc chia thành hai loại: phân cụm rõ và phân cụm mờ [35]. Trong phân cụm rõ, với mỗi điểm dữ liệu thuộc vào chính xác một cụm. Trong phân cụm mờ, các điểm dữ liệu có thể thuộc vào nhiều hơn một cụm tƣơng ứng giá trị (độ thuộc) đi kèm. Phân cụm mờ là một trong những kỹ thuật phân cụm đƣợc nhiều nhà khoa học quan tâm nghiên cứu và đƣợc ứng dụng trong nhiều lĩnh vực nhận dạng, xử lý ảnh, xử lý thông tin… Các thuật toán phân cụm mờ rất đa dạng nhƣ FCM (Fuzzy C-Means) [11], εFCM (-insensitive Fuzzy C-means) [33], FPCM (Fuzzy Possibilistic Cmeans) [49], ... Phân cụm bán giám sát mờ là một mô hình tƣơng đối mới, đây là một mở rộng của phân cụm mờ bằng cách sử dụng các thông tin biết trƣớc để giám sát và hƣớng dẫn quá trình phân cụm, từ đó làm tăng chất lƣợng của cụm.
  17. 2 Các thông tin biết trƣớc hay còn gọi là các thông tin bổ trợ nhằm mục đích hƣớng dẫn, giám sát và điều khiển quá trình phân cụm. Các thông tin bổ trợ có thể đƣợc xây dựng dựa trên các ràng buộc Must-link và Cannot-link, hoặc các nhãn đi cùng các mẫu hay độ thuộc đƣợc xác định trƣớc [75]. Với phƣơng pháp gán nhãn đi cùng mẫu đòi hỏi một phần mẫu nhất định trong không gian mẫu có các nhãn đi kèm, các mẫu còn lại không có nhãn. Các thuật toán phân cụm bán giám sát mờ phải kể đến nhƣ eSFCM [75], SSSFC (Semi-Supervised Standard Fuzzy Clustering) [73], mạng nơron tự tổ chức GSOM [6], GFMM [23]… Pedrycz và Waletzky [50] đã chỉ ra rằng thƣờng đối với các ứng dụng trong thế giới thực đòi hỏi nhiều cách thức trung gian của việc tìm kiếm cấu trúc trong bộ dữ liệu, hiệu quả của nó có thể đƣợc tăng cƣờng đáng kể bằng cách sử dụng các thông tin biết trƣớc, thậm chí một tỷ lệ phần trăm nhỏ của các mẫu đƣợc dán nhãn cũng cải thiện đáng kể các kết quả của phân cụm. Việc lựa chọn phƣơng pháp phân cụm là bƣớc quan trọng trong việc giải quyết vấn đề phân cụm. Lựa chọn mô hình phân cụm phụ thuộc rất nhiều vào thuộc tính dữ liệu đầu vào và mục đích phân cụm, hoặc đặt mức độ ƣu tiên giữa chất lƣợng của cụm hay thời gian thực hiện. Phân cụm dữ liệu đã đƣợc áp dụng trong các lĩnh vực khác nhau nhƣ phân đoạn ảnh, nhận dạng đối tƣợng, ký tự và các chuyên ngành cổ điển nhƣ tâm lý học, kinh doanh... Một số ứng dụng cơ bản của phân cụm dữ liệu bao gồm: Thƣơng mại, Sinh học, Phân tích dữ liệu không gian, Quy hoạch đô thị, Khai phá Web, Y tế… Trong Y tế, nhiều nhà khoa học và các bác sĩ quan tâm đến việc ứng dụng các kỹ thuật phân cụm dữ liệu trong dự báo và chẩn đoán, đặc biệt là chẩn đoán bệnh dựa trên các số liệu của các kết quả xét nghiệm. Singh đã thực hiện một cuộc điều tra tổng quan về việc sử dụng các kỹ thuật thông minh trong chẩn đoán các bệnh liên quan đến rối loạn chức năng gan kể từ năm 1993[65]. Các đánh giá bao gồm viêm gan, xơ gan, xơ hóa gan, ung thƣ gan, gan nhiễm mỡ, rối
  18. 3 loạn gan mật… Các kỹ thuật thông minh đƣợc sử dụng nhƣ mạng nơron nhân tạo, khai phá dữ liệu, logic mờ, giải thuật di truyền… Lale Ozyilmaz sử dụng mạng nơron MLP, RBF (Radial Basis Function) và CSFNN cho chẩn đoán bệnh viêm gan (2003) [48]. Chien C. Lee đề xuất mô hình BP-CMAC (Back Propagation - Cerebellar Model Articulation Controller) phân loại bệnh gan từ hình ảnh CT (2005) [32]. Semra Icer đã phát triển hệ thống chẩn đoán xơ gan dựa trên tín hiệu Doppler tĩnh mạch sử dụng phƣơng pháp xử lý tín hiệu thời gian ngắn STFT (Short Time Fourier Transform) và mạng nơron nhân tạo (2006) [26]. İhsan Ö. Bucak đề xuất mô hình CMAC cho chẩn đoán bệnh gan (2010) [13]. Kumar sử dụng thuật toán cây quyết định C4.5, thuật toán ID3 và thuật toán CART (Classification and Regression Trees) để phân loại bệnh viêm gan (2011) [31]. Sana Ansari đề xuất sử dụng mạng nơron nhân tạo cho chẩn đoán bệnh gan do virus viêm gan gây ra (2011) [8]. Jae H. Jeon đã nghiên cứu phƣơng pháp đa lựa chọn ROI phân tích tổn thƣơng gan khu trú dựa trên hình ảnh siêu âm trong phân loại u mạch máu và u ác tính (2013) [28]. Agrawal đã đề xuất mạng nơron FCCVNN (Fuzzy Clustering Complex- Valued Neural Network) phân loại các tín hiệu Doppler tĩnh mạch để chẩn đoán xơ gan (2015) [5]. Chẩn đoán bệnh trong Y tế dựa trên số liệu của các kết quả xét nghiệm có thể đƣợc hình thành nhƣ là một vấn đề nhận dạng mẫu. Vấn đề này thu hút sự chú ý của nhiều nhà khoa học. Việc sử dụng mạng nơron min-max mờ đƣợc coi là một cách tiếp cận có hiệu quả [54]. Wang [72] kết hợp sử dụng giải thuật di truyền trong FMNN với rút trích các luật để dự báo bệnh nhân nhập viện. Kumar [30], Darne [19] đã kết hợp FMNN với FCM để chẩn đoán ung thƣ phổi. Shinde [61] đã đề xuất dùng FMNN với rút trích các luật phát hiện bệnh tiểu đƣờng. Quteishat [54] đã đề xuất FMNN trong chẩn đoán hội chứng mạch vành cấp tính. Rajakumar đề xuất sử dụng kỹ thuật FMNN để chẩn đoán bệnh tim tự động [57]…
  19. 4 Một trong những lý do để FMNN đƣợc sử dụng là khả năng sinh các luật quyết định if ... then rất đơn giản. Mỗi siêu hộp chuyển thành một luật đƣợc mô tả bằng cách định lƣợng các giá trị của các thuộc tính dữ liệu. Tuy nhiên, bản thân FMNN vẫn còn tồn tại nhiều nhƣợc điểm dẫn tới những khó khăn và khả năng ứng dụng thực tiễn bị hạn chế [21]. Do vậy, cải tiến FMNN đã đƣợc nhiều nhà nghiên cứu quan tâm. Các nghiên cứu chính cải tiến FMNN thƣờng tập trung vào các hƣớng chính nhƣ cải tiến cấu trúc mạng, tối ƣu hóa các tham số, hàm thuộc, giảm thiểu số siêu hộp trong mạng, cải tiến phƣơng pháp học hay kết hợp với phƣơng thức khác để cải thiện chất lƣợng. Theo hƣớng cải tiến cấu trúc của mạng, các công trình nghiên cứu điển hình thuộc nhóm này gồm: mô hình FMCN (2007) [45], DCFMN (2011) [76], MLF (2014) [21]… Theo hƣớng cải thiện phƣơng pháp học có thể kể đến mô hình GFMM (2000) [23], RFMN (2008) [46]. Để cải thiện hiệu suất của FMNN, Dazhong Ma cải tiến cách xác định giới hạn kích thƣớc của siêu hộp (2012) [39]; Mohammed F. Mohammed (2015) [41] và nhóm nghiên cứu của nghiên cứu sinh đã đề xuất bổ sung thêm các luật kiểm tra và điều chỉnh chồng lấn (2016) [69]; Shinde [61], Quteishat [55] và Jin Wang [72] loại bỏ bớt các siêu hộp có chỉ số tin cậy thấp; Mohammed F. Mohammed đề xuất giảm thiểu sinh siêu hộp tại vùng biên (2017) [42] và lựa chọn siêu hộp chiến thắng [43]; Peixin Hou phát triển mô hình CFMN sử dụng hệ số CF (2018) [25]; Jinhai Liu sử dụng hệ số HE đánh giá hiệu suất của các siêu hộp (2017) [37]; Preetee M. Sonule đề xuất mô hình EFMN (2017) [66]; Manjeevan Seera phát triển mô hình ECT (2018) [59]… Trên cơ sở nghiên cứu quá trình phát triển của FMNN, để nâng cao hiệu năng của FMNN và giảm thiểu số siêu hộp từ đó làm giảm số luật quyết định, đề tài luận án tập trung vào việc đề xuất, cải tiến phƣơng pháp học bằng phƣơng pháp học bán giám sát và giảm thiểu số siêu hộp trong mạng. Trong các phƣơng pháp mới trình bày trong luận án, thông tin bổ trợ đƣợc xác định là nhãn đƣợc
  20. 5 gán cho một phần dữ liệu để hƣớng dẫn và giám sát quá trình phân cụm. Đây là một cách tiếp cận mới mà các phƣơng pháp trƣớc đó chƣa đề cập đến. 2. Mục tiêu nghiên cứu Trên cơ sở nghiên cứu quá trình phát triển và những vấn đề còn tồn tại cần tiếp tục phát triển của FMNN, đề tài luận án có các mục tiêu nhƣ sau: 1) Xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu đƣợc dán nhãn. 2) Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ. 3) Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. 4) Đề xuất mô hình ứng dụng mạng nơron min-max mờ với kết xuất luật quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân. 3. Đối tƣợng và phạm vi nghiên cứu Đề tài luận án tập trung nghiên cứu các vấn đề sau: - Nghiên cứu tổng quan về FMNN và các biến thể của FMNN. - Phân tích các hạn chế và giải pháp đã đƣợc các nhà nghiên cứu sử dụng để khắc phục những hạn chế này. - Ứng dụng FMNN với kết xuất luật quyết định if...then mờ trong hỗ trợ chẩn đoán bệnh. 4. Phƣơng pháp nghiên cứu Luận án sử dụng phƣơng pháp nghiên cứu lý thuyết, cụ thể là luận án đã nghiên cứu mô hình mạng nơron min-max mờ cho phân lớp, phân cụm dữ liệu. Từ đó, Luận án tập trung nghiên cứu đề xuất thuật toán phân cụm bán giám sát. Luận án cũng sử dụng phƣơng pháp thực nghiệm mô phỏng kết hợp với phân tích, thống kê, đánh giá số liệu thực nghiệm.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2