Tóm tắt Luận án tiến sĩ Toán học: Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơron min max mờ và ứng dụng

Chia sẻ: Phong Tỉ | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

49
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của luận án nhằm xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu được dán nhãn. Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án tiến sĩ Toán học: Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơron min max mờ và ứng dụng

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÕNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ----------------------- VŨ ĐÌNH MINH NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM BÁN GIÁM SÁT SỬ DỤNG MẠNG NƠRON MIN-MAX MỜ VÀ ỨNG DỤNG Chuyên ngành: C sở to n học cho tin học Mã số: 9 46 01 10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2019
2 Công trình được hoàn thành tại: VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ BỘ QUỐC PHÒNG Người hướng dẫn khoa học: 1. PGS. TS. Lê Bá Dũng 2. TS. Nguyễn Doãn Cường Phản biện 1: PGS.TS Bùi Thu Lâm Học viện Kỹ thuật quân sự Phản biện 2: PGS.TS Phùng Trung Nghĩa Đại học Thái Nguyên Phản biện 3: TS Nguyễn Đỗ Văn Viện Khoa học và Công nghệ quân sự Luận án được bảo vệ trước Hội đồng đánh giá luận án cấp Viện họp tại Viện KH&CN quân sự vào hồi ….. ngày ….. tháng ….. năm 2019. Có thể tìm hiểu luận án tại thư viện: - Thư viện Viện KH&CN quân sự - Thư viện Quốc gia Việt nam
1 MỞ ĐẦU 1. Tính cấp thiết của luận n Phân cụm bán giám sát mờ là một mở rộng của phân cụm mờ bằng cách sử dụng các thông tin biết trước làm tăng chất lượng của cụm. Các thông tin biết trước hay còn gọi là các thông tin bổ trợ nhằm mục đích hướng dẫn, giám sát và điều khiển quá trình phân cụm. Mô hình mạng nơron min-max mờ (FMNN) do giáo sư Patrick K. Simpson đề xuất dựa trên những ưu điểm của việc kết hợp logic mờ, mạng nơron nhân tạo, lý thuyết min-max mờ để giải quyết bài toán phân lớp và phân cụm. FMNN là mô hình học gia tăng dựa trên các tập siêu hộp mờ cho khả năng xử lý các bộ dữ liệu quy mô lớn. Chẩn đoán bệnh gan dựa trên số liệu của kết quả xét nghiệm men gan có thể được hình thành như là một vấn đề nhận dạng mẫu. Việc sử dụng FMNN được coi là một cách tiếp cận có hiệu quả. Một trong những lý do để FMNN được sử dụng trong y tế là khả năng sinh các luật quyết định if .. then rất đơn giản. Mỗi siêu hộp của FMNN chuyển thành một luật được mô tả bằng cách định lượng các giá trị min và max của các thuộc tính dữ liệu. Tuy nhiên, bản thân FMNN vẫn còn tồn tại nhiều nhược điểm dẫn tới những khó khăn và khả năng ứng dụng thực tiễn bị hạn chế. Các nghiên cứu chính cải tiến FMNN thường tập trung vào các hướng chính như cải tiến cấu trúc mạng, tối ưu hóa các tham số, hàm thuộc, giảm thiểu số siêu hộp trong mạng, cải tiến phương pháp học hay kết hợp với phương thức khác để cải thiện chất lượng. Trên cơ sở nghiên cứu quá trình phát triển của FMNN, để nâng cao hiệu năng của FMNN, đề tài luận án tập trung vào việc đề xuất, cải tiến phương pháp học bằng phương pháp học bán giám sát. Trong các phương pháp mới trình bày trong luận án, thông tin bổ trợ được xác định là nhãn được gán cho một phần dữ liệu để hướng dẫn và giám sát
2 quá trình phân cụm. Đây là một cách tiếp cận mới mà các phương pháp trước đó chưa đề cập đến. 2. Mục tiêu nghiên cứu - Xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu được dán nhãn. - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ. - Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. - Ứng dụng mạng nơron min-max mờ với kết xuất luật quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân. 3. Đối tượng và phạm vi nghiên cứu Đề tài luận án tập trung nghiên cứu các vấn đề sau: - Nghiên cứu tổng quan về mạng nơron min-max mờ và các biến thể của mạng nơron min-max mờ. - Phân tích các hạn chế và giải pháp đã được các nhà nghiên cứu sử dụng để khắc phục những hạn chế này. - Ứng dụng mạng nơron min-max mờ với kết xuất luật quyết định if...then mờ trong chẩn đoán Y tế. 4. Phư ng ph p nghiên cứu Luận án sử dụng phương pháp nghiên cứu lý thuyết, cụ thể là luận án đã nghiên cứu mô hình FMNN cho phân lớp và phân cụm dữ liệu. Từ đó, luận án tập trung nghiên cứu đề xuất thuật toán phân cụm bán giám sát. Luận án cũng sử dụng phương pháp thực nghiệm mô phỏng kết hợp với phân tích, thống kê, đánh giá số liệu thực nghiệm. 5. Đóng góp của luận n - Xây dựng thuật toán SS-FMM cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn.
3 - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và SS-FMM, thuật toán học tự xác định thông tin bổ trợ cho thuật toán phân cụm bán giám sát mờ. - Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. 6. Cấu trúc của luận n Ngoài phần phần mở đầu và kết luận, bố cục của luận án gồm ba chương: - Chương 1 trình bày nghiên cứu tổng quan của luận án, bao gồm các nội dung cơ bản về FMNN và các mở rộng của FMNN. Đặc điểm chung của các mở rộng, các hạn chế từ đó đưa ra các hướng nghiên cứu tiếp theo. Thông qua chương này, luận án đưa ra được cái nhìn tổng quan về bài toán nghiên cứu, các khái niệm và thuật toán cơ bản sử dụng trong nghiên cứu của luận án. - Chương 2 trình bày các đề xuất cải tiến về phương pháp học trong FMNN, bao gồm mô hình học bán giám sát cho phân cụm dữ liệu sử dụng thông tin bổ trợ là một phần mẫu trong tập dữ liệu huấn luyện được gán nhãn, sau đó lan truyền nhãn cho các mẫu dữ liệu không có nhãn. Mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu trong tập dữ liệu huấn luyện. Và đây cũng chính là đầu vào cho thuật toán phân cụm bán giám sát mờ. Mô hình phân cụm dữ liệu trong mạng nơron min-max mờ có tính đến yếu tố phân bố dữ liệu. Tiếp theo trình bày kết quả thực nghiệm của các đề xuất trên các tập dữ liệu Benchmark và so sánh với một số phương thức liên quan. - Chương 3 trình bày mô hình ứng dụng FMNN với kết xuất luật quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân. Cuối cùng, kết luận nêu những đóng góp, hướng phát triển, những vấn đề quan tâm và các công trình đã được công bố của luận án.
4 Chư ng 1: Tổng quan về mạng n ron min-max mờ 1.1. C bản về mạng n ron min-max mờ * Hàm thuộc siêu hộp Hàm xác định độ thuộc bj(A,Bj) đo mức độ thuộc của mẫu A tương ứng với siêu hộp Bj.  b j A, B j   1 n  2n i 1      max 0,1  max 0,  min 1, ai  w ji  (1.2)    + max 0,1  max 0,  min 1, v ji  ai      b j A, B j  1 n       1  f ai  w ji ,   f v ji  ai ,   n i 1   (1.3) * Cấu trúc mạng nơron min-max mờ FMNN sử dụng cấu trúc mạng nơron truyền thẳng, cấu trúc hai lớp (Hình 1.4) với học không có giám sát và cấu trúc ba lớp (Hình 1.5) cho học có giám sát. Hình 1.5. Mô hình mạng nơron 3 lớp Hình 1.4. Mô hình mạng nơron 2 lớp * Kiểm tra và điều chỉnh chồng lấn giữa các siêu hộp Thuật toán học của FMNN nhằm mục tiêu tạo và điều chỉnh các siêu hộp trong không gian n-chiều. Nếu quá trình mở rộng tạo ra sự chồng lấn giữa các siêu hộp thì thực hiện quá trình co lại để khử chồng lấn. Có chồng lấn giữa Bj và Bk nếu xảy ra một trong bốn trường hợp sau: - Trường hợp 1: max của Bj chồng lấn với min của Bk - Trường hợp 2: min của Bj chồng lấn với max của Bk - Trường hợp 3: Bk bị co lại trong Bj - Trường hợp : Bj bị co lại trong Bk
5 Nếu Bj và Bk có chồng lấn, thực hiện co lại các siêu hộp trên chiều bị chồng lấn tương ứng để loại bỏ chồng lấn: - Trường hợp 1. Nếu v ji  vki  w ji  wki thì: vkinew   vkiold  wold ji  / 2 wkinew   vkiold  wold ji  / 2 - Trường hợp 2. Nếu vki  v ji  wki  w ji thì: v new ji   vold ji  wki  / 2 old wkinew   vold ji  wki  / 2 old - Trường hợp 3. Nếu v ji  vki  wki  w ji , xét các trường hợp sau: + Nếu (wki  v ji  wji  vki ) , thì: vnew ji  wkiold + Nếu (wki  v ji  wji  vki ) , thì: wnewji  vkiold - Trường hợp 4. Nếu vki  v ji  w ji  wki , xét các trường hợp sau: + Nếu (wki  v ji  wji  vki ) , thì: wkinew  vold ji + Nếu (wki  v ji  wji  vki ) , thì: vki  w ji new old * Thuật toán học trong mạng nơron min max mờ Thuật toán học trong mạng nơron min-max mờ chỉ bao gồm việc tạo và điều chỉnh các siêu hộp trong không gian mẫu. Thuật toán học trong mạng nơron min max mờ gồm 3 bước: tạo và mở rộng siêu hộp, kiểm tra chồng lấn, điều chỉnh chồng lấn. Mỗi bước được lặp lại đối với tất cả các mẫu trong tập dữ liệu. 1.2. Một số nghiên cứu nâng cao chất lượng của FMNN * Điều chỉnh giới hạn kích thước siêu hộp Để khắc phục hiện tượng vượt quá giới hạn kích thước siêu hộp khi huấn luyện mạng do phương pháp tính trung bình, D. Ma đề xuất giải pháp thay thế hàm giới hạn kích thước được so sánh trên tất cả các chiều tính theo công thức (1.24) bằng công thức (1.29):  A, B   j 1 n n i 1       max w ji , ai  min v ji , ai , (1.24)  A , B    h j i 1,...,n  max  w , a   min v , a  ji hi ji hi (1.29) * Sửa đổi cấu trúc FMNN quản lý khu vực chồng lấn Mô hình FMCN (Fuzzy Min-max neural network classifier with Compensatory Neurons) và DCFMN (Data-Core-Based Fuzzy Min– Max Neural Network) khắc phục cho các vấn đề gây ra bởi việc co lại
6 các siêu hộp là tạo ra các siêu hộp bù. Thay vì điều chỉnh co lại các siêu hộp, FMCN và DCFMN xử lý khu vực chồng lấn bằng cách sử dụng các siêu hộp quản lý vùng chồng lấn riêng biệt. * Cải tiến phương pháp học trong FMNN Mô hình bán giám sát GFMM (General Fuzzy Min-Max) và RFMN (Reflex Fuzzy Min-max Neural network) sử dụng các thông tin bổ trợ là các nhãn đi kèm với một số mẫu đầu vào. GFMM và RFMN đã sử dụng các thông tin biết trước để giám sát và hướng dẫn phân cụm. 1.5. Kết luận chư ng 1 Trong chương 1 NCS đã trình bày về nghiên cứu tổng quan về FMNN và xu hướng phát triển của FMNN, tổng hợp và so sánh các nghiên cứu điển hình về cải tiến cấu trúc, thuật toán học của FMNN. Các chương tiếp theo sẽ trình bày các đề xuất về một số vấn đề còn tồn tại trong quá trình phát triển của FMNN và ứng dụng FMNN hỗ trợ chẩn đoán Y tế, gồm: 1) Xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu được dán nhãn. 2) Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ. 3) Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. 4) Cài đặt thực nghiệm các thuật toán cải tiến dựa trên dữ liệu thu thập và phân tích dữ liệu là các kết quả xét nghiệm. Ứng dụng FMNN với kết xuất luật quyết định if…then mờ trong chẩn đoán Y tế. Chư ng 2: Ph t triển thuật to n phân cụm sử dụng mạng n ron min-max mờ Chương này trình bày ba thuật toán cải tiến phương pháp học và các thực nghiệm đánh giá thuật toán, bao gồm:
7 - Đề xuất cải tiến về phương pháp học bán giám sát SS-FMM, kết quả được công bố tại công trình 3. - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và SS-FMM, kết quả được công bố tại công trình 5. - Đề xuất cải tiến thuật toán phân cụm có tính đến yếu tố phân bố dữ liệu. Ngoài ra, thuật toán học sử dụng tập các luật bổ sung trong quá trình huấn luyện. Kết quả được công bố tại công trình 2 và công trình 4. 2.1. Thuật to n phân cụm b n gi m s t mờ SS-FMM Mô hình GFMM (General Fuzzy Min-Max) và mô hình sửa đổi RFMN có ưu điểm là sử dụng thêm các thông tin biết trước để giám sát quá trình phân cụm, từ đó nâng cao chất lượng phân cụm. Nhưng cả GFMM và RFMN đều có khả năng sinh ra các siêu hộp có những thuộc tính riêng mà không được gán nhãn. Lý do là khi GFMM và RFMN tạo ra các siêu hộp mới chứa mẫu đầu tiên mà mẫu này lại không có nhãn, điều này có nghĩa là siêu hộp mới không có nhãn. Siêu hộp này sẽ chờ mẫu có nhãn rơi vào để hiệu chỉnh nhãn của siêu hộp theo nhãn của mẫu. Tuy nhiên, có thể vẫn còn các siêu hộp không có nhãn không được hiệu chỉnh nhãn do không có mẫu có nhãn rơi vào. Hình 2.1 là một ví dụ minh họa về trường hợp GFMM và RFMN tạo ra các siêu hộp không có nhãn. Siêu hộp U Siêu hộp V Hình 2.1. Các siêu hộp lỗi của GFMM và RFMN Trong đó V là siêu hộp được tạo ra từ các mẫu có nhãn hoặc được điều chỉnh nhãn bởi các mẫu có nhãn, U là siêu hộp được tạo ra từ các mẫu không có nhãn mà không được điều chỉnh nhãn bởi các mẫu có nhãn.
8 Thuật toán SS-FMM đề xuất khắc phục nhược điểm này của GFMM và RFMN. SS-FMM ngăn không cho thuật toán tạo ra các siêu hộp không có nhãn bằng cách sử dụng ngưỡng giới hạn β. Ngưỡng ban đầu do người dùng xác định, nhưng thuật toán có khả năng tự xác định lại ngưỡng sao cho phù hợp trong quá trình huấn luyện. Sơ đồ thuật toán học được mô tả trên Hình 2.2. Bắt đầu Vào: D,  ,  S = |D|; Sold = 0; new m = |D|; h = 1 Dữ liệu vào {Ah ,dh}D Ah có đ thuộc vào BjB? dh = 0? s s đ Có BjB d h  Blj s nào chứa được Ah? đ đ l Tạo Hnew, H new  dh , dh ≠ 0? Mở rộng Bj; D  D \ Ah  B  B  Hnew s s D  D \  Ah  dh = 0 ? đ  max E A , B  j  1,..., q   h j  s S old S old 1 d h  Blj đ Có chồng s l Tạo Hnew, H new  Blj lấn siêu hộp? B  B  Hnew đ D  D \ Ah  Co lại siêu hộp h  h 1 đ s đ h < m? Snew = Sold ? s   . s D  ? đ Tính C theo (1.7) Ra: B, C Kết thúc Hình 2.2. Sơ đồ thuật toán học SS-FMM Khi tạo mới một siêu hộp từ mẫu vào không có nhãn, SS-FMM chỉ thực hiện tạo siêu hộp nếu thỏa mãn điều kiện ngưỡng β được xác định theo (2.2).   max  E A , B : j  1,..., q    ,   h j   (2.2)
9 SS-FMM hoạt động theo cơ chế lan truyền nhãn để gán nhãn cho các siêu hộp được tao ra bởi các mẫu không có nhãn. Thuật toán học tạo ra các siêu hộp từ các mẫu dữ liệu có nhãn và lan truyền nhãn từ các siêu hộp được gán nhãn cho các siêu hộp được hình thành từ các mẫu không có nhãn. SS-FMM kết hợp tất cả các siêu hộp có cùng một nhãn hình thành nên các cụm đầy đủ. * Đánh giá độ phức tạp thuật toán SS-FMM Thuật toán học SS-FMM có độ phức tạp thời gian là O(M(M-1)/2 + NK). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong mạng SS-FMM. 2.2. Thuật to n phân cụm b n gi m s t mờ kết hợp SCFMN Thuật toán học trong SS-FMM sinh ra các tập siêu hộp, với mỗi tập siêu hộp là một cụm. SS-FMM sử dụng nhiều siêu hộp với kích thước nhỏ để phân loại các mẫu ở vùng biên. Tuy nhiên, khi giảm tham số max thì số lượng siêu hộp trong mạng tăng, làm tăng độ phức tạp thuật toán. Không những vậy, SS-FMM cần có một tỷ lệ mẫu nhất định trong tập huấn luyện được gán nhãn. Mô hình SCFMN khắc phục nhược điểm này của SS-FMM. SCFMN sử dụng tham số max với giá trị khác nhau trong hai giai đoạn để cải thiện kết quả phân cụm với số lượng siêu hộp ít hơn.  max 1 xác định kích thước tối đa của các siêu hộp lớn,  max 2 xác định kích thước tối đa của các siêu hộp bé. Ở giai đoạn đầu, SCFMN tạo ra các siêu hộp và gán nhãn cho các mẫu có độ thuộc đầy đủ với các siêu hộp, với mỗi siêu hộp là một cụm. Ở giai đoạn sau, SCFMN thực hiện quá trình lan truyền các nhãn từ các siêu hộp được tạo ra trước đó tới các siêu hộp được tạo ra từ các mẫu không có nhãn. Các siêu hộp lớn và nhỏ có cùng một nhãn kết hợp với nhau hình thành nên các cụm đầy đủ. Hình 2.3 minh họa ý tưởng sử dụng siêu hộp lớn ở khu vực tâm cụm kết hợp với các siêu hộp nhỏ nhơn ở khu vực biên được biểu diễn trong không gian 2-chiều khi phân cụm dữ tập dữ liệu gồm hai cụm.
10 Trong đó B là siêu hộp có kích thước lớn, G là siêu hộp có kích thước nhỏ hình thành từ các mẫu có nhãn, R là các siêu hộp có kích thước nhỏ hình thành từ các mẫu không có nhãn. * Siêu hộp R Siêu hộp B * * * * * * * * * * ** ** * + + + + + * + + + ++ + + * * + + * + + + ++ ** * ** *+ Siêu hộp G * * * *+ + + + + + ++ + + + * * ** * * + * ** * * ** ++ + + * * ** * * *+ * + + + * * * * * * * * * * * ** ++ ++ + ++ + * ** ** ++ + + + *** * ** * * + + + + + + + + + ++ + ++ +++ Hình 2.3. Cấu trúc SCFMN sử dụng các siêu hộp lớn và nhỏ 2.2.2. Thuật toán học trong SCFMN Hình 2.5 là sơ đồ mô phỏng thuật toán học của SCFMN. Begin Dữ liệu vào AhD Dữ liệu vào {Ah ,dl}D Ah có y y n Có BjB chứa Mở rộng hyperbox thuộc vào siêu hộp dl = 0? được Ah? bất kỳ? n y n n Có chồng Tạo Bj mới, Blj  j lấn siêu hộp? Có siêu hộp dl  H sl n nào chứa được Ah? y Co lại siêu hộp y y dl ≠ 0? n Dữ liệu vào Mở rộng siêu hộp đã hết? n Tạo Hnew, y n dl = 0 ? l H new  dl Dữ liệu vào AhD y G = G{Hnew} Gán nhãn cho mẫu Ah có thuộc vào BjB ? y theo siêu hộp   max E A , H  : s  1,..., q   h s n n Có chồng n lấn siêu hộp? y dl  0 dl  Blj l Tạo Hnew, H new  dl D2=D2{Ah,dl} D1=D1{Ah,dl} y Co lại siêu hộp R = R{Hnew} n Dữ liệu vào đã hết? n Tất cả y dữ liệu đã có nhãn? D = D1D2 y End Pha 1: Xác định thông tin bổ trợ Pha 2: Sử dụng SS-FMM gán nhãn cho các mẫu còn lại Hình 2.5. Thuật toán học trong SCFMN
11 * Đánh giá độ phức tạp thuật toán SCFMN Thuật toán học SCFMN có độ phức tạp thời gian là O(KN(M(K+1)+1)+M(M-1)/2). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong mạng SCFMN. 2.3. Thuật to n phân cụm mờ dựa trên tâm cụm dữ liệu CFMNN Giá trị hàm thuộc trong FMNN không giảm dần khi mẫu rời xa siêu hộp. Để khắc phục các nhược điểm trên, CFMNN dựa trên khoảng cách giữa các mẫu vào tâm hình học của siêu hộp tương ứng. Giá trị tâm hình học được tính đến khi mẫu rời xa siêu hộp và độ thuộc nhỏ hơn 0.6, khi mà giá trị hàm thuộc của FMNN không giảm dần. Ngoài hai điểm min và max, mỗi siêu hộp tương ứng có tâm của siêu hộp tính theo (2.8).   c ji  v ji  w ji / 2 (2.8) Khoảng cách Euclidean giữa mẫu vào Ah và tâm hình học của siêu hộp thứ j, E A , B  được tính theo (2.9): h j 2 (2.9)   n 1 E A , B   1  c ji  ahi h j n i 1 Với mỗi mẫu vào Ah thỏa mãn điều kiện gới hạn kích thước (1.24) mà giá trị hàm thuộc bj < 0.6, khoảng cách Euclidean được tính toán và so sánh. Mẫu sẽ thuộc về siêu hộp có khoảng cách gần với mẫu hơn. * Đánh giá độ phức tạp thuật toán CFMNN Thuật toán học CFMNN có độ phức tạp thời gian là O(MKN). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong CFMNN. 2.4. Thực nghiệm và đ nh gi * Phương pháp thực nghiệm Để đánh giá hiệu năng của thuật toán đề xuất, các thực nghiệm được thực hiện trên các tập dữ liệu Benchmark. Thông tin về các tập dữ liệu thực nghiệm được trình bày trên Bảng 2.1.
12 Mục tiêu thực nghiệm đánh giá khả năng cải thiện hiệu năng, số lượng và sự phân bố các siêu hộp khi điều chỉnh tham số max của các thuật toán SS-FMM, CFMNN, SCFMN. Đánh giá khả năng giảm thiểu siêu hộp của SCFMN. Độ đo Accuracy và CCC (Cophenetic Correlation Coefficient) được sử dụng để đánh giá hiệu năng của các thuật toán và so sánh với các thuật toán khác. Accuracy được tính theo (2.12), CCC được tính theo (2.13). * Kết quả thực nghiệm Chi tiết về kết quả thược nghiệm được trình bày trên các Bảng 2.2 đến Bảng 2.14, từ Hình 2.9 đến Hình 2.20. (a). Spiral (b). Aggregation (c). Jain (d). Flame (e). Pathbased (b) R15 Hình 2.9. Đồ họa phân bố các siêu hộp của SS-FMM.
13 (a) (b) (c) (d) Hình 2.10. Sự biến động độ đo Accuracy khi thay đổi tỉ lệ mẫu có nhãn của SS-FMM
14 (a). Tập dữ liệu R15 (b). Tập dữ liệu Jain (c). Tập dữ liệu Iris (d). Tập dữ liệu Flame Hình 2.14. Sự biến động độ đo Accuracy khi thay đổi max của SS-FMM và SCFMN
15 (a). Tập dữ liệu Jain (b) Tập dữ liệu Flame (c) Tập dữ liệu Iris (d) Tập dữ liệu R15 Hình 2.17. Sự biến động tổng số siêu hộp khi thay đổi max của SCFMN và SS-FMM
16 Từ các kết quả thực nghiệm cho thấy: - Độ đo Accuracy giảm khi giảm tỉ lệ mẫu có nhãn, tuy nhiên mức độ giảm không nhiều khi giảm tỉ lệ mẫu có nhãn trong tập huấn luyện. - Độ đo Accuracy giảm khi tăng giới hạn kích thước tối đa max. Khi giảm max quá nhỏ dẫn đến độ đo Accuracy giảm. max ảnh hưởng đến hiệu năng của thuật toán. - Tổng số các siêu hộp giảm dần khi tăng max. * So sánh kết quả thuật toán đề xuất với một số thuật toán khác Bảng 2.7 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên tập dữ liệu Iris. Bảng 2.7. So sánh Accuracy giữa SS-FMM và GFMM, RFMN khi thay đổi tỉ lệ mẫu cón nhãn Accuracy (%) Tỉ lệ mẫu có nhãn GFMM RFMN SS-FMM 2% 36 52 94 10% 49 83 96 50% 84 92 97 Bảng 2.8 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên tập các tập dữ liệu thực nghiệm. Tỉ lệ mẫu có nhãn trong tập dữ liệu huấn luyện là 10%. Bảng 2.8. So sánh Accuracy của SS-FMM với GFMM và RFMN. Accuracy (%) Tập dữ liệu GFMM RFMN SS-FMM Aggregation 48.25 79.56 98.86 Flame 49.74 84.47 98.75 Jain 56.32 85.35 100 Sprial 55.19 82.61 100 Pathbased 52.47 82.52 98.72 R15 48.28 84.78 99.50 Iris 49.36 83.92 96.00 ThyroidNew 51.83 80.12 91.69 Wine 52.54 80.73 93.33
17 Bảng 2.9. So sánh Accuracy của SCFMN, CFMNN với FMNN, MFMM Accuracy (%) Tập dữ liệu FMNN MFMM CFMNN SCFMN Flame 85.13 91.78 91.25 99.17 Jain 86.07 91.18 91.20 100 R15 87.24 93.54 93.76 99.50 Iris 86.97 93.01 92.77 95.98 Wine 85.58 93.12 92.83 94.35 PID 68.35 70.08 70.49 74.58 Bảng 2.10. So sánh CCC của SCFMN, CFMNN với MFMN, MFMM CCC Tập dữ liệu MFMM MFMN CFMNN SCFMN Glass 0.94 0.94 0.93 0.94 Iris - 0.97 0.97 0.98 Wine 0.83 - 0.84 0.89 Bảng 2.11. So sánh Time của SCFMN, CFMNN với FMNN, MFMM Time (s) Tập dữ liệu FMNN MFMM CFMNN SCFMN Flame 0.483 0.532 0.487 0.876 Jain 0.635 0.724 0.648 0.923 R15 0.701 0.798 0.712 0.967 Iris 0.215 0.231 0.221 0.623 Wine 0.274 0.283 0.276 0.692 PID 525.132 732.945 543.675 913.657 Hình 2.19. So sánh độ đo Accuracy của SCFMN, CFMNN với FMNN, MFMM
18 Hình 2.20. So sánh NoH của SCFMN với một số phương thức khác 2.5. Kết luận chư ng 2 Chương 2 đã trình bày các thuật toán cải tiến FMNN: - Đề xuất cải tiến thuật toán với học bán giám sát sử dụng thông tin bổ trợ là nhãn của một phần dữ liệu trong tập huấn luyện và phương pháp lan truyền nhãn (SS-FMM). Học trong SS-FMM sử dụng thông tin chứa trong các dữ liệu đã gán nhãn và cả dữ liệu chưa được gán nhãn để huấn luyện. SS-FMM có hiệu năng tốt ngay cả với tỉ lệ mẫu được gán nhãn thấp. Đề xuất này đã được công bố tại công trình 3. - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp SCFMN. SCFMN sử dụng phương pháp học bán giám sát với các thông tin bổ trợ do thuật toán tự động xác định. SCFMN sử dụng cấu trúc với siêu hộp có kích thước lớn ở tâm cụm để giảm thiểu số siêu hộp và siêu hộp bé ở vùng ranh giới giữa các cụm để tăng hiệu suất phân cụm. Đề xuất này đã được công bố tại công trình 5. - Đề xuất thuật toán học cải tiến CFMNN có tính đến yếu tố phân bố dữ liệu. Trong giai đoạn dự báo và điều chỉnh siêu hộp không hoàn toàn lệ thuộc vào độ thuộc, đặc biệt khi mẫu rời xa siêu hộp. Ngoài ra, CFMNN sử dụng tập 10 luật mới để hiệu chỉnh các siêu hộp trong quá trình huấn luyện. Đề xuất này đã được công bố tại công trình 2 và công trình 4. Chư ng 3: Ứng dụng mạng n ron min-max mờ hỗ trợ chẩn đo n bệnh gan 3.1. Chẩn đo n bệnh gan * Chẩn đoán theo APRI APRI được tính theo công thức (3.1):