BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
------------------------------- LƯƠNG THỊ HỒNG LAN MỘT SỐ MỞ RỘNG CỦA HỆ SUY DIỄN MỜ PHỨC CHO BÀI TOÁN HỖ TRỢ RA QUYẾT ĐỊNH
Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01
TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Hà nội - 2021
Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS. Lê Hoàng Sơn Người hướng dẫn khoa học 2: PGS.TS. Nguyễn Long Giang Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ, ngày ….. tháng ….. năm 20…. Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Công nghệ - Thư viện Quốc gia Việt Nam
MỞ ĐẦU
Tập mờ (FS) được Zadel đề xuất năm 1965 [1] được coi là một trong những công cụ hữu hiệu để giải
quyết các bài toán có tính chất bất định, không tường minh, rõ ràng. Rất nhiều những nghiên cứu mở rộng của
FS đã được giới thiệu trong vài năm gần đây [2-6] và được ứng dụng nhiều trong bài toán hệ hỗ trợ ra quyết
định. Một trong những kĩ thuật quan trọng dựa trên lý thuyết FS và ứng dụng trong việc giải quyết các bào
toán của hệ hỗ trợ ra quyết định là Hệ suy diễn mờ (FIS). FIS hiện đã và đang được ứng dụng rộng rãi trong
nhiều bài toán phân loại/dự báo và các bài toán của hệ hỗ trợ ra quyết định như lựa chọn nhân sự, lựa chọn nhà
cung cấp, hỗ trợ ra chiến lược phát triển công ty... Bên cạnh đó, trong một vài ứng dụng khác thì hệ FIS được
sử dụng để tạo ra một tập hợp các luật mờ nhằm mục đích phát hiện, dự báo hoặc phân loại các đối tượng như
phát hiện ung thư phổi, phát hiện bệnh đái tháo đường, dự đoán bị bệnh tim ...[7-13]. Một phiên bản mở rộng
của FIS nhúng vào mạng nơ ron và kết hợp với học dựa trên phương pháp gradient có tên gọi là Hệ suy diễn
mờ nơ ron thích nghi (ANFIS) [14] và cho kết quả tốt trong vấn đề dự báo bệnh mạch vành, ước tính sự tăng
cường độ dẫn nhiệt của kim loại và oxit kim loại.. [15-21].
Gần đây, cùng với sự gia tăng của các vấn đề ra quyết định dựa trên các dữ liệu có sự thay đổi về thời
gian hay các dữ liệu có yếu tố chu kì, định kì thì khái niệm tập mờ phức ra đời (CFS) với hàm thuộc bao gồm
cả thành phần biên độ và thành phần pha [36]. CFS được áp dụng trong nhiều nghiên cứu, tập trung chủ yếu
vào các vấn đề như các toán tử tổng hợp mờ mới, thông tin mềm mờ phức, độ đo khoảng cách mờ phức và
mạng các khái niệm mờ phức [37-43]. Ưu điểm của CFS là khả năng mô hình hóa các hiện tượng và sự kiện
theo thời gian, theo giai đoạn để từ đó có thể cho thấy tổng thể chúng trong một ngữ cảnh nhất định.
Ví dụ như để xác nhận chẩn đoán huyết áp của bệnh nhân là “cao” hay “thấp” thì một bệnh nhân được
đo 30 lần rồi ghi lại giá trị tương ứng với mỗi lần đo, sau đó giá trị trung bình và phương sai được tính toán
đối với giá trị huyết áp đo được. Từ đó huyết áp của bệnh nhân có thể tính được dễ dàng bằng cách lấy giá trị
trung bình và phương sai của các lần đo (sử dụng ý nghĩa của mờ hóa của hệ FIS trên tập CFS), ví dụ như là
huyết áp thấp với giá trị trung bình và phương sai cho giá trị nhỏ. Còn nếu như huyết áp chỉ đo tại một thời
điểm và đưa ra quyết định thì có thể dẫn đến quyết định về huyết áp của bệnh nhân không chính xác.
Một ví dụ khác về vấn đề chẩn đoán bệnh: nếu chỉ dựa vào các giá trị thuộc tính bệnh mà không xét
tới các thuộc tính khác thì làm cho kết quả chẩn đoán không được chính xác, do kết luận bệnh không chỉ phụ
thuộc vào mỗi một giá trị thuộc tính bệnh mà còn cần phải xét tới các yếu tố liên quan tới bệnh đó. Hơn nữa,
cũng có nhiều kịch bản, dữ liệu trong thực tế liên quan đến yếu tố pha, trong dữ liệu có xu hướng tuần hoàn,
chẳng hạn như lượng mưa được ghi lại trong một vùng hoặc sóng âm thanh do một nhạc cụ tạo ra. Do đó, hiển
nhiên rằng số phức cũng phải có một vị trí trong hệ thống suy luận mờ. Do đó, đây là động cơ chính của luận
án này.
Các hệ suy diễn thường như Mamdani, Sugeno, Tsukamoto hay các mô hình ANFIS thỉ chỉ có khả
năng xử lý những hiện tượng mà không có yếu tố chu kì, yếu tố định kì. Khi xử lý đối với dữ liệu có yếu tố
chu kì, định kì, dữ liệu có yếu tố thay đổi theo thời gian thì các hệ FIS hay ANFIS đều đưa ra hai phương thức
xử lý chung: (1) Bỏ qua thông tin liên quan đến yếu tố thành phần pha; (2) Biểu diễn thành phần biên độ và
pha riêng biệt với nhau thành 2 thành phần riêng biệt bằng cách sử dụng 2 tập mờ. Điều này sẽ làm cho thông
tin bị mất mát và kết quả thu được không có độ tin cậy cao (nếu các thông tin về thành phần pha bị bỏ qua),
làm sai lệch thông tin và giảm hiệu năng tính toán (nếu thông tin về biên độ và pha được xử lý riêng biệt), thời
gian tính toán sẽ tăng thêm do số lượng các bộ cần được xử lý tăng thêm.
Hệ suy diễn mờ phức được cho là một công cụ hiệu quả đối với việc giải quyết các vấn đề không chắc
1
chắn và có yếu tố định kỳ, chu kì. Hệ suy diễn mờ phức đầu tiên được giới thiệu Ramot [44] được gọi là Hệ
logic mờ phức được phát triển từ hệ thống logic mờ thông thường nhưng thay thế tập mờ và phép kéo theo
mờ bởi biến đổi phức tương ứng của nó. Một nghiên cứu khác bởi Man và cộng sự [45] dựa trên sự kết hợp
giữa phương pháp học quy nạp với hệ suy diễn trong tập phức. Một phiên bản học nhúng khác với mạng mờ
nơ ron trên tập CFS với tên gọi Hệ thống suy diễn mờ phức nơ ron thích nghi (ANCFIS) được giới thiệu bởi
Chen và cộng sự [46]. Sau đó 2 cải tiến của ANCFIS với mục đích làm gia tăng tốc độ tính toán cũng được
đưa ra trong [47- 48]. Tuy nhiên các hệ phát triển trên lý thuyết tập mờ phức đều không phải là hệ thống phức
thực sự.
Từ những nghiên cứu về hệ mờ phức đã có thì hệ mờ phức vẫn còn tồn tại một số hạn chế như sau:
- Các hệ suy diễn mờ phức chưa đưa ra được quy trình tổng thể xây dựng hệ suy diễn mờ phức cho hệ
hỗ trợ ra quyết định.
- Các hệ luật trong các hệ suy diễn mờ phức đã có chỉ sinh ra dựa trên kinh nghiệm, dựa trên tư duy
logic suy diễn mà chưa đề cập đến vấn đề tối ưu hệ luật suy diễn mờ phức.
- Các hệ suy diễn chưa được nghiên cứu để áp dụng đối với bộ dữ liệu mới mà không có trong dữ liệu
huấn luyện khi sinh mô hình suy diễn.
- Các toán tử t-chuẩn và t-đối chuẩn mờ phức còn chưa được quan tâm nghiên cứu tìm hiểu và ứng
dụng trong hệ hỗ trợ ra quyết định.
Mục tiêu nghiên cứu của luận án.
Luận án tập trung nghiên cứu tìm hiểu và áp dụng hệ suy diễn mờ phức đối với bài toán hệ hỗ trợ ra
quyết định, cụ thể như sau:
1) Nghiên cứu các lý thuyết về tập mờ phức, logic mờ phức và các độ đo dựa trên tập mờ phức.
2) Nghiên cứu và phát triển hệ suy diễn dựa trên tập mờ phức
3) Nghiên cứu các kĩ thuật áp dụng để giảm luật, tối ưu hóa luật mờ trong hệ suy diễn mờ phức.
4) Nghiên cứu cách biểu diễn luật dựa trên đồ thị tri thức để giảm thời gina tính toán suy diễn đối với
tập thử nghiệm và xử lý với các trường hợp bộ dữ liệu mới không có trong tập dữ liệu huấn luyện.
Bố cục của luận án gồm bốn chương nội dung chính, phần Mở đầu, Kết luận và danh mục các tài liệu
tham khảo. Phần Mở đầu trình bày tổng quan về vấn đề nghiên cứu, lý do chọn đề tài, đối tượng, mục tiêu và
nội dung nghiên cứu của luận án. Phần Kết luận tổng kết những kết quả đã đạt được của luận án và hướng phát
triển, hướng nghiên cứu trong tương lai. Các chương nội dung chính được tổ chức như sau:
Chương 1 trình bày các khái niệm cơ bản, kiến thức nền sẽ được sử dụng trong các chương tiếp theo.
Mở đầu, mục 1.2 và 1.3 về lý thuyết tập mờ, tập mờ phức, độ đo mờ và độ đo mờ phức và các nghiên cứu liên
quan về hệ suy diễn dựa trên tập mờ phức trong những năm gần đây. Trên cơ sở đó, luận án phân tích các vấn đề
còn tồn tại, nêu rõ các động lực nghiên cứu của luận án: sử dụng hệ suy diễn mờ phức đối với việc giải quyết bài
toán hỗ trợ quá trình ra quyết định. Thêm vào đó, các bộ dữ liệu thực nghiệm trong luận án cùng với các thước
đo dùng để đánh giá thực nghiệm cũng được trình bày chi tiết trong chương đầu tiên này.
Các đóng góp chính của luận án được trình bày trong chương 2, chương 3 và chương 4. Chương 2 trình
bày hai kết quả nghiên cứu chính: thứ nhất là định nghĩa các phép toán t- chuẩn, t-đối chuẩn mờ phức; thứ hai là
phát triển hệ suy diễn Mamdani trên tập mờ phức. Cuối chương là kết quả thực nghiệm và nhận xét so sánh của
hệ suy diễn đã đề xuất trên các bộ dữ liệu thực nghiệm với hệ suy diễn mờ phức Mamdani.
Vấn đề tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani là nội dung được đề cập và xem xét đến
trong nội dung của chương 3. Xuất phát từ lý thuyết về tính toán hạt, luận án đề xuất ra các độ đo mờ phức và
2
độ đo mờ phức kết hợp với tính toán hạt để tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani đã đề xuất
trong chương 2 (hệ suy diễn mờ phức M-CFIS-R). Ví dụ số và kết quả thực nghiệm cũng đã chứng minh được
tính hiệu quả của vấn đề giảm luật và tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani.
Nếu trong chương 3 luận án chỉ đi tập trung vào vấn đề giảm luật, tối ưu luật trong phần training thì
chương 4 chúng tôi lại tập trung vào cải tiến đối với bộ testing bằng cách áp dụng lý thuyết về đồ thị tri thức mờ.
Thêm nữa, luận án cũng đề xuất một số khái niệm dựa trên lý thuyết tập hợp như độ đo mờ phức và tích phân
mờ phức.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan
tâm của tác giả.
CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT
1.1. Giới thiệu
Lý thuyết tập mờ nói chung và tập mờ phức nói riêng được coi là một trong những công cụ toán học
hiệu quả để biểu diễn và xử lý nhưng khái niệm không chắc chắn.
1.2. Vấn đề Hệ suy diễn mờ trong Hệ hỗ trợ ra quyết định
Quy trình chung của phương pháp sử dụng hệ mờ trong các hệ hỗ trợ ra quyết định
Hình 1.1 Hệ suy diễn mờ trong Hệ hỗ trợ ra quyết định
Ban đầu dựa trên dữ liệu mẫu huấn luyện, một quy trình sinh luật được áp dụng để tạo ra hệ các luật
mờ. Hệ luật này là trung tâm tập hợp các quy luật, kiến thức trích rút ra từ tập dữ liệu huấn luyện. Tiếp theo,
với mỗi đầu vào mới được áp dụng với từng luật và tính toán các đầu ra. Một quy trình tổng hợp kết quả từ
các luật để cho ra một giá trị chung. Cuối cùng, ở bước ra quyết định thì giá trị này được điều chỉnh, chuẩn
hóa để đưa ra quyết định cuối cùng.
1.3. Tổng quan về các nghiên cứu liên quan
1.3.1. Hệ suy diễn mờ
Hệ suy diễn mờ (FIS) là một khung tính toán phổ biến dựa trên khái niệm lý thuyết tập mờ thường
được áp dụng khi xây dựng các quá trình hỗ trợ ra quyết định. Có ba kiểu hệ suy diễn mờ, đó là Hệ suy diễn
Mamdani, Hệ suy diễn Sugeno (hay còn gọi là Takagi – Sugeno), Hệ suy diễn Tsukamoto
1.3.2. Các hệ phát triển dựa trên tập mờ phức
1.3.2.1 Hệ suy diễn mờ phức của Ramot
Hệ thống mờ phức do Ramot đề xuất bao gồm 3 giai đoạn: Module mờ hóa, Suy diễn mờ và Giải mờ.
Ở đây tác giả bỏ qua thành phần pha mà chỉ quan tâm đến thành phần biên độ của tập mờ phức trong giai đoạn
giải mờ.
1.3.2.2. Hệ CANFIS do nhóm tác giả Li và Jang đề xuất
Li và Jang [53] đã giới thiệu một hệ suy diễn mờ dựa trên tập mờ phức với tên gọi là Hệ suy diễn mờ
nơron thích nghi phức CANFIS (Complex Neuro-Fuzzy Inference System). Tuy nhiên, hệ thống này không
hoàn toàn đúng ý nghĩa trên miền phức, bởi việc sử dụng các hàm thuộc mờ loại 1 riêng cho phần thực và phần
3
ảo của từng giá trị biến đầu vào. Chính điều đó làm giảm đi ý nghĩa của hệ thống suy diễn trên tập mờ phức.
1.3.2.3. Hệ ANCFIS do Chen và cộng sự đề xuất
Kiến trúc của hệ ANCFIS do nhóm tác giả Chen và cộng sự đề xuất năm 2010 [46] gần giống với kiến
trúc mạng nơ ron giá trị phức. Mô hình ANCFIS sử dụng phép tích vô hướng cho giai đoạn tổng hợp đầu ra
và coi các tín hiệu đầu vào có giá trị phức như là giá trị thực, do đó nó thu được một giá trị vô hướng cho phép
tích vô hướng. Điều này sẽ không thể xảy ra nếu các đầu vào thực sự được coi là các giá trị phức tạp, vì tích
số chấm của hai số phức là một số phức và không phải là một giá trị vô hướng. Do đó, hệ thống ANCFIS
không thực sự phức tạp vì các đầu ra của hệ thống sẽ không đại diện cho tính tuần hoàn của các phần tử.
1.3.2.4. Một số hệ suy diễn khác dựa trên tập mờ phức
Bên cạnh các nghiên cứu đã có thì tập mờ phức cũng được nhiều nhóm nghiên cứu và phát triển. Nhóm
tác giả Malekzadeh và Akbarzadeh [54] đưa ra đề xuất hệ suy diễn dựa trên tập mờ phức với tên gọi là hệ suy
diễn mờ thích nghi giá trị phức(CANFIS) là một hệ thống lai giữa tập mờ phức và mạng nơ ron mờ. Tuy nhiên,
trong nghiên cứu này không đưa ra phương pháp giải mờ đầu ra giá trị phức thành đầu ra rõ, và chỉ chọn duy
nhất giá trị phần thực của đầu ra chứ không đề cập tới giá trị của thành phần pha. Deshmukh và cộng sự [55]
lại đề xuất một hệ logic mờ phức và áp dụng chúng để thiết kế bộ vi xử lý mờ sử dụng công nghệ VLSI. Tuy
nhiên, nhóm tác giả không thực hiện suy diễn luật và không đưa ra module giải mờ phù hợp trong hệ thống
của mình.
1.3.3. Các vấn đề còn tồn tại cần giải quyết của hệ CFIS hiện nay
Từ các nghiên cứu về hệ suy diễn phát triển từ tập mờ phức, các hệ suy diễn phát triển dựa trên tập mờ
phức đã có chưa thực sự đúng với ý nghĩa của hệ thống phức thực sự.
Để xử lý với dữ liệu chuỗi thời gian hay có các hiện tượng tuần hoàn, biến đổi theo thời gian thì các
hệ FIS hay ANFIS đều đưa ra 2 phương thức chung như sau: (1) bỏ qua thông tin liên quan đến yếu tố thành
phần pha; (2) biểu diễn thành phần biên độ và pha riêng biệt với nhau thành 2 thành phần riêng biệt bằng cách
sử dụng 2 tập mờ. Điều này sẽ làm cho mất mát thông tin trong quá trình suy diễn và kết quả thu được không
đáng tin cậy (nếu các thông tin về thành phần pha bị bỏ qua), làm sai lệch thông tin và giảm hiệu năng tính
toán (nếu thông tin về biên độ và pha được xử lý riêng biệt), thời gian tính toán sẽ tăng thêm do số lượng các
bộ cần được xử lý tăng thêm.
1.4. Cơ sở lý thuyết
1.4.1. Tập mờ
Khái niệm tập mờ được giáo sư Lotfi A.Zadel đưa ra vào năm 1965 [1] với mục đích là mô tả những
khái niệm “tập hợp chưa rõ ràng” trong nghiên cứu những yếu tố chưa bất định.
1.4.2. Tập mờ phức
Tập mờ phức được đặc trưng bởi một hàm thuộc giá trị phức mà phạm vi giá trị của nó là
đường tròn đơn vị trong không gian phức, và có dạng:
, (0.1)
Trong đó: là biên độ và pha, và cả 2 đều là các hàm có giá trị thực với điều kiện
và .
1.4.3. Các phép toán trên tập mờ phức
1.4.3.1 Phần bù của tập mờ phức
Cho và là hai tập mờ phức với: và , Phần bù của tập
mờ phức ( kí hiệu ) được xác định:
(1.4)
4
Với và .
1.4.3.2. Phép hợp và phép giao của hai tập mờ phức
Phép hợp hai tập mờ phức và (kí hiệu ):
(1.5)
Với phép có thể là phép t-đối chuẩn, ví dụ như
Phép giao hai tập mờ phức và (kí hiệu ) được xác định bởi:
(1.6)
Với và
Trong đó phép biểu diễn hàm t-chuẩn, ví dụ như toán tử Min hoặc phép nhân đại số.
1.4.4. Logic mờ phức
Hệ logic mờ phức sử dụng luật được xây dựng dựa trên tập mờ phức để tạo ra một hệ logic mờ phức.
Một luật chính là biểu diễn của một quan hệ kéo theo mờ phức giữa hai tiền đề mờ phức không có điều kiện p
và q, trong đó tiền đề p được mô tả là cụm “X là A” còn q được mô tả bởi “Y là B”.
Hàm kéo theo của logic mờ phức: (1.14)
1.4.5. Độ đo mờ và độ đo mờ phức
Định nghĩa: [44] Một độ đo mờ phức kí hiệu đối với và
nếu thỏa mãn các tính chất sau:
khi và chỉ khi
o o (1.16)
o
Với là tập các tập mờ phức trong
1.5. Dữ liệu thực nghiệm
1.5.1. Bộ dữ liệu chuẩn
Để minh họa cho những mô hình đề xuất, luận án sử dụng các bộ dữ liệu chuẩn lấy từ kho dữ liệu học
máy UCI bao gồm: Bộ dữ liệu ung thư vú Breast Wisconsin Dataset (WBCD), bệnh tiểu đường Diebetes, bộ
dữ liệu đo chất lượng rượu (Wine Quality), bộ dữ liệu Hình ảnh tim thai CardiotocoGraphy- CTG và bộ dữ
liệu Rối loạn nhịp tim (Arrhythmia).
1.5.2. Bộ dữ liệu thực
Thông tin về dữ liệu bệnh gan được được trích từ hồ sơ bệnh án liên quan đến kết quả xét nghiệm (sinh
hóa máu và công thức máu) và chẩn đoán bệnh từ các bác sĩ tại Bệnh viện Gang Thép và Bệnh viện Đa khoa
Thái Nguyên. .
1.5.3. Các độ đo đánh giá thực nghiệm
Các độ đo được sử dụng để đánh giá mô hình hệ suy diễn mờ phức đối với hệ hỗ trợ ra quyết định
gồm có: Độ chính xác (Accuracy), độ đo Precision, độ đo Recall và tổng thời gian thực hiện.
1.6. Kết luận chương
Chương 1 trình bày một số khái niệm nền tảng về lý thuyết tập mờ phức và hệ suy diễn mờ và hệ suy
diễn mờ phức đã có, tổng quan về nghiên cứu về hệ suy diễn dựa trên tập mờ phức. Các nội dung trong chương
5
1 sẽ là các kiến thức nền và sử dụng trong các chương tiếp sau của luận án.
Chương 2. XÂY DỰNG HỆ SUY DIỄN MỜ PHỨC DẠNG MAMDANI (M-CFIS)
2.1. Mở đầu
Luận án đề xuất Hệ suy diễn mờ phức theo mô hình Mamdani cùng với chi tiết các thành phần cũng
như các bước thực hiện, các toán tử trong mô hình và đồng thời cũng đề xuất các toán tử t-chuẩn, t-đối chuẩn
mờ phức. Đề xuất toán tử t-chuẩn và t- đối chuẩn mờ phức.
2.2. Đề xuất toán tử t-chuẩn và t-đối chuẩn mờ phức
2.2.1. Toán tử t-chuẩn và t-đối chuẩn
Phần này trình bày định nghĩa tổng quát về phép toán t-chuẩn và t-đối chuẩn
2.2.2. Toán tử t-chuẩn và t-đối chuẩn mờ phức
Định nghĩa 2.3. Cho ánh xạ với là mặt phẳng đơn vị phức chứa tập hợp các số
phức. Phép được gọi là phép t-chuẩn mờ phức nếu các điều kiện sau thỏa mãn đối với mọi giá trị
, tương ứng là các hàm thuộc mờ phức
(1)
, nếu (2)
(3)
(4)
Định nghĩa 2.4. Cho ánh xạ với là mặt phẳng đơn vị phức chứa tập hợp các số
phức. Phép được gọi là phép t-đối chuẩn phức nếu các điều kiện sau thỏa mãn đối với mọi giá trị
, tương ứng là các hàm thuộc mờ phức
(1) (2) (3) (4)
, nếu
Định nghĩa 2.5. Nếu hàm t-chuẩn mờ phức liên tục và với mọi thì nó được
gọi là hàm toán tử t-chuẩn mờ phức Archimedean. Nếu một toán tử t-chuẩn mờ phức Archimedean tăng chặt
với mọi thì nó được gọi là toán tử t-chuẩn mờ phức Archimedean chặt.
Định nghĩa 2.6. Nếu hàm t-đối chuẩn mờ phức liên tục và với mọi thì nó
được gọi là hàm toán tử t-đối chuẩn mờ phức Archimedean. Nếu một toán tử t-đối chuẩn mờ phức Archimedean
tăng chặt với mọi thì nó được gọi là toán tử t-đối chuẩn mờ phức Archimedean chặt.
Định lý 2.1. Toán tử T-chuẩn và T-đối chuẩn phải thỏa mãn các tính chất phân phối sau:
(1)
(2)
Định lý 2.2. Toán tử T- chuẩn và T- đối chuẩn phải thỏa mãn các tính nuốt (tính chất được suy rộngctừ
lý thuyết tập hợp) như sau:
(1)
(2)
Định lý 2.3. Toán tử T- chuẩn và T- đối chuẩn phải thỏa mãn các tính lũy đẳng sau:
(1)
(2)
Định nghĩa 2.7. Cho , được gọi là hàm phủ định nêú nó thỏa mãn tính chất sau:
(1)
6
khi (2)
Định nghĩa 2.8. Hàm phủ định được coi là chặt nếu nó thỏa mãn điều kiện:
(1) là hàm liên tục
(2) và giảm chặt tức là nếu với mọi
Định nghĩa 2.9. Hàm phủ định được coi là mạnh nếu nó là chặt và thỏa mãn điều kiện với
mọi
Định lý 2.4. Toán tử t-chuẩn , toán tử t-đối chuẩn và toán tử phủ định phải thỏa mãn luật loại trừ trung
bình sau: (1)
(2)
Định lý 2.5. Toán tử t-chuẩn , toán tử t-đối chuẩn và toán tử phủ định phải thỏa mãn luật De Morgan
sau: (1)
(2)
Mệnh đề 2.2. Nếu toán tử phủ định là chặt thì các luật trong định lý 2.4 đều thỏa mãn
Mệnh đề 2.3. Nếu toán tử phủ định là chặt thì và
2.2.3. Ví dụ minh họa hỗ trợ ra quyết định
Trong phần này, luận án trình bày về ứng dụng toán tử t-chuẩn và t-đối chuẩn trong quá trình hỗ trợ ra
quyết định và minh họa trên bộ dữ liệu bệnh Viêm gan Liver thu thập ở Bệnh viện Ganh thép Thái Nguyên và
Bệnh viện đa khoa Thái Nguyên, quá trình gồm các bước sau:
Bước 1. Giả sử vấn đề hỗ trợ ra quyết định với phương án và tiêu chí
. Người ra quyết định đi xây dựng ma trận ra quyết định trong đó thể hiện
mức độ mà người ra quyết định thích phương án đối với tiêu chí . Trọng số của tiêu chí được diễn tả bởi
các số mờ phức CFNs , với là thành phần biên độ hay mức độ thích của
người ra quyết định đối với tiêu chí và là thành phần pha.
Bước 2. Biến đổi ma trận quyết định thành ma trận chuẩn hóa , với
Bước 3. Sử dụng các toán tử trong ví dụ 2.3 để tính toán t-chuẩn mờ phức Lukasiewicz
Bước 4: Tổng hợp các cấp độ mức độ thuộc phức.
7
Bước 5: Xem xét điểm cao nhất là ứng cử viên cho thứ hạng tốt nhất.
2.3. Hệ suy diễn mờ phức Mamdani (M-CFIS)
2.3.1. Đề xuất hệ suy diễn mờ phức Mamdani
Hình 2.1. Mô hình hệ suy diễn Mamdani dựa trên tập mờ phức
2.3.2. Các lựa chọn sử dụng trong hệ suy diễn mờ phức Mamdani
2.3.2.1. Hàm thuộc mờ phức
Trong mô hình Hệ suy diễn mờ phức dạng Mamdani đề xuất hàm thuộc mờ phức có dạng như sau:
với thành phần pha and thành phần biên độ .
2.3.2.2. Các toán tử sử dụng trong Hệ Mamdani CFIS
Trong nghiên cứu của chúng tôi, các toán tử được xác định như sau:
1. Toán tử T- chuẩn Minimum được sử dụng để tính toán độ mạnh của luật mờ phức với phép AND
được dùng để liên kết các điều kiện của luật.
2. Toán tử T-đối chuẩn Maximum được sử dụng để tính toán độ mạnh của luật mờ phức với phép OR
được dùng để liên kết các điều kiện luật.
3. Luật kéo theo Mamdani được dùng để tính toán kết quả của mỗi luật mờ phức sử dụng phép tích vô
hướng có dạng như sau:
2.3.2.3. Vec tơ tổ hợp đối với tập mờ phức
Trong mô hình mờ phức Mamdani đề xuất phép toán tổ hợp là phép tích vô hướng giữa các vector giá
trị phức có dạng như sau:
2.3.2.4. Tổng hợp đầu ra cuối cùng
với là các hàm giá trị phức. Điều Hàm đầu ra như sau:
này đảm bảo rằng hệ suy diễn mờ phức thực sự, trong đó thành phần pha được xem xét trong tất cả các bước
8
của quá trình ra quyết định
2.3.3. Cấu trúc của hệ suy diễn mờ phức Mamdani
Quá trình tính toán kết quả đầu ra thông qua mô hình hệ suy diễn mờ phức Mamdani cũng bao gồm 6
bước. Cụ thể từng bước như sau:
Bước 1: Xác định tập các luật mờ phức
Bộ luật mờ phức có dạng như sau:
…
is is is CFR1: If
…
is 𝐴1,𝑛1 then then is
is is is CFR2: If
… … … …
…
then
is is is is CFRk: If
Trong đó:
với (a)
, với và . (b)
, với và . (c)
(d) là toán tử T-chuẩn và là toán tử S-chuẩn (ví dụ như T-đối chuẩn) tương ứng với 𝑇0.
với (e)
(f) , where
Trong đó: .
(i) khi và chỉ khi
(ii) khi và chỉ khi
Bước 2: Mờ hóa dữ liệu đầu vào Trong bước này mỗi giá trị đầu vào được mờ hóa bởi hàm thuộc mờ
phức có dạng sau: với
Bước 3: Xác định độ mạnh của luật Tính toán độ mạnh của từng luật mờ phức .
Trong đó:
Bước 4: Tính toán các kết quả đầu ra y của luật mờ phức
Dạng của hàm đầu ra đối với mỗi luật mờ phức như sau:
Bước 5: Tổng hợp kết quả đầu ra của các luật mờ phức
Phân bố đầu ra được định nghĩa như sau:
Bước 6: Giải mờ kết quả đầu ra
Chọn hàm , giá trị đầu ra được xác định bởi:
Ví dụ chúng ta có thể chọn xấp xỉ sử dụng luật hình thang đối với mọi
.
2.4. Thử nghiệm và đánh giá kết quả
Chúng tôi thực nghiệm so sánh mô hình đề xuất M-CFIS với mô hình hệ suy diễn mờ Mamdani (M-
FIS) trên bộ dữ liệu chuẩn UCI và bộ dữ liệu thực Liver lấy từ Bệnh viện Gang thép và đa khoa Thái Nguyên
9
được chỉ rõ trong hình 2.2, 2.3 và 2.4. Ta có thể nhận thấy mô hình hệ suy diễn mờ phức M-CFIS hiệu quả
hơn hệ suy diễn mờ Mamdani trên cả 2 tiêu chí đánh giá: Độ chính xác, Precision và Recall. Bởi đối với vấn
đề chẩn đoán bệnh, các thuộc tính bệnh luôn có tác động qua lại lẫn nhau, có mối liên hệ lẫn nhau nên khi sử
dụng yếu tố bổ sung là mối quan hệ giữa các thuộc tính bệnh sẽ làm tăng hiệu quả của chẩn đoán bệnh chứ
không xét riêng lẻ từng thuộc tính như tập mờ thông thường. Tuy nhiên khi đưa thêm vào các yếu tố bổ sung
thì thời gian thực hiện của mô hình M-CFIS lại nhiều hơn M-FIS do còn phải tính toán thêm với thành phần
pha
Hình 2.2. Kết quả chạy thực nghiệm trên bộ WBCD Hình 2.3. Kết quả chạy thực nghiệm trên bộ Diebetes
Hình 2.4. Kết quả chạy thực nghiệm trên bộ dữ liệu thực Liver
2.5. Kết luận chương
Chương 2 trình bày kết quả nghiên cứu của luận án về hướng tiếp cận dựa trên tập mờ phức. Thứ nhất, luận án đề xuất toán tử t-chuẩn, t-đối chuẩn dựa trên lý thuyết tập mờ phức và ứng dụng toán tử đề xuất đối với vấn đề hỗ trợ ra quyết định. Thêm nữa, một hệ suy diễn dựa trên tập mờ phức theo mô hình Mamdani được đề xuất. Đó là mô hình kết hợp giữa ly thuyết tập mờ phức và mô hình hệ logic mờ phức. Trong mô hình cũng trình bày chi tiết các bước thực hiện cũng như toán tử sử dụng trong Hệ suy diễn đề xuất
Chương 3. TINH GIẢM HỆ LUẬT TRONG HỆ SUY DIỄN MỜ PHỨC MAMDANI (M-
CFIS-R)
3.1. Giới thiệu
Hệ thống đề xuất M-CFIS ở chương 2 còn hạn chế ở chính hệ cơ sở luật vì việc giảm luật chỉ thực hiện
dựa vào việc tính toán độ mạnh và yếu của luật. Và hệ luật thu được trong M-CFIS có thể vẫn còn dư thừa nếu
chỉ giảm luật trùng, luật yếu. Để khắc phục nhược điểm này, trong nội dung chương này luận án trình bày cải
10
tiến tối ưu hóa hệ luật của M-CFIS bằng việc áp dụng tính toán hạt kết hợp với các độ đo đề xuất.
3.2. Đề xuất độ đo tương tự mờ phức
3.2.1. Độ đo tương tự mờ phức Cosine
Định nghĩa 3.1. Cho hai tập mờ phức và trong với mọi ,
biên độ và pha của hàm thuộc mờ phức đều thuộc khoảng [0,1]. Độ đo tương tự mờ phức Cosine (kí hiệu
CFCSM) giữa hai tập mờ phức và được định nghĩa theo công thức sau:
(3.1)
Với ; ; ;
Định nghĩa 3.2. Độ đo tương tự Cosine mờ phức có trọng số (WCNCSM)
Cho hai tập mờ phức và trong với mọi . Một độ đo tương
tự Cosine mờ phức có trọng số giữa hai tập mờ phức và được định nghĩa như sau:
(3.2) với
3.2.2. Độ đo tương tự mờ phức Dice
Định nghĩa 3.3. Cho hai tập mờ phức và trong với mọi
. Độ đo tương tự mờ phức Dice (kí hiệu CFDSM) giữa hai tập mờ phức và được định nghĩa theo công
thức sau:
(3.3)
Với ; ; ;
Định nghĩa 3.4. Độ đo tương tự mờ phức Dice có trọng số (WCFDSM)
Cho hai tập mờ phức và trong với mọi . Một độ đo tương
tự mờ phức Dice có trọng số giữa hai tập mờ phức và được định nghĩa như sau:
(3.4) với
3.2.3. Độ đo tương tự mờ phức Jaccard
Định nghĩa 3.5. Cho hai tập mờ phức và trong với mọi
Độ đo tương tự mờ phức Jaccard (kí hiệu CFJSM) giữa hai tập mờ phức và có thể được xác
định như sau:
(3.5)
Với ; ; ;
Định nghĩa 3.6. Độ đo tương tự mờ phức Jaccard có trọng số (WCFJSM)
Cho hai tập mờ phức và trong với mọi . Một độ đo tương
tự mờ phức Jaccard có trọng số giữa hai tập mờ phức và được định nghĩa như sau:
11
3.6 với
Hình 3.1. Giai đoạn Training của mô hình đề xuất
3.3. Đề xuất mô hình hệ suy diễn M-CFIS-R
3.3.1. Ý tưởng xây dựng mô hình
Mô hình M-CFIS-R đề xuất chia làm 2 phần chính: Phần Training (Hình 3.1): được sử dụng để huấn
luyện, sinh ra các luật mờ và tối ưu hệ luật mờ sử dụng tính toán hạt kết hợp với độ đo mờ phức. Phần Testing:
được sử dụng để kiểm tra việc thực hiện suy diễn trên hệ luật mờ mới đã được tối ưu trong phần Training.
3.3.2. Phần Training.
3.3.2.1. Chọn dữ liệu phần thực và phần ảo.
Từ bộ dữ liệu Training, chúng tôi xây dựng dữ liệu dành cho phần thực và phần ảo như sau: Phần dữ
liệu thực : chính là giá trị dữ liệu ban đầu; Phần dữ liệu ảo trên mỗi bản ghi P của thuộc tính Q được tính bằng
công thức sau : var.P(dòng)+ var.Q(cột) với Var.P(dòng) là giá trị phương sai trên dòng P và Var.Q(cột) là giá
trị phương sai theo cột Q.
3.3.2.2. Thuật toán phân cụm mờ FCM
Trong phần này, thuật toán toán phân cụm mờ FCM được sử dụng để phân cụm dữ liệu trong mỗi
thuộc tính thành từng nhóm khác nhau, mỗi nhóm tương ứng với một nhãn ngôn ngữ .
3.3.2.3 Độ đo mờ phức tính toán hạt
Kết quả thu được của 3 độ đo tương tự mờ phức là ba ma trận tương quan (kí hiệu ). Sau
đó, mức độ tương tự cuối cùng giữa các luật mờ phức được xác định như sau:
Đối với mỗi nhãn, tính các giá trị luật mờ phức cuối cùng tương ứng với mỗi nhãn để từ đó tính được giá trị độ tương tự giữa các . Các hệ số tương ứng với mỗi nhãn được tính bằng
12
công thức sau:
Đối với mỗi luật ứng với nhãn khác thì giá trị . Cuối cùng, chúng tôi thu được hệ cơ sở luật mờ
phức chính là ma trận . Một hệ cơ sở luật mờ phức mới được đưa ra bằng cách loại bỏ những luật có độ
tương đồng cao trong nhóm luật và tiếp theo sẽ thực hiện đánh giá hiệu quả của hệ luật mới này. Trong trường
hợp mà hiệu quả của cơ sở luật mờ phức mà kém hơn thì ta quay trở lại bước trước để tính lại độ đo tương tự
mờ phức và tính toán hạt tiếp cho hệ cơ sở luật mới này. Quá trình này lặp lại cho đến khi hiệu quả của hệ cơ
sở luật mới này cao hơn bộ luật gốc hoặc độ chính xác của luật đối với bất kì nhãn nào bằng 1.
3.3.3. Phần Testing
Trong phần Testing, quá trình suy diễn tương tự như M-CFIS được thực hiện để kiểm tra hiệu năng
của hệ thống với bộ luật mờ phức mới thu được từ giai đoạn Traning.
3.4. Thử nghiệm và đánh giá kết quả
3.4.1. Kết quả thực nghiệm trên bộ dữ liệu UCI
Áp dụng phương pháp 3-fold cross-validation, các giá trị chỉ số độ đo thực nghiệm so sánh mô hình
đề xuất M-CFIS-R với mô hình M-CFIS được thể hiện rõ trong hình 3.3 và 3.4.
(a) (b) (c)
(d)
(e)
Hình 3.3. Kết quả thực nghiệm trên Bộ dữ liệu WBCD
Hình 3.3 mô tả rõ kết quả thực hiện chạy mô hình M-CFIS và M-CFIS-R trên bộ dữ liệu WBCD. Độ
chính xác, giá trị Recall và giá trị Precision của mô hình M-CFIS-R trên bộ dữ liệu Training và Testing đều
cao hơn mô hình M-CFIS. Thời gian thực hiện của hai mô hình này là tương đương nhau với số lượng luật
trung bình của M-CFIS-R ít hơn 36 luật so với M-CFIS. Qua đó, có thể dễ dàng nhận thấy là số lượng luật của
13
mô hình M-CFIS-R thấp hơn khá nhiều so với mô hình M-CFIS.
200
t ậ u
l
100
106
101
g n ợ ư
l
0
ố S
M-CFIS
M-CFIS-R
(c) (b) (a)
(d) (e)
Hình 3.4. Kết quả thực nghiệm trên Bộ dữ liệu Diebetes
Hình 3.4 thể hiện các chỉ số so sánh đối với mô hình M-CFIS-R đều cao hơn so với mô hình M-CFIS
trên 1% với độ lệch chuẩn khá nhỏ. Nhưng tổng thời gian tính toán của M-CFIS-R cao hơn M-CFIS 0.02 trên
dữ liệu Training và 0.086 trên dữ liệu Testing. Trong khi đó tổng số lượng luật của M-CFIS-R chỉ ít hơn 5 luật
so với mô hình M-CFIS và có độ lệch chuẩn là 0.94.
3.4.2. Kết quả thực nghiệm trên bộ dữ liệu thực
Kết quả so sánh đánh giá hiệu năng của mô hình M-CFIS-R đề xuất với mô hình M-CFIS được thể
hiện rõ trong hình 3.5.
900
850
t ậ u
l
800
839
750
g n ợ ư
770
l
ố S
700
M-CFIS
M-CFIS-R
(a) (c) (b)
(e) (d)
Hình 3.5. Kết quả thực nghiệm trên Bộ dữ liệu Liver
Hình 3.5 chỉ rõ các chỉ số kết quả thực hiện của 2 mô hình so sánh M-CFIS-R và M-CFIS trên bộ dữ
14
liệu bệnh Gan của bệnh viện Gang thép và bệnh viện Đa khoa Thái Nguyên. Chúng ta có thể thấy rõ độ chính
xác, , các chỉ số Precision và Recall khi chạy mô hình M-CFIS-R trên bộ dữ liệu Training và Testing đều cao
hơn M-CFIS. Cho dù chỉ số Recall khi thực hiện mô hình M-CFIS trên bộ dữ liệu Testing nhỏ hơn 0.4% so
với mô hình M-CFIS nhưng với độ lệch chuẩn nhỏ (chỉ 0.03). Điều này có thể dễ lí giải bởi nguyên nhân do
sự giảm số luật chỉ rõ trong hình 3.5 (e). Đối với bộ dữ liệu bệnh Liver, số lượng luật trong M-CFIS-R ít hơn
so với M-CFIS 69 luật. Đó cũng chính là lí do mà tổng thời gian thực hiện của C-FIS-R nhiều hơn M-CFIS.
3.5. Kết luận chương
Trong nội dung chương 3, luận án đề xuất một hệ thống M-CFIS-R, trong đó có sự kết hợp giữa các độ
đo tương tự mờ phức Cosine, độ đo tương tự mờ phức Dice và độ đo tương tự mờ phức Jaccard với kĩ thuật
tính toán hạt. Mục đích của hệ thống nhằm giảm luật thu được hệ luật trong hệ M-CFIS mà không giảm đi hiệu
quả của mô hình. Tuy nhiên, hệ M-CFIS-R vẫn chỉ dừng lại ở tối ưu cục bộ chứ chưa đạt được tối ưu toàn cục
do thuật toán chỉ thực hiện đánh giá hiệu quả của hệ luật mới trên mô hình Training thì dừng lại.
Chương 4. MỞ RỘNG HỆ SUY DIỄN MỜ PHỨC MAMDANI VỚI ĐỒ THỊ TRI THỨC (M-
CFIS-FKG)
4.1. Mở đầu
Trong chương 3, luận án đã đưa ra cải tiến của M-CFIS được gọi là M-CFIS-R, tuy nhiên, ngoài những
ưu điểm thì hệ thống M-CFIS-R vẫn còn tồn tại một số hạn chế sau: (1) Dữ liệu được kiểm tra trong phần
Testing bằng cách kiểm tra đối với từng luật trong hệ luật. Điều này dẫn đến chi phí thời gian tính toán khá
cao. (2) Đối với dữ liệu trong phần Testing mà không chứa các bản ghi được suy ra bởi luật trong hệ luật thì
khi đó khó có thể đưa ra được kết quả do trong hệ luật không có. (3) Mô hình M-CFIS-R hoạt động dựa trên
mô hình suy luận Mamdani, cần được phát triển lên mô hình hệ suy diễn Sugeno và Tsukamoto.(4) những khái
niệm độ đo hay tích phân mờ phức khác cũng cần được nghiên cứu và xem xét.
Chính vì những lí do đó mà trong nội dung chương 4, luận án đưa ra cách tiếp cận mới dựa trên đồ thị
tri thức để khắc phục những hạn chế của mô hình M-CFIS-R trong chương 3 mà NCS đã đưa ra.
4.2. Một số mở rộng của mô hình M-CFIS-R
4.2.1. Hệ suy diễn mờ phức Sugeno và Tsukamoto
Hệ suy diễn mờ phức Sugeno: Hệ suy diễn mờ phức Sugeno được mô tả qua các bước sau:
Bước 1. Sinh luật mờ phức.
is is … is Một luật CFRi được biểu diễn như sau: CFRi : If
then ; Trong đó: là tập mờ phức và là các biến đầu vào của mô hình; là các toán
tử t- chuẩn và t-đối chuẩn tùy thuộc vào ứng dụng và là hàm tuyết tính của kết quả đầu ra tương ứng với
mỗi luật mờ phức.
Bước 2: Mờ phức hóa. Thực hiện quá trình mờ phức hóa mỗi giá trị đầu vào bởi hàm thuộc mờ phức.
Bước 3: Tổng hợp độ mạnh của luật. Mỗi luật mờ phức có một giá trị độ mạnh của luật, kí hiệu bởi
và được tính toán bởi: ;
Bước 4: Tính toán giá trị đầu ra của các luật sử dụng công thức:
Bước 5: Tổng hợp kết quả cuối cùng. Cho và với mọi m. Khi
15
đó, kết quả đầu ra được tính toán bằng công thức tính tổng hợp trọng số sau:
Hệ suy diễn mờ phức Tsukamoto: Quy trình suy diễn của mô hình hệ suy diễn mờ phức
Tsukamoto cũng tương tự như đối với mô hình hệ suy diễn mờ phức Sugeno. Mỗi kết quả trong mỗi luật trong
mô hình hệ suy diễn mờ phức Tsukamoto được xác định bởi một hàm đơn điệu trên tập mờ phức. Do đó kết
quả suy luận của mỗi luật sẽ thu được dựa vào các giá trị dự đoán. Cuối cùng, kết quả cũng được tính toán
bằng công thức trung bình trọng số (tương tự như với S-CFIS-R).
4.2.2. Độ đo mờ phức dựa trên lý thuyết tập hợp
Định nghĩa 4.1. Cho một tập mờ phức không rỗng trên không gian nền . Một tập con của
được coi là phép đại số của tập mờ phức trên nếu nó thỏa mãn các điều kiện sau:
(1)
(2) Nếu thì
(3) Nếu thì
Định nghĩa 4.2. Cho một không gian đo được mờ phức . Một ánh xạ được định
nghĩa là độ đo mờ phức trên nếu thỏa mãn các điều kiện sau:
(1) và
(2) với , với và
, Định nghĩa 4.3. Cho không gian độ đo mờ phức và một ánh xạ . Ánh
xạ được gọi là một phép đẳng cấu giữa và nếu các điều kiện sau được thỏa mãn:
(1) là một song ánh với
(2) và với
(3) Tồn tại một song ánh với , và
Định nghĩa 4.4. Cho không gian độ đo mờ phức và . Một ánh xạ
được gọi là ánh xạ đẳng cấu giữa hai không gian và nếu điều kiện sau
được thỏa mãn:
(1) là một ánh xạ đẳng cấu giữa hai không gian độ đo mờ phức và .
(2) với
Định nghĩa 4.5. Một không gian mờ phức được gọi là không gian đẳng cấu nếu thoả mãn
các tính chất sau:
(1) , thì ,
(2) với và với hoán vị trên .
4.2.3. Tích phân mờ phức
Định nghĩa 4.6. Cho một không gian độ đo mờ phức với , một ánh xạ
và - độ đo . Tích phân mờ phức- của trên được tính theo công thức sau:
với
4.3.3.1. Tích phân mờ phức
Định nghĩa 4.7. Cho không gian độ đo mờ phức và , một phép đại số của các tập
trên là một biểu diễn rõ của phép đại số khi và chỉ khi có với thỏa mãn các điều kiện
16
sau: và nếu với , thì .
4.3.3.2. Liên hệ với tích phân Sugeno
Định lý 4.4. Cho dàn thặng dư có thể chia hoàn toàn , một không gian độ đo mờ phức với
và một ánh xạ . Thì ta có:
Với là độ đo mờ phức trong trên .
4.3.3.3. Các tính chất của tích phân mờ phức
Định lý 4.6. Cho không gian độ đo mờ phức với . Nếu có với
và là rõ thì ánh xạ được xác định bởi hàm sau:
là một độ đo mờ phức trên .
4.3. Đề xuất mô hình hệ suy diễn mờ phức M-CFIS-FKG 4.3.1. Ý tưởng xây dựng mô hình
Với mục đích cải thiện tốc độ tính toán của quá trình suy diễn trong bộ dữ liệu Testing, mô hình M-
CFIS-R được mở rộng theo cách sau: Bộ dữ liệu đầu tiên được chia thành 3 phần với tên gọi Training,
17
Hình 4.1. Quá trình Training
Hình 4.2. Quá trình Testing
Validation và Testing. Với bộ dữ liệu Training, thực hiện tính dữ liệu phần thực, phần ảo và áp dụng mô hình
M-CFIS-R để thu được bộ cơ sở luật mờ phức được thu gọn. Sau đó, NCS đi thực hiện xây dựng đồ thị tri thức
mờ (FKG) từ bộ cơ sở luật và biểu diễn nó bởi ma trận. Với bộ dữ liệu Testing, NCS đi xây dựng Thuật toán
tìm kiếm suy diễn nhanh (FISA) để thu được đầu ra từ đồ thị tri thức mờ.
4.3.2. Xây dựng đồ thị tri thức mờ
Cho hệ cơ sở luật mờ phức với X1, X2, …Xm là các thuộc tính của bộ dữ liệu. Chúng tôi xây dựng
FKG cho từng luật mờ , với . Với mỗi cặp thuộc tính trong luật , ta xây
dựng cạnh với là biến ngôn ngữ ứng với thuộc tính . Với mỗi cặp giá
trị , mỗi cạnh được xây dựng đồ thị với là nhãn của luật thứ
t.
là trọng số của cạnh
Cho trong luật t với , , thì :
(1)
biểu diễn mối quan hệ của thuộc tính
Trọng số với nhãn l trong đó , ,
. Thì giá trị được tính theo công thức sau
(2)
Ví dụ với 6 luật mờ phức sau:
R1: If x1 is Medium1 and x2 is High2 and x3 is High3 then k is 1
R2 : If x1 is High1 and x2 is Low2 and x x3 is Low3 then k is 2
R3 : If x1 is Low1 and x2 is Medium2 and x3 is High3 then k is 1
R4 : If x1 is Low1 and x2 is High2 and x3 is Medium3 then k is 1
R5 : If x1 is High1 and x2 is Low2 and x3 is Medium3 then k is 2
R6 : If x1 is Medium1 and x2 is Low2 and x3 is Low3 then k is 2
18
Áp dụng các bước tính toán trên, ta thu được đồ thị FKG của 6 luật như sau:
Hình 4.5. Đồ thị FKG cho 6 luật
4.3.3. Thuật toán suy diễn nhanh trên đồ thị tri thức mờ
Bằng việc sử dụng Đồ thị tri thức mờ để biểu diễn luật, quá trình Testing gán các nhãn đối với từng bộ
dữ liệu đầu vào Testing (Hình 4.2). Thuật toán tìm kiếm suy diễn nhanh FISA (Fast Inference Search
Algorithm) được thực hiện tính toán trên đồ thị tri thức mờ FKG để có thể đưa ra nhãn tương ứng với từng luật
mờ theo cách như sau.
Đầu tiên các giá trị ngôn ngữ tương ứng với mỗi nhãn trong từng luật trên FKG được tính toán sau:
biểu diễn mối quan hệ của thuộc tính
với giá trị với nhãn l.
Dựa trên khái niệm Suy luận xấp xỉ, với mỗi bản ghi mới thì nhãn tương ứng với từng luật được tính bởi
toán tử MIN-MAX như sau: . Cuối cùng, nhãn của bản ghi mới được xác định
bằng luật MAX theo quy tắc: nếu .
FISA Algorithm
Dữ liệu testing Data, Đồ thị tri thức mờ Input:
Nhãn đầu ra của Dữ liệu testing Output:
Begin
1:
Xây dựng dữ liệu phần thực và phần ảo - Phần thực được xác định dùng chính các giá trị gốc đầu vào. - Phần ảo được tính toán var.R (bản ghi) + var.A (thuộc tính) trong đó, + Var.R (bản ghi) là giá trị phương sai trên bản ghi thứ P; + Var.A (thuộc tính) là giá trị phương sai trên thuộc tính Q.
Thực hiện mờ hóa để xây dựng các giá trị biến ngôn ngữ 2: Với từng bản ghi thứ t trong bộ dữ liệu 3:
Với từng nhãn l 4:
Với từng thuộc tính i 5:
Tính toán: 6:
Tính toán: 7:
Xác định nhãn đầu ra theo: nếu 8:
Gán nhãn và lặp lại các bước từ 1-8 đối với từng bản ghi mới cho đến khi kết thúc 9:
19
End
4.4. Thực nghiệm và đánh giá kết quả
4.4.1. Thực nghiệm
Để việc đánh giá hiệu quả hơn thì trong nội dung chương này, NCS thực nghiệm với 2 loại bộ dữ liệu
(bộ dữ liệu hai nhãn và bộ dữ liệu nhiều nhãn). Các bộ dữ liệu 2 nhãn là 2 bộ dữ liệu chuẩn Benchmark được
lấy từ kho dữ liệu chuẩn gồm (Bộ Breast Wisconsin, Bộ Diabetes) và một bộ dữ liệu thực Liver. Bộ dữ liệu
nhiều nhãn là bộ lấy từ kho dữ liệu chuẩn UCI bao gồm bộ dữ liệu Wine, bộ Cardiotcography -CTG và bộ
Arrthymia. Hai kịch bản chạy thực nghiệm được chỉ rõ trong Bảng 4.2 và 4.3.
Table 4.2. Kịch bản 1
Dữ liệu Số lượng bản ghi đối với mỗi nhãn
Training 2/3 * 2/3 * 0.6* (Số lượng bản ghi đối với mỗi nhãn)
2/3 * 1/3 * 0.6 * ( Số lượng bản ghi đối với mỗi nhãn ) Validation
Testing 1/3 * 0.6 * ( Số lượng bản ghi đối với mỗi nhãn )
New data 0.4 * ( Số lượng bản ghi đối với mỗi nhãn )
Table 4.3. Kịch bản 2
Data Nếu số lượng bản ghi đối với mỗi nhãn /Tổng số bản Nếu số lượng bản ghi đối với mỗi nhãn /Tổng
ghi > 5% số bản ghi < 5%
2/3 * 2/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 2/3 * 2/3 * 0.05 * (Số lượng bản ghi đối với Training mỗi nhãn)
2/3 * 1/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 2/3 * 1/3 * 0.05 * (Số lượng bản ghi đối với
Validation mỗi nhãn)
1/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 1/3 * 0.05 * (Số lượng bản ghi đối với mỗi Testing nhãn)
0.7 * (Số lượng bản ghi đối với mỗi nhãn) 0.95 * (Số lượng bản ghi đối với mỗi nhãn) New data
4.4.2. Kết quả thực nghiệm
4.4.2.1. Kết quả thực nghiệm trên các bộ dữ liệu 2 nhãn
Đối với các bộ dữ liệu 2 nhãn, kết quả thực nghiệm so sánh mô hình đề xuất M-CFIS-FKG với mô hình
M-CFIS-R trên 2 tiêu chí đánh giá gồm thời gian thực hiện và độ chính xác.
(b) (a)
20
Hình 4.8. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu WBCD
Như đã chỉ rõ trong hình 4.8(a) thì không có nhiều sự khác biệt giữa 2 kịch bản thực nghiệm. Độ chính
xác của mô hình M-CFIS-FKG thấp hơn chút so với mô hình M-CFIS-R đối với kịch bản thực nghiệm 1 (khoảng
13.93%). Còn với kịch bản thực nghiệm 2 thì chỉ thấp hơn khoảng 3.44%. Tuy nhiên, thời gian thực hiện tính
toán của mô hình M-CFIS-FKG lại thấp hơn nhiều so với mô hình M-CFIS-R trên cả 3 kịch bản thực nghiệm
(trung bình giảm gần 97% tổng thời gian thực hiện). Hơn nữa, đối với bộ dữ liệu mới, tổng thời gian thực hiện
của mô hình M-CFIS-R cao hơn nhiều so với tổng thời gian thực hiện của mô hình M-CFIS-FKG. Điều đó thể
hiện cho thấy mô hình đề xuất M-CFIS-FKG có khả năng suy luận xấp xỉ tốt hơn với kịch bản 2.
(b) (a)
Hình 4.9. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Diebetes
Hình 4.9 thể hiện kết quả thực nghiệm so sánh giữa hai mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ
liệu Diabetes. Như thể hiện trong hình 4.9(a) độ chính xác của mô hình đề xuất M-CFIS-FKG nhỏ hơn chút so
với mô hình M-CFIS-R trên cả 2 kịch bản chạy thực nghiệm (cụ thể trung bình khoảng 6.89% đối với kịch bản
1 và 3.82% đối với kịch bản 2). Còn về thời gian thực hiện thì tổng thời gian thực hiện của mô hình M-CFIS-
FKG vẫn thấp hơn so với mô hình M-CFIS-R. Đặc biệt trong kịch bản thực nghiệm 2, thời gian thực nghiệm của
mô hình M-CFIS-R cao gấp 2.31 lần so với M-CFIS-FKG mà với độ chính xác gần như nhau (76.43% đối với
M-CFIS-R và 74.43% đối với M-CFIS-FKG – trong hình 4.9(a)). Như vậy, ta có thể thấy M-CFIS-FKG thực
hiện tốt hơn đối với dữ liệu mới trong kịch bản thực nghiệm 2.
Kết quả thực nghiệm đối với bộ dữ liệu thực Liver được mô tả rõ trong hình 4.10. Rõ ràng là đối với kịch
bản thực nghiệm 1, độ chính xác của M-CFIS-FKG thấp hơn 4.27% so với M-CFIS-R nhưng thời gian tính toán
thì trung bình giảm khoảng 3.77 lần. Trong kịch bản thực nghiệm 2, mô hình M-CFIS-FKG được cho là hiệu quả
hơn so với M-CFIS-R với độ chnsh xác thấp hơn khoảng 2.23% nhưng tổng thời gian thực hiện lại giảm tới 4.1
lần. Hơn nữa, trong trường hợp có nhiều dữ liệu mới trong kịch bản 2, mô hình M-CFIS-FKG cho kết quả gần
như tương đương, độ chính xác thấp hơn 1.14% với thời gian chạy giảm 33.56% so với mô hình M-CFIS-R.
21
(b) (a)
Hình 4.10. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Liver
4.4.2.2. Kết quả thực nghiệm trên các bộ dữ liệu nhiều nhãn
Đối với các bộ dữ liệu nhiều nhãn, kết quả thực nghiệm được chỉ rõ trong hình 4.11-1.13. Đối với các
bộ dữ liệu nhiều nhãn, độ phân bố dữ liệu trong từng nhóm dữ liệu cũng khác so với các bộ dữ liệu có 2 nhãn,
nên điều đó cũng dẫn đến kết quả thực nghiệm khác so với các bộ dữ liệu có 2 nhãn.
(b) (a)
Hình 4.11. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Wine Độ chính xác và thời gian tính toán của thuật toán M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Wine
được minh họa rõ trong hình 4.11. Ở hình 4.11(a), độ chính xác của mô hình M-CFIS-FKG chỉ thấp hơn chút so
với của mô hình M-CFIS-R, ngoại trừ đối với dữ liệu mới trong kịch bản 2. Cũng giống như kết quả thực nghiệm
đối với các bộ dữ liệu khác thì thời gian tính toán của mô hình M-CFIS-FKG thấp hơn nhiều so với thời gian
chạy mô hình M-CFIS-R. Đặc biệt trong trường hợp có nhiều dữ liệu mới trong kịch bản chạy thực nghiệm 2 thì
độ chính xác của M-CFIS-FKG chỉ thấp hơn 0.37% với thời gian thực hiện giảm tới 2.88 lần.
Đối với bộ dữ liệu CTG, độ chính xác và tổng thời gian thực hiện tính toán của 2 mô hình được mô tả rõ
trong hình 4.12, và có cùng chung kết quả thực nghiệm như đối với các bộ dữ liệu trên. Mô hình M-CFIS-FKG
được cho là tốt hơn mô hình M-CFIS-R trong trường hợp chạy thực nghiệm đối với kịch bản 2, tức là đối với
trường hợp có nhiều dữ liệu mới (độ chính xác thấp hơn 1.27% nhưng tổng thời gian thực hiện thì thấp hơn 2.49).
(b) (a)
Hình 4.12. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu CTG Đối với bộ dữ liệu Arrhythmia, sự phân bố dữ liệu trong kịch bản 2 cũng chịu ảnh hưởng nhiều như với
22
các bộ dữ liệu nhiều nhãn khác. Trong trường hợp này thì độ chính xác của mô hình M-CFIS-FKG cao hơn M-
CFIS-R (khoảng 1.94%) trong khi thời gian thực hiện giảm đi khoảng 3.88 lần. Điều đó có nghĩa là mô hình đề
xuất M-CFIS-FKG thực sự hiệu quả trong việc suy luận trong trường hợp có nhiều thông tin mới không sẵn có
trong bộ dữ liệu Traning và thậm chí cả trong quá trình Testing.
(b) (a)
Hình 4.13. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Arrthythmia
Như vậy, với kịch bản thực nghiệm 1 trên tất cả các bộ dữ liệu, số lượng dữ liệu trong các nhãn đầu ra
đối với từng bộ dữ liệu là tương đương nhau (cụ thể trong bảng 4.2). Trong trường hợp này, các nhãn đều được
phân bố đồng đều trong các bộ dữ liệu Training, Testing và New data. Điều này cũng góp phần làm giảm tổng
thời gian thực hiện của mô hình M-CFIS-FKG. Bên cạnh đó, kết quả về độ chính xác của mô hình M-CFIS-FKG
và M-CFIS-R trên các bộ dữ liệu có nhiều nhãn đầu ra cũng nhỏ hơn nhiều so với các bộ dữ liệu có hai nhãn.
Điều đó chứng minh được tính hiệu quả của mô hình đề xuất M-CFIS-FKG đối với các bộ dữ liệu có nhiều nhãn
đầu ra.
Kết quả thực nghiệm của mô hình M-CFIS-KFG trên 2 kịch bản thực nghiệm về mặt thời gian tính toán
và độ chính xác của mô hình đã chứng minh được tính hiệu quả của mô hình đề xuất trong việc giảm khá nhiều
thời gian tính toán mô hình với độ chính xác được coi là chấp nhận được. Đặc biệt mô hình có ý nghĩa thực tiễn
đối với những trường hợp thiếu thông tin dữ liệu trong kho dữ liệu mẫu.
4.5. Kết luận chương
Trong nội dung chương này, NCS đề xuất mở rộng mô hình M-CFIS-R: bao gồm Hệ suy diễn mờ phức
Sugeno (S-CFIS-R) và Hệ suy diễn mờ phức Tsukamoto (T-CFIS-R), độ đo mờ phức và tích phân mờ phức. Đặc
biệt, độ đo mờ phức và tích phân mờ phức cũng cấp một số lý thuyết cũng như định lý cơ bản trong các ngữ cảnh
khác nhau. Thêm nữa, để khắc phục những hạn chế về mặt thời gian tính toán và khả năng suy luận đối với mô
hình M-CFIS-R thì NCS cũng đề xuất xây dựng Đồ thị tri thức mờ (FKG) từ bộ cơ sở luật trong quá trình
Training. Sau đó, thuật toán suy diễn nhanh được đề xuất cho quá trình Testing nhằm mục đích đưa ra suy luận
nhãn đầu ra tương ứng với từng bản ghi.
KẾT LUẬN
1) Những kết quả chính của luận án:
Luận án nghiên cứu hướng tiếp cận phát triển hệ suy diễn Mamdani trên tập mờ phức và áp dụng cho các
bài toán hệ hỗ trợ ra quyết định. Kết quả của luận án bao gồm:
1) Đề xuất mô hình Hệ suy diễn mờ phức Mamdani và các phép toán t-norm, t-conorm dựa trên tập mờ
phức. Những thành phần và các phép toán thực hiện của mô hình Hệ suy diễn mờ phức Mamdani cũng được nêu
23
rõ trong mô hình và áp dụng đối với bài toán hệ hỗ trợ ra quyết định. Thực nghiệm đối với các bộ dữ liệu mẫu
UCI và dữ liệu thực lấy từ bệnh viện Gang thép và Đa khoa Thái Nguyên cũng chứng minh cho thấy mô hình
đề xuất cải thiện hơn mô hình hệ suy diễn mờ Mamdani trên các chỉ số đánh giá độ chính xác, Recall và Precision.
2) Đề xuất mô hình M-CFIS-R: trong nội dung này NCS đề xuất các độ đo tương tự mờ phức và đề xuất
phương thức tinh giảm luật trong mô hình hệ suy diễn mờ phức Mamdani M-CFIS dựa trên sự kết hợp việc tính
toán hạt với 3 độ đo tương tự mờ phức. Kết quả thực nghiệm cũng cho thấy phương thức tinh giảm luật đề xuất
đã giảm thiểu được số lượng luật trong mô hình hệ M-CFIS và nâng cao độ chính xác của mô hình mới so với
mô hình cũ M-CFIS.
3) Đề xuất mô mình M-CFIS-FKG: NCS đề xuất mở rộng hệ suy diễn mờ phức theo mô hình Sugeno
và Tsukamoto; đề xuất các độ đo mờ phức, tích phân mờ phức trên tảng lý thuyết tập hợp. Thêm nữa, NCS cũng
đề xuất phương thức biểu diễn luật mờ trên đồ thị tri thức mờ và từ đó xây dựng mô hình M-CFIS-FKG được
coi là mô hình cải tiến của M-CFIS-R trong bài toán ra quyết định. Thực nghiệm trên bộ dữ liệu 2 nhãn và nhiều
nhãn cũng chứng minh được khả năng suy luận xấp xỉ của phương pháp đề xuất, đặc biệt trong các trường hợp
bản ghi không có trong bộ dữ liệu Training.
2) Hướng phát triển của luận án:
(1) Tiếp tục nghiên cứu, đề xuất toán tử hợp thành trên tập mờ phức và áp dụng các toán tử đề xuất
vào trong chính mô hình hệ hỗ trợ ra quyết định.
(2 Tiếp tục nghiên cứu, đề xuất các thuật toán học như học chuyển giao, học cộng tác ... vào trong quá
trình tinh giảm luật mờ với mục tiêu tối ưu hóa hệ luật.
(3) Tiếp tục nghiên cứu, đề xuất các phương pháp biểu diễn hệ luật mờ phức, phương pháp suy diễn
mới nhằm mục đích nâng cao khả năng tìm kiếm trên đồ thị tri thức mờ..
(4) Thử nghiệm các mô hình đề xuất trong luận án với nhiều bộ dữ liệu phức tạp hơn trong các lĩnh
24
vực khác nhau trong cuộc sống như: y tế, kinh tế , địa lý...
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
Tran Thi Ngan, Luong Thi Hong Lan, Mumtaz Ali, Dan Tamir, Le Hoang Son, Tran Manh
Tuan, Naphtali Rishe, Abe Kandel (2018), “Logic Connectives of Complex Fuzzy
1 Sets”, Romanian Journal of Information Science and Technology, Vol. 21, No. 4, pp. 344-
358 (ISSN:1453-8245, SCIE, 2020 IF = 0.760), DOI = http://www.romjist.ro/abstract-
606.html.
Ganeshsree Selvachandran, Shio Gai Quek, Luong Thi Hong Lan, Le Hoang Son, Nguyen
Long Giang, Weiping Ding, Mohamed Abdel-Basset, Victor Hugo C. de
Albuquerque (2021), “A New Design of Mamdani Complex Fuzzy Inference System for 2 Multi-attribute Decision Making Problems”, IEEE Transactions on Fuzzy Systems, Vol. 29,
No.4, pp. 716-730 (ISSN:1063-6706, SCI, 2019 IF = 9.518),
DOI = http://dx.doi.org/10.1109/TFUZZ.2019.2961350.
Tran Manh Tuan, Luong Thi Hong Lan, Shuo-Yan Chou, Tran Thi Ngan, Le Hoang Son,
Nguyen Long Giang, Mumtaz Ali (2020), “M-CFIS-R: Mamdani Complex Fuzzy Inference
3 System with Rule Reduction Using Complex Fuzzy Measures in Granular
Computing”, Mathematics, Vol. 8, No. 5, pp. 707 – 731 (ISSN: 2227-7390, SCIE, 2019 IF
= 1.747), DOI = https://doi.org/10.3390/math8050707.
Luong Thi Hong Lan, Tran Manh Tuan, Tran Thi Ngan, Le Hoang Son, Nguyen Long
Giang, Vo Truong Nhu Ngoc, Pham Van Hai (2020), “A New Complex Fuzzy Inference
4 System with Fuzzy Knowledge Graph and Extensions in Decision Making”, IEEE
Access, Vol. 8, pp. 164899 - 164921 (ISSN: 2169-3536, SCIE, 2019 IF = 3.745), DOI
= http://dx.doi.org/10.1109/ACCESS.2020.3021097.