BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

------------------------------- LƯƠNG THỊ HỒNG LAN MỘT SỐ MỞ RỘNG CỦA HỆ SUY DIỄN MỜ PHỨC CHO BÀI TOÁN HỖ TRỢ RA QUYẾT ĐỊNH

Chuyên ngành: Khoa học máy tính

Mã số: 9 48 01 01

TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

Hà nội - 2021

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS. Lê Hoàng Sơn Người hướng dẫn khoa học 2: PGS.TS. Nguyễn Long Giang Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ, ngày ….. tháng ….. năm 20…. Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Công nghệ - Thư viện Quốc gia Việt Nam

MỞ ĐẦU

Tập mờ (FS) được Zadel đề xuất năm 1965 [1] được coi là một trong những công cụ hữu hiệu để giải

quyết các bài toán có tính chất bất định, không tường minh, rõ ràng. Rất nhiều những nghiên cứu mở rộng của

FS đã được giới thiệu trong vài năm gần đây [2-6] và được ứng dụng nhiều trong bài toán hệ hỗ trợ ra quyết

định. Một trong những kĩ thuật quan trọng dựa trên lý thuyết FS và ứng dụng trong việc giải quyết các bào

toán của hệ hỗ trợ ra quyết định là Hệ suy diễn mờ (FIS). FIS hiện đã và đang được ứng dụng rộng rãi trong

nhiều bài toán phân loại/dự báo và các bài toán của hệ hỗ trợ ra quyết định như lựa chọn nhân sự, lựa chọn nhà

cung cấp, hỗ trợ ra chiến lược phát triển công ty... Bên cạnh đó, trong một vài ứng dụng khác thì hệ FIS được

sử dụng để tạo ra một tập hợp các luật mờ nhằm mục đích phát hiện, dự báo hoặc phân loại các đối tượng như

phát hiện ung thư phổi, phát hiện bệnh đái tháo đường, dự đoán bị bệnh tim ...[7-13]. Một phiên bản mở rộng

của FIS nhúng vào mạng nơ ron và kết hợp với học dựa trên phương pháp gradient có tên gọi là Hệ suy diễn

mờ nơ ron thích nghi (ANFIS) [14] và cho kết quả tốt trong vấn đề dự báo bệnh mạch vành, ước tính sự tăng

cường độ dẫn nhiệt của kim loại và oxit kim loại.. [15-21].

Gần đây, cùng với sự gia tăng của các vấn đề ra quyết định dựa trên các dữ liệu có sự thay đổi về thời

gian hay các dữ liệu có yếu tố chu kì, định kì thì khái niệm tập mờ phức ra đời (CFS) với hàm thuộc bao gồm

cả thành phần biên độ và thành phần pha [36]. CFS được áp dụng trong nhiều nghiên cứu, tập trung chủ yếu

vào các vấn đề như các toán tử tổng hợp mờ mới, thông tin mềm mờ phức, độ đo khoảng cách mờ phức và

mạng các khái niệm mờ phức [37-43]. Ưu điểm của CFS là khả năng mô hình hóa các hiện tượng và sự kiện

theo thời gian, theo giai đoạn để từ đó có thể cho thấy tổng thể chúng trong một ngữ cảnh nhất định.

Ví dụ như để xác nhận chẩn đoán huyết áp của bệnh nhân là “cao” hay “thấp” thì một bệnh nhân được

đo 30 lần rồi ghi lại giá trị tương ứng với mỗi lần đo, sau đó giá trị trung bình và phương sai được tính toán

đối với giá trị huyết áp đo được. Từ đó huyết áp của bệnh nhân có thể tính được dễ dàng bằng cách lấy giá trị

trung bình và phương sai của các lần đo (sử dụng ý nghĩa của mờ hóa của hệ FIS trên tập CFS), ví dụ như là

huyết áp thấp với giá trị trung bình và phương sai cho giá trị nhỏ. Còn nếu như huyết áp chỉ đo tại một thời

điểm và đưa ra quyết định thì có thể dẫn đến quyết định về huyết áp của bệnh nhân không chính xác.

Một ví dụ khác về vấn đề chẩn đoán bệnh: nếu chỉ dựa vào các giá trị thuộc tính bệnh mà không xét

tới các thuộc tính khác thì làm cho kết quả chẩn đoán không được chính xác, do kết luận bệnh không chỉ phụ

thuộc vào mỗi một giá trị thuộc tính bệnh mà còn cần phải xét tới các yếu tố liên quan tới bệnh đó. Hơn nữa,

cũng có nhiều kịch bản, dữ liệu trong thực tế liên quan đến yếu tố pha, trong dữ liệu có xu hướng tuần hoàn,

chẳng hạn như lượng mưa được ghi lại trong một vùng hoặc sóng âm thanh do một nhạc cụ tạo ra. Do đó, hiển

nhiên rằng số phức cũng phải có một vị trí trong hệ thống suy luận mờ. Do đó, đây là động cơ chính của luận

án này.

Các hệ suy diễn thường như Mamdani, Sugeno, Tsukamoto hay các mô hình ANFIS thỉ chỉ có khả

năng xử lý những hiện tượng mà không có yếu tố chu kì, yếu tố định kì. Khi xử lý đối với dữ liệu có yếu tố

chu kì, định kì, dữ liệu có yếu tố thay đổi theo thời gian thì các hệ FIS hay ANFIS đều đưa ra hai phương thức

xử lý chung: (1) Bỏ qua thông tin liên quan đến yếu tố thành phần pha; (2) Biểu diễn thành phần biên độ và

pha riêng biệt với nhau thành 2 thành phần riêng biệt bằng cách sử dụng 2 tập mờ. Điều này sẽ làm cho thông

tin bị mất mát và kết quả thu được không có độ tin cậy cao (nếu các thông tin về thành phần pha bị bỏ qua),

làm sai lệch thông tin và giảm hiệu năng tính toán (nếu thông tin về biên độ và pha được xử lý riêng biệt), thời

gian tính toán sẽ tăng thêm do số lượng các bộ cần được xử lý tăng thêm.

Hệ suy diễn mờ phức được cho là một công cụ hiệu quả đối với việc giải quyết các vấn đề không chắc

1

chắn và có yếu tố định kỳ, chu kì. Hệ suy diễn mờ phức đầu tiên được giới thiệu Ramot [44] được gọi là Hệ

logic mờ phức được phát triển từ hệ thống logic mờ thông thường nhưng thay thế tập mờ và phép kéo theo

mờ bởi biến đổi phức tương ứng của nó. Một nghiên cứu khác bởi Man và cộng sự [45] dựa trên sự kết hợp

giữa phương pháp học quy nạp với hệ suy diễn trong tập phức. Một phiên bản học nhúng khác với mạng mờ

nơ ron trên tập CFS với tên gọi Hệ thống suy diễn mờ phức nơ ron thích nghi (ANCFIS) được giới thiệu bởi

Chen và cộng sự [46]. Sau đó 2 cải tiến của ANCFIS với mục đích làm gia tăng tốc độ tính toán cũng được

đưa ra trong [47- 48]. Tuy nhiên các hệ phát triển trên lý thuyết tập mờ phức đều không phải là hệ thống phức

thực sự.

Từ những nghiên cứu về hệ mờ phức đã có thì hệ mờ phức vẫn còn tồn tại một số hạn chế như sau:

- Các hệ suy diễn mờ phức chưa đưa ra được quy trình tổng thể xây dựng hệ suy diễn mờ phức cho hệ

hỗ trợ ra quyết định.

- Các hệ luật trong các hệ suy diễn mờ phức đã có chỉ sinh ra dựa trên kinh nghiệm, dựa trên tư duy

logic suy diễn mà chưa đề cập đến vấn đề tối ưu hệ luật suy diễn mờ phức.

- Các hệ suy diễn chưa được nghiên cứu để áp dụng đối với bộ dữ liệu mới mà không có trong dữ liệu

huấn luyện khi sinh mô hình suy diễn.

- Các toán tử t-chuẩn và t-đối chuẩn mờ phức còn chưa được quan tâm nghiên cứu tìm hiểu và ứng

dụng trong hệ hỗ trợ ra quyết định.

Mục tiêu nghiên cứu của luận án.

Luận án tập trung nghiên cứu tìm hiểu và áp dụng hệ suy diễn mờ phức đối với bài toán hệ hỗ trợ ra

quyết định, cụ thể như sau:

1) Nghiên cứu các lý thuyết về tập mờ phức, logic mờ phức và các độ đo dựa trên tập mờ phức.

2) Nghiên cứu và phát triển hệ suy diễn dựa trên tập mờ phức

3) Nghiên cứu các kĩ thuật áp dụng để giảm luật, tối ưu hóa luật mờ trong hệ suy diễn mờ phức.

4) Nghiên cứu cách biểu diễn luật dựa trên đồ thị tri thức để giảm thời gina tính toán suy diễn đối với

tập thử nghiệm và xử lý với các trường hợp bộ dữ liệu mới không có trong tập dữ liệu huấn luyện.

Bố cục của luận án gồm bốn chương nội dung chính, phần Mở đầu, Kết luận và danh mục các tài liệu

tham khảo. Phần Mở đầu trình bày tổng quan về vấn đề nghiên cứu, lý do chọn đề tài, đối tượng, mục tiêu và

nội dung nghiên cứu của luận án. Phần Kết luận tổng kết những kết quả đã đạt được của luận án và hướng phát

triển, hướng nghiên cứu trong tương lai. Các chương nội dung chính được tổ chức như sau:

Chương 1 trình bày các khái niệm cơ bản, kiến thức nền sẽ được sử dụng trong các chương tiếp theo.

Mở đầu, mục 1.2 và 1.3 về lý thuyết tập mờ, tập mờ phức, độ đo mờ và độ đo mờ phức và các nghiên cứu liên

quan về hệ suy diễn dựa trên tập mờ phức trong những năm gần đây. Trên cơ sở đó, luận án phân tích các vấn đề

còn tồn tại, nêu rõ các động lực nghiên cứu của luận án: sử dụng hệ suy diễn mờ phức đối với việc giải quyết bài

toán hỗ trợ quá trình ra quyết định. Thêm vào đó, các bộ dữ liệu thực nghiệm trong luận án cùng với các thước

đo dùng để đánh giá thực nghiệm cũng được trình bày chi tiết trong chương đầu tiên này.

Các đóng góp chính của luận án được trình bày trong chương 2, chương 3 và chương 4. Chương 2 trình

bày hai kết quả nghiên cứu chính: thứ nhất là định nghĩa các phép toán t- chuẩn, t-đối chuẩn mờ phức; thứ hai là

phát triển hệ suy diễn Mamdani trên tập mờ phức. Cuối chương là kết quả thực nghiệm và nhận xét so sánh của

hệ suy diễn đã đề xuất trên các bộ dữ liệu thực nghiệm với hệ suy diễn mờ phức Mamdani.

Vấn đề tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani là nội dung được đề cập và xem xét đến

trong nội dung của chương 3. Xuất phát từ lý thuyết về tính toán hạt, luận án đề xuất ra các độ đo mờ phức và

2

độ đo mờ phức kết hợp với tính toán hạt để tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani đã đề xuất

trong chương 2 (hệ suy diễn mờ phức M-CFIS-R). Ví dụ số và kết quả thực nghiệm cũng đã chứng minh được

tính hiệu quả của vấn đề giảm luật và tối ưu hóa hệ luật trong hệ suy diễn mờ phức Mamdani.

Nếu trong chương 3 luận án chỉ đi tập trung vào vấn đề giảm luật, tối ưu luật trong phần training thì

chương 4 chúng tôi lại tập trung vào cải tiến đối với bộ testing bằng cách áp dụng lý thuyết về đồ thị tri thức mờ.

Thêm nữa, luận án cũng đề xuất một số khái niệm dựa trên lý thuyết tập hợp như độ đo mờ phức và tích phân

mờ phức.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan

tâm của tác giả.

CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT

1.1. Giới thiệu

Lý thuyết tập mờ nói chung và tập mờ phức nói riêng được coi là một trong những công cụ toán học

hiệu quả để biểu diễn và xử lý nhưng khái niệm không chắc chắn.

1.2. Vấn đề Hệ suy diễn mờ trong Hệ hỗ trợ ra quyết định

Quy trình chung của phương pháp sử dụng hệ mờ trong các hệ hỗ trợ ra quyết định

Hình 1.1 Hệ suy diễn mờ trong Hệ hỗ trợ ra quyết định

Ban đầu dựa trên dữ liệu mẫu huấn luyện, một quy trình sinh luật được áp dụng để tạo ra hệ các luật

mờ. Hệ luật này là trung tâm tập hợp các quy luật, kiến thức trích rút ra từ tập dữ liệu huấn luyện. Tiếp theo,

với mỗi đầu vào mới được áp dụng với từng luật và tính toán các đầu ra. Một quy trình tổng hợp kết quả từ

các luật để cho ra một giá trị chung. Cuối cùng, ở bước ra quyết định thì giá trị này được điều chỉnh, chuẩn

hóa để đưa ra quyết định cuối cùng.

1.3. Tổng quan về các nghiên cứu liên quan

1.3.1. Hệ suy diễn mờ

Hệ suy diễn mờ (FIS) là một khung tính toán phổ biến dựa trên khái niệm lý thuyết tập mờ thường

được áp dụng khi xây dựng các quá trình hỗ trợ ra quyết định. Có ba kiểu hệ suy diễn mờ, đó là Hệ suy diễn

Mamdani, Hệ suy diễn Sugeno (hay còn gọi là Takagi – Sugeno), Hệ suy diễn Tsukamoto

1.3.2. Các hệ phát triển dựa trên tập mờ phức

1.3.2.1 Hệ suy diễn mờ phức của Ramot

Hệ thống mờ phức do Ramot đề xuất bao gồm 3 giai đoạn: Module mờ hóa, Suy diễn mờ và Giải mờ.

Ở đây tác giả bỏ qua thành phần pha mà chỉ quan tâm đến thành phần biên độ của tập mờ phức trong giai đoạn

giải mờ.

1.3.2.2. Hệ CANFIS do nhóm tác giả Li và Jang đề xuất

Li và Jang [53] đã giới thiệu một hệ suy diễn mờ dựa trên tập mờ phức với tên gọi là Hệ suy diễn mờ

nơron thích nghi phức CANFIS (Complex Neuro-Fuzzy Inference System). Tuy nhiên, hệ thống này không

hoàn toàn đúng ý nghĩa trên miền phức, bởi việc sử dụng các hàm thuộc mờ loại 1 riêng cho phần thực và phần

3

ảo của từng giá trị biến đầu vào. Chính điều đó làm giảm đi ý nghĩa của hệ thống suy diễn trên tập mờ phức.

1.3.2.3. Hệ ANCFIS do Chen và cộng sự đề xuất

Kiến trúc của hệ ANCFIS do nhóm tác giả Chen và cộng sự đề xuất năm 2010 [46] gần giống với kiến

trúc mạng nơ ron giá trị phức. Mô hình ANCFIS sử dụng phép tích vô hướng cho giai đoạn tổng hợp đầu ra

và coi các tín hiệu đầu vào có giá trị phức như là giá trị thực, do đó nó thu được một giá trị vô hướng cho phép

tích vô hướng. Điều này sẽ không thể xảy ra nếu các đầu vào thực sự được coi là các giá trị phức tạp, vì tích

số chấm của hai số phức là một số phức và không phải là một giá trị vô hướng. Do đó, hệ thống ANCFIS

không thực sự phức tạp vì các đầu ra của hệ thống sẽ không đại diện cho tính tuần hoàn của các phần tử.

1.3.2.4. Một số hệ suy diễn khác dựa trên tập mờ phức

Bên cạnh các nghiên cứu đã có thì tập mờ phức cũng được nhiều nhóm nghiên cứu và phát triển. Nhóm

tác giả Malekzadeh và Akbarzadeh [54] đưa ra đề xuất hệ suy diễn dựa trên tập mờ phức với tên gọi là hệ suy

diễn mờ thích nghi giá trị phức(CANFIS) là một hệ thống lai giữa tập mờ phức và mạng nơ ron mờ. Tuy nhiên,

trong nghiên cứu này không đưa ra phương pháp giải mờ đầu ra giá trị phức thành đầu ra rõ, và chỉ chọn duy

nhất giá trị phần thực của đầu ra chứ không đề cập tới giá trị của thành phần pha. Deshmukh và cộng sự [55]

lại đề xuất một hệ logic mờ phức và áp dụng chúng để thiết kế bộ vi xử lý mờ sử dụng công nghệ VLSI. Tuy

nhiên, nhóm tác giả không thực hiện suy diễn luật và không đưa ra module giải mờ phù hợp trong hệ thống

của mình.

1.3.3. Các vấn đề còn tồn tại cần giải quyết của hệ CFIS hiện nay

Từ các nghiên cứu về hệ suy diễn phát triển từ tập mờ phức, các hệ suy diễn phát triển dựa trên tập mờ

phức đã có chưa thực sự đúng với ý nghĩa của hệ thống phức thực sự.

Để xử lý với dữ liệu chuỗi thời gian hay có các hiện tượng tuần hoàn, biến đổi theo thời gian thì các

hệ FIS hay ANFIS đều đưa ra 2 phương thức chung như sau: (1) bỏ qua thông tin liên quan đến yếu tố thành

phần pha; (2) biểu diễn thành phần biên độ và pha riêng biệt với nhau thành 2 thành phần riêng biệt bằng cách

sử dụng 2 tập mờ. Điều này sẽ làm cho mất mát thông tin trong quá trình suy diễn và kết quả thu được không

đáng tin cậy (nếu các thông tin về thành phần pha bị bỏ qua), làm sai lệch thông tin và giảm hiệu năng tính

toán (nếu thông tin về biên độ và pha được xử lý riêng biệt), thời gian tính toán sẽ tăng thêm do số lượng các

bộ cần được xử lý tăng thêm.

1.4. Cơ sở lý thuyết

1.4.1. Tập mờ

Khái niệm tập mờ được giáo sư Lotfi A.Zadel đưa ra vào năm 1965 [1] với mục đích là mô tả những

khái niệm “tập hợp chưa rõ ràng” trong nghiên cứu những yếu tố chưa bất định.

1.4.2. Tập mờ phức

Tập mờ phức được đặc trưng bởi một hàm thuộc giá trị phức mà phạm vi giá trị của nó là

đường tròn đơn vị trong không gian phức, và có dạng:

, (0.1)

Trong đó: là biên độ và pha, và cả 2 đều là các hàm có giá trị thực với điều kiện

và .

1.4.3. Các phép toán trên tập mờ phức

1.4.3.1 Phần bù của tập mờ phức

Cho và là hai tập mờ phức với: và , Phần bù của tập

mờ phức ( kí hiệu ) được xác định:

(1.4)

4

Với và .

1.4.3.2. Phép hợp và phép giao của hai tập mờ phức

 Phép hợp hai tập mờ phức và (kí hiệu ):

(1.5)

Với phép có thể là phép t-đối chuẩn, ví dụ như

 Phép giao hai tập mờ phức và (kí hiệu ) được xác định bởi:

(1.6)

Với và

Trong đó phép biểu diễn hàm t-chuẩn, ví dụ như toán tử Min hoặc phép nhân đại số.

1.4.4. Logic mờ phức

Hệ logic mờ phức sử dụng luật được xây dựng dựa trên tập mờ phức để tạo ra một hệ logic mờ phức.

Một luật chính là biểu diễn của một quan hệ kéo theo mờ phức giữa hai tiền đề mờ phức không có điều kiện p

và q, trong đó tiền đề p được mô tả là cụm “X là A” còn q được mô tả bởi “Y là B”.

Hàm kéo theo của logic mờ phức: (1.14)

1.4.5. Độ đo mờ và độ đo mờ phức

Định nghĩa: [44] Một độ đo mờ phức kí hiệu đối với và

nếu thỏa mãn các tính chất sau:

khi và chỉ khi

o o (1.16)

o

Với là tập các tập mờ phức trong

1.5. Dữ liệu thực nghiệm

1.5.1. Bộ dữ liệu chuẩn

Để minh họa cho những mô hình đề xuất, luận án sử dụng các bộ dữ liệu chuẩn lấy từ kho dữ liệu học

máy UCI bao gồm: Bộ dữ liệu ung thư vú Breast Wisconsin Dataset (WBCD), bệnh tiểu đường Diebetes, bộ

dữ liệu đo chất lượng rượu (Wine Quality), bộ dữ liệu Hình ảnh tim thai CardiotocoGraphy- CTG và bộ dữ

liệu Rối loạn nhịp tim (Arrhythmia).

1.5.2. Bộ dữ liệu thực

Thông tin về dữ liệu bệnh gan được được trích từ hồ sơ bệnh án liên quan đến kết quả xét nghiệm (sinh

hóa máu và công thức máu) và chẩn đoán bệnh từ các bác sĩ tại Bệnh viện Gang Thép và Bệnh viện Đa khoa

Thái Nguyên. .

1.5.3. Các độ đo đánh giá thực nghiệm

Các độ đo được sử dụng để đánh giá mô hình hệ suy diễn mờ phức đối với hệ hỗ trợ ra quyết định

gồm có: Độ chính xác (Accuracy), độ đo Precision, độ đo Recall và tổng thời gian thực hiện.

1.6. Kết luận chương

Chương 1 trình bày một số khái niệm nền tảng về lý thuyết tập mờ phức và hệ suy diễn mờ và hệ suy

diễn mờ phức đã có, tổng quan về nghiên cứu về hệ suy diễn dựa trên tập mờ phức. Các nội dung trong chương

5

1 sẽ là các kiến thức nền và sử dụng trong các chương tiếp sau của luận án.

Chương 2. XÂY DỰNG HỆ SUY DIỄN MỜ PHỨC DẠNG MAMDANI (M-CFIS)

2.1. Mở đầu

Luận án đề xuất Hệ suy diễn mờ phức theo mô hình Mamdani cùng với chi tiết các thành phần cũng

như các bước thực hiện, các toán tử trong mô hình và đồng thời cũng đề xuất các toán tử t-chuẩn, t-đối chuẩn

mờ phức. Đề xuất toán tử t-chuẩn và t- đối chuẩn mờ phức.

2.2. Đề xuất toán tử t-chuẩn và t-đối chuẩn mờ phức

2.2.1. Toán tử t-chuẩn và t-đối chuẩn

Phần này trình bày định nghĩa tổng quát về phép toán t-chuẩn và t-đối chuẩn

2.2.2. Toán tử t-chuẩn và t-đối chuẩn mờ phức

Định nghĩa 2.3. Cho ánh xạ với là mặt phẳng đơn vị phức chứa tập hợp các số

phức. Phép được gọi là phép t-chuẩn mờ phức nếu các điều kiện sau thỏa mãn đối với mọi giá trị

, tương ứng là các hàm thuộc mờ phức

(1)

, nếu (2)

(3)

(4)

Định nghĩa 2.4. Cho ánh xạ với là mặt phẳng đơn vị phức chứa tập hợp các số

phức. Phép được gọi là phép t-đối chuẩn phức nếu các điều kiện sau thỏa mãn đối với mọi giá trị

, tương ứng là các hàm thuộc mờ phức

(1) (2) (3) (4)

, nếu

Định nghĩa 2.5. Nếu hàm t-chuẩn mờ phức liên tục và với mọi thì nó được

gọi là hàm toán tử t-chuẩn mờ phức Archimedean. Nếu một toán tử t-chuẩn mờ phức Archimedean tăng chặt

với mọi thì nó được gọi là toán tử t-chuẩn mờ phức Archimedean chặt.

Định nghĩa 2.6. Nếu hàm t-đối chuẩn mờ phức liên tục và với mọi thì nó

được gọi là hàm toán tử t-đối chuẩn mờ phức Archimedean. Nếu một toán tử t-đối chuẩn mờ phức Archimedean

tăng chặt với mọi thì nó được gọi là toán tử t-đối chuẩn mờ phức Archimedean chặt.

Định lý 2.1. Toán tử T-chuẩn và T-đối chuẩn phải thỏa mãn các tính chất phân phối sau:

(1)

(2)

Định lý 2.2. Toán tử T- chuẩn và T- đối chuẩn phải thỏa mãn các tính nuốt (tính chất được suy rộngctừ

lý thuyết tập hợp) như sau:

(1)

(2)

Định lý 2.3. Toán tử T- chuẩn và T- đối chuẩn phải thỏa mãn các tính lũy đẳng sau:

(1)

(2)

Định nghĩa 2.7. Cho , được gọi là hàm phủ định nêú nó thỏa mãn tính chất sau:

(1)

6

khi (2)

Định nghĩa 2.8. Hàm phủ định được coi là chặt nếu nó thỏa mãn điều kiện:

(1) là hàm liên tục

(2) và giảm chặt tức là nếu với mọi

Định nghĩa 2.9. Hàm phủ định được coi là mạnh nếu nó là chặt và thỏa mãn điều kiện với

mọi

Định lý 2.4. Toán tử t-chuẩn , toán tử t-đối chuẩn và toán tử phủ định phải thỏa mãn luật loại trừ trung

bình sau: (1)

(2)

Định lý 2.5. Toán tử t-chuẩn , toán tử t-đối chuẩn và toán tử phủ định phải thỏa mãn luật De Morgan

sau: (1)

(2)

Mệnh đề 2.2. Nếu toán tử phủ định là chặt thì các luật trong định lý 2.4 đều thỏa mãn

Mệnh đề 2.3. Nếu toán tử phủ định là chặt thì và

2.2.3. Ví dụ minh họa hỗ trợ ra quyết định

Trong phần này, luận án trình bày về ứng dụng toán tử t-chuẩn và t-đối chuẩn trong quá trình hỗ trợ ra

quyết định và minh họa trên bộ dữ liệu bệnh Viêm gan Liver thu thập ở Bệnh viện Ganh thép Thái Nguyên và

Bệnh viện đa khoa Thái Nguyên, quá trình gồm các bước sau:

Bước 1. Giả sử vấn đề hỗ trợ ra quyết định với phương án và tiêu chí

. Người ra quyết định đi xây dựng ma trận ra quyết định trong đó thể hiện

mức độ mà người ra quyết định thích phương án đối với tiêu chí . Trọng số của tiêu chí được diễn tả bởi

các số mờ phức CFNs , với là thành phần biên độ hay mức độ thích của

người ra quyết định đối với tiêu chí và là thành phần pha.

Bước 2. Biến đổi ma trận quyết định thành ma trận chuẩn hóa , với

Bước 3. Sử dụng các toán tử trong ví dụ 2.3 để tính toán t-chuẩn mờ phức Lukasiewicz

Bước 4: Tổng hợp các cấp độ mức độ thuộc phức.

7

Bước 5: Xem xét điểm cao nhất là ứng cử viên cho thứ hạng tốt nhất.

2.3. Hệ suy diễn mờ phức Mamdani (M-CFIS)

2.3.1. Đề xuất hệ suy diễn mờ phức Mamdani

Hình 2.1. Mô hình hệ suy diễn Mamdani dựa trên tập mờ phức

2.3.2. Các lựa chọn sử dụng trong hệ suy diễn mờ phức Mamdani

2.3.2.1. Hàm thuộc mờ phức

Trong mô hình Hệ suy diễn mờ phức dạng Mamdani đề xuất hàm thuộc mờ phức có dạng như sau:

với thành phần pha and thành phần biên độ .

2.3.2.2. Các toán tử sử dụng trong Hệ Mamdani CFIS

Trong nghiên cứu của chúng tôi, các toán tử được xác định như sau:

1. Toán tử T- chuẩn Minimum được sử dụng để tính toán độ mạnh của luật mờ phức với phép AND

được dùng để liên kết các điều kiện của luật.

2. Toán tử T-đối chuẩn Maximum được sử dụng để tính toán độ mạnh của luật mờ phức với phép OR

được dùng để liên kết các điều kiện luật.

3. Luật kéo theo Mamdani được dùng để tính toán kết quả của mỗi luật mờ phức sử dụng phép tích vô

hướng có dạng như sau:

2.3.2.3. Vec tơ tổ hợp đối với tập mờ phức

Trong mô hình mờ phức Mamdani đề xuất phép toán tổ hợp là phép tích vô hướng giữa các vector giá

trị phức có dạng như sau:

2.3.2.4. Tổng hợp đầu ra cuối cùng

với là các hàm giá trị phức. Điều Hàm đầu ra như sau:

này đảm bảo rằng hệ suy diễn mờ phức thực sự, trong đó thành phần pha được xem xét trong tất cả các bước

8

của quá trình ra quyết định

2.3.3. Cấu trúc của hệ suy diễn mờ phức Mamdani

Quá trình tính toán kết quả đầu ra thông qua mô hình hệ suy diễn mờ phức Mamdani cũng bao gồm 6

bước. Cụ thể từng bước như sau:

Bước 1: Xác định tập các luật mờ phức

Bộ luật mờ phức có dạng như sau:

is is is CFR1: If

is 𝐴1,𝑛1 then then is

is is is CFR2: If

… … … …

then

is is is is CFRk: If

Trong đó:

với (a)

, với và . (b)

, với và . (c)

(d) là toán tử T-chuẩn và là toán tử S-chuẩn (ví dụ như T-đối chuẩn) tương ứng với 𝑇0.

với (e)

(f) , where

Trong đó: .

(i) khi và chỉ khi

(ii) khi và chỉ khi

Bước 2: Mờ hóa dữ liệu đầu vào Trong bước này mỗi giá trị đầu vào được mờ hóa bởi hàm thuộc mờ

phức có dạng sau: với

Bước 3: Xác định độ mạnh của luật Tính toán độ mạnh của từng luật mờ phức .

Trong đó:

Bước 4: Tính toán các kết quả đầu ra y của luật mờ phức

Dạng của hàm đầu ra đối với mỗi luật mờ phức như sau:

Bước 5: Tổng hợp kết quả đầu ra của các luật mờ phức

Phân bố đầu ra được định nghĩa như sau:

Bước 6: Giải mờ kết quả đầu ra

Chọn hàm , giá trị đầu ra được xác định bởi:

Ví dụ chúng ta có thể chọn xấp xỉ sử dụng luật hình thang đối với mọi

.

2.4. Thử nghiệm và đánh giá kết quả

Chúng tôi thực nghiệm so sánh mô hình đề xuất M-CFIS với mô hình hệ suy diễn mờ Mamdani (M-

FIS) trên bộ dữ liệu chuẩn UCI và bộ dữ liệu thực Liver lấy từ Bệnh viện Gang thép và đa khoa Thái Nguyên

9

được chỉ rõ trong hình 2.2, 2.3 và 2.4. Ta có thể nhận thấy mô hình hệ suy diễn mờ phức M-CFIS hiệu quả

hơn hệ suy diễn mờ Mamdani trên cả 2 tiêu chí đánh giá: Độ chính xác, Precision và Recall. Bởi đối với vấn

đề chẩn đoán bệnh, các thuộc tính bệnh luôn có tác động qua lại lẫn nhau, có mối liên hệ lẫn nhau nên khi sử

dụng yếu tố bổ sung là mối quan hệ giữa các thuộc tính bệnh sẽ làm tăng hiệu quả của chẩn đoán bệnh chứ

không xét riêng lẻ từng thuộc tính như tập mờ thông thường. Tuy nhiên khi đưa thêm vào các yếu tố bổ sung

thì thời gian thực hiện của mô hình M-CFIS lại nhiều hơn M-FIS do còn phải tính toán thêm với thành phần

pha

Hình 2.2. Kết quả chạy thực nghiệm trên bộ WBCD Hình 2.3. Kết quả chạy thực nghiệm trên bộ Diebetes

Hình 2.4. Kết quả chạy thực nghiệm trên bộ dữ liệu thực Liver

2.5. Kết luận chương

Chương 2 trình bày kết quả nghiên cứu của luận án về hướng tiếp cận dựa trên tập mờ phức. Thứ nhất, luận án đề xuất toán tử t-chuẩn, t-đối chuẩn dựa trên lý thuyết tập mờ phức và ứng dụng toán tử đề xuất đối với vấn đề hỗ trợ ra quyết định. Thêm nữa, một hệ suy diễn dựa trên tập mờ phức theo mô hình Mamdani được đề xuất. Đó là mô hình kết hợp giữa ly thuyết tập mờ phức và mô hình hệ logic mờ phức. Trong mô hình cũng trình bày chi tiết các bước thực hiện cũng như toán tử sử dụng trong Hệ suy diễn đề xuất

Chương 3. TINH GIẢM HỆ LUẬT TRONG HỆ SUY DIỄN MỜ PHỨC MAMDANI (M-

CFIS-R)

3.1. Giới thiệu

Hệ thống đề xuất M-CFIS ở chương 2 còn hạn chế ở chính hệ cơ sở luật vì việc giảm luật chỉ thực hiện

dựa vào việc tính toán độ mạnh và yếu của luật. Và hệ luật thu được trong M-CFIS có thể vẫn còn dư thừa nếu

chỉ giảm luật trùng, luật yếu. Để khắc phục nhược điểm này, trong nội dung chương này luận án trình bày cải

10

tiến tối ưu hóa hệ luật của M-CFIS bằng việc áp dụng tính toán hạt kết hợp với các độ đo đề xuất.

3.2. Đề xuất độ đo tương tự mờ phức

3.2.1. Độ đo tương tự mờ phức Cosine

Định nghĩa 3.1. Cho hai tập mờ phức và trong với mọi ,

biên độ và pha của hàm thuộc mờ phức đều thuộc khoảng [0,1]. Độ đo tương tự mờ phức Cosine (kí hiệu

CFCSM) giữa hai tập mờ phức và được định nghĩa theo công thức sau:

(3.1)

Với ; ; ;

Định nghĩa 3.2. Độ đo tương tự Cosine mờ phức có trọng số (WCNCSM)

Cho hai tập mờ phức và trong với mọi . Một độ đo tương

tự Cosine mờ phức có trọng số giữa hai tập mờ phức và được định nghĩa như sau:

(3.2) với

3.2.2. Độ đo tương tự mờ phức Dice

Định nghĩa 3.3. Cho hai tập mờ phức và trong với mọi

. Độ đo tương tự mờ phức Dice (kí hiệu CFDSM) giữa hai tập mờ phức và được định nghĩa theo công

thức sau:

(3.3)

Với ; ; ;

Định nghĩa 3.4. Độ đo tương tự mờ phức Dice có trọng số (WCFDSM)

Cho hai tập mờ phức và trong với mọi . Một độ đo tương

tự mờ phức Dice có trọng số giữa hai tập mờ phức và được định nghĩa như sau:

(3.4) với

3.2.3. Độ đo tương tự mờ phức Jaccard

Định nghĩa 3.5. Cho hai tập mờ phức và trong với mọi

Độ đo tương tự mờ phức Jaccard (kí hiệu CFJSM) giữa hai tập mờ phức và có thể được xác

định như sau:

(3.5)

Với ; ; ;

Định nghĩa 3.6. Độ đo tương tự mờ phức Jaccard có trọng số (WCFJSM)

Cho hai tập mờ phức và trong với mọi . Một độ đo tương

tự mờ phức Jaccard có trọng số giữa hai tập mờ phức và được định nghĩa như sau:

11

3.6 với

Hình 3.1. Giai đoạn Training của mô hình đề xuất

3.3. Đề xuất mô hình hệ suy diễn M-CFIS-R

3.3.1. Ý tưởng xây dựng mô hình

Mô hình M-CFIS-R đề xuất chia làm 2 phần chính: Phần Training (Hình 3.1): được sử dụng để huấn

luyện, sinh ra các luật mờ và tối ưu hệ luật mờ sử dụng tính toán hạt kết hợp với độ đo mờ phức. Phần Testing:

được sử dụng để kiểm tra việc thực hiện suy diễn trên hệ luật mờ mới đã được tối ưu trong phần Training.

3.3.2. Phần Training.

3.3.2.1. Chọn dữ liệu phần thực và phần ảo.

Từ bộ dữ liệu Training, chúng tôi xây dựng dữ liệu dành cho phần thực và phần ảo như sau: Phần dữ

liệu thực : chính là giá trị dữ liệu ban đầu; Phần dữ liệu ảo trên mỗi bản ghi P của thuộc tính Q được tính bằng

công thức sau : var.P(dòng)+ var.Q(cột) với Var.P(dòng) là giá trị phương sai trên dòng P và Var.Q(cột) là giá

trị phương sai theo cột Q.

3.3.2.2. Thuật toán phân cụm mờ FCM

Trong phần này, thuật toán toán phân cụm mờ FCM được sử dụng để phân cụm dữ liệu trong mỗi

thuộc tính thành từng nhóm khác nhau, mỗi nhóm tương ứng với một nhãn ngôn ngữ .

3.3.2.3 Độ đo mờ phức tính toán hạt

Kết quả thu được của 3 độ đo tương tự mờ phức là ba ma trận tương quan (kí hiệu ). Sau

đó, mức độ tương tự cuối cùng giữa các luật mờ phức được xác định như sau:

Đối với mỗi nhãn, tính các giá trị luật mờ phức cuối cùng tương ứng với mỗi nhãn để từ đó tính được giá trị độ tương tự giữa các . Các hệ số tương ứng với mỗi nhãn được tính bằng

12

công thức sau:

Đối với mỗi luật ứng với nhãn khác thì giá trị . Cuối cùng, chúng tôi thu được hệ cơ sở luật mờ

phức chính là ma trận . Một hệ cơ sở luật mờ phức mới được đưa ra bằng cách loại bỏ những luật có độ

tương đồng cao trong nhóm luật và tiếp theo sẽ thực hiện đánh giá hiệu quả của hệ luật mới này. Trong trường

hợp mà hiệu quả của cơ sở luật mờ phức mà kém hơn thì ta quay trở lại bước trước để tính lại độ đo tương tự

mờ phức và tính toán hạt tiếp cho hệ cơ sở luật mới này. Quá trình này lặp lại cho đến khi hiệu quả của hệ cơ

sở luật mới này cao hơn bộ luật gốc hoặc độ chính xác của luật đối với bất kì nhãn nào bằng 1.

3.3.3. Phần Testing

Trong phần Testing, quá trình suy diễn tương tự như M-CFIS được thực hiện để kiểm tra hiệu năng

của hệ thống với bộ luật mờ phức mới thu được từ giai đoạn Traning.

3.4. Thử nghiệm và đánh giá kết quả

3.4.1. Kết quả thực nghiệm trên bộ dữ liệu UCI

Áp dụng phương pháp 3-fold cross-validation, các giá trị chỉ số độ đo thực nghiệm so sánh mô hình

đề xuất M-CFIS-R với mô hình M-CFIS được thể hiện rõ trong hình 3.3 và 3.4.

(a) (b) (c)

(d)

(e)

Hình 3.3. Kết quả thực nghiệm trên Bộ dữ liệu WBCD

Hình 3.3 mô tả rõ kết quả thực hiện chạy mô hình M-CFIS và M-CFIS-R trên bộ dữ liệu WBCD. Độ

chính xác, giá trị Recall và giá trị Precision của mô hình M-CFIS-R trên bộ dữ liệu Training và Testing đều

cao hơn mô hình M-CFIS. Thời gian thực hiện của hai mô hình này là tương đương nhau với số lượng luật

trung bình của M-CFIS-R ít hơn 36 luật so với M-CFIS. Qua đó, có thể dễ dàng nhận thấy là số lượng luật của

13

mô hình M-CFIS-R thấp hơn khá nhiều so với mô hình M-CFIS.

200

t ậ u

l

100

106

101

g n ợ ư

l

0

ố S

M-CFIS

M-CFIS-R

(c) (b) (a)

(d) (e)

Hình 3.4. Kết quả thực nghiệm trên Bộ dữ liệu Diebetes

Hình 3.4 thể hiện các chỉ số so sánh đối với mô hình M-CFIS-R đều cao hơn so với mô hình M-CFIS

trên 1% với độ lệch chuẩn khá nhỏ. Nhưng tổng thời gian tính toán của M-CFIS-R cao hơn M-CFIS 0.02 trên

dữ liệu Training và 0.086 trên dữ liệu Testing. Trong khi đó tổng số lượng luật của M-CFIS-R chỉ ít hơn 5 luật

so với mô hình M-CFIS và có độ lệch chuẩn là 0.94.

3.4.2. Kết quả thực nghiệm trên bộ dữ liệu thực

Kết quả so sánh đánh giá hiệu năng của mô hình M-CFIS-R đề xuất với mô hình M-CFIS được thể

hiện rõ trong hình 3.5.

900

850

t ậ u

l

800

839

750

g n ợ ư

770

l

ố S

700

M-CFIS

M-CFIS-R

(a) (c) (b)

(e) (d)

Hình 3.5. Kết quả thực nghiệm trên Bộ dữ liệu Liver

Hình 3.5 chỉ rõ các chỉ số kết quả thực hiện của 2 mô hình so sánh M-CFIS-R và M-CFIS trên bộ dữ

14

liệu bệnh Gan của bệnh viện Gang thép và bệnh viện Đa khoa Thái Nguyên. Chúng ta có thể thấy rõ độ chính

xác, , các chỉ số Precision và Recall khi chạy mô hình M-CFIS-R trên bộ dữ liệu Training và Testing đều cao

hơn M-CFIS. Cho dù chỉ số Recall khi thực hiện mô hình M-CFIS trên bộ dữ liệu Testing nhỏ hơn 0.4% so

với mô hình M-CFIS nhưng với độ lệch chuẩn nhỏ (chỉ 0.03). Điều này có thể dễ lí giải bởi nguyên nhân do

sự giảm số luật chỉ rõ trong hình 3.5 (e). Đối với bộ dữ liệu bệnh Liver, số lượng luật trong M-CFIS-R ít hơn

so với M-CFIS 69 luật. Đó cũng chính là lí do mà tổng thời gian thực hiện của C-FIS-R nhiều hơn M-CFIS.

3.5. Kết luận chương

Trong nội dung chương 3, luận án đề xuất một hệ thống M-CFIS-R, trong đó có sự kết hợp giữa các độ

đo tương tự mờ phức Cosine, độ đo tương tự mờ phức Dice và độ đo tương tự mờ phức Jaccard với kĩ thuật

tính toán hạt. Mục đích của hệ thống nhằm giảm luật thu được hệ luật trong hệ M-CFIS mà không giảm đi hiệu

quả của mô hình. Tuy nhiên, hệ M-CFIS-R vẫn chỉ dừng lại ở tối ưu cục bộ chứ chưa đạt được tối ưu toàn cục

do thuật toán chỉ thực hiện đánh giá hiệu quả của hệ luật mới trên mô hình Training thì dừng lại.

Chương 4. MỞ RỘNG HỆ SUY DIỄN MỜ PHỨC MAMDANI VỚI ĐỒ THỊ TRI THỨC (M-

CFIS-FKG)

4.1. Mở đầu

Trong chương 3, luận án đã đưa ra cải tiến của M-CFIS được gọi là M-CFIS-R, tuy nhiên, ngoài những

ưu điểm thì hệ thống M-CFIS-R vẫn còn tồn tại một số hạn chế sau: (1) Dữ liệu được kiểm tra trong phần

Testing bằng cách kiểm tra đối với từng luật trong hệ luật. Điều này dẫn đến chi phí thời gian tính toán khá

cao. (2) Đối với dữ liệu trong phần Testing mà không chứa các bản ghi được suy ra bởi luật trong hệ luật thì

khi đó khó có thể đưa ra được kết quả do trong hệ luật không có. (3) Mô hình M-CFIS-R hoạt động dựa trên

mô hình suy luận Mamdani, cần được phát triển lên mô hình hệ suy diễn Sugeno và Tsukamoto.(4) những khái

niệm độ đo hay tích phân mờ phức khác cũng cần được nghiên cứu và xem xét.

Chính vì những lí do đó mà trong nội dung chương 4, luận án đưa ra cách tiếp cận mới dựa trên đồ thị

tri thức để khắc phục những hạn chế của mô hình M-CFIS-R trong chương 3 mà NCS đã đưa ra.

4.2. Một số mở rộng của mô hình M-CFIS-R

4.2.1. Hệ suy diễn mờ phức Sugeno và Tsukamoto

 Hệ suy diễn mờ phức Sugeno: Hệ suy diễn mờ phức Sugeno được mô tả qua các bước sau:

Bước 1. Sinh luật mờ phức.

is is … is Một luật CFRi được biểu diễn như sau: CFRi : If

then ; Trong đó: là tập mờ phức và là các biến đầu vào của mô hình; là các toán

tử t- chuẩn và t-đối chuẩn tùy thuộc vào ứng dụng và là hàm tuyết tính của kết quả đầu ra tương ứng với

mỗi luật mờ phức.

Bước 2: Mờ phức hóa. Thực hiện quá trình mờ phức hóa mỗi giá trị đầu vào bởi hàm thuộc mờ phức.

Bước 3: Tổng hợp độ mạnh của luật. Mỗi luật mờ phức có một giá trị độ mạnh của luật, kí hiệu bởi

và được tính toán bởi: ;

Bước 4: Tính toán giá trị đầu ra của các luật sử dụng công thức:

Bước 5: Tổng hợp kết quả cuối cùng. Cho và với mọi m. Khi

15

đó, kết quả đầu ra được tính toán bằng công thức tính tổng hợp trọng số sau:

 Hệ suy diễn mờ phức Tsukamoto: Quy trình suy diễn của mô hình hệ suy diễn mờ phức

Tsukamoto cũng tương tự như đối với mô hình hệ suy diễn mờ phức Sugeno. Mỗi kết quả trong mỗi luật trong

mô hình hệ suy diễn mờ phức Tsukamoto được xác định bởi một hàm đơn điệu trên tập mờ phức. Do đó kết

quả suy luận của mỗi luật sẽ thu được dựa vào các giá trị dự đoán. Cuối cùng, kết quả cũng được tính toán

bằng công thức trung bình trọng số (tương tự như với S-CFIS-R).

4.2.2. Độ đo mờ phức dựa trên lý thuyết tập hợp

Định nghĩa 4.1. Cho một tập mờ phức không rỗng trên không gian nền . Một tập con của

được coi là phép đại số của tập mờ phức trên nếu nó thỏa mãn các điều kiện sau:

(1)

(2) Nếu thì

(3) Nếu thì

Định nghĩa 4.2. Cho một không gian đo được mờ phức . Một ánh xạ được định

nghĩa là độ đo mờ phức trên nếu thỏa mãn các điều kiện sau:

(1) và

(2) với , với và

, Định nghĩa 4.3. Cho không gian độ đo mờ phức và một ánh xạ . Ánh

xạ được gọi là một phép đẳng cấu giữa và nếu các điều kiện sau được thỏa mãn:

(1) là một song ánh với

(2) và với

(3) Tồn tại một song ánh với , và

Định nghĩa 4.4. Cho không gian độ đo mờ phức và . Một ánh xạ

được gọi là ánh xạ đẳng cấu giữa hai không gian và nếu điều kiện sau

được thỏa mãn:

(1) là một ánh xạ đẳng cấu giữa hai không gian độ đo mờ phức và .

(2) với

Định nghĩa 4.5. Một không gian mờ phức được gọi là không gian đẳng cấu nếu thoả mãn

các tính chất sau:

(1) , thì ,

(2) với và với hoán vị trên .

4.2.3. Tích phân mờ phức

Định nghĩa 4.6. Cho một không gian độ đo mờ phức với , một ánh xạ

và - độ đo . Tích phân mờ phức- của trên được tính theo công thức sau:

với

4.3.3.1. Tích phân mờ phức

Định nghĩa 4.7. Cho không gian độ đo mờ phức và , một phép đại số của các tập

trên là một biểu diễn rõ của phép đại số khi và chỉ khi có với thỏa mãn các điều kiện

16

sau: và nếu với , thì .

4.3.3.2. Liên hệ với tích phân Sugeno

Định lý 4.4. Cho dàn thặng dư có thể chia hoàn toàn , một không gian độ đo mờ phức với

và một ánh xạ . Thì ta có:

Với là độ đo mờ phức trong trên .

4.3.3.3. Các tính chất của tích phân mờ phức

Định lý 4.6. Cho không gian độ đo mờ phức với . Nếu có với

và là rõ thì ánh xạ được xác định bởi hàm sau:

là một độ đo mờ phức trên .

4.3. Đề xuất mô hình hệ suy diễn mờ phức M-CFIS-FKG 4.3.1. Ý tưởng xây dựng mô hình

Với mục đích cải thiện tốc độ tính toán của quá trình suy diễn trong bộ dữ liệu Testing, mô hình M-

CFIS-R được mở rộng theo cách sau: Bộ dữ liệu đầu tiên được chia thành 3 phần với tên gọi Training,

17

Hình 4.1. Quá trình Training

Hình 4.2. Quá trình Testing

Validation và Testing. Với bộ dữ liệu Training, thực hiện tính dữ liệu phần thực, phần ảo và áp dụng mô hình

M-CFIS-R để thu được bộ cơ sở luật mờ phức được thu gọn. Sau đó, NCS đi thực hiện xây dựng đồ thị tri thức

mờ (FKG) từ bộ cơ sở luật và biểu diễn nó bởi ma trận. Với bộ dữ liệu Testing, NCS đi xây dựng Thuật toán

tìm kiếm suy diễn nhanh (FISA) để thu được đầu ra từ đồ thị tri thức mờ.

4.3.2. Xây dựng đồ thị tri thức mờ

Cho hệ cơ sở luật mờ phức với X1, X2, …Xm là các thuộc tính của bộ dữ liệu. Chúng tôi xây dựng

FKG cho từng luật mờ , với . Với mỗi cặp thuộc tính trong luật , ta xây

dựng cạnh với là biến ngôn ngữ ứng với thuộc tính . Với mỗi cặp giá

trị , mỗi cạnh được xây dựng đồ thị với là nhãn của luật thứ

t.

là trọng số của cạnh

Cho trong luật t với , , thì :

(1)

biểu diễn mối quan hệ của thuộc tính

Trọng số với nhãn l trong đó , ,

. Thì giá trị được tính theo công thức sau

(2)

Ví dụ với 6 luật mờ phức sau:

R1: If x1 is Medium1 and x2 is High2 and x3 is High3 then k is 1

R2 : If x1 is High1 and x2 is Low2 and x x3 is Low3 then k is 2

R3 : If x1 is Low1 and x2 is Medium2 and x3 is High3 then k is 1

R4 : If x1 is Low1 and x2 is High2 and x3 is Medium3 then k is 1

R5 : If x1 is High1 and x2 is Low2 and x3 is Medium3 then k is 2

R6 : If x1 is Medium1 and x2 is Low2 and x3 is Low3 then k is 2

18

Áp dụng các bước tính toán trên, ta thu được đồ thị FKG của 6 luật như sau:

Hình 4.5. Đồ thị FKG cho 6 luật

4.3.3. Thuật toán suy diễn nhanh trên đồ thị tri thức mờ

Bằng việc sử dụng Đồ thị tri thức mờ để biểu diễn luật, quá trình Testing gán các nhãn đối với từng bộ

dữ liệu đầu vào Testing (Hình 4.2). Thuật toán tìm kiếm suy diễn nhanh FISA (Fast Inference Search

Algorithm) được thực hiện tính toán trên đồ thị tri thức mờ FKG để có thể đưa ra nhãn tương ứng với từng luật

mờ theo cách như sau.

Đầu tiên các giá trị ngôn ngữ tương ứng với mỗi nhãn trong từng luật trên FKG được tính toán sau:

biểu diễn mối quan hệ của thuộc tính

với giá trị với nhãn l.

Dựa trên khái niệm Suy luận xấp xỉ, với mỗi bản ghi mới thì nhãn tương ứng với từng luật được tính bởi

toán tử MIN-MAX như sau: . Cuối cùng, nhãn của bản ghi mới được xác định

bằng luật MAX theo quy tắc: nếu .

FISA Algorithm

Dữ liệu testing Data, Đồ thị tri thức mờ Input:

Nhãn đầu ra của Dữ liệu testing Output:

Begin

1:

Xây dựng dữ liệu phần thực và phần ảo - Phần thực được xác định dùng chính các giá trị gốc đầu vào. - Phần ảo được tính toán var.R (bản ghi) + var.A (thuộc tính) trong đó, + Var.R (bản ghi) là giá trị phương sai trên bản ghi thứ P; + Var.A (thuộc tính) là giá trị phương sai trên thuộc tính Q.

Thực hiện mờ hóa để xây dựng các giá trị biến ngôn ngữ 2: Với từng bản ghi thứ t trong bộ dữ liệu 3:

Với từng nhãn l 4:

Với từng thuộc tính i 5:

Tính toán: 6:

Tính toán: 7:

Xác định nhãn đầu ra theo: nếu 8:

Gán nhãn và lặp lại các bước từ 1-8 đối với từng bản ghi mới cho đến khi kết thúc 9:

19

End

4.4. Thực nghiệm và đánh giá kết quả

4.4.1. Thực nghiệm

Để việc đánh giá hiệu quả hơn thì trong nội dung chương này, NCS thực nghiệm với 2 loại bộ dữ liệu

(bộ dữ liệu hai nhãn và bộ dữ liệu nhiều nhãn). Các bộ dữ liệu 2 nhãn là 2 bộ dữ liệu chuẩn Benchmark được

lấy từ kho dữ liệu chuẩn gồm (Bộ Breast Wisconsin, Bộ Diabetes) và một bộ dữ liệu thực Liver. Bộ dữ liệu

nhiều nhãn là bộ lấy từ kho dữ liệu chuẩn UCI bao gồm bộ dữ liệu Wine, bộ Cardiotcography -CTG và bộ

Arrthymia. Hai kịch bản chạy thực nghiệm được chỉ rõ trong Bảng 4.2 và 4.3.

Table 4.2. Kịch bản 1

Dữ liệu Số lượng bản ghi đối với mỗi nhãn

Training 2/3 * 2/3 * 0.6* (Số lượng bản ghi đối với mỗi nhãn)

2/3 * 1/3 * 0.6 * ( Số lượng bản ghi đối với mỗi nhãn ) Validation

Testing 1/3 * 0.6 * ( Số lượng bản ghi đối với mỗi nhãn )

New data 0.4 * ( Số lượng bản ghi đối với mỗi nhãn )

Table 4.3. Kịch bản 2

Data Nếu số lượng bản ghi đối với mỗi nhãn /Tổng số bản Nếu số lượng bản ghi đối với mỗi nhãn /Tổng

ghi > 5% số bản ghi < 5%

2/3 * 2/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 2/3 * 2/3 * 0.05 * (Số lượng bản ghi đối với Training mỗi nhãn)

2/3 * 1/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 2/3 * 1/3 * 0.05 * (Số lượng bản ghi đối với

Validation mỗi nhãn)

1/3 * 0.3 * (Số lượng bản ghi đối với mỗi nhãn) 1/3 * 0.05 * (Số lượng bản ghi đối với mỗi Testing nhãn)

0.7 * (Số lượng bản ghi đối với mỗi nhãn) 0.95 * (Số lượng bản ghi đối với mỗi nhãn) New data

4.4.2. Kết quả thực nghiệm

4.4.2.1. Kết quả thực nghiệm trên các bộ dữ liệu 2 nhãn

Đối với các bộ dữ liệu 2 nhãn, kết quả thực nghiệm so sánh mô hình đề xuất M-CFIS-FKG với mô hình

M-CFIS-R trên 2 tiêu chí đánh giá gồm thời gian thực hiện và độ chính xác.

(b) (a)

20

Hình 4.8. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu WBCD

Như đã chỉ rõ trong hình 4.8(a) thì không có nhiều sự khác biệt giữa 2 kịch bản thực nghiệm. Độ chính

xác của mô hình M-CFIS-FKG thấp hơn chút so với mô hình M-CFIS-R đối với kịch bản thực nghiệm 1 (khoảng

13.93%). Còn với kịch bản thực nghiệm 2 thì chỉ thấp hơn khoảng 3.44%. Tuy nhiên, thời gian thực hiện tính

toán của mô hình M-CFIS-FKG lại thấp hơn nhiều so với mô hình M-CFIS-R trên cả 3 kịch bản thực nghiệm

(trung bình giảm gần 97% tổng thời gian thực hiện). Hơn nữa, đối với bộ dữ liệu mới, tổng thời gian thực hiện

của mô hình M-CFIS-R cao hơn nhiều so với tổng thời gian thực hiện của mô hình M-CFIS-FKG. Điều đó thể

hiện cho thấy mô hình đề xuất M-CFIS-FKG có khả năng suy luận xấp xỉ tốt hơn với kịch bản 2.

(b) (a)

Hình 4.9. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Diebetes

Hình 4.9 thể hiện kết quả thực nghiệm so sánh giữa hai mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ

liệu Diabetes. Như thể hiện trong hình 4.9(a) độ chính xác của mô hình đề xuất M-CFIS-FKG nhỏ hơn chút so

với mô hình M-CFIS-R trên cả 2 kịch bản chạy thực nghiệm (cụ thể trung bình khoảng 6.89% đối với kịch bản

1 và 3.82% đối với kịch bản 2). Còn về thời gian thực hiện thì tổng thời gian thực hiện của mô hình M-CFIS-

FKG vẫn thấp hơn so với mô hình M-CFIS-R. Đặc biệt trong kịch bản thực nghiệm 2, thời gian thực nghiệm của

mô hình M-CFIS-R cao gấp 2.31 lần so với M-CFIS-FKG mà với độ chính xác gần như nhau (76.43% đối với

M-CFIS-R và 74.43% đối với M-CFIS-FKG – trong hình 4.9(a)). Như vậy, ta có thể thấy M-CFIS-FKG thực

hiện tốt hơn đối với dữ liệu mới trong kịch bản thực nghiệm 2.

Kết quả thực nghiệm đối với bộ dữ liệu thực Liver được mô tả rõ trong hình 4.10. Rõ ràng là đối với kịch

bản thực nghiệm 1, độ chính xác của M-CFIS-FKG thấp hơn 4.27% so với M-CFIS-R nhưng thời gian tính toán

thì trung bình giảm khoảng 3.77 lần. Trong kịch bản thực nghiệm 2, mô hình M-CFIS-FKG được cho là hiệu quả

hơn so với M-CFIS-R với độ chnsh xác thấp hơn khoảng 2.23% nhưng tổng thời gian thực hiện lại giảm tới 4.1

lần. Hơn nữa, trong trường hợp có nhiều dữ liệu mới trong kịch bản 2, mô hình M-CFIS-FKG cho kết quả gần

như tương đương, độ chính xác thấp hơn 1.14% với thời gian chạy giảm 33.56% so với mô hình M-CFIS-R.

21

(b) (a)

Hình 4.10. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Liver

4.4.2.2. Kết quả thực nghiệm trên các bộ dữ liệu nhiều nhãn

Đối với các bộ dữ liệu nhiều nhãn, kết quả thực nghiệm được chỉ rõ trong hình 4.11-1.13. Đối với các

bộ dữ liệu nhiều nhãn, độ phân bố dữ liệu trong từng nhóm dữ liệu cũng khác so với các bộ dữ liệu có 2 nhãn,

nên điều đó cũng dẫn đến kết quả thực nghiệm khác so với các bộ dữ liệu có 2 nhãn.

(b) (a)

Hình 4.11. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Wine Độ chính xác và thời gian tính toán của thuật toán M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Wine

được minh họa rõ trong hình 4.11. Ở hình 4.11(a), độ chính xác của mô hình M-CFIS-FKG chỉ thấp hơn chút so

với của mô hình M-CFIS-R, ngoại trừ đối với dữ liệu mới trong kịch bản 2. Cũng giống như kết quả thực nghiệm

đối với các bộ dữ liệu khác thì thời gian tính toán của mô hình M-CFIS-FKG thấp hơn nhiều so với thời gian

chạy mô hình M-CFIS-R. Đặc biệt trong trường hợp có nhiều dữ liệu mới trong kịch bản chạy thực nghiệm 2 thì

độ chính xác của M-CFIS-FKG chỉ thấp hơn 0.37% với thời gian thực hiện giảm tới 2.88 lần.

Đối với bộ dữ liệu CTG, độ chính xác và tổng thời gian thực hiện tính toán của 2 mô hình được mô tả rõ

trong hình 4.12, và có cùng chung kết quả thực nghiệm như đối với các bộ dữ liệu trên. Mô hình M-CFIS-FKG

được cho là tốt hơn mô hình M-CFIS-R trong trường hợp chạy thực nghiệm đối với kịch bản 2, tức là đối với

trường hợp có nhiều dữ liệu mới (độ chính xác thấp hơn 1.27% nhưng tổng thời gian thực hiện thì thấp hơn 2.49).

(b) (a)

Hình 4.12. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu CTG Đối với bộ dữ liệu Arrhythmia, sự phân bố dữ liệu trong kịch bản 2 cũng chịu ảnh hưởng nhiều như với

22

các bộ dữ liệu nhiều nhãn khác. Trong trường hợp này thì độ chính xác của mô hình M-CFIS-FKG cao hơn M-

CFIS-R (khoảng 1.94%) trong khi thời gian thực hiện giảm đi khoảng 3.88 lần. Điều đó có nghĩa là mô hình đề

xuất M-CFIS-FKG thực sự hiệu quả trong việc suy luận trong trường hợp có nhiều thông tin mới không sẵn có

trong bộ dữ liệu Traning và thậm chí cả trong quá trình Testing.

(b) (a)

Hình 4.13. So sánh mô hình M-CFIS-R và M-CFIS-FKG trên bộ dữ liệu Arrthythmia

Như vậy, với kịch bản thực nghiệm 1 trên tất cả các bộ dữ liệu, số lượng dữ liệu trong các nhãn đầu ra

đối với từng bộ dữ liệu là tương đương nhau (cụ thể trong bảng 4.2). Trong trường hợp này, các nhãn đều được

phân bố đồng đều trong các bộ dữ liệu Training, Testing và New data. Điều này cũng góp phần làm giảm tổng

thời gian thực hiện của mô hình M-CFIS-FKG. Bên cạnh đó, kết quả về độ chính xác của mô hình M-CFIS-FKG

và M-CFIS-R trên các bộ dữ liệu có nhiều nhãn đầu ra cũng nhỏ hơn nhiều so với các bộ dữ liệu có hai nhãn.

Điều đó chứng minh được tính hiệu quả của mô hình đề xuất M-CFIS-FKG đối với các bộ dữ liệu có nhiều nhãn

đầu ra.

Kết quả thực nghiệm của mô hình M-CFIS-KFG trên 2 kịch bản thực nghiệm về mặt thời gian tính toán

và độ chính xác của mô hình đã chứng minh được tính hiệu quả của mô hình đề xuất trong việc giảm khá nhiều

thời gian tính toán mô hình với độ chính xác được coi là chấp nhận được. Đặc biệt mô hình có ý nghĩa thực tiễn

đối với những trường hợp thiếu thông tin dữ liệu trong kho dữ liệu mẫu.

4.5. Kết luận chương

Trong nội dung chương này, NCS đề xuất mở rộng mô hình M-CFIS-R: bao gồm Hệ suy diễn mờ phức

Sugeno (S-CFIS-R) và Hệ suy diễn mờ phức Tsukamoto (T-CFIS-R), độ đo mờ phức và tích phân mờ phức. Đặc

biệt, độ đo mờ phức và tích phân mờ phức cũng cấp một số lý thuyết cũng như định lý cơ bản trong các ngữ cảnh

khác nhau. Thêm nữa, để khắc phục những hạn chế về mặt thời gian tính toán và khả năng suy luận đối với mô

hình M-CFIS-R thì NCS cũng đề xuất xây dựng Đồ thị tri thức mờ (FKG) từ bộ cơ sở luật trong quá trình

Training. Sau đó, thuật toán suy diễn nhanh được đề xuất cho quá trình Testing nhằm mục đích đưa ra suy luận

nhãn đầu ra tương ứng với từng bản ghi.

KẾT LUẬN

1) Những kết quả chính của luận án:

Luận án nghiên cứu hướng tiếp cận phát triển hệ suy diễn Mamdani trên tập mờ phức và áp dụng cho các

bài toán hệ hỗ trợ ra quyết định. Kết quả của luận án bao gồm:

1) Đề xuất mô hình Hệ suy diễn mờ phức Mamdani và các phép toán t-norm, t-conorm dựa trên tập mờ

phức. Những thành phần và các phép toán thực hiện của mô hình Hệ suy diễn mờ phức Mamdani cũng được nêu

23

rõ trong mô hình và áp dụng đối với bài toán hệ hỗ trợ ra quyết định. Thực nghiệm đối với các bộ dữ liệu mẫu

UCI và dữ liệu thực lấy từ bệnh viện Gang thép và Đa khoa Thái Nguyên cũng chứng minh cho thấy mô hình

đề xuất cải thiện hơn mô hình hệ suy diễn mờ Mamdani trên các chỉ số đánh giá độ chính xác, Recall và Precision.

2) Đề xuất mô hình M-CFIS-R: trong nội dung này NCS đề xuất các độ đo tương tự mờ phức và đề xuất

phương thức tinh giảm luật trong mô hình hệ suy diễn mờ phức Mamdani M-CFIS dựa trên sự kết hợp việc tính

toán hạt với 3 độ đo tương tự mờ phức. Kết quả thực nghiệm cũng cho thấy phương thức tinh giảm luật đề xuất

đã giảm thiểu được số lượng luật trong mô hình hệ M-CFIS và nâng cao độ chính xác của mô hình mới so với

mô hình cũ M-CFIS.

3) Đề xuất mô mình M-CFIS-FKG: NCS đề xuất mở rộng hệ suy diễn mờ phức theo mô hình Sugeno

và Tsukamoto; đề xuất các độ đo mờ phức, tích phân mờ phức trên tảng lý thuyết tập hợp. Thêm nữa, NCS cũng

đề xuất phương thức biểu diễn luật mờ trên đồ thị tri thức mờ và từ đó xây dựng mô hình M-CFIS-FKG được

coi là mô hình cải tiến của M-CFIS-R trong bài toán ra quyết định. Thực nghiệm trên bộ dữ liệu 2 nhãn và nhiều

nhãn cũng chứng minh được khả năng suy luận xấp xỉ của phương pháp đề xuất, đặc biệt trong các trường hợp

bản ghi không có trong bộ dữ liệu Training.

2) Hướng phát triển của luận án:

(1) Tiếp tục nghiên cứu, đề xuất toán tử hợp thành trên tập mờ phức và áp dụng các toán tử đề xuất

vào trong chính mô hình hệ hỗ trợ ra quyết định.

(2 Tiếp tục nghiên cứu, đề xuất các thuật toán học như học chuyển giao, học cộng tác ... vào trong quá

trình tinh giảm luật mờ với mục tiêu tối ưu hóa hệ luật.

(3) Tiếp tục nghiên cứu, đề xuất các phương pháp biểu diễn hệ luật mờ phức, phương pháp suy diễn

mới nhằm mục đích nâng cao khả năng tìm kiếm trên đồ thị tri thức mờ..

(4) Thử nghiệm các mô hình đề xuất trong luận án với nhiều bộ dữ liệu phức tạp hơn trong các lĩnh

24

vực khác nhau trong cuộc sống như: y tế, kinh tế , địa lý...

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

Tran Thi Ngan, Luong Thi Hong Lan, Mumtaz Ali, Dan Tamir, Le Hoang Son, Tran Manh

Tuan, Naphtali Rishe, Abe Kandel (2018), “Logic Connectives of Complex Fuzzy

1 Sets”, Romanian Journal of Information Science and Technology, Vol. 21, No. 4, pp. 344-

358 (ISSN:1453-8245, SCIE, 2020 IF = 0.760), DOI = http://www.romjist.ro/abstract-

606.html.

Ganeshsree Selvachandran, Shio Gai Quek, Luong Thi Hong Lan, Le Hoang Son, Nguyen

Long Giang, Weiping Ding, Mohamed Abdel-Basset, Victor Hugo C. de

Albuquerque (2021), “A New Design of Mamdani Complex Fuzzy Inference System for 2 Multi-attribute Decision Making Problems”, IEEE Transactions on Fuzzy Systems, Vol. 29,

No.4, pp. 716-730 (ISSN:1063-6706, SCI, 2019 IF = 9.518),

DOI = http://dx.doi.org/10.1109/TFUZZ.2019.2961350.

Tran Manh Tuan, Luong Thi Hong Lan, Shuo-Yan Chou, Tran Thi Ngan, Le Hoang Son,

Nguyen Long Giang, Mumtaz Ali (2020), “M-CFIS-R: Mamdani Complex Fuzzy Inference

3 System with Rule Reduction Using Complex Fuzzy Measures in Granular

Computing”, Mathematics, Vol. 8, No. 5, pp. 707 – 731 (ISSN: 2227-7390, SCIE, 2019 IF

= 1.747), DOI = https://doi.org/10.3390/math8050707.

Luong Thi Hong Lan, Tran Manh Tuan, Tran Thi Ngan, Le Hoang Son, Nguyen Long

Giang, Vo Truong Nhu Ngoc, Pham Van Hai (2020), “A New Complex Fuzzy Inference

4 System with Fuzzy Knowledge Graph and Extensions in Decision Making”, IEEE

Access, Vol. 8, pp. 164899 - 164921 (ISSN: 2169-3536, SCIE, 2019 IF = 3.745), DOI

= http://dx.doi.org/10.1109/ACCESS.2020.3021097.