Tóm tắt Luận án Toán học: Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật

Chia sẻ: Na Na | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

67
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án gồm các chương: Chương 1 – Một số kiến thức cơ sở; chương 2 – Phát triển các thuật toán xây dựng các LRBS giải bài toán phân lớp, hồi quy; chương 3 – Tính giải nghĩa được của các khung nhận thức ngôn ngữ và biểu diễn ngữ nghĩa tính toán của chúng. Sau đây là bản tóm tắt luận án.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Toán học: Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ HOÀNG VĂN THÔNG NGHIÊN CỨU NGỮ NGHĨA TÍNH TOÁN CỦA TỪ NGÔN NGỮ VÀ ỨNG DỤNG VÀO VIỆC XÂY DỰNG HỆ MỜ TỐI ƯU DỰA TRÊN LUẬT Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62.46.01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2016 1
Công trình được hoàn thành tại: Học viện Khoa học và Công Nghệ – Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học: 1. PGS. TSKH Nguyễn Cát Hồ 2. PGS. TS Nguyễn Văn Long Phản biện 1: PGS.TS Nguyễn Đình Hóa Phản biện 2: PGS.TS Bùi Thu Lâm Phản biện 3: TS Nguyễn Đức Dũng Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học Viện: Vào hồi … giờ …., ngày …. tháng …. năm ……. Có thể tìm hiểu luận án tại: 1. Thư viện Quốc gia Việt Nam 2. Thư viện Học viện Khoa học và Công nghệ 2
MỞ ĐẦU Dựa trên lý thuyết tập mờ, hệ mờ dựa trên luật (Fuzzy Rule Based System - FRBS) là một trong những công cụ gặt hái được nhiều thành công trong giải quyết các bài toán điều khiển, phân lớp, hồi quy. Khi xây dựng các FRBS, hai mục tiêu cần đạt được là độ chính xác (accuracy) và tính giải nghĩa được (interpretability). Đây là hai mục tiêu xung đột nhau, vì vậy, khi xây dựng các FRBS các thuật toán luôn phải hướng tới đảm bảo sự cân bằng (tradeoff) giữa hai mục tiêu này. Tính giải nghĩa được của FRBS được đặc biệt quan tâm khi nó được ứng dụng vào các lĩnh vực mà ở đó con người làm trung tâm (ví dụ: y tế, giáo dục, …). Ở đây các FRBS được xem như là các hộp xám (gray-boxes), tức là người dùng có thể kiểm tra và hiểu được các thành phần của nó [11]. Do đó, trong những năm gần đây vấn đề tính giải nghĩa được của FRBS trở thành một chủ đề “nóng” trong lĩnh vực này. Hiện tại có nhiều quan điểm khác nhau về tính giải nghĩa được, trong một số nghiên cứu cố gắng đánh giá tính giải nghĩa được bằng cách phân chia các yếu tố liên quan đến nó theo các mức và thiết lập một tập các ràng buộc ở các mức đó. Trong [26] Gacto cho rằng hiện tại có hai hương tiếp cận chính về tính giải nghĩa được. Hướng thứ nhất dựa trên độ phức tạp, hướng này tập trung vào việc làm giảm độ phức tạp của mô hình đạt được, thường sử dụng các độ đo như số luật, số biến, độ dài của luật, số từ sử dụng cho một biến,…. Hướng thứ hai dựa trên ngữ nghĩa, hướng này tập trung vào đảm bảo tính toàn vẹn ngữ nghĩa của các nhãn ngôn ngữ, được thể hiện bằng các tập mờ được thiết kế cho FRBS và ngữ nghĩa của luật. Hướng tiếp cận dựa trên lý thuyết tập mờ thiếu một phương pháp hình thức toán học đầy đủ để xác định ngữ nghĩa tính toán của từ từ ngữ nghĩa vốn có của nó, dẫn đến việc gán ngữ nghĩa tính toán được biểu diễn bằng tập mờ cho các nhãn ngôn ngữ và các ràng buộc tính giải nghĩa được của FRBS đều dựa trên trực quan của người thiết kế. Do đó tính chính xác ngữ nghĩa của các nhãn từ không được đảm bảo và ở đó phải đưa ra nhiều ràng buộc cho tính giải nghĩa được của FRBS (trong [41] Mencar đưa ra 37 ràng buộc). Theo chúng tôi ngữ nghĩa tính toán của từ là yếu tố quan trọng để đảm bảo tính giải nghĩa được của FRBS. Vì vậy, cần phải tìm kiếm một hướng tiếp cận mới cho vấn đề này mà ở đó ngữ nghĩa tính toán của từ được xác định bằng một phương pháp hình thức đầy đủ dựa trên ngữ nghĩa vốn có của nó. 1
Nhằm khắc phục một số hạn chế của hướng tiếp cận theo lý thuyết tập mờ trong [50, 52] đã phát triển các thuật toán theo hướng tiếp cận dựa trên Đại số gia tử (ĐSGT) xây dựng LRBS (ở đây gọi là LRBS thay vì FRBS do các từ sử dụng trong nó là từ ngôn ngữ tự nhiên) giải bài toán phân lớp. Mặc dù, ứng dụng ĐSGT vào giải quyết bài toán phân lớp đã tạo ra các LRBS có hiệu quả phân lớp khá tốt. Tuy nhiên, ngữ nghĩa tính toán của từ vẫn không bảo toàn được tính khái quát và tính đặc tả vì vậy chúng ta cần tiếp tục nghiên cứu phát triển các thuật toán tốt hơn và nghiên cứu ứng dụng ĐSGT vào giải quyết các bài toán mới nhằm chứng minh tính hiệu quả của phương pháp luận dựa trên ĐSGT. Bên cạnh đó, vấn đề tính giải nghĩa được của LRBS chưa được quan tâm nghiên cứu trong hướng tiếp cận này. Với những mục tiêu đặt ra, luận án đã đạt được một số kết quả sau: 1) Đề xuất ba thuật toán tiến hóa xây dựng LRBS giải bài toán phân lớp, bài toán hồi quy trong đó ngữ nghĩa tính toán (NNTT) của từ ngôn ngữ sử dụng trong LRBS được xác định bằng ĐSGT và mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp. 2) Đề xuất hướng tiếp cận mới cho vấn đề tính giải nghĩa được của LRBS theo hướng tiếp cận dựa trên ĐSGT, đề xuất 4 ràng buộc về tính giải nghĩa được ở mức phân hoạch mờ hay là mức thấp của các LRBS. 3) Phát biểu khái niệm khung nhận thức ngôn ngữ (LFoC), đề xuất phương pháp thiết kế NNTT của tập từ ngôn ngữ của LFoC dựa trên ngữ nghĩa vốn có của từ được xác định bằng ĐSGT thỏa mãn các ràng buộc đã đề xuất. 4) Phát biểu các định lý khẳng định tính đúng đắn của phương pháp thiết kế NTTT và những ràng buộc mà nó thỏa mãn. 5) Đề xuất thuật toán xây dựng các LRBS giải bài toán hồi quy, trong đó mục tiêu tính giải nghĩa được của LRBS được đánh giá dựa trên hướng tiếp cận mới. CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ 1.1. Một số kiến thức cơ bản về lý thuyết tập mờ 1.1.1. Định nghĩa tập mờ Định nghĩa 1.1: [63, 65] Cho U là một tập các điểm (đối tượng) với các phần tử ký hiệu bởi x, U={x}. Một tập mờ A trên U là một tập mà mỗi phần tử của nó là một cặp các giá trị ((x,  A(x)), trong đó x U và  A là ánh 2
xạ:  A : U  [0, 1] (1.1) Trong đó ánh xạ  A được gọi là hàm thuộc của tập mờ A. Tập U được gọi là cơ sở của tập mờ A, ký hiệu A  ( x,  A ( x)) : x U , hàm  A(x) biểu thị cấp độ thuộc của phần tử x vào tập mờ A, nếu giá trị của  A(x) càng gần 1 thì cấp độ thuộc của x vào A cao hơn. 1.1.2. Xây dựng hàm thuộc Khi xây dựng các hàm thuộc, một yêu cầu đặt ra là giá trị của nó phải biến thiên từ 0 đến 1. 1.1.3. Biến ngôn ngữ Biến ngôn ngữ là những biến mà giá trị của nó là các từ ngôn ngữ. 1.1.4. Phân hoạch mờ Phân hoPhân hoạch mờị của nó là các từ ngôn ngữ.thhóa các miền xác định của các biến ngôn ngữ. 1.2. Một số kiến thức về Đại số gia tử 1.2.1. Định nghĩa đại số gia tử Định nghĩa 1.5: [49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký hiệu là AX = (X, G, H, ) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge) còn “” là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần tử hằng 0, 1, W với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hòa (neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ x  X là một hạng từ (term) trong ĐSGT. Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, H, ) gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm hai gia tử tới hạn là  và  với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX* = (X, G, H, , , ). 1.2.2. Một số tính chất của đại số gia tử tuyến tính 1.2.3. Độ đo tính mờ của các giá trị ngôn ngữ Định nghĩa 1.6: [49] Cho AX *= (X, G, H, , , ) là một ĐSGT tuyến tính đầy đủ. Ánh xạ fm: X  [0,1] được gọi là một độ đo tính mờ của các hạng từ trong X nếu: (i) fm là đầy đủ, tức là fm(c-) + fm(c+) =1 và hH fm(hu) = fm(u), uX; 3
(ii) fm(x) = 0, với các x thỏa H(x) = {x} và fm(0) = fm(W) = fm(1) = 0; fm(hx) fm(hy) (iii) x,y  X, h  H, ký hiệu  (h) =  , tỷ số này không fm( x) fm( y) phụ thuộc vào x và y, và nó được gọi là độ đo tính mờ của các gia tử. Mệnh đề 1.1: [49] Với độ đo tính mờ fm và  đã được định nghĩa trong Định nghĩa 1.6, ta có: (i) fm(c-) + fm(c+) = 1 và  hH fm(hx)  fm( x) ; (ii) j 1 q  (h j )   ,  pj1  (h j )   , với  ,  > 0 và  +  = 1; (iii) xX fm( x)  1 , trong đó Xk là tập các hạng từ có độ dài đúng k; k (iv) fm(hx) =  (h).fm(x), và xX, fm(x) = fm(x) = 0; (v) Cho fm(c-), fm(c+) và  (h) với hH, khi đó với x = hn...h1c, c  {c-, c+}, dễ dàng tính được độ đo tính mờ của x như sau: fm(x) =  (hn)... (h1)fm(c). 1.2.4. Định lượng ngữ nghĩa của giá trị ngôn ngữ Định nghĩa 1.8: Một hàm dấu Sign: X  {-1, 0, 1} là một ánh xạ được định nghĩa đệ qui như sau, trong đó h, h'  H và c  {c-, c+}: (i1) Sign(c-) = -1, Sign(c+) = 1; (i2) Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương đối với c; (i3) Sign(h'hx) = -Sign(hx), nếu h'hx  hx và h' âm đối với h; Sign(h'hx) = Sign(hx), nếu h'hx  hx và h' dương đối với h; (i4) Sign(h'hx) = 0, nếu h'hx = hx. Dựa trên định nghĩa hàm dấu để chúng ta so sánh hx và x. Định nghĩa 1.9: Cho AX* là một ĐSGT tuyến tính đầy đủ và fm là một độ đo tính mờ trên X. Ta nói ánh xạ 𝔳𝔛 : X  [0, 1] được cảm sinh bởi độ đo tính mờ fm nếu được định nghĩa bằng đệ qui như sau: (i) 𝔳𝔛 (W)== fm(c-), 𝔳𝔛 (c-)=  –  fm(c-) = .fm(c-), 𝔳𝔛 (c+) =  + fm(c+); (ii) 𝔳𝔛 (hjx) = 𝔳𝔛 (x)+ Sign(h x)   (h ) fm( x)   (h x) (h x) fm( x) , i  sign ( j ) j i  sign ( j ) i j j  (1.5) với mọi j, –q  j  p và j  0, trong đó: 4
 (h j x)  1  Sign(h j x) Sign(hp h j x)(   )  ,   ; 1 2 (iii) 𝔳𝔛 (c-) = 0, 𝔳𝔛 (c-) =  = 𝔳𝔛 (c+), 𝔳𝔛 (c+) = 1, và với mọi j thỏa –q  j  p, j  0, ta có: 𝔳𝔛 (hjx) = 𝔳𝔛 (x) + ijSign Sign( j ) ( j)  (hi ) fm( x) 1  Sign(h j x)  (h j ) fm( x), 1 2 𝔳𝔛 (hjx) = 𝔳𝔛 (x) + Sign(hj x)ijSign Sign( j ) ( j)  (hi ) fm( x) 1  Sign(h j x) (h j ) fm( x). 1 2 1.2.5. Khoảng tính mờ Khoảng tính mờ của các hạng từ x  X, ký hiệu fm(x), là một đoạn con của [0, 1], fm(x)  Itv([0, 1]), độ dài bằng độ đo tính mờ, |fm(x)| = fm(x). 1.2.6. Hệ khoảng tương tự Một khía cạnh khác của ngữ nghĩa định lượng của các hạng từ là khái niệm khoảng tương tự mức k, với k là một số dương xác định chiều dài tối đa của các hạng. Các khoảng tương tự ℭ(𝑥) của các từ trong X(k) hình thành một phân hoạch của U và 𝔳𝔛(x) ℭ(𝑥). Các giá trị của tất cả các khoảng mờ tương tự ℭ(𝑥) được coi như là tương tự với những khoảng khác và với giá trị 𝔳𝔛(x) của x với một cấp độ k. 1.3. Hệ mờ dựa trên luật 1.3.1. Các thành phần của hệ mờ Một FRBS gồm có các thành phần cơ bản sau: cơ sở dữ liệu là các tập của các tập mờ được gán nhãn dùng để xây dựng phân hoạch mờ miền tham chiếu của các biến, FRB là một tập các luật mờ dạng if-then có dạng: rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (q = 1,..,M) (1.6) trong đó Aqj là các tập mờ, M là số luật. Nếu 𝔛n+1 là biến ngôn ngữ thì ta gọi là mô hình mờ Mamdani, 𝔛n+1 là biến thực thì ta gọi là mô hình mờ Takagi- Sugeno. Và hệ suy diễn thực hiện lập luận xấp xỉ dựa trên cơ sở tri thức và các giá trị đầu vào. Với bài toán phân lớp thường sử dụng một trong hai phương pháp single-winner rule hoặc weighted vote. Với bài toán hồi quy thường sử dụng phương pháp trung bình trọng số. 1.3.2. Các mục tiêu khi xây dựng FRBS Khi xây dựng các FRBS hai mục tiêu cần đạt được là hiệu quả thực hiện và tính giải nghĩa được của FRBS. 5
1) Đánh giá hiệu quả thực hiện của FRBS Với bài toán phân lớp được đánh giá dựa trên tỉ lệ phần trăm số mẫu được phân lớp chính xác trên tổng số mẫu dữ liệu kiểm tra. Với bài toán hồi quy, sử dụng độ đo giá trị sai số bình phương trung bình (MSE). Giá trị MSE càng nhỏ thì độ chính xác của FRBS càng cao. 1 MSE   ( yˆ i  y i ) 2 N i 1 (1.12) 2N trong đó yˆ i là giá trị suy diễn từ FRBS với giá trị đầu vào pi, N là số mẫu dữ liệu kiểm tra. 2) Vấn đề tính giải nghĩa được của FRBS Tính giải nghĩa được của FRBS là vấn đề phức tạp, việc lựa chọn một độ đo tính giải nghĩa được hiện tại vẫn là vấn đề mở. Trong một số nghiên cứu cố gắng đánh giá tính giải nghĩa được của FRBS bằng cách phân chia nó theo các mức và thiết lập một tập các ràng buộc ở các mức này. FRBS thỏa mãn càng nhiều ràng buộc thì tính giải nghĩa được càng cao. 1.4. Kết luận chương 1 Trong chương này, luận án đã trình bày tóm tắt những kiến thức cơ sở làm nền tảng phục vụ trong quá trình nghiên cứu. Nó bao gồm những nội dung chính sau đây: lý thuyết tập mờ, lý thuyết của ĐSGT, các thành phần của FRBS. Với những kiến thức cơ sở được trình bày trong chương này là nền tảng để thực hiện các mục tiêu đã đặt ra của luận án. CHƯƠNG 2. PHÁT TRIỂN CÁC THUẬT TOÁN TIẾN HÓA XÂY DỰNG CÁC LRBS GIẢI BÀI TOÁN PHÂN LỚP, HỒI QUY Trong chương này, luận án phát triển các thuật toán xây dựng LRBS, trong đó ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong LRBS được xác định bằng ĐSGT và tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp giải bài toán phân lớp, hồi quy. Các thuật toán thực hiện học đồng thời ngữ nghĩa tính toán của từ ngôn ngữ được biểu diễn bằng tập mờ tam giác, số từ sử dụng trên mỗi biến và cơ sở luật. 2.1 Phát triển thuật toán giải bài toán phân lớp 2.1.1. Bài toán phân lớp Bài toán phân lớp Error! Reference source not found.7, 28, 39, 50]: Cho một tập mẫu dữ liệu D ={ (pi, Ci), i = 1,..,N }, pi là một véc tơ n chiều có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của các 6
biến (thuộc tính) 𝔛j của bài toán, với j = 1,..,n, Ci  C tập các nhãn có m lớp, i = 1,.., m, N là số mẫu dữ liệu. Từ tập mẫu dữ liệu D xây dựng một mô hình cho phép phân lớp bất kỳ mẫu dữ liệu p  U = U1  ...  Un. Giải bài toán bằng FRBS là xây dựng một hệ các luật mờ S, để phân lớp hay ánh xạ từ tập dữ liệu U vào tập các giá trị nhãn lớp trong C. Khi phát triển các thuật toán giải bài toán này, chúng ta phải thực hiện các công việc sau: - Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ) - Sinh tập các luật mờ ứng cử - Tìm kiếm hệ luật mờ tối ưu S từ tập các luật mờ ứng cử Trong chương này chúng tôi đề xuất thuật toán được goi là OPHA-SGERD gồm hai pha: - Pha 1 thiết kế các tập từ ngôn ngữ sử dụng trong LRRB bằng việc phát triển thuật toán OP-PARHA dựa trên thuật giải di truyền (GA) đề tìm các bộ tham số tính mờ tối ứu của ĐSGT. - Pha 2 tìm kiếm hệ luật tối ưu bằng việc phát triển thuật toán HA- OFRB dựa trên thuật giải di truyền. Trong cả hai pha, tập luật ứng cử được sinh ra bằng thuật toán HA- SGERD được phát triển dựa trên ĐSGT, thuật toán SGERD và một trong các tiêu chuẩn chọn luật trong mục 2.1.3. Trong đó hàm mục tiêu của các giải thuật GA là f(S) = wp.fp(S) + wn.fn(S)-1 + wa.fa(S)-1  max, ở đây 0 < wp, wn, wa < 1 và wp+wn+wa = 1, fp(S) là hàm đánh giá hiệu quả phân lớp, fn(S) là số luật và fa(S) là độ dài trung bình của vế trái trong hệ luật S. 2.1.2 Thuật toán OPHA-SGERD 1) Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ) Phân hoạch mờ được thiết kế dựa trên ngữ nghĩa định lượng của các từ ngôn ngữ Aji (i=1,..,|Xj|) được sinh ra từ một ĐSGT tuyến tính AXj tương ứng với biến 𝔛j. 1 0 Vc- c- Lc- W Lc+ c+ Vc+ 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Hình 2.1. Một phân hoạch mờ đơn thể hạt được xây dựng dựa trên ĐSGT 7
2) Các tiêu chuẩn chọn luật Tiêu chuẩn được xác định bằng hiệu giữa tổng độ đốt cháy luật của các mẫu dữ liệu được đoán nhận chính xác và không chính xác: f ( Aq  Cq )    A ( p i )    A ( pi ) j (2.3) q piClassCq piClassCq Tiêu chuẩn (2.4) cải tiến tiêu chuẩn (2.3) với việc bổ sung tham số ngưỡng để ước lượng không gian quyết định của luật: f ( Aq  Cq )    A ( p i )    A ( p i )   j (1   q ) (2.4) trong đó q là số mẫu j q pi ClassCq pi ClassCq dữ liệu có độ đốt cháy luật rq cao hơn q. q là tham số ngưỡng được xác định như sau  q  0.5 với lq là độ dài của luật rq. lq Tiêu chuẩn (2.5) thay  q  0.5 trong (2.4) bằng  q   với  (0, 1) lq lq được tối ưu trong quá trình tiến hóa f ( Aq  Cq )    ( pi )    ( p i )   q (1   ) (2.5). Trong đó lq Aj Aq piClassCq piClassCq q là số mẫu dữ liệu có độ đốt cháy luật rq lớn hơn  l . q 3) Thuật toán sinh hệ luật ứng cử Để sinh tập luật ứng cử chúng tôi phát triển thuật toán HA-SGERD dựa trên thuật toán SGERD trong [39] với phân hoạch mờ miền tham chiếu của các biến được xây dựng như trong mục 2.1.2. Thuật toán này sinh ra tập luật ứng cử rất nhỏ. 4) Thuật toán OP-PARHA thiết kế ngôn ngữ Thiết kế ngôn ngữ là đi tìm bộ tham số tính mờ tối ưu của ĐSGT. Giả thiết mỗi biến 𝔛j chỉ có 2 gia tử, một gia tử dương (Vj) và một gia tử âm (Lj). Khi đó việc tối ưu tham số của ĐSGT cho mỗi tập dữ liệu là đi tìm bộ tham số tối ưu op ={( o fmc  , o L , okj, o): j = 1,..,n} với tiêu chuẩn chọn luật j j (2.5) hoặc op ={( o fmc j  , o L , okj) : j=1,..,n} với tiêu chuẩn còn lại. j Để tìm tham số tính mờ tối ưu của ĐSGT, chúng tôi thiết kế thuật toán OP-PARHA dựa trên giải thuật di truyền với sơ đồ mã hóa nhị phân. Và hàm mục tiêu perf(R, D) là hiệu quả phân lớp của hệ luật R trên toàn bộ tập mẫu dữ liệu D, R được sinh ra từ HA-SGERD. Các toán tử đột biến, lại ghép và lựa chọn quần thể cho thế hệ kế tiếp được thừa kế trong [5]. 5) Thuật toán HA-OFRB tối ưu hệ luật Với bộ tham số tối ưu tìm được bằng thuật toán OP-PARHA, áp dụng 8
thuật toán HA-SGERD để sinh ra m*Q luật ứng cử R. Chúng tôi thiết kế thuật toán HA-OFRB dựa trên GA với sơ đồ mã hóa nhị phân để tìm kiếm hệ luật con S tối ưu từ tập R. 2.1.3. Kết quả thử nghiệm Thực hiện thử nghiệm thuật toán được đề xuất với các tiêu chuẩn chọn luật trong mục 2.1.3, đối sánh kết quả thực hiện đạt được của các tiêu chuẩn này và đối sánh với thuật toán trong [39]. Kết quả thử nghiệm được tổng hợp trong các bảng 2.3, 2.4, 2.5 và 2.6. Bảng 2.3 Kết quả thử nghiệm thuật Bảng 2.4 Kết quả thử nghiệm thuật toán OPHA-SGERD và thuật toán toán OPHA-SGERD và thuât toán SGERD với tiêu chuẩn (2.3) SGERD với tiêu chuẩn (2.4) Perf (%) #Nar #Nal Perf (%) #Nar #Nal T ập dữ liệu T ập dữ liệu OPHA- OPHA- OPHA- OPHA- OPHA- OPHA- SGERD SGERD SGERD SGERD SGERD SGERD SGERD SGERD SGERD SGERD SGERD SGERD Cance r 96.29 96.42 5.38 6.00 1.17 1.33 Cancer 97.02 96.42 3.96 5.00 2.31 2.40 Glass 62.90 68.22 11.52 12.00 1.85 2.83 Glass 63.38 73.36 10.22 11.00 2.13 2.45 Iris 96.93 96.67 4.00 4.00 1.01 1.25 Iris 96.40 97.33 4.30 5.00 1.95 1.80 Pima 74.64 77.34 6.12 7.00 1.42 1.43 Pima 73.08 76.95 7.76 8.00 7.18 2.50 Sonar 77.20 82.21 4.29 6.00 1.14 1.50 Sonar 75.20 79.81 5.96 5.00 5.17 3.80 Wine 95.52 96.07 7.12 8.00 1.39 2.13 Wine 96.19 96.63 6.14 7.00 3.56 2.43 Image 83.52 86.19 11.44 11.00 2.18 2.45 Image 86.10 86.76 9.28 14.00 4.56 2.57 Vowe l 49.68 51.72 30 29.00 3.04 3.03 Vowel 58.53 55.25 33.78 30.00 3.88 2.57 Ye ast 49.84 53.77 22.36 20.00 2.85 2.90 Yeast 56.53 54.18 21.50 20.00 5.50 2.95 Bảng 2.5 Kết quả thử nghiệm thuật Bảng 2.6 Kết quả thử nghiệm toán OPHA-SGERD với tiêu chuẩn thuật toán OPHA-SGERD với ba chọn luật (2.5) và thuật toán SGERD tiểu chuẩn (2.3), (2.4), (2.5) với tiêu chuẩn (2.4) Perf (%) #Nar #Nal Perf (%) T ập dữ T ập dữ liệu liệu SGERD OPHA- SGERD OPHA- SGERD OPHA- (2.3) (2.4) (2.5) SGERD SGERD SGERD Cance r 97.02 96.42 3.96 6.00 2.31 1.83 Cancer 96.42 96.42 96.42 Glass 63.38 73.83 10.22 11.00 2.13 3.73 Glass 68.22 73.36 73.83 Iris 96.40 97.33 4.30 4.00 1.95 1.50 Iris 96.67 97.33 97.33 Pima 73.08 77.34 7.76 7.00 7.18 2.29 Pima 77.34 76.95 77.34 Sonar 75.20 78.85 5.96 5.00 5.17 4.40 Sonar 82.21 79.81 78.85 Wine 96.19 97.19 6.14 8.00 3.56 2.75 Wine 96.07 96.63 97.19 Image 86.10 86.19 9.28 12.00 4.56 4.00 Image 86.19 86.76 86.19 Vowe l 58.53 57.37 33.78 34.00 3.88 3.44 Vowel 51.72 55.25 57.37 Ye ast 56.53 55.73 21.50 19.00 5.50 3.53 Yeast 53.77 54.18 55.73 Từ các bảng tổng hợp kết quả thử nghiệm chúng tôi có thể khẳng định thuật toán được đề xuất với tiêu chuẩn chọn luật cải tiến (2.5) trong luận án tạo ra các LRBS có độ chính xác và tính giải nghĩa được được định nghĩa dựa trên độ phức tạp tốt hơn thuật toán SGERD và tiêu chuẩn chọn luật 9
(2.5) tốt hơn các tiêu chuẩn (2.3), (2.4). 2.2. Phát triển thuật toán giải bài toán hồi quy 2.2.1. Bài toán hồi quy Cho một tập mẫu dữ liệu D ={(pi, yi), i = 1,..,N }, pi là một véc tơ n chiều có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1,..,n; yi  Un+1  R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu ra) 𝔛n+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ cho phép tính giá trị yˆ  Un+1 ứng với mỗi giá trị đầu vào p  U = U1  ...  Un . Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để ánh xạ tập dữ liệu đầu vào U vào tập dữ liệu đầu ra Un+1 bằng một phương pháp lập luận xấp xỉ. Khi xây dựng các FRBS cho bài toán hồi quy, các luật sử dụng trong RB thường là luật mờ Mamdani. Trong chương này luận án đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán này. Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp. 2.2.2. Thuật toán HA-PAES-SG Thuật toán cho phép học đồng thời ngữ nghĩa tính toán của từ được biểu diễn bằng tập mờ dạng tam giác, số từ ngôn ngữ sử dụng cho mỗi biến và cơ sở luật. Hàm sinh luật (GenerateRule) từ mẫu dữ liệu tương tự như trong [v]. Với phương pháp sinh luật này sẽ làm giảm không gian tìm kiếm các luật phải xem xét rất nhiều so với sinh luật bằng tổ hợp tất cả các từ sử dụng cho các biến. 1) Phát triển thuật toán a. Mã hóa cá thể: Giả thiết mỗi biến 𝔛j chỉ có một gia tử dương Vj (Very), một gia tử âm Lj (Little) và mục tiêu cần tối ưu là tham số tập mờ, số từ ngôn ngữ và cơ sở luật. Khi đó mỗi cá thể của quần thể được mã hóa gồm ba phần (Cµ, Ck , CRB) xem hình 2.3. Trong đó Cµ, Ck, CRB lần lượt biểu diễn các tham số tính mờ của các ĐSGT, độ dài tối đa của các từ và cơ sở luật. Hình 2.3. Cấu trúc mã hóa một cá thể 10
Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp Comp được xác định theo (1.13). b. Các toán tử di truyền - Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB. Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến luôn xảy trên nó. - Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và độc lập trên Cµ, Ck và CRB. Trên Cµ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên trong các khoảng được xác định trước cho các tham số. Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ qua. Trên CRB: Chúng ta áp dụng một trong hai toán tử 1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB 2) Toán tử 𝔬m2 bổ sung  luật vào CRB Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một. Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa luật này. Định nghĩa 2.1: Luật rq được gọi là luật không chuẩn nếu j sao cho từ Aq , j là điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn hơn kj. Nếu luật rq không chuẩn do điều kiện tiền đề tương ứng với từ Aq , j gây nên thì bỏ các gia tử bên trái của Aq , j để được từ Aq' , j có độ dài đúng bằng kj.. c. Thuật toán tiến hóa đa mục tiêu: Tương tự như trong [8-10, 12-15], chúng tôi áp dụng lược đồ tiến hóa (2+2)M-PAES trong [16]. 2) Kết quả thử nghiệm Bảng 2.8 Các tham số thử nghiệm  min = fmmin =0.3,  max =fmmax = 0.7 PAdd = 0.75 Pinc_k = 0.5 11
𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5,  max = 5 𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵 = 0.1 archiveSize = 64, MaxGen = 300,000 Mmin = 5, Mmax = 50 Chúng tôi tiến hành thử nghiệm thuật toán HA-PAES-SG trên máy tính tương tự như thử nghiệm trong [14] trên 6 tập dữ liệu hồi quy với các tham số trong bảng 2.8. Các kết được quả tổng hợp và trình bày trong các bảng 2.9. Từ bảng 2.9 cho thấy giá trị MSE của thuật toán HA-PAES-SG tốt hơn trên 5 tập dữ liệu trên cả tập huấn luyện và tập kiểm tra, ngoại trừ ELE thấp hơn trên tập huấn luyện. Ở đây có sự khác biệt lớn về độ chính xác giữa thuật toán của chúng tôi với các thuật toán được so sánh. Bên cạnh đó độ phức tạp của các LRBS cũng thấp hơn trên 5 tập dữ liệu. Chiều dài trung bình của luật (Comp/#R) trong LRBS được tạo ra từ thuật toán HA-PAES- SG ngắn hơn nhiều so với với các thuật toán trong [14]. Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán (2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST Tập dữ liệu Thuật toán #R Comp MSETr SDtr ttr MSETs SDts tts (2+2)M -PAES(I) 34.480 68.210 13660.200 1851.500 = 15768.600 3239.900 = ELE (2+2)M -PAES(C) 24.240 96.480 13539.800 3764.700 * 15278.800 4129.000 = HA-PAES-SG 34.966 75.414 13732.337 2499.690 = 14969.681 4010.176 * (2+2)M -PAES(I) 20.200 75.160 1.911 0.381 + 1.997 0.298 + WA (2+2)M -PAES(C) 15.270 98.650 1.694 0.489 + 2.094 0.973 + HA-PAES-SG 24.100 58.000 1.265 0.175 * 1.383 0.229 * (2+2)M -PAES(I) 17.830 61.810 1.474 0.343 + 1.647 0.343 + WI (2+2)M -PAES(C) 13.120 83.550 1.441 0.276 + 1.556 0.243 + HA-PAES-SG 24.167 57.833 0.873 0.102 * 1.034 0.161 * (2+2)M -PAES(I) 40.360 130.280 2.565 0.341 + 4.185 1.352 = M PG6 (2+2)M -PAES(C) 48.030 121.660 2.820 0.428 + 4.304 1.365 = HA-PAES-SG 47.700 112.033 2.153 0.192 * 4.036 1.117 * (2+2)M -PAES(I) 48.530 184.000 0.748 0.098 + 0.934 0.175 = STP (2+2)M -PAES(C) 49.420 181.730 0.795 0.225 + 1.046 0.309 + HA-PAES-SG 49.100 146.700 0.567 0.109 * 0.720 0.192 * (2+2)M -PAES(I) 25.100 103.920 0.056 0.020 = 0.100 0.097 = TR (2+2)M -PAES(C) 19.100 147.000 0.066 0.025 = 0.132 0.132 = HA-PAES-SG 29.267 62.267 0.038 0.014 * 0.068 0.094 * 2.2.3. Thuật toán HA-PAES-MG Trong phần này chúng tôi phát triển một thuật toán được gọi là HA- PAES-MG (MG) nó thì tương tự như thuật toán HA-PAES-SG (SG). Tuy 12
nhiên ở thuật toán này chúng tôi đề xuất một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng phân hoạch mờ đa thể hạt mới (hình 2.6). Hình 2.5. Một thiết kế phân hoạch Hình 2.6. Một thiết kế phân hoạch mờ đa thể hạt trong [50] với độ dài mờ đa thể hạt được đề xuất mới với tối đa của từ là 2. độ dài tối đa của từ là 2. Chúng tôi tiến hành thử nghiệm thuật toán MG tương tự như trong [10] với các tham số được cho trong bảng 2.8, ở đây tham số Mmax = 30. Kết quả thử nghiệm được đối sánh với thuật toán SG và PAESKB trong [10] (viết tắt là KB). Tổng hợp các kết quả thử nghiệm tại điểm FIRST và kết quả trung bình tại điểm MEDIAN, LAST được trình bày trong bảng 2.11. Chúng tôi tiến hành đối sánh bằng phương pháp phân tích thống kê Wilcoxon test trên giá trị độ phức tạp (Comp) và sai số bình phương trung bình trên tập kiểm tra MSEts với giả thiết H0 = “Không có sự khác biệt giữa hai phương pháp được đối sánh”. Kết quả phân tích thống kê được tổng hợp trong các bảng 2.12 và 2.13. Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES- SG (SG) và PAES KB (KB) tại điểm FIRST #R Comp MSEts SD’tr MSEts SD’ts dữ liệu Tập MG SG KB MG SG KB MG SG KB MG SG KB MG SG Diff SG KB Diff KB MG SG KB ELE1 20.40 22.63 27.00 35.03 35.87 46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128 ELE2 24.43 26.67 30.00 57.17 59.07 65.00 9821 18,589 11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246 WA 22.80 24.13 28.00 69.67 58.27 103.00 0.97 1.26 1.64 0.085 0.137 0.024 1.06 1.38 -0.231 3.92 -0.729 0.108 0.163 2.365 WI 23.33 24.17 25.00 72.57 57.83 91.00 0.74 0.87 1.30 0.103 0.115 0.208 0.87 1.03 -0.158 1.49 -0.415 0.144 0.153 0.174 TR 15.00 14.73 11.00 37.60 24.50 40.00 0.08 0.05 0.08 3.233 0.314 0.500 0.10 0.09 0.081 0.14 -0.317 3.050 1.567 1.071 AB 12.87 26.27 29.00 31.43 59.67 107.00 2.40 2.35 2.32 0.048 0.040 0.034 2.447 2.453 -0.002 2.48 -0.013 0.074 0.074 0.073 MTG 13.00 17.73 12.00 25.97 28.37 49.00 0.016 0.017 0.05 0.239 0.259 0.400 0.023 0.023 -0.005 0.09 -0.749 0.847 0.398 1.111 CA 10.57 15.00 10.00 29.90 45.07 30.00 4.76 4.73 11.99 0.139 0.192 0.249 4.95 4.99 -0.007 13.43 -0.631 0.137 0.193 0.347 PT 11.20 26.40 14.00 35.83 67.77 53.00 75.87 82.87 87.00 0.282 0.185 0.299 78.23 87.02 -0.101 89.00 -0.121 0.289 0.200 0.281 Mean 17.07 21.97 20.67 43.91 48.49 64.89 0.472 0.182 0.221 -0.104 -0.342 0.559 0.369 0.644 FIRST Mean MED 10.81 14.52 12.6 21.27 25.89 25.8 0.460 0.250 0.261 -0.152 -0.33 0.492 0.490 0.587 Mean LAST 5.01 6.30 5.00 5.81 8.07 5.00 0.414 0.768 0.527 -0.479 -0.365 0.451 0.816 0.654 Từ bảng 2.13 cho thấy có sự khác biệt thống kê trên giá trị MSEts giữa thuật toán MG với hai thuật toán được so sánh. Từ đây chúng ta có thể kết 13
luận rằng thuật toán MG có thể tạo ra các LRBS có độ chính xác cao hơn và phân hoạch mờ dạng đa thể hạt tốt hơn dạng đơn thể hạt. Từ bảng 2.11 và bảng kết quả phân tích thống kế 2.12 cho thấy, độ phức tạp của LRBS được tạo ra từ thuật toán thuật toán MG thấp hơn các thuật toán được so sánh. Mặc dù thuật toán MG và các thuật toán được đối sánh được phát triển trên cùng một lược đồ tiến hóa (2+2)M-PAES nhưng MG có thể tạo ra các LRBS tốt hơn trên cả hai mục tiêu tính giải nghĩa được và độ chính xác. Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện VS R+ R Exact P-value Confid. -interval Hypoth. (H 0) HA-PAES-SG 30.0 15.0 ≥ 0.2 [-16.92 , 11.4] Not Rejected The FIRST point PAESKB 45.0 0.0 0.003906 [-43.27 , -5.535] Rejected HA-PAES-SG 40.0 5.0 0.03906 [-9.08 , -0.03] Rejected The MEDIAN point PAESKB 37.0 8.0 0.09766 [-11.3 , 0.9] Not Rejected HA-PAES-SG 44.0 1.0 0.007812 [-3.965 , -0.6] Rejected The LAST point PAESKB 0.0 45.0 ≥ 0.2 [0.07 , 1.585] Not Rejected Bảng 2.13 So sánh trung bình phương sai (MSEts ) bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện VS R+ R Exact P-value Confid. -interval Hypoth. (H 0) HA-PAES-SG 40.0 5.0 0.03906 [0.002 , 0.2355] Rejected The FIRST point PAESKB 45.0 0.0 0.003906 [0.0655 , 0.631] Rejected HA-PAES-SG 43.0 2.0 0.011718 [0.029 , 0.313] Rejected The MEDIAN point PAESKB 42.0 3.0 0.019532 [0.0475 , 0.649] Rejected HA-PAES-SG 45.0 0.0 0.003906 [0.2875 , 0.642] Rejected The LAST point PAESKB 45.0 0.0 0.003906 [0.013 , 0.696] Rejected 2.3. Kết luận chương 2 Trong chương này luận án đã đề xuất các thuật toán giải bài toán phân lớp, hồi quy bằng LRBS. NNTT của các từ được xác định bằng ĐSGT và được điều chỉnh thông qua tham số mờ của ĐSGT. Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD trong [39] để sinh luật ứng cử, số luật ứng cử sinh ra rất nhỏ so với phương pháp sinh luật bằng tổ hợp hoặc từ dữ liệu [50, 52]. Kết quả thử nghiệm cho thấy thuật toán tạo ra các LRBS có tính giải nghĩa được và độ chính xác cao hơn thuật toán được so sánh. Các thuật toán SG và MG xây dựng các LRBS giải bài toán hồi quy, thực hiện tối ưu đồng thời NNTT của từ, số từ sử dụng cho mỗi biến và RB nhưng không gian tìm kiếm giảm đi đáng kể do sinh luật từ mẫu dữ liệu và điều chỉnh ngữ nghĩa tính toán bằng ĐSGT. Các kết quả thử nghiệm được so sánh với các thuật toán đề xuất trong [14] và [10] cho thấy các thuật toán 14
được phát triển trong luận án tốt hơn trên cả hai mục tiêu. Từ kết quả phân tích thống kê có thể kết luận rằng thiết kế NNTT của từ ngôn ngữ bằng cấu trúc dạng đa thể hạt tốt hơn dạng đơn thể hạt. CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG 3.1. Vấn đề tính giải nghĩa được của FRBS Vấn đề tính giải nghĩa được của FRBS là bài toán chưa được giải quyết bằng một phương pháp luận nhất quán giữa các cách tiếp cận hiện tại và với phương pháp nghiên cứu trong lô gic truyền thống. Các tiếp cận giải quyết vấn đề này chủ yếu dựa trên trực quan để đưa ra các ràng buộc ở các mức khác nhau của FRBS. Trong chương này luận án đề xuất một hướng tiếp cận mới dựa trên ý tưởng của logic truyền thống và ĐSGT giải quyết một phần vấn đề này. Trước khi trình bày chi tiết các ràng buộc, luận án trình bày một số khái niệm mới. 3.2. Khái niệm khung nhận thức và khung nhận thức ngôn ngữ 3.2.1. Khung nhận thức và tính giài nghĩa được của nó Theo Mencar và Fanelli trong [41] một khung nhận thức (Frame of Cognition- FoC) 𝔉 của biến 𝔛 là một tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của 𝔛, và được gán cho các nhãn ngôn ngữ tương ứng trong 𝔛. Các nhãn ngôn ngữ kết hợp với các tập mờ tương ứng trong một FoC 𝔉 của 𝔛 được người dùng sử dụng để mô tả các tính chất của các thực thể dưới dạng ngôn ngữ. Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn ngôn ngữ của 𝔉 tới NNTT của chúng. Một FoC 𝔉 là giải nghĩa được nếu người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn ngữ tương ứng. 3.2.2. Khung nhận thức ngôn ngữ Thay vì sử dụng khái niệm FoC như các phương pháp tiếp cận dựa trên lý thuyết tập mờ, luận án đưa ra khái niệm khung nhận thức ngôn ngữ (Linguistic Frame of Cognition – LFoC) trong hướng tiếp cận dựa trên ĐSGT. Một LFoC được xem như là một tập các từ ngôn ngữ mà ở đó mỗi từ có ngữ nghĩa của riêng và một FoC chỉ được xem như là một phương 15
pháp biểu diễn NNTT tương ứng với LFoC. Chúng ta có định nghĩa hình thức sau đây. Định nghĩa 3.1: [v] Một LFoC 𝔉 của một biến 𝔛, là một tập từ của 𝔛 được sinh ra từ các phần tử sinh {0, c, W, c+, 1} và tập H các gia tử của người dùng thỏa mãn các điều kiện sau: (i) {0, c, W, c+, 1}  𝔉; (ii) hx  𝔉  (h’  H) (h’x  𝔉) (hoặc tất cả các từ hx, h H, phải cùng thuộc vào 𝔉, hoặc không); (iii) x  𝔉 & x = hx’ & h  H  x’  𝔉 (đóng đối với việc lấy tổ tiên của nó). 3.3. Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC 3.3.1. Ràng buộc ngữ nghĩa vốn có của từ Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ, bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB. Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc tính toán đủ giầu. Trên quan điểm toán học, các tập mờ được gắn với các từ chỉ là ảnh tính toán tương ứng. Nó được gán bởi người thiết kế LRBS, trong khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ. 3.3.2. Ràng buộc phương pháp xác định NNTT của từ Chúng ta thấy rằng miền từ của các biến ngôn ngữ phải được hình thức hóa và các phương pháp xây dựng LRBS chủ yếu được phát triển dựa trên các thuật toán tiến hóa. Vì vậy, để thuận lợi cho việc phát triển thuật toán thì phải có các thủ tục để xác định NNTT của từ, điều khiển, kiểm soát quá trình hiệu chỉnh ngữ nghĩa của từ nhằm đảm bảo tính giải nghĩa được LRBS ở mức từ. Từ yêu cầu này, chúng tôi đưa ra ràng buộc sau đây: Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ, phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát triển dựa trên chính phương pháp hình thức đó. 3.3.3. Ràng buộc ngữ nghĩa khoảng của từ Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ vào nhiều phần tử khác nhau trong thế giới thực. Vì vậy, Nguyễn Cát Hồ và cộng sự đã gọi khía cạnh ngữ nghĩa này là ‘ngữ nghĩa khoảng’ của từ. 16
Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn tính khái quát và tính đặc tả của các từ. Kí hiệu: 𝔖 là tập từ của một LFoC của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛. Ràng buộc 3: [v] Cho một tập từ 𝔖 của một LFoC của một biến 𝔛, phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát và tính đặc tả giữa các từ, tức là với bất kỳ hai từ x, hx  𝔖, trong đó h là một gia tử thì (hx)  𝔄(x). Ví dụ: (very very tall)  (very tall)  (tall) 3.3.4. Ràng buộc ngữ nghĩa thứ tự của từ Xét các biến ngôn ngữ 𝔛j với j = 1,.., n+1, và một luật mờ rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1). Trong [50, 52] Nguyễn Cát Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và đặc biệt để con người làm quyết định. Theo chúng tôi thì bất kỳ luật ngôn ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét về phương diện quan hệ ngữ nghĩa thứ tự của chúng. Do đó ngữ nghĩa của luật rq phải được định nghĩa trên quan hệ ngữ nghĩa thứ tự của các miền từ của các biến. Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho các từ của các biến 𝔛 có mặt trong luật phải chuyển tải được ngữ nghĩa thứ tự của các từ tới các tập mờ (ký hiệu là C(𝔛)) của các luật. Cụ thể, chúng tôi yêu cầu ℑ như là một ánh xạ, phải bảo toàn cấu trúc dựa trên thứ tự của miền từ của 𝔛, tức là ℑ phải là một song ánh. Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự của các luật ngôn ngữ, phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) của các từ của biến 𝔛 trong các luật phải bảo toàn ngữ nghĩa thứ tự của các từ của 𝔛 bằng một định nghĩa quan hệ thứ tự ≼ phù hợp trên C(𝔛) và ℑ phải là một song ánh. Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good) 3.4. Biểu diễn NNTT dựa trên tập mờ của các từ trong LFoC 3.4.1. Biểu diễn đơn thể hạt của LFoC Đặt 𝔉𝔛 là một LFoC của 𝔛 thỏa mãn định nghĩa 3.1 và 𝔳𝔛 là một ánh xạ định lượng ngữ nghĩa được xác định bởi bộ giá trị tham số tính mờ fm(c) và  (h), h  H \{hp} cho trước. Khi đó biểu diễn đơn thể hạt của một LFoC có thể được xây dựng như hình 2.1 là một ví dụ. 17
Để kiểm tra tính đúng đắn và tính giải nghĩa được của LFoC, luận án xem xét 𝔉𝔛 thỏa mãn những ràng buộc nào được đề xuất trong mục 3.3. Trước hết, chúng ta định nghĩa một quan hệ thứ tự trên các tập mờ tam giác, mỗi tập mờ được mô tả bằng bộ ba tham số (a, b, c). Định nghĩa 3.2: [v] Với hai tập mờ tam giác bất kỳ được xác định bằng bộ ba giá trị (a, b, c) và (d, e, f) được định nghĩa trên tập vũ trụ đã chuẩn hóa về đoạn [0, 1] của biến 𝔛. Các tập mờ (a, b, c) và (d, e, f) có quan hệ thứ tự (a, b, c) ≼ (d, e, f) nếu thỏa mãn một trong những điều kiện sau đây: (i) Thứ tự mạnh ≼ s : (a, b, c)≼ s (d, e, f) khi và chỉ khi b < e & a < d & c < f; (ii) Thứ tự trung bình ≼ m: (a, b, c) ≼ m (d, e, f) khi và chỉ khi b < e & (a < d & c ≥f hoặc c < f & a ≥d); (iii) Thứ tự yếu ≼ w (ít nhất một trong hai là tam giác vuông nằm ở vị trí 0 hoặc 1 của vũ trụ): (a, b, c) ≼ w (d, e, f) khi và chỉ khi một trong các điều kiện sau thỏa mãn: (aD) (b = e = a = d = 0  c < f); (bD) (b = e = c = f = 1  a < d); (cD) ((a > d & c = f = e = 1) hoặc (c > f & a = d = b = 0))  b < e. Định lý 3.1: [v] Xét một biến 𝔛 và miền từ tương ứng, X = Dom(𝔛), khi đó nó được xem như là một ĐSGT, AX = (X, G, C, H, ). Cho các giá trị tham số tính mờ của 𝔛, fm(c) và  (h), h  H \ {hp}, biểu diễn đơn thể hạt của 𝔉𝔛 được xây dựng bằng thủ tục ở trên có các tính chất sau: (i) Biểu diễn đơn thể hạt được xác định duy nhất, và thỏa mãn các ràng buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức là bảo toàn thứ tự các từ của 𝔉𝔛 với quan hệ thứ tự ≼ trong định nghĩa 3.2. (iii) Không thỏa mãn ràng buộc 3, do độ hỗ trợ của tập mờ tam giác (ngữ nghĩa khoảng) được gán cho các từ không bảo toàn tính khái quát và tính đặc tả của các từ của 𝔉𝔛. 3.4.2. Biểu diễn đa thể hạt của LFoC Giả sử X = Dom(𝔛), tập hợp của tất cả các từ của 𝔛, được chia thành các tập Xk , k = 0 đến, mỗi tập bao gồm các từ cùng mức đặc tả. Hình 2.6 là một ví dụ minh họa cấu trúc đa thể hạt được phát triển trong luận án. Định lý 3.2: [v] Xét một biến 𝔛 và miền hạng từ của nó, X = Dom(𝔛), nó được xem như là một ĐSGT AX = (X, G, C, H, ) của 𝔛. Với các giá trị 18