Luận án Tiến sỹ Toán học: Nghiên cứu tính giải nghĩa được của hệ mờ theo ngữ nghĩa thế giới thực

Chia sẻ: Lê Thị Hồng Nhung | Ngày: | Loại File: PDF | Số trang:116

Thêm vào BST

Báo xấu

49
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung luận án là nghiên cứu vấn đề tính giải nghĩa được của FRBS theo hướng tiếp cận dựa trên ĐSGT và đề xuất thêm một số ràng buộc, định nghĩa, định lý theo hướng tiếp cận này. Nghiên cứu cách tiếp cận dựa trên khả năng giải nghĩa theo thế giới thực đối với vấn đề tính giải nghĩa được của hệ mờ. Trong luận án này, sẽ phân tích sâu và thiết thực hơn về tính giải nghĩa của các lý thuyết hình thức bao gồm các ngôn ngữ tự nhiên của con người nói chung và các hệ mờ được hình thức hoá nói riêng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sỹ Toán học: Nghiên cứu tính giải nghĩa được của hệ mờ theo ngữ nghĩa thế giới thực

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN THU ANH Tên đề tài : Nghiên cứu tính giải nghĩa được của hệ mờ theo ngữ nghĩa thế giới thực LUẬN ÁN TIẾN SĨ TOÁN HỌC Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62.46.01.10 Người hướng dẫn khoa học: TS. Trần Thái Sơn Hà Nội – 2019
LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác. Tác giả Nguyễn Thu Anh 1
LỜI CẢM ƠN Luận án được hoàn thành dưới sự hướng dẫn tận tình và nghiêm khắc của TS.Trần Thái Sơn. Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới Thầy. Xin chân thành gửi lời cảm ơn tới PGS. TSKH. Nguyễn Cát Hồ về những đóng góp quý báu trong quá trình nghiên cứu cũng như trong thời gian hoàn thành luận án. Tác giả xin chân thành gửi lời cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin, Bộ phận đào tạo, Phòng Các hệ chuyên gia và tính toán mềm đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án. Cảm ơn các anh chị phòng Các hệ chuyên gia và tính toán mềm - Viện Công nghệ thông tin, nhóm nghiên cứu về đại số gia tử đã động viên và trao đổi kinh nghiệm để tác giả có thể hoàn thành luận án. Cuối cùng, tác giả xin chân thành cảm ơn các thành viên trong Gia đình, những người luôn dành cho tác giả những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên trong Gia đình. 2
MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT.......................................................5 DANH MỤC CÁC HÌNH VÀ BẢNG BIỂU ..................................................................7 CHƯƠNG I : NHỮNG KIẾN THỨC CƠ SỞ ..........................................................18 I.1. Tập mờ và các phép toán trên tập mờ ................................................................ 18 I.1.1.Tập mờ .......................................................................................................18 I.1.2.Các phép toán trên tập mờ..........................................................................19 1) Phép khử mờ ................................................................................................ 19 2) Phép kết nhập ............................................................................................... 20 3) Phép kéo theo mờ .........................................................................................21 4) Phép hợp thành các quan hệ mờ ..................................................................22 I.2. Biến ngôn ngữ ....................................................................................................23 I.3. Phân hoạch mờ ...................................................................................................24 I.4. Mô hình mờ ........................................................................................................25 I.5. Hệ dựa trên luật mờ (Hệ mờ) .............................................................................26 1) Các thành phần của hệ mờ .............................................................................26 2) Các mục tiêu khi xây dựng FRBS ...................................................................27 3) Ứng dụng của hệ mờ ......................................................................................29 I.6. Đại số gia tử. .......................................................................................................32 1) Khái niệm Đại số gia tử .................................................................................32 2) Một số tính chất của Đại số gia tử tuyến tính ................................................33 3) Độ đo tính mờ của các giá trị ngôn ngữ ........................................................34 4) Khoảng tính mờ .............................................................................................. 37 5) Định lượng ngữ nghĩa của giá trị ngôn ngữ ..................................................38 I.7. Kết luận chương 1 .............................................................................................. 40 CHƯƠNG 2. TÍNH GIẢI NGHĨA ĐƯỢC CỦA KHUNG NHẬN THỨC NGÔN NGỮ TRONG CÁC HỆ MỜ NGÔN NGỮ.............................................................. 41 II.1.Mở đầu ................................................................................................................41 II.2.Tính giải nghĩa được của LRBSs ở mức từ ngôn ngữ ........................................44 II.2.1.Lược đồ giải bài toán tính giải nghĩa được của biểu diễn tính toán khung nhận thức ngôn ngữ .................................................................................47 3
II.2.2.Ràng buộc về tính giải nghĩa được của việc biểu diễn ngữ nghĩa của các từ của biến ....................................................................................................50 II.2.3.Bổ sung ràng buộc trên biểu diễn tính toán của các khung NTNN ..........55 II.3.Giải nghĩa tính toán của LFoCs với tập mờ tam giác/ hình thang .....................58 II.4.Kết luận chương 2 .............................................................................................. 63 CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC THEO NGỮ NGHĨA THẾ GIỚI THỰC CỦA CÁC BIỂU THỨC NGÔN NGỮ ........................................................65 III.1.Mở đầu ..............................................................................................................65 III.2.Tính giải nghĩa được theo ngữ nghĩa thế giới thực của miền từ các biến ngôn ngữ .....................................................................................................................67 III.2.1.Khái niệm mới về tính giải nghĩa được theo ngữ nghĩa thế giới thực (RWS) của các lý thuyết hình thức .....................................................................68 III.2.2.Tính giải nghĩa được ngữ nghĩa thế giới thực của ngôn ngữ tự nhiên của con người và đại số gia tử các biến ngôn ngữ..............................................77 III.3.Tính giải nghĩa được ngữ nghĩa thế giới thực của các thành phần cấu thành của các hệ mờ ............................................................................................................80 III.3.1.Tính giải nghĩa được theo ngữ nghĩa thế giới thực của các khung nhận thức ngôn ngữ LFoCs .........................................................................................81 III.3.2.Khả năng giải nghĩa được theo ngữ nghĩa thế giới thực đối với biểu diễn tính toán của LRB và ARM ........................................................................85 III.4.Về tính giải nghĩa được theo ngữ nghĩa thế giới thực của các biểu thức, phương pháp luận hay các lý thuyết ngôn ngữ mờ ...................................................90 III.4.1.Kiểm tra tính giải nghĩa được theo ngữ nghĩa thế giới thực của một số biểu thức mờ của lý thuyết tập mờ .....................................................................90 III.4.2.Phương pháp biểu diễn đồ thị của các cơ sở luật ngôn ngữ và tính giải nghĩa được theo ngữ nghĩa thế giới thực của nó ................................................96 III.4.3.Phương pháp lập luận xấp xỉ thực hiện trên biểu diễn đồ thị của các cơ sở luật ngôn ngữ ...............................................................................................100 III.5.Kết luận chương 3 ...........................................................................................105 KẾT LUẬN CỦA LUẬN ÁN ................................................................................106 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ..........................................................................................................................109 4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu: AX Đại số gia tử tuyến tính AX * Đại số gia tử tuyến tính đầy đủ (h) Độ đo tính mờ của gia tử h fm(x) Độ đo tính mờ của hạng từ x Hàm định lượng của giá trị ngôn ngữ của biến A(x) Hàm xác định độ thuộc của giá trị x vào tập mờ A l(x) Độ dài của từ ngôn ngữ x fm Khoảng tính mờ của giá trị ngôn ngữ Xk Tập các hạng từ có độ dài đúng k X(k) Tập tất cả các hạng từ có độ dài  k Comp Độ phức tạp của hệ luật C(𝒳) Tập hợp các đối tượng tính toán core(x) Lõi ngữ nghĩa của từ x ℐint Ngữ nghĩa khoảng của từ ℐfuz Giải nghĩa tập mờ của từ ℐtrp Ngữ nghĩa bộ ba của từ CS Không gian tính toán CSw Không gian tính toán thích hợp với thế giới thực W Sw Cấu trúc của thế giới thực con W Các từ viết tắt: DB Database ĐSGT Đại số gia tử FoC Frame of Cognitive FRBS Fuzzy Rule-based System FRB Fuzzy Rule-based 5
RB Rule-based KB Knowledge Base LRBS Linguistic Rule-based System LRB Linguistic Rule-based LFoC Liguistic Frame of Cognitive MF Membership Function SQM Semantically Quantifying Mapping RWS Real World Semantics LE Liguistic Expression CE Computational Expression FSyst Fuzzy System ARM Approximate Reasoning Method 6
DANH MỤC CÁC HÌNH VÀ BẢNG BIỂU Các hình Hình 1.1. Tập mờ hình thang ....................................................................... 19 Hình 1.2. Một cấu trúc phân hoạch mờ dạng đơn thể hạt ............................ 25 Hình 1.3. Một cấu trúc phân hoạch mờ dạng đa thể hạt .............................. 25 Hình 1.4. Bộ bốn (a,b,c,d) biểu diễn cho hàm thuộc dạng hình thang của tập mờ ................................................................................................................. 31 Hình 1.5. Cấu trúc thứ bậc đa thể hạt phân tách mô hình tính mờ của các từ ngôn ngữ dựa trên quan hệ chung-riêng (generality-spcificity) qua tác động của các gia tử ................................................................................................. 34 Hình 1.6. Cấu trúc thứ bậc các khoảng tính mờ của các từ ngôn ngữ của biến 𝒳 được xác định bởi ánh xạ đẳng cấu f và các mô hình tính mờ của chúng 35 Hình 1.7. Độ đo tính mờ của biến TRUTH ................................................ 36 Hình 1.8. Khoảng tính mờ của các hạng từ của biến TRUTH ................... 38 Hình 2.1. Lược đồ giải nghĩa tính toán I của LFoC .................................... 47 Hình 2.2. ..................................................................................................... 54 (a) Ví dụ về hai tam giác có thứ tự theo điều kiện (ii):(a, b, d) ≼m (a', b', d') (b) Ví dụ về hai tam giác có thứ tự theo điều kiện (iii): (a, b, d) ≼w (a', b', d') Hình 2.3. Đa thể hạt với tập mờ tam giác/hình thang của các từ trong LFoC 𝔉 .................................................................................................................. 60 Hình 3.1. Mối quan hệ giữa các lý thuyết hình thức, các mô hình và ứng dụng của chúng và các thế giới con của thế giới thực tương ứng................. 68 Hình 3.2. Lược đồ giải quyết vấn đề giải nghĩa được RWS ........................ 75 Hình 3.3. Biểu diễn đa thể hạt tam giác/hình thang giải nghĩa RWS của XTUỔI,(2) ........................................................................................................... 84 Hình 3.4. Hợp của 2 tập mờ của biến CHIỀU_CAO .................................. 92 7
Hình 3.5. Biểu diễn tính toán của các luật r1 và r15 của LRB ℛℬ được đưa ra trong Bảng 3.1 .............................................................................................. 95 Hình 3.6. Biểu diễn đồ thị số của LRB đi qua 9 điểm .............................. 102 Bảng biểu Bảng 3.1. FRB đơn giản cho bộ truyền động tầng thứ nhất ....................... 94 8
MỞ ĐẦU Trong những thập niên gần đây khoa học và công nghệ phát triển rất mạnh mẽ, đã sản sinh ra nhiều thiết bị máy móc hỗ trợ cho con người trong mọi lĩnh vực của sống. Trong một số lĩnh vực, chúng ta mong muốn máy móc có thể mô phỏng được hành vi, khả năng lập luận như con người và đưa ra cho con người những gợi ý tin cậy trong quá trình ra quyết định. Một đặc trưng nổi bật của con người là khả năng suy luận trên cơ sở tri thức được hình thành từ cuộc sống và biểu thị bằng ngôn ngữ tự nhiên. Do đó máy móc muốn hành xử như con người thì nó phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ. Đây là một bài toán rất phức tạp, vì vậy để giải quyết yêu cầu này các nhà khoa học đã và đang nghiên cứu cả về lý thuyết lẫn ứng dụng với mục đích đưa ra các phương pháp nhằm mô phỏng khả năng lập luận của con người trên các thiết bị máy móc. Do đặc trưng của ngôn ngữ là tính mờ, vì vậy bài toán đầu tiên cần phải giải quyết đó là làm thế nào để hình thức hóa toán học các vấn đề ngữ nghĩa ngôn ngữ và xử lý ngữ nghĩa ngôn ngữ mà con người thường thao tác trong cuộc sống. Trước những yêu cầu đặt ra đó, năm 1965 Lotfi A. Zadeh là người đầu tiên đặt nền móng trong lĩnh vực này trong [62]. Ý tưởng của ông là ngữ nghĩa của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm đó gọi là tập mờ trên U. Vì vậy, với mỗi tập mờ ứng với một từ mờ vốn không tính toán được trở thành một đối tượng toán học hoàn toàn có thể tính toán được. Dựa trên lý thuyết tập mờ, hệ dựa trên luật mờ (Fuzzy Rule Based System - FRBS) đã được phát triển và trở thành một trong những công cụ mô phỏng gần gũi phương pháp suy luận và lấy quyết định của con người nhất. FRBS đã thu được nhiều thành công trong giải quyết các bài toán thực tiễn như bài toán điều khiển, bài toán phân lớp, bài toán hồi quy, bài toán trích rút ngôn ngữ... FRBS được phát triển trên nền tảng lý thuyết tập mờ và logic mờ, với thành phần cơ bản là các luật mờ dạng if-then là một trong những phương tiện khá tốt mô phỏng khả năng lập luận của con người trong giải quyết các vấn đề phức tạp với những thông tin không chắc chắn, có tính mơ hồ. Các 9
FRBS thường được xây dựng tự động từ các sự kiện trong thế giới thực hoặc trên cơ sở tri thức của các chuyên gia, hoặc kết hợp cả hai phương pháp. Khi xây dựng các FRBS, chúng ta cần đạt được hai mục tiêu là độ chính xác (accuracy) và tính giải nghĩa được (interpretability). Đây là hai mục tiêu xung đột nhau, làm tăng mục tiêu này thì phải giảm mục tiêu kia. Vì vậy, khi xây dựng các FRBS các thuật toán được đề xuất luôn phải hướng tới đảm bảo sự cân bằng giữa hai mục tiêu này. Trong những năm đầu ứng dụng FRBS, người ta chủ yếu quan tâm đến độ chính xác. Mục tiêu tính giải nghĩa được của FRBS được quan tâm nhiều hơn khi FRBS được ứng dụng vào các lĩnh vực mà ở đó con người là trung tâm, ví dụ: y tế, tâm lý học, kinh tế, ngôn ngữ học [19]. Trong những lĩnh vực này các FRBS được xem như là các hộp xám (gray-boxes). Và ở đây đặt ra yêu cầu là các FRBS khi được ứng dụng thì người dùng có thể kiểm tra và hiểu được tất cả các thành phần của nó [24]. Vì vậy, trong những năm gần đây vấn đề tính giải nghĩa được của FRBS trở thành một chủ đề “nóng” được nhiều nhà khoa học tập trung nghiên cứu. Ví dụ như Alonso và cộng sự [24], Antonelli và các cộng sự [16], Cordon [17], Gacto và cộng sự [18], Ishibuchi và Nojima [34], Mencar và các cộng sự [28] [19], Nauck [42], de Oliveira [48], Pulkkinen và. Koivisto [21], Zhou và Gan [29]. Mục tiêu độ chính xác của FRBS đã có định nghĩa bằng công thức toán học để đánh giá như thế nào là một FRBS tốt. Với bài toán phân lớp, độ chính xác được đo bằng tỉ lệ phần trăm giữa số mẫu dữ liệu được phân lớp chính xác trên số mẫu dữ liệu được kiểm tra, tỉ lệ này càng cao càng tốt. Với bài toán hồi quy độ chính xác được đo bằng giá trị trung bình phương sai (Mean Square Error viết tắt là MSE) giữa giá trị đầu ra được lập luận bằng FRBS với giá trị đầu ra cho trước của mẫu dữ liệu, giá trị này càng nhỏ càng tốt. Về tính giải nghĩa được của FRBS, trong [19] Mencar cho rằng “Tính giải nghĩa được là vấn đề chính khi thiết kế các hệ thống dựa trên tính toán với từ (Computing With Word - CWW), thiếu tính giải nghĩa được sẽ làm thiệt hại đến những lợi ích của CWW. Nếu FRBS không có tính giải nghĩa được thì thay thế bằng các phương pháp thuần số học sẽ mang lại hiệu quả cao hơn”. Do đó những năm gần đây mục tiêu tính giải nghĩa được được các 10
nhà nghiên cứu quan tâm nhiều hơn khi thiết kế FRBS. Tính giải nghĩa được không phải là một tính chất, nó liên quan đến nhiều yếu tố khác nhau. Hiện tại chúng ta vẫn chưa có một tiêu chuẩn toán học để mô tả chính xác khái niệm này trong lý thuyết tập mờ, và vẫn còn nhiều quan điểm khác nhau, ngay cả các thuật ngữ để chỉ tính giải nghĩa được cũng chưa thống nhất, như thuật ngũ tính dễ hiểu (intelligibility), tính trong suốt (transparence), tính dễ đọc (readability), …, các thuật ngữ này có khi được sử dụng đồng nghĩa và thay thế cho nhau [17]. Trong một số nghiên cứu, các tác giả đã cố gắng đánh giá tính giải nghĩa được của các FRBS bằng cách phân chia các yếu tố liên quan đến nó theo từng nhóm và thiết lập một tập các ràng buộc ở các mức khác nhau. Tính giải nghĩa được được đánh giá dựa trên mức độ thỏa mãn những ràng buộc này. Trong [18] Gacto cho rằng hiện tại có hai hương tiếp cận chính về tính giải nghĩa được. Hướng thứ nhất dựa trên độ phức tạp (Complexity-based Interpretability), hướng này tập trung vào việc làm giảm độ phức tạp của mô hình đạt được, thường sử dụng các độ đo như số luật, số biến, độ dài của luật, số từ sử dụng cho một biến,…. Hướng thứ hai dựa trên ngữ nghĩa (Semantics-based Interpretability), hướng này tập trung vào đảm bảo tính toàn vẹn ngữ nghĩa của các nhãn ngôn ngữ, được thể hiện bằng các tập mờ được thiết kế cho FRBS và ngữ nghĩa của luật. Một hướng tiếp cận khác được Mencar và các cộng sự đề xuất trong [19], được gọi là phương pháp tiếp cận dựa trên độ đo tương tự để đánh giá tính giải nghĩa được của các luật mờ dựa trên ngữ nghĩa. Ý tưởng của họ là hiện tại có hai cách nhìn vào các luật mờ. Cách nhìn thứ nhất, mỗi luật mờ được xem như là một biểu thức ngôn ngữ, bao gồm các từ và từ nối của một ngôn ngữ và nó được gọi là luật ngôn ngữ. Cách nhìn thứ hai, luật mờ được xem như là một biểu thức của các tập mờ, bao gồm các tập mờ và các toán tử trên các tập mờ. Tính giải nghĩa được của các luật mờ được đo bằng độ tương tự giữa tri thức được biểu diễn bằng biểu thức tập mờ và biểu thức ngôn ngữ trong ngôn ngữ tự nhiên (tri thức mà người dùng thu nhận được khi đọc luật mờ). Theo hiểu biết của chúng tôi, đây là lần đầu tiên đưa ra một ý tưởng mới để đánh giá tính giải nghĩa được của các luật mờ. Tuy nhiên, việc xác định độ đo tương tự của tri thức như vậy là một bài toán khó, khi ngữ nghĩa tính toán của các từ và từ nối giữa chúng không được định nghĩa bằng một phương pháp hình 11
thức đầy đủ dựa trên ngữ nghĩa vốn có của từ. Vì thế, có thể phải tìm kiếm một hướng tiếp cận mới cho vấn đề này mà ở đó ngữ nghĩa tính toán của từ được định nghĩa bằng một phương pháp hình thức đầy đủ dựa trên ngữ nghĩa vốn có của từ. Năm 2017, một cách tiếp cận mới đối với khả năng giải nghĩa được của hệ mờ, đó là cách tiếp cận dựa trên tính giải nghĩa theo ngữ nghĩa thế giới thực (Real-world-semantics-based approach – RWS- approach) lần đầu tiên đã được đề xuất và bước đầu được khảo sát trong [5] bởi N.C. Hồ và cộng sự. Cách tiếp cận này dựa trên các ngữ nghĩa mang tính chất thế giới thực của các từ và các mối quan hệ giữa ngữ nghĩa của các thành phần hệ mờ với các cấu trúc phần tương ứng trong thế giới thực. Cụ thể, cách tiếp cận theo ngữ nghĩa thế giới thực đề cập đến mối quan hệ giữa ba thực thể: (1) một hệ thống mờ, được coi là một biểu thức hình thức; (2) mô hình của nó, đó là hình ảnh tính toán của biểu thức hình thức và (3) cấu trúc thế giới thực của nó. Tính giải nghĩa theo ngữ nghĩa thế giới thực của biểu thức tính toán biểu diễn một thành phần hệ thống mờ được đảm bảo bởi các ràng buộc được đề xuất từ hiện thực tương ứng của nó. Cách tiếp cận ngữ nghĩa thế giới thực thiết lập một cơ sở hình thức để thu hẹp khoảng cách giữa ngữ nghĩa tính toán của một hệ thống được thiết kế bởi người thiết kế và ngữ nghĩa thực sự của tất cả các thành phần hệ thống, bao gồm khung nhận thức ngôn ngữ (LFoCs), cơ sở luật ngôn ngữ (FRBs) và phương pháp lập luận xấp xỉ (ARM), được xác định trong ngữ cảnh thế giới thực mà nó liên quan. Vì ngữ nghĩa của bất kỳ biểu thức hoặc lý thuyết hình thức nào (kể cả lý thuyết toán học) phải được định nghĩa trong quan hệ chặt chẽ với thực tế liên quan, luôn có khoảng cách mà người phát triển phải vượt qua để đảm bảo theo rằng lý thuyết được mô hình hoá phù hợp với phần tương ứng của nó trong thế giới thực. Do đó, câu hỏi làm thế nào để đảm bảo tính giải nghĩa được theo ngữ nghĩa thế giới thực trong ngữ cảnh của lý thuyết tập mờ vẫn là một vấn đề mở. Một số câu hỏi được các tác giả trong [5] chỉ ra nhưng chúng phải được khảo sát kỹ hơn, ví dụ như vấn đề về tính giải nghĩa theo ngữ nghĩa thế giới thực của phương pháp lập luận xấp xỉ. 12
Các phương pháp xây dựng FRBS từ dữ liệu theo hướng tiếp cận dựa trên lý thuyết tập mờ, do thiếu một liên kết hình thức đầy đủ giữa các tập mờ biểu diễn ngữ nghĩa tính toán của từ với ngữ nghĩa vốn có của nó và các từ sử dụng trong FRBS chỉ được xem như là các nhãn hay là các ký hiệu gán cho các tập mờ tương ứng, rất khó có thể chuyển tải được đầy đủ ngữ nghĩa tiềm ẩn (underlying semantics) như các từ ngôn ngữ tự nhiên. Điều này làm cho tính giải nghĩa được của các FRBS giảm đi đáng kể so với các FRBS mà các từ sử dụng trong nó là các từ ngôn ngữ tự nhiên(trong [9] gọi là Linguistic Rule Based System - LRBS). Thêm vào đó khi thực hiện tìm kiếm các FRBS tối ưu, các phương pháp này thường phải tìm kiếm trong không gian luật và không gian tham số của tập mờ rất lớn. Vì ở đây các tập mờ chỉ có thể xác định được bằng một bộ các tham số độc lập hoặc một tham số và mối quan hệ với tập mờ liền kề. Chẳng hạn, trong trường hợp sử dụng tập mờ tam giác, mỗi tập mờ được biểu diễn bằng bộ 3 tham số, khi đó số chiều của không gian tìm kiếm tham số là 3Tn cho các biến đầu vào, trong đó n là số chiều của bài toán và T là số từ sử dụng cho mỗi biến. Trong trường hợp tập mờ tam giác được xác định bằng một tham số xác định lõi và lõi của các tập mờ liền kề xác định độ hỗ trợ của nó thì không gian tìm kiếm tham số là T*n chiều cho các biến đầu vào (T  2). Để giảm không gian tìm kiếm, các phương pháp dựa trên lý thuyết tập mờ phải đưa ra một số ràng buộc trên tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp. Chẳng hạn như yêu cầu giới hạn số tập mờ có thể sử dụng T trên mỗi biến không quá 72 [63], hoặc số tập mờ sử dụng trong tất cả các biến ngôn ngữ phải tương đương nhau, hoặc số luật tối đa trong các RB không quá lớn. Giới hạn này không phù hợp vì trong thực tế khi con người hình thành các luật ngôn ngữ họ có thể lựa chọn bất kỳ từ nào trong ngôn ngữ của họ mà nó phù hợp với luật cần xây dựng, và số các luật trong miền tri thức của họ nhìn chung là lớn. Để khắc phục phần nào những hạn chế của hướng tiếp cận dựa trên lý thuyết tập mờ, Nguyen và Wechler đã đề xuất một hướng tiếp cận đại số được gọi là Đại số gia tử (ĐSGT) cho vấn đề ngữ nghĩa tính toán của các từ ngôn ngữ [58] [56]. Trong [58] [43] [35] Nguyen và cộng sự chỉ ra rằng, ngữ nghĩa tính toán của từ phải được định nghĩa dựa trên ngữ nghĩa thứ tự vốn có 13
của các từ của biến, và các miền từ của các biến thiết lập một cấu trúc dựa trên thứ tự là đủ giầu để giải các bài toán thực tế. Phương pháp luận ở đây là mỗi miền từ trở thành một cấu trúc toán học. Việc gán ngữ nghĩa tính toán cho các từ của một biến bằng các tập mờ được xem như là một ánh xạ. Về nguyên tắc, nó phải là một đẳng cấu từ miền từ với cấu trúc tính toán yếu vào một cấu trúc tính toán đủ giầu [35] và phải bảo toàn những tính chất quan trong và cần thiết của từ, chẳng hạn như cấu trúc thứ tự, tính khái quát và tính đặc tả. Đại số gia tử hình thành một phương pháp tiếp cận đại số đối với ngữ nghĩa vốn có của các từ của một biến ngôn ngữ. Nó thiết lập một phương pháp hình thức đầy đủ và đúng đắn để liên kết ngữ nghĩa định lượng (ngữ nghĩa tính toán) của các từ bao gồm cả ngữ nghĩa dựa trên tập mờ với ngữ nghĩa vốn có của từ ngôn ngữ. Với phương pháp tiếp cận này, chúng ta chỉ cần một bộ độ đo tính mờ của các từ của một biến đủ để xác định những đặc tính định lượng khác nhau của từ như: khoảng tính mờ, khoảng tương tự, giá trị ngữ nghĩa định lượng (hoặc ngữ nghĩa số), và ngữ nghĩa dựa trên tập mờ. Do đó khi phát triển các thuật toán tối ưu xây dựng các FRBS từ tập dữ liệu theo hướng tiếp cận dựa trên ĐSGT thì không gian tìm kiếm các tham số tập mờ giảm đi đáng kể so với các thuật toán được phát triển theo hướng tiếp cận dựa trên lý thuyết tập mờ. Bên cạnh đó, các từ xuất hiện trong FRBS là các từ ngôn ngữ tự nhiên. Do đó, nó có thể chuyển tải được ngữ nghĩa tiềm ẩn và làm cho FRBS tăng tính dễ giải nghĩa với người dùng. Với cách tiếp cận này, các tác giả trong [9] khởi tạo một hướng đánh giá tính giải nghĩa được của FRBS mới, với ý tưởng tương tự như logic truyền thống, tập trung nghiên cứu và đưa ra các ràng buộc tính giải nghĩa được của FRBS ở mức phân hoạch mờ. Để thực hiện việc này, các tác giả đưa khái niệm khung nhận thức ngôn ngữ (LFoC) trên cơ sở khái niệm khung nhận thức (FoC) và lý thuyết ĐSGT, đã đề xuất 4 ràng buộc: - Ràng buộc 1 về vai trò ngữ nghĩa tính toán của của từ, nhằm bảo toàn ngữ nghĩa vốn có của từ trong cơ sở luật. - Ràng buộc 2 về ngữ nghĩa tính toán của từ, nhằm đưa ra một yêu cầu ngữ nghĩa tính toán của từ phải được xây dựng bằng một phương pháp hình thức đầy đủ trên miền từ của biến ngôn ngữ. 14
- Ràng buộc 3 về ngữ nghĩa khoảng của từ, nhằm bảo toàn tính khái quát và tính đặc tả của từ trong miền từ của biến ngôn ngữ. - Ràng buộc 4 về ngữ nghĩa thứ tự của từ, nhằm đòi hỏi phép gán ngữ nghĩa cho các từ phải bảo toàn ngữ nghĩa thứ tự vốn có của từ. Trên cơ sở các ràng buộc, đề xuất phương pháp thiết kế ngữ nghĩa tính toán của từ dạng cấu trúc đa thể hạt (multi granularity) cho các từ của một LFoC thỏa mãn những ràng buộc đã được đề xuất. Những ràng buộc trên đều xuất phát từ ngữ nghĩa vốn có của từ và là những yêu cầu rất tự nhiên khi làm việc với từ. Các FRBS thỏa mãn các ràng buộc này sẽ có tính giải nghĩa cao hơn do ngữ nghĩa của các từ sử dụng trong FRBS được xây dựng trên cơ sở ngữ nghĩa tự nhiên vốn có của nó. Với mong muốn được tiếp tục các nghiên cứu về vấn đề giải nghĩa được của FRBSs theo cách tiếp cận ngữ nghĩa thế giới thực, cũng như áp dụng đại số gia tử để giải bài toán về tính giải nghĩa được, Luận án đặt ra mục tiêu là tập trung vào thực hiện các nội dung sau: - Nghiên cứu vấn đề tính giải nghĩa được của FRBS theo hướng tiếp cận dựa trên ĐSGT và đề xuất thêm một số ràng buộc, định nghĩa, định lý theo hướng tiếp cận này. - Nghiên cứu cách tiếp cận dựa trên khả năng giải nghĩa theo thế giới thực đối với vấn đề tính giải nghĩa được của hệ mờ. Trong luận án này, chúng tôi sẽ phân tích sâu và thiết thực hơn về tính giải nghĩa của các lý thuyết hình thức bao gồm các ngôn ngữ tự nhiên của con người nói chung và các hệ mờ được hình thức hoá nói riêng. Theo mục tiêu đặt ra ở trên, Luận án đã đạt được một số kết quả chính có thể khái quát như sau:  Nghiên cứu, phân tích phép giải nghĩa như là việc nghiên cứu mối quan hệ giữa ngữ nghĩa thế giới thực của các biểu thức ngôn ngữ và ngữ nghĩa tính toán của biểu thức tính toán gán cho biểu thức ngôn ngữ. Trên cơ sở ý tưởng này, đề xuất lược đồ giải bài toán tính giải nghĩa được của biểu diễn tính toán của các khung nhận thức ngôn ngữ (khung NTNN), trong đó khâu phát hiện ngữ nghĩa cấu trúc của khung NTNN có ý nghĩa quan trọng. 15
 Thay cho việc đưa ra các ràng buộc đối với tập mờ được thiết kế để bảo đảm tính giải nghĩa được của các hệ mờ như trong các nghiên cứu hiện nay, LA nghiên cứu đề xuất các ràng buộc đối với các phép giải nghĩa được xây dựng để chuyển tải, bảo toàn các khía cạnh ngữ nghĩa mong muốn của khung NTNN cho các hệ mờ.  Ứng dụng phương pháp tiếp cận ĐSGT giải bài toán tính giải nghĩa được của biểu diễn tính toán của các khung NTNN bằng việc xây dựng cấu trúc đa thể hạt các tập mờ tam giác hay các tập mờ hình thang. Các tính chất quan trọng của ngữ nghĩa cấu trúc của khung NTNN là các quan hệ thứ tự, quan hệ chung-riêng gắn kết với chức năng nghĩa của các gia tử và lõi ngữ nghĩa của các từ ngôn ngữ. Chúng dẫn đến các ràng buộc đối với việc biểu diễn tính toán khung NTNN áp đặt lên các phép giải nghĩa được nghiên cứu. Đã chứng minh các phép giải nghĩa thỏa tất cả hay một phần những ràng buộc đã thảo luận và đề xuất.  Làm rõ thêm về tính giải nghĩa theo ngữ nghĩa thế giới thực của các ngôn ngữ tự nhiên của con người, các miền từ của các biến và vai trò cơ bản của nó trong việc kiểm tra khả năng giải nghĩa ngữ nghĩa thế giới thực của các thành phần của hệ thống mờ.  Chứng minh rằng các đại số tập mờ tiêu chuẩn không phải là giải nghĩa được ngữ nghĩa thế giới thực.  Đề xuất một phương pháp hình thức hoá để giải quyết sự giải nghĩa ngữ nghĩa thế giới thực của các hệ thống mờ trong trường hợp hai và n biến đầu vào. Bố cục của luận án gồm: phần mở đầu, 3 chương, phần kết luận và tài liệu tham khảo. Kết quả chính của LA tập trung ở chương 2 và 3. Cụ thể: Chương 1 trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá trình nghiên cứu và những đề xuất mới của LA. Các khái niệm của lý thuyết tập mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ. Trình bày những nội dung cơ bản của lý thuyết ĐSGT như: khái niệm ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa (SQM), hệ khoảng tương tự. Trình bày tóm tắt về hệ mờ, ứng dụng của hệ mờ và tính giải nghĩa được của nó. 16
Chương 2 bàn luận về vấn đề tính giải nghĩa được của Khung nhận thức ngôn ngữ, trình bày khái niệm khung nhận thức, và phát biểu định nghĩa khung nhận thức ngôn ngữ (LFoC). Trình bày hướng tiếp cận giải quyết vấn đề tính giải nghĩa được của FRBS dựa trên ĐSGT, các ràng buộc trên khung nhận thức ngôn ngữ, như ràng buộc ngữ nghĩa của từ, ràng buộc phương pháp xác định ngữ nghĩa tính toán của từ, ràng buộc trên ngữ nghĩa khoảng của từ và ràng buộc ngữ nghĩa thứ tự của từ. Cũng trong chương này, LA đề xuất thêm các ràng buộc như ràng buộc về lõi ngữ nghĩa, ràng buộc về ngữ nghĩa khoảng và khoảng lõi, ràng buộc về ngữ nghĩa tập mờ của từ, phương pháp thiết kế ngữ nghĩa tính toán dạng cấu trúc đa thể hạt cho từ ngôn ngữ của LFoC, thỏa mãn những ràng buộc đã được đề xuất. Phát biểu và chứng minh các định lý về tính đúng đắn và sự thỏa mãn các ràng buộc mới. Chương 3 thảo luận chi tiết hơn về vấn đề tính giải nghĩa được theo thế giới thực của các hệ thống mờ, làm rõ thêm sự giải nghĩa RWS của các ngôn ngữ tự nhiên của con người và các miền từ của các biến và vai trò cơ bản của nó trong việc kiểm tra khả năng giải nghĩa RWS của các thành phần của hệ thống mờ. Kiểm tra khả năng giải nghĩa của RWS về các hoạt động cơ bản của lý thuyết tập mờ được định hướng lần đầu tiên để trả lời cho câu hỏi liệu lý thuyết này có phải là giải nghĩa được RWS hay không. Đề xuất một khả năng giải quyết sự giải nghĩa RWS của một số phương pháp lý luận xấp xỉ dựa trên lý thuyết đại số gia tử và lý thuyết định lượng của chúng. 17
CHƯƠNG I : NHỮNG KIẾN THỨC CƠ SỞ I.1. Tập mờ và các phép toán trên tập mờ Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [62] và được phát triển mạnh mẽ từ đó đến nay. Trong mục này chúng tôi chỉ trình bày một số khái niệm và phép toán cần thiết cho LA. I.1.1. Tập mờ Khái niệm tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic mờ. Theo đó, ngữ nghĩa của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm đó gọi là tập mờ trên U. Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiểu nhị phân, một phần tử hoặc thuộc hoặc không thuộc về tập hợp đó. Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong đoạn [0, 1]. Định nghĩa 1.1. [62] Cho U là vũ trụ các đối tượng. Tập mờ A trên U là tập các cặp có thứ tự (x, A(x)), với A(x) là hàm từ U vào [0,1] gán cho mỗi phần tử x thuộc U giá trị A(x) phản ánh mức độ của x thuộc vào tập mờ A. Nếu A(x) = 0 thì ta nói x hoàn toàn không thuộc vào tập A, ngoài ra nếu A(x) = 1 thì ta nói x thuộc hoàn toàn vào A. Trong Định nghĩa 1.1, hàm  còn được gọi là hàm thuộc (membership function). Một số hàm thuộc thông dụng trong ứng dụng của lý thuyết tập mờ: - Dạng tam giác: A(x) = max(min((x-a)/(b-a),(c-x)/(c-b)),1), - Dạng hình thang: A(x) = max(min((x-a)/(b-a),(d-x)/(d-c),1),1), - Dạng Gauss: A(x) = exp(-(c-x)2/(22)),... trong đó a, b, c, d, ,... là các tham số của hàm thuộc tương ứng. 18
Có nhiều dạng hàm thuộc để biểu diễn cho tập mờ A, mà trong đó dạng hình thang, hình tam giác và hình chuông là thông dụng nhất. Sau đây là một ví dụ về hàm thuộc được cho ở dạng hình thang. Ví dụ 1.1. Cho A là một tập mờ, A có thể được biểu diễn dưới dạng hình thang với hàm thuộc liên tục A(x) như sau: 0, x  a  x  a   , a  x  b  b  a     A ( x; a, b, c, d )  1, b  x  c , xR d  x   , c  x  d d  c  0, x  d  trong đó a, b, c, d là các số thực và a ≤ b ≤ c ≤ d . Hình vẽ tương ứng của hàm thuộc A được mô tả như Hình 1.1. 1 µA 0 a b c d Hình 1.1: Tập mờ hình thang Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được mở rộng cho các tập mờ [3][39][49][46][44]. Theo đó, các phép toán như t-norm, t-conorm, negation và phép kéo theo (implication),... trong lôgíc mờ được đề xuất, nghiên cứu chi tiết cung cấp cho các mô hình ứng dụng giải các bài toán thực tế. I.1.2. Các phép toán trên tập mờ 1) Phép khử mờ Trong điều khiển kỹ thuật, các dữ liệu vào và ra thường là các giá trị số. Giá trị đầu vào được mờ hoá bằng các hàm đặc trưng. Giá trị đầu ra được 19