intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Máy tính: Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:148

27
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Máy tính "Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử" trình bày các nội dung chính sau: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ của miền ngôn ngữ thuộc tính; Phương pháp trích rút câu tóm tắt ngôn ngữ dựa trên Đại số gia tử; Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền kết hợp chiến lược tham lam.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Máy tính: Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- PHẠM THỊ LAN TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội – 2022
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- PHẠM THỊ LAN TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 9 48 01 01 NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TSKH Nguyễn Cát Hồ 2. PGS.TS Hồ Cẩm Hà Hà Nội – 2022
  3. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tác giả NCS Phạm Thị Lan
  4. LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn là PGS.TSKH Nguyễn Cát Hồ và PGS.TS Hồ Cẩm Hà. Trong quá trình nghiên cứu và hoàn thành luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoa học, những kinh nghiệm quý báu trong nghiên cứu từ hai thầy cô. Đặc biệt, thầy cô luôn quan tâm, khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn để hoàn thành luận án. Tác giả xin gửi lời cảm ơn chân thành tới các thầy cô, các phòng ban trong Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điều kiện thuận lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận án. Tác giả xin gửi lời cảm ơn tới các thầy cô và anh chị trong nhóm nghiên cứu Đại số gia tử và ứng dụng đã luôn chia sẻ, động viên và đưa ra góp ý quý báu đối với vấn đề nghiên cứu của tác giả. Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đại học Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Công nghệ thông tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, động viên trong suốt quá trình học tập, nghiên cứu và hoàn thiện bảo vệ luận án. Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trong đại gia đình đã luôn hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lý tốt nhất để thực hiện các nhiệm vụ trong nghiên cứu. Tác giả NCS Phạm Thị Lan
  5. 1 MỤC LỤC DANH MỤC CÁC BẢNG ............................................................................................ 5 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................................... 6 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ....................................................... 8 MỞ ĐẦU ....................................................................................................................... 10 CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ .............................................................. 20 1.1. Một số kiến thức cơ bản về tập mờ .............................................................20 1.1.1. Định nghĩa tập mờ ................................................................................20 1.1.2. Biến ngôn ngữ ......................................................................................21 1.1.3. Phân hoạch mờ .....................................................................................22 1.2. Khung nhận thức dựa trên lý thuyết tập mờ ................................................23 1.2.1. Định nghĩa khung nhận thức ................................................................23 1.2.2. Các ràng buộc về tính giải nghĩa được .................................................24 1.3. Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ...26 1.3.1. Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu .................................................................................................26 1.3.2. Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng ...................29 1.3.3. Trích rút tóm tắt từ cơ sở dữ liệu .........................................................36 1.4. Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu ..........................................38 1.4.1. Giải thuật di truyền giải bài toán trích rút tập tóm tắt ..........................39 1.4.2. Các yếu tố trong mô hình giải thuật di truyền trích rút tập câu tóm tắt ...........................................................................................................................40 1.5. Lý thuyết đại số gia tử .................................................................................41 1.5.1. Cấu trúc đại số cho miền giá trị của biến ngôn ngữ .............................42 1.5.2. Đại số gia tử mở rộng mô hình lõi ngữ nghĩa của hạng từ ..................48 1.6. Kết luận chương 1 .......................................................................................55
  6. 2 CHƯƠNG 2. VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH......................................... 56 2.1. Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ ......................................................................................56 2.2. Vấn đề nội dung thông tin của các câu tóm tắt bằng ngôn ngữ ..................59 2.3. Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử ............................62 2.4. Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC .............................64 2.4.1. Cấu trúc đa ngữ nghĩa trong LFoC.......................................................65 2.4.2. Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC ......................66 2.4.3. Tính mở rộng được của LFoC ..............................................................68 2.5. Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa được của LFoC ............70 2.5.1. Thủ tục xây dựng ngữ nghĩa tính toán cho LFoC ................................70 2.5.2. Tính giải nghĩa được của ngữ nghĩa tính toán với cấu trúc đa thể .......76 2.6. Kết luận chương 2 .......................................................................................82 CHƯƠNG 3. PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ ............................................................................................... 84 3.1. Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên .............................................84 3.2. Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử ............85 3.2.1. Các thành phần chính trong phương pháp đề xuất ...............................86 3.2.2. Tính mở rộng được của phương pháp đề xuất .....................................89 3.3. Thực nghiệm ................................................................................................90 3.3.1. Đánh giá thông tin của câu tóm tắt.......................................................90 3.3.2. Mục tiêu thực hiện thí nghiệm .............................................................91 3.3.3. Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính ......................93 3.3.4. Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng được ...................................................................................................................95
  7. 3 3.3.5. Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu ...........................................................................................................................98 3.3.6. Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho các nhóm mờ .......103 3.4. Kết luận chương 3 .....................................................................................107 CHƯƠNG 4. TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM ............................... 109 4.1. Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa ..109 4.1.1. Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằng ngôn ngữ ...110 4.1.2. Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt ..111 4.2. Bài toán trích rút tập con câu tóm tắt tối ưu ..............................................113 4.3. Giải thuật di truyền trích rút tập câu tóm tắt tối ưu ...................................115 4.3.1. Hàm đánh giá độ thích nghi ...............................................................115 4.3.2. Các phép toán trong mô hình giải thuật di truyền lai Hybrid-GA .....117 4.3.3. Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA và định hướng khắc phục .....................................................................................118 4.4. Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam ...........119 4.4.1. Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt .........................................................................................................................120 4.4.2. Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ .........................................................................................................................121 4.5. Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu ...........................................................................................124 4.5.1. Mã hóa các đối tượng .........................................................................124 4.5.2. Hàm đánh giá độ thích nghi ...............................................................124 4.5.3. Mô hình giải thuật di truyền Greedy-GA ...........................................125 4.6. Thực nghiệm ..............................................................................................127 4.6.1. Cơ sở dữ liệu và dạng câu tóm tắt ......................................................128
  8. 4 4.6.2. Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q....128 4.6.3. Tham số của giải thuật di truyền ........................................................129 4.6.4. Kết quả thực nghiệm ..........................................................................129 4.7. Kết luận chương 4 .....................................................................................131 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................. 133 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ........................................................ 136 TÀI LIỆU THAM KHẢO ........................................................................................... 137
  9. 5 DANH MỤC CÁC BẢNG Bảng 1.1: Dữ liệu ví dụ về 10 công việc ........................................................32 Bảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ ngôn ngữ trong Dom(LƯƠNG) ................................................................................32 Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt .........................37 Bảng 1.4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột ............44 Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB) IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc ..................97 Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) .............................................................................105 Bảng 3.3: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 4 ℱ Q,(4) .............................................................................105 Bảng 3.4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) .............................................................................106 Bảng 3.5: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 4 ℱ Q,(4) .............................................................................106 Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu.......114 Bảng 4.2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quả thực nghiệm mô hình Hybrid-GA trong [38] ..........................................................131
  10. 6 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Ba kiểu tập mờ phổ biến ................................................................21 Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng) ...........................21 Hình 1.3. Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt ...................................................................................................................................23 Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số ................................24 Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa ...............................................................................25 Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt 25 Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu ...................................26 Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn [0,1] của từ lượng hóa tương đối...............................................................................32 Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H = {L, V} ........................................................................................................................46 Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa ..48 Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ .......49 Hình 1.12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+ ..........52 Hình 1.13: Các tập mờ hình thang cho các hạng từ trong X(2) .......................55 Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một cấu trúc tính toán phù hợp .........................................................................................60 Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của trong LFoC: quan hệ thứ tự và quan hệ tính chung – riêng ......................................67 Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ 3 với tập gia tử H = {L, V} .................................................................................................................72 Hình 2.4: Các khoảng tính mờ của các hạng từ trong X(3) sinh từ cấu trúc Đại số gia tử với tập gia tử H = {L, V} ............................................................................74 Hình 2.5: Một phần kết hợp các tập mờ hình thang ở mức k và mức k+1 trên cùng miền tham chiếu [0, 1], với |H−| = |H+| = 2 .......................................................80 Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết đại số gia tử ..................................................................87
  11. 7 Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa trong ℱ Q,1, ℱ Q,2 và ℱ Q,3. ...........................................................................................96 Hình 3.3: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘retired’ AND Y = ‘no’ ............................................................101 Hình 3.4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘student’ AND Y = ‘no’ ...........................................................101 Hình 3.5: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘housemaid’ AND Y = ‘no’ .....................................................101 Hình 4.1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt ..........124 Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa .................................................................................................................................130
  12. 8 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Các ký hiệu Ký hiệu Ý nghĩa UA Miền tham chiếu số của thuộc tính A LDA Miền hạng từ của thuộc tính (biến ngôn ngữ) A AA Cấu trúc đại số gia tử cho thuộc tính A SL Câu tóm tắt bằng ngôn ngữ T Giá trị chân lý (đúng đắn) của câu tóm tắt ℱA Khung nhận thức ngôn ngữ cho thuộc tính A  Mức tính riêng ℱ A, κ Khung nhận thức ngôn ngữ cho thuộc tính A ở mức tính riêng  ℱ A, (κ) Khung nhận thức ngôn ngữ cho thuộc tính A có mức tính riêng không quá  G Quan hệ chung – riêng S≤,G Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng của miền hạng từ của biến ngôn ngữ 𝑭𝜅≤ ,G Cấu trúc đa ngữ nghĩa và phân cấp của khung nhận thức có mức tính riêng  BA Cấu trúc bụi biểu diễn quan hệ ngữ nghĩa các hạng từ trong miền hạng từ của thuộc tính A BA,κ Một thành phần gồm  mức của cấu trúc bụi BA m(x) Độ đo tính mờ của hạng từ x (h) Độ đo tính mờ của gia tử h (x) Khoảng tính mờ của hạng từ x T(ℱ κ) Tập tất cả các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thức ℱ κ (x) Tập mờ biểu diễn ngữ nghĩa cho hạng từ x T(ℱ κ) Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong ℱ κ D Cơ sở dữ liệu quan hệ Mls Phương pháp trích rút các câu tóm tắt bằng ngôn ngữ o(Es) Thành phần kết luận trong một câu tóm tắt o(Fq) Thành phần lọc trong một câu tóm tắt KBD, t Cơ sở tri thức về tập dữ liệu D tại thời điểm t 𝐺𝑛 Độ tốt của một câu tóm tắt 𝐺𝑑 Độ tốt của một tập câu tóm tắt
  13. 9 𝐷𝑒 Độ đa dạng của tập câu tóm tắt Dom(X) Miền hạng từ của từ của biến ngôn ngữ X 𝐹𝑖𝑡 Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền supp(Fq) Độ hỗ trợ cho thành phần lọc Fq St(Q) Trọng số ưu tiên của từ lượng hóa Q Các từ viết tắt Chữ viết tắt Tiếng Anh Tiếng Việt LS Linguistic Summaries Câu tóm tắt bằng ngôn ngữ LSMd Linguistic Summarization Method Phương pháp trích rút tóm tắt ngôn ngữ KDD Knowledge Discovery in Database Khai phá tri thức từ cơ sở dữ liệu FoC Frame of Cognition Khung nhận thức LFoC Linguistic Frame of Cognition Khung nhận thức ngôn ngữ UA Universe of A Miền tham chiếu số của thuộc tính A LDA Linguistic Domain of A Miền hạng từ của thuộc tính (biến ngôn ngữ) A EnHA Enlarge Hedge Algebra Đại số gia tử mở rộng IVQM Interval Value Quatification Ánh xạ định lượng ngữ nghĩa Mapping khoảng RW Real world Thế giới thực LS-CP Linguistic Summarization-Content Bài toán nội dung thông tin câu Problem tóm tắt FRBS Fuzzy rule based system Hệ dựa trên luật mờ fs-REP fuzzy set – representation Biểu diễn bằng tập mờ HA-TFS-MG Hedge Algebra – Trapezoid Fuzzy Các tập mờ hình thang với cấu Set – Multi Granualarity trúc đa thể hạt xây dựng từ tham số định lượng của cấu trúc đại số gia tử Greedy-GA Greedy genetic algorithm Giải thuật di truyền kết hợp chiến lược tham lam
  14. 10 MỞ ĐẦU 1. Tính cấp thiết của đề tài và động lực nghiên cứu Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập và lưu trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm ẩn từ tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu. Nhiều phương pháp khác nhau đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữ liệu hay cơ sở dữ liệu. Trong đó, phương pháp tính toán mềm nói chung và tập mờ nói riêng là một hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụng trong thực tế [1, 2]. Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận cho phép phát triển các phương pháp khai phá dữ liệu mà kết quả có thể là những tri thức được diễn đạt bằng ngôn ngữ tự nhiên. Vì ngôn ngữ tự nhiên là phương tiện giao tiếp hàng ngày của con người, nên dạng tri thức bằng ngôn ngữ tự nhiên có ưu điểm là dễ hiểu, dễ sử dụng cho mọi đối tượng người dùng. Hơn nữa, chúng có thể được phát thanh tự động hoặc được sử dụng trong các hệ sản sinh báo cáo văn bản tự động. Do đó, hướng nghiên cứu trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ tập dữ liệu là có tính thời sự và ý nghĩa khoa học cũng như thực tiễn. Các phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã đạt được nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiều lớp bài toán khác nhau. Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ và xây dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toán hồi quy và các bài toán điều khiển mờ. Trong các bài toán này, thực chất hệ luật ngôn ngữ là phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyết định được dựa trên tri thức ngôn ngữ. Hiệu quả của các phương pháp giải chúng được đánh bằng định lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bình phương trung bình (Mean Squared Error - MSE). Do đó, nội dung thông tin của các tri thức trong hệ luật ngôn ngữ chưa được xem xét và coi trọng. Một bài toán trích rút tri thức ngôn ngữ từ dữ liệu được Yager đề xuất năm 1982 [3] dựa trên phương pháp luận của lý thuyết tập mờ là bài toán tóm tắt dữ liệu bằng ngôn ngữ (linguistic summarization of data). Trong bài toán này, chính nội dung thông tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng. Trên cơ sở đó, ông đã phát triển một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa
  15. 11 ngôn ngữ [4-6]. Các câu này được coi là các mệnh đề mờ diễn đạt tri thức ẩn dấu trong tập dữ liệu số được xem xét. Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoa học, điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz và cộng sự [38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tích kinh doanh hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một số lĩnh vực khác [38, 40]. Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn của việc nghiên cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngôn ngữ tự nhiên. Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổng quát như sau: “Q y are S” và “Q F y are S” Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a half’; S (summarizer) là kết luận sử dụng ngôn ngữ tự nhiên, ví dụ như “AGE is ‘young’”, “SALARY is ‘high’”; F (qualifier) là điều kiện lọc, ví dụ như “AGE is ‘old’”, “QUALIFICATION is ‘high’”. Tổng quát hơn, thành phần S và F có thể là một biểu thức logic của các điều kiện trên nhiều thuộc tính khác nhau. Ví dụ, ta có thể có các câu tóm tắt ngôn ngữ trích rút từ cơ sở dữ liệu mà giá trị của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most wokers are young”; (2) “A half of workers with high qualification are middle”. Trong câu thứ nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính đang xem xét (AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận S trong tập dữ liệu. Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết luận trên thuộc tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F (workers with high qualification), từ lượng hóa Q (a half) diễn đạt tỷ lệ các đối tượng thỏa kết luận S trong nhóm con này. Các câu tóm tắt như trên được coi là các mệnh đề mờ diễn đạt tri thức về các đối tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu. Do đó, với mỗi câu tóm tắt bằng ngôn ngữ (Linguistic Summary - LS), một yêu cầu đặt ra là cần tính toán một giá trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của
  16. 12 mệnh đề mờ, ký hiệu là T (T  [0, 1]). T được coi là độ đo cơ bản cần thiết để đánh giá câu LS. Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ dữ liệu đã cho. Trong phương pháp trích rút tóm tắt ngôn ngữ (Linguistic Summarization Method - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập mờ biểu diễn ngữ nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thành phần đầu vào quan trọng của LSMd. Các hàm thuộc này được sử dụng để tính giá trị đúng đắn T. Do đó, việc xây dựng các tập mờ đóng vai trò nền tảng cho việc tính giá trị độ đo T cho các câu tóm tắt. Tức là, nó ảnh hưởng trực tiếp đến kết quả của các phương pháp trích rút tóm tắt ngôn ngữ. Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMd dựa trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữ được gán cho chúng. Trong khi người dùng giải nghĩa các câu LS dựa trên ngữ nghĩa vốn có của nó trong ngôn ngữ tự nhiên, các từ ngôn ngữ được lựa chọn bởi LSMd lại chỉ được xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựng dựa trên trực giác của nhà thiết kế, phát triển phương pháp luận và giải thuật trong LSMd. Do đó, với cùng một câu LS, nó có thể mang hai nội dung thông tin. Thứ nhất là nội dung gán cho một câu LS bởi quá trình tính toán tương tác giữa dữ liệu của cơ sở dữ liệu và các tập mờ (nội dung này mang tính chủ quan). Thứ hai là nội dung của câu LS trong ngôn ngữ tự nhiên mà người dùng thu nhận khi đọc câu LS đó (nội dung này mang tính khách quan). Hai nội dung này nhìn chung là khác nhau nếu không có tiêu chuẩn đảm bảo cách xây dựng tập mờ biểu diễn một cách đúng đắn ngữ nghĩa vốn có của các từ ngôn ngữ được gán cho chúng. Đây là vấn đề cốt yếu, còn được gọi là vấn đề hay bài toán nội dung thông tin của các câu LS trích rút từ cơ sở dữ liệu mà luận án cần giải quyết. Tuy nhiên, vấn đề này lại chưa được đặt ra trong các nghiên cứu trong phạm vi lý thuyết tập mờ. Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài toán nội dung thông tin của các câu LS. Đây là vấn đề đầy thách thức và chưa được xem xét trong các nghiên cứu về LSMd đã công bố. Tuy nhiên, có các vấn đề tương tự trong logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề trên là khái niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý thuyết T của Tarski và cộng sự trong [44]. Khái niệm này được hiểu như sau: giả sử
  17. 13 ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại. Khi đó, ta có thể chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn. Điều này có thể thực hiện được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là nghịch ảnh của nghiệm bài toán P’ trong T. Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau: Thứ nhất, vấn đề tính giải nghĩa (interpretability) trong bài toán trích rút câu tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47]. Hơn nữa, các nghiên cứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc không, có dễ hiểu nội dung không. Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câu chứa từ lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu. Do đó, dẫn dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế độ dài của câu, giới hạn về số lượng từ ngôn ngữ là đảm bảo tính dễ đọc. Tuy nhiên, như đã phân tích ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giải nghĩa một cách đúng đắn nội dung thông tin của các câu LS. Tức là, nội dung tính toán dựa trên các tập mờ trong một phương pháp LSMd gán cho câu LS phải tương đồng (bằng nhau trong môi trường mờ) với nội dung mà các câu LS phản ánh khi người dùng giải nghĩa trong ngôn ngữ tự nhiên. Tính giải nghĩa theo quan điểm này chưa được đề cập đến trong các LSMd dựa trên lý thuyết tập mờ đã có. Thứ hai, còn có những hạn chế không thỏa đáng trong thiết kế các tập mờ và gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của các thuộc tính. Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tính trong giới hạn 7  2 và các tập mờ thường tạo thành phân hoạch mạnh trên miền tham chiếu số. Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàng trong thiết kế các tập mờ [40, 42, 48]. Khi giới hạn số lượng từ ngôn ngữ của các thuộc tính sẽ dẫn đến giới hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu. Điều này không phù hợp với thực tiễn sử dụng ngôn ngữ tự nhiên của con người. Trong thực tế, tùy từng ứng dụng, từng giai đoạn mà con người cần mở rộng tập hạng từ để mô tả tính chất, đặc điểm của thuộc tính. Khi mở rộng tập hạng từ, tập tri thức ngôn ngữ cũng được mở rộng để nhận thức tốt hơn về thế giới thực. Do đó, tính mở rộng được của tập hạng từ và tập câu tóm tắt (được coi là tập tri thức ngôn ngữ) là vấn đề cần được nghiên cứu trong giải bài toán trích rút tóm tắt bằng ngôn ngữ.
  18. 14 Thứ ba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn hơn sẽ dẫn đến bùng nổ số lượng câu tóm tắt. Tuy nhiên, lúc này lại có thể thu được những câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữ liệu. Từ đó đặt ra bài toán tìm kiếm một tập con các câu tóm tắt tối ưu từ không gian lớn chứa tất cả các câu tóm tắt. Một số nghiên cứu đã áp dụng mô hình giải thuật di truyền để giải bài toán tối ưu này [18, 38, 39, 41, 49]. Ngoài các phép toán di truyền cơ bản, một số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới để tăng hiệu quả của việc tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán cleaning trong [38, 41], phép toán improver trong [38, 39]. Tuy nhiên, trong kết quả thực nghiệm [38, 41], tập câu tóm tắt tối ưu vẫn chứa các câu tóm tắt không có chất lượng khi mà giá trị đúng đắn T = 0 hoặc T < 0.8. Do đó, vấn đề trích rút một tập câu tóm tắt tối ưu vẫn cần phải tiếp tục nghiên cứu để có kết quả tốt hơn nữa. Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xác định là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thông tin của các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mở rộng tập hạng từ của các thuộc tính. Hơn nữa, luận án cần đề xuất cải tiến mới cho mô hình giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu. Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lý thuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W. Wechler đề xuất năm 1990 và 1992 [50, 51]. Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu [52-55] để mô hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miền hạng từ của các biến ngôn ngữ. Tính giải nghĩa ở mức thấp (mức từ vựng) của các hệ dựa trên luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyết ĐSGT. Điều này chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận để thực hiện được các nhiệm vụ nghiên cứu trong luận án đã nêu trên. Từ những nghiên cứu về bài toán trích rút tóm tắt bằng ngôn ngữ và phương pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử” làm đề tài nghiên cứu của luận án. 2. Mục tiêu, đối tượng, phạm vi nghiên cứu 2.1. Mục tiêu nghiên cứu
  19. 15 Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT để phát triển một phương pháp trích rút câu tóm tắt bằng ngôn ngữ để giải quyết bài toán nội dung thông tin của các câu LS. Hơn nữa, phương pháp đề xuất còn có khả năng tương thích với tính mở rộng được của tập hạng từ của các thuộc tính. Mục tiêu nghiên cứu khác là đề xuất cải tiến cho mô hình giải thuật di truyền để trích rút tập câu LS tối ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp tri thức ngôn ngữ phong phú, đa dạng hơn. Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau: o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin của câu tóm tắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩa được của cấu trúc các tập mờ được xây dựng trong mờ hóa miền giá trị của các thuộc tính. o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ biểu diễn đúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng. Đồng thời, các tập mờ này cũng mở rộng được tương ứng với tính mở rộng được của miền ngôn ngữ thuộc tính. o Đề xuất phương pháp LSMd đảm bảo giải được bài toán nội dung thông tin câu tóm tắt và tương thích được với tính mở rộng miền ngôn ngữ của các thuộc tính. Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức đã được trích rút trước đó. o Phát triển phương pháp và xây dựng được mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu có cải tiến so với các mô hình giải thuật di truyền đã có. 2.2. Đối tượng nghiên cứu Đối tượng nghiên cứu trong luận án bao gồm: o Khung nhận thức mờ và khung nhận thức ngôn ngữ. Tính giải nghĩa được của khung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thức ngôn ngữ tương ứng.
  20. 16 o Vấn đề nội dung thông tin của các câu tóm tắt ngôn ngữ từ dữ liệu. Phương pháp trích rút câu tóm tắt bằng ngôn ngữ sử dụng tập mờ biểu diễn ngữ nghĩa cho hạng từ ngôn ngữ. o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinh khung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho. o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu. 2.3. Phạm vi nghiên cứu Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyết tập mờ để trích rút tóm tắt bằng ngôn ngữ từ cơ sở dữ liệu. Trong đó, tập dữ liệu đầu vào là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số, mẫu câu tóm tắt có chứa từ lượng hóa ngôn ngữ. Luận án nghiên cứu về các mô hình của giải thuật di truyền áp dụng trong bài toán trích rút một tập câu tóm tắt tối ưu từ không gian chứa tất cả các câu tóm tắt có thể trích rút từ cơ sở dữ liệu. 3. Phương pháp nghiên cứu Các phương pháp nghiên cứu được sử dụng trong luận án gồm có: o Phương pháp tổng hợp, phân tích: được sử dụng khi tìm hiểu kiến thức cơ sở về trích rút tóm tắt bằng ngôn ngữ, lý thuyết ĐSGT. Từ đó tìm được các hạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cần giải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiên cứu mới. o Phương pháp so sánh: được sử dụng để tìm ra điểm khác biệt của bài toán trích rút tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữ liệu; so sánh phương pháp luận khi sử dụng lý thuyết tập mờ và lý thuyết ĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờ biểu diễn ngữ nghĩa các hạng từ trong miền giá trị của biến ngôn ngữ; các mô hình giải thuật di truyền trong trích rút tóm tắt bằng ngôn ngữ. o Phương pháp thiết kế và chứng minh: được sử dụng khi đưa ra phương pháp xây dựng các tập mờ và thuật toán trích rút tóm tắt; phát biểu và chứng minh các định lý về đảm bảo tính giải nghĩa của nội dung thông tin câu tóm tắt và tính mở rộng được của phương pháp đề xuất.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2