ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
Phạm Đình Phong<br />
<br />
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ<br />
HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ<br />
VÀ ĐẠI SỐ GIA TỬ<br />
<br />
Chuyên ngành: Khoa học máy tính<br />
Mã số: 62 48 01 01<br />
<br />
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH<br />
<br />
Hà Nội – 2017<br />
<br />
Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học<br />
Quốc gia Hà Nội<br />
<br />
Người hướng dẫn khoa học: GS. TS. Nguyễn Thanh Thủy<br />
PGS. TSKH. Nguyễn Cát Hồ<br />
<br />
Phản biện: TS. Nguyễn Công Điều<br />
Viện Công nghệ thông tin, Viện Hàn lâm KH&CN VN<br />
Phản biện: TS. Dương Thăng Long<br />
Viện Đại học mở Hà Nội<br />
Phản biện: PGS. TS. Nguyễn Đình Hóa<br />
Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội<br />
<br />
Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận<br />
án tiến sĩ họp tại phòng 212, nhà E3, trường Đại học Công nghệ, Đại học Quốc<br />
gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội vào hồi 14 giờ 00 ngày 22<br />
tháng 09 năm 2017.<br />
<br />
Có thể tìm hiểu luận án tại:<br />
-<br />
<br />
Thư viện Quốc gia Việt Nam<br />
<br />
-<br />
<br />
Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội<br />
<br />
MỞ ĐẦU<br />
Bài toán phân lớp thường gặp trong các lĩnh vực khác nhau của đời sống xã hội như<br />
bao gồm y tế, kinh tế, nhận dạng lỗi, xử lý ảnh, xử lý dữ liệu văn bản, lọc dữ liệu Web,<br />
loại bỏ thư rác, … Có nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp<br />
thống kê, mạng nơ-ron, phân lớp dựa trên luật ngôn ngữ mờ, …<br />
Hầu hết các kỹ thuật phân lớp thống kê đều dựa trên lý thuyết quyết định Bayesian có<br />
hiệu huất phân lớp phụ thuộc vào mô hình xác suất. Hệ phân lớp mạng nơ-ron cần một<br />
lượng lớn các tham số cần phải ước lượng. Mặt khác, kỹ thuật phân lớp thống kê và mạng<br />
nơ-ron là những hộp đen nên thiếu tính dễ hiểu đối với người sử dụng. Hệ phân lớp dựa<br />
trên luật ngôn ngữ mờ (FLRBC) được nghiên cứu rộng rãi do người dùng cuối có thể sử<br />
dụng những tri thức dạng luật được trích rút từ dữ liệu có tính dễ hiểu, dễ sử dụng đối với<br />
con người như là những tri thức của họ. Tiếp cận lý thuyết tập mờ không vận dụng các từ<br />
ngôn ngữ nhằm truyền đạt ngữ nghĩa của các từ do thiếu một cầu nối hình thức giữa các từ<br />
với các tập mờ tương ứng. Đại số gia tử (ĐSGT) cung cấp một cơ chế hình thức sinh các<br />
tập mờ từ ngữ nghĩa vốn có (inherent sematic) của các từ ngôn ngữ và ứng dụng một cách<br />
hiệu quả vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩa tính toán dựa trên<br />
tập mờ tam giác của chúng cho bài toán xây dựng tự động cơ sở luật cho FLRBC.<br />
Trong ứng dụng lý thuyết tập mờ thường đòi hỏi lõi của tập mờ là một khoảng do ngữ<br />
nghĩa của từ ngôn ngữ chứa một miền có giá trị phù hợp với ngữ nghĩa của từ nhất. Ngữ<br />
nghĩa dựa trên tập mờ của các từ ngôn ngữ được xem là dạng hạt (granule) và có lõi<br />
(core). Như vậy, ngữ nghĩa của mỗi từ ngôn ngữ đều có lõi và được gọi là lõi ngữ nghĩa<br />
(semantics core). Trong xu thế nghiên cứu ĐSGT, một cơ sở hình thức toán học cần được<br />
phát triển để sinh lõi khoảng của tập mờ biểu diễn ngữ nghĩa của từ ngôn ngữ. Luận án<br />
nghiên cứu trường hợp cụ thể sinh lõi khoảng của tập mờ hình thang do lõi của hình thang<br />
có dạng khoảng nên chúng có thể được sử dụng để biểu diễn lõi ngữ nghĩa được biểu thị<br />
bằng tập mờ của các từ ngôn ngữ. Mặt khác, vấn đề tối ưu các tham số ngữ nghĩa, sinh luật<br />
và tìm kiếm hệ luật tối ưu vẫn cần những nghiên cứu cải tiến.<br />
Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình thức toán<br />
học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõi của tập mờ<br />
hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệ phân lớp dựa trên<br />
luật ngôn ngữ mờ. Thứ hai là nghiên cứu thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn<br />
ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT dựa trên<br />
kỹ thuật tính toán mềm.<br />
Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:<br />
<br />
<br />
Đề xuất mở rộng lý thuyết đại số gia tử biểu diễn lõi ngữ nghĩa của các từ ngôn<br />
ngữ nhằm cung cấp một cơ sở hình thức cho việc sinh tự động ngữ nghĩa tính toán<br />
dựa trên tập mờ có lõi là một khoảng của khung nhận thức ngôn ngữ. Luận án<br />
nghiên cứu trường hợp cụ thể là ngữ nghĩa dựa trên tập mờ hình thang.<br />
<br />
<br />
<br />
Ứng dụng lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của<br />
khung nhận thức ngôn ngữ giải bài toán thiết kế tối ưu FLRBC đảm bảo tính giải<br />
1<br />
<br />
nghĩa được (interpretability) của chúng. So sánh đánh giá kết quả của các đề xuất<br />
so với một số kết quả được công bố trước đó.<br />
<br />
<br />
Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết kế<br />
FLRBC với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT và<br />
đề xuất giải pháp nâng cao hiệu quả thiết kế FLRBC bằng kỹ thuật tính toán mềm.<br />
Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công bố<br />
trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3 bài báo ở<br />
Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại học Quốc gia Hà<br />
Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn Lâm Khoa học và Công nghệ<br />
Việt Nam; 1 báo cáo trong kỷ yếu hội nghị quốc tế có phản biện được xuất bản bởi IEEE<br />
và 1 báo cáo tại hội nghị quốc gia có phản biện.<br />
Cấu trúc của luận án. Luận án được bố cục thành các phần: Mở đầu, 3 chương, kết luận,<br />
tài liệu tham khảo và các phụ lục.<br />
Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và ĐSGT và<br />
khả năng ứng dụng của ĐSGT. Chương 2 trình bày phương pháp mở rộng lý thuyết<br />
ĐSGT nhằm cung cấp một cơ sở hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa<br />
trên tập mờ hình thang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế hệ dựa<br />
trên tri thức luật ngôn ngữ mờ cho bài toán phân lớp. Chương 3 trình bày đề xuất thiết kế<br />
hiệu quả FLRBC với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT<br />
bằng kỹ thuật tính toán mềm.<br />
CHƯƠNG 1<br />
TỔNG QUAN VỀ HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ MỜ<br />
1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN<br />
1.1.1. Tập mờ<br />
1.1.2. Biến ngôn ngữ<br />
1.1.3. Phân hoạch mờ<br />
1.1.4. Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ<br />
Luật ngôn ngữ mờ hay luật mờ if-then, được gọi tắt là luật mờ, là một phát biểu có<br />
điều kiện dưới dạng if A then B. Phần if của luật được gọi là giả thuyết hay tiền đề luật,<br />
phần then của luật được gọi là phần kết luận.<br />
1.1.5. Bài toán phân lớp dữ liệu<br />
Bài toán phân lớp dữ liệu P được phát biểu như sau: cho một tập dữ liệu mẫu D = {(dp,<br />
Cp), p = 1, …, m}, trong đó m là số mẫu dữ liệu, d p = [dp,1, dp,2, ..., d p,n] là dòng thứ p trong<br />
m mẫu dữ liệu có n thuộc tính, C = {Cs | s = 1, …, M} là một tập gồm M nhãn lớp.<br />
Quá trình xây dựng mô hình phân lớp thường được chia thành hai bước:<br />
Bước 1. Huấn luyện: mô hình phân lớp được xây dựng dựa trên các tập dữ liệu mẫu đã<br />
được gán nhãn, được gọi là các tập dữ liệu huấn luyện.<br />
<br />
2<br />
<br />
Bước 2. Thử nghiệm mô hình: sử dụng mô hình đã được xây dựng tại bước 1 để phân<br />
lớp tập dữ liệu mới đã được gán nhãn được chọn ngẫu nhiên và độc lập với tập dữ liệu<br />
huấn luyện.<br />
1.2. HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ LUẬT MỜ<br />
1.2.1. Cấu trúc của hệ dựa trên luật ngôn ngữ mờ<br />
Hệ dựa trên luật ngôn ngữ mờ bao gồm hai thành phần chính: cơ sở tri thức và hệ suy<br />
luận. Cơ sở tri thức bao gồm cơ sở dữ liệu và cơ sở luật. Cơ sở dữ liệu bao gồm tập các giá<br />
trị ngôn ngữ được dùng trong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa<br />
của các giá trị ngôn ngữ. Cơ sở luật là tập hợp các tri thức liên quan đến các bài toán cần<br />
giải quyết dưới dạng các luật mờ if-then.<br />
1.2.2. Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ<br />
Hệ các luật mờ phân lớp bao gồm một tập luật mờ có trọng số dạng:<br />
Luật Rq: if X1 is Aq,1 and ... and Xn is Aq,n then Cq with CFq, với q=1..N<br />
<br />
(1.1)<br />
<br />
trong đó X = {Xj, j = 1, .., n} là tập n biến ngôn ngữ (thuộc tính) và Aq,j (j=1, ..., n) là các<br />
giá trị ngôn ngữ của các điều kiện mờ trong tiền đề, Cq là nhãn lớp kết luận của Rq và N là<br />
số luật mờ, CFq là trọng số hay độ tin cậy của luật thứ q. Luật Rq có thể được viết tắt dưới<br />
dạng<br />
⟹<br />
with CFq, trong đó Aq là tiền đề của luật thứ q.<br />
Ký hiệu fp(S), fn(S) và fa(S) lần lượt là hàm đánh giá độ chính xác phân lớp của hệ S<br />
đối với tập dữ liệu huấn luyện, số luật trong hệ S và độ dài trung bình hệ S. Khi đó, mục<br />
tiêu xây dựng hệ phân lớp thỏa các mục tiêu:<br />
fp(S) → max, fn(S) → min và fa(S) → min.<br />
(1.2)<br />
Các mục tiêu trên mâu thuẫn nhau nên các phương pháp giải bài toán phân lớp dựa<br />
trên luật mờ phải cân bằng các mục tiêu trên.<br />
Các bước của bài toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm:<br />
Bước 1. Phân hoạch miền giá trị của các thuộc tính của tập dữ liệu thành các vùng mờ<br />
sử dụng các tập mờ tương ứng với các từ ngôn ngữ của biến ngôn ngữ.<br />
Bước 2. Trích rút các luật mờ từ các phân hoạch mờ được tạo ở bước 1 sao cho hệ luật<br />
mờ S thu được nhỏ gọn, dễ hiểu và có hiệu suất phân lớp cao.<br />
Hai phương pháp phân hoạch mờ thường được sử dụng là phân hoạch lưới và phân<br />
hoạch rời rạc. Các thước đo đánh giá luật dựa trên độ tin cậy (confidence) và độ hỗ trợ<br />
(support) làm tiêu chuẩn sàng để sàng lọc ra các luật ứng viên:<br />
<br />
trong đó<br />
<br />
⟹<br />
<br />
=<br />
<br />
⟹<br />
<br />
=<br />
<br />
∑<br />
<br />
∈<br />
<br />
<br />
<br />
∑<br />
∑<br />
<br />
∈<br />
<br />
(<br />
<br />
<br />
<br />
)<br />
<br />
.<br />
<br />
(1.3)<br />
<br />
.<br />
<br />
(1.4)<br />
<br />
là độ tương thích hay độ đốt cháy của mẫu dữ liệu dp đối với điều kiện<br />
<br />
Aq của luật Rq và thường được tính bằng biểu thức toán tử nhân như sau:<br />
=∏<br />
<br />
,<br />
<br />
3<br />
<br />
,<br />
<br />
,<br />
<br />
.<br />
<br />
(1.5)<br />
<br />