Đề tài khoa học và công nghệ cấp cơ sở: Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ hồi quy

Chia sẻ: Anhnangchieuta | Ngày: | Loại File: PDF | Số trang:84

Thêm vào BST

Báo xấu

30
lượt xem 9
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu đề tài là tìm hiểu, tổng hợp, đề xuất và thực nghiệm một số giải pháp nhằm rút gọn, tối ưu hóa tập luật mờ TSK trích xuất được từ máy học véc- tơ hỗ trợ.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Đề tài khoa học và công nghệ cấp cơ sở: Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ hồi quy

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ MỘT SỐ GIẢI PHÁP TỐI ƯU TẬP LUẬT MỜ TSK TRÍCH XUẤT TỪ MÁY HỌC VÉC-TƠ HỖ TRỢ HỒI QUY Mã số: T2018-……… Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Nguyễn Đức Hiển Đà Nẵng, 12/2018
i MỤC LỤC MỤC LỤC .............................................................................................................................. i DANH MỤC HÌNH VẼ ....................................................................................................... iii DANH MỤC BẢNG BIỂU .................................................................................................. iv DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................................... v THÔNG TIN KẾT QUẢ NGHIÊN CỨU ............................................................................ vi MỞ ĐẦU ............................................................................................................................... 1 1. Tổng quan ...................................................................................................................... 1 2. Tính cấp thiết của đề tài ................................................................................................. 2 3. Mục tiêu đề tài ............................................................................................................... 2 4. Cách tiếp cận và phương pháp nghiên cứu .................................................................... 2 5. Đối tượng và phạm vi nghiên cứu ................................................................................. 3 6. Nội dung nghiên cứu ..................................................................................................... 3 Chương 1. TRÍCH XUẤT MÔ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ ................................................................................................................. 5 1.1. Cơ bản về logic mờ ................................................................................................. 5 1.1.1. Lý thuyết tập mờ ................................................................................................. 5 1.1.2. Luật mờ “IF-THEN” ........................................................................................... 7 1.1.3. Mô hình mờ hướng dữ liệu.................................................................................. 9 1.1.4. Mô hình mờ Mamdani ....................................................................................... 10 1.1.5. Mô hình mờ TSK .............................................................................................. 12 1.2. Máy học véc-tơ hỗ trợ ........................................................................................... 15 1.2.1. Lý thuyết máy học Véc-tơ hỗ trợ ...................................................................... 15 1.2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui ...................................... 17 1.3. Trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ ........................................ 20 Chương 2. CÁC GIẢI PHÁP TỐI ƯU HÓA TẬP LUẬT MỜ TRÍCH XUẤT TỪ DỮ LIỆU DỰA VÀO MÁY HỌC VÉC-TƠ HỖ TRỢ ............................................................ 26 2.1. Kỹ thuật gom cụm k-Means .................................................................................. 26 2.2. Rút gọn tập luật mờ TSK trích xuất được bằng kỹ thuật gom cụm ...................... 28
ii 2.3. Tối ưu hóa tham số các hàm thành viên ............................................................... 28 2.4. Lựa chọn giá trị tham số epsilon ........................................................................... 28 2.5. Thuật toán đề xuất ................................................................................................. 29 2.6. Tổ chức thực nghiệm ............................................................................................ 32 2.6.1. Mô tả thực nghiệm ............................................................................................ 32 2.6.2. Bài toán hồi quy phi tuyến ................................................................................ 33 2.6.3. Bài toán dự báo dữ liệu chuỗi thời gian hỗn loạn Mackey-Glass ..................... 36 2.6.4. Hệ thống Lorenz ................................................................................................ 39 Chương 3. MÔ HÌNH TÍCH HỢP NHIỀU GIAI ĐOẠN CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỐI THOÀI GIAN .............................................................................................. 43 3.1. Đề xuất mô hình mờ dự báo dữ liệu chuỗi thời gian ............................................ 43 3.1.1. Lựa chọn dữ liệu đầu vào .................................................................................. 44 3.1.2. Phân cụm dữ liệu đầu vào ................................................................................. 44 3.2. Mô hình thực nghiệm dự báo dữ liệu chuỗi thời gian tài chính ............................ 46 3.2.1. Mô hình thực nghiệm ........................................................................................ 46 3.2.2. Thông số đánh giá mô hình ............................................................................... 47 3.2.3. Lựa chọn nguồn dữ liệu..................................................................................... 48 3.2.4. Lựa chọn dữ liệu đầu vào .................................................................................. 49 3.2.5. Kết quả thực nghiệm mô hình dự báo giá cổ phiếu........................................... 50 KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 57 TÀI LIỆU THAM KHẢO ...................................................................................................... i
iii DANH MỤC HÌNH VẼ Hình 1.1. Đồ thị của 3 hàm thành viên phổ biến: (a) tam giác, (b) hình thang, (c) Gauss .......................................................................................................................... 6 Hình 1.2. Cấu trúc cơ bản của một mô hình mờ ........................................................ 9 Hình 1.3. Hình ảnh phân lớp với SVM .................................................................... 16 Hình 1.4. Sự tương đương giữa SVM và Mô hình mờ TSK ................................... 21 Hình 1.5. Sơ đồ khối của thuật toán trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ ......................................................................................................................... 25 Hình 2.1. Mối quan hệ giữa số lượng véc-tơ hỗ trợ và tham số 𝜀 (giá trị của 𝜀 tương ứng theo thứ tự các hình vẽ là 0.5, 0.2, 0.1 và 0.01) ................................................ 29 Hình 2.2. Thuật toán fm-SVM* trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ có lựa chọn giá trị tham số tối ưu........................................................................ 30 Hình 2.3. Phân bố các hàm thành viên mờ: (a) trường hợp 50 luật ứng với 𝜀 = 0.0 và (b) trường hợp 6 luật ứng với 𝜀 = 0.1 (chưa tối ưu hóa phân bố hàm thanh viên bằng k-Means) .......................................................................................................... 34 Hình 2.4. Kết quả mô hình đã tối ưu hóa phân bố các hàm thành viên bằng cách kết họp kỹ thuật phân cụm k-Means (RMSE = 0.0183)................................................. 35 Hình 2.5. Kết quả dự đoán trên 200 mẫu dữ liệu xác thực của thực nghiệm 2.5.3 (trường hợp RMSE = 0.0092) .................................................................................. 38 Hình 2.6. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Phân bố các hàm thành viên tương ứng với x(t-1), y(t-1) và z(t-1) ....................................... 41 Hình 3.1. Mô hình nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian .... 43 Hình 3.2. Mô hình dự đoán giá cổ phiếu kết hợp SOM và fm-SVM* .................... 46
iv DANH MỤC BẢNG BIỂU Bảng 2.1. Tập 6 luật trích xuất được từ mô hình đã tối ưu hóa ............................... 34 Bảng 2.2. So sánh kết quả các mô hình qua thông số RMSE ................................. 35 Bảng 2.3. Diễn dịch ngôn ngữ cho các luật ở Bảng 2.1 .......................................... 36 Bảng 2.4. Tập 9 luật trích xuất được từ 800 mẫu dữ liệu huấn luyện của thực nghiệm 2.5.3 ............................................................................................................. 37 Bảng 2.5. So sánh kết quả các mô hình qua thông số RMSE ................................. 39 Bảng 2.6. Tập luật trích xuất được từ 1000 mẫu dữ liệu huấn luyện ...................... 40 Bảng 2.7. So sánh kết quả các mô hình qua thông số RMSE ................................. 42 Bảng 3.1. Các thông số đo lường ............................................................................. 47 Bảng 3.2. Nguồn dữ liệu thực nghiệm...................................................................... 49 Bảng 3.3. Thể hiện các thuộc tính lựa chọn và công thức tính của chúng. .............. 50 Bảng 3.4. Kết quả thử nghiệm trên mô hình SVM nguyên thủy .............................. 51 Bảng 3.5. Kết quả thử nghiệm trên mô hình RBN ................................................... 51 Bảng 3.6. Kết quả thử nghiệm trên mô hình SOM+SVM. ....................................... 52 Bảng 3.7. Kết quả thử nghiệm trên mô hình SOM+ANFIS ..................................... 52 Bảng 3.8. Kết quả thử nghiệm trên mô hình SOM+fm-SVM .................................. 53 Bảng 3.9. Kết quả thử nghiệm trên mô hình SOM+fm-SVM*. ............................... 54 Bảng 3.10. Tập 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu S&P500. .......................................................................................................... 55
v DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machine fm-SVM SVM-Based fuzzy model SOM Self Organizing Map GA Genetic Algorithm SV Support Vector RMSE Root Mean Squared Error MAE Mean Absolute Error MNSE Nomalized Mean Squared Error DS Directional Symmetry
vi ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ hồi quy - Mã số: T2018-…………. - Chủ nhiệm: NGUYỄN ĐỨC HIỂN - Thành viên tham gia: không có - Cơ quan chủ trì: TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN - Thời gian thực hiện: 04/2018 – 12/2018 2. Mục tiêu: Trong nghiên cứu này, chúng tôi mong muốn tìm hiểu, tổng hợp, đề xuất và thực nghiệm một số giải pháp nhằm rút gọn, tối ưu hóa tập luật mờ TSK trích xuất được từ máy học véc- tơ hỗ trợ. 3. Tính mới và sáng tạo: Đề xuất một mô hình xuyên suốt với mục tiêu tối ưu tập luật mờ TSK trích xuất từ máy học véc-tơ hỗ trợ cho bài toán dự báo hồi quy. 4. Tóm tắt kết quả nghiên cứu: • Đối với lý thuyết mô hình hóa mờ (fuzzy modelling) và máy học véc-tơ hỗ trợ, đề tài đã nghiên cứu những lý thuyết toán học cơ bản của mô hình mờ TSK, và của mô hình máy học SVM cho bài toán phân lớp và bài toán tối ưu hóa hồi quy. • Đối với giải pháp tối ưu hóa mô hình mờ hướng dữ liệu dựa trên máy học véc- tơ hỗ trợ hồi quy, đề tài đã nghiên cứu những giải pháp tối ưu hóa tham số các hàm thành viên mờ, rút gọn tập luật mờ trích xuất được bằng kỹ thuật phân cụm k-Means.
vii • Đối với việc xây dựng mô hình mờ giải quyết bài toán dự báo hồi quy, đề tài đã đề xuất một mô hình xuyên suốt từ việc phân cụm dữ liệu đầu cho đến việc xác định giá trị tham số tối ưu và thử nghiệm dự báo dựa vào mô hình. 5. Tên sản phẩm: • Bài báo khoa học đăng trên kỷ yếu Hội nghị khoa học Fair’11 năm 2018: Nguyễn Đức Hiển, Lê Mạnh Thạnh, Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi quy, Kỷ yếu Hội nghị koa học Fair’11 (Accepted). • Thuật toán fm-SVM*, mô hình đề xuất cho bài toán dự báo dữ liệu chuỗi thời gian và một số kết quả thực nghiệm trên bài toán dự báo dữ liệu chuỗi thời gian tài chính. • Một báo cáo tổng kết đề tài nghiên cứu khoa học 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: • Hiệu quả về mặt giáo dục - đào tạo: Kỹ thuật trích xuất luật mờ từ dữ liệu dựa trên máy học véc-tơ hỗ trợ với thuật toán fm-SVM* và mô hình tích hợp nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian là một hướng để sinh viên ngành CNTT có thể phát triển các ứng dụng khai phá dữ liệu, hệ chuyên gia dự báo, ... • Hiệu quả về mặt khoa học: đóng góp của đề tài là đề xuất thuật toán – fm- SVM* cho phép trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ và mô hình mờ hướng dữ liệu tích hợp nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian. • Về sản phẩm ứng dụng: Mô hình đề xuất là một thiết kế cho việc xây dựng mô hình mờ hướng dữ liệu để giải quyết các bài toán phân tích dữ liệu tài chính, hệ chuyên gia dự đoán, dự báo. 7. Hình ảnh, sơ đồ minh họa chính
viii Hình 1.4. Sự tương đương giữa SVM và Mô hình mờ TSK
ix Begin Input: - Tập dữ liệu huấn luyện H - Tham số lỗi ɛ Khởi tạo các tham số của SVM: C, ɛ, σ Huấn luyện SVM để trích xuất ra các véc-tơ hỗ trợ: Centers: ci , i=1,2,..,m Variances: σi , i=1,2,…,m Trích xuất các luật mờ dựa vào các véc-tơ hỗ trợ: IF x is Gaussmf(ci ,σi) THEN y is B Tối ưu hóa tham số các hàm thành viên Output: Mô hình mờ TSK End Hình 1.5. Sơ đồ khối của thuật toán trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ (thuật toán fm-SVM)
x Begin Input: - Tập dữ liệu huấn luyện H - Tham số lỗi ɛ - Ngưỡng sai số tol, k Khởi tạo các tham số của SVM: C, ɛ, σ Huấn luyện SVM để trích xuất ra các véc-tơ hỗ trợ: Centers: ci , i=1,2,..m Variances: σi , i=1,2,...m Phận cụm các (ci,σi) bằng k-Means với số phân cụm k cho trước Trích xuất k luật mờ dựa vào các véc-tơ hỗ trợ là trung tâm của các phân cụm: IF x is Gaussmf(ci ,σi) THEN y is B Tối ưu hóa tham số các hàm thành viên Dự đoán trên tập dữ liệu xác thực và tính giá trị sai số error Thay đổi giá trị tham số ɛ True error>tol False Output: Mô hình mờ TSK với các tham số tối ưu End Hình 2.2. Thuật toán fm-SVM* trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ có lựa chọn giá trị tham số tối ưu
xi Trích xuất mô Thu thập Lựa chọn Phân cụm hình mờ bằng Áp dụng dữ liệu thuộc tính dữ liệu thuật toán dự báo fm-SVM* Hình 3.1. Mô hình nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian Huấn luyện Part 1 fm-SVM* 1 Part 2 fm-SVM* 2 Phân cụm Dữ liệu Lựa chọn dữ liệu Các tập thuộc tính dữ vào bằng luật mờ liệu vào Part n-1 SOM fm-SVM* n-1 Part n fm-SVM* n Dự đoán Part 1 Phân cụm Suy luận trên Các Giá trị dữ liệu tập luật mờ bằng dự đoán SOM Part n Hình 3.2. Mô hình dự đoán giá cổ phiếu kết hợp SOM và fm-SVM* Bảng 3.6. Kết quả thử nghiệm trên mô hình SOM+SVM. Mã cổ Số phân SOM + SVM phiếu cụm Số SV NMSE MAE DS IBM 6 1355 1.1028 0.0577 44.22 APPL 55 1287 1.1100 0.0445 52.76 SP500 6 965 1.1081 0.1217 52.76 DJI 35 1025 1.0676 0.1186 50.25
xii Bảng 3.9. Kết quả thử nghiệm trên mô hình SOM+fm-SVM*. Mã cổ phiếu Số phân SOM + fm-SVM* cụm Số luật NMSE MAE DS IBM 6 30 1.0530 0.0504 50.05 APPL 55 270 1.0466 0.0610 53.00 SP500 6 30 1.0906 0.1117 52.86 DJI 35 175 1.0550 0.1101 51.35 Bảng 3.10. Tập 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu S&P500. Thứ Luật tự R1 IF x1=Gaussmf(0.10,-0.02) and x2=Gaussmf(0.10,-0.08) and x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.10,0.04) and x5=Gaussmf(0.10,0.02) THEN z=-0.02 R2 IF x1=Gaussmf(0.10,0.02) and x2=Gaussmf(0.09,-0.00) and x3=Gaussmf(0.10,0.06) and x4=Gaussmf(0.10,0.05) and x5=Gaussmf(0.09,0.00) THEN z=0.04 R3 IF x1=Gaussmf(0.09,-0.04) and x2=Gaussmf(0.10,0.07) and x3=Gaussmf(0.09,-0.16) and x4=Gaussmf(0.09,-0.14) and x5=Gaussmf(0.11,-0.05) THEN z=0.16 R4 IF x1=Gaussmf(0.09,0.01) and x2=Gaussmf(0.10,0.08) and x3=Gaussmf(0.09,-0.06) and x4=Gaussmf(0.09,-0.09) and x5=Gaussmf(0.09,-0.04) THEN z=0.01 R5 IF x1=Gaussmf(0.09,-0.05) and x2=Gaussmf(0.09,0.04) and x3=Gaussmf(0.10,-0.13) and x4=Gaussmf(0.10,-0.08) and x5=Gaussmf(0.08,-0.04) THEN z=-0.18 Đà Nẵng, ngày 17 tháng 12 năm 2018 Cơ quan chủ trì Chủ nhiệm đề tài NGUYỄN ĐỨC HIỂN
1 MỞ ĐẦU 1. Tổng quan Vấn đề trích xuất mô hình mờ từ máy học Support-vector được nhóm tác giả J.-H Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [3]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [1][4][6], dự báo hồi quy [7][6][7]. Có ý kiến cho rằng sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô hình máy học Véc-tơ hỗ trợ chính nguyên thủy chính là đặc tính “có thể diễn dịch được” [4][6]; đặc tính này cho phép hệ thống mờ dễ hiểu hơn so với mô hình máy học Véc-tơ hỗ trợ. Hay nói theo một cách khác là mô hình mờ dựa trên máy học Véc-tơ hỗ trợ đã khắc phục được đặc tính “hộp đen” (black box) của mô hình máy học Véc-tơ hỗ trợ nguyên thủy. Bên cạnh đó, do tập luật trích xuất tự động từ dữ liệu thông qua học máy sẽ có nhiều khiếm khuyết do dữ liệu ngẫu nhiên có thể bị lỗi (nhiễu), thiếu tính đặc trưng, thiếu tính bao phủ. Vì vậy, việc hiểu được tập luật để hiệu chỉnh, bổ sung, tối ưu hóa là thật sự cần thiết. Các nghiên cứu nhằm tích hợp tri thức chuyên gia với mô hình mờ hướng dữ liệu có thể tìm thấy trong [2][5][7][8]. Tuy nhiên với một tập luật có số lượng lớn thì việc hiểu và diễn dịch được chúng, đồng thời có thể phân tích và tích hợp chúng với các tri thức có tính chất tinh túy của chuyên gia, quả thật rất khó khăn. Đối với mô hình máy học thống kê dựa trên dữ liệu thì độ tin cậy của kết quả học sẽ tỷ lệ thuận với số lượng mẫu dữ liệu huấn luyện. Điều này đồng nghĩa với việc để tăng độ tin cậy của tập luật mờ học được thì cần thiết phải tăng số lượng mẫu dữ liệu huấn luyện. Và như thế thì số lượng luật trong tập luật học được cũng tăng lên, và cùng với đó thì độ nhiễu của tập luật cũng đồng thời tăng lên. Bên cạnh đó, thời gian huấn luyện và và thời gian suy diễn dựa trên tập luật tất yếu cũng tăng lên. Phân cụm là một trong những giải pháp được áp dụng để giảm độ phức tạp của dữ liệu đầu vào trong giai đoạn tiền xử lý dữ liệu trước khi đưa vào máy học [9][10][11]. Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là tính chính xác của mô hình thu được tỷ lệ thuận với số lượng Support-vector sinh ra [7][4][6]. Nói cách khác là
2 khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể hiểu được” (hay còn gọi là “có thể diễn dịch được” - interpretability) của mô hình. Như vậy vấn đề đặt ra là làm thế nào có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời đảm bảo được đặc tính “có thể diễn dịch được”. Nghiên cứu trong [12] là một trong những giải pháp cho phép tối ưu hóa tập luật mờ trích xuất từ máy học SVM bằng cách tích hợp với tri thức tiên nghiệm. 2. Tính cấp thiết của đề tài Việc trích xuất tập luật mờ tự động từ máy học véc-tơ hỗ trợ sẽ có nhiều khiếm khuyết do tập dữ liệu huấn luyện phải lớn, tính ngẫu nhiên của dữ liệu có thể dẫn đến tập luật nhiễu, thiếu tính đặc trưng, thiếu tính bao phủ. Vì vậy, việc hiểu được tập luật để hiệu chỉnh, bổ sung, tối ưu hóa là thật sự cần thiết. Tuy nhiên với một tập luật có số lượng lớn thì việc hiểu và diễn dịch được chúng, đồng thời có thể phân tích và tích hợp chúng với các tri thức có tính chất tinh túy của chuyên gia, quả thật rất khó khăn. Do vậy, một thách thức đặt ra là làm thế nào có thể trích xuất tự động được một tập luật từ dữ liệu, có hiệu quả dự đoán cao mà vẫn đảm bảo đủ đơn giản để có thể phân tích và qua đó có thể dần tối ưu hóa tập luật. 3. Mục tiêu đề tài Trong nghiên cứu này, chúng tôi mong muốn tìm hiểu, tổng hợp, đề xuất và thực nghiệm một số giải pháp nhằm rút gọn, tối ưu hóa tập luật mờ TSK trích xuất được từ máy học véc- tơ hỗ trợ. Các mục tiêu cụ thể: • Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ. • Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ mày học Véc-tơ hỗ trợ • Các mô hình thực nghiệm. 4. Cách tiếp cận và phương pháp nghiên cứu 4.1. Cách tiếp cận: • Tiếp cận theo hướng hàn lâm: dựa vào tài liệu và các công bố khoa học. • Tiếp cận theo hướng mục tiêu: dựa vào mục tiêu đề tài.
3 Đề tài sẽ được thực hiện theo 4 giai đoạn: • Giai đoạn 1: Nghiên cứu thuật toán trích xuất mô hình mờ TSK từ máy học Véc-tơ hỗ trợ • Giai đoạn 2: Nghiên cứu giải pháp tối ưu hóa tham số trong thuật toán học mô hình mờ TSK • Giai đoạn 3: Đề xuất một mô hình xuyên suốt với mục tiêu tối ưu tập luật mờ TSK trích xuất từ mãy học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy và thực nghiệm mô hình 4.2. Phương pháp nghiên cứu: Đề tài sử dụng phương pháp nghiên cứu lý thuyết, cơ sở toán học, kết hợp với thực nghiệm. Cụ thể là: Từ kết quả thực tế trích xuất mô hình mờ TSK và kết quả nghiên cứu lý thuyết về các giải pháp nhằm tối ưu hóa mô hình để tiến hành thực nghiệm; sau đó dề xuất một mô hình xuyên suốt để tối ưu tập luật TSK. 5. Đối tượng và phạm vi nghiên cứu 5.1. Đối tượng nghiên cứu: Đề tài tập trung vào các đối tượng nghiên cứu cơ bản sau: • Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ • Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ mày học véc-tơ hỗ trợ • Mô hình xuyên suốt với mục tiêu tối ưu tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy và một số thực nghiệm trên mô hình 5.2. Phạm vi nghiên cứu: Cải thiện hiệu quả học cũng như hiệu quả sử dụng tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy. 6. Nội dung nghiên cứu Đề tài được tiến hành thực hiện theo các nội dung và tiến độ cụ thể như sau:
4 ST Các nội dung, công việc Sản phẩm Thời gian (bắt đầu-kết Người thực hiện T thực hiện thúc) Nghiên cứu thuật toán trích xuất Báo cáo 04/18 - Nguyễn Đức Hiển 1 mô hình mờ từ máy học Véc-tơ 05/18 hỗ trợ Các giải pháp tối ưu hóa các tham Thuật toán 06/18 - Nguyễn Đức Hiển 2 số trong thuật toán học 07/18 Thực nghiệm thuật toán trích xuất Số liệu 08/18 - Nguyễn Đức Hiển 3 mô hình mờ TSK từ máy học thực 09/18 Véc-tơ hỗ trợ nghiệm Đề xuất một mô hình xuyên suốt Mô hình 10/18 - Nguyễn Đức Hiển 4 với mục tiêu tối ưu tập luật mờ số liệu 12/18 TSK trích xuất từ mãy học Véc- thực tơ hỗ trợ cho bài toán dự báo hồi nghiệm quy Trong các chương tiếp theo sau đây của báo cáo, chúng tôi sẽ trình bày những kết quả nghiên cứu chính về lý thuyết và thực nghiệm đã thực hiện được. Chương 1 sẽ trình bày sơ lượt về mô hình mờ TSK, mô hình máy học Véc-tơ hõ trợ hồi quy và giải pháp trích xuất mô hình mò từ máy học véc-tơ hỗ trợ; Chương 2 sẽ trình bày về các giải pháp tối ưu hóa tập luật mờ TSK trích xuất từ dữ liệu dựa trên máy học véc-tơ hỗ trợ hồi quy; Chương 3 đề xuất một mô hình xuyên suốt giải quyết bài toán dự báo hồi quy và một số kết quả thực nghiệm; và cuối cùng là kết luận và một số kiến nghị rút ra từ kết quả của đề tài.
5 Chương 1. TRÍCH XUẤT MÔ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ Chương này trình bày kết quả xây dựng thuật toán fm-SVM và quy trình trích xuất mô hình mờ TSK từ dữ liệu dựa trên máy học véc-tơ hỗ trợ. Để làm cơ sở cho việc phân tích sự tương đương của máy học véc-tơ hỗ trợ hồi quy và mô hình mờ TSK, một số vấn đề cơ bản về lý thuyết tập mờ, đặc biệt là mô hình mờ TSK và lý thuyết cơ bản về máy học véc-tơ hỗ trợ phân lớp và hồi quy cũng được trình bày ở những mục đầu Chương. Phần cuối chương là nội dung triển khai thực nghiệm cho thuật toán đề xuất. 1.1. Cơ bản về logic mờ 1.1.1. Lý thuyết tập mờ Như chúng ta đã biết, tập hợp thường là kết hợp của một số phần tử có cùng một số tính chất chung nào đó. Ví dụ: tập các người giới tính nam. Ta có: 𝑇 = {𝑡/𝑡 𝑙à 𝑛𝑔ườ𝑖 𝑔𝑖ớ𝑖 𝑡í𝑛ℎ 𝑛𝑎𝑚} Vậy, nếu một người nào đó có giới tính nam thì thuộc tập 𝑇, ngược lại là không thuộc tập 𝑇. Tuy nhiên, trong thực tế cuộc sống cũng như trong khoa học kỹ thuật có nhiều khái niệm không được định nghĩa một cách rõ ràng. Ví dụ, khi nói về một "nhóm những người già", thì thế nào là già? Khái niệm về già không rõ ràng vì có thể người có tuổi bằng 70 là già, cũng có thể tuổi bằng 80 cũng là già (dải tuổi là già có thể từ 70 trở lên), ... Nói cách khác, "nhóm những người già" không được định nghĩa một cách tách bạch rõ ràng như khái niệm thông thường về tập hợp. Các phần tử của nhóm trên không có một tiêu chuẩn rõ ràng về tính "thuộc về" (thuộc về một tập hợp nào đó). Đây chính là những khái niệm thuộc về tập mờ. Lý thuyết tập mờ lần đầu tiên được Lotfi A. Zadeh, một giáo sư thuộc trường Đại học Caliornia, Berkley, giới thiệu trong một công trình nghiên cứu vào năm 1965 [1][82]. Ý tưởng nổi bật của Zadeh là đề nghị đánh giá khả năng một phần tử 𝑥 là thành viên của một tập 𝐴 trong tập vũ trụ 𝑋, bằng cách xây dựng một ánh xạ hàm gọi là hàm thành viên (membership function) [1][5][82][83][84].
6 µ𝐴 : 𝑋 → [0,1] Hàm thành viên µ𝐴 (𝑥) định nghĩa cho tập 𝐴 trên tập vũ trụ 𝑋 trong khái niệm tập hợp kinh điển chỉ có hai giá trị là 1 nếu 𝑥 ∈ 𝐴 hoặc 0 nếu 𝑥 ∉ 𝐴. Tuy nhiên trong khái niệm tập mờ thì giá trị hàm thành viên chỉ mức độ thuộc về (membership degree) của phần tử 𝑥 vào tập mờ 𝐴. Khoảng xác định của hàm µ𝐴 (𝑥) là đoạn [0, 1], trong đó giá trị 0 chỉ mức độ không thuộc về, còn giá trị 1 chỉ mức độ thuộc về hoàn toàn. Theo đó, tập mờ được định nghĩa như sau [1][5][37]: Định nghĩa 1.1. Cho một tập vũ trụ 𝑋 với các phần tử ký hiệu bởi 𝑥, 𝑋 = {𝑥}. Một tập mờ 𝐴 trên 𝑋 là tập được đặc trưng bởi một hàm µ𝐴 (𝑥) mà nó liên kết mỗi phần tử 𝑥 ∈ 𝑋 với một số thực trong đoạn [0,1], trong đó µ𝐴 (𝑥) là một ánh xạ từ 𝑋 vào [0,1] và được gọi là hàm thành viên của tập mờ 𝐴. Kiểu của tập mờ phụ thuộc vào các kiểu hàm thành viên khác nhau. Đã có nhiều kiểu hàm thành viên khác nhau được đề xuất. Một số kiểu hàm thành viên sử dụng phổ biến trong logic mờ như sau (xem Hình 1.1) [37]: Hình 1.1. Đồ thị của 3 hàm thành viên phổ biến: (a) tam giác, (b) hình thang, (c) Gauss Dạng tam giác (Triangles): Hàm thành viên này được xác định bởi 3 tham số là cận dưới 𝑎, cận trên 𝑐 và giá trị 𝑏 (ứng với đỉnh tam giác), với 𝑎 < 𝑏 < 𝑐. Hàm thành viên này được gọi là đối xứng nếu nếu giá trị 𝑏 – 𝑎 bằng giá trị 𝑐 – 𝑏, hay 𝑏 = (𝑎 + 𝑏)/2. Công thức xác định hàm thành viên tam giác như sau:
7 0 𝑥𝑏 Dạng hình thang (Trapezoids): Hàm thành viên này được xác định bới bộ 4 giá trị 𝑎, 𝑏, 𝑐, 𝑑, với 𝑎 < 𝑏 < 𝑐 < 𝑑, theo công thức sau: 0 𝑥