Tóm tắt Luận án Tiến sĩ Toán học: Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

54
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án trình bày về các nội dung: các khái niệm cơ bản về mô hình tập thô dung sai dựa trên quan hệ dung sai trong hệ thông tin không đầy đủ, phân nhóm và đánh giá các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ, đề xuất các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Toán học: Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ……..….***………… VŨ VĂN ĐỊNH RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62.46.01.10 TÓM TẮT NLUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2016 2 Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: GS.TS Vũ Đức Thi Người hướng dẫn khoa học 2: PGS.TS Ngô Quốc Tạo Phản biện 1: … Phản biện 2: … Phản biện 3: …. Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ .. ’, ngày … tháng … năm 2016 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Công nghệ - Thư viện Quốc gia Việt Nam 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Lý thuyết tập thô do Pawlak đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn. Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính. Trên bảng quyết định không đầy đủ, Kryszkiewicz đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai trong những năm gần đây là: phương pháp dựa trên miền dương, phương pháp sử dụng hàm quyết định suy rộng, phương pháp sử dụng lượng thông tin, phương pháp sử dụng metric, phương pháp sử dụng hàm phân bố (distribution reduct), phương pháp sử dụng hàm ấn định (assignment reduct), phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng ma trận dung sai. Trên cơ sở tổng kết các nghiên cứu liên quan đến các phương pháp rút gọn thuộc tính luận án đặt ra các vấn đề cần nghiên cứu như sau:  Có thể nói rằng tập rút gọn chính là kết quả của một phương pháp rút gọn thuộc tính. Trong bảng quyết định nhất quán, các công bố đã chỉ ra tập rút gọn của phương pháp dựa trên miền dương, tập rút gọn của phương pháp sử dụng hàm quyết định suy rộng, tập rút gọn sử dụng hàm phân bố, phương pháp sử dụng hàm ấn định, là có định nghĩa độ đo tương đương nhau. Tuy nhiên trên bảng quyết định không nhất quán, các tập rút gọn của các phương pháp là khác nhau và theo tài liệu hiện có mà tác giả biết thì chưa có nghiên cứu liên quan đến việc so sánh các tập rút gọn làm cơ sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.  Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính thường dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán heuristic tìm tập rút gọn và khả năng phân lớp của tập rút gọn. Từ việc tổng kết các phương pháp rút gọn thuộc tính, tác giả thấy rằng nếu cùng sử dụng một đơn vị tính toán cơ sở trong tập thô dung sai (lực lượng các lớp dung sai) thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp là gần như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh giá các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp (độ hỗ trợ của tập luật) của tập rút gọn. Về mặt định tính, tập rút gọn bảo toàn khả năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo 2 toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp nào có độ hỗ trợ của tập luật cao (luật quyết định phủ nhiều đối tượng) thì có khả năng phân lớp cao. Do đó, khả năng phân lớp được tính bằng độ hỗ trợ của tập luật. Các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ trợ của tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên, các tác giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút gọn của các phương pháp rút gọn thuộc tính, do đó các độ đo này không đánh giá được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ chắc chắn, độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn, làm cơ sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.  Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả nhất định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới vẫn đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương pháp rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp để giải quyết các bài toán trong thực tiễn. 2. Mục tiêu nghiên cứu của luận án 1) Trong bảng quyết định nhất quán, các công bố đã chỉ ra tập rút gọn của phương pháp trên là tương đương nhau. Tuy nhiên trên bảng quyết định không nhất quán, các tập rút gọn của các phương pháp là khác nhau và theo tài liệu hiện có mà tác giả biết thì chưa có nghiên cứu liên quan đến việc so sánh các tập rút gọn để so sánh, đánh giá các phương pháp rút gọn. 2) Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính thường dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán heuristic tìm tập rút gọn và khả năng phân lớp của tập rút gọn. Tác giả thấy rằng nếu cùng sử dụng một đơn vị tính toán cơ sở trong tập thô dung sai thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp là như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh giá các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp của tập rút gọn(độ hỗ trợ của tập luật). Về mặt định tính, tập rút gọn bảo toàn khả năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp nào có độ hỗ trợ của tập luật cao thì có khả năng phân lớp cao. Do đó, khả năng phân lớp được tính bằng độ hỗ trợ của tập luật. Trong các nghiên cứu trước, các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ trợ của tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên, các tác giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút gọn của các phương pháp rút gọn thuộc tính, do đó các độ đo này không đánh giá 3 được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ chắc chắn, độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn, làm cơ sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính. 3) Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả nhất định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới vẫn đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương pháp rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp để giải quyết các bài toán trong thực tiễn. 3. Các nội dung nghiên cứu chính của luận án Chương 1 trình bày các khái niệm cơ bản về mô hình tập thô dung sai dựa trên quan hệ dung sai trong hệ thông tin không đầy đủ Chương 2 trình bày hai kết quả chính. Thứ nhất là kết quả phân nhóm các phương pháp rút gọn thuộc tính dựa vào kết quả nghiên cứu mối liên hệ giữa các tập rút gọn. Thứ hai là đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định và nghiên cứu sự thay đổi giá trị các độ đo này trên các tập rút gọn nhằm so sánh, đánh giá các nhóm phương pháp rút gọn thuộc tính trên tiêu chuẩn khả năng phân lớp của tập rút gọn (độ hỗ trợ). Chương 3 trình bày ba kết quả chính. Thứ nhất là chọn tập tối tượng đại diện cho bài toán rút gọn thuộc tính nhằm giảm thiểu số đối tượng (dữ liệu), Thứ hai là đề xuất phương pháp mới rút gọn thuộc tính sử dụng hàm quan hệ và so sánh, thử nghiệm phương pháp với các phương pháp đã có trên các bộ số liệu UCI. Thứ ba là đề xuất phương pháp mới rút gọn thuộc tính sử dụng lượng thông tin mở rộng và so sánh, thử nghiệm phương pháp với các phương pháp đã có trên các bộ số liệu UCI. Chương 1. CÁC KHÁI NIỆM CƠ BẢN Chương này trình bày một số khái niệm cơ bản trong mô hình tập thô mở rộng dựa trên quan hệ dung sai, trên các hệ thông tin không đầy đủ. 1.1. Hệ thông tin không đầy đủ Hệ thông tin là một cặp IS  U , A trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính a  A xác định một ánh xạ: a : U  Va với Va là tập giá trị của thuộc tính a A. Với hệ thông tin IS  U , A , nếu tồn tại u U và a  A sao cho a  u  chứa giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ,