Giới thiệu tài liệu
Đề án này nghiên cứu về các thuật toán lựa chọn thuộc tính, một bước tiền xử lý dữ liệu quan trọng giúp giảm thuộc tính dư thừa và tăng hiệu quả mô hình phân lớp. Luận văn tập trung vào các bảng quyết định động, đặc biệt là những bảng có miền giá trị số, thường gặp khó khăn với các phương pháp tập thô truyền thống. Để giải quyết vấn đề này, đề tài đề xuất một hướng tiếp cận mới sử dụng lý thuyết tập mờ và lát cắt α để cải thiện hiệu năng và độ chính xác của quá trình rút gọn thuộc tính trong các hệ thống thông tin động.
Đối tượng sử dụng
Luận văn này nhắm đến các nhà nghiên cứu, sinh viên cao học, và chuyên gia trong lĩnh vực Khoa học máy tính, Hệ thống thông tin, và Khai phá dữ liệu, đặc biệt những ai quan tâm đến lý thuyết tập thô, tập mờ và các ứng dụng của chúng trong bài toán lựa chọn thuộc tính và tiền xử lý dữ liệu.
Nội dung tóm tắt
Luận văn "Nghiên cứu một số thuật toán gia tăng lựa chọn thuộc tính trên bảng quyết định động theo tiếp cận tập mờ sử dụng lát cắt α" đề xuất và phát triển các thuật toán rút gọn thuộc tính hiệu quả cho bảng quyết định động. Mục tiêu chính là giảm số lượng thuộc tính trong khi vẫn duy trì hoặc nâng cao độ chính xác phân loại, đặc biệt đối với dữ liệu nhiễu hoặc không nhất quán. Nghiên cứu này kết hợp lý thuyết tập mờ với lát cắt α để xây dựng các công thức đo lường khoảng cách phân vùng tập mờ và công thức cập nhật khoảng cách này khi có sự biến động về đối tượng (thêm hoặc bớt). Đề tài trình bày hai thuật toán chính: một thuật toán tìm tập rút gọn cho bảng quyết định cố định và một thuật toán gia tăng tìm tập rút gọn xấp xỉ khi bảng quyết định có sự thay đổi về tập đối tượng. Kết quả thực nghiệm cho thấy các thuật toán đề xuất có khả năng cải thiện đáng kể độ chính xác phân loại so với các phương pháp tập thô và tập thô mờ truyền thống, đồng thời giảm đáng kể số lượng thuộc tính cần thiết, phù hợp với các hệ thống dữ liệu lớn và động trong thực tiễn. Nghiên cứu cũng phân tích độ phức tạp tính toán và so sánh hiệu năng với các thuật toán đã có, chứng minh ưu điểm về hiệu quả và khả năng ứng dụng.