
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong thực tế, các khái niệm mờ luôn tồn tại nên với việc quan
niệm các đối tượng được sử dụng phải luôn rõ ràng ở trong logic cổ
điển sẽ không không đủ miêu tả các vấn đề của thế giới thực. Năm
1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệm
mờ, từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút sự
nghiên cứu của nhiều tác giả. Năm 1990, N.C. Ho & W. Wechsler đã
khởi xướng phương pháp tiếp cận đại số đến cấu trúc tự nhiên của
miền giá trị của các biến ngôn ngữ. Theo cách tiếp cận này, mỗi giá
trị ngôn ngữ của một biến ngôn ngữ nằm trong một cấu trúc đại số
gọi là đại số gia tử (ĐSGT). Trên cơ sở đó, đã có nhiều nghiên cứu
của nhiều tác giả trong các lĩnh vực: điều khiển mờ và lập luận mờ,
cơ sở dữ liệu mờ, phân lớp mờ,… và đã cho chúng ta nhiều kết quả
rất khả quan, có khả năng ứng dụng tốt.
Hiện nay, khai phá dữ liệu là bài toán cần ưu tiên cần giải quyết
mà phân lớp dữ liệu là một quá trình quan trọng của khai phá dữ liệu.
Đó là quá trình chia các đối tượng dữ liệu thành các lớp dựa trên các
nét đặc trưng của tập dữ liệu. Các phương pháp thường được sử dụng
trong quá trình học phân lớp như: thống kê, mạng nơron, cây quyết
định,… trong đó cây quyết định là một giải pháp hữu hữu hiệu. Đã
có nhiều nghiên cứu để xây dựng nó mà nổi bật là các thuật toán học
quy nạp như CART, ID3, C4.5, SLIQ, SPRINT, LDT, LID3,... Tuy
vậy, các cách tiếp cận cho việc học phân lớp bằng cây quyết định
hiện nay vẫn còn nhiều vấn đề cần giải quyết:
- Xây dựng cây quyết định dựa trên khái niệm Entropi thông tin
theo các phương pháp truyền thống như ID3, C4,5, CART, SLIQ,
SPRINT,…cho các thuật toán có độ phứt tạp thấp nhưng khả năng
dự đoán chưa cao, có thể dẫn đến tình trạng quá khớp trên cây kết
quả. Thêm vào đó, các phương pháp này không thể sử dụng để huấn
luyện và dự đoán trên các tập mẫu có chứa giá trị mờ, mà việc lưu
trữ dữ liệu mờ hiện nay là tất yếu trên các kho dữ liệu nghiệp vụ.
- Một hướng tiếp cận là thông qua lý thuyết tập mờ để tính lợi
ích thông tin của các thuộc tính mờ cho quá trình phân lớp. Cách này
đã giải quyết được các giá trị mờ trong tập huấn luyện thông qua việc
xác định các hàm thuộc, từ đó các bộ giá trị này có thể tham gia vào
quá trình huấn luyện nên đã giải quyết được hạn chế là bỏ qua các