2
MỞ ĐẦU
Tính cấp thiết của đề tài luận án
thuyết tập thô đóng vai trò quan trọng,
nền tảng trong tính toán hạt, trí tuệ nhân
tạo, khai phá dữ liệu, khám phá tri thức, nhận
dạng mẫu, hệ thống thông minh… Chính vì vậy
thuyết tập thô đã nhận được sự quan tâm của
đông đảo các nhà khoa học trong nước thế
giới. Trong các ứng dụng thực tế, dữ liệu
trong một hệ thông tin thường thay đổi không
ngừng, thế các kỹ thuật được đề xuất để
khai thác các sở dữ liệu động. Kỹ thuật này
thường sử dụng các kết quả khai thác thu được
từ cơ sở dữ liệu đầu tiên để làm điều kiện bảo
trì cập nhật lại các kiến thức trong sở
dữ liệu động không cần khai thác lại từ
đầu.
- Đã nhiều phương pháp cập nhật các
quyết định ba nhánh được đề xuất, tuy nhiên
chúng chủ yếu được sử dụng trong hệ thông tin
đầy đủ, còn đối với hệ thống không hoàn chỉnh
thì chỉ áp dụng trong từng trường hợp đơn lẻ.
- Các phương pháp cập nhật các tập xấp xỉ
chủ yếu tiếp cận theo hướng chia tập biên
thành các tập biên trên các tập biên dưới,
hoặc dựa vào sự thay đổi của các ma trận.
- Việc sử dụng tập thô mờ để xử bài toán
mất cân bằng dữ liệu theo hướng sử dụng các
ngưỡng khác nhau cho các lớp đa số và thiểu số
để chọn được nhiều đối tượng hơn từ các lớp
3
thiểu số. Tuy nhiên, việc chọn ngưỡng của
phương pháp này vẫn thực hiện thủ công vậy
chưa tối ưu.
Xuất phát từ thực tiễn nêu trên, luận án
chọn “Nghiên cứu phát triển các phương pháp
cập nhật bảng quyết định phủ động và xử mất
cân bằng dữ liệu dựa trên tập thô mờ” với mong
muốn đề xuất phương pháp học tăng cường và cân
bằng dữ liệu giúp tối ưu hóa thời gian hiệu
năng của mô hình.
Mục tiêu nghiên cứu
Nghiên cứu, đ xuất cập nhật c quyết định
ba nhánh đối với hệ thông tin không đầy đủ;
phương pháp cập nhật các tập xấp xỉ trong không
gian xấp xỉ phủ động và phương pháp sử dụng tập
thô mờ để cải thiện sự mất n bằng của dữ
liệu. Thực nghiệm, đánh giá các kỹ thuật đề
xuất.
Đối tượng và phạm vi nghiên cứu
Đối tượng luận án nghiên cứu các bảng
quyết định đầy đủ không đầy đủ với kích
thước trung bình và kích thước lớn.
Phạm vi nghiên cứu trọng tâm của luận án
bài toán cập nhật các tập xấp xỉ các quyết
định ba nhánh trong hệ thông tin không đầy đủ
bài toán ứng dụng tập thô vào tối ưu ngưỡng
để giảm sự mất cân bằng của dữ liệu. Đánh giá
các kỹ thuật đề xuất với các bộ số liệu lấy từ
kho dữ liệu UCI.
Nội dung nghiên cứu
4
Nghiên cứu, phân tích, đánh giá đề xuất
mới các phương pháp cập nhật các quyết định ba
nhánh các tập xấp xỉ trong bảng quyết định
không đầy đủ động. Nghiên cứu, đề xuất phương
pháp sử dụng tập thô mờ để làm giảm sự mất cân
bằng dữ liệu.
Phương pháp nghiên cứu:
Kết hợp nghiên cứu thuyết thực
nghiệm.
Ý nghĩa khoa học và thực tiễn
Nghiên cứu chuyên sâu hệ thống về bài
toán cập nhật gia tăng đối với bảng quyết định
không đầy đủ động bài toán giảm sự mất cân
bằng dữ liệu sử dụng tập thô mờ.
Bố cục của luận án
Luận án gồm 04 chương cùng với các phần mở
đầu, kết luận, danh mục các công trình khoa
học đã được công bố của tác giả và danh mục
tài liệu tham khảo.
5
CHƯƠNG 1
TỔNG QUAN VỀ TẬP THÔ VÀ CÁC MỞ RỘNG
CỦA TẬP THÔ
1.1 Mô hình tập thô truyền thống
1.2 Tập thô dung sai
1.3 Tập thô mờ
1.4 Quyết định ba nhánh
1.5 Tập thô phủ
1.6 Những vấn đề luận án cần tập trung nghiên
cứu giải quyết
- Dựa trên sự thay đổi của xác suất điều
kiện, đề xuất phương pháp cập nhật các quyết
định ba nhánh trong hệ thông tin không đầy đủ
khi đồng thời thêmxóa các đối tượng. Từ đó
đưa ra công thức cập nhật các quyết định ba
nhánh khi giá trị thuộc tính của một đối tượng
thay đổi.
- Xuất phát từ dạng thứ ba của hàm thành
viên thô được giới thiệu bởi Yang các cộng
sự luận án đề xuất phương pháp cập nhật các
tập xấp xỉ phân cấp trong không gian xấp xỉ
phủ động. Ý tưởng chính của phương pháp này
khảo sát sự thay đổi của hàm thành viên thô
dạng ba khi đồng thời thêm xóa các đối
tượng khỏi hệ thống, từ đó đưa ra công thức
cập nhật các tập xấp xỉ phân cấp.
- Cải tiến thuật toán trích chọn dữ liệu
được nhóm tác giả Van Nguyen, D đề xuất để phù
hợp hơn với các tập dữ liệu có độ mất cân bằng
cao, đồng thời đề xuất thuật toán tối ưu hóa