BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
NGUYỄN BÁ QUẢNG
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
NGUYỄN BÁ QUẢNG
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
Chuyên ngành: Cơ sở toán học cho tin học 9 46 01 10 Mã số:
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN LONG GIANG
2. TS. NGÔ TRỌNG MẠI
Hà Nội - 2021
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các số liệu,
kết quả nghiên cứu trong luận án này là hoàn toàn trung thực và chưa từng
được ai công bố trong bất kỳ công trình nào khác, các dữ liệu tham khảo được
trích dẫn đầy đủ.
Tác giả luận án
Nguyễn Bá Quảng
ii
LỜI CÁM ƠN
Tôi xin chân thành cám ơn Thủ trưởng Viện Khoa học và Công nghệ
quân sự, Phòng Đào tạo, Viện Công nghệ thông tin và các đồng nghiệp đã
luôn động viên, quan tâm, tạo điều kiện thuận lợi và giúp đỡ tôi trong quá
trình học tập và nghiên cứu của mình.
Tôi xin bày tỏ sự biết ơn chân thành và sâu sắc đến PGS. TS Nguyễn
Long Giang, TS Ngô Trọng Mại đã tận tình chỉ bảo, hướng dẫn tôi trong suốt
quá trình nghiên cứu và hoàn thành bản luận án này.
Tôi xin chân thành cám ơn các nhà khoa học của Viện Khoa học và
Công nghệ quân sự, các nhà khoa học Viện Hàn lâm Khoa học và Công nghệ
Việt Nam, các nhà khoa học trong và ngoài quân đội đã giúp đỡ tôi hoàn
thành luận án.
Xin chân thành cám ơn gia đình và bạn bè đã luôn chia sẻ, động viên và
giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu.
iii
MỤC LỤC
Trang
LỜI CAM ĐOAN ................................................................................................................................................. i
LỜI CÁM ƠN ....................................................................................................................................................... ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................................................... v
DANH MỤC CÁC BẢNG ............................................................................................................................. vi
DANH MỤC CÁC HÌNH VẼ....................................................................................................................... vii
MỞ ĐẦU ............................................................................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ
DUNG SAI............................................................................................................................... 10
1.1. Hệ thông tin và mô hình tập thô truyền thống ............................................................ 10 1.1.1. Hệ thông tin ........................................................................................... 10 1.1.2. Mô hình tập thô truyền thống ................................................................ 11 1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai ........................................... 12 1.2.1. Hệ thông tin không đầy đủ .................................................................... 12 1.2.2. Mô hình tập thô dung sai ....................................................................... 12 1.2.3. Bảng quyết định không đầy đủ .............................................................. 14 1.2.4. Ma trận dung sai .................................................................................... 16 1.3. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai ............................... 18 1.3.1. Tổng quan về rút gọn thuộc tính ............................................................ 18 1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính .................................. 19 1.3.3. Rút gọn thuộc tính theo tiếp cận tập thô dung sai ................................. 21 1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai .... 24 1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô dung sai ................................. 24 1.4.2. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai ..................................................... 27 1.5. Kết luận chương 1 ......................................................................................................... 36 CHƯƠNG 2. THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ ................................................ 37 2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ ....................... 38 2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp ..................................... 39 2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính ........................... 40
iv
2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách ..... 42
2.2.1. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ ......................................................................................... 43 2.2.2. Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ ......................................................................................... 46 2.2.3. Thực nghiệm và đánh giá kết quả ............................................................ 49 2.3. Kết luận chương 2 ......................................................................................................... 54 CHƯƠNG 3. CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI ....................................... 55 3.1. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập đối tượng ....................................................................................................................... 58 3.1.1. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng ................. 58 3.1.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng ............................................................................................... 62 3.1.3. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng .................. 67 3.1.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập đối tượng ......................................................................................... 70 3.1.5. Thực nghiệm và đánh giá các thuật toán ............................................... 74
3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính ....................................................................................................................... 92 3.2.1. Công thức cập nhật khoảng cách khi bổ sung tập thuộc tính ................ 92 3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính .............................................................................................. 93 3.2.3. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính .................. 97 3.2.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính ........................................................................................ 98 3.2.5. Thực nghiệm và đánh giá các thuật toán ............................................. 101 3.3. Kết luận chương 3 ....................................................................................................... 106 KẾT LUẬN ....................................................................................................................................................... 108 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ................................................ 110 TÀI LIỆU THAM KHẢO ............................................................................................................................ 111
v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Số thuộc tính điều kiện trong bảng quyết định
Bảng quyết định không đầy đủ
Hệ thông tin không đầy đủ
Tập xấp xỉ dưới của
đối với P
đối với P
Tập xấp xỉ trên của Miền dương của P đối với d
Quan hệ dung sai trên tập thuộc tính P
Lớp dung sai chứa
của phủ
Lực lượng lớp dung sai
Số đối tượng
Giá trị của đối tượng
tại thuộc tính
Phủ của U trên P
IDS_F_DAR
IDS_IFW_AA
IDS_IFW_AO
IDS_IFW_DA
IDS_IFW_DO
IDS_FW_DAR
Filter Distance based Attribute Reduction in Incomplete Decision Tables Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Attributes. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Objects. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Attributes. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Objects. Filter-Wrapper Distance based Attribute Reduction in Incomplete Decision Tables
vi
DANH MỤC CÁC BẢNG
Trang
Bảng 1.2. Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ
theo tiếp cận tập thô dung sai .................................................................. 24
Bảng 1.3. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn
theo tiếp cận tập thô truyền thống và các mô hình mở rộng. ................... 28
Bảng 1.4. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn
theo tiếp cận tập thô dung sai .................................................................. 33
Bảng 2.1. Bảng quyết định của Ví dụ 2.1 ................................................................. 45
Bảng 2.2. Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR ................................. 50
Bảng 2.3. Thời gian thực hiện ba thuật toán (tính bằng giây) .................................. 51
Bảng 2.4. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba
thuật toán .................................................................................................. 52
Bảng 3.1. Bảng quyết định của Ví dụ 3.1 ................................................................. 61
Bảng 3.2. Bảng quyết định của Ví dụ 3.2 ................................................................. 69
Bảng 3.3. Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO ..................................... 75
Bảng 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s) . 77
Bảng 3.5. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật
toán IDS_IFW_AO và IDS_FW_DAR ................................................... 80
Bảng 3.6. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán
IDS_IFW_AO và IARM-I ....................................................................... 82
Bảng 3.7. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s) .......... 86
Bảng 3.8. Thời gian thực hiện của 03 thuật toán (s) ................................................. 89
Bảng 3.9. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán . 90
Bảng 3.10. Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA ........................ 102
Bảng 3.11. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật
toán IDS_IFW_AA và UARA ............................................................ 103
Bảng 3.12. Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s) ........ 105
Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi ........................................... 16
vii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Quy trình rút gọn thuộc tính ..................................................................... 20
Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính .......................... 21
Hình 1.3. Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai . 22
Hình 2.1. Thời gian thực hiện ba thuật toán (tính bằng giây) ................................... 51
Hình 2.2. Số lượng thuộc tính tập rút gọn của ba thuật toán .................................... 53
Hình 2.3. Độ chính xác phân lớp của ba thuật toán .................................................. 54
Hình 3.1. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR .... 79
Hình 3.2. Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR ................ 81
Hình 3.3.a. Bộ số liệu Audiology .............................................................................. 84
Hình 3.3.b. Bộ số liệu Soybean-large ....................................................................... 84
Hình 3.3.c. Bộ số liệu Congressional Voting Records.............................................. 84
Hình 3.3.d. Bộ số liệu Arrhythmia ............................................................................ 85
Hình 3.3.e. Bộ số liệu Anneal ................................................................................... 85
Hình 3.3.f. Bộ số liệu Advertisements ...................................................................... 85
Hình 3.3. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán
IDS_IFW_AO và IARM-I ........................................................................ 85
Hình 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I ................ 88
Hình 3.5. Thời gian thực hiện của 03 thuật toán (s) ................................................. 89
Hình 3.6. Độ chính xác phân lớp của 03 thuật toán .................................................. 91
Hình 3.7. Số thuộc tính tập rút gọn của 03 thuật toán............................................... 91
Trang
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Trong bối cảnh ngày nay, sự tăng trưởng không ngừng của dung lượng
dữ liệu và số lượng các thuộc tính đã gây khó khăn, thách thức cho việc thực
thi các thuật toán khai phá dữ liệu, phát hiện tri thức. Rút gọn thuộc tính (còn
gọi là rút gọn chiều, hay rút gọn đặc trưng) là bài toán quan trọng trong bước
tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không cần
thiết nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu. Hiện nay có
hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [39-40]: filter (lọc)
và wrapper (đóng gói). Cách tiếp cận filter thực hiện việc rút gọn thuộc tính
độc lập với thuật khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn
chỉ dựa trên độ quan trọng của chúng trong việc phân lớp dữ liệu. Trong khi
đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay
thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn
các tập con thuộc tính.
Lý thuyết tập thô (Rough set) do Pawlak đề xuất [113] được xem là công
cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy
đủ, đã và đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay.
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền
giá trị thuộc tính, gọi là bảng quyết định không đầy đủ. Ví dụ với bảng quyết
định chẩn đoán bệnh viêm gan với các thuộc tính là các triệu chứng, các bác
sĩ không thể thu thập đầy đủ các triệu chứng của tất cả các bệnh nhân để ra
quyết định. Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết
định không đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz
[67] mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành
quan hệ dung sai và xây dựng mô hình tập thô dung sai (tolerance rough set).
Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo
2
tiếp cận mô hình tập thô dung sai là các nghiên cứu mở rộng của các phương
pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống. Đây là các phương
pháp heuristic bao gồm các bước: xây dựng độ đo, định nghĩa tập rút gọn và
độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây
dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của
thuộc tính. Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết
định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương
pháp chính như: các phương pháp sử dụng miền dương mở rộng [25], [51],
[99], [114], [117], các phương pháp sử dụng ma trận phân biệt, hàm phân biệt
mở rộng [29], [45], [47], [57], [77], [80], [116], các phương pháp sử dụng
entropy thông tin mở rộng [26], [48-50], [64], [79], [107], các phương pháp
sử dụng độ đo lượng thông tin [72], [91], [94], phương pháp sử dụng khoảng
cách [62], [78] và một số phương pháp sử dụng các độ đo khác như quan hệ
không phân biệt mở rộng [85], độ bao phủ của thuộc tính [93]. Nhìn chung,
các phương pháp rút gọn thuộc tính theo tiếp cận tập thô và tập thô dung sai
đều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mô
hình phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn để
giảm thiểu độ phức tạp và nâng cao độ chính xác của mô hình. Các thuật toán
đã đề xuất trong các phương pháp nêu trên đều là các thuật toán heuristic theo
tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối
thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác của mô
hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn
của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ
chính xác phân lớp.
Tại Việt Nam, đã có một số luận án tiến sĩ giải quyết bài toán rút gọn
thuộc tính trong bảng quyết định theo tiếp cận mô hình tập thô truyền thống
và các mô hình tập thô mở rộng của nhóm nghiên cứu của thầy hướng dẫn. Cụ
3
thể, luận án tiến sĩ [2] đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng
quyết định đầy đủ theo tiếp cận filter truyền thống. Luận án tiến sĩ [1] đề xuất
các thuật toán rút gọn thuộc tính trong bảng quyết định không đầy đủ cố định.
Trong luận án tiến sĩ [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-
wrapper tìm tập rút gọn của bảng quyết định đầy đủ dựa trên lý thuyết tập thô
mờ (fuzzy rough set). Trong đó, giai đoạn filter tìm các ứng viên cho tập rút
gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán
độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ
chính xác phân lớp cao nhất. Kết quả thử nghiệm cho thấy, số lượng thuộc
tính tập rút gọn giảm thiểu đáng kể so với các phương pháp filter, trong khi
độ chính xác phân lớp vẫn được bảo toàn và cải thiện hơn. Tuy nhiên, các
phương pháp trong luận án [3] đều thực hiện trên bảng quyết định đầy đủ theo
tiếp cận tập thô mờ (fuzzy rough set). Do đó, mục tiêu nghiên cứu thứ nhất
của luận án là nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút
gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai nhằm
giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo toàn, cải
thiện độ chính xác mô hình phân lớp.
Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảng
quyết định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp
dụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều
thách thức. Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện
các thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ
và tốc độ tính toán. Với trường hợp bảng quyết định thay đổi, cập nhật, các
thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau
khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để vượt
qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán
gia tăng tìm tập rút gọn. Phương pháp gia tăng tìm tập rút gọn là kỹ thuật chỉ
tính toán sự thay đổi của tập rút gọn trên phần dữ liệu bổ sung (hoặc loại bỏ)
4
chứ không tính lại tập rút gọn trên toàn bộ tập dữ liệu ban đầu. Do các thuật
toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi nên
chúng giảm thiểu đáng kể thời gian thực hiện khi thực thi trên các bảng dữ
liệu thay đổi, biến động. Hơn nữa, các thuật toán gia tăng có thể thực hiện
được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng
quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ
sung từng phần vào bảng quyết định.
Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự
quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Theo tiếp
cận tập thô truyền thống và các mô hình mở rộng, các nghiên cứu liên quan
đến thuật toán gia tăng tìm tập rút gọn và tính toán các tập xấp xỉ của bảng
quyết định thay đổi khá sôi động và phong phú. Các nghiên cứu liên quan đến
các thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường hợp: bổ
sung và loại bỏ tập đối tượng [14], [20-21], [30], [33], [35], [37], [52], [55],
[59], [70], [87], [89], [95-96], [100], [102], [106], [108], [110-112], bổ sung
và loại bỏ tập thuộc tính [6], [19], [32], [53], [58], [60], [68], [76], [101],
[104], tập đối tượng thay đổi giá trị [10], [66], [88], [90], [103], tập thuộc tính
thay đổi giá trị [22], [31], [34], [36], [65]. Ngoài ra, một số công bố đề xuất
các thuật toán gia tăng tính toán các tập xấp xỉ trong các trường hợp: bổ sung
và loại bỏ tập đối tượng [12], [15], [43], [97], [105], [109], bổ sung và loại bỏ
tập thuộc tính [7], [24], [73], [75], tập đối tượng thay đổi giá trị [44], tập
thuộc tính thay đổi giá trị [11], [41], [74]. Theo tiếp cận tập thô dung sai,
trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tính
toán các tập xấp xỉ và tìm tập rút gọn của bảng quyết định không đầy đủ khá
sôi động và phong phú. Giống như tiếp cận tập thô truyền thống và các mô
hình mở rộng được trình bày ở trên, các nghiên cứu liên quan chủ yếu tập
trung vào trường hợp bổ sung, loại bỏ tập đối tượng [9], [13], [18], [23], [28],
[38], [42], [46], [56], [71], [81-82], [86]. Ngoài ra, công bố [83] giải quyết bài
5
toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; công bố [84] giải quyết
bài toán trong trường hợp tập đối tượng thay đổi giá trị; công bố [92] giải
quyết bài toán trong trường hợp tập thuộc tính thay đổi giá trị.
Giống như các thuật toán tìm tập rút gọn trong bảng quyết định không
đầy đủ đã trình bày ở trên, các thuật toán gia tăng tìm tập rút gọn trong các
phương pháp nêu trên đều theo hướng tiếp cận filter truyền thống. Do đó, tập
rút gọn tìm được chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân
lớp. Gần đây, các tác giả trong công trình [4] đề xuất thuật toán gia tăng tìm
tập rút gọn theo tiếp cận kết hợp filter-wrapper. Tuy nhiên, thuật toán gia tăng
trong [4] chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô
mờ trong trường hợp bổ sung tập đối tượng. Vì vậy, mục tiêu nghiên cứu thứ
hai của luận án là nghiên cứu các thuật toán gia tăng tìm tập rút gọn của bảng
quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu
số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp so với các
thuật toán đã công bố.
2. Mục tiêu nghiên cứu
Trên cơ sở phân tích các vấn đề còn tồn tại của các nghiên cứu liên quan,
mục tiêu của luận án là:
1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định
không đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc
tính tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độ
chính xác của mô hình phân lớp.
2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của
bảng quyết định không đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm
giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô
hình phân lớp so với các thuật toán gia tăng khác.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là bảng quyết định không đầy đủ, mô
6
hình tập thô dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tập
thô dung sai và các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập
thô dung sai.
Phạm vi nghiên cứu của luận án là các phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm.
1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính
theo tiếp cận tập thô dung sai đã công bố, bao gồm các thuật toán trên bảng
quyết định không thay đổi và các thuật toán gia tăng trên bảng quyết định
thay đổi. Phân tích ưu điểm, nhược điểm và các vấn đề còn tồn tại của các
thuật toán đã có. Trên cơ sở đó, đề xuất các độ đo cải tiến và các thuật toán
theo hướng tiếp cận kết hợp filter-wrapper. Các đề xuất, cải tiến được chứng
minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề.
2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy
thử nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu
từ kho dữ liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về
lý thuyết.
5. Nội dung nghiên cứu
1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết
định không đầy đủ dựa trên mô hình tập thô dung sai theo tiếp cận kết hợp
filter-wrapper.
2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng
quyết định không đầy đủ thay đổi theo tiếp cận kết hợp filter-wrapper. Bảng
7
quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập
thuộc tính.
3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các
thuật toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI
[118].
6. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định không
đầy đủ theo tiếp cận kết hợp filter-wrapper trong trường hợp bảng quyết định
cố định và bảng quyết định thay đổi. Cụ thể luận án có các kết quả chính như
sau:
1) Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp
cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định
không đầy đủ sử dụng độ đo khoảng cách. Kết quả thử nghiệm trên các bộ số
liệu mẫu từ kho dữ liệu UCI (UC Irvine Machine Learning Repository) [118]
cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số
lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với
các thuật toán filter khác.
2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04
thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không
đầy đủ:
(1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn
trong trường hợp bổ sung tập đối tượng;
(2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường
hợp loại bỏ tập đối tượng;
(3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn
trong trường hợp bổ sung tập thuộc tính.
8
(4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn
trong trường hợp loại bỏ tập thuộc tính.
Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118] cho
thấy, các thuật toán gia tăng filter-wrapper IDS_IFW_AO và IDS_IFW_AA
giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác
mô hình phân lớp so với các thuật toán gia tăng filter khác.
Ý nghĩa thực tiễn
Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn
thuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa,
nâng cao hiệu quả các mô hình khai phá dữ liệu và học máy, đặc biệt là các hệ
thống cơ sở dữ liệu không đầy đủ, thiếu giá trị trong các lĩnh vực chẩn đoán y
tế, tài chính ngân hàng.
7. Bố cục của luận án
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ
bản về lý thuyết tập thô truyền thống, mô hình tập thô dung sai và tổng quan về
tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các
nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai, các
nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận
tập thô dung sai trong mấy năm gần đây. Trên cơ sở đó, luận án phân tích các
vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết
quả đạt được.
Các đóng góp chính của luận án được trình bày trong chương 2, chương
3. Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới.
Sử dụng độ đo khoảng cách mới, chương 2 đề xuất thuật toán IDS_F_DAR tìm
tập rút gọn theo tiếp cận filter và thuật toán IDS_FW_DAR tìm tập rút gọn
9
theo tiếp cận kết hợp filter-wrapper. Các thuật toán trên thực hiện trên bảng
quyết định không đầy đủ cố định.
Chương 3 xây dựng các công thức gia tăng tính độ đo khoảng cách và đề
xuất bốn thuật toán gia tăng filter-wrapper tìm tập rút gọn trong bảng quyết
định thay đổi, cụ thể là:
1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung
tập đối tượng;
2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập
đối tượng;
3) Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung
tập thuộc tính;
4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập
thuộc tính.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát
triển và những vấn đề quan tâm của tác giả.
10
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH
THEO TIẾP CẬN TẬP THÔ DUNG SAI
1.1. Hệ thông tin và mô hình tập thô truyền thống
Lý thuyết tập thô truyền thống do Z.Pawlak [113] đề xuất là công cụ
toán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn.
Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương
đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập
đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó.
Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở
để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu.
Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tập
thô truyền thống của Z.Pawlak [113], là cơ sở nền tảng cho mô hình tập thô
dung sai được trình bày ở phần 1.2.
1.1.1. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu
gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách
hình thức, hệ thông tin là một cặp trong đó U là tập hữu hạn, khác
rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính
xác định một ánh xạ: với Va là tập giá trị của thuộc tính
.
Xét hệ thông tin . Mỗi tập con các thuộc tính xác định
một quan hệ hai ngôi trên U, ký hiệu là , xác định bởi
.
là quan hệ P-không phân biệt được. Dễ thấy rằng là một
quan hệ tương đương trên U. Nếu thì hai đối tượng u và v
11
không phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương
xác định một phân hoạch trên U, ký hiệu là hay . Ký
hiệu lớp tương đương trong phân hoạch chứa đối tượng u là , khi đó
.
1.1.2. Mô hình tập thô truyền thống
Cho hệ thông tin và tập đối tượng . Với một tập thuộc
tính cho trước, chúng ta biểu diễn X thông qua các lớp tương đương
của (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi
hợp của một số hữu hạn các lớp tương đương của . Có hai cách xấp xỉ
tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-
xấp xỉ trên của X, ký hiệu là lượt là và , được xác định như sau:
Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính
B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
: B-miền biên của X , : B-miền ngoài của X.
B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không
thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc
X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể
viết lại
,
Trong trường hợp thì X được gọi là tập chính xác (exact
set), ngược lại X được gọi là tập thô (rough set).
12
Xét hệ thông tin với , ta gọi B-miền dương của D là
tập được xác định như sau
Rõ ràng là tập tất cả các đối tượng u sao cho với mọi mà
ta đều có . Nói cách khác,
.
1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Phần này trình bày một số khái niệm cơ bản về mô hình tập thô dung sai
trên hệ thông tin không đầy đủ do Kryszkiewicz [67] đề xuất
1.2.1. Hệ thông tin không đầy đủ
Xét hệ thông tin , nếu tồn tại và sao cho chứa
giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái
lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là
‘*’ và hệ thông tin không đầy đủ là .
1.2.2. Mô hình tập thô dung sai
Xét hệ thông tin không đầy đủ , với tập thuộc tính P, ta
định nghĩa một quan hệ nhị phân trên U như sau:
.
Quan hệ không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu. Do đó, là một quan
hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên
U. Dễ thấy rằng .
13
Gọi là tập . là tập lớn nhất các đối
tượng không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên
quan hệ dung sai, còn gọi là một lớp dung sai hay một hạt thông tin. Ký hiệu
tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên U là , khi
đó các lớp dung sai trong không phải là một phân hoạch của U mà
hình thành một phủ của U vì chúng có thể giao nhau và .
Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và
P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là
và , được xác định như sau
Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập
và P-miền ngoài của X là tập . Trong trường hợp
thì X được gọi là tập chính xác (exact set), ngược lại X được gọi
là tập thô dung sai (tolerance rough set).
Với , ta gọi P-miền dương của D là tập được xác định như sau
Rõ ràng là tập tất cả các đối tượng u sao cho với mọi
ta đều có . Nói cách khác, .
Như vậy, mô hình tập thô dung sai là mô hình tập thô mở rộng dựa trên
quan hệ dung sai trên các hệ thông tin không đầy đủ với các tập xấp xỉ dưới,
xấp xỉ trên được định nghĩa dựa trên quan hệ dung sai.
14
1.2.3. Bảng quyết định không đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập
thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt
được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là
với .
Xét bảng quyết định , nếu tồn tại và sao cho
thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS
được gọi là bảng quyết định đầy đủ. Ta biểu diễn bảng quyết định không đầy
đủ là với . Không mất tính chất tổng quát, giả
thiết D chỉ gồm một thuộc tính quyết định duy nhất .
Định nghĩa 1.1. Cho bảng quyết định , nếu tồn tại
và sao cho thiếu giá trị thì DS được gọi là bảng quyết định không
đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.
Bảng quyết định không đầy đủ được ký hiệu là với giả
thiết . (thuộc tính quyết định có đầy đủ giá trị).
Định nghĩa 1.2. Cho bảng quyết định không đầy đủ ,
giả sử tập đối tượng được bổ sung vào U hoặc loại bỏ từ U. Khi đó, IDS
được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập đối tượng và
bảng quyết định mới là hoặc
tương ứng.
Định nghĩa 1.3. Cho bảng quyết định không đầy đủ ,
giả sử tập thuộc tính điều kiện được bổ sung vào C hoặc loại bỏ từ C. Khi
đó, IDS được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập
15
thuộc tính và bảng quyết định mới là hoặc
tương ứng.
Cho bảng quyết định không đầy đủ . Với , ,
gọi là hàm quyết định suy rộng của đối tượng u trên tập
thuộc tính P. Nếu với mọi thì IDS là nhất quán, trái lại IDS là
không nhất quán.
Với bảng quyết định không đầy đủ IDS, miền dương của C đối với
là , khi đó IDS là nhất quán khi và chỉ khi
.
Với , quan hệ dung sai xác định một phủ (covering) trên U,
ký hiệu là . Ký hiệu
là tập tất cả các phủ của U sinh bởi các tập con
thuộc tính . Trên , phần tử nhỏ nhất
được gọi là phủ rời rạc, phần tử lớn nhất
được gọi là phủ một khối. Một quan hệ thứ tự
bộ phận được định nghĩa trên như sau:
. Dấu đẳng thức
. và
.
Ví dụ 1.1. Xét bảng quyết định về các xe hơi cho ở Bảng 1.1. Bảng 1.1 là
bảng quyết định không đầy đủ với ,
16
với (Đơn giá), (Km đã đi), (Kích thước), (Tốc độ)
và (Gia tốc)
Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi
Ô tô Đơn giá Km đã đi Kích thước Tốc độ Gia tốc
Cao Nhiều Trung bình Thấp Nhanh u1
Thấp * Trung bình Thấp Nhanh u2
* * Gọn nhẹ Cao Chậm u3
Cao * Trung bình Cao Nhanh u4
* * Trung bình Cao Rất nhanh u5
Thấp Nhiều Trung bình Nhanh * u6
Các lớp dung sai của các đối tượng như sau:
, , , ,
, .
với Ta có . Các
tập xấp xỉ dưới đối với C là . Do đó,
.
Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính C là:
{Nhanh}, {Nhanh}, {Chậm}, {Nhanh, Rất
nhanh}, {Nhanh, Rất nhanh}, {Nhanh, Rất nhanh}. Do đó,
IDS là bảng quyết định không đầy đủ không nhất quán.
1.2.4. Ma trận dung sai
Ma trận dung sai là công cụ biểu diễn giá trị quan hệ dung sai của các
đối tượng trong bảng quyết định không đầy đủ và được định nghĩa như sau:
17
Định nghĩa 1.4. Cho bảng quyết định không đầy đủ với
và . Khi đó, ma trận dung sai của quan hệ dung sai
, ký hiệu là , được định nghĩa như sau:
trong đó là giá trị của quan hệ dung sai giữa hai đối tượng và trên tập
thuộc tính P, nếu và nếu với
Với việc biểu diễn quan hệ dung sai bằng ma trận dung sai
, ta có mọi , và . Với
, ta có . Giả sử
là hai ma trận dung sai của , , khi đó ma trận
dung sai trên tập thuộc tính là
với
, Xét bảng quyết định không đầy đủ với
, . Giả sử tập đối tượng X được biểu diễn bằng véc tơ một chiều
với nếu và nếu . Khi đó,
và .
Ví dụ 1.2. Xét bảng quyết định ở Ví dụ 1.1, khi đó ma trận dung sai của
quan hệ là
18
Khi đó ta có , , , ,
, .
1.3. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai
1.3.1. Tổng quan về rút gọn thuộc tính
Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung
lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc
thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn
số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ
nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn
chiều - dimension reduction, rút gọn đặc trưng - feature reduction) trở thành
đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhận
dạng thống kê, học máy, khai phá dữ liệu.
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu
với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính
hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất
lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc
tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute
selection) và biến đổi thuộc tính (Attribute transformation). Lựa chọn thuộc
tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc
tính ban đầu của tập dữ liệu. Trong khi đó, biến đổi thuộc tính là thực hiện
việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới
với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất. Trong luận án
19
này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là
rút gọn thuộc tính.
1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính
Rút gọn thuộc tính là quá trình lựa chọn một tập con gồm P thuộc tính từ
tập gồm M thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại
một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc
tính tốt nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực
hiện; nhiều bài toán liên quan đến vấn đề này là những bài toán NP - khó.
Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ
bản:
(1) Tạo lập tập con,
(2) Đánh giá tập con,
(3) Kiểm tra điều kiện dừng,
(4) Kiểm chứng kết quả.
Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các
tập con để đánh giá, lựa chọn. Giả sử có M thuộc tính trong tập dữ liệu ban
đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là . Với số ứng viên
này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc
không thể. Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần
lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được
đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất
trước đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm
tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a)
đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựa
chọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không cho
một tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá.
Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành
20
các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất”
này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khác
Hình 1.1. Quy trình rút gọn thuộc tính
nhau.
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính
[39-40]: filter (lọc) và wrapper (đóng gói). Mỗi cách tiếp cận có những mục
tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác.
Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật
khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ
quan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộc
tính. Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý
thuyết tập thô và các mở rộng đều theo hướng tiếp cận này. Ngược lại với
cách tiếp cận filter, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách
áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu
chuẩn để lựa chọn các tập con thuộc tính. Cách tiếp cận filter có ưu điểm là
thời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tin
nhãn lớp của các bộ dữ liệu nên độ chính xác không cao
21
Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Với phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô, theo cách
tiếp cận truyền thống filter, tập rút gọn là tập thuộc tính tối thiểu bảo toàn độ
đo được định nghĩa, độ chính xác phân lớp được tính sau khi tìm được tập rút
gọn, do đó tập rút gọn chưa tối ưu về số thuộc tính tập rút gọn và độ chính xác
phân lớp. Cách tiếp cận kết hợp filter-wrapper bao gồm hai giai đoạn: giai
đoạn filter tìm các ứng viên cho tập rút gọn, giai đoạn wrapper tìm ứng viên
tập rút gọn có độ chính xác phân lớp cao nhất. Do đó, tập rút gọn tìm được
giảm thiểu số thuộc tính và cải thiện độ chính xác phân lớp. Tuy nhiên, nhược
điểm của phương pháp filter-wrapper này là thời gian thực hiện lớn hơn các
phương pháp filter do phải chạy bộ phân lớp trong bước wrapper. Hướng tiếp
cận này được sử dụng chủ yếu trong bước rút gọn thuộc tính trong giai đoạn
tiền xử lý dữ liệu của khai phá dữ liệu.
1.3.3. Rút gọn thuộc tính theo tiếp cận tập thô dung sai
Lý thuyết tập thô truyền thống do Pawlak đề xuất [113] là công cụ hiệu
quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ, đã và
đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay. Trong các bài
22
toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc
tính, gọi là bảng quyết định không đầy đủ. Để giải quyết bài toán rút gọn
thuộc tính trực tiếp trên bảng quyết định không đầy đủ mà không qua bước
tiền xử lý giá trị thiếu, Kryszkiewicz [67] mở rộng quan hệ tương đương
trong lý thuyết tập thô truyền thống thành quan hệ dung sai và xây dựng mô
hình tập thô dung sai. Các phương pháp rút gọn thuộc tính trong bảng quyết
định không đầy đủ theo tiếp cận mô hình tập thô dung sai là các nghiên cứu
mở rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền
thống, bao gồm các bước như sau:
Tập thuộc tính ban đầu
Định nghĩa tập rút gọn
Định nghĩa độ quan trọng của thuộc tính
Xây dựng thuật toán heuristic tìm một tập rút gọn
Tập rút gọn
Hình 1.3. Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai
1) Định nghĩa khái niệm tập rút gọn dựa trên một độ đo được định nghĩa,
ví dụ miền dương, ma trận phân biệt, hàm phân biệt, entropy thông tin,
khoảng cách, lượng thông tin, hạt thông tin...
23
2) Đưa ra khái niệm độ quan trọng của thuộc tính dựa trên độ đo được
định nghĩa. Độ quan trọng của thuộc tính đặc trưng cho khả năng đóng góp của
thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng
lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại.
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo
tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của
thuộc tính).
Như vậy, nhiệm vụ quan trọng nhất của một phương pháp rút gọn thuộc
tính theo tiếp cận tập thô là xây dựng một thuật toán heuristic tìm tập rút gọn
của bảng quyết định. Thuật toán này giảm thiểu đáng kể khối lượng tính toán,
nhờ đó có thể áp dụng đối với các bài toán có dữ liệu lớn. Các thuật toán
heuristic này thường được xây dựng theo hai hướng tiếp cận khác nhau:
hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-
down). Ý tưởng chung của các thuật toán theo tiếp cận top-down là xuất phát
từ tập rỗng, lần lượt bổ sung vào các thuộc tính điều kiện có độ quan trọng
lớn nhất cho cho đến khi thu được tập rút gọn. Các thuật toán được xây dựng
theo hướng tiếp cận bottom-up xuất phát từ tập thuộc tính điều kiện ban đầu,
lần lượt loại bỏ các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được
tập rút gọn. Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách các
thuộc tính theo thứ tự tăng dần hoặc giảm dần theo độ quan trọng tại mỗi bước
lặp của thuật toán. Tập rút gọn tìm được là tập thuộc tính điều kiện nhỏ nhất bảo
toàn độ đo được định nghĩa. Việc kiểm tra độ chính xác phân lớp của bảng quyết
định được thực hiện sau khi tìm được tập rút gọn. Do đó, các phương pháp rút
gọn thuộc tính theo tiếp cận tập thô dung sai được đề xuất cho đến nay là các
phương pháp theo tiếp cận filter.
24
1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập
thô dung sai
Kể từ khi Kryszkiewicz [67] đề xuất mô hình tập thô dung sai, các
phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định không đầy đủ
theo tiếp cận tập thô dung sai đã thu hút sự quan tâm của cộng đồng nghiên
cứu về tập thô. Trong phần này, chúng tôi trình bày tóm tắt các nghiên cứu
liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai với hai trường
hợp: bảng quyết định không thay đổi và bảng quyết định thay đổi.
1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô dung sai
1.4.1.1. Các nghiên cứu liên quan
Trong hai thập kỷ vừa qua đã chứng kiến sự phát triển mạnh mẽ và sôi
động của lĩnh vực nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô dung
sai. Nhiều nhóm nhà khoa học trên thế giới và tại Việt Nam đã đề xuất các
thuật toán rút gọn thuộc tính hiệu quả trong bảng quyết định không đầy đủ sử
dụng các độ đo khác nhau như miền dương, entropy thông tin, lượng thông tin,
ma trận phân biệt, hàm phân biệt, khoảng cách…Bảng 2.1 trình bày các
nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng
Bảng 1.2. Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai
quyết định không đầy đủ theo tiếp cận tập thô dung sai.
Công bố, năm xuất bản Thuật toán
STT 1) Miền dương 1
Các thuật toán tìm tập rút gọn sử dụng miền dương mở rộng
Hu và các cộng sự [51], 2017. Xu và các cộng sự [117], 2013. Peng và các cộng sự [25], 2010. Meng và các cộng sự [114],
2009.
2 Qian và các cộng sự [99], 2011. Thuật toán tìm tập rút gọn sử
dụng miền dương xấp xỉ
25
Thuật toán
STT Công bố, năm xuất bản 2) Ma trận phân biệt, hàm phân biệt 3
Ma và các cộng sự [29], 2017. Vu Van Dinh, Nguyen Long
Các thuật toán sử dụng ma trận phân biệt, hàm phân biệt mở rộng. Giang [77], 2013.
4
Các thuật toán tìm tập rút gọn sử dụng ma trận phân biệt, ma trận gán
5 Zou và các cộng sự [45], 2012. Tan và các cộng sự [80], 2010. Xu và các cộng sự [116], 2009. Zhou và các cộng sự [57], 2009. Thuật toán tìm tập rút gọn sử
6 Li và các cộng sự [47], 2010.
dụng ma trận tương tự Thuật toán tìm tập rút gọn sử dụng ma trận nhị phân
3) Entropy thông tin 7
Các thuật toán tìm tập rút gọn sử dụng entropy thông tin mở rộng.
8 Tao và các cộng sự [107], 2017. Yue và các cộng sự [26], 2015. Xu và các cộng sự [49], 2013. Dai và các cộng sự [50], 2013. Sun và các cộng sự [64], 2012. Qian và các cộng sự [79], 2015. Thuật toán tìm tập rút gọn sử
dụng entropy tương hỗ mở rộng
Các thuật toán tìm tập rút gọn sử dụng lượng thông tin mở rộng
10 4) Độ đo lượng thông tin, hạt thông tin 9 Xu và các cộng sự [91], 2019. Xu và các cộng sự [94], 2012. Sai Prasad và các cộng sự [72],
Thuật toán tìm tập rút gọn sử dụng hạt thông tin mở rộng 2012.
5) Độ đo khoảng cách 11 Vu Van Dinh và các cộng sự
Các thuật toán tìm tập rút gọn sử dụng độ đo khoảng cách [78], 2015.
Long Giang Nguyen, Hung Son
Nguyen [62], 2013.
6) Các độ đo khác 12 Xie và các cộng sự [92], 2018.
Thuật toán tìm tập rút gọn sử dụng độ đo không nhất quán.
26
Thuật toán
STT 13 Công bố, năm xuất bản Shu và các cộng sự [85], 2014.
14
Zhao và các cộng sự [48], 2014.
15 Meng và các cộng sự [115],
2012.
16
17
Thuật toán tìm tập rút gọn sử dụng quan hệ không phân biệt được Các thuật toán tìm tập rút gọn sử dụng hàm quyết định suy rộng, entropy dựa trên quan hệ dung sai lân cận. So sánh, đánh giá các thuật toán heuristic tìm tập rút gọn Thuật toán tìm tập rút gọn sử dụng độ bao phủ của thuộc tính Nghiên cứu về các tập rút gọn và mối quan hệ giữa chúng. Dai và các cộng sự [93], 2010. Qian và các cộng sự [98], 2010. Nguyen Long Giang và các
cộng sự [69], 2013.
1.4.1.2. Các vấn đề còn tồn tại
Các thuật toán tìm tập rút gọn đều hướng tới mục tiêu là tìm được tập rút
gọn hiệu quả nhất để thực thi mô hình phân lớp dựa trên các tiêu chí: giảm
thiểu tối đa số thuộc tính tập rút gọn để giảm thiểu độ phức tạp của mô hình và
nâng cao độ chính xác của mô hình. Các thuật toán đã đề xuất được trình bày
trong Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter
truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn
độ đo được định nghĩa. Việc đánh giá độ chính xác của mô hình phân lớp được
thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn của các thuật toán
filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.
1.4.1.3. Định hướng nghiên cứu thứ nhất của luận án
Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2,
khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn
thuộc tính trong bảng quyết định không đầy đủ [62], [78]. Do đó, mục tiêu
nghiên cứu thứ nhất của luận án là nghiên cứu, đề xuất các thuật toán tìm tập
27
rút gọn sử dụng độ đo khoảng. Khác với hướng tiếp cận filter của các phương
pháp đã công bố trong Bảng 1.2, luận án sử dụng hướng tiếp cận kết hợp
filter-wrapper để xây dựng các thuật toán nhằm giảm thiểu số lượng thuộc
tính của tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác mô
hình phân lớp.
1.4.2. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định
không đầy đủ theo tiếp cận tập thô dung sai
Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảng
quyết định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp
dụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều
thách thức. Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện
các thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ
và tốc độ tính toán. Với trường hợp bảng quyết định thay đổi, cập nhật, các
thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau
khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để vượt
qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán
gia tăng tìm tập rút gọn. Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn
trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng
quyết định. Với các bảng quyết định thay đổi, cập nhật, các thuật toán gia
tăng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa, các thuật toán gia tăng
có thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp
chia nhỏ bảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi
lần lượt bổ sung từng phần vào bảng quyết định.
Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự
quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Trong phần
này, chúng tôi trình bày các nghiên cứu liên quan đến các thuật toán gia tăng
tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô truyền thống
28
và bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai, trên cơ sở đó
đưa ra các vấn đề còn tồn tại và động lực nghiên cứu của luận án.
1.4.2.1. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo
tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng
Theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng, các
nghiên cứu liên quan đến thuật toán gia tăng tính toán các tập xấp xỉ và tìm
tập rút gọn trong bảng quyết định thay đổi khá sôi động. Các nghiên cứu liên
quan đến các thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường
hợp: bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính; tập đối
tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị. Bảng 1.3 mô tả chi tiết
các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn theo các
Bảng 1.3. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình mở rộng.
trường hợp được mô tả ở trên.
Thuật toán
Công bố, năm xuất bản STT 1. Trường hợp bổ sung, loại bỏ tập đối tượng 1.1. Tiếp cận tập thô truyền thống 1
2
Shua và các cộng sự [100], 2019 Ma và các cộng sự [30], 2019 Guan và các cộng sự [59], 2009
3
Thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mới. Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt. Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt trên bảng quyết định nén.
4
Các thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.
5 Wei và các cộng sự [89], 2018 Yang và các cộng sự [110], 2017 Das và các cộng sự [5], 2018 Hu và các cộng sự [27], 2005 Hao và các cộng sự [33], 2017
Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương xung đột.
29
STT 6
Thuật toán Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt tri thức
7 Công bố, năm xuất bản Jing và các cộng sự [102], 2017 Jing và các cộng sự [100], 2016 Nguyen Thi Lan Huong, Nguyen
Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách Long Giang [70], 2016
8 Liang và các cộng sự [55], 2014 Thuật toán gia tăng tìm tập rút
gọn sử dụng entropy thông tin
9
10 Liu và các cộng sự [21], 2009
Chen và các cộng sự [43], 2013. Các thuật toán gia tăng tính toán các tập xấp xỉ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng độ bao phủ.
1.2. Tiếp cận mô hình tập thô độ chính xác thay đổi
11 Huang và các cộng sự [108],
2017
Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt mở rộng Chen và các cộng sự [20], 2016
1.3. Tiếp cận mô hình tập thô bao phủ
12 Lang và các cộng sự [37], 2018
13 Lang và các cộng sự [35], 2017
Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương dựa trên họ liên quan Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận đặc trưng
1.4. Tiếp cận mô hình tập thô trên bảng quyết định ba chiều
14 Yang và các cộng sự [95], 2017 Thuật toán gia tăng tìm tập rút
15
gọn sử dụng ma trận. Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt thông tin mở rộng. Luo và các cộng sự [14], 2019 Yang và các cộng sự [96], 2017 Qian và các cộng sự [52], 2017
1.5. Tiếp cận tập thô dựa trên quan hệ trội
16
Li và các cộng sự [105], 2015.
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi
30
STT Công bố, năm xuất bản Thuật toán
1.6. Tiếp cận tập thô xác suất
17 Luo và các cộng sự [12], 2017.
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi
1.7. Tiếp cận tập thô đa hạt
18 Hu và các cộng sự [11], 2017.
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi dựa trên tính toán ma trận.
1.8. Tiếp cận tập thô mờ
19 Huang và các cộng sự [109],
2017.
Các thuật toán gia tăng tìm tập xấp xỉ mờ trong bảng quyết định thay đổi Cheng và các cộng sự [97],
2011.
20 Liu và các cộng sự [106], 2017. Thuật toán gia tăng tìm tập rút
21 Yang và các cộng sự [111],
2017.
gọn sử dụng độ phụ thuộc mờ. Các thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ phân biệt mờ. Yang và các cộng sự [112],
2017.
2. Trường hợp bổ sung, loại bỏ tập thuộc tính
2.1. Tiếp cận tập thô truyền thống
22
Jing và các cộng sự [104], 2018 Jing và các cộng sự [101], 2016
Các thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức.
23
24 Dev. Janos và các cộng sự [19],
2016.
25 Xie và các cộng sự [53], 2013.
Raza và các cộng sự [68], 2016. Thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc của thuộc tính. Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách. Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.
31
Công bố, năm xuất bản Thuật toán
STT 26 Wang và các cộng sự [32], 2013. Thuật toán gia tăng tìm tập rút
27 Li và các cộng sự [76], 2007
gọn sử dụng entropy thông tin. Thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ đặc trưng.
2.2. Tiếp cận tập thô dựa trên quan hệ trội
28
Wang và các cộng sự [75], 2016. Li và các cộng sự [73], 2013.
29 Zhang và các cộng sự [58], 2012.
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận quan hệ trội.
2.3. Tiếp cận tập thô xác suất 30 Wang và các cộng sự [60], 2018.
Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận.
31 Liu và các cộng sự [24], 2015.
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi
2.4. Tiếp cận tập thô mờ 32 Zeng và các cộng sự [7], 2016.
33 Zeng và các cộng sự [6], 2015
Các thuật toán gia tăng tìm tập xấp xỉ mờ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ.
3. Trường hợp tập đối tượng thay đổi giá trị 3.1. Tiếp cận tập thô truyền thống 34
Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt, ma trận phân biệt tối giản
35 Yang và các cộng sự [10], 2019. Wei và các cộng sự [90], 2018. Jing và các cộng sự [103], 2017.
36 Liu và các cộng sự [88], 2016.
Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức. Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo lượng thông tin.
32
STT 37 Công bố, năm xuất bản Chen và các cộng sự [44], 2013.
Thuật toán Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi
3.2. Tiếp cận mô hình tập thô bao phủ 38 Cai và các cộng sự [66], 2019
Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt bao phủ.
4. Trường hợp tập thuộc tính thay đổi giá trị
4.1. Tiếp cận tập thô truyền thống 39 Wang và các cộng sự [31], 2013. Thuật toán gia tăng tìm tập rút
40 Chen và các cộng sự [41], 2010.
41 Liu và các cộng sự [22], 2009.
gọn sử dụng entropy thông tin. Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận tương đương
4.2. Tiếp cận tập thô dựa trên quan hệ trội 42
Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi Li và các cộng sự [74], 2015. Luo và các cộng sự [11], 2014.
4.3. Tiếp cận mô hình tập thô bao phủ 43
Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận đặc trưng loại 1 và loại 2. Lang và các cộng sự [36], 2017. Cai và các cộng sự [65], 2017. Lang và các cộng sự [34], 2016.
Như vậy, hướng tiếp cận tính toán gia tăng tìm tập rút gọn trong bảng
quyết định theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng
khá đa dạng và phong phú với nhiều độ đo khác nhau được sử dụng. Các
phương pháp gia tăng đề xuất đều có điểm chung là xây dựng các công thức
gia tăng tính toán độ đo (như độ đo thông tin entropy, ma trận phân biệt, hàm
khoảng cách...). Dựa trên công thức tính độ đo, các phương pháp đều xây
dựng thuật toán gia tăng tìm tập rút gọn trong các trường hợp bảng quyết định
33
thay đổi nêu trên. Kết quả thử nghiệm cho thấy, các thuật toán gia tăng đề
xuất đều giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không
gia tăng. Do đó, chúng có thể thực thi trên các bảng quyết định thay đổi, biến
động và có kích thước lớn. Tuy nhiên, các thuật toán đề xuất phần lớn theo
hướng tiếp cận filter truyền thống, nghĩa là tập rút gọn tìm được chỉ bảo toàn
độ đo mà chưa quan tâm đến việc đánh giá độ chính xác phân lớp. Do đó,
chúng chưa tối ưu về số lượng tập rút gọn và độ chính xác phân lớp.
Với lớp bài toán tìm tập rút gọn trên bảng quyết định không đầy đủ
(thiếu giá tri) thay đổi mà luận án quan tâm, phần tiếp theo sẽ khảo sát các
nghiên cứu liên quan đến các thuật toán theo hướng tiếp cận tính toán gia tăng.
1.4.2.2. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo
tiếp cận mô hình tập thô dung sai
Trong mấy năm gần đây, các nghiên cứu liên quan đến thuật toán gia
tăng tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô
dung sai khá sôi động và phong phú. Giống như các thuật toán gia tăng trong
bảng quyết định đầy đủ đã trình bày ở mục 1.4.2.1, các nghiên cứu liên quan
này tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ
tập thuộc tính; tập đối tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị.
Bảng 1.4 trình bày chi tiết các nghiên cứu liên quan về các thuật toán gia tăng
Bảng 1.4. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô dung sai
tìm tập rút gọn của bảng quyết định không đầy đủ.
Thuật toán
Công bố, năm xuất bản STT 1. Trường hợp bổ sung, loại bỏ tập đối tượng 1 Zhang và các cộng sự [9], 2019 Thuật toán gia tăng tìm tập rút gọn
2
sử dụng độ đo hạt tri thức. Thuật toán gia tăng tìm tập rút gọn sử dụng entropy thông tin Wang và các cộng sự [38], 2019 Yu và các cộng sự [56], 2018.
34
STT 3 Công bố, năm xuất bản Huyen và các cộng sự [46],
2018.
4 Luo và các cộng sự [13], 2017
5
Thuật toán Thuật toán gia tăng tính toán các tập xấp xỉ theo tiếp cận mô hình tập thô trên bảng quyết định 3 chiều. Thuật toán gia tăng tính toán các tập xấp xỉ dựa trên mô hình tập thô xác suất. Các thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.
6 Ma và các cộng sự [28], 2016. Shu và các cộng sự [86], 2015. Shu và các cộng sự [82], 2013. Liu và các cộng sự [23], 2014.
Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận độ chính xác, độ hỗ trợ, độ bao phủ.
7
Chen và các cộng sự [42], 2012. Thuật toán gia tăng cập nhật các tập xấp xỉ trong bảng quyết định không đầy đủ xếp thứ tự.
8 Shu và các cộng sự [81], 2012. Nghiên cứu sự thay đổi của tập rút
9 Li và các cộng sự [71], 2008.
gọn dựa trên ma trận phân biệt. Thuật toán gia tăng tính toán tập lõi sử dụng ma trận phân biệt.
10 Zhang và các cộng sự [18],
Thuật toán gia tăng tìm tập rút gọn sử dụng hàm quyết định suy rộng 2008.
2. Trường hợp bổ sung, loại bỏ tập thuộc tính 11 Shu và các cộng sự [83], 2014.
Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương
3. Tập đối tượng thay đổi giá trị 12 Shu và các cộng sự [84], 2014.
Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương
4. Tập thuộc tính thay đổi giá trị 13 Xie và các cộng sự [92], 2018.
Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo không nhất quán
Từ Bảng 1.4 cho thấy, các nghiên cứu liên quan đến các thuật toán gia
tăng tìm tập rút gọn của bảng quyết định không đầy đủ tập trung chủ yếu vào
35
trường hợp bổ sung, loại bỏ tập đối tượng. Giống như các thuật toán được
trình bày ở Bảng 1.3, các công bố ở Bảng 1.4 đều xây dựng các công thức gia
tăng tính toán độ đo trên bảng quyết định không đầy đủ. Dựa trên độ đo được
xây dựng, các tác giả đề xuất các thuật toán gia tăng tìm tập rút gọn. Kết quả
thực nghiệm trên các bộ số liệu mẫu cho thấy, các thuật toán gia tăng giảm
thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng truyền
thống.
1.4.2.3. Các vấn đề còn tồn tại
Giống như các thuật toán gia tăng tìm tập rút gọn được liệt kê trong
Bảng 1.3, các thuật toán gia tăng tìm tập rút gọn được liệt kê trong Bảng 1.4
đều theo hướng tiếp cận filter truyền thống. Do đó, tập rút gọn tìm được chưa
tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp. Gần đây, các tác
giả trong công trình [4] đề xuất thuật toán gia tăng tìm tập rút gọn theo tiếp
cận kết hợp filter-wrapper. Tuy nhiên, thuật toán gia tăng trong [4] chỉ tìm tập
rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong trường hợp
bổ sung tập đối tượng. Do đó, định hướng nghiên cứu thứ hai của luận án là
sử dụng hướng tiếp cận kết hợp filter-wrapper trong việc xây dựng các thuật
toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ.
1.4.2.4. Hướng nghiên cứu thứ hai của luận án
Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên,
động lực nghiên cứu thứ hai của luận án là:
1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng
quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm
giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo
toàn và cải thiện độ chính xác mô hình phân lớp.
2) Các thuật toán gia tăng được nghiên cứu, đề xuất trong các trường
hợp: bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính.
36
1.5. Kết luận chương 1
Chương 1 tóm tắt và hệ thống hóa các khái niệm nền tảng về mô hình
tập thô truyền thống dựa trên quan hệ tương đương của Pawlak [113], mô
hình tập thô dung sai dựa trên quan hệ dung sai của Kryszkiewicz [67] và
tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai. Các kiến thức
nền tảng này sẽ được sử dụng trong các chương sau của luận án. Chương 1
cũng trình bày các nghiên cứu liên quan đến hai định hướng nghiên cứu của
luận án: (1) rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp
cận tập thô dung sai; (2) phương pháp gia tăng rút gọn thuộc tính trong bảng
quyết định thay đổi. Trên cơ sở đó, chương 1 phân tích, đưa ra các vấn đề còn
tồn tại và động lực nghiên cứu của luận án.
37
CHƯƠNG 2. THUẬT TOÁN FILTER-WRAPPER TÌM TẬP
RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập
thô dung sai là chủ đề đã và đang thu hút sự quan tâm của các nhà nghiên cứu.
Cho đến nay, nhiều thuật toán tìm tập rút gọn của bảng quyết định không đầy
đủ đã được đề xuất, bao gồm: các thuật toán sử dụng miền dương mở rộng
[25], [51], [99], [114], [117], các thuật toán sử dụng ma trận phân biệt, hàm
phân biệt mở rộng [29], [45], [47], [57], [77], [80], [116], các thuật toán sử
dụng entropy thông tin mở rộng [26], [48-50], [64], [79], [107], các thuật toán
sử dụng độ đo lượng thông tin [72], [91], [94], các thuật toán sử dụng khoảng
cách [62], [78] và một số thuật toán khác như sử dụng quan hệ không phân
biệt mở rộng [85], độ bao phủ của thuộc tính [93], độ đo không nhất quán
[92]. Trong các thuật toán nêu trên, đáng chú ý là trong công trình [92], Xie
và các cộng sự đã đề xuất thuật toán NEW-R tìm tập rút gọn của bảng quyết
định không đầy đủ sử dụng độ không nhất quán (inconsistency degree). Kết
quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [118] cho thấy,
thuật toán NEW-R hiệu quả hơn thuật toán POS-R [114] sử dụng miền dương
và thuật toán INF-R [50] sử dụng entropy thông tin.
Nhìn chung, các thuật toán tìm tập rút gọn theo tiếp cận tập thô đều
hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mô hình
phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn để giảm
thiểu độ phức tạp và nâng cao độ chính xác của mô hình. Các thuật toán đã đề
xuất nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống.
Do đó, tập rút gọn của các thuật toán chưa tối ưu về số lượng thuộc tính và độ
chính xác phân lớp. Trong công trình [3], [63], các tác giả đề xuất hướng tiếp
cận kết hợp filter-wrapper tìm tập rút gọn của bảng quyết định đầy đủ nhằm
giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp.
38
Tuy nhiên, các thuật toán trong [3], [63] đều thực hiện trên bảng quyết định
đầy đủ theo tiếp cận tập thô mờ (fuzzy rough set).
Độ đo khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài
toán rút gọn thuộc tính theo tiếp cận tập thô, đã được nghiên cứu ở các nghiên
cứu trước đó của nhóm nghiên cứu của thầy hướng dẫn [62, 78]. Trên cơ sở
kế thừa các kết quả đã có, luận án này tiếp tục phát triển độ đo khoảng cách
mới trong bảng quyết định không đầy đủ để giải quyết bài toán này mà không
sử dụng các độ đo khác như google, euclide…
Trong chương này, luận án đề xuất thuật toán tìm tập rút gọn của bảng
quyết định không đầy đủ theo hướng tiếp cận kết hợp ghép filter-wrapper sử
dụng độ đo khoảng cách. Bao gồm các nội dung sau:
(1) Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ.
(2) Xây dựng thuật toán IDS_F_DAR tìm tập rút gọn sử dụng độ đo
khoảng cách theo tiếp cận filter.
(3) Xây dựng thuật toán IDS_FW_DAR tìm tập rút gọn sử dụng độ đo
khoảng cách theo tiếp cận kết hợp filter-wrapper.
(4) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất.
Các kết quả trong chương này được công bố trong các công trình 2,
phần “Danh mục các công trình khoa học đã công bố”.
2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ
Khoảng cách được xem là độ đo hiệu quả giải quyết bài toán rút gọn
thuộc tính trong bảng quyết định [8], [16-17], [54], [61], [63]. Trong bảng
quyết định không đầy đủ, các nhà nghiên cứu đã đề xuất một số độ đo khoảng
cách và phương pháp rút gọn thuộc tính sử dụng khoảng cách [62], [78].
Trong phần này, chúng tôi xây dựng một độ đo khoảng cách mới giữa các phủ
trong bảng quyết định không đầy đủ. Sử dụng khoảng cách được xây dựng,
39
chúng tôi đề xuất các phương pháp rút gọn thuộc tính trên bảng quyết định
không đầy đủ được trình bày trong các phần tiếp theo.
2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp
Cho U là tập hữu hạn, khác rỗng các đối tượng. Một khoảng cách trên U
, là một ánh xạ thỏa mãn ba điều kiện sau [54]: (1)
khi và chỉ khi ; (2) ; (3)
với mọi . Điều kiện (3) được gọi là bất đẳng thức tam giác. Trong
mục này đề xuất xây dựng một độ đo khoảng cách giữa hai tập hợp.
Mệnh đề 2.1. Cho U là tập các đối tượng và . Khi đó
là một khoảng cách giữa và .
Chứng minh. Rõ ràng nên . Hơn nữa,
. Để là độ đo khoảng cách, ta cần chứng minh bất
đẳng thức tam giác. Không mất tính chất tổng quát ta chứng
minh hay .
Giả sử . Ta biểu diễn tập bởi một véc tơ n chiều
với nếu và nếu . Đặt
, khi đó và
. Từ đó ta có: ,
Mặt khác, hay thỏa mãn vì
phần tử thứ k của là 0 và 1. Do đó,
hay .
40
2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính
Mệnh đề 2.2. Cho bảng quyết định không đầy đủ với
và , là hai phủ sinh bởi . Khi
đó
là một khoảng cách giữa hai phủ và , gọi tắt là khoảng
cách giữa hai tập thuộc tính P và Q.
Chứng minh. Rõ ràng và . Ta cần chứng
minh bất đẳng thức tam giác. Không mất tính chất tổng quát, với mọi
ta chứng minh . Từ Mệnh đề 2.1, với
mọi ta có: . Từ đó:
Dễ thấy rằng, đạt giá trị nhỏ nhất là 0 khi và chỉ khi
hay đạt giá trị lớn nhất là khi và chỉ khi và
(hoặc và ). Do đó, và
.
Mệnh đề 2.3. Cho bảng quyết định không đầy đủ với
và , tương ứng là ma trận
41
dung sai trên C và d. Khi đó, khoảng cách giữa hai tập thuộc tính và
được xác định như sau:
Chứng minh. Từ Mệnh đề 2.2 ta có:
Dễ thấy rằng khi và
khi và .
Mệnh đề 2.4. Cho bảng quyết định không đầy đủ . Nếu
thì
Chứng minh. Xét bảng quyết định không đầy đủ với
và . Với mọi ta có , do đó:
(2.1)
Do nên và (2.1) tương
đương với:
42
(2.2)
nên (2.2) tương đương Do
với:
(2.3)
nên (2.3) tương Do
đương với:
(2.4)
Theo Mệnh đề 2.3, công thức (2.4) tương đương với
.
Mệnh đề 2.4 cho thấy khoảng cách thỏa mãn tính phản
đơn điệu với tập thuộc tính điều kiện, nếu tập thuộc tính B càng lớn thì
khoảng cách giữa hai phủ và càng nhỏ, hay càng
gần , nghĩa là khả năng phân lớp dựa trên B vào các lớp quyết
định sinh bởi d càng lớn, và ngược lại. Do đó, có thể được sử
dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán tìm tập rút gọn, được
trình bày ở mục tiếp theo.
2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng
khoảng cách
Trong phần này trình bày phương pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ sử dụng khoảng cách đã xây dựng ở mục 2.1.2.
43
Phương pháp đề xuất gồm các bước: định nghĩa tập rút gọn dựa trên khoảng
cách, định nghĩa độ quan trọng của thuộc tính dựa trên khoảng cách và xây
dựng thuật toán heuristic tìm một tập rút gọn theo tiếp cận lọc (filter) truyền
thống. Từ thuật toán filter được xây dựng, đề xuất thuật toán tìm tập rút gọn
theo tiếp cận kết hợp filter-wapper.
Định nghĩa 2.1. Cho bảng quyết định không đầy đủ với
. Nếu
1)
2)
thì là một tập rút gọn của dựa trên khoảng cách.
Định nghĩa 2.2. Cho bảng quyết định không đầy đủ với
và . Độ quan trọng của thuộc tính đối với được định
nghĩa bởi
Từ Mệnh đề 2.4 ta có . Độ quan trọng đặc trưng cho
chất lượng phân lớp của thuộc tính b đối với thuộc tính quyết định d và được
sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm tập rút
gọn.
2.2.1. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định
không đầy đủ
Tiếp theo, ta xây dựng thuật toán heuristic tìm tập rút gọn theo tiếp cận
filter truyền thống. Ý tưởng của thuật toán là xuất phát từ tập rỗng , lần
lượt bổ sung vào tập B các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm
được tập rút gọn.
44
Thuật toán IDS_F_DAR: Thuật toán filter tìm một tập rút gọn xấp xỉ sử dụng khoảng cách.
Đầu vào: Bảng quyết định không đầy đủ
.
với ; ; Đầu ra: Một tập rút gọn B của 1. Đặt
, , , 2. Tính ma trận dung sai
; ,
do
tính
khoảng cách // Bổ sung lần lượt các thuộc tính có độ quan trọng lớn nhất vào B 3. While 4. Begin 5. Với mỗi ;
sao cho ; 6. Chọn
;
, khoảng cách ;
7. 8. Tính ma trận 9. End;
// Loại bỏ các thuộc tính dư thừa trong B nếu có
; 10. Với mỗi 11. Begin 12. Tính
then ; 13. If
14. End; 15. Return B;
Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_F_DAR. Ký hiệu
tương ứng là số thuộc tính điều kiện và số đối tượng của IDS. Độ phức
tạp tính ma trận dung sai, khoảng cách trong câu lệnh 2 là . Xét
vòng lặp While từ câu lệnh 3 đến 9, để tính ta phải tính
vì đã được tính ở bước trước. Độ phức tạp để
là . Do có hai vòng lặp tính khi biết
45
lồng nhau theo nên độ phức tạp của vòng lặp While là . Do đó,
độ phức tạp của thuật toán IDS_F_DAR là .
Ví dụ 2.1. Xét bảng quyết định cho ở Bảng 2.1
Bảng 2.1. Bảng quyết định của Ví dụ 2.1
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d
Cao Cao Đầy đủ Thấp Tốt
Thấp * Đầy đủ Thấp Tốt
* * Gọn nhẹ Cao Xấu
Cao * Đầy đủ Cao Tốt
* * Đầy đủ Cao Tuyệt hảo
Thấp Cao Đầy đủ * Tốt
Bảng 2.1 là bảng quyết định không đầy đủ với
và với (đơn giá), (Km đã đi),
(Kích thước), (Tốc độ tối đa).
Khi đó, các ma trận dung sai trên các thuộc tính và d là
Thực hiện các bước của IDS_F_DAR ta có:
. Đặt và tính ,
, , . Chọn thuộc tính có độ quan
trọng lớn nhất và . Tính . Do
46
Chuyển vòng lặp thứ 2. Tính ,
, . Chọn thuộc tính có độ quan trọng lớn nhất,
. Tính . Thuật toán dừng và
là một tập rút gọn của IDS. và
2.2.2. Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết
định không đầy đủ
Xét bảng quyết định không đầy đủ với .
Đặt . Thuật toán theo tiếp cận lọc (filter) IDS_F_DAR xuất
phát từ tập rỗng , lần lượt bổ sung vào B các thuộc tính có độ
quan trọng lớn nhất cho đến khi tìm được tập rút gọn, nghĩa là bảo toàn
khoảng cách với . Độ chính xác của mô hình
phân lớp được tính trên B sau khi thực hiện thuật toán IDS_F_DAR.
Mặt khác, theo Mệnh đề 3.4 ta có
. Với
và ngưỡng thỏa mãn cho trước, đặt
. Khi đó, nếu và được sử dụng
để xây dựng bộ phân lớp, độ chính xác phân lớp trên chưa
chắc đã tốt hơn trên . Trong trường hợp có độ chính xác phân lớp tốt
hơn được chọn làm tập rút gọn (ta gọi là tập rút gọn xấp xỉ ngưỡng ), số
lượng thuộc tính của sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực
hiện các thuật toán phân lớp sẽ cao hơn. Do đó, luận án đề xuất hướng tiếp
cận kết hợp filter-wrapper (lọc-đóng gói) tìm tập rút gọn ngưỡng có độ
chính xác phân lớp cao nhất. Theo hướng tiếp cận kết hợp filter-wrapper này,
giai đoạn filter tìm ra các tập rút gọn xấp xỉ (là ứng viên cho tập rút gọn), giai
47
đoạn wrapper kiểm tra độ chính xác phân lớp của các tập rút gọn xấp xỉ để
chọn tập rút gọn có độ chính xác phân lớp cao nhất. Với hướng tiếp cận này,
độ chính xác phân lớp trên tập rút gọn tìm được cao hơn so với các phương
pháp filter truyền thống. Tuy nhiên, thời gian thực hiện sẽ lớn hơn vì phải
thực hiện các bộ phân lớp.
Ý tưởng của thuật toán theo hướng tiếp cận kết hợp filter-wrapper bao
gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận truyền thống),
thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc tính khi lần lượt
bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong giai đoạn
wrappper, chúng tôi sử dụng một bộ phân lớp để tính độ chính xác phân lớp
trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân
lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, chúng tôi phải trả
giá về thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy
nhiên, tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật
phân lớp trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ
chính xác. Vì mục tiêu hướng đến của rút gọn thuộc tính (trong bước tiền xử
lý dữ liệu) là nâng cao hiệu quả của mô hình trong bước sinh luật (khai phá
dữ liệu). Do đó, chi phí về mặt thời gian để có tập luật hiệu quả là chấp nhận
được.
Thuật toán tìm tập rút gọn theo tiếp cận filter-wrapper sử dụng khoảng
cách như sau:
Thuật toán IDS_FW_DAR: Thuật toán filter-wrapper tìm một tập rút gọn sử dụng khoảng cách.
Đầu vào: Bảng quyết định không đầy đủ
có độ chính xác phân lớp
Đầu ra: Tập rút gọn
; ; với ; cao nhất 1. Đặt
48
, , , 2. Tính ma trận dung sai
khoảng cách , ;
// Giai đoạn filter, tìm ứng viên cho tập rút gọn
do
tính 3. While 4. Begin 5. Với mỗi
Chọn sao cho ;
;
;
, khoảng cách 6. 7. 8. 9. Tính ma trận dung sai
;
10. End;
// Giai đoạn wrapper, tìm tập rút gọn có độ chính xác phân lớp cao nhất
11. Đặt
//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là
;
bằng 12. Đặt 13. For j = 1 to t 14. Begin 15.
với có độ chính xác phân lớp lớn Tính độ chính xác phân lớp trên một bộ phân lớp sử dụng phương pháp 10-fold; 16. End 17.
nhất.
; 18. Return
Giả sử tương ứng là số thuộc tính điều kiện và số đối tượng của
IDS. Từ thuật toán IDS_FW_DAR được trình bày ở trên, độ phức tạp của giai
đoạn filter bằng độ phức tạp của thuật toán IDS_F_DAR, nghĩa là .
Độ phức tạp của giai đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân
49
lớp được sử dụng. Giả sử độ phức tạp của bộ phân lớp là , khi đó độ
phức tạp của giai đoạn wrapper là . Vì vậy, độ phức tạp của thuật toán
IDS_FW_DAR là
2.2.3. Thực nghiệm và đánh giá kết quả
2.2.3.1. Mục tiêu thực nghiệm
Mục tiêu thực nghiệm là đánh giá tính hiệu quả của thuật toán filter-
wrapper đề xuất IDS_FW_DAR. Thuật toán filter-wrapper IDS_FW_DAR
được so sánh, đánh giá với hai thuật toán theo tiếp cận filter IDS_F_DAR và
NEW-R [92] về thời gian thực hiện, số lượng thuộc tính tập rút gọn và độ
chính xác của mô hình phân lớp. NEW-R là thuật toán filter tìm tập rút gọn
trong bảng quyết định không đầy đủ sử dụng độ đo không nhất quán
(inconsistency degree), thuật toán NEW-R [92] hiệu quả hơn thuật toán POS-
R [114] sử dụng miền dương và thuật toán INF-R [50] sử dụng entropy thông
tin về thời gian thực hiện và độ chính xác phân lớp.
Với thuật toán filter-wrapper IDS_FW_DAR, việc lựa chọn bộ phân lớp
trong giai đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về
thời gian thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ
phân lớp sẽ không ảnh hưởng đến kết quả so sánh, đánh giá với các thuật toán
khác vì chúng đều thực hiện trên một bộ phân lớp cụ thể. Chúng tôi lựa chọn
bộ phân lớp C4.5 để so sánh, đánh giá các thuật toán về thời gian thực hiện và
độ chính xác vì đây là bộ phân lớp thường được sử dụng trong các nghiên cứu
đã có.
Ta sử dụng phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được
chia thành 10 phần xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu
kiểm tra, 9 phần còn lại làm dữ liệu huấn luyện. Bộ phân lớp C4.5 cũng được
chọn để đánh giá độ chính xác phân lớp của các thuật toán.
50
2.2.3.2. Dữ liệu thực nghiệm và môi trường thực nghiệm
Chọn 10 bộ dữ liệu mẫu từ lấy từ kho dữ liệu UCI [118] được mô tả ở
Bảng 2.2 để tiến hành thực nghiệm, đây là các tập dữ liệu thiếu giá trị
(missing value). Công cụ thực hiện thực nghiệm là Matlab R2016a. Môi
trường thực nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120
Bảng 2.2. Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR
CPU, 3.3 GHz và 4 GB bộ nhớ.
STT Bộ dữ liệu
Soybean-large
1 Hepatitis 2 Audiology 3 4 Congressional Voting Records 5 Arrhythmia 6 Australian Credit Approval 7 Breast Cancer Wisconsin 8 Anneal 9 Advertisements 10 Mushroom
Số đối tượng 155 226 307 435 452 690 699 798 3279 8124
Số thuộc tính điều kiện 19 69 35 16 279 14 10 38 1558 22
Số lớp quyết định 2 24 2 2 16 2 2 6 2 2
2.2.3.3. Kết quả đánh giá về thời gian thực hiện của thuật toán filter-wrapper
IDS_FW_DAR
Kết quả so sánh thời gian thực hiện ba thuật toán được mô tả ở Bảng 2.3
và Hình 2.1. Trong đó, thời gian thực hiện thuật toán filter-wrapper
IDS_FW_DAR là tổng thời gian thực hiện tìm ứng viên tập rút gọn trong giai
đoạn filter và thời gian thực hiện bộ phân lớp C4.5 trong giai đoạn wrapper.
Kết quả thử nghiệm ở Bảng 2.3 cho thấy, thời gian thực hiện thuật toán
IDS_FW_DAR lớn hơn hai thuật toán filter NEW-R và IDS_F_DAR trên tất
cả các tập dữ liệu do IDS_FW_DAR phải thực hiện các bộ phân lớp. Thời
gian thực hiện của hai thuật toán filter NEW-R và IDS_F_DAR xấp xỉ nhau.
51
Bảng 2.3. Thời gian thực hiện ba thuật toán (tính bằng giây)
IDS_FW_DAR
NEW-R
IDS_F_ DAR
Tổng
STT
Tập dữ liệu
Giai đoạn filter
Giai đoạn Wrapper
1.92
1.90
1.86
0.98
Hepatitis
1
2.84
9.96
9.92
9.48
2.48
Audiology
2
11.96
6.84
6.95
6.16
1.72
Soybean-large
3
7.84
9.02
8.94
8.26
2.68
4
10.94
Congressional Voting Records
80.06
81.34
78.64
12.58
Arrhythmia
5
91.22
13.84
13.56
12.78
4.85
6
17.63
Australian Credit Approval
8.96
4.96
9.15
9.06
7
13.92
Breast Cancer Wisconsin
Anneal
19.04
20.18
20.82
8.04
8
17.08
Advertisements
224.12
232.52
236.16
86.38
9
310.50
10 Mushroom
52.06
54.76
55.83
14.68
66.74
Trung bình
55.07
43.82
44.45
Hình 2.1. Thời gian thực hiện ba thuật toán (tính bằng giây)
52
2.2.3.4. Kết quả đánh giá số thuộc tính tập rút gọn và độ chính xác của mô
hình phân lớp của thuật toán filter-wrapper IDS_FW_DAR
Bảng 2.4 trình bày kết quả thử nghiệm về số lượng thuộc tính tập rút gọn
và độ chính xác phân lớp của ba thuật toán. Kết quả của Bảng 2.4 cho thấy, về
cơ bản cả ba thuật toán cố gắng bảo toàn hoặc cải thiện độ chính xác phân lớp
của tập dữ liệu ban đầu (thấp hơn trên tập dữ liệu Advertisements). Độ chính
xác phân lớp của thuật toán filter-wrapper IDS_FW_DAR cao hơn độ chính
xác phân lớp của hai thuật toán còn lại trên 06 bộ số liệu Audiology,
Soybean-large, Congressional Voting Records, Arrhythmia, Anneal,
Advertisements và xấp xỉ bằng nhau trên 04 bộ dữ liệu còn lại. Đặc biệt, với
bộ số liệu có độ chính xác phân lớp thấp như Arrhythmia, độ chính xác phân
lớp tăng lên khá nhiều. Số lượng thuộc tính của tập rút gọn của thuật toán
filter-wrapper IDS_FW_DAR nhỏ hơn khá nhiều so với hai thuật toán filter
NEW-R và IDS_F_DAR. Do đó, hiệu năng tập luật quyết định thu được bởi
Bảng 2.4. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba thuật toán
IDS_FW_DAR cao hơn NEW-R và IDS_F_DAR.
IDS_FW_DAR
NEW-R
IDS_F_DAR
Tập dữ liệu
S T T
Số thuộc tính
Độ chính xác
Độ chính xác
Độ chính xác
Độ chính xác ban đầu
1 Hepatitis
85.04
19
4
5
82.06
5
82.06
83.16
2 Audiology
75.16
69
15
76.68
16
76.04
78.16
6
3 Soybean-large
92.16
35
12
92.04
12
92.12
94.06
8
4 Congressional
94.16
16
15
90.22
17
90.86
94.66
9
Voting Records
5 Arrhythmia
279
68.36
22
72.68
24
71.83
8
76.14
53
IDS_FW_DAR
NEW-R
IDS_F_DAR
Tập dữ liệu
Số thuộc tính
S T T
Độ chính xác
Độ chính xác
Độ chính xác
Độ chính xác ban đầu
14
86.78
8
83.04
9
82.12
8
83.04
6 Australian Credit Approval
10
82.78
4
82.60
82.60
4
82.60
4
7 Breast Cancer Wisconsin
8 Anneal
38
92.86
88.98
10
89.16
9
6
92.68
9 Advertisements
1558
94.60
42
90.88
45
91.28
18
92.86
10 Mushroom
22
98.04
4
98.12
98.12
5
98.02
4
Trung bình
87.55
85.64
85.70
Hình 2.2. Số lượng thuộc tính tập rút gọn của ba thuật toán
54
Hình 2.3. Độ chính xác phân lớp của ba thuật toán
2.3. Kết luận chương 2
Trong Chương 2, luận án trình bày kết quả xây dựng một độ đo khoảng
cách mới trong bảng quyết định không đầy đủ. Dựa vào độ đo khoảng cách
được xây dựng, luận án xây dựng thuật toán IDS_FW_DAR tìm tập rút gọn
của bảng quyết định không đầy đủ theo tiếp cận filter truyền thống, trên cơ sở
đó đề xuất thuật toán theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR nhằm
nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của
mô hình phân lớp. Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu
UCI [118] cho thấy, thuật toán filter-wrapper IDS_FW_DAR đề xuất giảm
thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán filter
IDS_F_DAR và NEW-R [92]. Hơn nữa, thuật toán IDS_FW_DAR duy trì và
nâng cao độ chính xác phân lớp so với các thuật toán filter IDS_F_DAR và
NEW-R. Tuy nhiên, thuật toán IDS_FW_DAR mất thêm chi phí thời gian
tính toán các bộ phân lớp. Với các bài toán có số lượng thuộc tính lớn (high
dimention data), ví dụ trong linh vực tin sinh học, việc giảm thiểu số lượng
thuộc tính có ý nghĩa quan trọng vì giảm thiểu độ phức tạp của mô hình, do
đó lựa chọn các thuật toán filter-wrapper IDS_FW_DAR là phù hợp. Tuy
nhiên, với các bảng có số thuộc tính nhỏ và có dữ liệu lớn, việc chọn các thuật
toán filter phù hợp hơn vì thời gian thực hiện nhỏ hơn.
55
CHƯƠNG 3. CÁC THUẬT TOÁN GIA TĂNG FILTER-
WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH
THAY ĐỔI
Với sự tăng trưởng không ngừng về dung lượng dữ liệu, các bảng quyết
định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các
thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách
thức. Để vượt qua các thách thức trên, các nhà nghiên cứu đã đề xuất các
thuật toán theo hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Phương pháp
gia tăng tìm tập rút gọn là kỹ thuật chỉ tính toán tập rút gọn trên phần dữ liệu
bị thay đổi mà không phải tính lại tập rút gọn trên toàn bộ tập dữ liệu. Do đó,
các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện.
Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự
quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Theo tiếp
cận tập thô dung sai, trong mấy năm gần đây một số nhóm nghiên cứu đã đề
xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ
[9], [18], [28], [38], [56], [71], [81-84], [86], [92]. Trường hợp bổ sung, loại
bỏ tập đối tượng, Li và các cộng sự [71] đề xuất thuật toán gia tăng tính toán
tập lõi sử dụng ma trận phân biệt. Zhang và các cộng sự [18] xây dựng thuật
toán gia tăng tìm tập rút gọn sử dụng hàm quyết định suy rộng. Shu và các
cộng sự [81-82], [86], Ma và các cộng sự [28] xây dựng các cơ chế cập nhật
miền dương, trên cơ sở đó đề xuất các thuật toán gia tăng tìm tập rút gọn sử
dụng miền dương. Yu và các cộng sự [56] xây dựng các công thức gia tăng
tính toán entropy dựa trên trọng số của các thuộc tính và đề xuất thuật toán
gia tăng tìm tập rút gọn dựa trên entropy. Zhang và cộng sự [9] đề xuất các
thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức (knowledge
granularity). Trường hợp bổ sung, loại bỏ tập thuộc tính, Shu và các cộng sự
56
[83] xây dựng cơ chế cập nhật miền dương, trên cơ sở đó đề xuất các thuật
toán gia tăng tìm tập rút gọn dựa trên miền dương. Wang và các cộng sự [38]
xây dựng các công thức gia tăng tính toán entropy và đề xuất thuật toán gia
tăng tìm tập rút gọn sử dụng entropy. Trường hợp tập đối tượng, tập thuộc
tính thay đổi giá trị, Shu và các cộng sự [84] đề xuất các thuật toán gia tăng
tìm tập rút gọn sử dụng miền dương. Xie và các cộng sự [92] đưa ra khái
niệm tập rút gọn dựa trên độ không nhất quán (inconsistent degree) và đề xuất
các thuật toán gia tăng tìm tập rút gọn sử dụng độ không nhất quán.
Với các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai
đã trình bày ở trên, các tác giả đều xây dựng các công thức gia tăng tính toán
độ đo, ví dụ miền dương [28], [81-84], [86], ma trận phân biệt [71], hàm
quyết định suy rộng [18], entropy thông tin [38], [56], độ không nhất quán
[92], hạt tri thức [9]. Sử dụng độ đo được xây dựng, các tác giả đề xuất các
thuật toán gia tăng tìm tập rút gọn theo tiếp cận heuristic. Các thuật toán này
không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút
gọn đã có dựa trên thành phần dữ liệu bị thay đổi. Kết quả thực nghiệm cho
thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các
thuật toán không gia tăng. Do đó, chúng có thể thực thi được trên các bảng
quyết định thay đổi, cập nhật, có kích thước lớn. Tuy nhiên, các thuật toán
nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Với cách tiếp cận
này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định
nghĩa. Việc đánh giá độ chính xác phân lớp của mô hình được thực hiện sau
khi tìm được tập rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu
trên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp.
Trong công trình [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-
wrapper tìm tập rút gọn của bảng quyết định đầy đủ. Trong đó, giai đoạn filter
tìm các ứng viên cho tập rút gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ),
57
giai đoạn wrapper tính toán độ chính xác phân lớp của các ứng viên và lựa
chọn tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất. Kết quả thử
nghiệm cho thấy, số lượng thuộc tính tập rút gọn giảm thiểu đáng kể so với
các phương pháp filter, trong khi độ chính xác phân lớp vẫn được bảo toàn và
cải thiện hơn. Tuy nhiên, thuật toán trong [3] đều thực hiện trên bảng quyết
định đầy đủ theo tiếp cận tập thô mờ.
Trong chương này, trước hết luận án trình bày công thức gia tăng tính độ
đo khoảng cách (được đề xuất ở chương 2) trong trường hợp bổ sung, loại bỏ
tập đối tượng và bổ sung, loại bỏ tập thuộc tính. Dựa trên công thức tính toán
gia tăng khoảng cách được xây dựng, luận án trình bày 04 thuật toán gia tăng
tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-
wrapper:
1) Thuật toán filter-wrapper IDS_IFW_AO tìm tập rút gọn trong trường
hợp bổ sung tập đối tượng.
2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường
hợp loại bỏ tập đối tượng.
3) Thuật toán filter-wrapper IDS_IFW_AA tìm tập rút gọn trong trường
hợp bổ sung tập thuộc tính.
4) Thuật toán filter-wrapper IDS_IFW_DA tìm tập rút gọn trong trường
hợp loại bỏ tập thuộc tính.
Kết quả thử nghiệm trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [118]
cho thấy, các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA có số lượng
tập rút gọn nhỏ hơn đáng kể so với các thuật toán filter khác đã đề xuất. Hơn
nữa, tập rút gọn của các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA cải
thiện độ chính xác phân lớp so với các thuật toán filter khác.
Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3, 4, 5,
phần “Danh mục các công trình khoa học đã công bố”.
58
3.1. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ
tập đối tượng
Trong phần này sẽ trình bày thuật toán gia tăng filter-wrapper tìm tập rút
gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung, loại bỏ tập
đối tượng sử dụng độ đo khoảng cách đề xuất trong Chương 2.
Định nghĩa 3.1. Cho bảng quyết định không đầy đủ .
Giả sử R là tập rút gọn của IDS và là tập đối tượng được bổ sung vào U
hoặc loại bỏ từ U. Khi đó, phương pháp tính toán sự thay đổi của R khi bổ sung
hoặc loại bỏ được gọi là phương pháp gia tăng tìm tập rút gọn của bảng
quyết định mới hoặc .
Để xây dựng các thuật toán gia tăng tìm tập rút gọn theo phương pháp
gia tăng theo Định nghĩa 3.1 ở trên, trước hết luận án xây dựng công thức tính
toán các độ đo khoảng cách khi bổ sung và loại bỏ tập đối tượng. Dựa trên các
công thức tính toán khoảng cách được xây dựng, luận án đề xuất các thuật
toán gia tăng filter-wrapper hiệu quả.
3.1.1. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng
3.1.1.1. Công thức cập nhật khoảng cách khi bổ sung một đối tượng
Cho bảng quyết định không đầy đủ với
và , tương ứng là ma trận dung sai trên C và
d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính và
được xác định như sau:
Mệnh đề 3.1. Cho bảng quyết định không đầy đủ với
. Giá sử đối tượng u được bổ sung vào . đặt
59
và tương ứng là ma trận dung
. Khi đó, công thức tính gia sai trên C và {d} với
tăng khoảng cách phân hoạch mờ là:
Chứng minh. Theo Mệnh đề 2.3 ta có
Mặt khác,
, do đó ta có:
3.1.1.2. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng
Trên cơ sở Mệnh đề 3.1, ta xây dựng công thức gia tăng tính khoảng
cách trong trường hợp bổ sung tập đối tượng bởi Mệnh đề 3.2 sau đây:
Mệnh đề 3.2. Cho bảng quyết định không đầy đủ với
. Giả sử tập đối tượng gồm s phần tử
được bổ sung vào với , đặt và
60
tương ứng là ma trận dung sai trên C và D. Khi đó,
công thức tính gia tăng khoảng cách như sau:
Chứng minh: Ký hiệu
khi thêm lần lượt các đối tượng
và là khoảng cách giữa tương ứng là công thức tính khoảng vào U, trên tập đối tượng ban đầu U. Khi bổ
cách giữa và sung đối tượng và vào U, ta có:
Khi bổ sung đối tượng vào U, ta có:
Tính toán tương tự, khi bổ sung đối tượng vào U, ta có:
với:
.
Từ đó ta có
Hay
61
Ví dụ 3.1. Xét bảng quyết định cho ở Bảng 3.1
Bảng 3.1. Bảng quyết định của Ví dụ 3.1
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d
Đầy đủ Tốt Thấp Cao Cao
Đầy đủ Tốt Thấp * Thấp
Gọn nhẹ Xấu Cao * *
Đầy đủ Tốt Cao * Cao
Đầy đủ Tuyệt hảo Cao * *
Đầy đủ Tốt * Cao Thấp
Gọn nhẹ Rất tốt Cao Thấp Cao x1
Tuyệt hảo Thấp Cao Trung bình Đầy đủ x2
Cao Cao Đầy đủ Trung bình Tuyệt hảo x3
Bảng 3.1 là bảng quyết định không đầy đủ với
và với (đơn giá), (Km đã đi),
(Kích thước), (Tốc độ tối đa).
Ta có:
- Khoảng cách sinh bởi
và
trên
là:
- Ma trận dung sai: , là:
62
Tiếp theo, ta tiến hành bổ sung tập đối tượng vào IDS.
1) Tính khoảng cách theo công thức gia tăng cho bởi Mệnh đề 3.2
Ta có:
2) Tính khoảng cách trên toàn bộ bảng quyết định
, ta có:
Như vậy, kết quả tính toán khoảng cách bởi công thức gia tăng của Mệnh
đề 3.2 và công thức không gia tăng trên toàn bộ bảng quyết định là như nhau,
điều này chứng minh tính đúng đắn của công thức gia tăng.
3.1.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập
đối tượng
Mệnh đề 3.3. Cho bảng quyết định không đầy đủ với
,
tượng gồm s phần tử là tập rút gọn dựa trên khoảng cách. Giả sử tập đối . Khi được bổ sung vào với
đó ta có:
với mọi là tập rút gọn của Nếu thì B
Chứng minh. Giả sử tương ứng
là ma trận tương đương mờ trên C và B của .
với mọi , khi đó ta Nếu thì có:
63
1) Với mọi , từ suy ra , hay
. Từ đó ta có . Theo Mệnh đề 3.2
ta có:
(*)
2) Tương tự, với mọi , từ suy ra ,
. Từ đó ta có . Theo Mệnh đề hay
3.2 ta có:
(**)
Mặt khác, do B là tập rút gọn của IDS nên ta có .
Từ (*) và (**) suy ra . Hơn nữa,
, từ (*) và (**) suy ra
. Do đó, B là tập rút
gọn của
. Ý tưởng của thuật toán gia tăng theo hướng tiếp cận kết hợp filter-
wrapper bao gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận
truyền thống), thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc
tính khi lần lượt bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong
giai đoạn wrappper, ta sử dụng một bộ phân lớp để tính độ chính xác phân lớp
trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân
lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, ta phải trả giá về
thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy nhiên,
tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật phân lớp
trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ chính xác.
Trong bối cảnh tăng trưởng không ngừng của dữ liệu lớn (Big Data), các bảng
quyết định ngày càng có số thuộc tính rất lớn. Việc tìm kiếm tập rút gọn có số
64
thuộc tính nhỏ nhất đặc biệt quan trọng. Do đó, chi phí về mặt thời gian để có
tập rút gọn giảm thiểu số lượng thuộc tính nhằm thu được tập luật hiệu quả là
chấp nhận được.
Dựa trên Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn
của bảng quyết định không đầy đủ sử dụng khoảng cách khi bổ sung tập đối
tượng được mô tả như sau:
Thuật toán IDS_IFW_AO: Thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ khi bổ sung tập đối tượng. Đầu vào:
với 1) Bảng quyết định không đầy đủ
, tập rút gọn , các ma trận dung
sai
2) Tập đối tượng bổ sung của
Đầu ra: Tập rút gọn Bước 1: Khởi tạo
// Chứa các ứng viên tập rút gọn 1. 2. Tính các ma trận dung sai trên tập đối tượng
:
Bước 2: Kiểm tra tập đối tượng bổ sung
to do
then ;
then Return 3. Đặt 4. For 5. If 6. If // Tập rút gọn không thay đổi
; //Gán lại tập đối tượng 7. Đặt
Bước 3: Thực hiện thuật toán tìm tập rút gọn
8. Tính các khoảng cách ban đầu
9. Tính các khoảng cách bởi công thức gia tăng
;
//Giai đoạn filter, tìm các ứng viên cho reduct
do 10. While
65
do
bởi công 11. Begin 12. For each 13. Begin 14.
Tính thức gia tăng; Tính
sao cho ;
;
;
15. 16. End; 17. Chọn 18. 19. 20. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính
xác phân lớp cao nhất
21. Đặt
//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là
;
22. Đặt 23. For j = 1 to t 24. Begin 25. Tính độ chính xác phân lớp trên bằng một bộ phân lớp sử dụng phương pháp 10-fold;
với có độ chính xác phân lớp lớn 26. End 27.
nhất.
Return ;
Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_AO. Ký hiệu
tương ứng là số thuộc tính điều kiện, số đối tượng và số đối tượng
bổ sung thêm. Ở câu lệnh 2, độ phức tạp tính ma trận dung sai khi
biết là . Độ phức tạp của vòng lặp For ở câu lệnh số 4
là .
66
Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 6 (tập rút gọn
không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_AO là
.
Ngược lại, độ phức tạp tính khoảng cách theo công thức gia tăng trong
câu lệnh 9 khi biết ma trận dung sai là . Xét vòng lặp While
từ câu lệnh 10 đến 20, để tính ta phải tính vì
đã được tính ở bước trước. Độ phức tạp tính gia tăng
. Do đó, độ phức tạp của vòng lặp là
While là và độ phức tạp của giai đoạn filter trong
trường hợp xấu nhất là . Độ phức tạp của giai đoạn
wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ
phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là
. Vì vậy, độ phức tạp của thuật toán IDS_IFW_AO là
. Nếu thực hiện thuật toán không gia
tăng filter-wrapper IDS_FW_DAR trực tiếp trên bảng quyết định có số đối
tượng , độ phức tạp của thuật toán IDS_FW_DAR trình bày ở Chương
2 là . Do đó, thuật toán gia tăng IDS_IFW_AO
giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong trường hợp
lớn hoặc lớn.
Tiếp theo, sẽ trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng
khoảng cách khi loại bỏ tập đối tượng theo hướng tiếp cận tính toán gia tăng.
Trước hết, ta xây dựng các công thức cập nhật khoảng cách khi loại bỏ tập đối
tượng.
67
3.1.3. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng
3.1.3.1. Công thức cập nhật khoảng cách khi loại bỏ một đối tượng
Mệnh đề 3.4. Cho bảng quyết định không đầy đủ với
và , tương ứng là ma trận
bị loại bỏ khỏi U. Khi đó,
dung sai của C và d . Giá sử đối tượng công thức cập nhật khoảng cách như sau:
Chứng minh: Ta có:
3.1.3.2. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng
Trên cơ sở Mệnh đề 3.4, xây dựng công thức cập nhật khoảng cách trong
trường hợp loại bỏ tập đối tượng bởi Mệnh đề 3.5 như sau:
Mệnh đề 3.5. Cho bảng quyết định không đầy đủ với
và tương ứng là ma trận ,
dung sai của C và d. Giả sử tập đối tượng gồm s phần tử
68
bị loại khỏi , . Khi đó, công thức cập nhật khoảng cách phân hoạch
mờ như sau:
với
Chứng minh: Ký hiệu tương ứng là công thức tính khoảng cách
khi loại bỏ lần lượt các đối tượng khỏi U, và là khoảng cách
trên tập đối tượng ban đầu U. Áp dụng Mệnh đề 3.5 ta có:
Tính tương tự như vậy ta được:
Do đó:
với
69
Ví dụ 3.2. Xét bảng quyết định cho ở Bảng 3.2
Bảng 3.2. Bảng quyết định của Ví dụ 3.2
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d
Cao Cao Đầy đủ Thấp Tốt
Đầy đủ Thấp Thấp * Tốt
* * Gọn nhẹ Cao Xấu
Cao * Đầy đủ Cao Tốt
* * Đầy đủ Cao Tuyệt hảo
Thấp Cao Đầy đủ * Tốt
Bảng 3.2 là bảng quyết định không đầy đủ với
và với (đơn giá), (Km đã đi),
(Kích thước), (Tốc độ tối đa).
Ta có:
- Khoảng cách sinh bởi
và
trên
là:
- Ma trận dung sai: , là:
Tiếp theo, ta tiến hành loại bỏ tập đối tượng .
70
3) Tính khoảng cách theo công thức gia tăng cho bởi Mệnh đề 3.5
Ta có:
Từ đó ta có:
4) Tính khoảng cách trên bảng quyết định sau khi loại bỏ tập đối tượng
, ta có:
Từ đó ta có:
- Ma trận dung sai:
Như vậy, kết quả tính toán khoảng cách bởi công thức trong Mệnh đề 3.5
và trên toàn bộ bảng quyết định sau khi loại bỏ tập đối tượng là như nhau,
điều này chứng minh tính đúng đắn của công thức tính khoảng cách của Mệnh
đề 3.5.
3.1.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ
tập đối tượng
Mệnh đề 3.6. Cho bảng quyết định không đầy đủ với
và là tập rút gọn dựa trên khoảng cách. Giả sử tập đối
tượng gồm s phần tử bị loại khỏi , , Khi đó ta có:
Nếu với mọi là tập rút gọn của thì B
71
Chứng minh. Giả sử tương ứng là ma trận
dung sai trên C và B của . Nếu Nếu với mọi
thì
1) Với mọi , từ suy ra , hay
và . Từ đó ta có
. Theo Mệnh đề 3.5 ta có:
(*)
, 2) Tương tự, với mọi , từ suy ra
và hay . Từ đó ta có
. Theo Mệnh đề 3.5 ta có:
(**)
. Mặt khác, do B là tập rút gọn của IDS nên ta có
Từ (*) và (**) suy ra . Hơn nữa,
, từ (*) và (**) suy ra
. Do đó, B là tập rút gọn
của
. Dựa trên Mệnh đề 3.6, thuật toán gia tăng filter-wrapper tìm tập rút gọn
có độ chính xác phân lớp tốt nhất sử dụng khoảng cách khi loại bỏ tập đối
tượng được thực hiện như sau:
Thuật toán IDS_IFW_DO: Thuật toán gia tăng filter- wrapper tìm tập rút gọn của bảng quyết định không đầy đủ khi loại bỏ tập đối tượng. Đầu vào:
với 1) Bảng quyết định không đầy đủ
, tập rút gọn .
72
ma trận sai: 2) Các
dung
gồm s đối 3) Tập đối tượng loại bỏ
tượng với
của có độ
Đầu ra: Tập rút gọn chính xác phân lớp tốt nhất.
//Chứa các ứng viên của tập rút gọn
to do
then 1. 2. Đặt 3. For 4. If
then Return 5. If //Tập rút gọn không thay đổi
; //Gán lại tập đối tượng
6. Đặt 7. Tính các độ đo khoảng cách ban đầu:
8. Tính khoảng cách bởi Mệnh đề 3.5 khi loại
: ;
// Giai đoạn filter, tìm các ứng viên cho tập rút gọn
do
do
bởi công 9. While 10. Begin 11. For each 12. Begin 13.
Tính thức gia tăng;
14.
sao cho ;
;
15. End; 16. Chọn 17. 18. 19. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính
xác phân lớp cao nhất
20. Đặt
//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là
73
;
21. Đặt 22. For j = 1 to t 23. Begin 24. Tính độ chính xác phân lớp trên bằng một bộ phân lớp sử dụng phương pháp 10-fold;
có độ chính xác phân lớp cao với 25. End 26.
nhất.
; Return
Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_DO. Ký hiệu
tương ứng là số thuộc tính điều kiện, số đối tượng và số đối tượng
bị loại bỏ khỏi U. Độ phức tạp của vòng lặp For ở câu lệnh số 3 là .
Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 5 (tập rút gọn
không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_DO là .
Ngược lại, độ phức tạp tính khoảng cách khi loại bỏ tập đối tượng ở câu
lệnh số 8 là . Xét vòng lặp While từ câu lệnh 9 đến 19, để tính
ta phải tính vì đã được tính
ở bước trước. Độ phức tạp tính . Do là
đó, độ phức tạp của vòng lặp While là . Vì vậy, độ phức tạp của
giai đoạn filter trong trường hợp xấu nhất là . Độ phức tạp của
giai đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng.
Giả sử độ phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn
wrapper là . Vì vậy, độ phức tạp của thuật toán IDS_IFW_DO là
.
Nếu thực hiện thuật toán IDS_FW_DAR trực tiếp trên bảng quyết định
74
có số đối tượng , độ phức tạp của thuật toán IDS_FW_DAR là
. Do đó, nếu nhỏ, thuật toán theo tiếp cận tính
toán gia tăng IDS_IFW_DO tốt hơn thuật toán IDS_FW_DAR. Tuy nhiên,
nếu lớn và lớn thì việc tính lại tập rút gọn trực tiếp sau khi xóa tập đối
tượng tỏ ra hiệu quả hơn về thời gian thực hiện.
3.1.5. Thực nghiệm và đánh giá các thuật toán
3.1.5.1. Mục tiêu thử nghiệm
Mục tiêu của thử nghiệm là đánh giá tính hiệu quả của thuật toán gia
tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn của bảng quyết định không
đầy đủ khi bổ sung tập đối tượng. Cụ thể như sau:
(1) Đánh giá tính hiệu quả của thuật toán gia tăng filter-wrapper
IDS_IFW_AO với thuật toán không gia tăng IDS_FW_DAR về thời gian thực
hiện. Mục tiêu của việc đánh giá là minh chứng rằng hướng tiếp cận tính toán
gia tăng giảm thiểu được thời gian thực hiện so với tính toán không gia tăng,
trên cùng hướng tiếp cận filter-wapper.
(2) Đánh giá tính hiệu quả của thuật toán gia tăng filter-wrapper
IDS_IFW_AO với thuật toán gia tăng filter IARM-I [86] về số lượng thuộc
tính tập rút gọn và độ chính xác của mô hình phân lớp. IARM-I là thuật toán
gia tăng filter tìm tập rút gọn của bảng quyết định không đầy đủ trong trường
hợp bổ sung tập đối tượng sử dụng miền dương. Mục tiêu của việc đánh giá là
minh chứng rằng hướng tiếp cận kết hợp filter-wrapper giảm thiểu số lượng
thuộc tính tập rút gọn, bảo toàn hoặc cải thiện độ chính xác phân lớp so với
hướng tiếp cận truyền thống filter.
3.1.5.2. Dữ liệu, phương pháp, công cụ và môi trường thử nghiệm
Việc thử nghiệm được thực hiện trên 06 tập dữ liệu mẫu lấy từ kho dữ
liệu UCI [118] được mô tả ở Bảng 3.3, đây là các tập dữ liệu thiếu giá trị
75
(missing value). Mỗi tập dữ liệu được chia thành hai phần xấp xỉ bằng nhau:
tập dữ liệu ban đầu (cột 4 Bảng 3.1) ký hiệu là , và tập dữ liệu gia tăng (cột
5 Bảng 3.3). Tập dữ liệu gia tăng được chia thành 5 phần bằng nhau, ký hiệu
Bảng 3.3. Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO
tương ứng là
STT Tập dữ liệu
Số đối tượng
Số thuộc tính điều kiện
Số lớp quyết định
Số đối tượng tập dữ liệu ban đầu
Số đối tượng tập dữ liệu gia tăng
(4)
(1)
(2)
(3)
(5)
(6)
(7)
111
1 Audiology
226
115
69
24
152
2
Soybean-large
307
155
35
2
215
3
Congressional
435
220
16
2
Voting Records
227
4 Arrhythmia
452
225
279
16
398
5 Anneal
798
400
38
6
2
6 Advertisements
3279
1639
1640
1558
Để tiến hành thử nghiệm hai thuật toán gia tăng IDS_IFW_AO và
IARM-I, trước hết ta thực hiện hai thuật toán trên tập dữ liệu ban đầu (coi tập
dữ liệu ban đầu là tập gia tăng). Tiếp theo, thực hiện hai thuật toán khi lần
lượt bổ sung từ phần thứ nhất đến phần thứ năm của tập dữ liệu gia tăng. Với
thuật toán không gia tăng filter-wrapper IDS_FW_DAR, ta thực hiện thuật
toán trên toàn bộ tập dữ liệu sau khi bổ sung tại mỗi bước. .
Với các thuật toán filter-wrapper, việc lựa chọn bộ phân lớp trong giai
đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về thời gian
76
thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ phân lớp sẽ
không ảnh hưởng đến kết quả so sánh, đánh giá giữa các thuật toán khác vì
chúng đều thực hiện trên một bộ phân lớp cụ thể. Do đó, ta sử dụng bộ phân
lớp C4.5 để tính độ chính xác phân lớp trong giai đoạn wrapper của các thuật
toán filter-wrapper và tính toán độ chính xác phân lớp trên các tập rút gọn thu
được. Bộ phân lớp C4.5 được lựa chọn vì đây là bộ phân lớp thông dụng và
được các nghiên cứu khác lựa chọn khi thực hiện so sánh, đánh giá các thuật
toán.
Ta sử dụng phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được
chia thành 10 phần xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu
kiểm tra, 9 phần còn lại làm dữ liệu huấn luyện.
Công cụ thực hiện thử nghiệm là Matlab R2016a. Môi trường thử
nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120 CPU, 3.3
GHz và 4 GB bộ nhớ.
3.1.5.3. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-
wrapper IDS_IFW_AO với thuật toán filter-wrapper IDS_FW_DAR
Kết quả so sánh thời gian thực hiện thuật toán IDS_IFW_AO và
IDS_FW_DAR (tính bằng giây - s) được mô tả ở Bảng 3.4. Trong đó, thời
gian thực hiện thuật toán IDS_IFW_AO là tổng thời gian thực hiện thuật toán
trên tập dữ liệu ban đầu và trên các tập dữ liệu gia tăng . Thời
gian thực hiện thuật toán IDS_FW_DAR được tính trên toàn bộ tập dữ liệu
sau khi bổ sung các tập dữ liệu gia tăng.
Kết quả thử nghiệm ở Bảng 3.4 và Hình 3.1 cho thấy, thời gian thực
hiện thuật toán IDS_IFW_AO nhỏ hơn thuật toán IDS_FW_DAR trên tất cả
các tập dữ liệu. Với bộ số liệu Arrhythmia, thời gian thực hiện của
IDS_IFW_AO chỉ xấp xỉ bằng 50% so với IDS_FW_DAR. Với bộ số liệu lớn
77
hơn Advertisements, thời gian thực hiện của IDS_IFW_AO chỉ xấp xỉ bằng
39.57% so với IDS_FW_DAR. Do đó, thuật toán gia tăng đặc biệt hiệu quả
trên các tập dữ liệu kích thước lớn. Thay vì tìm tập rút gọn trên toàn bộ tập dữ
liệu, chúng ta chia nhỏ tập dữ liệu thành nhiều phần, sau đó lần lượt thực hiện
thuật toán gia tăng khi bổ sung từng phần.
Bảng 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s)
IDS_FW
IDS_IFW_AO
_DAR
STT Tập dữ liệu
Tổng số đối tượng
Tập dữ liệu ban đầu, gia tăng
Số đối tượng ban đầu, gia tăng
Thời gian
Thời gian
Tổng thời gian
111
111
6.08
6.08
6.08
134
0.61
6.69
7.46
23
157
0.35
7.04
8.05
23
1 Audiology
180
0.64
7.68
8.94
23
203
0.34
8.02
10.82
23
0.44
23
226
8.46
11.96
152
152
3.04
3.04
3.04
183
0.64
3.68
4.18
31
214
0.34
4.02
5.26
31
2
Soybean-large
245
0.73
4.75
6.04
31
276
0.43
5.18
7.08
31
0.68
31
307
5.86
7.84
78
IDS_FW
IDS_IFW_AO
_DAR
STT Tập dữ liệu
Tổng số đối tượng
Tập dữ liệu ban đầu, gia tăng
Số đối tượng ban đầu, gia tăng
Thời gian
Thời gian
Tổng thời gian
215
215
5.86
5.86
5.86
44
259
0.56
6.42
6.95
3
44
303
0.61
7.03
8.04
Congressional Voting Records
44
347
0.53
7.56
9.12
44
391
0.47
8.03
10.05
44
0.55
435
8.58
10.94
227
35.48
35.48
35.48
227
45
272
1.58
37.06
41.06
4 Arrhythmia
45
317
3.12
40.18
58.64
45
362
2.50
42.68
72.18
45
407
1.36
44.04
84.60
45
452
2.14
46.18
91.22
398
398
7.48
7.48
7.48
80
478
0.58
8.06
9.12
5 Anneal
80
558
0.81
8.95
10.35
80
638
0.53
9.48
12.06
80
718
0.77
10.25
14.67
80
0.80
798
11.05
17.08
1639
1639
96.74
96.74
96.74
328
1967
5.69
102.43
114.36
6 Advertisements
328
2295
6.13
108.56
148.78
328
2623
5.70
114.26
216.56
328
2951
3.86
118.12
284.68
328
4.74
3279
122.86
310.50
79
Hình 3.1. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR
80
3.1.5.4. Kết quả so sánh độ chính xác phân lớp của thuật toán gia tăng filter-
wrapper IDS_IFW_AO với thuật toán filter-wrapper IDS_FW_DAR
Bảng 3.5 trình bày kết quả thử nghiệm về số thuộc tính tập rút gọn và độ
chính xác phân lớp của hai thuật toán IDS_IFW_AO và IDS_FW_DAR.
Trong đó, ký hiệu là số thuộc tính của tập rút gọn. Kết quả của Bảng 3.5
và Hình 3.2 cho thấy, độ chính xác phân lớp của hai thuật toán xấp xỉ nhau
trên cả 6 tập dữ liệu, độ chính xác trung bình của hai thuật toán cũng xấp xỉ
nhau. Số lượng thuộc tính tập rút gọn của hai thuật toán cũng xấp xỉ nhau. Do
đó, thuật toán gia tăng không cải thiện về độ chính xác phân lớp so với các
thuật toán không gia tăng. Mặt khác, Bảng 3.5 cũng cho thấy độ chính xác
trung bình của hai thuật toán cao hơn một chút so với độ chính xác trung bình
trên các tập dữ liệu ban đầu. Điều đó cho thấy các phương pháp rút gọn thuộc
Bảng 3.5. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AO và IDS_FW_DAR
tính cố gắng bảo toàn hoặc cải thiện độ chính xác phân lớp ban đầu.
IDS_IFW_AO
IDS_FW_DAR
Số đối tượng
Tập dữ liệu
S T T
Số thuộc tính
Độ chính xác ban đầu
Độ chính xác
Độ chính xác
1 Audiology
226
69
75.16
78.84
6
78.16
7
2 Soybean-large
307
35
92.16
94.58
8
8
94.06
3 Congressional
435
16
94.16
94.12
9
9
94.66
Voting Records
4 Arrhythmia
452
279
68.36
76.04
8
9
76.14
5 Anneal
798
38
92.86
91.28
6
6
92.68
6 Advertisements
3279
1558
94.60
19
92.90
18
92.86
Trung bình
86.22
87.96
88.09
81
Hình 3.2. Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR
Phần tiếp theo trình bày kết quả thử nghiệm so sánh, đánh giá thuật toán
gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia tăng filter IARM-I
trong công trình [86].
3.1.5.5. Kết quả so sánh số lượng thuộc tính tập rút gọn và độ chính xác phân
lớp của thuật toán gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia
tăng filter IARM-I
Bảng 3.6 trình bày kết quả so sánh về số lượng thuộc tính tập rút gọn và
độ chính xác phân lớp của hai thuật toán gia tăng IDS_IFW_AO và IARM-I.
Kết quả bảng 3.6 và Hình 3.3 cho thấy, độ chính xác phân lớp của thuật toán
filter-wrapper IDS_IFW_AO cao hơn IARM-I trên 6 tập dữ liệu một chút.
Nguyên nhân là ở giai đoạn Wrapper (từ dòng lệnh thứ 21 đến 27 của thuật
toán IDS_IFW_AO), thuật toán tính độ chính xác phân lớp của các ứng viên
tập rút gọn và lựa chọn tập rút gọn có độ chính xác phân lớp tốt nhất (nếu tập
rút gọn có độ chính xác phân lớp tốt nhất trùng với ứng viên tập rút gọn của
giai đoạn Filter thì kết quả của hai thuật toán là như nhau). Hơn nữa, số thuộc
82
tính tập rút gọn của thuật toán IDS_IFW_AO nhỏ hơn khá nhiều hai thuật toán
IARM-I, đặc biệt trên tập rút gọn có số thuộc tính lớn như Advertisements.
Nguyên nhân là thuật toán đề xuất bổ sung thêm giai đoạn wrapper. Ở giai
đoạn wrapper, thuật toán tính độ chính xác phân lớp của các ứng viên tập rút
gọn của giai đoạn filter và chọn ứng viên có độ chính xác phân lớp tốt nhất
làm kết quả. Như đã phân tích ở phần ý tưởng thuật toán, ứng viên có độ
chính xác phân lớp tốt nhất được chọn là ứng viên có thể chỉ bổ sung thêm ít
thuộc tính (tùy thuộc vào tập dữ liệu). Do đó, số thuộc tính thu được của thuật
toán IDS_IFW_AO nhỏ hơn khá nhiều so với các thuật toán filter, điển hình là
IARM-I. Trong trường hợp tồi nhất, ứng viên được chọn chính là kết quả cuối
cùng của giai đoạn filter, khi đó tập rút gọn của hai hướng tiếp cận là như
nhau. Vì vậy, thời gian thực hiện và tính khái quát hóa của tập luật phân lớp
trên tập rút gọn của IDS_IFW_AO tốt hơn so với IARM-I. Như vậy, thuật toán
đề xuất filter-wrapper IDS_IFW_AO đáp ứng mục tiêu đặt ra là giảm thiểu số
thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình mà vẫn cố
gắng bảo toàn độ chính xác phân lớp so với các thuật toán gia tăng khác theo
Bảng 3.6. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I
tiếp cận filter.
IDS_IFW_AO
IARM-I
STT Tập dữ liệu
Tập dữ liệu ban đầu, gia tăng
Tổng số đối tượng
Độ chính xác
Số đối tượng ban đầu, gia tăng 111
111
76.18
5
8
Độ chính xác 74.29
23
134
76.18
5
9
75.12
1 Audiology
23
157
81.26
6
12
78.26
23
180
81.26
6
12
78.26
23
203
78.84
7
14
78.17
23
7
226
78.84
15
76.64
83
IDS_IFW_AO
IARM-I
STT Tập dữ liệu
Tập dữ liệu ban đầu, gia tăng
Tổng số đối tượng
Độ chính xác
Số đối tượng ban đầu, gia tăng 152
152
7
Độ chính xác 95.46
5
96.12
183
31
7
95.46
5
96.12
214
31
9
95.04
6
96.72
2
Soybean-large
245
31
9
95.04
7
95.18
276
31
10
94.19
7
95.18
31
307
11
94.28
8
94.58
215
215
9
91.17
4
92.48
259
44
10
91.45
5
92.76
303
44
14
92.28
7
94.48
3
Congressional Voting Records
347
44
14
92.28
7
94.48
391
44
16
92.06
9
94.12
44
435
17
92.88
9
94.12
227
227
14
69.16
6
70.08
272
45
17
72.05
7
72.45
317
45
17
72.05
7
72.45
4 Arrhythmia
362
45
21
73.23
8
74.18
407
45
21
73.23
8
74.18
45
452
24
73.08
9
76.04
398
398
8
84.06
4
84.18
478
80
8
84.06
5
89.06
558
80
8
84.06
5
89.06
5 Anneal
638
80
9
88.48
6
91.28
718
80
9
88.48
6
91.28
80
798
10
90.06
6
91.28
1639
1639
12
23
92.16
93.01
6 Advertisements
328
1967
14
28
90.48
91.18
328
2295
14
28
90.48
91.18
328
2623
17
32
91.17
91.65
328
2951
18
36
92.06
92.82
328
3279
19
45
92.46
92.90
84
Hình 3.3.a. Bộ số liệu Audiology
Hình 3.3.b. Bộ số liệu Soybean-large
Hình 3.3.c. Bộ số liệu Congressional Voting Records
85
Hình 3.3.d. Bộ số liệu Arrhythmia
Hình 3.3.e. Bộ số liệu Anneal
Hình 3.3.f. Bộ số liệu Advertisements
Hình 3.3. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I
86
3.1.5.6. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-
wrapper IDS_IFW_AO với thuật toán gia tăng IARM-I
Bảng 3.7 trình bày kết quả so sánh thời gian thực hiện hai thuật toán gia
tăng IDS_IFW_AO và IARM-I (tính bằng giây - s). Kết quả thử nghiệm ở
Bảng 3.7 và Hình 3.4 cho thấy, thời gian thực hiện thuật toán IDS_IFW_AO
lớn hơn thuật toán IARM-I trên tất cả các tập dữ liệu, nguyên nhân là thuật
toán filter-wrapper IDS_IFW_AO mất thêm chi phí thời gian thực hiện bộ
phân lớp trong giai đoạn wrapper. Như vậy, thuật toán IDS_IFW_AO hiệu
quả hơn IARM-I về độ chính xác phân lớp và số lượng thuộc tính tập rút gọn,
Bảng 3.7. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s)
tuy nhiên IDS_IFW_AO có thời gian thực hiện cao hơn IARM-I .
IDS_IFW_AO
IARM-I
STT Tập dữ liệu
Tổng thời gian
Tổng số đối tượng
Thời gian
Thời gian
Tổng thời gian
Tập dữ liệu ban đầu, gia tăng
Số đối tượng ban đầu, gia tăng
111
111
6.08
6.08
5.82
5.82
134
0.61
6.69
0.51
6.33
23
157
0.35
7.04
0.26
6.59
23
1 Audiology
180
0.64
7.68
0.42
7.01
23
203
0.34
8.02
0.28
7.29
23
0.44
0.35
23
226
8.46
7.64
152
3.04
3.04
2.86
2.86
152
183
0.64
3.68
0.42
3.28
31
214
0.34
4.02
0.22
3.52
31
2
Soybean-large
245
0.73
4.75
0.54
4.06
31
276
0.43
5.18
0.34
4.40
31
0.68
0.40
31
307
5.86
4.80
87
IDS_IFW_AO
IARM-I
STT Tập dữ liệu
Tổng thời gian
Tổng số đối tượng
Thời gian
Thời gian
Tổng thời gian
Tập dữ liệu ban đầu, gia tăng
Số đối tượng ban đầu, gia tăng
215
5.86
5.03
5.03
215
5.86
6.42
0.39
5.42
259
0.56
44
7.03
0.46
5.88
303
0.61
44
3
Congressional Voting Records
7.56
0.37
6.25
347
0.53
44
8.03
0.31
6.56
391
0.47
44
0.32
0.55
44
8.58
6.88
435
227
35.48
35.48
28.72
28.72
227
37.06
1.42
30.14
272
1.58
45
40.18
2.26
32.40
317
3.12
45
4 Arrhythmia
42.68
2.03
34.43
362
2.50
45
44.04
1.15
35.58
407
1.36
45
1.84
452
2.14
45
46.18
37.42
7.48
6.05
6.05
398
7.48
398
8.06
0.38
6.43
478
0.58
80
8.95
0.63
7.06
558
0.81
80
5 Anneal
9.48
0.34
7.40
638
0.53
80
10.25
0.56
7.96
718
0.77
80
0.59
0.80
80
11.05
8.55
798
1639
1639
96.74
96.74
82.05
82.05
328
1967
5.69
102.43
4.84
86.89
328
2295
6.13
108.56
5.18
92.07
6 Advertisements
328
2623
5.70
114.26
4.26
96.33
328
2951
3.86
118.12
2.54
98.87
328
4.74
2.98
3279
122.86
101.85
88
Hình 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I
89
3.1.5.7. Bảng tổng hợp kết quả so sánh thời gian thực hiện của 03 thuật toán
Dựa trên Bảng 3.4 và 3.7 về kết quả so sánh thời gian thực hiện, mục này
tổng hợp kết quả so sánh tổng thời gian thực hiện của 03 thuật toán: thuật toán
không gia tăng filter-wrapper IDS_FW_DAR, thuật toán gia tăng filter-
Bảng 3.8. Thời gian thực hiện của 03 thuật toán (s)
wrapper IDS_IFW_AO, thuật toán gia tăng filter IARM-I
STT
Tập dữ liệu
IDS_IFW_AO
IARM-I
Số đối tượng
IDS_FW _DAR
Audiology
226
11.96
8.46
1
7.64
Soybean-large
307
7.84
5.86
2
4.80
435
10.94
8.58
3
6.88
Congressional Voting Records
Arrhythmia
452
91.22
46.18
4
37.42
Anneal
798
17.08
11.05
5
8.55
Advertisements
3279
310.50
122.86
6
101.85
IDS_IFW_AO
Hình 3.5. Thời gian thực hiện của 03 thuật toán (s)
90
Kết quả ở Bảng 3.8 và Hình 3.5 cho thấy, trên tất cả các bộ dữ liệu, thời
gian thực hiện của thuật toán gia tăng filter IARM-I là nhanh nhất. Thuật toán
phải thực hiện giai đoạn wrapper tính độ chính xác phân lớp. Thuật toán không gia
tăng filter-wrapper có thời gian thực hiện lâu nhất vì phải tính lại tập rút gọn khi bổ
sung các tập đối tượng và phải thực hiện giai đoạn wrapper.
gia tăng filter-wrapper IDS_IFW_AO có thời gian thực hiện lâu hơn IARM-I vì
3.1.5.8. Bảng tổng hợp kết quả so sánh số thuộc tính tập rút gọn và độ chính
xác phân lớp của 03 thuật toán
Dựa trên Bảng 3.5 và 3.6 về kết quả so sánh số lượng thuộc tính tập rút
gọn và độ chính xác phân lớp, mục này tổng hợp kết quả so sánh số lượng
thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán: thuật toán
không gia tăng filter-wrapper IDS_FW_DAR, thuật toán gia tăng filter-
Bảng 3.9. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán
wrapper IDS_IFW_AO, thuật toán gia tăng filter IARM-I
IARM-I
IDS_IFW_A O
IDS_FW_DA R
Số đối tượng
Tập dữ liệu
S T T
Số thuộc tính
Độ chính xác ban đầu
Độ chính xác
Độ chính xác
Độ chính xác
1 Audiology
226
69
75.16
7
78.84
6
78.16
76.64
15
2 Soybean-large
307
35
92.16
8
94.58
8
94.06
94.28
11
3 Congressional
435
16
94.16
9
94.12
9
94.66
92.88
17
Voting Records
4 Arrhythmia
452
279
68.36
9
76.04
8
76.14
73.08
24
5 Anneal
798
38
92.86
6
91.28
6
92.68
90.06
10
92.46
45
6 Advertisements
3279
1558
94.60
19
92.90
18
92.86
Trung bình
86.22
87.96
88.09
86.57
91
IDS_IFW_AO
Hình 3.6. Độ chính xác phân lớp của 03 thuật toán
IDS_IFW_AO
Hình 3.7. Số thuộc tính tập rút gọn của 03 thuật toán
Kết quả ở Bảng 3.8 và Hình 3.6, Hình 3.7 cho thấy, trên tất cả các bộ dữ
liệu, số thuộc tính tập rút gọn và độ chính xác phân lớp của hai thuật toán theo
Tuy nhiên, số thuộc tính tập rút gọn của hai thuật toán filter-wrapper giảm thiểu
tiếp cận filter-wrapper (IDS_IFW_AO và IDS_FW_DAR) là tương đương nhau.
92
đáng kể so với thuật toán filter (đã được phân tích ở mục 3.1.5.5). Hơn nữa, độ
chính xác phân lớp của 02 thuật toán filter-wrapper cải thiện hơn so với thuật toán
filter.
3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ
tập thuộc tính
Phần này xây dựng thuật toán gia tăng filter-wrapper tìm tập rút gọn của
bảng quyết định không đầy đủ trong trường hợp bổ sung và loại bỏ tập thuộc
tính điều kiện sử dụng độ đo khoảng cách đề xuất trong Chương 2.
Định nghĩa 3.2. Cho bảng quyết định không đầy đủ .
Giả sử R là tập rút gọn của IDS và là tập thuộc tính được bổ sung vào C
hoặc loại bỏ từ C. Khi đó, phương pháp tính toán sự thay đổi của R khi bổ sung
hoặc loại bỏ được gọi là phương pháp gia tăng tìm tập rút gọn của bảng
quyết định mới hoặc .
Để xây dựng các thuật toán gia tăng tìm tập rút gọn theo phương pháp
gia tăng theo Định nghĩa 3.2 ở trên, trước hết luận án xây dựng công thức tính
toán các độ đo khoảng cách khi bổ sung và loại bỏ tập thuộc tính điều kiện.
Dựa trên các công thức cập nhật khoảng cách được xây dựng, luận án trình
bày kết quả đề xuất thuật toán gia tăng filter-wrapper hiệu quả.
3.2.1. Công thức cập nhật khoảng cách khi bổ sung tập thuộc tính
Cho bảng quyết định không đầy đủ với
và , tương ứng là ma trận dung sai trên C và
d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính C và
được xác định như sau:
93
Mệnh đề 3.7. Cho bảng quyết định không đầy đủ với
. Giá sử tập thuộc tính điều kiện B được bổ sung vào C với
. Đặt là ma trận dung sai trên B. Khi đó ta có:
1) Nếu với mọi i=1..n, j=1..n (hay ) thì
2) Nếu với mọi i=1..n, j=1..n (hay ) thì
.
3) Trường hợp còn lại,
Chứng minh. Từ Mệnh đề 2.3 tính độ đo khoảng cách, ta có:
Dễ thấy rằng, nếu với mọi i=1..n, j=1..n thì
và nếu
với mọi i=1..n, j=1..n thì .
3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập
thuộc tính
Từ công thức gia tăng tính khoảng cách trong Mệnh đề 3.7 ta có Mệnh
đề 3.8 sau đây:
94
Mệnh đề 3.8. Cho bảng quyết định không đầy đủ với
và là tập rút gọn dựa trên khoảng cách. Giá sử tập
thuộc tính điều kiện B được bổ sung vào C với . Đặt
là ma trận dung sai trên B. Khi đó, nếu với mọi i=1..n, j=1..n thì R là
tập rút gọn của
Chứng minh.
Nếu với mọi i=1..n, j=1..n, từ Mệnh đề 3.7 ta có:
. Do R là tập rút gọn của IDS nên
và
Từ đó ta có: R là tập rút gọn của
.
Ý tưởng của thuật toán gia tăng theo hướng tiếp cận kết hợp filter-
wrapper bao gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận
truyền thống), thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc
tính khi lần lượt bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong
giai đoạn wrappper, ta sử dụng một bộ phân lớp để tính độ chính xác phân lớp
trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân
lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, ta phải trả giá về
thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy nhiên,
tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật phân lớp
trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ chính xác.
Trong bối cảnh tăng trưởng không ngừng của dữ liệu lớn (Big Data), các bảng
quyết định ngày càng có số thuộc tính rất lớn và chúng luôn thay đổi, cập
nhật. Việc tìm kiếm tập rút gọn có số thuộc tính nhỏ nhất đặc biệt quan trọng.
Do đó, chi phí về mặt thời gian để có tập rút gọn giảm thiểu số lượng thuộc
95
tính nhằm thu được tập luật hiệu quả là chấp nhận được.
Dựa trên Mệnh đề 3.8, thuật toán gia tăng filter-wrapper tìm tập rút gọn
trong bảng quyết định không đầy đủ sử dụng khoảng cách khi bổ sung tập
thuộc tính B như sau:
Thuật toán IDS_IFW_AA: Thuật toán gia tăng filter- wrapper tìm tập rút gọn khi bổ sung tập thuộc tính. Đầu vào:
với 1) Bảng quyết định không đầy đủ
, tập rút gọn
, các ma trận dung cách , khoảng sai
;
; 2) Tập thuộc tính bổ sung B với
; //Chứa các ứng viên tập rút gọn
; Đầu ra: Tập rút gọn của Bước 1: Khởi tạo 1. 2. Tính ma trận dung sai
Bước 2: Kiểm tra tập thuộc tính bổ sung then Return ; với mọi 3. If
Bước 3: Thực hiện thuật toán tìm tập rút gọn
do
do
bởi công thức cập // Giai đoạn filter, tìm các ứng viên cho tập rút gọn xuất phát từ tập R. 4. While 5. Begin 6. For each 7. Begin 8. Tính
nhật khoảng cách ở Mệnh đề 3.7;
;
sao cho ; 9. Tính 10. End; 11. Chọn
;
12. ; 13. 14. End;
96
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất 15. Đặt
//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là
;
16. Đặt 17. For j = 1 to t 18. Begin 19. Tính độ chính xác phân lớp trên
bằng một bộ phân lớp sử dụng phương pháp 10-fold;
với có độ chính xác phân lớp lớn 20. End 21.
nhất. 22. Return ;
Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_AA. Ký hiệu
tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính
điều kiện bổ sung thêm. Ở câu lệnh 2, độ phức tạp tính ma trận dung sai
. Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh là
3 (tập rút gọn không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_AA
là .
Ngược lại xét vòng lặp While từ câu lệnh 4 đến 14, để tính ta
phải tính vì đã được tính ở bước trước. Độ
phức tạp tính gia tăng . Do đó, ở câu lệnh số 8 là
độ phức tạp của vòng lặp While là và độ phức tạp của giai đoạn filter
trong trường hợp xấu nhất là . Độ phức tạp của giai đoạn wrapper
phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp
của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là
97
. Vì vậy, độ phức tạp của thuật toán IDS_IFW_AA là
. Nếu thực hiện thuật toán không gia tăng filter-wrapper
trực tiếp trên bảng quyết định có số thuộc tính , độ phức tạp là
. Do đó, thuật toán gia tăng IDS_IFW_AA
giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong trường hợp
nhỏ.
Tiếp theo, sẽ trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng
khoảng cách khi loại bỏ tập thuộc tính theo hướng tiếp cận tính toán gia tăng.
Trước hết, ta xây dựng các công thức cập nhật khoảng cách khi loại bỏ tập
thuộc tính.
3.2.3. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính
Cho bảng quyết định không đầy đủ với
và , tương ứng là ma trận dung sai trên C và
d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính C và
được xác định như sau:
với Mệnh đề 3.9. Cho bảng quyết định không đầy đủ
và . Giá sử tập thuộc tính điều kiện B loại bỏ khỏi C với
tương là tập thuộc tính còn lại. Đặt và
ứng là ma trận dung sai trên B và . Khi đó,
với các phần tử của ma trận
được tính như sau:
98
1) Nếu thì với i=1..n, j=1..n
2) Nếu và thì với i=1..n, j=1..n
3) Nếu và thì và nếu nếu
với i=1..n, j=1..n.
Chứng minh. Dễ thấy rằng:
1) Do nên , từ ta có .
2) Do , nếu và thì
3) Theo định nghĩa ma trận dung sai, nếu thì , nếu
thì
Mệnh đề 3.9 cho phép tính toán khoảng cách dựa vào các
ma trận dung sai đầu vào , . Trong trường hợp ma
trận chứa nhiều phần tử bằng 1 (Phủ sinh bởi C là thô) thì công
thức tính bởi Mệnh đề 3.9 là hiệu quả.
3.2.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ
tập thuộc tính
Dựa trên Mệnh đề 3.9, thuật toán gia tăng filter-wrapper tìm tập rút gọn
trong bảng quyết định không đầy đủ sử dụng khoảng cách khi loại bỏ tập
thuộc tính B như sau:
Thuật toán IDS_IFW_DA: Thuật toán gia tăng filter- wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính.
với Đầu vào: 1) Bảng quyết định không đầy đủ
, tập rút gọn
, các ma trận dung , khoảng cách sai
;
; 2) Tập thuộc tính B loại bỏ khỏi C với
99
Đầu ra: Tập rút gọn của 1) Trường hợp 1: Tập thuộc tính bị loại bỏ B không thuộc tập rút gọn (các thuộc tính dư thừa), tập rút gọn không thay đổi. Nếu thì Retturn (R);
2) Trường hợp 2: Tập thuộc tính bị loại bỏ B chứa tập rút gọn R, khi đó thực hiện lại thuật toán filter-wrapper IDS_FW_DAR ở Chương 2 tìm tập rút gọn. Nếu thì thực hiện thuật toán IDS_FW_DAR;
, thực 3) Trường hợp 3: Trường hợp còn lại
hiện các bước của thuật toán tìm tập rút gọn.
Bước 1: Khởi tạo 1. Đặt ; // Chứa các ứng viên tập rút gọn
, tính ma trận 2. Tính ma trận dung sai
dung sai bởi công thức trong Mệnh đề
3.9.
//Xét các thuộc tính trong tập rút
3. Đặt gọn
Bước 2: Thực hiện thuật toán tìm tập rút gọn
// Giai đoạn filter, tìm các ứng viên cho tập rút gọn xuất phát từ tập R.
do
do
bởi 4. While 5. Begin 6. For each 7. Begin 8. Tính khoảng cách
công thức trong Mệnh đề 3.9;
9. Tính
sao cho ; 10. End; 11. Chọn
;
12. ; 13. 14. End;
100
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất 15. Đặt
//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là
;
16. Đặt 17. For j = 1 to t 18. Begin 19. Tính độ chính xác phân lớp trên
bằng một bộ phân lớp sử dụng phương pháp 10-fold;
với có độ chính xác phân lớp lớn 20. End 21.
nhất. 22. Return ;
Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_DA. Ký hiệu
tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính
điều kiện xóa khỏi C.
Trường hợp tốt nhất, thuật toán rơi vào Trường hợp 1, nghĩa là tập rút
gọn không thay đổi.
Trường hợp xấu nhất, thuật toán rơi vào Trường hợp 2, thực hiện lại
thuật toán IDS_FW_DAR ở Chương 2 tìm tập rút gọn trên bảng quyết định
sau khi xóa tập thuộc tính B với độ phức tạp là: .
Ta xét độ phức tạp trong trường hợp còn lại (Trường hợp 3). Xét vòng
lặp While từ câu lệnh 4 đến 14, để tính ta phải tính
vì đã được tính ở bước trước. Độ phức
tạp tính . Do đó, độ phức ở câu lệnh số 8 là
101
tạp của vòng lặp While là và độ phức tạp của giai đoạn filter là
. Độ phức tạp của giai đoạn wrapper phụ thuộc vào độ phức tạp
của bộ phân lớp được sử dụng. Giả sử độ phức tạp của bộ phân lớp là ,
khi đó độ phức tạp của giai đoạn wrapper là . Vì vậy, độ phức tạp
của thuật toán IDS_IFW_DA là . Nếu thực hiện
thuật toán không gia tăng filter-wrapper trực tiếp trên bảng quyết định có số
thuộc tính , độ phức tạp là . Do đó, với
Trường hợp 3 thì thuật toán IDS_IFW_DA hiệu quả. Nếu R càng nhỏ thì
thuật toán IDS_IFW_DA càng hiệu quả. Nếu thuật toán rơi vào Trường hợp
2 (tính lại tập rút gọn) thì độ phức tạp thuật toán IDS_IFW_DA tương đương
thuật toán IDS_FW_DAR ở chương 2. Còn nếu thuật toán rơi vào Trường
hợp 1 thì thu được luôn tập rút gọn mà không phải tính toán gì cả.
3.2.5. Thực nghiệm và đánh giá các thuật toán
Trong phần này trình bày kết quả thực nghiệm nhằm đánh giá tính hiệu
quả của thuật toán gia tăng filter-wrapper IDS_IFW_AA đề xuất với thuật
toán gia tăng filter UARA [83] về số lượng thuộc tính tập rút gọn và độ chính
xác của mô hình phân lớp. UARA [83] là thuật toán gia tăng filter tìm tập rút
gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung tập thuộc
tính sử dụng miền dương. Việc thực nghiệm được thực hiện trên 06 tập dữ
liệu mẫu lấy từ kho dữ liệu UCI [118] được mô tả ở Bảng 3.10, đây là các tập
dữ liệu thiếu giá trị (missing value) trên miền giá trị thuộc tính điều kiện. Mỗi
tập thuộc tính điều kiện được chia ngẫu nhiên thành hai phần: tập thuộc tính
ban đầu (cột 4 Bảng 3.10) ký hiệu là C0, và tập thuộc tính gia tăng (cột 5
Bảng 3.10). Tập thuộc tính gia tăng được chia ngẫu nhiên thành 5 phần bằng
nhau, ký hiệu tương ứng là C1, C2, C3, C4, C5.
102
Bảng 3.10. Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA
STT
Tập dữ liệu
Số đối tượng
Số thuộc tính điều kiện (6)
Số thuộc tính ban đầu (4)
Số thuộc tính gia tăng (5)
Số lớp quyết định (7)
(1)
(2)
(3)
69
1 Audiology
226
34
35
24
35
2
Soybean -large
307
20
15
2
16
3
Cong. Voting
435
6
10
2
Records
279
4 Arrhythmia
452
139
140
16
38
5 Anneal
798
18
20
6
6 Advers.
778
780
2
3279
1558
Để tiến hành thực nghiệm hai thuật toán IDS_IFW_AA và UARA, trước
hết ta thực hiện hai thuật toán trên tập dữ liệu với tập thuộc tính ban đầu (coi
tập thuộc tính ban đầu là tập gia tăng). Tiếp theo, thực hiện hai thuật toán khi
lần lượt bổ sung từ phần thứ nhất đến phần thứ năm của tập thuộc tính gia
tăng.
Với các thuật toán filter-wrapper, việc lựa chọn bộ phân lớp trong giai
đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về thời gian
thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ phân lớp sẽ
không ảnh hưởng đến kết quả so sánh, đánh giá giữa các thuật toán khác vì
chúng đều thực hiện trên một bộ phân lớp cụ thể. Do đó, ta sử dụng bộ phân
lớp C4.5 để tính độ chính xác phân lớp của hai thuật toán và phương pháp
kiểm tra chéo 10-fold. Sở dĩ ta chọn bộ phân lớp C4.5 vì đây là bộ phân lớp
thông dụng, được sử dụng phổ biến trong các nghiên cứu khác khi so sánh,
đánh giá các phương pháp rút gọn thuộc tính.
Công cụ thực hiện thử nghiệm là Matlab R2016a. Môi trường thử
nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120 CPU, 3.3
GHz và 4 GB bộ nhớ.
103
Bảng 3.11 trình bày kết quả so sánh về số lượng thuộc tính tập rút gọn
(ký hiệu là ) và độ chính xác phân lớp của hai thuật toán IDS_IFW_AA và
UARA. Kết quả Bảng 3.11 cho thấy, với mỗi bước lặp khi bổ sung tập dữ
liệu gia tăng và trên toàn bộ tập dữ liệu, độ chính xác phân lớp của
IDS_IFW_AA cao hơn UARA một chút trên tất cả các tập dữ liệu. Hơn nữa,
số thuộc tính tập rút gọn của IDS_IFW_AA nhỏ hơn khá nhiều UARA, đặc
biệt trên tập rút gọn có số thuộc tính lớn như Arrhythmia, Advertisements. Do
đó, thời gian thực hiện và tính khái quát hóa của tập luật phân lớp trên tập rút
Bảng 3.11. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AA và UARA
gọn của IDS_IFW_AA tốt hơn so với UARA.
IDS_IFW_AA
STT Tập dữ liệu
Độ chính
Tập thuộc tính
Số thuộc tính
Tổng số thuộc tính
xác
UARA Độ chính xác
34
34
4
64.26
8
62.18
7
41
5
68.19
9
65.17
7
48
5
68.19
10
69.26
1
Audiology
7
55
6
72.36
12
72.35
7
62
7
78.26
14
74.18
7
69
15
78.02
7
78.26
20
20
4
82.34
8
81.16
3
23
4
82.34
8
81.16
3
26
5
86.92
9
82.08
2
Soybean –
large
3
29
5
86.92
10
85.14
3
32
7
90.27
11
90.26
3
35
12
92.18
8
92.85
104
IDS_IFW_AA
STT Tập dữ liệu
Độ chính
Tập thuộc tính
Số thuộc tính
Tổng số thuộc tính
xác
UARA Độ chính xác 81.04
6
6
4
81.36
5
2
8
5
86.24
7
85.52
Cong.
2
10
6
89.18
8
89.18
Voting
3
2
12
6
89.18
9
89.18
Records
2
14
7
91.15
11
90.29
2
16
12
93.68
8
94.06
139
139
5
62.14
9
62.86
28
167
6
69.27
14
68.15
28
195
7
70.48
16
69.84
4
Arrhythmia
28
223
7
70.48
17
69.84
28
251
9
71.37
24
70.92
28
279
25
75.68
10
76.24
18
18
3
68.24
5
68.24
4
22
4
72.46
7
71.62
4
26
4
72.46
7
71.62
5
Anneal
4
30
5
79.88
8
76.85
4
34
6
86.13
9
85.19
4
38
10
90.84
7
91.28
778
778
9
71.18
15
70.68
156
934
12
76.64
22
72.85
156
1090
15
79.14
29
78.94
6
Advers.
156
1246
19
86.18
35
83.17
156
1402
20
89.24
38
86.26
156
1558
44
91.46
21
92.85
Bảng 3.12 trình bày kết quả so sánh thời gian thực hiện hai thuật toán
IDS_IFW_AA và UARA (tính bằng giây - s). Kết quả Bảng 3.12 cho thấy,
105
thời gian thực hiện của IDS_IFW_AA cao hơn UARA trên tất cả các tập dữ
liệu, nguyên nhân là IDS_IFW_AA mất thêm chi phí thời gian thực hiện bộ
phân lớp trong giai đoạn wrapper, đây cũng là nhược điểm chung của các
Bảng 3.12. Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s)
thuật toán theo tiếp cận filter-wrapper.
UARA
IFWA_ IDS _AA
STT Tập dữ liệu
Tập thuộc tính
Số thuộc tính
Tổng số thuộc tính
Thời gian
Thời gian
Tổng thời gian 5.36
Tổng thời gian 4.28
34
34
5.36
4.28
7
41
0.48
0.39
4.67
5.84
7
48
0.45
0.41
5.08
6.29
1
Audiology
7
55
0.52
0.38
5.46
6.81
7
62
0.44
0.39
5.85
7.25
7
69
0.59
0.34
7.84
6.19
20
20
2.84
2.18
2.18
2.84
3
23
0.14
0.36
2.54
2.98
3
26
0.21
0.22
2.76
3.19
2
Soybean – large
3
29
0.16
0.15
2.91
3.35
3
32
0.33
0.21
3.12
3.68
3
0.28
0.16
3.96
35
3.28
6
6
4.12
3.08
3.08
4.12
2
8
0.54
0.54
3.62
4.66
2
10
0.32
0.43
4.05
4.98
3
2
12
0.63
0.54
4.59
5.61
Cong. Voting Records
2
14
0.51
0.53
5.12
6.12
2
0.72
0.56
6.84
16
5.68
139
139
24.68
24.68
20.78 20.78
4
28
167
3.04
2.06
22.84
27.72
Arrhythmia
28
195
3.24
2.33
25.17
30.96
28
223
3.69
2.89
28.06
34.65
28
251
2.07
2.06
30.12
36.72
28
2.12
1.16
38.84
279
31.28
106
UARA
IFWA_ IDS _AA
STT Tập dữ liệu
Tập thuộc tính
Số thuộc tính
Tổng số thuộc tính
Thời gian
Thời gian
18
18
6.84
Tổng thời gian 6.84
5.19
Tổng thời gian 5.19
4
22
0.48
7.32
0.55
5.74
4
26
0.43
7.75
0.55
6.29
5
Anneal
4
30
0.44
8.19
0.53
6.82
4
34
0.45
8.64
0.36
7.18
4
0.42
9.06
0.24
38
7.42
778
778
77.24
77.24
68.35 68.35
156
934
6.51
83.75
4.54
72.89
156
1090
6.09
89.84
5.35
78.24
6
Advers.
156
1246
6.13
95.97
4.94
83.18
156
1402
5.26
101.23
4.58
87.76
156
1558
5.55
106.78
4.52
92.28
3.3. Kết luận chương 3
Trong Chương 3, luận án trình bày kết quả xây dựng các công thức gia
tăng tính khoảng cách đề xuất ở Chương 2 trong trường hợp bổ sung, loại bỏ
tập đối tượng và bổ sung, loại bỏ tập thuộc tính. Dựa vào các công thức gia
tăng được xây dựng, luận án trình bày kết quả đề xuất bốn thuật toán gia tăng
tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi theo tiếp cận filter-
wrapper:
1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn
trong trường hợp bổ sung tập đối tượng.
2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường
hợp loại bỏ tập đối tượng.
3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn
trong trường hợp bổ sung tập thuộc tính.
107
4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn
trong trường hợp loại bỏ tập thuộc tính.
Luận án tiến hành thực nghiệm hai thuật toán đề xuất IDS_IFW_AO,
IDS_IFW_AA trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [118] để đánh giá
tính hiệu quả của thuật toán gia tăng đã đề xuất.
Trong trường hợp bổ sung tập đối tượng, thuật toán gia tăng filter-
wrapper đề xuất IDS_IFW_AO hiệu quả hơn thuật toán không gia tăng filter-
wrapper IDS_FW_DAR (được trình bày ở Chương 2) về thời gian thực hiện.
Với hướng tiếp cận truyền thống filter, số lượng thuộc tính tập rút gọn của
thuật toán IDS_IFW_AO nhỏ hơn đáng kể thuật toán filter IARM-I [86], hơn
nữa độ chính xác phân lớp của thuật toán IDS_IFW_AO cao hơn so với
IARM-I. Do đó, mô hình phân lớp trên tập rút gọn của thuật toán
IDS_IFW_AO hiệu quả hơn so với các thuật toán filter khác. Tuy nhiên, thuật
toán IDS_IFW_AO phải mất thêm chi phí về thời gian thực hiện do phải thực
hiện các bộ phân lớp.
Trong trường hợp bổ sung tập thuộc tính, số lượng thuộc tính tập rút gọn
của thuật toán gia tăng filter-wrapper IDS_IFW_AA cũng nhỏ hơn đáng kể
thuật toán gia tăng filter UARA [83]. Hơn nữa, độ chính xác phân lớp của
thuật toán IDS_IFW_AA cũng cao hơn so với UARA. Với trường hợp này,
mô hình phân lớp trên tập rút gọn của thuật toán IDS_IFW_AA cũng hiệu quả
hơn so với các thuật toán filter khác. Tuy nhiên, thuật toán IDS_IFW_AA
cũng phải trả giá về thời gian thực hiện do phải thực hiện các bộ phân lớp.
108
KẾT LUẬN
A. Các kết quả đạt được của luận án
Luận án nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn
của bảng quyết định không đầy đủ nhằm giảm thiểu số lượng thuộc tính tập rút
gọn, từ đó giảm thiểu độ phức tạp của mô hình phân lớp. Kết quả chính của luận
án bao gồm:
1. Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp
cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định
không đầy đủ sử dụng độ đo khoảng cách.
2. Xây dựng các công thức gia tăng tính khoảng cách mới và đề xuất 04
thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không
đầy đủ trong trường hợp bảng quyết định bổ sung, loại bỏ tập đối tượng và tập
thuộc tính (các thuật toán IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA,
IDS_IFW_DA)
3. Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các
thuật toán khác đã công bố trên các tập dữ liệu mẫu từ kho dữ liệu UCI [118].
Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118] cho
thấy, các thuật toán đề xuất theo tiếp cận filter-wrapper IDS_FW_DAR đề
xuất giảm thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán
filter khác. Hơn nữa, các thuật toán gia tăng filter-wrapper duy trì và nâng
cao độ chính xác của mô hình phân lớp so với các thuật toán gia tăng filter.
Do đó, các thuật toán filter-wrapper đề xuất giảm thiểu đáng kể độ phức tạp
của mô hình phân lớp.
Tuy nhiên, nhược điểm chung của các thuật toán filter-wrapper đề xuất
là mất thêm chi phí về thời gian thực hiện các bộ phân lớp so với các thuật
toán filter khác. Với mục tiêu nâng cao hiệu quả của mô hình phân lớp thì
nhược điểm này có thể chấp nhận được vì rút gọn thuộc tính chỉ là bước tiền
xử lý trong quá trình xây dựng các mô hình khai phá dữ liệu.
109
B. Những đóng góp mới của luận án
1. Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp
cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định
không đầy đủ sử dụng độ đo khoảng cách.
2. Xây dựng các công thức gia tăng tính khoảng cách mới và đề xuất 04
thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không
đầy đủ trong trường hợp bảng quyết định bổ sung, loại bỏ tập đối tượng và tập
thuộc tính (các thuật toán IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA,
IDS_IFW_DA).
C. Hướng nghiên cứu tiếp theo
1. Triển khai các thuật toán đề xuất vào việc giải quyết các lớp bài toán
trong thực tiễn, đặc biệt các bài toán có dữ liệu với số thuộc tính lớn (high
dimention data) trong các lĩnh vực khác nhau như dữ liệu gen trong tin sinh
học…
2. Tiếp tục nghiên cứu, đề xuất các thuật toán gia tăng filter-wrapper
hiệu quả nhằm giảm thiểu thời gian thực hiện dựa trên các mô hình tập thô
mở rộng khác phù hợp với các lớp bài toán trong thực tiễn.
110
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 1
2
3
4
5
Nguyen Ba Quang, Nguyen Long Giang, Dang Thi Oanh “A Distance based Incremental Filter-Wrapper Algorithm for Fingding Reduct in Incomplete Decision Tables”, Vietnam Journal of Science and Technology - Vietnam Academy of Science and Technology, Vol 57, No 4, 2019, pp. 499-512. Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thái Bình, 28-29/06/2019, Tr. 246-252. Nguyễn Bá Quảng, Nguyễn Long Giang, Nguyễn Thị Lan Hương, Nguyễn Ngọc Cương, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thái Bình, 28-29/06/2019, Tr. 253-259. Phạm Minh Ngọc Hà, Nguyễn Long Giang, Nguyễn Văn Thiện, Nguyễn Bá Quảng, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ”, Chuyên san các công trình nghiên cứu phát triển CNTT&TT, Tạp chí Công nghệ thông tin và truyền thông - Bộ TT&TT, Tập 2019, Số 1, Tháng 9, Tr. 11-18. Nguyễn Bá Quảng, Nguyễn Long Giang, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung tập thuộc tính”, Tạp chí Nghiên cứu KH&CN Quân sự, Số 63, 10-2019, Tr. 171-183.
111
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Vũ Văn Định, “Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai”, Luận án Tiến sĩ Toán học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2016.
[2] Nguyễn Thị Lan Hương, “Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Học viện Khoa học và Công nghệ-Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2016.
[3] Nguyễn Văn Thiện, “Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ”, Luận án Tiến sĩ Máy tính, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2018.
[4] Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc của CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr. 296- 302.
Tiếng Anh:
[5] A.K. Das, S. Sengupta, S. Bhattacharyya, “A Group Incremental Feature Selection for Classification using Rough Set Theory based Genetic Algorithm”, Applied Soft Computing 65, pp. 400-411, 2018.
[6] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set approach for incremental feature selection on hybrid information systems”, Fuzzy Sets and Systems, Volume 258, pp. 39-60, 1 January 2015.
[7] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating fuzzy rough approximations for hybrid data under the variation of attribute values”, Information Sciences 000, pp. 1-26, 2016.
112
[8] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi, “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28, 2016.
[9] C. C. Zhang, J. H. Dai, “An incremental attribute reduction approach based on knowledge granularity for incomplete decision systems”, Granular Computing, pp. 1-15, 2019.
[10] C.J. Yang, H. Ge, L.S. Li, J. Ding, “A unified incremental reduction with the variations of the object for decision tables”, Soft Computing, Vol. 23, Iss. 15, pp. 64076427, 2019.
[11] C. Luo, T. R. Li and H. M. Chen, “Dynamic maintenance of approximations in setvalued ordered decision systems under the attribute generalization”, Information Sciences 257, pp. 210 - 228, 2014.
[12] C. Luo, T.R. Li, H.M. Chen, H. Fujita, Z. Yi, “Efficient updating of probabilistic approximations with incremental objects”, Knowledge-Based Systems 109, pp. 71-83, 2017.
[13] C. Luo, T.R. Li, Y. Yao, “Dynamic probabilistic rough sets with
incomplete data”, Information Sciences 417, pp. 39–54, 2017.
[14] C. Luo, T.R. Li, Y.Y. Huang, H. Fujita, “Updating three-way decisions in incomplete multi-scale information systems”, Information Sciences 476, pp. 274-289, 2019.
[15] C.X. Hu, S.X. Liu, G.X. Liu, “Matrix-based approaches for dynamic updating approximations in multigranulation rough sets”, Knowl Based Syst 122, pp. 51-63, 2017.
[16] C.Z. Wang, Y. Qi, Q. He, Attribute reduction using distance-based fuzzy rough sets, 2015 International Conference on Machine Learning and Cybernetics , IEEE, 2015.
[17] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, Fuzzy rough set-based attribute reduction using distance measures, Knowledge-Based Systems, Volume 164, 15 January 2019, pp. 205-212.
113
[18] D.D. Zhang, R.P. Li, X.T. Tang, Y.S. Zhao, “An incremental reduct algorithm based on generalized decision for incomplete decision tables”, IEEE 3rd International Conference on Intelligent System and Knowledge Engineering, pp. 340-344, 2008.
[19] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long Giang, “Metric Based Attribute Reduction Method in Dynamic Decision Tables”, Cybernetics and Information Technologies, Vol.16, No.2, pp. 3- 15, 2016.
[20] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp. 129-149, 2016.
[21] D. Liu, T.R. Li, D. Ruan, W.L. Zou, “An incremental approach for inducing knowledge from dynamic information systems”, Fundam. Inform. 94, pp. 245-260, 2009.
[22] D. Liu, T.R. Li, G.R. Liu, P. Hu, “An incremental approach for inducing interesting knowledge based on the change of attribute values”, in: Proceedings of the2009 IEEE International Conference on Granular Computing, Nanchang, China, pp.415–418, 2009.
[23] D. Liu, T.R. Li, J.B. Zhang, “A rough set-based incremental approach for learning knowledge in dynamic incomplete information systems”, International Journal of Approximate Reasoning 55, pp. 1764-1786, 2014.
[24] D. Liu, T.R. Li, J.B. Zhang, “Incremental updating approximations in probabilistic rough sets under the variation of attributes”, Knowledge- Based Systems 73, pp. 81-96, 2015.
[25] D.X. Peng, X.D. Hong, “Research on Heuristic Knowledge Reduction International Incomplete Decision Table”, IEEE for
Algorithm Conference on Internet Technology and Applications, 2010.
[26] D. Yue, Z. Xu, C.D. Mei, W.Y. Mei, “Analysis of Attribute Reduction of Incomplete Decision Table Based on Information Entropy”, 8th International Conference on Intelligent Computation Technology and Automation (ICICTA), 2015.
114
[27] F. Hu, G. Wang, H. Huang, “Incremental attribute reduction based on elementary sets”, International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, Springer-Verlag, pp.185-193, 2005.
[28] F.M. Ma, J.W. Chen, W. Han, “A Positive Region Based Incremental Attribute Reduction Algorithm for Incomplete System”, International Conference on Electronic Information Technology and Intellectualization (ICEITI 2016), pp. 153-158, 2016.
[29] F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix for attribute reduction in incomplete information systems”, The Journal of China Universities of Posts and Telecommunications, Volume 24, Issue 4, pp. 57-75, 2017.
[30] F.M. Ma, M.W. Ding , T.F. Zhang, J. Cao, “Compressed binary discernibility matrix based incremental attribute reduction algorithm for group dynamic data”, Neurocomputing, 2019.
[31] F. Wang, J.Y. Liang, C.Y. Dang, “Attribute reduction for dynamic data
sets”, Applied Soft Computing, 13(1), pp. 676-689, 2013.
[32] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, pp. 95- 108, 2013.
[33] G. Hao, L.L. Shu, Y.C. jian, D. Jian, “Incremental reduction algorithm with acceleration strategy based on conflict region”, Artif Intell Rev, Springer, 2017.
[34] G.M. Lang, D.Q. Miao, T. Yang, M.J. Cai, “Knowledge reduction of dynamic covering decision information systems when varying covering cardinalities”, Information Sciences 346-47, pp. 236-260, 2016.
[35] G.M. Lang, Q. Li, M.J. Cai, T. Yang, Q.M. Xiao, Incremental approaches to knowledge reduction based on characteristic matrices, Int. J. Mach. Learn. Cybern. 8 (1) pp. 203-222, 2017.
[36] G.M. Lang, D.Q. Miao , M.J. Cai, Z.F. Zhang, “ Incremental approaches information systems, in dynamic covering
for updating reducts Knowledge Based Systems 134, pp. 85..104, 2017.
115
[37] G.M. Lang, M.J. Cai, H. Fujita, Q.M. Xiao, “Related families- based attribute reduction of dynamic covering decision information systems”, Knowledge-Based Systems, Volume 162, 15 December, pp. 161-173, 2018.
[38] G. Q. Wang, “Valid Incremental Attribute Reduction Algorithm Based on Attribute Generalization for an Incomplete Information System”, Chinese Journal of Electronics, Vol.28, No.4, 2019.
[39] Guyon, Isabelle; Elisseeff, André, “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research, pp. 1157- 1182, 2003.
[40] H. Liu, L. Yu, “Toward integrating feature selection algorithms for classification and clustering”, IEEE Transactions on knowledge and data engineering, 17(4), pp. 491-502, 2005.
[41] H.M. Chen, T.R. Li, S.J. Qiao, D. Ruan, “A rough set based dynamic maintenance approach for approximations in coarsening and refining attribute values”, Int. J. Intell. Syst. 25, pp. 1005-1026, 2010.
[42] H.M. Chen, T.R. Li, R. Da, “Maintenance of approximations in incomplete ordered decision systems while attribute values coarsening or refining”, Knowl.-Based Syst. 31, pp. 140-161, 2012.
[43] H.M. Chen, T.R. Li, R. Da, et al., “A rough-set-based incremental approach for updating approximations under dynamic maintenance environments”, IEEE Trans. Knowl. Data Eng. 25, pp. 274-284, 2013.
[44] H. M. Chen, T. R. Li, D. Ruan, J. H. Lin and C. X. Hu, “A rough-set based incremental approach for updating approximations under dynamic maintenance environments”, IEEE Transactions on Knowledge and Data Engineering. 25 (2), 274 - 284, 2013.
[45] H.S. Zou, C.S. Zhang, “Efficient Algorithm for Knowledge Reduction Information System”, Journal of Computational Incomplete
in Information Systems 8: 6, pp. 2531–2538, 2012.
[46] Huyen Tran, Thinh Cao, Koichi Yamada, Do Van Nguyen, “Incremental Updating Methods with Three-way Decision Models in Incomplete
116
Information Systems”, IEEE Joint 10th International Conference on Soft Computing and Intelligent Systems, pp. 27-32, 2018.
[47] H.X. Li, X.H. Zhou, M.M. Zhu, “A Heuristic Reduction Algorithm in
IIS Based on Binary Matrix”, RSKT, pp. 143-150, 2010.
[48] H. Zhao, K.Y. “Mixed feature Qin,
selection in incomplete decision table” Knowledge-Based Systems, Volume 57, pp. 181-190, 2014.
[49] J.C. Xu, L. Sun, “Knowledge Entropy and Feature Selection in Incomplete Decision Systems,” Applied Mathematics & Information Sciences, vol. 7, no. 2, pp. 829-837, 2013.
[50] J.H. Dai, W.T. Wang, H.W. Tian, L. Liu, “Attribute selection based on a new conditional entropy for incomplete decision systems”, Knowledge- Based Systems, Volume 39, pp. 207-213, 2013.
[51] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete
Decision Information System”, IJCRS 2017, pp 289-305, 2017.
[52] J. Qian, C.Y. Dang, X.D. Yue, N. Zhang, “Attribute reduction for sequential three-way decisions under dynamic granulation”, International Journal of Approximate Reasoning 85(2017) 196-216.
[53] J. Xie, X.F. Shen, H.F. Liu, X.Y. Xu, “Research on an Incremental Attribute Reduction Based on Relative Positive Region”, Journal of Computational Information Systems 9:16, pp. 6621-6628, 2013.
[54] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp. 126-136, 2012.
[55] J.Y. Liang, F. Wang, C.Y. Dang, Y.H. Qian, “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 26(2), pp. 294-308, 2014.
[56] J. Yu, L. Sang, H. Dong, “Based on Attribute Order for Dynamic Attribute Reduction in the Incomplete Information System”, IEEE IMCEC 2018, pp. 2475-2478, 2018.
117
[57] J. Zhou, E. Xu, Y.H. Li, Z. Wang, Z.X. Liu, X.Y. Bai , “A New Attribute Reduction Algorithm Dealing With The Incomplete Information System”, 2009 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 2009.
[58] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic attribute variation in set-valued information systems”, Int. J. Approx. Reason, Vol.53, pp. 620-635, 2012.
[59] L.H Guan, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, pp. 421- 425, 2009.
[60] L.N. Wang , X. Yang , Y. Chen , L. Liu , S.Y. An , P. Zhuo , “Dynamic composite decision-theoretic rough set under the change of attributes”, Int. J. Comput. Intell.Syst. 11 (2018) 355–370 .
[61] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.
[62] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol. 8170, pp. 99-110, 2013.
[63] Long Giang Nguyen, Thien Nguyen, Nhu Son Nguyen , “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS 2018: International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103, Springer Link, 2018, pp. 614-627.
[64] L. Sun, J.C. Xu, Y. Tian, “Feature selection using rough entropy-based uncertainty measures in incomplete decision systems”, Knowledge-Based Systems, Volume 36, pp. 206-216, 2012.
[65] M.J. Cai, Q.G. Li, J.M. Ma, “Knowledge reduction of dynamic covering decision information systems caused by variations of attribute values”,
118
International Journal of Machine Learning and Cybernetics 8(4), pp. 1131-1144, 2017.
[66] M.J. Cai, G.M. Lang, H. Fujita, Z.Y. Li, T. Yang, Incremental approaches to updating reducts under dynamic covering granularity, Knowledge-Based Systems, 2019.
[67] M. Kryszkiewicz (1998), “Rough set approach to incomplete
information systems”, Information Science, Vol. 112, pp. 39-49.
[68] M.S. Raza,U. Qamar,
“An incremental dependency calculation technique for feature selection using rough sets”, Information Sciences 343–344, pp. 41–65, 2016.
[69] Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and Applications (FAIA), Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.
[70] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based on metric for finding reduct in dynamic decision tables”, Journal on Research and Development on Information & Communications Technology, Vol.E-3, No.9 (13), pp. 26-39, 2016.
[71] R.P. Li, D.D. Zhang, Y.S. Zhao, X.T. Tang, “Incremental Core Computing for Incomplete Decision Tables, International Symposium on Computational Intelligence and Design”, IEEE ISCID, pp. 270-273, 2008.
[72] Sai Prasad P.S.V.S, Raghavendra Rao Chillarige,
Novel Granular Framework for Attribute Reduction in Incomplete Decision Systems, Multi-disciplinary Trends in Artificial In Artificial Intelligence, 2012.
[73] S. Li, T. Li, D. Liu, “Incremental updating approximations in dominance-based rough sets approach under the variation of the attribute set”, Knowledge-Based Systems, Vol.40, pp. 17-26, 2013.
[74] S. Li, T. Li, “Incremental update of approximations in dominance-based rough sets approach under the variation of attribute values”, Inf. Sci. 294, pp.348-361, 2015.
119
[75] S. Wang , T. Li , C. Luo , H. Fujita , Efficient updating rough approximations with multi-dimensional variation of ordered data, Inf. Sci. 372, pp. 690-708, 2016.
[76] T.R. Li, D. Ruan, W. Geert, J. Song, Y. Xu, A rough sets based characteristic relation approach for dynamic attribute generalization in data mining, Knowl.-Based Syst. 20, pp. 485-494, 2007.
[77] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing 7 (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp. 375-388.
[78] Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition Distance Based Attribute Reduction in Incomplete Decision Tables”, Journal on Information Communications Technology, Research and Development on Information & Communications Technology, Vol. V-2, No. 14(34), pp. 23-32, 12-2015.
[79] W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection from incomplete data”, Neurocomputing, Volume 168, pp. 210- 220, 2015.
Information System”, for
[80] W.D. Tan, E. Xu, F. Shi, Y.C. Ren, L.J. Fan, “A Novel Method of Attribute Reduction IEEE Incomplete International Conference on Innovative Computing and Communication, pp. 352-354, 2010.
[81] W.H. Shu, H. Shen, “Incremental Attribute Reduction in Incomplete Decision systems”, IEEE Fifth International Symposium on Parallel Architectures, Algorithms and Programming, pp. 250-254, 2012.
[82] W.H. Shu, H. Shen, “A rough-set based incremental approach for updating attribute reduction under dynamic incomplete decision systems”, IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), pp. 1-7, 2013.
120
[83] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision systems with the variation of attribute set”, International Journal of Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.
[84] W.H. Shu, H. Shen, “Incremental feature selection based on rough set in dynamic incomplete data”, Pattern Recognition 47, pp.3890-3906, 2014.
[85] W.H. Shu, W.B. Qian, “A fast approach to attribute reduction from incomplete decision systems”, in
perspective of attribute measures Knowledge-Based Systems, V.72, pp. 60-71, 2014.
[86] W.H. Shu, W.B. Qian, “An incremental approach to attribute reduction from dynamic incomplete decision systems in rough set theory”, Data & Knowledge Engineering 100, pp. 116-132, 2015.
[87] W.H. Shua, W.B. Qian, Y.H. Xie, “Incremental approaches for feature selection from dynamic data with the variation of multiple objects”, Knowledge-Based Systems, Volume 163, pp. 320-331, 2019.
[88] W.J. Liu, “An incremental approach to obtaining attribute reduction for dynamic decision systems”, Open Math 2016, 14, pp. 875–888, 2016.
[89] W. Wei, P. Song, J.Y. Liang, X.Y. Wu, “Accelerating incremental attribute table”, reduction algorithm by compacting a decision International Journal of Machine Learning and Cybernetics, Springer, 2018.
[90] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based incremental attribute reduction for dynamic data”, Knowledge- Based Systems, Volume 140, pp. 142-157, 15 January 2018.
[91] X. Guo, Y.Z. Xiang, L. Shu, “An Information Quantity-Based Uncertainty Measure to Incomplete Numerical Systems”, International Conference on Fuzzy Information & Engineering, pp. 23-29, 2019.
[92] X.J. Xie, X. L. Qin, “A novel incremental attribute reduction approach for dynamic incomplete decision systems”, International Journal of Approximate Reasoning 93, pp. 443-462, 2018.
[93] X.P. “Research Xiong, Dai, D.H. on
Heuristic Knowledge Reduction Algorithm for Incomplete Decision Table”, IEEE
121
2010 International Conference on Internet Technology and Applications, pp. 1-3, 2010.
[94] Xu E, Y.Q. Yang, Y.C. Ren, “A New Method of Attribute Reduction Based On Information Quantity in An Incomplete System”, JOURNAL OF SOFTWARE, VOL. 7, NO. 8, pp. 1881-1888, 2012.
[95] X. Yang, T.R. Li, D. Liu, H.M. Chen, C. Luo, “A unified framework of dynamic three-way probabilistic rough sets”, Information Sciences 420, pp. 126-147, 2017.
[96] X. Yang, T.R. Li, H. Fujita, D. Liu, Y.Y. Yao, “A unified model of sequential three-way decisions and multilevel incremental processing”, Knowledge-Based Systems 134, pp. 172-188, 2017.
[97] Y. Cheng, “The incremental method for fast computing the rough fuzzy
approximations”, Data Knowl. Eng. 70, pp. 84-100, 2011.
[98] Y.H. Qian, J.Y. Liang, D.Y. Li, F. Wang, N.N. Ma, “Approximation reduction in inconsistent incomplete decision tables”, Knowledge-Based Systems, Volume 23, Issue 5, pp. 427-433, 2010.
[99] Y.H. Qian, J.Y. Liang, W. Pedrycz, C.Y. Dang, “An efficient accelerator for attribute reduction from incomplete data in rough set framework”, Pattern Recognition 44, pp. 1658-1670, 2011.
[100] Y. Jing, T. Li, C. Luo, S.J. Horng, G. Wang, Z. Yu, “An incremental approach for attribute reduction based on knowledge granularity”, Knowledge-Based Systems, Vol.104, pp. 24-38, 2016.
[101] Y. Jing, T. Li, J. Huang, et al., “An incremental attribute reduction the attribute
approach based on knowledge granularity under generalization”, Int. J. Approx. Reason. 76, pp.80-95, 2016.
[102] Y. Jing, T. Li, H. Fujita, Z. Yu, B. Wang, An incremental attribute reduction approach based on knowledge granularity with a multi- granulation view, Information Sciences 411, pp. 23-38, 2017.
[103] Y. Jing, T. Li, J. Huang, H.M. Chen, S.J. Horng, “A Group Incremental Reduction Algorithm with Varying Data Values”, International Journal of Intelligent Systems 32(9), pp. 900-925, 2017.
122
[104] Y. Jing, T. Li, H. Fujita, B.L. Wang, N. Cheng, “An incremental attribute reduction method for dynamic data mining”, Information Sciences 465, pp. 202-218, 2018.
[105] Y. Li, Y.F. Jin, X.D. Sun, “Incremental method of updating approximations in DRSA under variations of multiple objects”, Int. J. Mach. Learn. & Cyber, 2015.
[106] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental Attribute Reduction Applying Dependency Measures”, APWeb-WAIM 2017: Web and Big Data, pp 484-492, 2017.
[107] Y. Tao, H.C. Zhao, “Entropy based attribute reduction approach table”, 20th International Conference on
for incomplete decision Information Fusion (Fusion), pp. 1-8, 2017.
[108] Y.Y. Huang, T.R. Li, C. Luo, H. Fujita, S.J. Horng, “Dynamic variable precision rough set approach for probabilistic set-valued information systems”, Knowledge-Based Systems 122, pp. 131-147,2017.
[109] Y.Y. Huang , T.R. Li , C. Luo , H. Fujita , S.J. Horng , Matrix-based dynamic updating rough fuzzy approximations for data mining, Knowl. Based Syst. 119, pp. 273-283, 2017.
[110] Y.Y. Yang, D.G. Chen, H. Wang, “Active Sample Selection Based Incremental Algorithm for Attribute Reduction With Rough Sets”, IEEE Transactions on Fuzzy Systems, 25(4), pp. 825–838, 2017.
[111] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough set based incremental attribute reduction from dynamic data with sample arriving”, Fuzzy Sets and Systems, Volume 312, 1, Pages 66-86, April 2017.
[112] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for feature selection based on fuzzy rough sets”, IEEE TRANSACTIONS ON FUZZY SYSTEMS, TFS-2016-0916, 27 June 2017.
[113] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data,
Kluwer Academic Publisher, London, 1991.
123
[114] Z.Q. Meng, Z.Z. Shi, “A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough sets”, Information Sciences, Vol. 179, pp. 2774-2793, 2009.
[115] Z.Q. Meng, Z.Z. Shi, “Extended rough set-based attribute reduction in inconsistent incomplete decision systems”, Information Sciences, Volume 204, pp. 44-69, 2012.
[116] Z.Y. Xu, B. Yang, W.H. Shu, "Efficient Algorithm for Attribute Reduction of Incomplete Information Systems Based on Assignment Matrix”, Fuzzy Information and Engineering, Volume 2, 2009.
[117] Z.Y. Xu, J.H. Zhou, C.G. Zhang, “A Quick Attribute Reduction Algorithm Based on Incomplete Decision Table”, Information Computing and Applications, 2013.
[118] The UCI machine learning repository.
http://archive.ics.uci.edu/ml/datasets.html.