BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGUYỄN BÁ QUẢNG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2021

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGUYỄN BÁ QUẢNG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER

Chuyên ngành: Cơ sở toán học cho tin học 9 46 01 10 Mã số:

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS. TS. NGUYỄN LONG GIANG

2. TS. NGÔ TRỌNG MẠI

Hà Nội - 2021

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các số liệu,

kết quả nghiên cứu trong luận án này là hoàn toàn trung thực và chưa từng

được ai công bố trong bất kỳ công trình nào khác, các dữ liệu tham khảo được

trích dẫn đầy đủ.

Tác giả luận án

Nguyễn Bá Quảng

ii

LỜI CÁM ƠN

Tôi xin chân thành cám ơn Thủ trưởng Viện Khoa học và Công nghệ

quân sự, Phòng Đào tạo, Viện Công nghệ thông tin và các đồng nghiệp đã

luôn động viên, quan tâm, tạo điều kiện thuận lợi và giúp đỡ tôi trong quá

trình học tập và nghiên cứu của mình.

Tôi xin bày tỏ sự biết ơn chân thành và sâu sắc đến PGS. TS Nguyễn

Long Giang, TS Ngô Trọng Mại đã tận tình chỉ bảo, hướng dẫn tôi trong suốt

quá trình nghiên cứu và hoàn thành bản luận án này.

Tôi xin chân thành cám ơn các nhà khoa học của Viện Khoa học và

Công nghệ quân sự, các nhà khoa học Viện Hàn lâm Khoa học và Công nghệ

Việt Nam, các nhà khoa học trong và ngoài quân đội đã giúp đỡ tôi hoàn

thành luận án.

Xin chân thành cám ơn gia đình và bạn bè đã luôn chia sẻ, động viên và

giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu.

iii

MỤC LỤC

Trang

LỜI CAM ĐOAN ................................................................................................................................................. i

LỜI CÁM ƠN ....................................................................................................................................................... ii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................................................... v

DANH MỤC CÁC BẢNG ............................................................................................................................. vi

DANH MỤC CÁC HÌNH VẼ....................................................................................................................... vii

MỞ ĐẦU ............................................................................................................................................................... 1

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ

DUNG SAI............................................................................................................................... 10

1.1. Hệ thông tin và mô hình tập thô truyền thống ............................................................ 10 1.1.1. Hệ thông tin ........................................................................................... 10 1.1.2. Mô hình tập thô truyền thống ................................................................ 11 1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai ........................................... 12 1.2.1. Hệ thông tin không đầy đủ .................................................................... 12 1.2.2. Mô hình tập thô dung sai ....................................................................... 12 1.2.3. Bảng quyết định không đầy đủ .............................................................. 14 1.2.4. Ma trận dung sai .................................................................................... 16 1.3. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai ............................... 18 1.3.1. Tổng quan về rút gọn thuộc tính ............................................................ 18 1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính .................................. 19 1.3.3. Rút gọn thuộc tính theo tiếp cận tập thô dung sai ................................. 21 1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai .... 24 1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô dung sai ................................. 24 1.4.2. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai ..................................................... 27 1.5. Kết luận chương 1 ......................................................................................................... 36 CHƯƠNG 2. THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ ................................................ 37 2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ ....................... 38 2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp ..................................... 39 2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính ........................... 40

iv

2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách ..... 42

2.2.1. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ ......................................................................................... 43 2.2.2. Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ ......................................................................................... 46 2.2.3. Thực nghiệm và đánh giá kết quả ............................................................ 49 2.3. Kết luận chương 2 ......................................................................................................... 54 CHƯƠNG 3. CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI ....................................... 55 3.1. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập đối tượng ....................................................................................................................... 58 3.1.1. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng ................. 58 3.1.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng ............................................................................................... 62 3.1.3. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng .................. 67 3.1.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập đối tượng ......................................................................................... 70 3.1.5. Thực nghiệm và đánh giá các thuật toán ............................................... 74

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính ....................................................................................................................... 92 3.2.1. Công thức cập nhật khoảng cách khi bổ sung tập thuộc tính ................ 92 3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính .............................................................................................. 93 3.2.3. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính .................. 97 3.2.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính ........................................................................................ 98 3.2.5. Thực nghiệm và đánh giá các thuật toán ............................................. 101 3.3. Kết luận chương 3 ....................................................................................................... 106 KẾT LUẬN ....................................................................................................................................................... 108 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ................................................ 110 TÀI LIỆU THAM KHẢO ............................................................................................................................ 111

v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Số thuộc tính điều kiện trong bảng quyết định

Bảng quyết định không đầy đủ

Hệ thông tin không đầy đủ

Tập xấp xỉ dưới của

đối với P

đối với P

Tập xấp xỉ trên của Miền dương của P đối với d

Quan hệ dung sai trên tập thuộc tính P

Lớp dung sai chứa

của phủ

Lực lượng lớp dung sai

Số đối tượng

Giá trị của đối tượng

tại thuộc tính

Phủ của U trên P

IDS_F_DAR

IDS_IFW_AA

IDS_IFW_AO

IDS_IFW_DA

IDS_IFW_DO

IDS_FW_DAR

Filter Distance based Attribute Reduction in Incomplete Decision Tables Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Attributes. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Objects. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Attributes. Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Objects. Filter-Wrapper Distance based Attribute Reduction in Incomplete Decision Tables

vi

DANH MỤC CÁC BẢNG

Trang

Bảng 1.2. Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ

theo tiếp cận tập thô dung sai .................................................................. 24

Bảng 1.3. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn

theo tiếp cận tập thô truyền thống và các mô hình mở rộng. ................... 28

Bảng 1.4. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn

theo tiếp cận tập thô dung sai .................................................................. 33

Bảng 2.1. Bảng quyết định của Ví dụ 2.1 ................................................................. 45

Bảng 2.2. Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR ................................. 50

Bảng 2.3. Thời gian thực hiện ba thuật toán (tính bằng giây) .................................. 51

Bảng 2.4. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba

thuật toán .................................................................................................. 52

Bảng 3.1. Bảng quyết định của Ví dụ 3.1 ................................................................. 61

Bảng 3.2. Bảng quyết định của Ví dụ 3.2 ................................................................. 69

Bảng 3.3. Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO ..................................... 75

Bảng 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s) . 77

Bảng 3.5. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật

toán IDS_IFW_AO và IDS_FW_DAR ................................................... 80

Bảng 3.6. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán

IDS_IFW_AO và IARM-I ....................................................................... 82

Bảng 3.7. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s) .......... 86

Bảng 3.8. Thời gian thực hiện của 03 thuật toán (s) ................................................. 89

Bảng 3.9. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán . 90

Bảng 3.10. Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA ........................ 102

Bảng 3.11. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật

toán IDS_IFW_AA và UARA ............................................................ 103

Bảng 3.12. Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s) ........ 105

Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi ........................................... 16

vii

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Quy trình rút gọn thuộc tính ..................................................................... 20

Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính .......................... 21

Hình 1.3. Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai . 22

Hình 2.1. Thời gian thực hiện ba thuật toán (tính bằng giây) ................................... 51

Hình 2.2. Số lượng thuộc tính tập rút gọn của ba thuật toán .................................... 53

Hình 2.3. Độ chính xác phân lớp của ba thuật toán .................................................. 54

Hình 3.1. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR .... 79

Hình 3.2. Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR ................ 81

Hình 3.3.a. Bộ số liệu Audiology .............................................................................. 84

Hình 3.3.b. Bộ số liệu Soybean-large ....................................................................... 84

Hình 3.3.c. Bộ số liệu Congressional Voting Records.............................................. 84

Hình 3.3.d. Bộ số liệu Arrhythmia ............................................................................ 85

Hình 3.3.e. Bộ số liệu Anneal ................................................................................... 85

Hình 3.3.f. Bộ số liệu Advertisements ...................................................................... 85

Hình 3.3. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán

IDS_IFW_AO và IARM-I ........................................................................ 85

Hình 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I ................ 88

Hình 3.5. Thời gian thực hiện của 03 thuật toán (s) ................................................. 89

Hình 3.6. Độ chính xác phân lớp của 03 thuật toán .................................................. 91

Hình 3.7. Số thuộc tính tập rút gọn của 03 thuật toán............................................... 91

Trang

1

MỞ ĐẦU

1. Tính cấp thiết của đề tài luận án

Trong bối cảnh ngày nay, sự tăng trưởng không ngừng của dung lượng

dữ liệu và số lượng các thuộc tính đã gây khó khăn, thách thức cho việc thực

thi các thuật toán khai phá dữ liệu, phát hiện tri thức. Rút gọn thuộc tính (còn

gọi là rút gọn chiều, hay rút gọn đặc trưng) là bài toán quan trọng trong bước

tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không cần

thiết nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu. Hiện nay có

hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [39-40]: filter (lọc)

và wrapper (đóng gói). Cách tiếp cận filter thực hiện việc rút gọn thuộc tính

độc lập với thuật khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn

chỉ dựa trên độ quan trọng của chúng trong việc phân lớp dữ liệu. Trong khi

đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay

thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn

các tập con thuộc tính.

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [113] được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy

đủ, đã và đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay.

Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền

giá trị thuộc tính, gọi là bảng quyết định không đầy đủ. Ví dụ với bảng quyết

định chẩn đoán bệnh viêm gan với các thuộc tính là các triệu chứng, các bác

sĩ không thể thu thập đầy đủ các triệu chứng của tất cả các bệnh nhân để ra

quyết định. Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết

định không đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz

[67] mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành

quan hệ dung sai và xây dựng mô hình tập thô dung sai (tolerance rough set).

Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo

2

tiếp cận mô hình tập thô dung sai là các nghiên cứu mở rộng của các phương

pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống. Đây là các phương

pháp heuristic bao gồm các bước: xây dựng độ đo, định nghĩa tập rút gọn và

độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây

dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của

thuộc tính. Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết

định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương

pháp chính như: các phương pháp sử dụng miền dương mở rộng [25], [51],

[99], [114], [117], các phương pháp sử dụng ma trận phân biệt, hàm phân biệt

mở rộng [29], [45], [47], [57], [77], [80], [116], các phương pháp sử dụng

entropy thông tin mở rộng [26], [48-50], [64], [79], [107], các phương pháp

sử dụng độ đo lượng thông tin [72], [91], [94], phương pháp sử dụng khoảng

cách [62], [78] và một số phương pháp sử dụng các độ đo khác như quan hệ

không phân biệt mở rộng [85], độ bao phủ của thuộc tính [93]. Nhìn chung,

các phương pháp rút gọn thuộc tính theo tiếp cận tập thô và tập thô dung sai

đều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mô

hình phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn để

giảm thiểu độ phức tạp và nâng cao độ chính xác của mô hình. Các thuật toán

đã đề xuất trong các phương pháp nêu trên đều là các thuật toán heuristic theo

tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối

thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác của mô

hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn

của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ

chính xác phân lớp.

Tại Việt Nam, đã có một số luận án tiến sĩ giải quyết bài toán rút gọn

thuộc tính trong bảng quyết định theo tiếp cận mô hình tập thô truyền thống

và các mô hình tập thô mở rộng của nhóm nghiên cứu của thầy hướng dẫn. Cụ

3

thể, luận án tiến sĩ [2] đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định đầy đủ theo tiếp cận filter truyền thống. Luận án tiến sĩ [1] đề xuất

các thuật toán rút gọn thuộc tính trong bảng quyết định không đầy đủ cố định.

Trong luận án tiến sĩ [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-

wrapper tìm tập rút gọn của bảng quyết định đầy đủ dựa trên lý thuyết tập thô

mờ (fuzzy rough set). Trong đó, giai đoạn filter tìm các ứng viên cho tập rút

gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán

độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ

chính xác phân lớp cao nhất. Kết quả thử nghiệm cho thấy, số lượng thuộc

tính tập rút gọn giảm thiểu đáng kể so với các phương pháp filter, trong khi

độ chính xác phân lớp vẫn được bảo toàn và cải thiện hơn. Tuy nhiên, các

phương pháp trong luận án [3] đều thực hiện trên bảng quyết định đầy đủ theo

tiếp cận tập thô mờ (fuzzy rough set). Do đó, mục tiêu nghiên cứu thứ nhất

của luận án là nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút

gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai nhằm

giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo toàn, cải

thiện độ chính xác mô hình phân lớp.

Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảng

quyết định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp

dụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều

thách thức. Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện

các thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ

và tốc độ tính toán. Với trường hợp bảng quyết định thay đổi, cập nhật, các

thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau

khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để vượt

qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán

gia tăng tìm tập rút gọn. Phương pháp gia tăng tìm tập rút gọn là kỹ thuật chỉ

tính toán sự thay đổi của tập rút gọn trên phần dữ liệu bổ sung (hoặc loại bỏ)

4

chứ không tính lại tập rút gọn trên toàn bộ tập dữ liệu ban đầu. Do các thuật

toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi nên

chúng giảm thiểu đáng kể thời gian thực hiện khi thực thi trên các bảng dữ

liệu thay đổi, biến động. Hơn nữa, các thuật toán gia tăng có thể thực hiện

được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng

quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ

sung từng phần vào bảng quyết định.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự

quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Theo tiếp

cận tập thô truyền thống và các mô hình mở rộng, các nghiên cứu liên quan

đến thuật toán gia tăng tìm tập rút gọn và tính toán các tập xấp xỉ của bảng

quyết định thay đổi khá sôi động và phong phú. Các nghiên cứu liên quan đến

các thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường hợp: bổ

sung và loại bỏ tập đối tượng [14], [20-21], [30], [33], [35], [37], [52], [55],

[59], [70], [87], [89], [95-96], [100], [102], [106], [108], [110-112], bổ sung

và loại bỏ tập thuộc tính [6], [19], [32], [53], [58], [60], [68], [76], [101],

[104], tập đối tượng thay đổi giá trị [10], [66], [88], [90], [103], tập thuộc tính

thay đổi giá trị [22], [31], [34], [36], [65]. Ngoài ra, một số công bố đề xuất

các thuật toán gia tăng tính toán các tập xấp xỉ trong các trường hợp: bổ sung

và loại bỏ tập đối tượng [12], [15], [43], [97], [105], [109], bổ sung và loại bỏ

tập thuộc tính [7], [24], [73], [75], tập đối tượng thay đổi giá trị [44], tập

thuộc tính thay đổi giá trị [11], [41], [74]. Theo tiếp cận tập thô dung sai,

trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tính

toán các tập xấp xỉ và tìm tập rút gọn của bảng quyết định không đầy đủ khá

sôi động và phong phú. Giống như tiếp cận tập thô truyền thống và các mô

hình mở rộng được trình bày ở trên, các nghiên cứu liên quan chủ yếu tập

trung vào trường hợp bổ sung, loại bỏ tập đối tượng [9], [13], [18], [23], [28],

[38], [42], [46], [56], [71], [81-82], [86]. Ngoài ra, công bố [83] giải quyết bài

5

toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; công bố [84] giải quyết

bài toán trong trường hợp tập đối tượng thay đổi giá trị; công bố [92] giải

quyết bài toán trong trường hợp tập thuộc tính thay đổi giá trị.

Giống như các thuật toán tìm tập rút gọn trong bảng quyết định không

đầy đủ đã trình bày ở trên, các thuật toán gia tăng tìm tập rút gọn trong các

phương pháp nêu trên đều theo hướng tiếp cận filter truyền thống. Do đó, tập

rút gọn tìm được chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân

lớp. Gần đây, các tác giả trong công trình [4] đề xuất thuật toán gia tăng tìm

tập rút gọn theo tiếp cận kết hợp filter-wrapper. Tuy nhiên, thuật toán gia tăng

trong [4] chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô

mờ trong trường hợp bổ sung tập đối tượng. Vì vậy, mục tiêu nghiên cứu thứ

hai của luận án là nghiên cứu các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu

số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp so với các

thuật toán đã công bố.

2. Mục tiêu nghiên cứu

Trên cơ sở phân tích các vấn đề còn tồn tại của các nghiên cứu liên quan,

mục tiêu của luận án là:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

không đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc

tính tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độ

chính xác của mô hình phân lớp.

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của

bảng quyết định không đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm

giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô

hình phân lớp so với các thuật toán gia tăng khác.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án là bảng quyết định không đầy đủ, mô

6

hình tập thô dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tập

thô dung sai và các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập

thô dung sai.

Phạm vi nghiên cứu của luận án là các phương pháp rút gọn thuộc tính

trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai.

4. Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm.

1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính

theo tiếp cận tập thô dung sai đã công bố, bao gồm các thuật toán trên bảng

quyết định không thay đổi và các thuật toán gia tăng trên bảng quyết định

thay đổi. Phân tích ưu điểm, nhược điểm và các vấn đề còn tồn tại của các

thuật toán đã có. Trên cơ sở đó, đề xuất các độ đo cải tiến và các thuật toán

theo hướng tiếp cận kết hợp filter-wrapper. Các đề xuất, cải tiến được chứng

minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề.

2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy

thử nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu

từ kho dữ liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về

lý thuyết.

5. Nội dung nghiên cứu

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ dựa trên mô hình tập thô dung sai theo tiếp cận kết hợp

filter-wrapper.

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng

quyết định không đầy đủ thay đổi theo tiếp cận kết hợp filter-wrapper. Bảng

7

quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập

thuộc tính.

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI

[118].

6. Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định không

đầy đủ theo tiếp cận kết hợp filter-wrapper trong trường hợp bảng quyết định

cố định và bảng quyết định thay đổi. Cụ thể luận án có các kết quả chính như

sau:

1) Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp

cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định

không đầy đủ sử dụng độ đo khoảng cách. Kết quả thử nghiệm trên các bộ số

liệu mẫu từ kho dữ liệu UCI (UC Irvine Machine Learning Repository) [118]

cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số

lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với

các thuật toán filter khác.

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04

thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không

đầy đủ:

(1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn

trong trường hợp bổ sung tập đối tượng;

(2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường

hợp loại bỏ tập đối tượng;

(3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn

trong trường hợp bổ sung tập thuộc tính.

8

(4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn

trong trường hợp loại bỏ tập thuộc tính.

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118] cho

thấy, các thuật toán gia tăng filter-wrapper IDS_IFW_AO và IDS_IFW_AA

giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác

mô hình phân lớp so với các thuật toán gia tăng filter khác.

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn

thuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa,

nâng cao hiệu quả các mô hình khai phá dữ liệu và học máy, đặc biệt là các hệ

thống cơ sở dữ liệu không đầy đủ, thiếu giá trị trong các lĩnh vực chẩn đoán y

tế, tài chính ngân hàng.

7. Bố cục của luận án

Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ

bản về lý thuyết tập thô truyền thống, mô hình tập thô dung sai và tổng quan về

tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các

nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai, các

nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận

tập thô dung sai trong mấy năm gần đây. Trên cơ sở đó, luận án phân tích các

vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết

quả đạt được.

Các đóng góp chính của luận án được trình bày trong chương 2, chương

3. Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới.

Sử dụng độ đo khoảng cách mới, chương 2 đề xuất thuật toán IDS_F_DAR tìm

tập rút gọn theo tiếp cận filter và thuật toán IDS_FW_DAR tìm tập rút gọn

9

theo tiếp cận kết hợp filter-wrapper. Các thuật toán trên thực hiện trên bảng

quyết định không đầy đủ cố định.

Chương 3 xây dựng các công thức gia tăng tính độ đo khoảng cách và đề

xuất bốn thuật toán gia tăng filter-wrapper tìm tập rút gọn trong bảng quyết

định thay đổi, cụ thể là:

1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung

tập đối tượng;

2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập

đối tượng;

3) Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung

tập thuộc tính;

4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập

thuộc tính.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát

triển và những vấn đề quan tâm của tác giả.

10

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TIẾP CẬN TẬP THÔ DUNG SAI

1.1. Hệ thông tin và mô hình tập thô truyền thống

Lý thuyết tập thô truyền thống do Z.Pawlak [113] đề xuất là công cụ

toán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn.

Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương

đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập

đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó.

Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở

để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu.

Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tập

thô truyền thống của Z.Pawlak [113], là cơ sở nền tảng cho mô hình tập thô

dung sai được trình bày ở phần 1.2.

1.1.1. Hệ thông tin

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu

gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách

hình thức, hệ thông tin là một cặp trong đó U là tập hữu hạn, khác

rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính

xác định một ánh xạ: với Va là tập giá trị của thuộc tính

.

Xét hệ thông tin . Mỗi tập con các thuộc tính xác định

một quan hệ hai ngôi trên U, ký hiệu là , xác định bởi

.

là quan hệ P-không phân biệt được. Dễ thấy rằng là một

quan hệ tương đương trên U. Nếu thì hai đối tượng u và v

11

không phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương

xác định một phân hoạch trên U, ký hiệu là hay . Ký

hiệu lớp tương đương trong phân hoạch chứa đối tượng u là , khi đó

.

1.1.2. Mô hình tập thô truyền thống

Cho hệ thông tin và tập đối tượng . Với một tập thuộc

tính cho trước, chúng ta biểu diễn X thông qua các lớp tương đương

của (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi

hợp của một số hữu hạn các lớp tương đương của . Có hai cách xấp xỉ

tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-

xấp xỉ trên của X, ký hiệu là lượt là và , được xác định như sau:

Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

tập bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính

B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

: B-miền biên của X , : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không

thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc

X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

viết lại

,

Trong trường hợp thì X được gọi là tập chính xác (exact

set), ngược lại X được gọi là tập thô (rough set).

12

Xét hệ thông tin với , ta gọi B-miền dương của D là

tập được xác định như sau

Rõ ràng là tập tất cả các đối tượng u sao cho với mọi mà

ta đều có . Nói cách khác,

.

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Phần này trình bày một số khái niệm cơ bản về mô hình tập thô dung sai

trên hệ thông tin không đầy đủ do Kryszkiewicz [67] đề xuất

1.2.1. Hệ thông tin không đầy đủ

Xét hệ thông tin , nếu tồn tại và sao cho chứa

giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái

lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là

‘*’ và hệ thông tin không đầy đủ là .

1.2.2. Mô hình tập thô dung sai

Xét hệ thông tin không đầy đủ , với tập thuộc tính P, ta

định nghĩa một quan hệ nhị phân trên U như sau:

.

Quan hệ không phải là quan hệ tương đương vì chúng có tính

phản xạ, đối xứng nhưng không có tính bắc cầu. Do đó, là một quan

hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên

U. Dễ thấy rằng .

13

Gọi là tập . là tập lớn nhất các đối

tượng không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên

quan hệ dung sai, còn gọi là một lớp dung sai hay một hạt thông tin. Ký hiệu

tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên U là , khi

đó các lớp dung sai trong không phải là một phân hoạch của U mà

hình thành một phủ của U vì chúng có thể giao nhau và .

Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và

P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là

và , được xác định như sau

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập

và P-miền ngoài của X là tập . Trong trường hợp

thì X được gọi là tập chính xác (exact set), ngược lại X được gọi

là tập thô dung sai (tolerance rough set).

Với , ta gọi P-miền dương của D là tập được xác định như sau

Rõ ràng là tập tất cả các đối tượng u sao cho với mọi

ta đều có . Nói cách khác, .

Như vậy, mô hình tập thô dung sai là mô hình tập thô mở rộng dựa trên

quan hệ dung sai trên các hệ thông tin không đầy đủ với các tập xấp xỉ dưới,

xấp xỉ trên được định nghĩa dựa trên quan hệ dung sai.

14

1.2.3. Bảng quyết định không đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập

thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là

với .

Xét bảng quyết định , nếu tồn tại và sao cho

thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS

được gọi là bảng quyết định đầy đủ. Ta biểu diễn bảng quyết định không đầy

đủ là với . Không mất tính chất tổng quát, giả

thiết D chỉ gồm một thuộc tính quyết định duy nhất .

Định nghĩa 1.1. Cho bảng quyết định , nếu tồn tại

và sao cho thiếu giá trị thì DS được gọi là bảng quyết định không

đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.

Bảng quyết định không đầy đủ được ký hiệu là với giả

thiết . (thuộc tính quyết định có đầy đủ giá trị).

Định nghĩa 1.2. Cho bảng quyết định không đầy đủ ,

giả sử tập đối tượng được bổ sung vào U hoặc loại bỏ từ U. Khi đó, IDS

được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập đối tượng và

bảng quyết định mới là hoặc

tương ứng.

Định nghĩa 1.3. Cho bảng quyết định không đầy đủ ,

giả sử tập thuộc tính điều kiện được bổ sung vào C hoặc loại bỏ từ C. Khi

đó, IDS được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập

15

thuộc tính và bảng quyết định mới là hoặc

tương ứng.

Cho bảng quyết định không đầy đủ . Với , ,

gọi là hàm quyết định suy rộng của đối tượng u trên tập

thuộc tính P. Nếu với mọi thì IDS là nhất quán, trái lại IDS là

không nhất quán.

Với bảng quyết định không đầy đủ IDS, miền dương của C đối với

là , khi đó IDS là nhất quán khi và chỉ khi

.

Với , quan hệ dung sai xác định một phủ (covering) trên U,

ký hiệu là . Ký hiệu

là tập tất cả các phủ của U sinh bởi các tập con

thuộc tính . Trên , phần tử nhỏ nhất

được gọi là phủ rời rạc, phần tử lớn nhất

được gọi là phủ một khối. Một quan hệ thứ tự

bộ phận được định nghĩa trên như sau:

. Dấu đẳng thức

. và

.

Ví dụ 1.1. Xét bảng quyết định về các xe hơi cho ở Bảng 1.1. Bảng 1.1 là

bảng quyết định không đầy đủ với ,

16

với (Đơn giá), (Km đã đi), (Kích thước), (Tốc độ)

và (Gia tốc)

Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ Gia tốc

Cao Nhiều Trung bình Thấp Nhanh u1

Thấp * Trung bình Thấp Nhanh u2

* * Gọn nhẹ Cao Chậm u3

Cao * Trung bình Cao Nhanh u4

* * Trung bình Cao Rất nhanh u5

Thấp Nhiều Trung bình Nhanh * u6

Các lớp dung sai của các đối tượng như sau:

, , , ,

, .

với Ta có . Các

tập xấp xỉ dưới đối với C là . Do đó,

.

Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính C là:

{Nhanh}, {Nhanh}, {Chậm}, {Nhanh, Rất

nhanh}, {Nhanh, Rất nhanh}, {Nhanh, Rất nhanh}. Do đó,

IDS là bảng quyết định không đầy đủ không nhất quán.

1.2.4. Ma trận dung sai

Ma trận dung sai là công cụ biểu diễn giá trị quan hệ dung sai của các

đối tượng trong bảng quyết định không đầy đủ và được định nghĩa như sau:

17

Định nghĩa 1.4. Cho bảng quyết định không đầy đủ với

và . Khi đó, ma trận dung sai của quan hệ dung sai

, ký hiệu là , được định nghĩa như sau:

trong đó là giá trị của quan hệ dung sai giữa hai đối tượng và trên tập

thuộc tính P, nếu và nếu với

Với việc biểu diễn quan hệ dung sai bằng ma trận dung sai

, ta có mọi , và . Với

, ta có . Giả sử

là hai ma trận dung sai của , , khi đó ma trận

dung sai trên tập thuộc tính là

với

, Xét bảng quyết định không đầy đủ với

, . Giả sử tập đối tượng X được biểu diễn bằng véc tơ một chiều

với nếu và nếu . Khi đó,

và .

Ví dụ 1.2. Xét bảng quyết định ở Ví dụ 1.1, khi đó ma trận dung sai của

quan hệ là

18

Khi đó ta có , , , ,

, .

1.3. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai

1.3.1. Tổng quan về rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung

lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc

thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn

số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ

nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn

chiều - dimension reduction, rút gọn đặc trưng - feature reduction) trở thành

đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhận

dạng thống kê, học máy, khai phá dữ liệu.

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu

với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính

hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất

lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc

tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute

selection) và biến đổi thuộc tính (Attribute transformation). Lựa chọn thuộc

tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc

tính ban đầu của tập dữ liệu. Trong khi đó, biến đổi thuộc tính là thực hiện

việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới

với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất. Trong luận án

19

này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là

rút gọn thuộc tính.

1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính

Rút gọn thuộc tính là quá trình lựa chọn một tập con gồm P thuộc tính từ

tập gồm M thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại

một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc

tính tốt nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực

hiện; nhiều bài toán liên quan đến vấn đề này là những bài toán NP - khó.

Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ

bản:

(1) Tạo lập tập con,

(2) Đánh giá tập con,

(3) Kiểm tra điều kiện dừng,

(4) Kiểm chứng kết quả.

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các

tập con để đánh giá, lựa chọn. Giả sử có M thuộc tính trong tập dữ liệu ban

đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là . Với số ứng viên

này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc

không thể. Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần

lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được

đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất

trước đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm

tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a)

đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựa

chọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không cho

một tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá.

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành

20

các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất”

này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khác

Hình 1.1. Quy trình rút gọn thuộc tính

nhau.

Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính

[39-40]: filter (lọc) và wrapper (đóng gói). Mỗi cách tiếp cận có những mục

tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác.

Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật

khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ

quan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộc

tính. Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý

thuyết tập thô và các mở rộng đều theo hướng tiếp cận này. Ngược lại với

cách tiếp cận filter, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách

áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu

chuẩn để lựa chọn các tập con thuộc tính. Cách tiếp cận filter có ưu điểm là

thời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tin

nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

21

Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Với phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô, theo cách

tiếp cận truyền thống filter, tập rút gọn là tập thuộc tính tối thiểu bảo toàn độ

đo được định nghĩa, độ chính xác phân lớp được tính sau khi tìm được tập rút

gọn, do đó tập rút gọn chưa tối ưu về số thuộc tính tập rút gọn và độ chính xác

phân lớp. Cách tiếp cận kết hợp filter-wrapper bao gồm hai giai đoạn: giai

đoạn filter tìm các ứng viên cho tập rút gọn, giai đoạn wrapper tìm ứng viên

tập rút gọn có độ chính xác phân lớp cao nhất. Do đó, tập rút gọn tìm được

giảm thiểu số thuộc tính và cải thiện độ chính xác phân lớp. Tuy nhiên, nhược

điểm của phương pháp filter-wrapper này là thời gian thực hiện lớn hơn các

phương pháp filter do phải chạy bộ phân lớp trong bước wrapper. Hướng tiếp

cận này được sử dụng chủ yếu trong bước rút gọn thuộc tính trong giai đoạn

tiền xử lý dữ liệu của khai phá dữ liệu.

1.3.3. Rút gọn thuộc tính theo tiếp cận tập thô dung sai

Lý thuyết tập thô truyền thống do Pawlak đề xuất [113] là công cụ hiệu

quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ, đã và

đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay. Trong các bài

22

toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc

tính, gọi là bảng quyết định không đầy đủ. Để giải quyết bài toán rút gọn

thuộc tính trực tiếp trên bảng quyết định không đầy đủ mà không qua bước

tiền xử lý giá trị thiếu, Kryszkiewicz [67] mở rộng quan hệ tương đương

trong lý thuyết tập thô truyền thống thành quan hệ dung sai và xây dựng mô

hình tập thô dung sai. Các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ theo tiếp cận mô hình tập thô dung sai là các nghiên cứu

mở rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền

thống, bao gồm các bước như sau:

Tập thuộc tính ban đầu

Định nghĩa tập rút gọn

Định nghĩa độ quan trọng của thuộc tính

Xây dựng thuật toán heuristic tìm một tập rút gọn

Tập rút gọn

Hình 1.3. Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai

1) Định nghĩa khái niệm tập rút gọn dựa trên một độ đo được định nghĩa,

ví dụ miền dương, ma trận phân biệt, hàm phân biệt, entropy thông tin,

khoảng cách, lượng thông tin, hạt thông tin...

23

2) Đưa ra khái niệm độ quan trọng của thuộc tính dựa trên độ đo được

định nghĩa. Độ quan trọng của thuộc tính đặc trưng cho khả năng đóng góp của

thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng

lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại.

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo

tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của

thuộc tính).

Như vậy, nhiệm vụ quan trọng nhất của một phương pháp rút gọn thuộc

tính theo tiếp cận tập thô là xây dựng một thuật toán heuristic tìm tập rút gọn

của bảng quyết định. Thuật toán này giảm thiểu đáng kể khối lượng tính toán,

nhờ đó có thể áp dụng đối với các bài toán có dữ liệu lớn. Các thuật toán

heuristic này thường được xây dựng theo hai hướng tiếp cận khác nhau:

hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-

down). Ý tưởng chung của các thuật toán theo tiếp cận top-down là xuất phát

từ tập rỗng, lần lượt bổ sung vào các thuộc tính điều kiện có độ quan trọng

lớn nhất cho cho đến khi thu được tập rút gọn. Các thuật toán được xây dựng

theo hướng tiếp cận bottom-up xuất phát từ tập thuộc tính điều kiện ban đầu,

lần lượt loại bỏ các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được

tập rút gọn. Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách các

thuộc tính theo thứ tự tăng dần hoặc giảm dần theo độ quan trọng tại mỗi bước

lặp của thuật toán. Tập rút gọn tìm được là tập thuộc tính điều kiện nhỏ nhất bảo

toàn độ đo được định nghĩa. Việc kiểm tra độ chính xác phân lớp của bảng quyết

định được thực hiện sau khi tìm được tập rút gọn. Do đó, các phương pháp rút

gọn thuộc tính theo tiếp cận tập thô dung sai được đề xuất cho đến nay là các

phương pháp theo tiếp cận filter.

24

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập

thô dung sai

Kể từ khi Kryszkiewicz [67] đề xuất mô hình tập thô dung sai, các

phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định không đầy đủ

theo tiếp cận tập thô dung sai đã thu hút sự quan tâm của cộng đồng nghiên

cứu về tập thô. Trong phần này, chúng tôi trình bày tóm tắt các nghiên cứu

liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai với hai trường

hợp: bảng quyết định không thay đổi và bảng quyết định thay đổi.

1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô dung sai

1.4.1.1. Các nghiên cứu liên quan

Trong hai thập kỷ vừa qua đã chứng kiến sự phát triển mạnh mẽ và sôi

động của lĩnh vực nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô dung

sai. Nhiều nhóm nhà khoa học trên thế giới và tại Việt Nam đã đề xuất các

thuật toán rút gọn thuộc tính hiệu quả trong bảng quyết định không đầy đủ sử

dụng các độ đo khác nhau như miền dương, entropy thông tin, lượng thông tin,

ma trận phân biệt, hàm phân biệt, khoảng cách…Bảng 2.1 trình bày các

nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng

Bảng 1.2. Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

quyết định không đầy đủ theo tiếp cận tập thô dung sai.

Công bố, năm xuất bản Thuật toán

STT 1) Miền dương 1

Các thuật toán tìm tập rút gọn sử dụng miền dương mở rộng

 Hu và các cộng sự [51], 2017.  Xu và các cộng sự [117], 2013.  Peng và các cộng sự [25], 2010.  Meng và các cộng sự [114],

2009.

2  Qian và các cộng sự [99], 2011. Thuật toán tìm tập rút gọn sử

dụng miền dương xấp xỉ

25

Thuật toán

STT Công bố, năm xuất bản 2) Ma trận phân biệt, hàm phân biệt 3

 Ma và các cộng sự [29], 2017.  Vu Van Dinh, Nguyen Long

Các thuật toán sử dụng ma trận phân biệt, hàm phân biệt mở rộng. Giang [77], 2013.

4

Các thuật toán tìm tập rút gọn sử dụng ma trận phân biệt, ma trận gán

5  Zou và các cộng sự [45], 2012.  Tan và các cộng sự [80], 2010.  Xu và các cộng sự [116], 2009.  Zhou và các cộng sự [57], 2009. Thuật toán tìm tập rút gọn sử

6  Li và các cộng sự [47], 2010.

dụng ma trận tương tự Thuật toán tìm tập rút gọn sử dụng ma trận nhị phân

3) Entropy thông tin 7

Các thuật toán tìm tập rút gọn sử dụng entropy thông tin mở rộng.

8  Tao và các cộng sự [107], 2017.  Yue và các cộng sự [26], 2015.  Xu và các cộng sự [49], 2013.  Dai và các cộng sự [50], 2013.  Sun và các cộng sự [64], 2012.  Qian và các cộng sự [79], 2015. Thuật toán tìm tập rút gọn sử

dụng entropy tương hỗ mở rộng

Các thuật toán tìm tập rút gọn sử dụng lượng thông tin mở rộng

10 4) Độ đo lượng thông tin, hạt thông tin 9  Xu và các cộng sự [91], 2019.  Xu và các cộng sự [94], 2012.  Sai Prasad và các cộng sự [72],

Thuật toán tìm tập rút gọn sử dụng hạt thông tin mở rộng 2012.

5) Độ đo khoảng cách 11  Vu Van Dinh và các cộng sự

Các thuật toán tìm tập rút gọn sử dụng độ đo khoảng cách [78], 2015.

 Long Giang Nguyen, Hung Son

Nguyen [62], 2013.

6) Các độ đo khác 12  Xie và các cộng sự [92], 2018.

Thuật toán tìm tập rút gọn sử dụng độ đo không nhất quán.

26

Thuật toán

STT 13 Công bố, năm xuất bản  Shu và các cộng sự [85], 2014.

14

 Zhao và các cộng sự [48], 2014.

15  Meng và các cộng sự [115],

2012.

16

17

Thuật toán tìm tập rút gọn sử dụng quan hệ không phân biệt được Các thuật toán tìm tập rút gọn sử dụng hàm quyết định suy rộng, entropy dựa trên quan hệ dung sai lân cận. So sánh, đánh giá các thuật toán heuristic tìm tập rút gọn Thuật toán tìm tập rút gọn sử dụng độ bao phủ của thuộc tính Nghiên cứu về các tập rút gọn và mối quan hệ giữa chúng.  Dai và các cộng sự [93], 2010.  Qian và các cộng sự [98], 2010.  Nguyen Long Giang và các

cộng sự [69], 2013.

1.4.1.2. Các vấn đề còn tồn tại

Các thuật toán tìm tập rút gọn đều hướng tới mục tiêu là tìm được tập rút

gọn hiệu quả nhất để thực thi mô hình phân lớp dựa trên các tiêu chí: giảm

thiểu tối đa số thuộc tính tập rút gọn để giảm thiểu độ phức tạp của mô hình và

nâng cao độ chính xác của mô hình. Các thuật toán đã đề xuất được trình bày

trong Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter

truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn

độ đo được định nghĩa. Việc đánh giá độ chính xác của mô hình phân lớp được

thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn của các thuật toán

filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

1.4.1.3. Định hướng nghiên cứu thứ nhất của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2,

khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn

thuộc tính trong bảng quyết định không đầy đủ [62], [78]. Do đó, mục tiêu

nghiên cứu thứ nhất của luận án là nghiên cứu, đề xuất các thuật toán tìm tập

27

rút gọn sử dụng độ đo khoảng. Khác với hướng tiếp cận filter của các phương

pháp đã công bố trong Bảng 1.2, luận án sử dụng hướng tiếp cận kết hợp

filter-wrapper để xây dựng các thuật toán nhằm giảm thiểu số lượng thuộc

tính của tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác mô

hình phân lớp.

1.4.2. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định

không đầy đủ theo tiếp cận tập thô dung sai

Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảng

quyết định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp

dụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều

thách thức. Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện

các thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ

và tốc độ tính toán. Với trường hợp bảng quyết định thay đổi, cập nhật, các

thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau

khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để vượt

qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán

gia tăng tìm tập rút gọn. Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn

trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng

quyết định. Với các bảng quyết định thay đổi, cập nhật, các thuật toán gia

tăng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa, các thuật toán gia tăng

có thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp

chia nhỏ bảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi

lần lượt bổ sung từng phần vào bảng quyết định.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự

quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Trong phần

này, chúng tôi trình bày các nghiên cứu liên quan đến các thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô truyền thống

28

và bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai, trên cơ sở đó

đưa ra các vấn đề còn tồn tại và động lực nghiên cứu của luận án.

1.4.2.1. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo

tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng

Theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng, các

nghiên cứu liên quan đến thuật toán gia tăng tính toán các tập xấp xỉ và tìm

tập rút gọn trong bảng quyết định thay đổi khá sôi động. Các nghiên cứu liên

quan đến các thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường

hợp: bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính; tập đối

tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị. Bảng 1.3 mô tả chi tiết

các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn theo các

Bảng 1.3. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình mở rộng.

trường hợp được mô tả ở trên.

Thuật toán

Công bố, năm xuất bản STT 1. Trường hợp bổ sung, loại bỏ tập đối tượng 1.1. Tiếp cận tập thô truyền thống 1

2

 Shua và các cộng sự [100], 2019  Ma và các cộng sự [30], 2019  Guan và các cộng sự [59], 2009

3

Thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mới. Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt. Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt trên bảng quyết định nén.

4

Các thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.

5  Wei và các cộng sự [89], 2018  Yang và các cộng sự [110], 2017  Das và các cộng sự [5], 2018  Hu và các cộng sự [27], 2005  Hao và các cộng sự [33], 2017

Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương xung đột.

29

STT 6

Thuật toán Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt tri thức

7 Công bố, năm xuất bản  Jing và các cộng sự [102], 2017  Jing và các cộng sự [100], 2016  Nguyen Thi Lan Huong, Nguyen

Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách Long Giang [70], 2016

8  Liang và các cộng sự [55], 2014 Thuật toán gia tăng tìm tập rút

gọn sử dụng entropy thông tin

9

10  Liu và các cộng sự [21], 2009

 Chen và các cộng sự [43], 2013. Các thuật toán gia tăng tính toán các tập xấp xỉ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng độ bao phủ.

1.2. Tiếp cận mô hình tập thô độ chính xác thay đổi

11  Huang và các cộng sự [108],

2017

Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt mở rộng  Chen và các cộng sự [20], 2016

1.3. Tiếp cận mô hình tập thô bao phủ

12  Lang và các cộng sự [37], 2018

13  Lang và các cộng sự [35], 2017

Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương dựa trên họ liên quan Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận đặc trưng

1.4. Tiếp cận mô hình tập thô trên bảng quyết định ba chiều

14  Yang và các cộng sự [95], 2017 Thuật toán gia tăng tìm tập rút

15

gọn sử dụng ma trận. Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt thông tin mở rộng.  Luo và các cộng sự [14], 2019  Yang và các cộng sự [96], 2017  Qian và các cộng sự [52], 2017

1.5. Tiếp cận tập thô dựa trên quan hệ trội

16

 Li và các cộng sự [105], 2015.

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi

30

STT Công bố, năm xuất bản Thuật toán

1.6. Tiếp cận tập thô xác suất

17  Luo và các cộng sự [12], 2017.

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi

1.7. Tiếp cận tập thô đa hạt

18  Hu và các cộng sự [11], 2017.

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi dựa trên tính toán ma trận.

1.8. Tiếp cận tập thô mờ

19  Huang và các cộng sự [109],

2017.

Các thuật toán gia tăng tìm tập xấp xỉ mờ trong bảng quyết định thay đổi  Cheng và các cộng sự [97],

2011.

20  Liu và các cộng sự [106], 2017. Thuật toán gia tăng tìm tập rút

21  Yang và các cộng sự [111],

2017.

gọn sử dụng độ phụ thuộc mờ. Các thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ phân biệt mờ.  Yang và các cộng sự [112],

2017.

2. Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1. Tiếp cận tập thô truyền thống

22

 Jing và các cộng sự [104], 2018  Jing và các cộng sự [101], 2016

Các thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức.

23

24  Dev. Janos và các cộng sự [19],

2016.

25  Xie và các cộng sự [53], 2013.

 Raza và các cộng sự [68], 2016. Thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc của thuộc tính. Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách. Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.

31

Công bố, năm xuất bản Thuật toán

STT 26  Wang và các cộng sự [32], 2013. Thuật toán gia tăng tìm tập rút

27  Li và các cộng sự [76], 2007

gọn sử dụng entropy thông tin. Thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ đặc trưng.

2.2. Tiếp cận tập thô dựa trên quan hệ trội

28

 Wang và các cộng sự [75], 2016.  Li và các cộng sự [73], 2013.

29  Zhang và các cộng sự [58], 2012.

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận quan hệ trội.

2.3. Tiếp cận tập thô xác suất 30  Wang và các cộng sự [60], 2018.

Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận.

31  Liu và các cộng sự [24], 2015.

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi

2.4. Tiếp cận tập thô mờ 32  Zeng và các cộng sự [7], 2016.

33  Zeng và các cộng sự [6], 2015

Các thuật toán gia tăng tìm tập xấp xỉ mờ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ.

3. Trường hợp tập đối tượng thay đổi giá trị 3.1. Tiếp cận tập thô truyền thống 34

Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt, ma trận phân biệt tối giản

35  Yang và các cộng sự [10], 2019.  Wei và các cộng sự [90], 2018.  Jing và các cộng sự [103], 2017.

36  Liu và các cộng sự [88], 2016.

Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức. Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo lượng thông tin.

32

STT 37 Công bố, năm xuất bản  Chen và các cộng sự [44], 2013.

Thuật toán Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi

3.2. Tiếp cận mô hình tập thô bao phủ 38  Cai và các cộng sự [66], 2019

Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt bao phủ.

4. Trường hợp tập thuộc tính thay đổi giá trị

4.1. Tiếp cận tập thô truyền thống 39  Wang và các cộng sự [31], 2013. Thuật toán gia tăng tìm tập rút

40  Chen và các cộng sự [41], 2010.

41  Liu và các cộng sự [22], 2009.

gọn sử dụng entropy thông tin. Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định thay đổi Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận tương đương

4.2. Tiếp cận tập thô dựa trên quan hệ trội 42

Các thuật toán gia tăng tìm tập xấp xỉ trong bảng quyết định xếp thứ tự thay đổi  Li và các cộng sự [74], 2015.  Luo và các cộng sự [11], 2014.

4.3. Tiếp cận mô hình tập thô bao phủ 43

Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận đặc trưng loại 1 và loại 2.  Lang và các cộng sự [36], 2017.  Cai và các cộng sự [65], 2017.  Lang và các cộng sự [34], 2016.

Như vậy, hướng tiếp cận tính toán gia tăng tìm tập rút gọn trong bảng

quyết định theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng

khá đa dạng và phong phú với nhiều độ đo khác nhau được sử dụng. Các

phương pháp gia tăng đề xuất đều có điểm chung là xây dựng các công thức

gia tăng tính toán độ đo (như độ đo thông tin entropy, ma trận phân biệt, hàm

khoảng cách...). Dựa trên công thức tính độ đo, các phương pháp đều xây

dựng thuật toán gia tăng tìm tập rút gọn trong các trường hợp bảng quyết định

33

thay đổi nêu trên. Kết quả thử nghiệm cho thấy, các thuật toán gia tăng đề

xuất đều giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không

gia tăng. Do đó, chúng có thể thực thi trên các bảng quyết định thay đổi, biến

động và có kích thước lớn. Tuy nhiên, các thuật toán đề xuất phần lớn theo

hướng tiếp cận filter truyền thống, nghĩa là tập rút gọn tìm được chỉ bảo toàn

độ đo mà chưa quan tâm đến việc đánh giá độ chính xác phân lớp. Do đó,

chúng chưa tối ưu về số lượng tập rút gọn và độ chính xác phân lớp.

Với lớp bài toán tìm tập rút gọn trên bảng quyết định không đầy đủ

(thiếu giá tri) thay đổi mà luận án quan tâm, phần tiếp theo sẽ khảo sát các

nghiên cứu liên quan đến các thuật toán theo hướng tiếp cận tính toán gia tăng.

1.4.2.2. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo

tiếp cận mô hình tập thô dung sai

Trong mấy năm gần đây, các nghiên cứu liên quan đến thuật toán gia

tăng tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô

dung sai khá sôi động và phong phú. Giống như các thuật toán gia tăng trong

bảng quyết định đầy đủ đã trình bày ở mục 1.4.2.1, các nghiên cứu liên quan

này tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ

tập thuộc tính; tập đối tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị.

Bảng 1.4 trình bày chi tiết các nghiên cứu liên quan về các thuật toán gia tăng

Bảng 1.4. Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô dung sai

tìm tập rút gọn của bảng quyết định không đầy đủ.

Thuật toán

Công bố, năm xuất bản STT 1. Trường hợp bổ sung, loại bỏ tập đối tượng 1  Zhang và các cộng sự [9], 2019 Thuật toán gia tăng tìm tập rút gọn

2

sử dụng độ đo hạt tri thức. Thuật toán gia tăng tìm tập rút gọn sử dụng entropy thông tin  Wang và các cộng sự [38], 2019  Yu và các cộng sự [56], 2018.

34

STT 3 Công bố, năm xuất bản  Huyen và các cộng sự [46],

2018.

4  Luo và các cộng sự [13], 2017

5

Thuật toán Thuật toán gia tăng tính toán các tập xấp xỉ theo tiếp cận mô hình tập thô trên bảng quyết định 3 chiều. Thuật toán gia tăng tính toán các tập xấp xỉ dựa trên mô hình tập thô xác suất. Các thuật toán gia tăng tìm tập rút gọn sử dụng miền dương.

6  Ma và các cộng sự [28], 2016.  Shu và các cộng sự [86], 2015.  Shu và các cộng sự [82], 2013.  Liu và các cộng sự [23], 2014.

Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận độ chính xác, độ hỗ trợ, độ bao phủ.

7

 Chen và các cộng sự [42], 2012. Thuật toán gia tăng cập nhật các tập xấp xỉ trong bảng quyết định không đầy đủ xếp thứ tự.

8  Shu và các cộng sự [81], 2012. Nghiên cứu sự thay đổi của tập rút

9  Li và các cộng sự [71], 2008.

gọn dựa trên ma trận phân biệt. Thuật toán gia tăng tính toán tập lõi sử dụng ma trận phân biệt.

10  Zhang và các cộng sự [18],

Thuật toán gia tăng tìm tập rút gọn sử dụng hàm quyết định suy rộng 2008.

2. Trường hợp bổ sung, loại bỏ tập thuộc tính 11  Shu và các cộng sự [83], 2014.

Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương

3. Tập đối tượng thay đổi giá trị 12  Shu và các cộng sự [84], 2014.

Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương

4. Tập thuộc tính thay đổi giá trị 13  Xie và các cộng sự [92], 2018.

Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo không nhất quán

Từ Bảng 1.4 cho thấy, các nghiên cứu liên quan đến các thuật toán gia

tăng tìm tập rút gọn của bảng quyết định không đầy đủ tập trung chủ yếu vào

35

trường hợp bổ sung, loại bỏ tập đối tượng. Giống như các thuật toán được

trình bày ở Bảng 1.3, các công bố ở Bảng 1.4 đều xây dựng các công thức gia

tăng tính toán độ đo trên bảng quyết định không đầy đủ. Dựa trên độ đo được

xây dựng, các tác giả đề xuất các thuật toán gia tăng tìm tập rút gọn. Kết quả

thực nghiệm trên các bộ số liệu mẫu cho thấy, các thuật toán gia tăng giảm

thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng truyền

thống.

1.4.2.3. Các vấn đề còn tồn tại

Giống như các thuật toán gia tăng tìm tập rút gọn được liệt kê trong

Bảng 1.3, các thuật toán gia tăng tìm tập rút gọn được liệt kê trong Bảng 1.4

đều theo hướng tiếp cận filter truyền thống. Do đó, tập rút gọn tìm được chưa

tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp. Gần đây, các tác

giả trong công trình [4] đề xuất thuật toán gia tăng tìm tập rút gọn theo tiếp

cận kết hợp filter-wrapper. Tuy nhiên, thuật toán gia tăng trong [4] chỉ tìm tập

rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong trường hợp

bổ sung tập đối tượng. Do đó, định hướng nghiên cứu thứ hai của luận án là

sử dụng hướng tiếp cận kết hợp filter-wrapper trong việc xây dựng các thuật

toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ.

1.4.2.4. Hướng nghiên cứu thứ hai của luận án

Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên,

động lực nghiên cứu thứ hai của luận án là:

1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm

giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo

toàn và cải thiện độ chính xác mô hình phân lớp.

2) Các thuật toán gia tăng được nghiên cứu, đề xuất trong các trường

hợp: bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính.

36

1.5. Kết luận chương 1

Chương 1 tóm tắt và hệ thống hóa các khái niệm nền tảng về mô hình

tập thô truyền thống dựa trên quan hệ tương đương của Pawlak [113], mô

hình tập thô dung sai dựa trên quan hệ dung sai của Kryszkiewicz [67] và

tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai. Các kiến thức

nền tảng này sẽ được sử dụng trong các chương sau của luận án. Chương 1

cũng trình bày các nghiên cứu liên quan đến hai định hướng nghiên cứu của

luận án: (1) rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp

cận tập thô dung sai; (2) phương pháp gia tăng rút gọn thuộc tính trong bảng

quyết định thay đổi. Trên cơ sở đó, chương 1 phân tích, đưa ra các vấn đề còn

tồn tại và động lực nghiên cứu của luận án.

37

CHƯƠNG 2. THUẬT TOÁN FILTER-WRAPPER TÌM TẬP

RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập

thô dung sai là chủ đề đã và đang thu hút sự quan tâm của các nhà nghiên cứu.

Cho đến nay, nhiều thuật toán tìm tập rút gọn của bảng quyết định không đầy

đủ đã được đề xuất, bao gồm: các thuật toán sử dụng miền dương mở rộng

[25], [51], [99], [114], [117], các thuật toán sử dụng ma trận phân biệt, hàm

phân biệt mở rộng [29], [45], [47], [57], [77], [80], [116], các thuật toán sử

dụng entropy thông tin mở rộng [26], [48-50], [64], [79], [107], các thuật toán

sử dụng độ đo lượng thông tin [72], [91], [94], các thuật toán sử dụng khoảng

cách [62], [78] và một số thuật toán khác như sử dụng quan hệ không phân

biệt mở rộng [85], độ bao phủ của thuộc tính [93], độ đo không nhất quán

[92]. Trong các thuật toán nêu trên, đáng chú ý là trong công trình [92], Xie

và các cộng sự đã đề xuất thuật toán NEW-R tìm tập rút gọn của bảng quyết

định không đầy đủ sử dụng độ không nhất quán (inconsistency degree). Kết

quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [118] cho thấy,

thuật toán NEW-R hiệu quả hơn thuật toán POS-R [114] sử dụng miền dương

và thuật toán INF-R [50] sử dụng entropy thông tin.

Nhìn chung, các thuật toán tìm tập rút gọn theo tiếp cận tập thô đều

hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mô hình

phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn để giảm

thiểu độ phức tạp và nâng cao độ chính xác của mô hình. Các thuật toán đã đề

xuất nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống.

Do đó, tập rút gọn của các thuật toán chưa tối ưu về số lượng thuộc tính và độ

chính xác phân lớp. Trong công trình [3], [63], các tác giả đề xuất hướng tiếp

cận kết hợp filter-wrapper tìm tập rút gọn của bảng quyết định đầy đủ nhằm

giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp.

38

Tuy nhiên, các thuật toán trong [3], [63] đều thực hiện trên bảng quyết định

đầy đủ theo tiếp cận tập thô mờ (fuzzy rough set).

Độ đo khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài

toán rút gọn thuộc tính theo tiếp cận tập thô, đã được nghiên cứu ở các nghiên

cứu trước đó của nhóm nghiên cứu của thầy hướng dẫn [62, 78]. Trên cơ sở

kế thừa các kết quả đã có, luận án này tiếp tục phát triển độ đo khoảng cách

mới trong bảng quyết định không đầy đủ để giải quyết bài toán này mà không

sử dụng các độ đo khác như google, euclide…

Trong chương này, luận án đề xuất thuật toán tìm tập rút gọn của bảng

quyết định không đầy đủ theo hướng tiếp cận kết hợp ghép filter-wrapper sử

dụng độ đo khoảng cách. Bao gồm các nội dung sau:

(1) Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ.

(2) Xây dựng thuật toán IDS_F_DAR tìm tập rút gọn sử dụng độ đo

khoảng cách theo tiếp cận filter.

(3) Xây dựng thuật toán IDS_FW_DAR tìm tập rút gọn sử dụng độ đo

khoảng cách theo tiếp cận kết hợp filter-wrapper.

(4) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất.

Các kết quả trong chương này được công bố trong các công trình 2,

phần “Danh mục các công trình khoa học đã công bố”.

2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ

Khoảng cách được xem là độ đo hiệu quả giải quyết bài toán rút gọn

thuộc tính trong bảng quyết định [8], [16-17], [54], [61], [63]. Trong bảng

quyết định không đầy đủ, các nhà nghiên cứu đã đề xuất một số độ đo khoảng

cách và phương pháp rút gọn thuộc tính sử dụng khoảng cách [62], [78].

Trong phần này, chúng tôi xây dựng một độ đo khoảng cách mới giữa các phủ

trong bảng quyết định không đầy đủ. Sử dụng khoảng cách được xây dựng,

39

chúng tôi đề xuất các phương pháp rút gọn thuộc tính trên bảng quyết định

không đầy đủ được trình bày trong các phần tiếp theo.

2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp

Cho U là tập hữu hạn, khác rỗng các đối tượng. Một khoảng cách trên U

, là một ánh xạ thỏa mãn ba điều kiện sau [54]: (1)

khi và chỉ khi ; (2) ; (3)

với mọi . Điều kiện (3) được gọi là bất đẳng thức tam giác. Trong

mục này đề xuất xây dựng một độ đo khoảng cách giữa hai tập hợp.

Mệnh đề 2.1. Cho U là tập các đối tượng và . Khi đó

là một khoảng cách giữa và .

Chứng minh. Rõ ràng nên . Hơn nữa,

. Để là độ đo khoảng cách, ta cần chứng minh bất

đẳng thức tam giác. Không mất tính chất tổng quát ta chứng

minh hay .

Giả sử . Ta biểu diễn tập bởi một véc tơ n chiều

với nếu và nếu . Đặt

, khi đó và

. Từ đó ta có: ,

Mặt khác, hay thỏa mãn vì

phần tử thứ k của là 0 và 1. Do đó,

hay .

40

2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính

Mệnh đề 2.2. Cho bảng quyết định không đầy đủ với

và , là hai phủ sinh bởi . Khi

đó

là một khoảng cách giữa hai phủ và , gọi tắt là khoảng

cách giữa hai tập thuộc tính P và Q.

Chứng minh. Rõ ràng và . Ta cần chứng

minh bất đẳng thức tam giác. Không mất tính chất tổng quát, với mọi

ta chứng minh . Từ Mệnh đề 2.1, với

mọi ta có: . Từ đó:

Dễ thấy rằng, đạt giá trị nhỏ nhất là 0 khi và chỉ khi

hay đạt giá trị lớn nhất là khi và chỉ khi và

(hoặc và ). Do đó, và

.

Mệnh đề 2.3. Cho bảng quyết định không đầy đủ với

và , tương ứng là ma trận

41

dung sai trên C và d. Khi đó, khoảng cách giữa hai tập thuộc tính và

được xác định như sau:

Chứng minh. Từ Mệnh đề 2.2 ta có:

Dễ thấy rằng khi và

khi và .

Mệnh đề 2.4. Cho bảng quyết định không đầy đủ . Nếu

thì

Chứng minh. Xét bảng quyết định không đầy đủ với

và . Với mọi ta có , do đó:

(2.1)

Do nên và (2.1) tương

đương với:

42

(2.2)

nên (2.2) tương đương Do

với:

(2.3)

nên (2.3) tương Do

đương với:

(2.4)

Theo Mệnh đề 2.3, công thức (2.4) tương đương với

.

Mệnh đề 2.4 cho thấy khoảng cách thỏa mãn tính phản

đơn điệu với tập thuộc tính điều kiện, nếu tập thuộc tính B càng lớn thì

khoảng cách giữa hai phủ và càng nhỏ, hay càng

gần , nghĩa là khả năng phân lớp dựa trên B vào các lớp quyết

định sinh bởi d càng lớn, và ngược lại. Do đó, có thể được sử

dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán tìm tập rút gọn, được

trình bày ở mục tiếp theo.

2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng

khoảng cách

Trong phần này trình bày phương pháp rút gọn thuộc tính trong bảng

quyết định không đầy đủ sử dụng khoảng cách đã xây dựng ở mục 2.1.2.

43

Phương pháp đề xuất gồm các bước: định nghĩa tập rút gọn dựa trên khoảng

cách, định nghĩa độ quan trọng của thuộc tính dựa trên khoảng cách và xây

dựng thuật toán heuristic tìm một tập rút gọn theo tiếp cận lọc (filter) truyền

thống. Từ thuật toán filter được xây dựng, đề xuất thuật toán tìm tập rút gọn

theo tiếp cận kết hợp filter-wapper.

Định nghĩa 2.1. Cho bảng quyết định không đầy đủ với

. Nếu

1)

2)

thì là một tập rút gọn của dựa trên khoảng cách.

Định nghĩa 2.2. Cho bảng quyết định không đầy đủ với

và . Độ quan trọng của thuộc tính đối với được định

nghĩa bởi

Từ Mệnh đề 2.4 ta có . Độ quan trọng đặc trưng cho

chất lượng phân lớp của thuộc tính b đối với thuộc tính quyết định d và được

sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm tập rút

gọn.

2.2.1. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định

không đầy đủ

Tiếp theo, ta xây dựng thuật toán heuristic tìm tập rút gọn theo tiếp cận

filter truyền thống. Ý tưởng của thuật toán là xuất phát từ tập rỗng , lần

lượt bổ sung vào tập B các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm

được tập rút gọn.

44

Thuật toán IDS_F_DAR: Thuật toán filter tìm một tập rút gọn xấp xỉ sử dụng khoảng cách.

Đầu vào: Bảng quyết định không đầy đủ

.

với ; ; Đầu ra: Một tập rút gọn B của 1. Đặt

, , , 2. Tính ma trận dung sai

; ,

do

tính

khoảng cách // Bổ sung lần lượt các thuộc tính có độ quan trọng lớn nhất vào B 3. While 4. Begin 5. Với mỗi ;

sao cho ; 6. Chọn

;

, khoảng cách ;

7. 8. Tính ma trận 9. End;

// Loại bỏ các thuộc tính dư thừa trong B nếu có

; 10. Với mỗi 11. Begin 12. Tính

then ; 13. If

14. End; 15. Return B;

Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_F_DAR. Ký hiệu

tương ứng là số thuộc tính điều kiện và số đối tượng của IDS. Độ phức

tạp tính ma trận dung sai, khoảng cách trong câu lệnh 2 là . Xét

vòng lặp While từ câu lệnh 3 đến 9, để tính ta phải tính

vì đã được tính ở bước trước. Độ phức tạp để

là . Do có hai vòng lặp tính khi biết

45

lồng nhau theo nên độ phức tạp của vòng lặp While là . Do đó,

độ phức tạp của thuật toán IDS_F_DAR là .

Ví dụ 2.1. Xét bảng quyết định cho ở Bảng 2.1

Bảng 2.1. Bảng quyết định của Ví dụ 2.1

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d

Cao Cao Đầy đủ Thấp Tốt

Thấp * Đầy đủ Thấp Tốt

* * Gọn nhẹ Cao Xấu

Cao * Đầy đủ Cao Tốt

* * Đầy đủ Cao Tuyệt hảo

Thấp Cao Đầy đủ * Tốt

Bảng 2.1 là bảng quyết định không đầy đủ với

và với (đơn giá), (Km đã đi),

(Kích thước), (Tốc độ tối đa).

Khi đó, các ma trận dung sai trên các thuộc tính và d là

Thực hiện các bước của IDS_F_DAR ta có:

. Đặt và tính ,

, , . Chọn thuộc tính có độ quan

trọng lớn nhất và . Tính . Do

46

Chuyển vòng lặp thứ 2. Tính ,

, . Chọn thuộc tính có độ quan trọng lớn nhất,

. Tính . Thuật toán dừng và

là một tập rút gọn của IDS. và

2.2.2. Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết

định không đầy đủ

Xét bảng quyết định không đầy đủ với .

Đặt . Thuật toán theo tiếp cận lọc (filter) IDS_F_DAR xuất

phát từ tập rỗng , lần lượt bổ sung vào B các thuộc tính có độ

quan trọng lớn nhất cho đến khi tìm được tập rút gọn, nghĩa là bảo toàn

khoảng cách với . Độ chính xác của mô hình

phân lớp được tính trên B sau khi thực hiện thuật toán IDS_F_DAR.

Mặt khác, theo Mệnh đề 3.4 ta có

. Với

và ngưỡng thỏa mãn cho trước, đặt

. Khi đó, nếu và được sử dụng

để xây dựng bộ phân lớp, độ chính xác phân lớp trên chưa

chắc đã tốt hơn trên . Trong trường hợp có độ chính xác phân lớp tốt

hơn được chọn làm tập rút gọn (ta gọi là tập rút gọn xấp xỉ ngưỡng ), số

lượng thuộc tính của sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực

hiện các thuật toán phân lớp sẽ cao hơn. Do đó, luận án đề xuất hướng tiếp

cận kết hợp filter-wrapper (lọc-đóng gói) tìm tập rút gọn ngưỡng có độ

chính xác phân lớp cao nhất. Theo hướng tiếp cận kết hợp filter-wrapper này,

giai đoạn filter tìm ra các tập rút gọn xấp xỉ (là ứng viên cho tập rút gọn), giai

47

đoạn wrapper kiểm tra độ chính xác phân lớp của các tập rút gọn xấp xỉ để

chọn tập rút gọn có độ chính xác phân lớp cao nhất. Với hướng tiếp cận này,

độ chính xác phân lớp trên tập rút gọn tìm được cao hơn so với các phương

pháp filter truyền thống. Tuy nhiên, thời gian thực hiện sẽ lớn hơn vì phải

thực hiện các bộ phân lớp.

Ý tưởng của thuật toán theo hướng tiếp cận kết hợp filter-wrapper bao

gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận truyền thống),

thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc tính khi lần lượt

bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong giai đoạn

wrappper, chúng tôi sử dụng một bộ phân lớp để tính độ chính xác phân lớp

trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân

lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, chúng tôi phải trả

giá về thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy

nhiên, tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật

phân lớp trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ

chính xác. Vì mục tiêu hướng đến của rút gọn thuộc tính (trong bước tiền xử

lý dữ liệu) là nâng cao hiệu quả của mô hình trong bước sinh luật (khai phá

dữ liệu). Do đó, chi phí về mặt thời gian để có tập luật hiệu quả là chấp nhận

được.

Thuật toán tìm tập rút gọn theo tiếp cận filter-wrapper sử dụng khoảng

cách như sau:

Thuật toán IDS_FW_DAR: Thuật toán filter-wrapper tìm một tập rút gọn sử dụng khoảng cách.

Đầu vào: Bảng quyết định không đầy đủ

có độ chính xác phân lớp

Đầu ra: Tập rút gọn

; ; với ; cao nhất 1. Đặt

48

, , , 2. Tính ma trận dung sai

khoảng cách , ;

// Giai đoạn filter, tìm ứng viên cho tập rút gọn

do

tính 3. While 4. Begin 5. Với mỗi

Chọn sao cho ;

;

;

, khoảng cách 6. 7. 8. 9. Tính ma trận dung sai

;

10. End;

// Giai đoạn wrapper, tìm tập rút gọn có độ chính xác phân lớp cao nhất

11. Đặt

//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là

;

bằng 12. Đặt 13. For j = 1 to t 14. Begin 15.

với có độ chính xác phân lớp lớn Tính độ chính xác phân lớp trên một bộ phân lớp sử dụng phương pháp 10-fold; 16. End 17.

nhất.

; 18. Return

Giả sử tương ứng là số thuộc tính điều kiện và số đối tượng của

IDS. Từ thuật toán IDS_FW_DAR được trình bày ở trên, độ phức tạp của giai

đoạn filter bằng độ phức tạp của thuật toán IDS_F_DAR, nghĩa là .

Độ phức tạp của giai đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân

49

lớp được sử dụng. Giả sử độ phức tạp của bộ phân lớp là , khi đó độ

phức tạp của giai đoạn wrapper là . Vì vậy, độ phức tạp của thuật toán

IDS_FW_DAR là

2.2.3. Thực nghiệm và đánh giá kết quả

2.2.3.1. Mục tiêu thực nghiệm

Mục tiêu thực nghiệm là đánh giá tính hiệu quả của thuật toán filter-

wrapper đề xuất IDS_FW_DAR. Thuật toán filter-wrapper IDS_FW_DAR

được so sánh, đánh giá với hai thuật toán theo tiếp cận filter IDS_F_DAR và

NEW-R [92] về thời gian thực hiện, số lượng thuộc tính tập rút gọn và độ

chính xác của mô hình phân lớp. NEW-R là thuật toán filter tìm tập rút gọn

trong bảng quyết định không đầy đủ sử dụng độ đo không nhất quán

(inconsistency degree), thuật toán NEW-R [92] hiệu quả hơn thuật toán POS-

R [114] sử dụng miền dương và thuật toán INF-R [50] sử dụng entropy thông

tin về thời gian thực hiện và độ chính xác phân lớp.

Với thuật toán filter-wrapper IDS_FW_DAR, việc lựa chọn bộ phân lớp

trong giai đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về

thời gian thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ

phân lớp sẽ không ảnh hưởng đến kết quả so sánh, đánh giá với các thuật toán

khác vì chúng đều thực hiện trên một bộ phân lớp cụ thể. Chúng tôi lựa chọn

bộ phân lớp C4.5 để so sánh, đánh giá các thuật toán về thời gian thực hiện và

độ chính xác vì đây là bộ phân lớp thường được sử dụng trong các nghiên cứu

đã có.

Ta sử dụng phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được

chia thành 10 phần xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu

kiểm tra, 9 phần còn lại làm dữ liệu huấn luyện. Bộ phân lớp C4.5 cũng được

chọn để đánh giá độ chính xác phân lớp của các thuật toán.

50

2.2.3.2. Dữ liệu thực nghiệm và môi trường thực nghiệm

Chọn 10 bộ dữ liệu mẫu từ lấy từ kho dữ liệu UCI [118] được mô tả ở

Bảng 2.2 để tiến hành thực nghiệm, đây là các tập dữ liệu thiếu giá trị

(missing value). Công cụ thực hiện thực nghiệm là Matlab R2016a. Môi

trường thực nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120

Bảng 2.2. Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR

CPU, 3.3 GHz và 4 GB bộ nhớ.

STT Bộ dữ liệu

Soybean-large

1 Hepatitis 2 Audiology 3 4 Congressional Voting Records 5 Arrhythmia 6 Australian Credit Approval 7 Breast Cancer Wisconsin 8 Anneal 9 Advertisements 10 Mushroom

Số đối tượng 155 226 307 435 452 690 699 798 3279 8124

Số thuộc tính điều kiện 19 69 35 16 279 14 10 38 1558 22

Số lớp quyết định 2 24 2 2 16 2 2 6 2 2

2.2.3.3. Kết quả đánh giá về thời gian thực hiện của thuật toán filter-wrapper

IDS_FW_DAR

Kết quả so sánh thời gian thực hiện ba thuật toán được mô tả ở Bảng 2.3

và Hình 2.1. Trong đó, thời gian thực hiện thuật toán filter-wrapper

IDS_FW_DAR là tổng thời gian thực hiện tìm ứng viên tập rút gọn trong giai

đoạn filter và thời gian thực hiện bộ phân lớp C4.5 trong giai đoạn wrapper.

Kết quả thử nghiệm ở Bảng 2.3 cho thấy, thời gian thực hiện thuật toán

IDS_FW_DAR lớn hơn hai thuật toán filter NEW-R và IDS_F_DAR trên tất

cả các tập dữ liệu do IDS_FW_DAR phải thực hiện các bộ phân lớp. Thời

gian thực hiện của hai thuật toán filter NEW-R và IDS_F_DAR xấp xỉ nhau.

51

Bảng 2.3. Thời gian thực hiện ba thuật toán (tính bằng giây)

IDS_FW_DAR

NEW-R

IDS_F_ DAR

Tổng

STT

Tập dữ liệu

Giai đoạn filter

Giai đoạn Wrapper

1.92

1.90

1.86

0.98

Hepatitis

1

2.84

9.96

9.92

9.48

2.48

Audiology

2

11.96

6.84

6.95

6.16

1.72

Soybean-large

3

7.84

9.02

8.94

8.26

2.68

4

10.94

Congressional Voting Records

80.06

81.34

78.64

12.58

Arrhythmia

5

91.22

13.84

13.56

12.78

4.85

6

17.63

Australian Credit Approval

8.96

4.96

9.15

9.06

7

13.92

Breast Cancer Wisconsin

Anneal

19.04

20.18

20.82

8.04

8

17.08

Advertisements

224.12

232.52

236.16

86.38

9

310.50

10 Mushroom

52.06

54.76

55.83

14.68

66.74

Trung bình

55.07

43.82

44.45

Hình 2.1. Thời gian thực hiện ba thuật toán (tính bằng giây)

52

2.2.3.4. Kết quả đánh giá số thuộc tính tập rút gọn và độ chính xác của mô

hình phân lớp của thuật toán filter-wrapper IDS_FW_DAR

Bảng 2.4 trình bày kết quả thử nghiệm về số lượng thuộc tính tập rút gọn

và độ chính xác phân lớp của ba thuật toán. Kết quả của Bảng 2.4 cho thấy, về

cơ bản cả ba thuật toán cố gắng bảo toàn hoặc cải thiện độ chính xác phân lớp

của tập dữ liệu ban đầu (thấp hơn trên tập dữ liệu Advertisements). Độ chính

xác phân lớp của thuật toán filter-wrapper IDS_FW_DAR cao hơn độ chính

xác phân lớp của hai thuật toán còn lại trên 06 bộ số liệu Audiology,

Soybean-large, Congressional Voting Records, Arrhythmia, Anneal,

Advertisements và xấp xỉ bằng nhau trên 04 bộ dữ liệu còn lại. Đặc biệt, với

bộ số liệu có độ chính xác phân lớp thấp như Arrhythmia, độ chính xác phân

lớp tăng lên khá nhiều. Số lượng thuộc tính của tập rút gọn của thuật toán

filter-wrapper IDS_FW_DAR nhỏ hơn khá nhiều so với hai thuật toán filter

NEW-R và IDS_F_DAR. Do đó, hiệu năng tập luật quyết định thu được bởi

Bảng 2.4. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba thuật toán

IDS_FW_DAR cao hơn NEW-R và IDS_F_DAR.

IDS_FW_DAR

NEW-R

IDS_F_DAR

Tập dữ liệu

S T T

Số thuộc tính

Độ chính xác

Độ chính xác

Độ chính xác

Độ chính xác ban đầu

1 Hepatitis

85.04

19

4

5

82.06

5

82.06

83.16

2 Audiology

75.16

69

15

76.68

16

76.04

78.16

6

3 Soybean-large

92.16

35

12

92.04

12

92.12

94.06

8

4 Congressional

94.16

16

15

90.22

17

90.86

94.66

9

Voting Records

5 Arrhythmia

279

68.36

22

72.68

24

71.83

8

76.14

53

IDS_FW_DAR

NEW-R

IDS_F_DAR

Tập dữ liệu

Số thuộc tính

S T T

Độ chính xác

Độ chính xác

Độ chính xác

Độ chính xác ban đầu

14

86.78

8

83.04

9

82.12

8

83.04

6 Australian Credit Approval

10

82.78

4

82.60

82.60

4

82.60

4

7 Breast Cancer Wisconsin

8 Anneal

38

92.86

88.98

10

89.16

9

6

92.68

9 Advertisements

1558

94.60

42

90.88

45

91.28

18

92.86

10 Mushroom

22

98.04

4

98.12

98.12

5

98.02

4

Trung bình

87.55

85.64

85.70

Hình 2.2. Số lượng thuộc tính tập rút gọn của ba thuật toán

54

Hình 2.3. Độ chính xác phân lớp của ba thuật toán

2.3. Kết luận chương 2

Trong Chương 2, luận án trình bày kết quả xây dựng một độ đo khoảng

cách mới trong bảng quyết định không đầy đủ. Dựa vào độ đo khoảng cách

được xây dựng, luận án xây dựng thuật toán IDS_FW_DAR tìm tập rút gọn

của bảng quyết định không đầy đủ theo tiếp cận filter truyền thống, trên cơ sở

đó đề xuất thuật toán theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR nhằm

nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của

mô hình phân lớp. Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu

UCI [118] cho thấy, thuật toán filter-wrapper IDS_FW_DAR đề xuất giảm

thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán filter

IDS_F_DAR và NEW-R [92]. Hơn nữa, thuật toán IDS_FW_DAR duy trì và

nâng cao độ chính xác phân lớp so với các thuật toán filter IDS_F_DAR và

NEW-R. Tuy nhiên, thuật toán IDS_FW_DAR mất thêm chi phí thời gian

tính toán các bộ phân lớp. Với các bài toán có số lượng thuộc tính lớn (high

dimention data), ví dụ trong linh vực tin sinh học, việc giảm thiểu số lượng

thuộc tính có ý nghĩa quan trọng vì giảm thiểu độ phức tạp của mô hình, do

đó lựa chọn các thuật toán filter-wrapper IDS_FW_DAR là phù hợp. Tuy

nhiên, với các bảng có số thuộc tính nhỏ và có dữ liệu lớn, việc chọn các thuật

toán filter phù hợp hơn vì thời gian thực hiện nhỏ hơn.

55

CHƯƠNG 3. CÁC THUẬT TOÁN GIA TĂNG FILTER-

WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH

THAY ĐỔI

Với sự tăng trưởng không ngừng về dung lượng dữ liệu, các bảng quyết

định ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các

thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách

thức. Để vượt qua các thách thức trên, các nhà nghiên cứu đã đề xuất các

thuật toán theo hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Phương pháp

gia tăng tìm tập rút gọn là kỹ thuật chỉ tính toán tập rút gọn trên phần dữ liệu

bị thay đổi mà không phải tính lại tập rút gọn trên toàn bộ tập dữ liệu. Do đó,

các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự

quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Theo tiếp

cận tập thô dung sai, trong mấy năm gần đây một số nhóm nghiên cứu đã đề

xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ

[9], [18], [28], [38], [56], [71], [81-84], [86], [92]. Trường hợp bổ sung, loại

bỏ tập đối tượng, Li và các cộng sự [71] đề xuất thuật toán gia tăng tính toán

tập lõi sử dụng ma trận phân biệt. Zhang và các cộng sự [18] xây dựng thuật

toán gia tăng tìm tập rút gọn sử dụng hàm quyết định suy rộng. Shu và các

cộng sự [81-82], [86], Ma và các cộng sự [28] xây dựng các cơ chế cập nhật

miền dương, trên cơ sở đó đề xuất các thuật toán gia tăng tìm tập rút gọn sử

dụng miền dương. Yu và các cộng sự [56] xây dựng các công thức gia tăng

tính toán entropy dựa trên trọng số của các thuộc tính và đề xuất thuật toán

gia tăng tìm tập rút gọn dựa trên entropy. Zhang và cộng sự [9] đề xuất các

thuật toán gia tăng tìm tập rút gọn sử dụng độ đo hạt tri thức (knowledge

granularity). Trường hợp bổ sung, loại bỏ tập thuộc tính, Shu và các cộng sự

56

[83] xây dựng cơ chế cập nhật miền dương, trên cơ sở đó đề xuất các thuật

toán gia tăng tìm tập rút gọn dựa trên miền dương. Wang và các cộng sự [38]

xây dựng các công thức gia tăng tính toán entropy và đề xuất thuật toán gia

tăng tìm tập rút gọn sử dụng entropy. Trường hợp tập đối tượng, tập thuộc

tính thay đổi giá trị, Shu và các cộng sự [84] đề xuất các thuật toán gia tăng

tìm tập rút gọn sử dụng miền dương. Xie và các cộng sự [92] đưa ra khái

niệm tập rút gọn dựa trên độ không nhất quán (inconsistent degree) và đề xuất

các thuật toán gia tăng tìm tập rút gọn sử dụng độ không nhất quán.

Với các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai

đã trình bày ở trên, các tác giả đều xây dựng các công thức gia tăng tính toán

độ đo, ví dụ miền dương [28], [81-84], [86], ma trận phân biệt [71], hàm

quyết định suy rộng [18], entropy thông tin [38], [56], độ không nhất quán

[92], hạt tri thức [9]. Sử dụng độ đo được xây dựng, các tác giả đề xuất các

thuật toán gia tăng tìm tập rút gọn theo tiếp cận heuristic. Các thuật toán này

không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút

gọn đã có dựa trên thành phần dữ liệu bị thay đổi. Kết quả thực nghiệm cho

thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các

thuật toán không gia tăng. Do đó, chúng có thể thực thi được trên các bảng

quyết định thay đổi, cập nhật, có kích thước lớn. Tuy nhiên, các thuật toán

nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Với cách tiếp cận

này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định

nghĩa. Việc đánh giá độ chính xác phân lớp của mô hình được thực hiện sau

khi tìm được tập rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu

trên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp.

Trong công trình [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-

wrapper tìm tập rút gọn của bảng quyết định đầy đủ. Trong đó, giai đoạn filter

tìm các ứng viên cho tập rút gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ),

57

giai đoạn wrapper tính toán độ chính xác phân lớp của các ứng viên và lựa

chọn tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất. Kết quả thử

nghiệm cho thấy, số lượng thuộc tính tập rút gọn giảm thiểu đáng kể so với

các phương pháp filter, trong khi độ chính xác phân lớp vẫn được bảo toàn và

cải thiện hơn. Tuy nhiên, thuật toán trong [3] đều thực hiện trên bảng quyết

định đầy đủ theo tiếp cận tập thô mờ.

Trong chương này, trước hết luận án trình bày công thức gia tăng tính độ

đo khoảng cách (được đề xuất ở chương 2) trong trường hợp bổ sung, loại bỏ

tập đối tượng và bổ sung, loại bỏ tập thuộc tính. Dựa trên công thức tính toán

gia tăng khoảng cách được xây dựng, luận án trình bày 04 thuật toán gia tăng

tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-

wrapper:

1) Thuật toán filter-wrapper IDS_IFW_AO tìm tập rút gọn trong trường

hợp bổ sung tập đối tượng.

2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường

hợp loại bỏ tập đối tượng.

3) Thuật toán filter-wrapper IDS_IFW_AA tìm tập rút gọn trong trường

hợp bổ sung tập thuộc tính.

4) Thuật toán filter-wrapper IDS_IFW_DA tìm tập rút gọn trong trường

hợp loại bỏ tập thuộc tính.

Kết quả thử nghiệm trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [118]

cho thấy, các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA có số lượng

tập rút gọn nhỏ hơn đáng kể so với các thuật toán filter khác đã đề xuất. Hơn

nữa, tập rút gọn của các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA cải

thiện độ chính xác phân lớp so với các thuật toán filter khác.

Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3, 4, 5,

phần “Danh mục các công trình khoa học đã công bố”.

58

3.1. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ

tập đối tượng

Trong phần này sẽ trình bày thuật toán gia tăng filter-wrapper tìm tập rút

gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung, loại bỏ tập

đối tượng sử dụng độ đo khoảng cách đề xuất trong Chương 2.

Định nghĩa 3.1. Cho bảng quyết định không đầy đủ .

Giả sử R là tập rút gọn của IDS và là tập đối tượng được bổ sung vào U

hoặc loại bỏ từ U. Khi đó, phương pháp tính toán sự thay đổi của R khi bổ sung

hoặc loại bỏ được gọi là phương pháp gia tăng tìm tập rút gọn của bảng

quyết định mới hoặc .

Để xây dựng các thuật toán gia tăng tìm tập rút gọn theo phương pháp

gia tăng theo Định nghĩa 3.1 ở trên, trước hết luận án xây dựng công thức tính

toán các độ đo khoảng cách khi bổ sung và loại bỏ tập đối tượng. Dựa trên các

công thức tính toán khoảng cách được xây dựng, luận án đề xuất các thuật

toán gia tăng filter-wrapper hiệu quả.

3.1.1. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng

3.1.1.1. Công thức cập nhật khoảng cách khi bổ sung một đối tượng

Cho bảng quyết định không đầy đủ với

và , tương ứng là ma trận dung sai trên C và

d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính và

được xác định như sau:

Mệnh đề 3.1. Cho bảng quyết định không đầy đủ với

. Giá sử đối tượng u được bổ sung vào . đặt

59

và tương ứng là ma trận dung

. Khi đó, công thức tính gia sai trên C và {d} với

tăng khoảng cách phân hoạch mờ là:

Chứng minh. Theo Mệnh đề 2.3 ta có

Mặt khác,

, do đó ta có:

3.1.1.2. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng

Trên cơ sở Mệnh đề 3.1, ta xây dựng công thức gia tăng tính khoảng

cách trong trường hợp bổ sung tập đối tượng bởi Mệnh đề 3.2 sau đây:

Mệnh đề 3.2. Cho bảng quyết định không đầy đủ với

. Giả sử tập đối tượng gồm s phần tử

được bổ sung vào với , đặt và

60

tương ứng là ma trận dung sai trên C và D. Khi đó,

công thức tính gia tăng khoảng cách như sau:

Chứng minh: Ký hiệu

khi thêm lần lượt các đối tượng

và là khoảng cách giữa tương ứng là công thức tính khoảng vào U, trên tập đối tượng ban đầu U. Khi bổ

cách giữa và sung đối tượng và vào U, ta có:

Khi bổ sung đối tượng vào U, ta có:

Tính toán tương tự, khi bổ sung đối tượng vào U, ta có:

với:

.

Từ đó ta có

Hay

61

Ví dụ 3.1. Xét bảng quyết định cho ở Bảng 3.1

Bảng 3.1. Bảng quyết định của Ví dụ 3.1

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d

Đầy đủ Tốt Thấp Cao Cao

Đầy đủ Tốt Thấp * Thấp

Gọn nhẹ Xấu Cao * *

Đầy đủ Tốt Cao * Cao

Đầy đủ Tuyệt hảo Cao * *

Đầy đủ Tốt * Cao Thấp

Gọn nhẹ Rất tốt Cao Thấp Cao x1

Tuyệt hảo Thấp Cao Trung bình Đầy đủ x2

Cao Cao Đầy đủ Trung bình Tuyệt hảo x3

Bảng 3.1 là bảng quyết định không đầy đủ với

và với (đơn giá), (Km đã đi),

(Kích thước), (Tốc độ tối đa).

Ta có:

- Khoảng cách sinh bởi

trên

là:

- Ma trận dung sai: , là:

62

Tiếp theo, ta tiến hành bổ sung tập đối tượng vào IDS.

1) Tính khoảng cách theo công thức gia tăng cho bởi Mệnh đề 3.2

Ta có:

2) Tính khoảng cách trên toàn bộ bảng quyết định

, ta có:

Như vậy, kết quả tính toán khoảng cách bởi công thức gia tăng của Mệnh

đề 3.2 và công thức không gia tăng trên toàn bộ bảng quyết định là như nhau,

điều này chứng minh tính đúng đắn của công thức gia tăng.

3.1.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập

đối tượng

Mệnh đề 3.3. Cho bảng quyết định không đầy đủ với

,

tượng gồm s phần tử là tập rút gọn dựa trên khoảng cách. Giả sử tập đối . Khi được bổ sung vào với

đó ta có:

với mọi là tập rút gọn của Nếu thì B

Chứng minh. Giả sử tương ứng

là ma trận tương đương mờ trên C và B của .

với mọi , khi đó ta Nếu thì có:

63

1) Với mọi , từ suy ra , hay

. Từ đó ta có . Theo Mệnh đề 3.2

ta có:

(*)

2) Tương tự, với mọi , từ suy ra ,

. Từ đó ta có . Theo Mệnh đề hay

3.2 ta có:

(**)

Mặt khác, do B là tập rút gọn của IDS nên ta có .

Từ (*) và (**) suy ra . Hơn nữa,

, từ (*) và (**) suy ra

. Do đó, B là tập rút

gọn của

. Ý tưởng của thuật toán gia tăng theo hướng tiếp cận kết hợp filter-

wrapper bao gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận

truyền thống), thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc

tính khi lần lượt bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong

giai đoạn wrappper, ta sử dụng một bộ phân lớp để tính độ chính xác phân lớp

trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân

lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, ta phải trả giá về

thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy nhiên,

tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật phân lớp

trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ chính xác.

Trong bối cảnh tăng trưởng không ngừng của dữ liệu lớn (Big Data), các bảng

quyết định ngày càng có số thuộc tính rất lớn. Việc tìm kiếm tập rút gọn có số

64

thuộc tính nhỏ nhất đặc biệt quan trọng. Do đó, chi phí về mặt thời gian để có

tập rút gọn giảm thiểu số lượng thuộc tính nhằm thu được tập luật hiệu quả là

chấp nhận được.

Dựa trên Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn

của bảng quyết định không đầy đủ sử dụng khoảng cách khi bổ sung tập đối

tượng được mô tả như sau:

Thuật toán IDS_IFW_AO: Thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ khi bổ sung tập đối tượng. Đầu vào:

với 1) Bảng quyết định không đầy đủ

, tập rút gọn , các ma trận dung

sai

2) Tập đối tượng bổ sung của

Đầu ra: Tập rút gọn Bước 1: Khởi tạo

// Chứa các ứng viên tập rút gọn 1. 2. Tính các ma trận dung sai trên tập đối tượng

:

Bước 2: Kiểm tra tập đối tượng bổ sung

to do

then ;

then Return 3. Đặt 4. For 5. If 6. If // Tập rút gọn không thay đổi

; //Gán lại tập đối tượng 7. Đặt

Bước 3: Thực hiện thuật toán tìm tập rút gọn

8. Tính các khoảng cách ban đầu

9. Tính các khoảng cách bởi công thức gia tăng

;

//Giai đoạn filter, tìm các ứng viên cho reduct

do 10. While

65

do

bởi công 11. Begin 12. For each 13. Begin 14.

Tính thức gia tăng; Tính

sao cho ;

;

;

15. 16. End; 17. Chọn 18. 19. 20. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính

xác phân lớp cao nhất

21. Đặt

//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là

;

22. Đặt 23. For j = 1 to t 24. Begin 25. Tính độ chính xác phân lớp trên bằng một bộ phân lớp sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp lớn 26. End 27.

nhất.

Return ;

Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_AO. Ký hiệu

tương ứng là số thuộc tính điều kiện, số đối tượng và số đối tượng

bổ sung thêm. Ở câu lệnh 2, độ phức tạp tính ma trận dung sai khi

biết là . Độ phức tạp của vòng lặp For ở câu lệnh số 4

là .

66

Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 6 (tập rút gọn

không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_AO là

.

Ngược lại, độ phức tạp tính khoảng cách theo công thức gia tăng trong

câu lệnh 9 khi biết ma trận dung sai là . Xét vòng lặp While

từ câu lệnh 10 đến 20, để tính ta phải tính vì

đã được tính ở bước trước. Độ phức tạp tính gia tăng

. Do đó, độ phức tạp của vòng lặp là

While là và độ phức tạp của giai đoạn filter trong

trường hợp xấu nhất là . Độ phức tạp của giai đoạn

wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ

phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là

. Vì vậy, độ phức tạp của thuật toán IDS_IFW_AO là

. Nếu thực hiện thuật toán không gia

tăng filter-wrapper IDS_FW_DAR trực tiếp trên bảng quyết định có số đối

tượng , độ phức tạp của thuật toán IDS_FW_DAR trình bày ở Chương

2 là . Do đó, thuật toán gia tăng IDS_IFW_AO

giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong trường hợp

lớn hoặc lớn.

Tiếp theo, sẽ trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng

khoảng cách khi loại bỏ tập đối tượng theo hướng tiếp cận tính toán gia tăng.

Trước hết, ta xây dựng các công thức cập nhật khoảng cách khi loại bỏ tập đối

tượng.

67

3.1.3. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng

3.1.3.1. Công thức cập nhật khoảng cách khi loại bỏ một đối tượng

Mệnh đề 3.4. Cho bảng quyết định không đầy đủ với

và , tương ứng là ma trận

bị loại bỏ khỏi U. Khi đó,

dung sai của C và d . Giá sử đối tượng công thức cập nhật khoảng cách như sau:

Chứng minh: Ta có:

3.1.3.2. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng

Trên cơ sở Mệnh đề 3.4, xây dựng công thức cập nhật khoảng cách trong

trường hợp loại bỏ tập đối tượng bởi Mệnh đề 3.5 như sau:

Mệnh đề 3.5. Cho bảng quyết định không đầy đủ với

và tương ứng là ma trận ,

dung sai của C và d. Giả sử tập đối tượng gồm s phần tử

68

bị loại khỏi , . Khi đó, công thức cập nhật khoảng cách phân hoạch

mờ như sau:

với

Chứng minh: Ký hiệu tương ứng là công thức tính khoảng cách

khi loại bỏ lần lượt các đối tượng khỏi U, và là khoảng cách

trên tập đối tượng ban đầu U. Áp dụng Mệnh đề 3.5 ta có:

Tính tương tự như vậy ta được:

Do đó:

với

69

Ví dụ 3.2. Xét bảng quyết định cho ở Bảng 3.2

Bảng 3.2. Bảng quyết định của Ví dụ 3.2

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d

Cao Cao Đầy đủ Thấp Tốt

Đầy đủ Thấp Thấp * Tốt

* * Gọn nhẹ Cao Xấu

Cao * Đầy đủ Cao Tốt

* * Đầy đủ Cao Tuyệt hảo

Thấp Cao Đầy đủ * Tốt

Bảng 3.2 là bảng quyết định không đầy đủ với

và với (đơn giá), (Km đã đi),

(Kích thước), (Tốc độ tối đa).

Ta có:

- Khoảng cách sinh bởi

trên

là:

- Ma trận dung sai: , là:

Tiếp theo, ta tiến hành loại bỏ tập đối tượng .

70

3) Tính khoảng cách theo công thức gia tăng cho bởi Mệnh đề 3.5

Ta có:

Từ đó ta có:

4) Tính khoảng cách trên bảng quyết định sau khi loại bỏ tập đối tượng

, ta có:

Từ đó ta có:

- Ma trận dung sai:

Như vậy, kết quả tính toán khoảng cách bởi công thức trong Mệnh đề 3.5

và trên toàn bộ bảng quyết định sau khi loại bỏ tập đối tượng là như nhau,

điều này chứng minh tính đúng đắn của công thức tính khoảng cách của Mệnh

đề 3.5.

3.1.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ

tập đối tượng

Mệnh đề 3.6. Cho bảng quyết định không đầy đủ với

và là tập rút gọn dựa trên khoảng cách. Giả sử tập đối

tượng gồm s phần tử bị loại khỏi , , Khi đó ta có:

Nếu với mọi là tập rút gọn của thì B

71

Chứng minh. Giả sử tương ứng là ma trận

dung sai trên C và B của . Nếu Nếu với mọi

thì

1) Với mọi , từ suy ra , hay

và . Từ đó ta có

. Theo Mệnh đề 3.5 ta có:

(*)

, 2) Tương tự, với mọi , từ suy ra

và hay . Từ đó ta có

. Theo Mệnh đề 3.5 ta có:

(**)

. Mặt khác, do B là tập rút gọn của IDS nên ta có

Từ (*) và (**) suy ra . Hơn nữa,

, từ (*) và (**) suy ra

. Do đó, B là tập rút gọn

của

. Dựa trên Mệnh đề 3.6, thuật toán gia tăng filter-wrapper tìm tập rút gọn

có độ chính xác phân lớp tốt nhất sử dụng khoảng cách khi loại bỏ tập đối

tượng được thực hiện như sau:

Thuật toán IDS_IFW_DO: Thuật toán gia tăng filter- wrapper tìm tập rút gọn của bảng quyết định không đầy đủ khi loại bỏ tập đối tượng. Đầu vào:

với 1) Bảng quyết định không đầy đủ

, tập rút gọn .

72

ma trận sai: 2) Các

dung

gồm s đối 3) Tập đối tượng loại bỏ

tượng với

của có độ

Đầu ra: Tập rút gọn chính xác phân lớp tốt nhất.

//Chứa các ứng viên của tập rút gọn

to do

then 1. 2. Đặt 3. For 4. If

then Return 5. If //Tập rút gọn không thay đổi

; //Gán lại tập đối tượng

6. Đặt 7. Tính các độ đo khoảng cách ban đầu:

8. Tính khoảng cách bởi Mệnh đề 3.5 khi loại

: ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

do

do

bởi công 9. While 10. Begin 11. For each 12. Begin 13.

Tính thức gia tăng;

14.

sao cho ;

;

15. End; 16. Chọn 17. 18. 19. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính

xác phân lớp cao nhất

20. Đặt

//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là

73

;

21. Đặt 22. For j = 1 to t 23. Begin 24. Tính độ chính xác phân lớp trên bằng một bộ phân lớp sử dụng phương pháp 10-fold;

có độ chính xác phân lớp cao với 25. End 26.

nhất.

; Return

Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_DO. Ký hiệu

tương ứng là số thuộc tính điều kiện, số đối tượng và số đối tượng

bị loại bỏ khỏi U. Độ phức tạp của vòng lặp For ở câu lệnh số 3 là .

Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 5 (tập rút gọn

không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_DO là .

Ngược lại, độ phức tạp tính khoảng cách khi loại bỏ tập đối tượng ở câu

lệnh số 8 là . Xét vòng lặp While từ câu lệnh 9 đến 19, để tính

ta phải tính vì đã được tính

ở bước trước. Độ phức tạp tính . Do là

đó, độ phức tạp của vòng lặp While là . Vì vậy, độ phức tạp của

giai đoạn filter trong trường hợp xấu nhất là . Độ phức tạp của

giai đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng.

Giả sử độ phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn

wrapper là . Vì vậy, độ phức tạp của thuật toán IDS_IFW_DO là

.

Nếu thực hiện thuật toán IDS_FW_DAR trực tiếp trên bảng quyết định

74

có số đối tượng , độ phức tạp của thuật toán IDS_FW_DAR là

. Do đó, nếu nhỏ, thuật toán theo tiếp cận tính

toán gia tăng IDS_IFW_DO tốt hơn thuật toán IDS_FW_DAR. Tuy nhiên,

nếu lớn và lớn thì việc tính lại tập rút gọn trực tiếp sau khi xóa tập đối

tượng tỏ ra hiệu quả hơn về thời gian thực hiện.

3.1.5. Thực nghiệm và đánh giá các thuật toán

3.1.5.1. Mục tiêu thử nghiệm

Mục tiêu của thử nghiệm là đánh giá tính hiệu quả của thuật toán gia

tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn của bảng quyết định không

đầy đủ khi bổ sung tập đối tượng. Cụ thể như sau:

(1) Đánh giá tính hiệu quả của thuật toán gia tăng filter-wrapper

IDS_IFW_AO với thuật toán không gia tăng IDS_FW_DAR về thời gian thực

hiện. Mục tiêu của việc đánh giá là minh chứng rằng hướng tiếp cận tính toán

gia tăng giảm thiểu được thời gian thực hiện so với tính toán không gia tăng,

trên cùng hướng tiếp cận filter-wapper.

(2) Đánh giá tính hiệu quả của thuật toán gia tăng filter-wrapper

IDS_IFW_AO với thuật toán gia tăng filter IARM-I [86] về số lượng thuộc

tính tập rút gọn và độ chính xác của mô hình phân lớp. IARM-I là thuật toán

gia tăng filter tìm tập rút gọn của bảng quyết định không đầy đủ trong trường

hợp bổ sung tập đối tượng sử dụng miền dương. Mục tiêu của việc đánh giá là

minh chứng rằng hướng tiếp cận kết hợp filter-wrapper giảm thiểu số lượng

thuộc tính tập rút gọn, bảo toàn hoặc cải thiện độ chính xác phân lớp so với

hướng tiếp cận truyền thống filter.

3.1.5.2. Dữ liệu, phương pháp, công cụ và môi trường thử nghiệm

Việc thử nghiệm được thực hiện trên 06 tập dữ liệu mẫu lấy từ kho dữ

liệu UCI [118] được mô tả ở Bảng 3.3, đây là các tập dữ liệu thiếu giá trị

75

(missing value). Mỗi tập dữ liệu được chia thành hai phần xấp xỉ bằng nhau:

tập dữ liệu ban đầu (cột 4 Bảng 3.1) ký hiệu là , và tập dữ liệu gia tăng (cột

5 Bảng 3.3). Tập dữ liệu gia tăng được chia thành 5 phần bằng nhau, ký hiệu

Bảng 3.3. Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO

tương ứng là

STT Tập dữ liệu

Số đối tượng

Số thuộc tính điều kiện

Số lớp quyết định

Số đối tượng tập dữ liệu ban đầu

Số đối tượng tập dữ liệu gia tăng

(4)

(1)

(2)

(3)

(5)

(6)

(7)

111

1 Audiology

226

115

69

24

152

2

Soybean-large

307

155

35

2

215

3

Congressional

435

220

16

2

Voting Records

227

4 Arrhythmia

452

225

279

16

398

5 Anneal

798

400

38

6

2

6 Advertisements

3279

1639

1640

1558

Để tiến hành thử nghiệm hai thuật toán gia tăng IDS_IFW_AO và

IARM-I, trước hết ta thực hiện hai thuật toán trên tập dữ liệu ban đầu (coi tập

dữ liệu ban đầu là tập gia tăng). Tiếp theo, thực hiện hai thuật toán khi lần

lượt bổ sung từ phần thứ nhất đến phần thứ năm của tập dữ liệu gia tăng. Với

thuật toán không gia tăng filter-wrapper IDS_FW_DAR, ta thực hiện thuật

toán trên toàn bộ tập dữ liệu sau khi bổ sung tại mỗi bước. .

Với các thuật toán filter-wrapper, việc lựa chọn bộ phân lớp trong giai

đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về thời gian

76

thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ phân lớp sẽ

không ảnh hưởng đến kết quả so sánh, đánh giá giữa các thuật toán khác vì

chúng đều thực hiện trên một bộ phân lớp cụ thể. Do đó, ta sử dụng bộ phân

lớp C4.5 để tính độ chính xác phân lớp trong giai đoạn wrapper của các thuật

toán filter-wrapper và tính toán độ chính xác phân lớp trên các tập rút gọn thu

được. Bộ phân lớp C4.5 được lựa chọn vì đây là bộ phân lớp thông dụng và

được các nghiên cứu khác lựa chọn khi thực hiện so sánh, đánh giá các thuật

toán.

Ta sử dụng phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được

chia thành 10 phần xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu

kiểm tra, 9 phần còn lại làm dữ liệu huấn luyện.

Công cụ thực hiện thử nghiệm là Matlab R2016a. Môi trường thử

nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120 CPU, 3.3

GHz và 4 GB bộ nhớ.

3.1.5.3. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-

wrapper IDS_IFW_AO với thuật toán filter-wrapper IDS_FW_DAR

Kết quả so sánh thời gian thực hiện thuật toán IDS_IFW_AO và

IDS_FW_DAR (tính bằng giây - s) được mô tả ở Bảng 3.4. Trong đó, thời

gian thực hiện thuật toán IDS_IFW_AO là tổng thời gian thực hiện thuật toán

trên tập dữ liệu ban đầu và trên các tập dữ liệu gia tăng . Thời

gian thực hiện thuật toán IDS_FW_DAR được tính trên toàn bộ tập dữ liệu

sau khi bổ sung các tập dữ liệu gia tăng.

Kết quả thử nghiệm ở Bảng 3.4 và Hình 3.1 cho thấy, thời gian thực

hiện thuật toán IDS_IFW_AO nhỏ hơn thuật toán IDS_FW_DAR trên tất cả

các tập dữ liệu. Với bộ số liệu Arrhythmia, thời gian thực hiện của

IDS_IFW_AO chỉ xấp xỉ bằng 50% so với IDS_FW_DAR. Với bộ số liệu lớn

77

hơn Advertisements, thời gian thực hiện của IDS_IFW_AO chỉ xấp xỉ bằng

39.57% so với IDS_FW_DAR. Do đó, thuật toán gia tăng đặc biệt hiệu quả

trên các tập dữ liệu kích thước lớn. Thay vì tìm tập rút gọn trên toàn bộ tập dữ

liệu, chúng ta chia nhỏ tập dữ liệu thành nhiều phần, sau đó lần lượt thực hiện

thuật toán gia tăng khi bổ sung từng phần.

Bảng 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s)

IDS_FW

IDS_IFW_AO

_DAR

STT Tập dữ liệu

Tổng số đối tượng

Tập dữ liệu ban đầu, gia tăng

Số đối tượng ban đầu, gia tăng

Thời gian

Thời gian

Tổng thời gian

111

111

6.08

6.08

6.08

134

0.61

6.69

7.46

23

157

0.35

7.04

8.05

23

1 Audiology

180

0.64

7.68

8.94

23

203

0.34

8.02

10.82

23

0.44

23

226

8.46

11.96

152

152

3.04

3.04

3.04

183

0.64

3.68

4.18

31

214

0.34

4.02

5.26

31

2

Soybean-large

245

0.73

4.75

6.04

31

276

0.43

5.18

7.08

31

0.68

31

307

5.86

7.84

78

IDS_FW

IDS_IFW_AO

_DAR

STT Tập dữ liệu

Tổng số đối tượng

Tập dữ liệu ban đầu, gia tăng

Số đối tượng ban đầu, gia tăng

Thời gian

Thời gian

Tổng thời gian

215

215

5.86

5.86

5.86

44

259

0.56

6.42

6.95

3

44

303

0.61

7.03

8.04

Congressional Voting Records

44

347

0.53

7.56

9.12

44

391

0.47

8.03

10.05

44

0.55

435

8.58

10.94

227

35.48

35.48

35.48

227

45

272

1.58

37.06

41.06

4 Arrhythmia

45

317

3.12

40.18

58.64

45

362

2.50

42.68

72.18

45

407

1.36

44.04

84.60

45

452

2.14

46.18

91.22

398

398

7.48

7.48

7.48

80

478

0.58

8.06

9.12

5 Anneal

80

558

0.81

8.95

10.35

80

638

0.53

9.48

12.06

80

718

0.77

10.25

14.67

80

0.80

798

11.05

17.08

1639

1639

96.74

96.74

96.74

328

1967

5.69

102.43

114.36

6 Advertisements

328

2295

6.13

108.56

148.78

328

2623

5.70

114.26

216.56

328

2951

3.86

118.12

284.68

328

4.74

3279

122.86

310.50

79

Hình 3.1. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR

80

3.1.5.4. Kết quả so sánh độ chính xác phân lớp của thuật toán gia tăng filter-

wrapper IDS_IFW_AO với thuật toán filter-wrapper IDS_FW_DAR

Bảng 3.5 trình bày kết quả thử nghiệm về số thuộc tính tập rút gọn và độ

chính xác phân lớp của hai thuật toán IDS_IFW_AO và IDS_FW_DAR.

Trong đó, ký hiệu là số thuộc tính của tập rút gọn. Kết quả của Bảng 3.5

và Hình 3.2 cho thấy, độ chính xác phân lớp của hai thuật toán xấp xỉ nhau

trên cả 6 tập dữ liệu, độ chính xác trung bình của hai thuật toán cũng xấp xỉ

nhau. Số lượng thuộc tính tập rút gọn của hai thuật toán cũng xấp xỉ nhau. Do

đó, thuật toán gia tăng không cải thiện về độ chính xác phân lớp so với các

thuật toán không gia tăng. Mặt khác, Bảng 3.5 cũng cho thấy độ chính xác

trung bình của hai thuật toán cao hơn một chút so với độ chính xác trung bình

trên các tập dữ liệu ban đầu. Điều đó cho thấy các phương pháp rút gọn thuộc

Bảng 3.5. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AO và IDS_FW_DAR

tính cố gắng bảo toàn hoặc cải thiện độ chính xác phân lớp ban đầu.

IDS_IFW_AO

IDS_FW_DAR

Số đối tượng

Tập dữ liệu

S T T

Số thuộc tính

Độ chính xác ban đầu

Độ chính xác

Độ chính xác

1 Audiology

226

69

75.16

78.84

6

78.16

7

2 Soybean-large

307

35

92.16

94.58

8

8

94.06

3 Congressional

435

16

94.16

94.12

9

9

94.66

Voting Records

4 Arrhythmia

452

279

68.36

76.04

8

9

76.14

5 Anneal

798

38

92.86

91.28

6

6

92.68

6 Advertisements

3279

1558

94.60

19

92.90

18

92.86

Trung bình

86.22

87.96

88.09

81

Hình 3.2. Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR

Phần tiếp theo trình bày kết quả thử nghiệm so sánh, đánh giá thuật toán

gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia tăng filter IARM-I

trong công trình [86].

3.1.5.5. Kết quả so sánh số lượng thuộc tính tập rút gọn và độ chính xác phân

lớp của thuật toán gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia

tăng filter IARM-I

Bảng 3.6 trình bày kết quả so sánh về số lượng thuộc tính tập rút gọn và

độ chính xác phân lớp của hai thuật toán gia tăng IDS_IFW_AO và IARM-I.

Kết quả bảng 3.6 và Hình 3.3 cho thấy, độ chính xác phân lớp của thuật toán

filter-wrapper IDS_IFW_AO cao hơn IARM-I trên 6 tập dữ liệu một chút.

Nguyên nhân là ở giai đoạn Wrapper (từ dòng lệnh thứ 21 đến 27 của thuật

toán IDS_IFW_AO), thuật toán tính độ chính xác phân lớp của các ứng viên

tập rút gọn và lựa chọn tập rút gọn có độ chính xác phân lớp tốt nhất (nếu tập

rút gọn có độ chính xác phân lớp tốt nhất trùng với ứng viên tập rút gọn của

giai đoạn Filter thì kết quả của hai thuật toán là như nhau). Hơn nữa, số thuộc

82

tính tập rút gọn của thuật toán IDS_IFW_AO nhỏ hơn khá nhiều hai thuật toán

IARM-I, đặc biệt trên tập rút gọn có số thuộc tính lớn như Advertisements.

Nguyên nhân là thuật toán đề xuất bổ sung thêm giai đoạn wrapper. Ở giai

đoạn wrapper, thuật toán tính độ chính xác phân lớp của các ứng viên tập rút

gọn của giai đoạn filter và chọn ứng viên có độ chính xác phân lớp tốt nhất

làm kết quả. Như đã phân tích ở phần ý tưởng thuật toán, ứng viên có độ

chính xác phân lớp tốt nhất được chọn là ứng viên có thể chỉ bổ sung thêm ít

thuộc tính (tùy thuộc vào tập dữ liệu). Do đó, số thuộc tính thu được của thuật

toán IDS_IFW_AO nhỏ hơn khá nhiều so với các thuật toán filter, điển hình là

IARM-I. Trong trường hợp tồi nhất, ứng viên được chọn chính là kết quả cuối

cùng của giai đoạn filter, khi đó tập rút gọn của hai hướng tiếp cận là như

nhau. Vì vậy, thời gian thực hiện và tính khái quát hóa của tập luật phân lớp

trên tập rút gọn của IDS_IFW_AO tốt hơn so với IARM-I. Như vậy, thuật toán

đề xuất filter-wrapper IDS_IFW_AO đáp ứng mục tiêu đặt ra là giảm thiểu số

thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình mà vẫn cố

gắng bảo toàn độ chính xác phân lớp so với các thuật toán gia tăng khác theo

Bảng 3.6. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I

tiếp cận filter.

IDS_IFW_AO

IARM-I

STT Tập dữ liệu

Tập dữ liệu ban đầu, gia tăng

Tổng số đối tượng

Độ chính xác

Số đối tượng ban đầu, gia tăng 111

111

76.18

5

8

Độ chính xác 74.29

23

134

76.18

5

9

75.12

1 Audiology

23

157

81.26

6

12

78.26

23

180

81.26

6

12

78.26

23

203

78.84

7

14

78.17

23

7

226

78.84

15

76.64

83

IDS_IFW_AO

IARM-I

STT Tập dữ liệu

Tập dữ liệu ban đầu, gia tăng

Tổng số đối tượng

Độ chính xác

Số đối tượng ban đầu, gia tăng 152

152

7

Độ chính xác 95.46

5

96.12

183

31

7

95.46

5

96.12

214

31

9

95.04

6

96.72

2

Soybean-large

245

31

9

95.04

7

95.18

276

31

10

94.19

7

95.18

31

307

11

94.28

8

94.58

215

215

9

91.17

4

92.48

259

44

10

91.45

5

92.76

303

44

14

92.28

7

94.48

3

Congressional Voting Records

347

44

14

92.28

7

94.48

391

44

16

92.06

9

94.12

44

435

17

92.88

9

94.12

227

227

14

69.16

6

70.08

272

45

17

72.05

7

72.45

317

45

17

72.05

7

72.45

4 Arrhythmia

362

45

21

73.23

8

74.18

407

45

21

73.23

8

74.18

45

452

24

73.08

9

76.04

398

398

8

84.06

4

84.18

478

80

8

84.06

5

89.06

558

80

8

84.06

5

89.06

5 Anneal

638

80

9

88.48

6

91.28

718

80

9

88.48

6

91.28

80

798

10

90.06

6

91.28

1639

1639

12

23

92.16

93.01

6 Advertisements

328

1967

14

28

90.48

91.18

328

2295

14

28

90.48

91.18

328

2623

17

32

91.17

91.65

328

2951

18

36

92.06

92.82

328

3279

19

45

92.46

92.90

84

Hình 3.3.a. Bộ số liệu Audiology

Hình 3.3.b. Bộ số liệu Soybean-large

Hình 3.3.c. Bộ số liệu Congressional Voting Records

85

Hình 3.3.d. Bộ số liệu Arrhythmia

Hình 3.3.e. Bộ số liệu Anneal

Hình 3.3.f. Bộ số liệu Advertisements

Hình 3.3. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I

86

3.1.5.6. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-

wrapper IDS_IFW_AO với thuật toán gia tăng IARM-I

Bảng 3.7 trình bày kết quả so sánh thời gian thực hiện hai thuật toán gia

tăng IDS_IFW_AO và IARM-I (tính bằng giây - s). Kết quả thử nghiệm ở

Bảng 3.7 và Hình 3.4 cho thấy, thời gian thực hiện thuật toán IDS_IFW_AO

lớn hơn thuật toán IARM-I trên tất cả các tập dữ liệu, nguyên nhân là thuật

toán filter-wrapper IDS_IFW_AO mất thêm chi phí thời gian thực hiện bộ

phân lớp trong giai đoạn wrapper. Như vậy, thuật toán IDS_IFW_AO hiệu

quả hơn IARM-I về độ chính xác phân lớp và số lượng thuộc tính tập rút gọn,

Bảng 3.7. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s)

tuy nhiên IDS_IFW_AO có thời gian thực hiện cao hơn IARM-I .

IDS_IFW_AO

IARM-I

STT Tập dữ liệu

Tổng thời gian

Tổng số đối tượng

Thời gian

Thời gian

Tổng thời gian

Tập dữ liệu ban đầu, gia tăng

Số đối tượng ban đầu, gia tăng

111

111

6.08

6.08

5.82

5.82

134

0.61

6.69

0.51

6.33

23

157

0.35

7.04

0.26

6.59

23

1 Audiology

180

0.64

7.68

0.42

7.01

23

203

0.34

8.02

0.28

7.29

23

0.44

0.35

23

226

8.46

7.64

152

3.04

3.04

2.86

2.86

152

183

0.64

3.68

0.42

3.28

31

214

0.34

4.02

0.22

3.52

31

2

Soybean-large

245

0.73

4.75

0.54

4.06

31

276

0.43

5.18

0.34

4.40

31

0.68

0.40

31

307

5.86

4.80

87

IDS_IFW_AO

IARM-I

STT Tập dữ liệu

Tổng thời gian

Tổng số đối tượng

Thời gian

Thời gian

Tổng thời gian

Tập dữ liệu ban đầu, gia tăng

Số đối tượng ban đầu, gia tăng

215

5.86

5.03

5.03

215

5.86

6.42

0.39

5.42

259

0.56

44

7.03

0.46

5.88

303

0.61

44

3

Congressional Voting Records

7.56

0.37

6.25

347

0.53

44

8.03

0.31

6.56

391

0.47

44

0.32

0.55

44

8.58

6.88

435

227

35.48

35.48

28.72

28.72

227

37.06

1.42

30.14

272

1.58

45

40.18

2.26

32.40

317

3.12

45

4 Arrhythmia

42.68

2.03

34.43

362

2.50

45

44.04

1.15

35.58

407

1.36

45

1.84

452

2.14

45

46.18

37.42

7.48

6.05

6.05

398

7.48

398

8.06

0.38

6.43

478

0.58

80

8.95

0.63

7.06

558

0.81

80

5 Anneal

9.48

0.34

7.40

638

0.53

80

10.25

0.56

7.96

718

0.77

80

0.59

0.80

80

11.05

8.55

798

1639

1639

96.74

96.74

82.05

82.05

328

1967

5.69

102.43

4.84

86.89

328

2295

6.13

108.56

5.18

92.07

6 Advertisements

328

2623

5.70

114.26

4.26

96.33

328

2951

3.86

118.12

2.54

98.87

328

4.74

2.98

3279

122.86

101.85

88

Hình 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I

89

3.1.5.7. Bảng tổng hợp kết quả so sánh thời gian thực hiện của 03 thuật toán

Dựa trên Bảng 3.4 và 3.7 về kết quả so sánh thời gian thực hiện, mục này

tổng hợp kết quả so sánh tổng thời gian thực hiện của 03 thuật toán: thuật toán

không gia tăng filter-wrapper IDS_FW_DAR, thuật toán gia tăng filter-

Bảng 3.8. Thời gian thực hiện của 03 thuật toán (s)

wrapper IDS_IFW_AO, thuật toán gia tăng filter IARM-I

STT

Tập dữ liệu

IDS_IFW_AO

IARM-I

Số đối tượng

IDS_FW _DAR

Audiology

226

11.96

8.46

1

7.64

Soybean-large

307

7.84

5.86

2

4.80

435

10.94

8.58

3

6.88

Congressional Voting Records

Arrhythmia

452

91.22

46.18

4

37.42

Anneal

798

17.08

11.05

5

8.55

Advertisements

3279

310.50

122.86

6

101.85

IDS_IFW_AO

Hình 3.5. Thời gian thực hiện của 03 thuật toán (s)

90

Kết quả ở Bảng 3.8 và Hình 3.5 cho thấy, trên tất cả các bộ dữ liệu, thời

gian thực hiện của thuật toán gia tăng filter IARM-I là nhanh nhất. Thuật toán

phải thực hiện giai đoạn wrapper tính độ chính xác phân lớp. Thuật toán không gia

tăng filter-wrapper có thời gian thực hiện lâu nhất vì phải tính lại tập rút gọn khi bổ

sung các tập đối tượng và phải thực hiện giai đoạn wrapper.

gia tăng filter-wrapper IDS_IFW_AO có thời gian thực hiện lâu hơn IARM-I vì

3.1.5.8. Bảng tổng hợp kết quả so sánh số thuộc tính tập rút gọn và độ chính

xác phân lớp của 03 thuật toán

Dựa trên Bảng 3.5 và 3.6 về kết quả so sánh số lượng thuộc tính tập rút

gọn và độ chính xác phân lớp, mục này tổng hợp kết quả so sánh số lượng

thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán: thuật toán

không gia tăng filter-wrapper IDS_FW_DAR, thuật toán gia tăng filter-

Bảng 3.9. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán

wrapper IDS_IFW_AO, thuật toán gia tăng filter IARM-I

IARM-I

IDS_IFW_A O

IDS_FW_DA R

Số đối tượng

Tập dữ liệu

S T T

Số thuộc tính

Độ chính xác ban đầu

Độ chính xác

Độ chính xác

Độ chính xác

1 Audiology

226

69

75.16

7

78.84

6

78.16

76.64

15

2 Soybean-large

307

35

92.16

8

94.58

8

94.06

94.28

11

3 Congressional

435

16

94.16

9

94.12

9

94.66

92.88

17

Voting Records

4 Arrhythmia

452

279

68.36

9

76.04

8

76.14

73.08

24

5 Anneal

798

38

92.86

6

91.28

6

92.68

90.06

10

92.46

45

6 Advertisements

3279

1558

94.60

19

92.90

18

92.86

Trung bình

86.22

87.96

88.09

86.57

91

IDS_IFW_AO

Hình 3.6. Độ chính xác phân lớp của 03 thuật toán

IDS_IFW_AO

Hình 3.7. Số thuộc tính tập rút gọn của 03 thuật toán

Kết quả ở Bảng 3.8 và Hình 3.6, Hình 3.7 cho thấy, trên tất cả các bộ dữ

liệu, số thuộc tính tập rút gọn và độ chính xác phân lớp của hai thuật toán theo

Tuy nhiên, số thuộc tính tập rút gọn của hai thuật toán filter-wrapper giảm thiểu

tiếp cận filter-wrapper (IDS_IFW_AO và IDS_FW_DAR) là tương đương nhau.

92

đáng kể so với thuật toán filter (đã được phân tích ở mục 3.1.5.5). Hơn nữa, độ

chính xác phân lớp của 02 thuật toán filter-wrapper cải thiện hơn so với thuật toán

filter.

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ

tập thuộc tính

Phần này xây dựng thuật toán gia tăng filter-wrapper tìm tập rút gọn của

bảng quyết định không đầy đủ trong trường hợp bổ sung và loại bỏ tập thuộc

tính điều kiện sử dụng độ đo khoảng cách đề xuất trong Chương 2.

Định nghĩa 3.2. Cho bảng quyết định không đầy đủ .

Giả sử R là tập rút gọn của IDS và là tập thuộc tính được bổ sung vào C

hoặc loại bỏ từ C. Khi đó, phương pháp tính toán sự thay đổi của R khi bổ sung

hoặc loại bỏ được gọi là phương pháp gia tăng tìm tập rút gọn của bảng

quyết định mới hoặc .

Để xây dựng các thuật toán gia tăng tìm tập rút gọn theo phương pháp

gia tăng theo Định nghĩa 3.2 ở trên, trước hết luận án xây dựng công thức tính

toán các độ đo khoảng cách khi bổ sung và loại bỏ tập thuộc tính điều kiện.

Dựa trên các công thức cập nhật khoảng cách được xây dựng, luận án trình

bày kết quả đề xuất thuật toán gia tăng filter-wrapper hiệu quả.

3.2.1. Công thức cập nhật khoảng cách khi bổ sung tập thuộc tính

Cho bảng quyết định không đầy đủ với

và , tương ứng là ma trận dung sai trên C và

d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính C và

được xác định như sau:

93

Mệnh đề 3.7. Cho bảng quyết định không đầy đủ với

. Giá sử tập thuộc tính điều kiện B được bổ sung vào C với

. Đặt là ma trận dung sai trên B. Khi đó ta có:

1) Nếu với mọi i=1..n, j=1..n (hay ) thì

2) Nếu với mọi i=1..n, j=1..n (hay ) thì

.

3) Trường hợp còn lại,

Chứng minh. Từ Mệnh đề 2.3 tính độ đo khoảng cách, ta có:

Dễ thấy rằng, nếu với mọi i=1..n, j=1..n thì

và nếu

với mọi i=1..n, j=1..n thì .

3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập

thuộc tính

Từ công thức gia tăng tính khoảng cách trong Mệnh đề 3.7 ta có Mệnh

đề 3.8 sau đây:

94

Mệnh đề 3.8. Cho bảng quyết định không đầy đủ với

và là tập rút gọn dựa trên khoảng cách. Giá sử tập

thuộc tính điều kiện B được bổ sung vào C với . Đặt

là ma trận dung sai trên B. Khi đó, nếu với mọi i=1..n, j=1..n thì R là

tập rút gọn của

Chứng minh.

Nếu với mọi i=1..n, j=1..n, từ Mệnh đề 3.7 ta có:

. Do R là tập rút gọn của IDS nên

Từ đó ta có: R là tập rút gọn của

.

Ý tưởng của thuật toán gia tăng theo hướng tiếp cận kết hợp filter-

wrapper bao gồm hai giai đoạn. Trong giai đoạn filter (giống như tiếp cận

truyền thống), thuật toán tìm các ứng viên của tập rút gọn, là các tập thuộc

tính khi lần lượt bổ sung vào các thuộc tính có độ quan trọng lớn nhất. Trong

giai đoạn wrappper, ta sử dụng một bộ phân lớp để tính độ chính xác phân lớp

trên từng ứng viên của tập rút gọn và lựa chọn ứng viên có độ chính xác phân

lớp tốt nhất làm tập rút gọn. Như vậy, với cách tiếp cận này, ta phải trả giá về

thời gian tính toán độ chính xác phân lớp trong giai đoạn wrapper. Tuy nhiên,

tập rút gọn thu được có thể có số thuộc tính nhỏ hơn, do đó tập luật phân lớp

trên tập rút gọn sẽ có hiệu quả cao hơn về thời gian thực hiện và độ chính xác.

Trong bối cảnh tăng trưởng không ngừng của dữ liệu lớn (Big Data), các bảng

quyết định ngày càng có số thuộc tính rất lớn và chúng luôn thay đổi, cập

nhật. Việc tìm kiếm tập rút gọn có số thuộc tính nhỏ nhất đặc biệt quan trọng.

Do đó, chi phí về mặt thời gian để có tập rút gọn giảm thiểu số lượng thuộc

95

tính nhằm thu được tập luật hiệu quả là chấp nhận được.

Dựa trên Mệnh đề 3.8, thuật toán gia tăng filter-wrapper tìm tập rút gọn

trong bảng quyết định không đầy đủ sử dụng khoảng cách khi bổ sung tập

thuộc tính B như sau:

Thuật toán IDS_IFW_AA: Thuật toán gia tăng filter- wrapper tìm tập rút gọn khi bổ sung tập thuộc tính. Đầu vào:

với 1) Bảng quyết định không đầy đủ

, tập rút gọn

, các ma trận dung cách , khoảng sai

;

; 2) Tập thuộc tính bổ sung B với

; //Chứa các ứng viên tập rút gọn

; Đầu ra: Tập rút gọn của Bước 1: Khởi tạo 1. 2. Tính ma trận dung sai

Bước 2: Kiểm tra tập thuộc tính bổ sung then Return ; với mọi 3. If

Bước 3: Thực hiện thuật toán tìm tập rút gọn

do

do

bởi công thức cập // Giai đoạn filter, tìm các ứng viên cho tập rút gọn xuất phát từ tập R. 4. While 5. Begin 6. For each 7. Begin 8. Tính

nhật khoảng cách ở Mệnh đề 3.7;

;

sao cho ; 9. Tính 10. End; 11. Chọn

;

12. ; 13. 14. End;

96

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất 15. Đặt

//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là

;

16. Đặt 17. For j = 1 to t 18. Begin 19. Tính độ chính xác phân lớp trên

bằng một bộ phân lớp sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp lớn 20. End 21.

nhất. 22. Return ;

Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_AA. Ký hiệu

tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính

điều kiện bổ sung thêm. Ở câu lệnh 2, độ phức tạp tính ma trận dung sai

. Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh là

3 (tập rút gọn không thay đổi). Khi đó, độ phức tạp thuật toán IDS_IFW_AA

là .

Ngược lại xét vòng lặp While từ câu lệnh 4 đến 14, để tính ta

phải tính vì đã được tính ở bước trước. Độ

phức tạp tính gia tăng . Do đó, ở câu lệnh số 8 là

độ phức tạp của vòng lặp While là và độ phức tạp của giai đoạn filter

trong trường hợp xấu nhất là . Độ phức tạp của giai đoạn wrapper

phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp

của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là

97

. Vì vậy, độ phức tạp của thuật toán IDS_IFW_AA là

. Nếu thực hiện thuật toán không gia tăng filter-wrapper

trực tiếp trên bảng quyết định có số thuộc tính , độ phức tạp là

. Do đó, thuật toán gia tăng IDS_IFW_AA

giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong trường hợp

nhỏ.

Tiếp theo, sẽ trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng

khoảng cách khi loại bỏ tập thuộc tính theo hướng tiếp cận tính toán gia tăng.

Trước hết, ta xây dựng các công thức cập nhật khoảng cách khi loại bỏ tập

thuộc tính.

3.2.3. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính

Cho bảng quyết định không đầy đủ với

và , tương ứng là ma trận dung sai trên C và

d. Theo Mệnh đề 2.3 ở Chương 2, khoảng cách giữa hai tập thuộc tính C và

được xác định như sau:

với Mệnh đề 3.9. Cho bảng quyết định không đầy đủ

và . Giá sử tập thuộc tính điều kiện B loại bỏ khỏi C với

tương là tập thuộc tính còn lại. Đặt và

ứng là ma trận dung sai trên B và . Khi đó,

với các phần tử của ma trận

được tính như sau:

98

1) Nếu thì với i=1..n, j=1..n

2) Nếu và thì với i=1..n, j=1..n

3) Nếu và thì và nếu nếu

với i=1..n, j=1..n.

Chứng minh. Dễ thấy rằng:

1) Do nên , từ ta có .

2) Do , nếu và thì

3) Theo định nghĩa ma trận dung sai, nếu thì , nếu

thì

Mệnh đề 3.9 cho phép tính toán khoảng cách dựa vào các

ma trận dung sai đầu vào , . Trong trường hợp ma

trận chứa nhiều phần tử bằng 1 (Phủ sinh bởi C là thô) thì công

thức tính bởi Mệnh đề 3.9 là hiệu quả.

3.2.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ

tập thuộc tính

Dựa trên Mệnh đề 3.9, thuật toán gia tăng filter-wrapper tìm tập rút gọn

trong bảng quyết định không đầy đủ sử dụng khoảng cách khi loại bỏ tập

thuộc tính B như sau:

Thuật toán IDS_IFW_DA: Thuật toán gia tăng filter- wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính.

với Đầu vào: 1) Bảng quyết định không đầy đủ

, tập rút gọn

, các ma trận dung , khoảng cách sai

;

; 2) Tập thuộc tính B loại bỏ khỏi C với

99

Đầu ra: Tập rút gọn của 1) Trường hợp 1: Tập thuộc tính bị loại bỏ B không thuộc tập rút gọn (các thuộc tính dư thừa), tập rút gọn không thay đổi. Nếu thì Retturn (R);

2) Trường hợp 2: Tập thuộc tính bị loại bỏ B chứa tập rút gọn R, khi đó thực hiện lại thuật toán filter-wrapper IDS_FW_DAR ở Chương 2 tìm tập rút gọn. Nếu thì thực hiện thuật toán IDS_FW_DAR;

, thực 3) Trường hợp 3: Trường hợp còn lại

hiện các bước của thuật toán tìm tập rút gọn.

Bước 1: Khởi tạo 1. Đặt ; // Chứa các ứng viên tập rút gọn

, tính ma trận 2. Tính ma trận dung sai

dung sai bởi công thức trong Mệnh đề

3.9.

//Xét các thuộc tính trong tập rút

3. Đặt gọn

Bước 2: Thực hiện thuật toán tìm tập rút gọn

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn xuất phát từ tập R.

do

do

bởi 4. While 5. Begin 6. For each 7. Begin 8. Tính khoảng cách

công thức trong Mệnh đề 3.9;

9. Tính

sao cho ; 10. End; 11. Chọn

;

12. ; 13. 14. End;

100

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất 15. Đặt

//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là

;

16. Đặt 17. For j = 1 to t 18. Begin 19. Tính độ chính xác phân lớp trên

bằng một bộ phân lớp sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp lớn 20. End 21.

nhất. 22. Return ;

Tiếp theo, ta đánh giá độ phức tạp của thuật toán IDS_IFW_DA. Ký hiệu

tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính

điều kiện xóa khỏi C.

Trường hợp tốt nhất, thuật toán rơi vào Trường hợp 1, nghĩa là tập rút

gọn không thay đổi.

Trường hợp xấu nhất, thuật toán rơi vào Trường hợp 2, thực hiện lại

thuật toán IDS_FW_DAR ở Chương 2 tìm tập rút gọn trên bảng quyết định

sau khi xóa tập thuộc tính B với độ phức tạp là: .

Ta xét độ phức tạp trong trường hợp còn lại (Trường hợp 3). Xét vòng

lặp While từ câu lệnh 4 đến 14, để tính ta phải tính

vì đã được tính ở bước trước. Độ phức

tạp tính . Do đó, độ phức ở câu lệnh số 8 là

101

tạp của vòng lặp While là và độ phức tạp của giai đoạn filter là

. Độ phức tạp của giai đoạn wrapper phụ thuộc vào độ phức tạp

của bộ phân lớp được sử dụng. Giả sử độ phức tạp của bộ phân lớp là ,

khi đó độ phức tạp của giai đoạn wrapper là . Vì vậy, độ phức tạp

của thuật toán IDS_IFW_DA là . Nếu thực hiện

thuật toán không gia tăng filter-wrapper trực tiếp trên bảng quyết định có số

thuộc tính , độ phức tạp là . Do đó, với

Trường hợp 3 thì thuật toán IDS_IFW_DA hiệu quả. Nếu R càng nhỏ thì

thuật toán IDS_IFW_DA càng hiệu quả. Nếu thuật toán rơi vào Trường hợp

2 (tính lại tập rút gọn) thì độ phức tạp thuật toán IDS_IFW_DA tương đương

thuật toán IDS_FW_DAR ở chương 2. Còn nếu thuật toán rơi vào Trường

hợp 1 thì thu được luôn tập rút gọn mà không phải tính toán gì cả.

3.2.5. Thực nghiệm và đánh giá các thuật toán

Trong phần này trình bày kết quả thực nghiệm nhằm đánh giá tính hiệu

quả của thuật toán gia tăng filter-wrapper IDS_IFW_AA đề xuất với thuật

toán gia tăng filter UARA [83] về số lượng thuộc tính tập rút gọn và độ chính

xác của mô hình phân lớp. UARA [83] là thuật toán gia tăng filter tìm tập rút

gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung tập thuộc

tính sử dụng miền dương. Việc thực nghiệm được thực hiện trên 06 tập dữ

liệu mẫu lấy từ kho dữ liệu UCI [118] được mô tả ở Bảng 3.10, đây là các tập

dữ liệu thiếu giá trị (missing value) trên miền giá trị thuộc tính điều kiện. Mỗi

tập thuộc tính điều kiện được chia ngẫu nhiên thành hai phần: tập thuộc tính

ban đầu (cột 4 Bảng 3.10) ký hiệu là C0, và tập thuộc tính gia tăng (cột 5

Bảng 3.10). Tập thuộc tính gia tăng được chia ngẫu nhiên thành 5 phần bằng

nhau, ký hiệu tương ứng là C1, C2, C3, C4, C5.

102

Bảng 3.10. Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA

STT

Tập dữ liệu

Số đối tượng

Số thuộc tính điều kiện (6)

Số thuộc tính ban đầu (4)

Số thuộc tính gia tăng (5)

Số lớp quyết định (7)

(1)

(2)

(3)

69

1 Audiology

226

34

35

24

35

2

Soybean -large

307

20

15

2

16

3

Cong. Voting

435

6

10

2

Records

279

4 Arrhythmia

452

139

140

16

38

5 Anneal

798

18

20

6

6 Advers.

778

780

2

3279

1558

Để tiến hành thực nghiệm hai thuật toán IDS_IFW_AA và UARA, trước

hết ta thực hiện hai thuật toán trên tập dữ liệu với tập thuộc tính ban đầu (coi

tập thuộc tính ban đầu là tập gia tăng). Tiếp theo, thực hiện hai thuật toán khi

lần lượt bổ sung từ phần thứ nhất đến phần thứ năm của tập thuộc tính gia

tăng.

Với các thuật toán filter-wrapper, việc lựa chọn bộ phân lớp trong giai

đoạn wrapper sẽ ảnh hưởng đến kết quả thực hiện của thuật toán về thời gian

thực hiện và độ chính xác phân lớp. Tuy nhiên, việc lựa chọn bộ phân lớp sẽ

không ảnh hưởng đến kết quả so sánh, đánh giá giữa các thuật toán khác vì

chúng đều thực hiện trên một bộ phân lớp cụ thể. Do đó, ta sử dụng bộ phân

lớp C4.5 để tính độ chính xác phân lớp của hai thuật toán và phương pháp

kiểm tra chéo 10-fold. Sở dĩ ta chọn bộ phân lớp C4.5 vì đây là bộ phân lớp

thông dụng, được sử dụng phổ biến trong các nghiên cứu khác khi so sánh,

đánh giá các phương pháp rút gọn thuộc tính.

Công cụ thực hiện thử nghiệm là Matlab R2016a. Môi trường thử

nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) 2 i3-2120 CPU, 3.3

GHz và 4 GB bộ nhớ.

103

Bảng 3.11 trình bày kết quả so sánh về số lượng thuộc tính tập rút gọn

(ký hiệu là ) và độ chính xác phân lớp của hai thuật toán IDS_IFW_AA và

UARA. Kết quả Bảng 3.11 cho thấy, với mỗi bước lặp khi bổ sung tập dữ

liệu gia tăng và trên toàn bộ tập dữ liệu, độ chính xác phân lớp của

IDS_IFW_AA cao hơn UARA một chút trên tất cả các tập dữ liệu. Hơn nữa,

số thuộc tính tập rút gọn của IDS_IFW_AA nhỏ hơn khá nhiều UARA, đặc

biệt trên tập rút gọn có số thuộc tính lớn như Arrhythmia, Advertisements. Do

đó, thời gian thực hiện và tính khái quát hóa của tập luật phân lớp trên tập rút

Bảng 3.11. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AA và UARA

gọn của IDS_IFW_AA tốt hơn so với UARA.

IDS_IFW_AA

STT Tập dữ liệu

Độ chính

Tập thuộc tính

Số thuộc tính

Tổng số thuộc tính

xác

UARA Độ chính xác

34

34

4

64.26

8

62.18

7

41

5

68.19

9

65.17

7

48

5

68.19

10

69.26

1

Audiology

7

55

6

72.36

12

72.35

7

62

7

78.26

14

74.18

7

69

15

78.02

7

78.26

20

20

4

82.34

8

81.16

3

23

4

82.34

8

81.16

3

26

5

86.92

9

82.08

2

Soybean –

large

3

29

5

86.92

10

85.14

3

32

7

90.27

11

90.26

3

35

12

92.18

8

92.85

104

IDS_IFW_AA

STT Tập dữ liệu

Độ chính

Tập thuộc tính

Số thuộc tính

Tổng số thuộc tính

xác

UARA Độ chính xác 81.04

6

6

4

81.36

5

2

8

5

86.24

7

85.52

Cong.

2

10

6

89.18

8

89.18

Voting

3

2

12

6

89.18

9

89.18

Records

2

14

7

91.15

11

90.29

2

16

12

93.68

8

94.06

139

139

5

62.14

9

62.86

28

167

6

69.27

14

68.15

28

195

7

70.48

16

69.84

4

Arrhythmia

28

223

7

70.48

17

69.84

28

251

9

71.37

24

70.92

28

279

25

75.68

10

76.24

18

18

3

68.24

5

68.24

4

22

4

72.46

7

71.62

4

26

4

72.46

7

71.62

5

Anneal

4

30

5

79.88

8

76.85

4

34

6

86.13

9

85.19

4

38

10

90.84

7

91.28

778

778

9

71.18

15

70.68

156

934

12

76.64

22

72.85

156

1090

15

79.14

29

78.94

6

Advers.

156

1246

19

86.18

35

83.17

156

1402

20

89.24

38

86.26

156

1558

44

91.46

21

92.85

Bảng 3.12 trình bày kết quả so sánh thời gian thực hiện hai thuật toán

IDS_IFW_AA và UARA (tính bằng giây - s). Kết quả Bảng 3.12 cho thấy,

105

thời gian thực hiện của IDS_IFW_AA cao hơn UARA trên tất cả các tập dữ

liệu, nguyên nhân là IDS_IFW_AA mất thêm chi phí thời gian thực hiện bộ

phân lớp trong giai đoạn wrapper, đây cũng là nhược điểm chung của các

Bảng 3.12. Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s)

thuật toán theo tiếp cận filter-wrapper.

UARA

IFWA_ IDS _AA

STT Tập dữ liệu

Tập thuộc tính

Số thuộc tính

Tổng số thuộc tính

Thời gian

Thời gian

Tổng thời gian 5.36

Tổng thời gian 4.28

34

34

5.36

4.28

7

41

0.48

0.39

4.67

5.84

7

48

0.45

0.41

5.08

6.29

1

Audiology

7

55

0.52

0.38

5.46

6.81

7

62

0.44

0.39

5.85

7.25

7

69

0.59

0.34

7.84

6.19

20

20

2.84

2.18

2.18

2.84

3

23

0.14

0.36

2.54

2.98

3

26

0.21

0.22

2.76

3.19

2

Soybean – large

3

29

0.16

0.15

2.91

3.35

3

32

0.33

0.21

3.12

3.68

3

0.28

0.16

3.96

35

3.28

6

6

4.12

3.08

3.08

4.12

2

8

0.54

0.54

3.62

4.66

2

10

0.32

0.43

4.05

4.98

3

2

12

0.63

0.54

4.59

5.61

Cong. Voting Records

2

14

0.51

0.53

5.12

6.12

2

0.72

0.56

6.84

16

5.68

139

139

24.68

24.68

20.78 20.78

4

28

167

3.04

2.06

22.84

27.72

Arrhythmia

28

195

3.24

2.33

25.17

30.96

28

223

3.69

2.89

28.06

34.65

28

251

2.07

2.06

30.12

36.72

28

2.12

1.16

38.84

279

31.28

106

UARA

IFWA_ IDS _AA

STT Tập dữ liệu

Tập thuộc tính

Số thuộc tính

Tổng số thuộc tính

Thời gian

Thời gian

18

18

6.84

Tổng thời gian 6.84

5.19

Tổng thời gian 5.19

4

22

0.48

7.32

0.55

5.74

4

26

0.43

7.75

0.55

6.29

5

Anneal

4

30

0.44

8.19

0.53

6.82

4

34

0.45

8.64

0.36

7.18

4

0.42

9.06

0.24

38

7.42

778

778

77.24

77.24

68.35 68.35

156

934

6.51

83.75

4.54

72.89

156

1090

6.09

89.84

5.35

78.24

6

Advers.

156

1246

6.13

95.97

4.94

83.18

156

1402

5.26

101.23

4.58

87.76

156

1558

5.55

106.78

4.52

92.28

3.3. Kết luận chương 3

Trong Chương 3, luận án trình bày kết quả xây dựng các công thức gia

tăng tính khoảng cách đề xuất ở Chương 2 trong trường hợp bổ sung, loại bỏ

tập đối tượng và bổ sung, loại bỏ tập thuộc tính. Dựa vào các công thức gia

tăng được xây dựng, luận án trình bày kết quả đề xuất bốn thuật toán gia tăng

tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi theo tiếp cận filter-

wrapper:

1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn

trong trường hợp bổ sung tập đối tượng.

2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường

hợp loại bỏ tập đối tượng.

3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn

trong trường hợp bổ sung tập thuộc tính.

107

4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn

trong trường hợp loại bỏ tập thuộc tính.

Luận án tiến hành thực nghiệm hai thuật toán đề xuất IDS_IFW_AO,

IDS_IFW_AA trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [118] để đánh giá

tính hiệu quả của thuật toán gia tăng đã đề xuất.

Trong trường hợp bổ sung tập đối tượng, thuật toán gia tăng filter-

wrapper đề xuất IDS_IFW_AO hiệu quả hơn thuật toán không gia tăng filter-

wrapper IDS_FW_DAR (được trình bày ở Chương 2) về thời gian thực hiện.

Với hướng tiếp cận truyền thống filter, số lượng thuộc tính tập rút gọn của

thuật toán IDS_IFW_AO nhỏ hơn đáng kể thuật toán filter IARM-I [86], hơn

nữa độ chính xác phân lớp của thuật toán IDS_IFW_AO cao hơn so với

IARM-I. Do đó, mô hình phân lớp trên tập rút gọn của thuật toán

IDS_IFW_AO hiệu quả hơn so với các thuật toán filter khác. Tuy nhiên, thuật

toán IDS_IFW_AO phải mất thêm chi phí về thời gian thực hiện do phải thực

hiện các bộ phân lớp.

Trong trường hợp bổ sung tập thuộc tính, số lượng thuộc tính tập rút gọn

của thuật toán gia tăng filter-wrapper IDS_IFW_AA cũng nhỏ hơn đáng kể

thuật toán gia tăng filter UARA [83]. Hơn nữa, độ chính xác phân lớp của

thuật toán IDS_IFW_AA cũng cao hơn so với UARA. Với trường hợp này,

mô hình phân lớp trên tập rút gọn của thuật toán IDS_IFW_AA cũng hiệu quả

hơn so với các thuật toán filter khác. Tuy nhiên, thuật toán IDS_IFW_AA

cũng phải trả giá về thời gian thực hiện do phải thực hiện các bộ phân lớp.

108

KẾT LUẬN

A. Các kết quả đạt được của luận án

Luận án nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn

của bảng quyết định không đầy đủ nhằm giảm thiểu số lượng thuộc tính tập rút

gọn, từ đó giảm thiểu độ phức tạp của mô hình phân lớp. Kết quả chính của luận

án bao gồm:

1. Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp

cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định

không đầy đủ sử dụng độ đo khoảng cách.

2. Xây dựng các công thức gia tăng tính khoảng cách mới và đề xuất 04

thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không

đầy đủ trong trường hợp bảng quyết định bổ sung, loại bỏ tập đối tượng và tập

thuộc tính (các thuật toán IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA,

IDS_IFW_DA)

3. Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán khác đã công bố trên các tập dữ liệu mẫu từ kho dữ liệu UCI [118].

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118] cho

thấy, các thuật toán đề xuất theo tiếp cận filter-wrapper IDS_FW_DAR đề

xuất giảm thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán

filter khác. Hơn nữa, các thuật toán gia tăng filter-wrapper duy trì và nâng

cao độ chính xác của mô hình phân lớp so với các thuật toán gia tăng filter.

Do đó, các thuật toán filter-wrapper đề xuất giảm thiểu đáng kể độ phức tạp

của mô hình phân lớp.

Tuy nhiên, nhược điểm chung của các thuật toán filter-wrapper đề xuất

là mất thêm chi phí về thời gian thực hiện các bộ phân lớp so với các thuật

toán filter khác. Với mục tiêu nâng cao hiệu quả của mô hình phân lớp thì

nhược điểm này có thể chấp nhận được vì rút gọn thuộc tính chỉ là bước tiền

xử lý trong quá trình xây dựng các mô hình khai phá dữ liệu.

109

B. Những đóng góp mới của luận án

1. Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp

cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định

không đầy đủ sử dụng độ đo khoảng cách.

2. Xây dựng các công thức gia tăng tính khoảng cách mới và đề xuất 04

thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không

đầy đủ trong trường hợp bảng quyết định bổ sung, loại bỏ tập đối tượng và tập

thuộc tính (các thuật toán IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA,

IDS_IFW_DA).

C. Hướng nghiên cứu tiếp theo

1. Triển khai các thuật toán đề xuất vào việc giải quyết các lớp bài toán

trong thực tiễn, đặc biệt các bài toán có dữ liệu với số thuộc tính lớn (high

dimention data) trong các lĩnh vực khác nhau như dữ liệu gen trong tin sinh

học…

2. Tiếp tục nghiên cứu, đề xuất các thuật toán gia tăng filter-wrapper

hiệu quả nhằm giảm thiểu thời gian thực hiện dựa trên các mô hình tập thô

mở rộng khác phù hợp với các lớp bài toán trong thực tiễn.

110

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 1

2

3

4

5

Nguyen Ba Quang, Nguyen Long Giang, Dang Thi Oanh “A Distance based Incremental Filter-Wrapper Algorithm for Fingding Reduct in Incomplete Decision Tables”, Vietnam Journal of Science and Technology - Vietnam Academy of Science and Technology, Vol 57, No 4, 2019, pp. 499-512. Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thái Bình, 28-29/06/2019, Tr. 246-252. Nguyễn Bá Quảng, Nguyễn Long Giang, Nguyễn Thị Lan Hương, Nguyễn Ngọc Cương, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thái Bình, 28-29/06/2019, Tr. 253-259. Phạm Minh Ngọc Hà, Nguyễn Long Giang, Nguyễn Văn Thiện, Nguyễn Bá Quảng, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ”, Chuyên san các công trình nghiên cứu phát triển CNTT&TT, Tạp chí Công nghệ thông tin và truyền thông - Bộ TT&TT, Tập 2019, Số 1, Tháng 9, Tr. 11-18. Nguyễn Bá Quảng, Nguyễn Long Giang, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung tập thuộc tính”, Tạp chí Nghiên cứu KH&CN Quân sự, Số 63, 10-2019, Tr. 171-183.

111

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1] Vũ Văn Định, “Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai”, Luận án Tiến sĩ Toán học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2016.

[2] Nguyễn Thị Lan Hương, “Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Học viện Khoa học và Công nghệ-Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2016.

[3] Nguyễn Văn Thiện, “Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ”, Luận án Tiến sĩ Máy tính, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 2018.

[4] Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc của CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr. 296- 302.

Tiếng Anh:

[5] A.K. Das, S. Sengupta, S. Bhattacharyya, “A Group Incremental Feature Selection for Classification using Rough Set Theory based Genetic Algorithm”, Applied Soft Computing 65, pp. 400-411, 2018.

[6] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set approach for incremental feature selection on hybrid information systems”, Fuzzy Sets and Systems, Volume 258, pp. 39-60, 1 January 2015.

[7] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating fuzzy rough approximations for hybrid data under the variation of attribute values”, Information Sciences 000, pp. 1-26, 2016.

112

[8] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi, “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28, 2016.

[9] C. C. Zhang, J. H. Dai, “An incremental attribute reduction approach based on knowledge granularity for incomplete decision systems”, Granular Computing, pp. 1-15, 2019.

[10] C.J. Yang, H. Ge, L.S. Li, J. Ding, “A unified incremental reduction with the variations of the object for decision tables”, Soft Computing, Vol. 23, Iss. 15, pp. 64076427, 2019.

[11] C. Luo, T. R. Li and H. M. Chen, “Dynamic maintenance of approximations in setvalued ordered decision systems under the attribute generalization”, Information Sciences 257, pp. 210 - 228, 2014.

[12] C. Luo, T.R. Li, H.M. Chen, H. Fujita, Z. Yi, “Efficient updating of probabilistic approximations with incremental objects”, Knowledge-Based Systems 109, pp. 71-83, 2017.

[13] C. Luo, T.R. Li, Y. Yao, “Dynamic probabilistic rough sets with

incomplete data”, Information Sciences 417, pp. 39–54, 2017.

[14] C. Luo, T.R. Li, Y.Y. Huang, H. Fujita, “Updating three-way decisions in incomplete multi-scale information systems”, Information Sciences 476, pp. 274-289, 2019.

[15] C.X. Hu, S.X. Liu, G.X. Liu, “Matrix-based approaches for dynamic updating approximations in multigranulation rough sets”, Knowl Based Syst 122, pp. 51-63, 2017.

[16] C.Z. Wang, Y. Qi, Q. He, Attribute reduction using distance-based fuzzy rough sets, 2015 International Conference on Machine Learning and Cybernetics , IEEE, 2015.

[17] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, Fuzzy rough set-based attribute reduction using distance measures, Knowledge-Based Systems, Volume 164, 15 January 2019, pp. 205-212.

113

[18] D.D. Zhang, R.P. Li, X.T. Tang, Y.S. Zhao, “An incremental reduct algorithm based on generalized decision for incomplete decision tables”, IEEE 3rd International Conference on Intelligent System and Knowledge Engineering, pp. 340-344, 2008.

[19] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long Giang, “Metric Based Attribute Reduction Method in Dynamic Decision Tables”, Cybernetics and Information Technologies, Vol.16, No.2, pp. 3- 15, 2016.

[20] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp. 129-149, 2016.

[21] D. Liu, T.R. Li, D. Ruan, W.L. Zou, “An incremental approach for inducing knowledge from dynamic information systems”, Fundam. Inform. 94, pp. 245-260, 2009.

[22] D. Liu, T.R. Li, G.R. Liu, P. Hu, “An incremental approach for inducing interesting knowledge based on the change of attribute values”, in: Proceedings of the2009 IEEE International Conference on Granular Computing, Nanchang, China, pp.415–418, 2009.

[23] D. Liu, T.R. Li, J.B. Zhang, “A rough set-based incremental approach for learning knowledge in dynamic incomplete information systems”, International Journal of Approximate Reasoning 55, pp. 1764-1786, 2014.

[24] D. Liu, T.R. Li, J.B. Zhang, “Incremental updating approximations in probabilistic rough sets under the variation of attributes”, Knowledge- Based Systems 73, pp. 81-96, 2015.

[25] D.X. Peng, X.D. Hong, “Research on Heuristic Knowledge Reduction International Incomplete Decision Table”, IEEE for

Algorithm Conference on Internet Technology and Applications, 2010.

[26] D. Yue, Z. Xu, C.D. Mei, W.Y. Mei, “Analysis of Attribute Reduction of Incomplete Decision Table Based on Information Entropy”, 8th International Conference on Intelligent Computation Technology and Automation (ICICTA), 2015.

114

[27] F. Hu, G. Wang, H. Huang, “Incremental attribute reduction based on elementary sets”, International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, Springer-Verlag, pp.185-193, 2005.

[28] F.M. Ma, J.W. Chen, W. Han, “A Positive Region Based Incremental Attribute Reduction Algorithm for Incomplete System”, International Conference on Electronic Information Technology and Intellectualization (ICEITI 2016), pp. 153-158, 2016.

[29] F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix for attribute reduction in incomplete information systems”, The Journal of China Universities of Posts and Telecommunications, Volume 24, Issue 4, pp. 57-75, 2017.

[30] F.M. Ma, M.W. Ding , T.F. Zhang, J. Cao, “Compressed binary discernibility matrix based incremental attribute reduction algorithm for group dynamic data”, Neurocomputing, 2019.

[31] F. Wang, J.Y. Liang, C.Y. Dang, “Attribute reduction for dynamic data

sets”, Applied Soft Computing, 13(1), pp. 676-689, 2013.

[32] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, pp. 95- 108, 2013.

[33] G. Hao, L.L. Shu, Y.C. jian, D. Jian, “Incremental reduction algorithm with acceleration strategy based on conflict region”, Artif Intell Rev, Springer, 2017.

[34] G.M. Lang, D.Q. Miao, T. Yang, M.J. Cai, “Knowledge reduction of dynamic covering decision information systems when varying covering cardinalities”, Information Sciences 346-47, pp. 236-260, 2016.

[35] G.M. Lang, Q. Li, M.J. Cai, T. Yang, Q.M. Xiao, Incremental approaches to knowledge reduction based on characteristic matrices, Int. J. Mach. Learn. Cybern. 8 (1) pp. 203-222, 2017.

[36] G.M. Lang, D.Q. Miao , M.J. Cai, Z.F. Zhang, “ Incremental approaches information systems, in dynamic covering

for updating reducts Knowledge Based Systems 134, pp. 85..104, 2017.

115

[37] G.M. Lang, M.J. Cai, H. Fujita, Q.M. Xiao, “Related families- based attribute reduction of dynamic covering decision information systems”, Knowledge-Based Systems, Volume 162, 15 December, pp. 161-173, 2018.

[38] G. Q. Wang, “Valid Incremental Attribute Reduction Algorithm Based on Attribute Generalization for an Incomplete Information System”, Chinese Journal of Electronics, Vol.28, No.4, 2019.

[39] Guyon, Isabelle; Elisseeff, André, “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research, pp. 1157- 1182, 2003.

[40] H. Liu, L. Yu, “Toward integrating feature selection algorithms for classification and clustering”, IEEE Transactions on knowledge and data engineering, 17(4), pp. 491-502, 2005.

[41] H.M. Chen, T.R. Li, S.J. Qiao, D. Ruan, “A rough set based dynamic maintenance approach for approximations in coarsening and refining attribute values”, Int. J. Intell. Syst. 25, pp. 1005-1026, 2010.

[42] H.M. Chen, T.R. Li, R. Da, “Maintenance of approximations in incomplete ordered decision systems while attribute values coarsening or refining”, Knowl.-Based Syst. 31, pp. 140-161, 2012.

[43] H.M. Chen, T.R. Li, R. Da, et al., “A rough-set-based incremental approach for updating approximations under dynamic maintenance environments”, IEEE Trans. Knowl. Data Eng. 25, pp. 274-284, 2013.

[44] H. M. Chen, T. R. Li, D. Ruan, J. H. Lin and C. X. Hu, “A rough-set based incremental approach for updating approximations under dynamic maintenance environments”, IEEE Transactions on Knowledge and Data Engineering. 25 (2), 274 - 284, 2013.

[45] H.S. Zou, C.S. Zhang, “Efficient Algorithm for Knowledge Reduction Information System”, Journal of Computational Incomplete

in Information Systems 8: 6, pp. 2531–2538, 2012.

[46] Huyen Tran, Thinh Cao, Koichi Yamada, Do Van Nguyen, “Incremental Updating Methods with Three-way Decision Models in Incomplete

116

Information Systems”, IEEE Joint 10th International Conference on Soft Computing and Intelligent Systems, pp. 27-32, 2018.

[47] H.X. Li, X.H. Zhou, M.M. Zhu, “A Heuristic Reduction Algorithm in

IIS Based on Binary Matrix”, RSKT, pp. 143-150, 2010.

[48] H. Zhao, K.Y. “Mixed feature Qin,

selection in incomplete decision table” Knowledge-Based Systems, Volume 57, pp. 181-190, 2014.

[49] J.C. Xu, L. Sun, “Knowledge Entropy and Feature Selection in Incomplete Decision Systems,” Applied Mathematics & Information Sciences, vol. 7, no. 2, pp. 829-837, 2013.

[50] J.H. Dai, W.T. Wang, H.W. Tian, L. Liu, “Attribute selection based on a new conditional entropy for incomplete decision systems”, Knowledge- Based Systems, Volume 39, pp. 207-213, 2013.

[51] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete

Decision Information System”, IJCRS 2017, pp 289-305, 2017.

[52] J. Qian, C.Y. Dang, X.D. Yue, N. Zhang, “Attribute reduction for sequential three-way decisions under dynamic granulation”, International Journal of Approximate Reasoning 85(2017) 196-216.

[53] J. Xie, X.F. Shen, H.F. Liu, X.Y. Xu, “Research on an Incremental Attribute Reduction Based on Relative Positive Region”, Journal of Computational Information Systems 9:16, pp. 6621-6628, 2013.

[54] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp. 126-136, 2012.

[55] J.Y. Liang, F. Wang, C.Y. Dang, Y.H. Qian, “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 26(2), pp. 294-308, 2014.

[56] J. Yu, L. Sang, H. Dong, “Based on Attribute Order for Dynamic Attribute Reduction in the Incomplete Information System”, IEEE IMCEC 2018, pp. 2475-2478, 2018.

117

[57] J. Zhou, E. Xu, Y.H. Li, Z. Wang, Z.X. Liu, X.Y. Bai , “A New Attribute Reduction Algorithm Dealing With The Incomplete Information System”, 2009 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 2009.

[58] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic attribute variation in set-valued information systems”, Int. J. Approx. Reason, Vol.53, pp. 620-635, 2012.

[59] L.H Guan, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, pp. 421- 425, 2009.

[60] L.N. Wang , X. Yang , Y. Chen , L. Liu , S.Y. An , P. Zhuo , “Dynamic composite decision-theoretic rough set under the change of attributes”, Int. J. Comput. Intell.Syst. 11 (2018) 355–370 .

[61] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.

[62] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol. 8170, pp. 99-110, 2013.

[63] Long Giang Nguyen, Thien Nguyen, Nhu Son Nguyen , “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS 2018: International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103, Springer Link, 2018, pp. 614-627.

[64] L. Sun, J.C. Xu, Y. Tian, “Feature selection using rough entropy-based uncertainty measures in incomplete decision systems”, Knowledge-Based Systems, Volume 36, pp. 206-216, 2012.

[65] M.J. Cai, Q.G. Li, J.M. Ma, “Knowledge reduction of dynamic covering decision information systems caused by variations of attribute values”,

118

International Journal of Machine Learning and Cybernetics 8(4), pp. 1131-1144, 2017.

[66] M.J. Cai, G.M. Lang, H. Fujita, Z.Y. Li, T. Yang, Incremental approaches to updating reducts under dynamic covering granularity, Knowledge-Based Systems, 2019.

[67] M. Kryszkiewicz (1998), “Rough set approach to incomplete

information systems”, Information Science, Vol. 112, pp. 39-49.

[68] M.S. Raza,U. Qamar,

“An incremental dependency calculation technique for feature selection using rough sets”, Information Sciences 343–344, pp. 41–65, 2016.

[69] Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and Applications (FAIA), Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.

[70] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based on metric for finding reduct in dynamic decision tables”, Journal on Research and Development on Information & Communications Technology, Vol.E-3, No.9 (13), pp. 26-39, 2016.

[71] R.P. Li, D.D. Zhang, Y.S. Zhao, X.T. Tang, “Incremental Core Computing for Incomplete Decision Tables, International Symposium on Computational Intelligence and Design”, IEEE ISCID, pp. 270-273, 2008.

[72] Sai Prasad P.S.V.S, Raghavendra Rao Chillarige,

Novel Granular Framework for Attribute Reduction in Incomplete Decision Systems, Multi-disciplinary Trends in Artificial In Artificial Intelligence, 2012.

[73] S. Li, T. Li, D. Liu, “Incremental updating approximations in dominance-based rough sets approach under the variation of the attribute set”, Knowledge-Based Systems, Vol.40, pp. 17-26, 2013.

[74] S. Li, T. Li, “Incremental update of approximations in dominance-based rough sets approach under the variation of attribute values”, Inf. Sci. 294, pp.348-361, 2015.

119

[75] S. Wang , T. Li , C. Luo , H. Fujita , Efficient updating rough approximations with multi-dimensional variation of ordered data, Inf. Sci. 372, pp. 690-708, 2016.

[76] T.R. Li, D. Ruan, W. Geert, J. Song, Y. Xu, A rough sets based characteristic relation approach for dynamic attribute generalization in data mining, Knowl.-Based Syst. 20, pp. 485-494, 2007.

[77] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing 7 (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp. 375-388.

[78] Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition Distance Based Attribute Reduction in Incomplete Decision Tables”, Journal on Information Communications Technology, Research and Development on Information & Communications Technology, Vol. V-2, No. 14(34), pp. 23-32, 12-2015.

[79] W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection from incomplete data”, Neurocomputing, Volume 168, pp. 210- 220, 2015.

Information System”, for

[80] W.D. Tan, E. Xu, F. Shi, Y.C. Ren, L.J. Fan, “A Novel Method of Attribute Reduction IEEE Incomplete International Conference on Innovative Computing and Communication, pp. 352-354, 2010.

[81] W.H. Shu, H. Shen, “Incremental Attribute Reduction in Incomplete Decision systems”, IEEE Fifth International Symposium on Parallel Architectures, Algorithms and Programming, pp. 250-254, 2012.

[82] W.H. Shu, H. Shen, “A rough-set based incremental approach for updating attribute reduction under dynamic incomplete decision systems”, IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), pp. 1-7, 2013.

120

[83] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision systems with the variation of attribute set”, International Journal of Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.

[84] W.H. Shu, H. Shen, “Incremental feature selection based on rough set in dynamic incomplete data”, Pattern Recognition 47, pp.3890-3906, 2014.

[85] W.H. Shu, W.B. Qian, “A fast approach to attribute reduction from incomplete decision systems”, in

perspective of attribute measures Knowledge-Based Systems, V.72, pp. 60-71, 2014.

[86] W.H. Shu, W.B. Qian, “An incremental approach to attribute reduction from dynamic incomplete decision systems in rough set theory”, Data & Knowledge Engineering 100, pp. 116-132, 2015.

[87] W.H. Shua, W.B. Qian, Y.H. Xie, “Incremental approaches for feature selection from dynamic data with the variation of multiple objects”, Knowledge-Based Systems, Volume 163, pp. 320-331, 2019.

[88] W.J. Liu, “An incremental approach to obtaining attribute reduction for dynamic decision systems”, Open Math 2016, 14, pp. 875–888, 2016.

[89] W. Wei, P. Song, J.Y. Liang, X.Y. Wu, “Accelerating incremental attribute table”, reduction algorithm by compacting a decision International Journal of Machine Learning and Cybernetics, Springer, 2018.

[90] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based incremental attribute reduction for dynamic data”, Knowledge- Based Systems, Volume 140, pp. 142-157, 15 January 2018.

[91] X. Guo, Y.Z. Xiang, L. Shu, “An Information Quantity-Based Uncertainty Measure to Incomplete Numerical Systems”, International Conference on Fuzzy Information & Engineering, pp. 23-29, 2019.

[92] X.J. Xie, X. L. Qin, “A novel incremental attribute reduction approach for dynamic incomplete decision systems”, International Journal of Approximate Reasoning 93, pp. 443-462, 2018.

[93] X.P. “Research Xiong, Dai, D.H. on

Heuristic Knowledge Reduction Algorithm for Incomplete Decision Table”, IEEE

121

2010 International Conference on Internet Technology and Applications, pp. 1-3, 2010.

[94] Xu E, Y.Q. Yang, Y.C. Ren, “A New Method of Attribute Reduction Based On Information Quantity in An Incomplete System”, JOURNAL OF SOFTWARE, VOL. 7, NO. 8, pp. 1881-1888, 2012.

[95] X. Yang, T.R. Li, D. Liu, H.M. Chen, C. Luo, “A unified framework of dynamic three-way probabilistic rough sets”, Information Sciences 420, pp. 126-147, 2017.

[96] X. Yang, T.R. Li, H. Fujita, D. Liu, Y.Y. Yao, “A unified model of sequential three-way decisions and multilevel incremental processing”, Knowledge-Based Systems 134, pp. 172-188, 2017.

[97] Y. Cheng, “The incremental method for fast computing the rough fuzzy

approximations”, Data Knowl. Eng. 70, pp. 84-100, 2011.

[98] Y.H. Qian, J.Y. Liang, D.Y. Li, F. Wang, N.N. Ma, “Approximation reduction in inconsistent incomplete decision tables”, Knowledge-Based Systems, Volume 23, Issue 5, pp. 427-433, 2010.

[99] Y.H. Qian, J.Y. Liang, W. Pedrycz, C.Y. Dang, “An efficient accelerator for attribute reduction from incomplete data in rough set framework”, Pattern Recognition 44, pp. 1658-1670, 2011.

[100] Y. Jing, T. Li, C. Luo, S.J. Horng, G. Wang, Z. Yu, “An incremental approach for attribute reduction based on knowledge granularity”, Knowledge-Based Systems, Vol.104, pp. 24-38, 2016.

[101] Y. Jing, T. Li, J. Huang, et al., “An incremental attribute reduction the attribute

approach based on knowledge granularity under generalization”, Int. J. Approx. Reason. 76, pp.80-95, 2016.

[102] Y. Jing, T. Li, H. Fujita, Z. Yu, B. Wang, An incremental attribute reduction approach based on knowledge granularity with a multi- granulation view, Information Sciences 411, pp. 23-38, 2017.

[103] Y. Jing, T. Li, J. Huang, H.M. Chen, S.J. Horng, “A Group Incremental Reduction Algorithm with Varying Data Values”, International Journal of Intelligent Systems 32(9), pp. 900-925, 2017.

122

[104] Y. Jing, T. Li, H. Fujita, B.L. Wang, N. Cheng, “An incremental attribute reduction method for dynamic data mining”, Information Sciences 465, pp. 202-218, 2018.

[105] Y. Li, Y.F. Jin, X.D. Sun, “Incremental method of updating approximations in DRSA under variations of multiple objects”, Int. J. Mach. Learn. & Cyber, 2015.

[106] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental Attribute Reduction Applying Dependency Measures”, APWeb-WAIM 2017: Web and Big Data, pp 484-492, 2017.

[107] Y. Tao, H.C. Zhao, “Entropy based attribute reduction approach table”, 20th International Conference on

for incomplete decision Information Fusion (Fusion), pp. 1-8, 2017.

[108] Y.Y. Huang, T.R. Li, C. Luo, H. Fujita, S.J. Horng, “Dynamic variable precision rough set approach for probabilistic set-valued information systems”, Knowledge-Based Systems 122, pp. 131-147,2017.

[109] Y.Y. Huang , T.R. Li , C. Luo , H. Fujita , S.J. Horng , Matrix-based dynamic updating rough fuzzy approximations for data mining, Knowl. Based Syst. 119, pp. 273-283, 2017.

[110] Y.Y. Yang, D.G. Chen, H. Wang, “Active Sample Selection Based Incremental Algorithm for Attribute Reduction With Rough Sets”, IEEE Transactions on Fuzzy Systems, 25(4), pp. 825–838, 2017.

[111] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough set based incremental attribute reduction from dynamic data with sample arriving”, Fuzzy Sets and Systems, Volume 312, 1, Pages 66-86, April 2017.

[112] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for feature selection based on fuzzy rough sets”, IEEE TRANSACTIONS ON FUZZY SYSTEMS, TFS-2016-0916, 27 June 2017.

[113] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data,

Kluwer Academic Publisher, London, 1991.

123

[114] Z.Q. Meng, Z.Z. Shi, “A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough sets”, Information Sciences, Vol. 179, pp. 2774-2793, 2009.

[115] Z.Q. Meng, Z.Z. Shi, “Extended rough set-based attribute reduction in inconsistent incomplete decision systems”, Information Sciences, Volume 204, pp. 44-69, 2012.

[116] Z.Y. Xu, B. Yang, W.H. Shu, "Efficient Algorithm for Attribute Reduction of Incomplete Information Systems Based on Assignment Matrix”, Fuzzy Information and Engineering, Volume 2, 2009.

[117] Z.Y. Xu, J.H. Zhou, C.G. Zhang, “A Quick Attribute Reduction Algorithm Based on Incomplete Decision Table”, Information Computing and Applications, 2013.

[118] The UCI machine learning repository.

http://archive.ics.uci.edu/ml/datasets.html.