BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ -----------------------------

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI - 2021

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ -----------------------------

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành : Khoa học máy tính

Mã số

: 9 48 01 01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS. Nguyễn Long Giang

HÀ NỘI - 2021

LỜI CẢM ƠN

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp

đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân. Đầu tiên, tác giả xin

bày tỏ lời tri ân tới PGS.TS Nguyễn Long Giang, Viện Công nghệ Thông tin, Viện

Hàn lâm Khoa học và Công nghệ Việt Nam người thầy đã tận tình hướng dẫn tác giả

hoàn thành luận án này.

Tác giả xin gửi lời cảm ơn sâu sắc đến thầy cô, bạn bè công tác tại Viện Công

nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ

và tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn

các thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp

ý chính xác để tác giả có được những công bố như ngày hôm nay.

Cảm ơn Học Viện Khoa học và Công nghệ Việt Nam đã tạo mọi điều kiện

thuận lợi để tác giả hoàn thành Luận án này.

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám hiệu trường Đại học Tây

Nguyên nơi tác giả công tác đã ủng hộ và tạo mọi điều kiện để tác giả hoàn thành luận

án đúng thời hạn.

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất vì

đã đồng hành cùng tác giả trong suốt thời gian qua. Con xin cảm ơn Cha, Mẹ và gia

đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luôn

mong mỏi cho con thành công; cảm ơn chồng và các anh chị em đã gánh vác công việc

gia đình thay cho em; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

mẹ học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp mẹ hoàn thành

được công việc khó khăn này.

Hà Nội, tháng 01 năm 2021

Hồ Thị Phượng

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoàn

thành dưới sự hướng dẫn của PGS.TS. Nguyễn Long Giang. Những kết quả trình bày

là mới và chưa từng được công bố ở các công trình của người khác.

Tôi xin chịu trách nhiệm về những lời cam đoan của mình.

Hà Nội, Ngày….tháng ….năm 2021

Nghiên cứu sinh

Hồ Thị Phượng

i

MỤC LỤC MỞ ĐẦU ........................................................................................................................................ 1

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ ........................................................................................................................................ 8

1.1. Tổng quan về rút gọn thuộc tính............................................................................... 8

1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính ................................... 10

1.3. Tổng quan về tập thô mờ ........................................................................................ 11

1.3.1. Bảng quyết định và quan hệ tương đương............................................................... 12

1.3.2. Quan hệ tương đương mờ ......................................................................................... 12

1.3.3. Ma trận tương đương mờ .......................................................................................... 14

1.3.4. Phân hoạch mờ ........................................................................................................... 14

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ ........... 17

1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô mờ............................................................ 17

1.4.2. Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ....................... 19

1.5. Tóm tắt các đóng góp của luận án .......................................................................... 23

1.6. Kết luận chương 1 .................................................................................................. 24

CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ ................. 25

2.1. Mở đầu .................................................................................................................... 25

2.2. Xây dựng khoảng cách giữa hai tập mờ ................................................................. 26

2.2.1. Độ đo khoảng cách mờ .............................................................................................. 27

2.2.2. Độ đo khoảng cách mờ và các tính chất .................................................................. 27

2.3. Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ .................................... 30

2.4. Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ ...................... 36

2.5. Thực nghiệm và đánh giá kết quả các thuật toán ................................................... 37

2.5.1. Mục tiêu thực nghiệm ................................................................................................ 37

2.5.2. Số liệu, phương pháp và môi trường thực nghiệm ................................................. 38

2.5.3. Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập

rút gọn ......................................................................................................................... 39

2.5.4. Kết quả so sánh thời gian thực hiện ......................................................................... 41

2.6. Kết luận Chương 2.................................................................................................. 42

ii

CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG ............................................. 44

3.1. Mở đầu .................................................................................................................... 44

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng ............. 47

3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng ............. 47

3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng ................... 50

3.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng ........... 71

3.4. Kết luận Chương 3.................................................................................................. 88

CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH .......................................... 90

4.1. Mở đầu .................................................................................................................... 90

4.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính .............. 93

4.2.1. Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính .................. 93

4.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập

thuộc tính ................................................................................................................. 94

4.2.3. Thực nghiệm và đánh giá thuật toán ........................................................................ 97

4.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính ............. 106

4.3.1. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính ................................ 106

4.3.2. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập

thuộc tính ................................................................................................................. 106

4.4. Kết luận Chương 4................................................................................................ 108

KẾT LUẬN ............................................................................................................................... 110

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ .................................................................. 111

TÀI LIỆU THAM KHẢO ...................................................................................................... 112

iii

DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Tập thô Rough Set

Tập thô mờ Fuzzy Rough Set

Hệ thông tin Information System

Bảng quyết định Decision Tables

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation

Phân hoạch mờ Fuzzy Partition

Ma trận tương đương mờ Fuzzy Equivalence Matrix

Lớp tương đương mờ Fuzzy equivalence Classes

Xấp xỉ dưới mờ Fuzzy Lower Approximation

Xấp xỉ trên mờ Fuzzy Upper Approximation

Rút gọn thuộc tính Attribute Reduction

Tập rút gọn Reduct

Phương pháp gia tăng Incremental Methods

Khoảng cách mờ Fuzzy Distance

Hàm thuộc mờ Fuzzy Dependency Function

Lọc Filter

Đóng gói Wrapper

iv

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT

Ký hiệu, từ viết tắt Diễn giải

Bảng quyết định

Số đối tượng

Số thuộc tính điều kiện trong bảng quyết định

Giá trị của đối tượng tại thuộc tính

Quan hệ tương đương trên B

Phân hoạch của U trên P

Lớp tương đương chứa của phân hoạch

.

Quan hệ tương đương mờ Quan hệ tương đương mờ 𝑅̃ trên tập thuộc tính P Ma trận tương đương mờ của 𝑅̃𝑃 Phân hoạch mờ trên 𝑅̃𝑃

Lớp tương đương mờ của thuộc phân hoạch mờ

Lực lượng lớp tương đương mờ

Tập xấp xỉ dưới mờ của đối với

Tập xấp xỉ trên mờ của đối với

Khoảng cách mờ giữa hai phân hoạch mờ và

v

DANH MỤC CÁC BẢNG

Bảng 1.1 Bảng quyết định của Ví dụ 1.1 ...................................................................... 16

Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ. .............................................................. 18

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ. .............................................................. 21

Bảng 2.1 Bảng quyết định của Ví dụ 2.2 ...................................................................... 33

Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR ............................................ 38

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn............................ 39

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR ................................... 41

Bảng 3.1 Bảng quyết định của Ví dụ 3.1 ...................................................................... 48

Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1 ............................ 49

Bảng 3.3 Bảng quyết định của Ví dụ 3.2 ...................................................................... 51

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng .......................... 52

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng ............................................. 59

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA (tính bằng giây) .................................................................. 60

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các thuật toán

IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA .................................. 65

Bảng 3.8 Bảng quyết định của Ví dụ 3.3 ...................................................................... 72

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3 .......................... 74

Bảng 3.10 Bảng quyết định của Ví dụ 3.4 .................................................................... 76

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4 ..................... 78

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng ....................................................... 83

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD ............. 84

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD ....... 86

Bảng 4.1 Bộ dữ liệu thử nghiệm ................................................................................... 98

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của

IFW_FDAR_AA và FRSA-IFS-HIS(AA) .................................................................... 99

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA) ........... 103

vi

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1 Quy trình rút gọn thuộc tính ......................................................................... 10

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính .............................. 11

Hình 2.1 Độ chính xác phân lớp của ba thuật toán ...................................................... 40

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán ......................................... 41

Hình 2.3 Thời gian thực thiện của ba thuật toán........................................................... 42

Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA ............................................................................................. 64

Hình 3.2 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-

FS-FRS-2 IARM, ASS-IAR và IFSA ........................................................................... 71

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD ............... 86

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và

IFSD ............................................................................................................................... 88

Hình 4.1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA) ...................................................................................................................... 103

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA) ...................................................................................................................... 105

1

MỞ ĐẦU

1. Tính cấp thiết

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá

trình khai phá tri thức từ dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc

tính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá

dữ liệu. Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất

của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phân

lớp của bảng quyết định, gọi là tập rút gọn (reduct). Kết quả rút gọn thuộc tính ảnh

hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải

thiện chất lượng, tính dễ hiểu của các kết quả thu được. Cho đến nay, có hai hướng

tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper).

Cách tiếp cận fifter thực hiện việc lựa chọn thuộc tính độc lập với thuật toán khai phá

sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong

việc mô tả dữ liệu. Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng

cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để

lựa chọn các tập con thuộc tính.

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là

công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định

gốc không qua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hình

phân lớp. Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

đã được đề xuất, điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], các

phương pháp sử dụng miền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7,

8, 9], các phương pháp sử dụng khoảng cách mờ [10, 11, 12] và một số phương pháp

khác [13, 14, 15, 16, 17, 18]. Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng

quyết định ngày càng có số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin

sinh học có hàng triệu thuộc tính. Hơn nữa, các bảng quyết định luôn luôn thay đổi,

cập nhật với các tình huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ

tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi. Để xây dựng mô hình phân

lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết định

kích thước lớn và thay đổi. Các phương pháp rút gọn thuộc tính theo tiếp cận truyền

thống trên các bảng quyết định như vậy gặp hai thách thức. Thứ nhất, với các bảng

quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó

khăn về không gian lưu trữ và tốc độ tính toán. Thứ hai, với các bảng quyết định thay

2

đổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết

định sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để giải

quyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng

tìm tập rút gọn. Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị

thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu. Do đó,

chúng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa, các thuật toán gia tăng có thể

thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng

quyết định thành nhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã và

đang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua.

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình

tập thô mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút

gọn của bảng quyết định thay đổi. Với trường hợp bổ sung, loại bỏ tập đối tượng, một

số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24,

25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc

[36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất

quán [39], lựa chọn mẫu kích hoạt [40]. Với trường hợp bổ sung, loại bỏ tập thuộc

tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương

[41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt

[46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51].

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và

loại bỏ tập đối tượng [52, 53, 54, 56, 57], bổ sung và loại bỏ tập thuộc tính [58]. Với

trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công

thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn

khi bổ sung tập đối tượng. Yang và các cộng sự [53] xây dựng công thức gia tăng tính

quan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn

khi bổ sung tập đối tượng. Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệ

phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong

trường hợp bổ sung tập đối tượng. Zhang và các cộng sự [56] đề xuất thuật toán gia

tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp

3

bổ sung tập đối tượng. Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính

(key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa

trên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử

dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ. Với trường hợp bổ

sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập

rút gọn theo tiếp cận tập thô mờ còn hạn chế. Zeng và các cộng sự [58] xây dựng các

công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ

sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ:

thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán

FRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính. Kết quả thực nghiệm

trong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời

gian thực hiện so với các thuật toán không gia tăng. Do đó, chúng có thể thực thi hiệu

quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật. Tuy nhiên, phần

lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống. Với cách

tiếp cận này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xây

dựng. Việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút

gọn. Vì vậy, tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: số

lượng thuộc tính tập rút gọn và độ chính xác phân lớp. Do đó, động lực nghiên cứu của

luận án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp filter-

wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác

mô hình phân lớp.

2. Mục tiêu nghiên cứu

Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định

thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số

lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó

giảm thiểu độ phức tạp của mô hình khai phá dữ liệu.

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sử

dụng độ đo khoảng cách mờ. Đóng góp này được trình bày ở Chương 2 của

luận án.

4

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết

định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng. Đóng góp này

được trình bày ở Chương 3 của luận án.

3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết

định thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính. Đóng góp

này được trình bày ở Chương 4 của luận án.

3. Đối tượng nghiên cứu của luận án:

- Tập thô mờ và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

- Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập

thuộc tính.

- Các độ đo được sử dụng trong lý thuyết tập thô mờ, tập trung vào độ đo

khoảng cách mờ.

4. Phạm vi nghiên cứu

Về lý thuyết: Nghiên cứu các thuật toán heuristic tìm tập rút gọn của bảng quyết

định thay đổi (bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính) sử dụng

các độ đo trong tập thô mờ.

Về thử nghiệm: Thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán đã công bố trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [59] nhằm đánh giá

tính hiệu quả của các thuật toán đề xuất theo các mục tiêu đặt ra.

5. Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hợp các nghiên cứu liên quan về các phương pháp

gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ, trên cơ sở đó phân tích, đánh giá

các vấn đề còn tồn tại và xây dựng các đề xuất cải tiến: Cải tiến về độ chính xác mô

hình phân lớp và cải tiến về số lượng thuộc tính tập rút gọn, từ đó giảm độ phức tạp

của mô hình.

Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử nghiệm,

so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI

[59] nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết.

5

6. Nội dung nghiên cứu

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định dựa

trên mô hình tập thô mờ theo tiếp cận kết hợp filter-wrapper.

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết

định thay đổi theo tiếp cận kết hợp filter-wrapper. Bảng quyết định thay đổi trong

trường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính.

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuật

toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI [59].

7. Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định theo tiếp cận kết

hợp filter-wrapper trong trường hợp bảng quyết định thay đổi. Cụ thể luận án có các

kết quả chính như sau:

1) Xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán theo tiếp cận kết

hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định sử dụng độ đo

khoảng cách mờ. Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59]

cho thấy, thuật thoán filter-wrapper FW_FDBAR giảm thiểu đáng kể số lượng thuộc

tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filter

truyền thống khác.

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toán

gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định :

a. Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong

trường hợp bổ sung tập đối tượng.

b. Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng.

c. Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trong

trường hợp bổ sung tập thuộc tính.

d. Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trong

trường hợp loại bỏ tập thuộc tính.

6

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy,

bốn thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạn

filter tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng),

giai đoạn wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất. Bốn thuật toán đề

xuất đều giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân

lớp so với các thuật toán được so sánh.

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn thuộc tính

trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa, nâng cao hiệu quả

các mô hình khai phá dữ liệu và học máy, đặc biệt là trong các hệ thống cơ sở dữ liệu

trong các lĩnh vực chẩn đoán y tế, tài chính ngân hàng,...

8. Bố cục của luận án

Bố cục của luận án gồm: phần mở đầu và bốn chương nội dung, phần kết luận

và danh mục các tài liệu tham khảo. Cụ thể như sau:

Chương 1 trình bày một số khái niệm cơ bản gồm: tổng quan về rút gọn thuộc

tính và về cách tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình

bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các

nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô

mờ trong mấy năm gần đây. Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và

nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được. Các kiến thức

cơ bản này được sử dụng trong các chương sau, là các đóng góp chính của luận án.

Các đóng góp chính của luận án được trình bày trong Chương 2, Chương 3 và

Chương 4. Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mờ

và đề xuất thuật toán kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng

quyết định.

Chương 3 và Chương 4 đề xuất các công thức gia tính khoảng cách mờ và vận

dụng các khoảng cách này để xây dựng 4 thuật toán gia tăng filter-wrapper; thuật toán

gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp

bổ sung tập đối tượng; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của

bảng quyết định trong trường hợp loại bỏ tập đối tượng; thuật toán gia tăng filter-

wrapper thứ ba tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập

7

thuộc tính; thuật toán gia tăng filter-wrapper thứ bốn tìm tập rút gọn của bảng quyết

định trong trường hợp loại bỏ tập thuộc tính. Cả bốn thuật toán đề xuất đều sử dụng độ

đo khoảng cách mờ đề xuất ở Chương 2 và đều có mục tiêu là giảm thiểu thời gian

thực hiện so với thuật toán không gia tăng, nâng cao độ chính xác phân lớp và tối thiểu

hóa số lượng thuộc tính tập rút gọn so với các thuật toán gia tăng khác đã công bố.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và

những vấn đề quan tâm của tác giả.

8

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TẬP THÔ MỜ

Trong chương này, luận án sẽ trình bày tổng quan về rút gọn thuộc tính, các

hướng tiếp cận filter và hướng tiếp cận kết hợp fifter-wrapper trong rút gọn thuộc tính,

nhằm rút ra những ưu nhược điểm của các cách tiếp cận trên, từ đó đề xuất hướng tiếp

cận phù hợp; trình bày tổng quan lý thuyết tập thô mờ là những khái niệm cơ bản để

nghiên cứu vận dụng vào bài toán rút gọn trên tập mờ, là cơ sở nền tảng để đưa ra đề

xuất thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper

và cũng là căn cứ cơ bản để chúng tôi nghiên cứu và phát triển cho các thuật toán gia

tăng rút gọn thuộc tính trong các chương tiếp theo.

1.1. Tổng quan về rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng

dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các

thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính

mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu.

Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều – dimension reduction, rút gọn

đặc trưng – feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhà

nghiên cứu trong việc xử lý dữ liệu lớn thuộc các hệ thống Internet of Things (IoT) nơi

xuất hiện một lượng lớn dữ liệu ở các dạng và khối lượng khác nhau.

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục

tiêu là loại bỏ các thuộc tính dư thừa, không liên quan, chỉ giữ lại các thuộc tính hữu

ích nhất từ một tập các thuộc tính ban đầu nhằm tăng tính hiệu quả của các thuật toán

khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả

thu được.

Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn

thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation). [60]

Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào

đó) từ tập thuộc tính ban đầu của tập dữ liệu.

Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành một

tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất.

9

Với những cách thực hiện việc rút gọn thuộc tính như trên, trong quá trình phân

tích luận án đề xuất nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút

gọn thuộc tính.

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên

cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc tính là quá trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộc

tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một

tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này

thuộc lớp bài toán NP-khó. Nhìn chung, một thuật toán lựa chọn thuộc tính thường

bao gồm bốn khâu cơ bản:

(1) Tạo lập tập con;

(2) Đánh giá tập con;

(3 ) Kiểm tra điều kiện dừng;

(4) Kiểm chứng kết quả.

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập

con để đánh giá, lựa chọn. Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó số

tất cả các tập con từ A thuộc tính sẽ là . Như vậy, rất khó khăn khi tìm tập con tối ưu

từ tất cả các tập con này. Phương pháp chung để tìm tập con thuộc tính tối ưu là lần

lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được đánh

giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước đó. Nếu

tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm tập con thuộc tính tối ưu

sẽ dừng khi một trong bốn điều kiện sau xảy ra:

- Đã thu được số thuộc tính quy định.

- Số bước lặp quy định cho quá trình lựa chọn đã hết.

- Việc thêm vào hay loại bớt một thuộc tính nào đó không làm cho một tập con

trở nên tốt hơn.

- Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá.

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các

phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập

thuộc tính ban đầu trên các tập dữ liệu khác nhau. Quá trình lựa chọn thuộc tính được

10

biểu diễn như hình sau: [60]

Hình 1.1 Quy trình rút gọn thuộc tính

1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc

(filter) và đóng gói (wrapper), với mỗi hướng tiếp cận có những mục tiêu riêng về

giảm số lượng thuộc tính hoặc nâng cao độ chính xác của mô hình phân lớp.

Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc tính độc lập với các thuật

toán khai phá sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng

của chúng trong việc mô tả dữ liệu.

Cách tiếp cận kiểu lọc có ưu điểm là thời gian tính toán nhanh, nhược điểm là

không sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành

việc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa

thu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con

thuộc tính.

Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu

diễn.[60]

11

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Từ những ưu nhược điểm của 2 cách tiếp cận trên, nghiên cứu sinh đã nghiên

cứu và đề xuất một số cách tiếp cận mới nhằm kết hợp những ưu điểm của phương

pháp filter, wapper và loại bỏ đi những nhược điểm của nó, nghiên cứu sinh đã đề xuất

một số cách tiếp cận mới, như là: cách tiếp cận kết hợp fifter-wrapper [9, 61]

1.3. Tổng quan về tập thô mờ

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương

để xấp xỉ tập hợp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D.

Dübois và các cộng sự [1] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập

mờ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyết

định. Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập

thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảng

quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là rút

gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước

rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp. Luận án

nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm

cơ bản về mô hình tập thô mờ trên bảng quyết định. Các khái niệm này được sử dụng

trong các chương sau của luận án.

12

1.3.1. Bảng quyết định và quan hệ tương đương

Bảng quyết định là một cặp trong đó U là tập hữu hạn, khác

rỗng các đối tượng; C là tập thuộc tính điều kiện, D là tập thuộc tính quyết định với

.

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương để

xấp xỉ tập hợp. Xét bảng quyết định , mỗi tập con thuộc tính xác

định một quan hệ tương đương trên miền giá trị thuộc tính, ký hiệu là .

Với là giá trị thuộc tính a tại đối tượng x. Quan hệ xác định một phân

hoạch trên U, ký hiệu là với là lớp tương đương chứa

đối tượng x, . Với , tập xấp xỉ dưới và xấp xỉ trên của X

tương ứng là và . Cặp được

gọi là tập thô (rough set) của X đối với

1.3.2. Quan hệ tương đương mờ

Định nghĩa 1.1. [1] Cho bảng quyết định , một quan hệ xác

định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn

các điều kiện sau với mọi

1) Tính phản xạ (reflexive): ;

2) Tính đối xứng (symetric): ;

3)Tính bắc cầu max-min (max-min transitive):

với là giá trị quan hệ giữa hai đối tượng

x và y.

Mệnh đề 1.1. [58] Cho bảng quyết định và quan hệ tương

đương mờ . Ký hiệu , xác định trên tập thuộc tính tương ứng là quan hệ

P, Q. Khi đó, với mọi ta có:

13

1)

2)

3)

4)

Một số quan hệ tương đương mờ được sử dụng trong bài toán rút gọn thuộc tính:

1) Trong các công trình [62, 63, 64], các tác giả sử dụng quan hệ tương đương mờ theo

(1.1)

công thức (1.1) trên thuộc tính có miền giá trị số

với là giá trị của thuộc tính a tại đối tượng , tương ứng là giá

trị lớn nhất, nhỏ nhất của thuộc tính .

2) Trong các công trình [9], các tác giả sử dụng quan hệ tương đương mờ theo công

thức (1.2) trên thuộc tính có miền giá trị thực thuộc đoạn [0, 1].

(1.2)

Trong trường hợp giá trị thuộc tính a không thuộc đoạn [0, 1], các tác giả sử

dụng một phương pháp tiền xử lý để ánh xạ miền giá trị thuộc tính a về đoạn [0, 1].

Ngoài ra, một số công trình [53] sử dụng quan hệ tương đương mờ

trên thuộc tính có miền giá trị số thuộc đoạn [0, 1].

3) Trên các thuộc tính

có miền giá trị định danh (nominal) hoặc nhị phân (binary), các tác giả sử dụng quan hệ tương đương. Quan hệ tương đương được xem là

quan hệ tương đương mờ theo công thức (1.3) như sau:

14

1.3.3. Ma trận tương đương mờ

Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương mờ

giữa các đối tượng của bảng quyết định và được định nghĩa như sau:

Định nghĩa 1.2.[58] Cho bảng quyết định với

và là quan hệ tương đương mờ xác định trên tập thuộc tính

. Khi đó, ma trận tương đương mờ biểu diễn , ký hiệu là

được định nghĩa như sau:

với là giá trị của quan hệ giữa hai đối tượng và trên tập

thuộc tính P, , .

phụ thuộc vào

Như vậy, giá trị các phần tử của ma trận tương đương mờ

quan hệ tương đương mờ được chọn. Mặt khác, ma trận tương đương mờ là cơ sở để

xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết

định. Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết quả thực hiện

các phương pháp rút gọn thuộc tính.

1.3.4. Phân hoạch mờ

Mệnh đề 1.2.[64] Cho bảng quyết định và . Giả sử

, tương ứng là ma trận tương đương mờ của ,

khi đó ma trận tương đương mờ trên tập thuộc tính là:

với

Định nghĩa 1.3.[64] Cho bảng quyết định với ,

và là quan hệ tương đương mờ trên P. Khi đó phân hoạch mờ trên

U

15

sinh bởi , ký hiệu là: được xác định như sau:

(1.4)

với là một tập mờ đóng vai trò là một lớp tương

đương mờ (fuzzy equivalent class) của đối tượng .

Với lớp tương đương mờ , hàm thuộc của các của các đối tượng

được xác định bởi và lực lượng của lớp đương

đương mờ được tính bởi .

Gọi là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương

đương mờ trên các tập thuộc tính, khi đó được gọi là một không gian phân hoạch

mờ trên U. Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ

tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính.

Định nghĩa 1.4. Xét phân hoạch mờ sinh bởi quan hệ tương

đương mờ với , có 2 trường hợp đặc biệt xảy ra:

(1) Nếu (với thì , , phân hoạch

mờ được gọi là mịn nhất ký hiệu là .

(2) Nếu với thì , , phân hoạch mờ được

gọi là thô nhất (roughest) ký hiệu là .

Định nghĩa 1.5 [64]. Xét hai phân hoạch mờ , quan hệ thứ

tự bộ phận được định nghĩa như sau:

, viết tắt là .

Dấu đẳng thức viết tắt là

.

và , viết tắt là .

16

Ví dụ 1.1. Cho bảng quyết định trong Bảng 1.1 với

𝑐1 0.5 0.8 0.2 0.2

𝑐2 0.6 0.6 0.2 0.8

𝑐3 0.8 0.8 1.0 0.6

D 1 1 0 0

𝑐4 0.4 0.4 0.6 0.6

U 𝑢1 𝑢2 𝑢3 𝑢4

Bảng 1.1 Bảng quyết định của Ví dụ 1.1

Luận án dùng quan hệ tương đương mờ trong [9] trên mỗi thuộc tính điều kiện

như sau: với và

Giả sử rằng , ta có:

Phân hoạch mờ trên như sau:

với

Cho , , tính toán tương tự ta có

với: ,

17

, ,

.

Và với ,

, ,

.

Điều đó chỉ ra rằng và .

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

Kể từ khi Lý thuyết tập thô mờ (Fuzzy rough set) do Dübois và các cộng sự

[1] đề xuất, các phương pháp rút gọn thuộc tính trên bảng quyết định theo tiếp cận

tập thô mờ đã thu hút sự quan tâm của cộng đồng nghiên cứu. Trong phần này, luận

án trình bày tóm tắt các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận

tập thô mờ

1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô

mờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã được

nghiên cứu lâu nay. Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm các

bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng

độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theo

tiêu chuẩn là độ quan trọng của thuộc tính. Việc đánh giá độ chính xác của mô hình

phân lớp được thực hiện sau khi tìm được tập rút gọn. Cho đến nay, các nghiên cứu

liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phương

pháp chính như: phương pháp sử dụng hàm thuộc mờ, phương pháp sử dụng miền

dương mờ, các phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cách

mờ và một số phương pháp mở rộng gần đây.

Bảng 1. 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ.

18

Công bố, năm xuất bản Thuật toán

Anoop Kumar Tiwari 2018, [3]

Các thuật toán tìm tập rút gọn sử dụng hàm thuộc mờ 1

STT 1) Hàm thuộc mờ   Z. Wang và cộng sự 2017, [4]  Zhang và cộng sự 2018, [5]

2) Miền dương mờ

T.K. Sheeja và cộng sự 2018, [6] 2 Các phương pháp sử dụng miền dương mờ   Y. Lin và cộng sự 2018, [7]

3) Entropy mờ

Các thuật toán tìm tập rút gọn sử dụng phương pháp entropy mờ. 3

 J.H. Dai và cộng sự 2018, [8]  Q.H. Hu và cộng sự 2016, [9]  X. Zhang và cộng sự 2016,[10] 4) Phương pháp sử dụng khoảng cách mờ

4 Các thuật toán tìm tập rút gọn sử dụng độ đo phương pháp khoảng cách mờ  C.Z. Wang và cộng sự 2019, [11]  C.Z. Wang và cộng sự 2015, [12]  Cao Chinh Nghia và cộng sự 2016,

[13] 5) Các phương pháp khác

Các thuật toán tìm tập rút gọn sử dụng một số phương pháp khác

5

 J.H. Dai và cộng sự 2018, [14]  J.H. Dai và cộng sự 2017, [15]  L.J.Ping và cộng sự 2020, [16]  W.P. Ding và cộng sự 2019, [17]  X.M. Liu và cộng sự 2019, [18]  Y.J. Lin và cộng sự 2017, [19]

1.4.1.2 Các điểm chung của các nghiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.1.1, tác giả tổng kết các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau:

1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác

phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền

thống. Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trong

các công bố.

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phân

lớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện. Vì vậy, các

phương pháp đã đề xuất trong luận án đều cố gắng cải thiện độ chính xác mô hình

19

phân lớp, rút gọn thuộc tính và cải thiện đáng kể thời gian thực hiện so với các phương

pháp trước đó.

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristic

theo tiếp cận filter. Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được

tập rút gọn. Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ đo, (2) xây

dựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3) xây dựng thuật

toán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính.

1.4.1.3 Các vấn đề còn tồn tại

Các thuật toán đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là các

thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là

tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác

của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn

của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác

phân lớp.

1.4.1.4 Đề xuất nghiên cứu của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2, khoảng

cách mờ được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn thuộc tính

trong bảng quyết định. Động lực nghiên cứu thứ nhất là nghiên cứu, đề xuất các

thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng

độ đo khoảng cách mờ, là sự kết hợp giữa tiếp cận lọc (filter) và đóng gói

(wrapper). Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giai

đoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp

xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất, đồng thời giảm

thiểu số lượng thuộc tính tập rút gọn.

1.4.2. Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có

số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu

thuộc tính. Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình

huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị

20

tập đối tượng, tập thuộc tính thay đổi. Trong đó, trường hợp bổ sung, loại bỏ tập

thuộc tính xuất hiện ngày càng phổ biến. Ví dụ bài toán chuẩn đoán bệnh trong lĩnh

vực y tế, các triệu chứng lâm sàng được xem như các thuộc tính ban đầu để bác sĩ

chẩn đoán bệnh. Sau đó, các chỉ số xét nghiệm được xem như các thuộc tính tiếp

theo liên tục được bổ sung, cập nhật nhằm hỗ trợ bác sĩ trong việc nâng cao độ chính

xác chẩn đoán. Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút

gọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi. Việc áp dụng các

thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách thức. Với

trường hợp bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập

rút gọn gặp khó khăn do hạn chế về không gian lưu trữ và tốc độ tính toán. Với

trường hợp bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lại

tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời gian

tính toán tăng lên đáng kể. Để vượt qua các thách thức trên, các nhà nghiên cứu đề

xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Các thuật toán gia tăng chỉ cập

nhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên

toàn bộ bảng quyết định. Với các bảng quyết định thay đổi, cập nhật, các thuật toán

gia tăng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa, các thuật toán gia tăng có

thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ

bảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ sung

từng phần vào bảng quyết định.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự quan

tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Trong phần này, tác giả

trình bày các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định theo tiếp cận tập thô mờ, trên cơ sở đó đưa ra các vấn đề còn tồn tại và

động lực nghiên cứu của luận án.

1.4.2.1. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận

tập thô mờ

Các hướng nghiên cứu được liệt kê tóm tắt trong bảng dưới đây:

21

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ.

Thuật toán Công bố, năm xuất bản

STT 1. Trường hợp bổ sung, loại bỏ tập đối tượng 1.1. Tiếp cận tập thô truyền thống

 Demetrovics, J., Thi, V.D., & Giang,

Các thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách 1 

N.L. [20], 2014 Huong, N. T. L., &Giang, N. L. [ 21], (2016)

Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt thông tin

2

Các thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt

3

Các thuật toán gia tăng tìm tập rút gọn sử dụng miền dương 4

 Y.G. Jing và cộng sự [22, 23], 2017  Zhang và cộng sự [24], 2020  Cai và cộng sự [25], 2019  Zhang và cộng sự [26], 2019  Zhang và cộng sự [27], 2020  W. Wei và cộng sự 2018, [28]  G. Lang và cộng sự 2017, [29]  Ma và cộng sự 2019, [30]  Yang và cộng sự, [31]  Liu và cộng sự, [32]  Das và cộng sự 2018, [33]  Lang và cộng sự 2018, [34]  Hao và cộng sự 2019, [35]  Shua và cộng sự 2019, [36] 5

 Nandhini và cộng sự 2019, [37]

6

 Shu và cộng sự 2020, [38] 7

 Xie và cộng sự 2018, [39] 8

 Y.Y. Yang và cộng sự 9 Các thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc Các thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ không phân biệt được Các thuật toán gia tăng tìm tập rút gọn sử dụng entropy thông tin Thuật toán gia tăng tìm tập rút gọn sử dụng độ đo không nhất quán Các thuật toán gia tăng tìm tập rút gọn sử dụng lựa chọn mẫu kích hoạt

1.2. Tiếp cận tập thô mờ

 Liu và các cộng sự 2017, [52] 10

 Yang và các cộng sự 2017, [53]

11

 Yang và các cộng sự 2017, [54]

12

Thuật toán gia tăng FIAT tìm tập rút gọn sử dụng độ phụ thuộc mờ. Các thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt mờ. Các thuật toán gia tăng IV-FS-FRS- 1 và IV-FS-FRS-2 tìm tập rút gọn sử dụng quan hệ phân biệt mờ.

22

gia  Giang và các cộng sự 2020, [55]

13

 Zhang và các cộng sự 2020, [56]

14

 Ni và các cộng sự 2020, [57]

15

tăng toán thuật Các IFW_FDAR_AdObj và IFW_FDAR_DelObj tìm tập rút gọn sử dụng quan hệ khoảng cách mờ. Thuật toán gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng Thuật toán gia tăng DIAR sử dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ tìm tập rút gọn dựa trên tập đối tượng chính

2. Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1. Tiếp cận tập thô truyền thống

 W.H. Shu và cộng sự 2014, [41] 16

 F. Wang và cộng sự 2013, [42] 17

Thuật toán gia tăng tìm tập rút gọn sử dụng miền dương Thuật toán gia tăng tìm tập rút gọn sử dụng entropy thông tin Thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt. 18

19

 M.J. Cai và cộng sự 2017, [43]  Ma và cộng sự 2019, [44]  Wei và cộng sự 2019, [45]  Nandhini và cộng sự 2019, [46]  Chen và cộng sự 2020, [47]  Demetrovics Janos và cộng sự 2016, 20 [48]

 M.S. Raza và cộng sự 2016, [49]

21

Thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ không phân biệt. Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách. Thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc của thuộc tính. Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt tri thức. 22  Y. Jing và cộng sự 2016, [50]  Y.G. Jing và cộng sự 2018, [51]

2.2. Tiếp cận tập thô mờ

23

 A.P. Zeng và các cộng sự 2015, [58] Xây dựng các công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS- HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA- IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính

23

1.4.2.2 Các vấn đề còn tồn tại

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời

gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên

các bảng dữ liệu kích thước lớn. Tuy nhiên, các thuật toán nêu trên đều theo hướng

tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn tìm được là tập thuộc tính tối

thiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánh

giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn. Vì vậy, tập rút

gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độ

chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớp

tốt nhất.

1.4.2.3 Các đề xuất của luận án

Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên, động lực

nghiên cứu của luận án là:

1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng

thuộc tính tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác

mô hình phân lớp.

2) Các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết

hợp được nghiên cứu, đề xuất trong các trường hợp: bổ sung, loại bỏ tập đối

tượng; bổ sung, loại bỏ tập thuộc tính.

1.5. Tóm tắt các đóng góp của luận án

Dựa trên lý thuyết tập thô mờ, luận án đề xuất các thuật toán cải tiến tìm tập rút

gọn theo tiếp cận tập thô mờ bằng thuật toán kết hợp filter-wrapper nhằm giải

quyết các vấn đề còn tồn tại được trình bày ở mục 1.4.1 và 1.4.2 với hai đóng góp chính

như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

theo tiếp cận tập thô mờ: Thuật toán sử dụng khoảng cách mờ. Độ đo

khoảng cách mờ được xây dựng là mở rộng của độ đo khoảng cách trong công

trình [65]. Các đóng góp này được trình bày ở Chương 2 của luận án và được

công bố trong các công trình 1, 2 phần “Danh mục công trình của tác giả”.

24

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung,

loại bỏ tập thuộc tính. Các đóng góp này được trình bày ở Chương 3 và

Chương 4 của luận án và được công bố trong công trình 1,3,4 phần “Danh

mục công trình của tác giả”.

1.6. Kết luận chương 1

Trong chương 1 luận án đã nêu tổng quan về những vấn đề cơ bản:

Tổng quan về rút gọn thuộc tính, các hướng tiếp cận fifter - wrapper trong rút

gọn thuộc tính; một số khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rút

gọn thuộc tính. Ngoài ra, chương 1 còn trình bày tổng quan về rút gọn thuộc tính từ

đó đưa ra các thuật toán fifter-wrapper về tìm tập rút gọn của bảng quyết định và định

hướng nghiên cứu của luận án. Các khái niệm được trình bày ở chương 1 là kiến thức

nền tảng được sử dụng trong các chương sau của luận án.

25

CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1. Mở đầu

Trong mấy năm gần đây, nhóm nghiên cứu của PGS.TS Nguyễn Long Giang và

cộng sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính

trong bảng quyết định theo tiếp cận tập thô truyền thống [48, 66, 67, 68] và bảng quyết

định không đầy đủ theo tiếp cận tập thô dung sai [66, 69, 70, 71, 72]. Đáng chú ý theo

tiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất

thành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo

khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền

giá trị số. Trong công trình [73], nhóm tác giả xây dựng độ đo khoảng cách Jaccard

mờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và

chứng minh một số tính chất của nó. Trong công trình [74], các tác giả đã sử dụng

khoảng cách Jaccard mờ trong [73] để giải quyết bài toán rút gọn thuộc tính trực tiếp

trên bảng quyết định gốc có miền giá trị số. Trong công trình [12], các tác giả xây

dựng độ đo khoảng cách mờ và sử dụng khoảng cách mờ giải quyết bài toán rút gọn

thuộc tính trên bảng quyết định có miền giá trị số.

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách

hiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, giảm

thiểu thời gian thực hiện, trong chương này luận án đề xuất độ đo khoảng cách mờ

(sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân hoạch trong công

trình [65]. Sử dụng khoảng cách mờ được xây dựng, luận án đề xuất phương pháp

filter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm nâng cao độ chính xác

phân lớp và giảm thiểu số lượng thuộc tính tập rút gọn. Bao gồm các nội dung sau:

(1) Xây dựng khoảng cách giữa hai tập mờ;

(2) Xây dựng khoảng cách mờ giữa hai phân hoạch mờ;

(3) Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ;

(5) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất.

Các kết quả trong chương này được công bố trong các công trình 1, 2 phần

“Danh mục công trình của tác giả”.

26

2.2. Xây dựng khoảng cách giữa hai tập mờ

Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đối

tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối.

Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức,

nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau,

hay càng tương đương nhau và ngược lại. Như vậy, khi một khoảng cách nào đó

được định nghĩa trên tập các tri thức thì cũng có nghĩa là một khoảng cách đã được

xác lập trên tập các thuộc tính. Sử dụng khoảng cách để đánh giá sự khác nhau giữa

các thuộc tính, phát hiện các thuộc tính quan trọng [63, 66, 67, 75]. Nhờ đó, xây

dựng thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết tập

thô mờ.

Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng cách

phân hoạch theo tiếp cận tập thô truyền thống [76] luận án đề xuất thuật toán heuristic

để rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ.

Khoảng cách mờ giữa hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữa

hai tập mờ. Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI[59] cho

thấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so với các

công bố trước đây [77].

Đầu tiên trong chương này luận án xây dựng độ đo khoảng cách giữa hai tập

mờ, gọi là khoảng cách mờ.

Cho bảng quyết định với

và hai phân hoạch trên P và Q, với ,

, Liang và cộng sự [65] chứng minh rằng:

là khoảng cách phân hoạch giữa và với là lực lượng của X. Luận án

mở rộng khoảng cách này để xây dựng khoảng cách mờ.

27

2.2.1. Độ đo khoảng cách mờ

Bộ đề 2.1 [12]. Cho 3 tập mờ 𝑋, 𝑌, 𝑍 trên tập đối tượng U, khi đó ta có:

Mệnh đề 2.1. Cho 2 tập mờ 𝑋, 𝑌 trên tập đối tượng U, khi đó

là khoảng cách giữa 𝑋 và 𝑌.

Chứng minh: Đầu tiên, bất đẳng thức suy ra .

Hơn nữa, ta có . là độ đo khoảng cách nếu nó thỏa mãn

bất đẳng thức tam giác. Không mất tính tổng quát, ta cần chứng minh

. Theo Bộ đề 2.1, ta có:

(1)

(2)

Cộng (1) và (2) vế theo vế, ta có:

(3)

Với 2 số bất kì a, b, ta có . Khi đó, ta có

với mọi . Điều này

có nghĩa là . Từ (3), ta có:

Hoặc .

Từ đó, là 1 độ đo khoảng cách giữa hai tập mờ X và Y.

2.2.2. Độ đo khoảng cách mờ và các tính chất

Mệnh đề 2.2. Cho bảng quyết định với và

, là 2 phân hoạch mờ sinh bởi hai quan hệ tương đương mờ , trên

P khi đó: (2.1)

28

Là một khoảng cách mờ giữa hai phân hoạch mờ và , gọi là

khoảng cách mờ.

Chứng minh: Rõ ràng và

. Chúng ta cần chứng minh (2.1) thỏa mãn

bất đẳng thức tam giác. Không mất tính tổng quát với mọi , , , ta

cần chứng minh:.

Theo Mệnh đề 2.1, vói mọi ta có

. Từ đó, ta cũng có:

Giá trị của đạt giá trị nhỏ nhất là 0 khi và chỉ khi

. Giá trị của đạt giá trị lớn nhất là (nếu và

chỉ nếu và ) (hoặc và ). Do

đó,

Ví dụ 2.1 (Tiếp tục từ Ví dụ 1.1), theo Mệnh đề 2.2, khi đó ta có

, ,

Vì vậy:

29

Mệnh đề 2.3. Cho bảng quyết định với và

là một quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi

đó khoảng cách mờ giữa hai tập thuộc tính C và được xác định như sau:

(2.2)

Chứng minh:

Từ Mệnh đề 2.2, ta có:

Nếu thì khoảng cách mờ đạt giá trị nhỏ nhất khi

, nếu và for thì khoảng

cách mờ đạt giá trị lớn nhất . Do đó,

.

Mệnh đề 2.4. Cho bảng quyết định với, và là quan hệ

tương đương mờ trên miền giá trị tập thuộc tính điều kiện. Khi đó

.

Chứng minh: Từ , theo [29] ta có . Nghĩa là

với  với . Xét đối tượng , ta có:

(1) với ta có , do đó

30

(2) với ta có , vì vậy

.

Từ (1) và (2) ta có:

.

xảy ra khi và chỉ khi

với mọi .

Mệnh đề 2.4 cho thấy thỏa mãn tính phản đơn điệu với

tập thuộc tính điều kiện. Nghĩa là với mọi tập thuộc tính điều kiện B càng nhỏ,

khoảng cách mờ càng lớn. Do đó, có

thể được sử dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán tìm tập rút gọn,

được trình bày ở mục tiếp theo.

2.3. Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ

Trong mục này, chúng tôi trình bày phương pháp rút gọn thuộc tính sử dụng

khoảng cách mờ theo tiếp cận filter. Giống các phương pháp filter khác theo tiếp cận

tập thô, phương pháp đề xuất bao gồm các bước:

(1) Định nghĩa tập rút gọn dựa trên khoảng cách mờ;

(2) Định nghĩa độ quan trọng của thuộc tính dựa trên khoảng cách mờ;

(3) Xây dựng thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn.

Định nghĩa 2.1. Bảng quyết định và là các quan hệ

tương đương mờ trên tập thuộc tính điều kiện B, C với . Nếu:

1)

2)

31

Thì B là tập rút gọn của bảng quyết định sử dụng khoảng cách mờ.

Định nghĩa 2.2. Bảng quyết định với và . Độ

quan trọng của thuộc tính 𝑏 đối với 𝐵 được định nghĩa bởi:

(2.3)

Theo tính chất của khoảng cách mờ (Mệnh đề 2.4) ta có . Độ quan

trọng đặc trưng cho chất lượng phân lớp của thuộc tính b đối với thuộc tính

quyết định D và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán filter

F_FDBAR tìm tập rút gọn.

Thuật toán F_FDBAR (Filter - Fuzzy Distance Based Attribute Reduction): Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ.

, quan hệ tương Đầu vào: Bảng quyết định

đương mờ xác định trên tập thuộc tính điều kiện.

Đầu ra: Một tập rút gọn

; ; 1.

; 2. Tính khoảng cách mờ

// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất

do 3. While

tính 4. Begin 5. Với mỗi

sao cho ; 6. Chọn

; 7.

8. End;

//Loại bỏ các thuộc tính dư thừa trong B nếu có

9. For each 10. Begin

; 11. Tính

then 12. If

32

;

13. End; 14. Return ;

Tiếp theo, luận án đánh giá độ phức tạp thời gian của thuật toán F_FDBAR, gọi

tắt là độ phức tạp. Giả sử và ký hiệu tương ứng là số thuộc tính điều kiện

và số đối tượng. Độ phức tạp tính ma trận tương đương mờ là , do đó

độ phức tạp tính khoảng cách mờ trong câu lệnh 2 là . Xét vòng lặp While từ

câu lệnh 3 đến 8, để tính ta phải tính vì

đã được tính ở bước trước. Độ phức tạp tính

bằng độ phức tạp tính ma trận tương đương mờ của thuộc

tính a, nghĩa là . Do có hai vòng lặp lồng nhau theo nên độ phức tạp của vòng

lặp While là . Tương tự, độ phức tạp của vòng lặp For từ dòng lệnh số 9 đến

13 là . Do đó, độ phức tạp của thuật toán F_FDBAR là

Ví dụ 2.2. Xét bảng quyết định cho ở Bảng 2.1 với

, , . Với các thuộc tính điều kiện,

chúng tôi sử dụng quan hệ tương đương mờ trên thuộc tính trong [10] như sau:

ới

Với thuộc tính quyết định D chúng tôi sử dụng quan hệ tương đương .

33

U

D

0.8

0.2

0.6

0.4

0

1

0

0.8

0.2

0

0.6

0.8

0.2

1

0.6

0.4

0.8

0.2

0.4

0.6

0

0

0.4

0.6

0.4

1

0

1

0

0.6

0.6

0.4

1

0

1

0

0.6

0

1

1

0

0

Bảng 2.1 Bảng quyết định của Ví dụ 2.2

Áp dụng các bước của thuật toán F_FDBAR tìm tập rút gọn, ta có:

Khởi tạo ; . Tính các ma trận tương đương mờ

34

Từ đó ta có: ,

, ,

, ,

, ,

Chọn có giá trị lớn nhất và .

Do nên tiếp tục vòng lặp

While,

ta có: ; ; ;

; .

Chọn có độ quan trọng lớn nhất và .

Tính nên tiếp

tục vòng lặp While.

35

Ta có ; ; ;

. Chọn có độ quan trọng lớn nhất và .

Do nên

thuật toán dừng và là tập rút gọn tìm được của thuật toán.

Xét bảng quyết định với và là quan hệ

tương đương mờ xác định trên miền giá trị thuộc tính điều kiện. Đặt

. Theo thuật toán F_FDBAR, giả sử các thuộc tính

được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc tính cho đến khi

tồn tại sao cho . Kết thúc thuật

toán, ta thu được tập rút gọn , độ chính xác phân lớp trên tập dữ liệu

được tính bởi độ chính xác phân lớp trên B. Do đó, thuật toán F_FDBAR theo hướng

tiếp cận filter truyền thống.

Mặt khác, theo Mệnh đề 2.4 ta có

Với ngưỡng cho

trước, đặt thỏa mãn và

. Khi đó, được gọi là tập rút gọn xấp xỉ ngưỡng

. Nếu và được sử dụng để xây dựng bộ phân lớp, công bố [9]

cho thấy, độ chính xác phân lớp trên chưa chắc đã tốt hơn trên .

Giả sử có độ chính xác phân lớp tốt hơn . Khi đó, nếu chọn là

kết quả của thuật toán thì có độ chính xác phân lớp cao hơn, có số lượng thuộc tính

ít hơn nên khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ

cao hơn. Điều đó dẫn đến hướng tiếp cận kết hợp tìm tập rút gọn xấp xỉ, là sự kết hợp

giữa filter (lọc) và wrapper (gói). Phương pháp filter tìm ra các tập rút gọn xấp xỉ,

phương pháp wrapper kiểm tra độ chính xác phân lớp của các tập rút gọn xấp xỉ để

chọn tập rút gọn có độ chính xác cao nhất. Với hướng tiếp cận này, độ chính xác phân

36

lớp trên tập rút gọn tìm được cao hơn so với các phương pháp filter truyền thống. Tuy

nhiên, thời gian thực hiện sẽ lớn hơn vì phải thực hiện các bộ phân lớp.

2.4. Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ

Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ được

mô tả như sau:

Thuật toán FW_FDBAR (Filter-Wrapper Fuzzy Distance

Based Attribute Reduction): Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ.

, quan hệ tương Đầu vào: Bảng quyết định

đương mờ trên miền giá trị thuộc tính điều kiện.

Đầu ra: Tập rút gọn xấp xỉ có độ chính xác phân

lớp tốt nhất.

// Khởi tạo

; ; 1.

; 2. Tính khoảng cách mờ

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất

do 3. While

tính 4. Begin 5. Với mỗi

;

; sao cho 6. Chọn

; 7.

8. End; // Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất 9. Đặt

// t là số phần tử của B, B chứa các chuỗi thuộc tính được chọn tại mỗi bước lặp của vòng lặp While, nghĩa là ;

10. Đặt

37

11. For j = 1 to t 12. Begin 13. Tính độ chính xác phân lớp trên bằng một

bộ phân lớp và sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp lớn nhất. 14. End 15.

Return ;

Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán filter-wrapper

FW_FDBAR, gọi tắt là độ phức tạp. Giả sử và ký hiệu tương ứng là số

thuộc tính điều kiện và số đối tượng của DS. Theo mục 2.3, độ phức tạp của thuật toán

filter F_FDBAR là , do đó độ phức tạp của giai đoạn filter (từ câu lệnh 3

đến 8) là . Độ phức tạp của giai đoạn wrapper (từ câu lệnh số 9 đến số 15)

phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp của bộ

phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là . Vì vậy, độ

phức tạp của thuật toán FW_FDBAR là

2.5. Thực nghiệm và đánh giá kết quả các thuật toán

2.5.1. Mục tiêu thực nghiệm

Theo hướng tiếp cận filter, các tác giả trong công trình [12] đã xây dựng một độ

đo khoảng cách mờ và xây dựng thuật toán filter tìm tập rút gọn sử dụng khoảng cách

mờ, gọi là thuật toán FPDAR (Fuzzy Partition Distance Based Attribute Reduction).

Các tác giả trong [12] cũng chỉ ra bằng thực nghiệm thuật toán FPDAR hiệu quả hơn

các thuật toán sử dụng miền dương mờ và entropy mờ về thời gian thực hiện và độ

chính xác phân lớp. Hơn nữa, công thức khoảng cách mờ trong [12] đơn giản hơn công

thức khoảng cách Jaccard mờ trong [74] nên thuật toán FPDAR hiệu quả hơn thuật

toán trong [74] về thời gian thực hiện.

Theo hướng tiếp cận filter-wrapper, gần đây Zhang và các cộng sự [9] đề xuất

thuật toán filter-wrapper FEBAR (Fuzzy Entropy Based Attribute Reduction) tìm tập

rút gọn xấp xỉ sử dụng độ đo -entropy mờ, là cải tiến của độ đo entropy mờ trong

[8,78, 79]. Để tính -entropy mờ cần mất chi phí tính hệ số  dựa vào miền dương mờ.

Do đó, chi phí thời gian của FEBAR sẽ tăng lên.

38

Mục tiêu của thực nghiệm là:

1) So sánh thuật toán filter-wrapper đề xuất FW_FDBAR với thuật toán filter-

wrapper FEBAR trong [9] về thời gian thực hiện, độ chính xác phân lớp và số lượng

thuộc tính tập rút gọn.

2) So sánh thuật toán filter-wrapper đề xuất FW_FDBAR với thuật toán filter

FPDAR trong [12] về thời gian thực hiện, số lượng thuộc tính tập rút gọn và độ chính

xác phân lớp.

2.5.2. Số liệu, phương pháp và môi trường thực nghiệm

Việc thực nghiệm được thực hiện trên 8 bộ dữ liệu mẫu lấy từ kho dữ liệu UCI

[59] cho ở Bảng 2.2. Trên mỗi bộ dữ liệu, với mỗi thuộc tính a có miền giá trị thực,

chúng tôi chuẩn hóa về miền [0, 1] như sau với

với max(a), min(a) là giá trị lớn nhất, nhỏ nhất trên miền giá trị thuộc tính a. Luận án

sử dụng quan hệ tương đương mờ trên thuộc tính a trong [9, 54] như sau

với

Với các thuộc tính a có miền giá trị định danh (nominal) hoặc phân loại

(catergorized), chúng tôi sử dụng quan hệ tương đương mờ , với

Bảng 2 2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR

Số thuộc tính điều kiện

STT Bộ dữ liệu

Mô tả

Số đối tượng

Số lớp quyết định

Tất cả

Thuộc tính định danh (nominal)

Lympho

1 2 Wine Libra 3

148 178 360

18 13 90

18 0 0

Thuộc tính thực (Real- valued) 0 13 90

2 3 15

4 WDBC

569

30

0

30

2

Lymphography Wine Libras movement Wisconsin diagnostic breast cancer

5 6 7 8

Horse Heart Credit German

Horse colic Statlog (heart) Credit approval German credit data

368 270 690 1000

22 13 15 20

15 7 9 13

7 6 6 7

2 2 2 2

39

Với các thuật toán filter-wrapper FW_FDBAR và FEBAR [9], chúng tôi sử dụng

bộ phân lớp CART (cây phân lớp, hồi quy) để tính độ chính xác phân lớp trong giai

đoạn wrapper. Với thuật toán filter FPDAR [12], chúng tôi cũng sử dụng bộ phân lớp

CART để tính độ chính xác phân lớp sau khi tìm được tập rút gọn. Chúng tôi sử dụng

phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được chia thành 10 phần xấp

xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu kiểm tra, 9 phần còn lại làm dữ

liệu huấn luyện. Quá trình được lặp lại 10 lần. Độ chính xác phân lớp được biểu diễn

bởi trong đó là giá trị độ chính xác trung bình (mean) của 10 lần lặp và là

sai số chuẩn (standard error). Công cụ lập trình thực nghiệm là ngôn ngữ lập trình C#

và công cụ phân tích dữ liệu R.

Môi trường thực nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) i7-

3770CPU @3.40 GHz, sử dụng hệ điều hành Windows 7, 32 bit.

2.5.3. Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của 3

thuật toán được mô tả ở Bảng 2.3 và Hình 2.1. Trong đó, ký hiệu là số thuộc tính

của bộ dữ liệu ban đầu, là số thuộc tính của tập rút gọn. Kết quả ở Bảng 2.3 và

Hình 2.1 cho thấy, so với thuật toán FPDAR sử dụng khoảng cách mờ theo tiếp cận

filter, số thuộc tính tập rút gọn của thuật toán đề xuất FW_FDBAR nhỏ hơn nhiều, đặc

biệt là đối với các bộ dữ liệu Horse, Heart, Credit, German. Độ chính xác của

FW_FDBAR cao hơn FPDAR trên tất cả các bộ dữ liệu. Do đó, hiệu năng và tính khái

quát hóa của tập luật phân lớp trên tập rút gọn của FW_FDBAR cao hơn nhiều so với

FPDAR. Với thuật toán filter-wrapper FEBAR [9] sử dụng -entropy mờ, số lượng

thuộc tính tập rút gọn của FW_FDAR xấp xỉ FEBAR, độ chính xác phân lớp của

FW_FDBAR xấp xỉ FEBAR.

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

FW_FDBAR, FEBAR, FPDAR

STT

Bộ dữ liệu

Độ chính xác ban đầu

Thuật toán FW_FDBAR

Thuật toán FEBAR [9]

Thuật toán FPDAR [12]

Độ chính xác

1

18

6

4

Lympho

4

2

13

7

5

Wine

5

3

90

26

8

Libra

7

4

30

6

3

WDBC

4

5

22

12

4

Horse

5

6

13

12

3

Heart

3

7

15

14

2

Credit

3

8

20

11

5

German

6

Độ chính xác 0.776± 0.008 0.910 ± 0.066 0.566 ± 0.137 0.924 ± 0.037 0.829 ± 0.085 0.744 ± 0.072 0.826 ± 0.052 0.692 ± 0.030

Độ chính xác 0.768 ± 0.085 0.893 ± 0.072 0.605 ± 0.103 0.952 ± 0.027 0.802 ± 0.066 0.803 ± 0.074 0.846 ± 0.048 0.702 ± 0.043

Độ chính xác 0.722 ± 0.062 0.886 ± 0.058 0.556 ± 0.205 0.925 ± 0.644 0.798 ± 0.058 0.752 ± 0.055 0.820 ± 0.078 0.684 ± 0.024

0.768 ± 0.085 0.893 ± 0.072 0.658 ± 0.077 0.968 ± 0.058 0.816 ± 0.052 0.803 ± 0.074 0.865 ± 0.028 0.716 ± 0.029

40

Hình 2.1 Độ chính xác phân lớp của ba thuật toán

41

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán

2.5.4. Kết quả so sánh thời gian thực hiện

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR

Thuật toán FW_FDBAR

Thuật toán FEBAR [9]

STT

Bộ dữ liệu

Thủ tục Wrapper

Tổng cộng

Thủ tục Wrapper

Tổng cộng

Thuật toán FPDAR [12]

Lympho

Thủ tục Filer 0.32 0.46 46.28 20.15 4.85 1.22 16.58 52.48

Thủ tục Filer 0.38 0.51 55.12 26.38 5.26 1.45 19.26 71.22

0.50 1.21 86.18 8.74 2.68 1.52 3.42 8.64

0.82 1.67 132,46 28.89 7.53 2.74 20.00 61.12

0.52 1.18 88.26 8.22 2.65 1.78 3.98 8.28

0.90 1.69 143.38 34.60 7.91 3.23 23.24 79.50

1 2 Wine 3 Libra 4 WDBC 5 6 7 8

Horse Heart Credit German

0.34 0.48 48.48 22.32 4.98 1.26 18.02 54.65

42

Hình 2.3 Thời gian thực thiện của ba thuật toán

Kết quả so sánh về thời gian thực hiện ở Bảng 2.4 và Hình 2.3 cho thấy, thuật

toán FW_FDBAR có thời gian thực hiện nhỏ hơn đáng kể thuật toán FEBAR [9], chủ

yếu là ở thủ tục filter tìm tập rút gọn. Nguyên nhân là thuật toán FEBAR phải tính

miền dương mờ để xác định hệ số , hơn nữa thuật toán FEBAR phải tính toán các

công thức logarit phức tạp trong công thức entropy Shannon. Tuy nhiên, các thuật toán

theo tiếp cận filter-wrapper FW_FDBAR và FEBAR [9] có thời gian thực hiện lớn

hơn thuật toán theo tiếp cận filter FPDAR [12] vì phải thực hiện bộ phân lớp để tính

độ chính xác của các tập rút gọn xấp xỉ trong giai đoạn wrapper.

2.6. Kết luận Chương 2

Trong Chương 2, luận án trình bày kết quả xây dựng một độ đo khoảng cách

trong bảng quyết định. Dựa vào độ đo khoảng cách được xây dựng, luận án xây dựng

thuật toán F_FDBAR tìm tập rút gọn của bảng quyết định theo tiếp cận filter truyền

thống, trên cơ sở đó đề xuất thuật toán theo tiếp cận kết hợp filter-wrapper FW_DBAR

nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình

phân lớp. Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy,

thuật toán filter-wrapper FW_DBAR đề xuất giảm thiểu đáng kể số lượng thuộc tính

tập rút gọn so với các thuật toán filter FPDAR. Hơn nữa, thuật toán FW_DBAR duy trì

và nâng cao độ chính xác phân lớp so với thuật toán filter FPDAR. Tuy nhiên, thuật

toán FW_FDBAR mất thêm chi phí thời gian tính toán các bộ phân lớp. Với các bài

toán có số lượng thuộc tính lớn (high dimention data), ví dụ trong lĩnh vực tin sinh

học, việc giảm thiểu số lượng thuộc tính có ý nghĩa quan trọng vì giảm thiểu độ phức

43

tạp của mô hình, do đó lựa chọn các thuật toán filter-wrapper FW_DBAR là phù hợp.

Tuy nhiên, với các bảng có số thuộc tính nhỏ và có dữ liệu lớn, việc chọn các thuật

toán filter phù hợp hơn vì thời gian thực hiện nhỏ hơn.

44

CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP

RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG

Nội dung chương này trình bày hai thuật toán gia tăng rút gọn thuộc tính trong

bảng quyết định sử dụng khoảng cách mờ: thuật toán gia tăng filter-wrapper rút gọn

thuộc tính sử dụng khoảng cách mờ khi bổ sung tập đối tượng và thuật toán gia tăng

fifter-wrapper rút gọn thuộc tính khi loại bỏ tập đối tượng. Bằng lý thuyết và thực

nghiệm đánh giá hiệu quả về thời gian thực hiện, độ chính xác phân lớp và số lượng

thuộc tính của từng thuật toán so với các thuật toán truyền thống khác.

3.1. Mở đầu

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá

trình khai phá tri thức từ dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc

tính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá

dữ liệu. Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và cộng sự [1] đề xuất được

chứng minh là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên

bảng quyết định gốc mà không qua tiền xử lý dữ liệu. Trong các bài toán thực tế, các

bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các

thuật toán tìm tập rút gọn dựa trên tập thô mờ theo tiếp cận truyền thống gặp nhiều

thách thức. Trường hợp bảng quyết định thay đổi, cập nhật, các thuật toán này tính lại

tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính

toán tăng lên đáng kể. Trường hợp bảng quyết định có kích thước lớn, việc thực hiện

thuật toán trên toàn bộ bảng quyết định kích thước lớn sẽ gặp khó khăn về dung lượng

bộ nhớ lưu trữ và thời gian thực hiện. Do đó, các nhà nghiên cứu đã đề xuất hướng tiếp

cận tính toán gia tăng (incremental) tìm tập rút gọn. Các thuật toán gia tăng chỉ thực

hiện cập nhật lại tập rút gọn trên phần dữ liệu thay đổi, do đó chúng giảm thiểu đáng

kể thời gian thực hiện. Theo tiếp cận tập thô truyền thống của Pawlak [19] và các mô

hình tập thô mở rộng, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất trong

trường hợp bổ sung, loại bỏ tập đối tượng, bổ sung, loại bỏ tập thuộc tính. Với trường

hợp bổ sung, loại bỏ tập đối tượng, một số thuật toán gia tăng đề xuất sử dụng khoảng

cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trận phân biệt [28, 29, 30, 31,

32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt được [37],

entropy thông tin [38], độ đo không nhất quán [39], lựa chọn mẫu kích hoạt [40]. Với

trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn

đã được đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt

45

[43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc của

thuộc tính [49], hạt tri thức [50, 51], ngoài ra còn một số phương pháp khác[80, 81,82,

83, 84, 90, 98, 102, 105, 106, 107, 108, 109, 110]

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây đã có một số nghiên cứu

đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi. Với

trường hợp bổ sung và loại bỏ tập thuộc tính, Zeng và cộng sự [16] đã giới thiệu mô

hình tập thô mờ mở rộng dựa trên các hệ thống thông tin lai (HIS) và đề xuất hai

thuật toán gia tăng (FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD) tìm ra tập rút gọn

dựa trên hàm phụ thuộc mờ. Với trường hợp bổ sung tập đối tượng, Liu và cộng sự

[17] đã xây dựng các công thức gia tăng tính hàm thành viên mờ và đề xuất thuật

toán gia tăng FIAR tìm tập rút gọn. Yang và cộng sự [18] đã xây dựng cơ chế gia

tăng tính quan hệ không phân biệt mờ và đề xuất thuật toán gia tăng IARM tìm tập

rút gọn. Yang và cộng sự [20] đề xuất hai thuật toán gia tăng (V-FS-FRS-1 và V-FS-

FRS-2) tìm tập rút gọn dựa trên ma trận phân biệt mờ. Theo tiếp cận tập thô mờ [1],

trong mấy năm gần đây một số thuật toán gia tăng tìm tập rút gọn của bảng quyết

định đã được đề xuất với các trường hợp: bổ sung và loại bỏ tập đối tượng [52, 53,

54, 55, 56], bổ sung và loại bỏ tập thuộc tính [57], và một số phương pháp khác [86,

87, 88, 89 ,93 ,94 ,95 ,96 ,97]. Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và

các cộng sự [52] xây dựng công thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật

toán giăng FIAT tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự [53]

xây dựng công thức gia tăng tính quan hệ phân biệt, trên cơ sở đó xây dựng thuật

toán gia tăng IARM tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự

[54] xây dựng cơ chế cập nhật quan hệ phân biệt và đề xuất hai thuật toán IV-FS-

FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong trường hợp bổ sung tập đối tượng.

Zhang và các cộng sự [56] đề xuất thuật toán gia tăng AIFWAR tìm tập rút gọn sử

dụng entropy có điều kiện mở rộng trong trường hợp bổ sung tập đối tượng. Ni và

các cộng sự [57] đưa ra khái niệm tập đối tượng chính (key instance set), trên cơ sở

đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa trên tập đối tượng chính

trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc mờ và

thuật toán PIAR sử dụng miền dương mờ. Với trường hợp bổ sung, loại bỏ tập thuộc

tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập rút gọn theo tiếp cận

46

tập thô mờ còn hạn chế. Zeng và các cộng sự [58] xây dựng các công thức gia tăng

cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở đó đề xuất hai

thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-

IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-

HIS(AD) trong trường hợp loại bỏ tập thuộc tính. Kết quả thực nghiệm trong các

công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian

thực hiện so với các thuật toán không gia tăng. Do đó, chúng có thể thực thi hiệu quả

trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật.Tuy nhiên, các thuật

toán nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn

tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ,

quan hệ phân biệt…), việc đánh giá độ chính xác phân lớp được thực hiện sau khi

tìm được tập rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa

tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm

được chưa chắc có độ chính xác phân lớp tốt nhất.

Từ những vấn đề phân tích nêu trên, trong chương này, trước hết luận án trình

bày các công thức gia tăng cập nhật khoảng cách mờ (được đề xuất ở Chương 2) trong

trường hợp bổ sung, loại bỏ tập đối tượng. Dựa trên các công thức tính toán gia tăng

khoảng cách mờ được xây dựng, luận án trình bày 02 thuật toán gia tăng tìm tập rút

gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper:

1) Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong

trường hợp bổ sung tập đối tượng.

2) Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng.

Hai thuật toán đề xuất nêu trên đều theo tiếp cận kết hợp filter-wrapper, hai

thuật toán này nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ

chính xác mô hình phân lớp.

Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3 phần “Danh

mục các công trình của tác giả”.

47

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng

Trong phần này, luận án trình bày thuật toán gia tăng filter-wrapper tìm tập rút

gọn sử dụng khoảng cách mờ khi bổ sung tập đối tượng vào bảng quyết định. Trước

hết, luận án xây dựng các công thức gia tăng tính khoảng cách mờ khi bổ sung một đối

tượng và một tập đối tượng.

3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng

là quan hệ

Cho bảng quyết định với và

tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Theo Mệnh đề 2.3

của Chương 2 , khoảng cách mờ sinh bởi và trên là:

Mệnh đề 3.1. Cho bảng quyết định với và 𝑅̃ là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối

tượng được bổ sung vào . Khi đó, công thức tính gia tăng khoảng cách mờ là:

Chứng minh: Giả sử , tương ứng là ma

trận tương đương mờ của trên U và , với

. Ma trận tương đương của D trên U và

. là ,

Khi đó ta có:

Mặt khác

Từ đó ta có:

48

Ví dụ 3.1 Cho bảng quyết định , với

c1 0.8 0 0

c2 0.2 0.4 0.6

c3 0.6 0.6 0.6

c4 0.4 0.4 0.4

D 0 1 1

U u1 u2 u3

Bảng 3.1 Bảng quyết định của Ví dụ 3.1

với

như sau: Luận án sử dụng quan hệ tương đương mờ 𝑅̃𝑎 trên thuộc tính

Từ đó, tính các ma trận tương đương mờ lần lượt là:

Áp dụng công thức tính khoảng cách mờ sinh bởi C và trên U là:

Tiếp theo tiến hành bổ sung một đối tượng

49

c1 0.8 0 0 0

c2 0.2 0.4 0.6 0.6

c4 0.4 0.4 0.4 1

D 0 1 1 0

c3 0.6 0.6 0.6 0

U u1 u2 u3 x1

Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.1

Các ma trận tương đương mờ sau khi bổ sung một đối tượng x1

Ta có:

=

2)Tính khoảng cách trên toàn bộ bảng quyết định theo công thức không gia tăng

Với n= 4

Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề

3.1 và công thức không gia tăng khi bổ sung thêm một đối tượng trên toàn bộ bảng

quyết định là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.

50

3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng

Từ Mệnh đề 3.1, chúng tôi giới thiệu công thức gia tăng tính khoảng cách mờ

khi thêm một tập đối tượng ở Mệnh đề 3.2

Mệnh đề 3.2. Cho bảng quyết định với và là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối

tượng gồm s phần tử được bổ sung vào U, mà s2. Với

là ma trận tương đương mờ

tương ứng trên C và D. Khi đó, công thức gia tăng khoảng cách mờ như sau:

Chứng minh: Ký hiệu tương ứng là công thức tính khoảng cách

mờ khi thêm lần lượt các đối tượng vào U, và là khoảng cách

mờ trên tập đối tượng ban đầu U.

Khi bổ sung đối tượng vào U, ta có:

(2.1)

Ở đây, lớp tương đương mờ tính trên đối tượng. Để tính toán trên

đối tượng sau khi bổ sung (tương ứng với ma trận quan hệ , công

thức (2.1) trở thành:

Với

51

Tính tương tự như vậy, ta được:

Với

Ví dụ 3.2 Cho bảng quyết định , với

Bảng 3.3 Bảng quyết định của Ví dụ 3.2

U

D

c1

c2

c4

c3

c5

c6

0.8

0.2

0.4

0.6

1

0

0

u1

0.8

0.2

0.6

0

0.2

0.8

1

u2

0.6

0.4

0.2

0.8

0.6

0.4

0

u3

với

Luận án sử dụng quan hệ tương đương mờ trên thuộc tính như sau:

Từ đó, tính các ma trận tương đương mờ lần lượt:

Khoảng cách mờ giữa hai tập thuộc tính C và D của bảng quyết định

được tính bằng công thức không gia tăng:

Tiếp theo, tiến hành bổ sung tập đối tượng

vào bảng quyết định

52

.

U

D

c1

c2

c3

c4

c5

c6

0.8

0.2

0.6

0.4

1

0

0

u1

0.8

0.2

0

0.6

0.2

0.8

1

u2

0.6

0.4

0.8

0.2

0.6

0.4

0

u3

0

0.4

0.6

0.4

0

1

1

0

0.6

0.6

0.4

0

1

1

0

0.6

0

1

0

1

0

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.2

Các ma trận tương đương mờ khi bổ sung tập đối tượng

,

53

Ta có:

2) Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

Với

Với n= 3, s=3, ta có:

Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề

3.2 và công thức không gia tăng khi bổ sung thêm tập đối tượng trên toàn bộ bảng

quyết định là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.

3.2.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn sau khi bổ sung tập

đối tượng

Mệnh đề 3.3. Cho bảng quyết định với và là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, là tập

rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử

được bổ sung vào . Khi đó ta có:

1) Nếu với mọi thì:

54

2) Nếu với mọi thì

.

Chứng minh: Giả sử tương ứng

là ma trận tương đương mờ trên C và B.

1) Nếu với mọi thì với mọi và ta

có . Do đó, , từ Mệnh đề 3.2 ta có công

thức trong trường hợp đầu tiên.

2) Nếu với mọi thì . Khi đó, ta

có và . Do đó

, ,

, .

Hơn nữa, với

. Từ Mệnh đề 3.2 ta có:

(3.1)

(3.2)

Từ B là tập rút gọn của C nên ta có:

. Từ (3.1) và (3.2) ta có:

Từ kết quả của Mệnh đề 3.3, thuật toán gia tăng filter-wrapper rút gọn thuộc

tính sử dụng khoảng cách mờ IFW_FDAR_AdObj gồm 3 bước chính:

55

Algorithm IFW_FDAR_AdObj

Đầu vào:

với , quan 1. Bảng quyết định

hệ tương đương mờ , tập rút gọn .

2. Các ma trận tương đương mờ

3. Tập đối tượng bổ sung

của với Đầu ra: Tập rút gọn xấp xỉ

độ chính xác phân loại cao nhất.

Bước 1: Khởi tạo

// T chứa ứng của viên tập rút gọn tốt nhất 1.

2. Tính các ma trận tương đương mờ trên tập đối tượng

;

Bước 2: Kiểm tra tập đối tượng thêm vào

; 3. Đặt

to s do 4. For

then ; 5. If

then Return ; // Tập xấp xỉ 6. If

không thay đổi

; //Gán lại tập đối tượng 7. Đặt

Bước 3: Tìm tập rút gọn tốt nhất

8. Tính các khoảng cách mờ ban đầu

;

9. Tính khoảng cách mờ bởi công thức gia tăng:

// Giai đoạn fifter: tìm các ứng viên cho tập

rút gọn

do While 10.

Begin 11.

56

do 12. For each

13. Begin

bởi công thức gia Tính 14.

tăng;

Tính 15.

16. End;

satisfying ; 17. Select

; 18.

; 19.

; 20.

End; 21.

//Giai đoạn Wrapper: tìm tập rút gọn với độ chính xác phân loại cao nhất

Đặt //t là số phần tử của T, 22.

;

Đặt ; 23.

For j:= 1 to t do 24.

Tính độ chính xác phân lớp trên bằng một bộ 25.

phân lớp sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp cao nhất; 26.

Return ;

3.2.4. Đánh giá độ phức tạp của thuật toán

Trong phần này, Luận án sẽ đánh giá độ phức tạp của thuật toán

IFW_FDAR_AdObj . Giả sử , tương ứng là số thuộc tính điều

kiện, số đối tượng và số đối tượng bổ sung từ tập ban đầu. Độ phức tạp của thuật toán

được tính dựa trên thuật toán trên.

Độ phức tạp của ma trận tương đương mờ ở câu lệnh 2 trên là

57

và độ phức tạp của vòng for ở câu lệnh 4, 5 là

. Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 6 (tập

rút gọn không thay đổi). Khi đó, độ phức tạp của thuật toán IFW_FDAR_AdObj là

. Ngược lại, độ phức tạp của khoảng cách mờ ở câu lệnh 9 là

, độ phức tạp tính gia tăng

là . Bằng cách tính độ phức tạp tương tự như thuật toán

FW_FDBAR ở trong phần 2.4, độ phức tạp của vòng lặp While (từ câu lệnh 10 đến

câu lệnh 21) là . Kết quả độ phức tạp của giai đoạn

fifter trong trường hợp xấu nhất là . Độ phức tạp của giai

đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ

phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là

.

Từ những phân tích trên độ phức tạp của thuật toán IFW_FDAR_AdObj là:

Nếu thực hiện thuật toán không gia tăng FW_FDBAR trực tiếp trên bảng

quyết định có số đối tượng , theo mục 2.4 của Chương 2, độ phức tạp của

FW_FDBAR là . Dựa trên kết quả này chúng ta thấy

rằng thuật toán IFW_FDAR_AdObj giảm thiểu đáng kể thời gian thực hiện, đặc biệt

trong trường hợp tập đối tượng lớn hoặc tập điều kiện lớn và nhỏ.

3.2.5. Thực nghiệm thuật toán

3.2.5.1 Mục tiêu thực nghiệm

1) Đánh giá về thời gian thực hiện của thuật toán gia tăng filter-wrapper

IFW_FDAR_AdObj với hai thuật toán gia tăng theo tiếp cận filter trên tập thô mờ IV-

FS-FRS-2 [54], IARM [18]) và hai thuật toán filter trên tập thô (ASS-IAR [40], IFSA

[36])). Đặc biệt, thuật toán IV-FS-FRS-2 là một thuật toán filter dựa trên ma trận phân

biệt mờ, trong khi IARM là một thuật toán filter dựa trên quan hệ phân biệt. ASS-IAR

là thuật toán filter dựa trên lựa chọn mẫu hoạt động, trong khi IFSA là thuật toán filter

58

dựa trên chức năng phụ thuộc.

2) Đánh giá tính hiệu quả về độ chính xác phân lớp và số lượng thuộc tính của

tập rút gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj so với bốn thuật

toán filter nêu trên.

3.2.5.2 Dữ liệu thực nghiệm

Việc thực nghiệm được triển khai trên 8 tập dữ liệu mẫu lấy từ kho dữ liệu

UCI[59] trong Bảng 3.5.

Với thuật toán IV-FS-FRS-2 và IARM bằng cách tiếp cận tập thô mờ, tất cả

các thuộc tính giá trị thực được chuẩn hóa thành giá trị trong khoảng [0, 1] trên mỗi

tập dữ liệu [54]:

(3.3)

Với , tương ứng là giá trị lớn nhất và nhỏ nhất của thuộc tính .

Quan hệ tương đương mờ [9,54] trên thuộc tính được xác định như sau:

với (3.4)

với mỗi thuộc tính có giá trị định danh hoặc nhị phân, quan hệ tương

đương mờ trong (3.5) với :

(3.5)

Trên thuộc tính quyết định , Luận án sử dụng quan hệ tương đương .

Với

(3.6)

Phân hoạch , với và là

một lớp tương đương. Khi đó, lớp tương đương được xem là lớp tương đương mờ,

ký hiệu bởi

59

. Hàm thành viên được định nghĩa là nếu và

nếu .

Với thuật toán ASS-IAR và IFSA được tiếp cận theo tập thô truyền thống, luận

án dùng thuật toán phân cụm C-mean mờ (FCM) để phân biệt dữ liệu có giá trị thực

trước khi rút gọn thuộc tính.

Mỗi tập dữ liệu được chia thành 2 phần xấp xỉ nhau: dữ liệu ban đầu (Cột 5

trong Bảng 3.5) và dữ liệu gia tăng (Cột 6 trong Bảng 3.5). Dữ liệu ban đầu được ký

hiệu là U0. Tập dữ liệu gia tăng được tách ngẫu nhiên thành 5 phần bằng nhau, mỗi

phần được ký hiệu tương ứng là U1, U2, U3, U4, U5.

Để áp dụng thuật toán gia tăng IFW_FDAR_AdObj, IV-FS-FRS-2, IARM,

ASS-IAR và IFSA, đầu tiên chúng tôi thực hiện thuật toán này trên bộ dữ liệu gốc.

Tiếp đến, thuật toán này sẽ được bổ sung lần lượt từ phần đầu tiên đến phần thứ năm

của bộ dữ liệu gia tăng.

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng

Stt

Mô tả

Bộ dữ liệu

Số đối tượng

Số đối tượng ban đầu

Tổng số

Số lớp quyết định

Giá trị thực

(1) (2) 1 Libra

(4) 360

(5) 180

Số đối tượng gia tăng (6) 180

Số thuộc tính điều kiện Giá trị định danh (8) 0

(7) 90

(9) 90

(10) 15

2 WDBC

569

284

285

30

0

30

2

3 Horse 4 Heart 5 Credit

368 270 690

183 135 345

185 135 345

22 13 15

2 2 2

15 7 9

7 6 6

6 German

1000

500

500

20

2

13

7

3

7

2

7 Cmc

1473

733

740

9

(3) Libras movement Wisconsin diagnostic breast cancer Horse colic Statlog (heart) Credit approval German credit data Contraceptive Method Choice

3

0

21

5000

2500

2500

21

8 Wave Waveform

3.2.5.3 Phương pháp, công cụ và môi trường thử nghiệm

Chúng tôi dùng bộ phân lớp CART (CART – Classification And Regression

Tree) để tính độ chính xác phân lớp trong giai đoạn wrapper của thuật toán

IFW_FDAR_AdObj. Đồng thời dùng bộ phân lớp CART để tính độ chính xác phân

60

lớp cho các thuật toán IFW_FDAR_AdObj , IV-FS-FRS-2, IARM, ASS-IAR sau khi

rút gọn tập thuộc tính. Chúng tôi sử dụng phương pháp kiểm tra chéo 10-fold và chia

bộ dữ liệu thành 10 phần xấp xỉ bằng nhau. Lấy ngẫu nhiên một phần làm bộ dữ liệu

kiểm tra, các phần còn lại làm dữ liệu huấn luyện. Quá trình được lặp lại 10 lần. Độ

chính xác được biểu diễn bởi 𝑣 ± 𝜎 với 𝑣 là giá trị độ chính xác trung bình của 10 lần

lặp và 𝜎 là sai số chuẩn (standard error). Tất cả các thử nghiệm được cài đặt trên PC

Core(TM) Intel (R) i7-3770CPU, 3.40 GHz, Windows 7 sử dụng Matlab.

3.2.5.4 Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper

IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA

Bảng 3.6 và Hình 3.1 trình bày thể hiện kết quả so sánh về thời gian thực hiện

của thuật toán IFW_FDAR_AdObj với các thuật toán IV-FS-FRS-2, IARM, ASS-IAR,

IFSA với các cột T0, T1, T2, T3, T4 tương ứng là tổng thời gian tính toán của các thuật

toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR, IFSA. Cột DS là dữ liệu

gia tăng ban đầu.

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây)

Stt

DS

T0

T1

T2

T3

T4

Bộ dữ liệu

1

Libra

2

WDBC

3

Horse

4.26 4.84 5.22 5.68 6.28 6.78 2.86 3.04 3.28 3.56 3.85 4.08 0.68 0.76 0.85 0.94 0.99 1.08

3.12 3.98 4.46 4.98 5.24 5.76 2.12 2.46 2.72 2.91 3.24 3.35 0.54 0.59 0.66 0.74 0.78 0.82

3.04 3.86 4.24 4.56 4.86 5.08 2.10 2.42 2.68 2.85 3.02 3.12 0.52 0.58 0.67 0.75 0.79 0.86

3.02 3.16 3.49 3.98 4.54 5.06 2.06 2.18 2.34 2.61 2.88 3.19 0.50 0.54 0.59 0.66 0.75 0.84

3.82 3.86 3.94 4.12 4.48 4.86 2.63 2.72 2.80 2.89 2.98 3.04 0.58 0.63 0.69 0.72 0.75 0.78

U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5

4

Heart

5

Credit

6

German

7

Cmc

8

Wave

0.11 0.14 0.18 0.20 0.21 0.22 0.52 0.66 0.81 0.92 1.04 1.15 2.02 2.21 2.58 2.92 3.28 3.46 1.55 1.78 2.01 2.28 242 2.96 160.68 175.48 189.28 202.85 219.46 226.26

0.10 0.12 0.14 0.17 0.20 0.24 0.48 0.56 0.68 0.79 0.94 1.18 2.04 2.12 2.26 2.48 2.96 3.42 1.58 1.72 1.96 2.32 2.58 2.82 154.28 162.18 173.69 188.26 202.17 220.46

0.68 0.72 0.86 0.92 1.08 1.26 0.74 0.96 1.29 1.54 1.75 1.86 2.36 2.58 2.94 3.28 3.68 4.26 1.92 2.12 2.48 2.74 2.98 3.22 182.26 198.64 210.12 228.84 252.26 274.48

0.11 0.13 0.18 0.19 0.20 0.22 0.52 0.68 0.82 0.94 1.05 1.18 2.04 2.25 2.62 2.98 3.36 3.84 1.54 1.76 1.98 2.25 2.34 2.72 164.26 182.98 198.24 209.17 223.89 238.64

61

0.14 0.15 0.17 0.18 0.19 0.20 0.56 0.62 0.69 0.78 0.88 1.12 2.86 2.92 2.98 3.06 3.12 3.18 1.86 1.98 2.12 2.28 2.45 2.64 172.58 176.12 182.64 189.25 192.46 198.16

U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5 U0 U1 U2 U3 U4 U5

Hình 3.1a. Thời gian thực hiện các thuật toán trên bộ dữ liệu Libra

4,5

4

n ệ i h

IFW_FDAR_AdObj

3,5

c ự h t

IV-FS-FRS-2

3

n a i g

IARM

i ờ h T

ASS-IAR

2,5

IFSA

2

U0

U1

U2

U3

U4

U5

Tập đối tượng của dữ liệu WDBC

62

1,2

1

n ệ i h

IFW_FDAR_AdObj

0,8

IV-FS-FRS-2

c ự h t

0,6

IARM

n a i g

0,4

ASS-IAR

i ờ h T

0,2

IFSA

0

U0

U1

U2

U3

U4

U5

Tập đối tượng của dữ liệu Horse

Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC

Hình 3.1c. Thời gian thực hiện các thuật toán trên bộ dữ liệu Horse

Hình 3.1d. Thời gian thực hiện các thuật toán trên bộ dữ liệu Heart

63

4,5

4

n ệ i h

IFW_FDAR_AdObj

3,5

c ự h t

IV-FS-FRS-2

3

n a i g

IARM

i ờ h T

ASS-IAR

2,5

IFSA

2

U0

U1

U2

U3

U4

U5

Tập dữ liệu của đối tượng German

Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit

3,5

3

n ệ i h

IFW_FDAR_AdObj

c ự h t

IV-FS-FRS-2

2,5

n a i g

IARM

2

i ờ h T

ASS-IAR

IFSA

1,5

U0

U1

U2

U3

U4

U5

Tập đối tượng của dữ liệu Cmc

Hình 3.1.f Thời gian thực hiện các thuật toán trên bộ dữ liệu German

Hình 3.1.g Thời gian thực hiện các thuật toán trên bộ dữ liệu Cmc

64

Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave

Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA

Bảng 3.6 và Hình 3.1 chỉ ra rằng thời gian thực hiện của thuật toán

IFW_FDAR_AdObj cao hơn thời gian thực hiện của các thuật toán IV-FS-FRS-2 và

IARM trên tất cả các bộ dữ liệu. Mặc dù việc tính toán khoảng cách mờ trong thuật

toán IFW_FDAR_AdObj đơn giản hơn việc tính toán độ đo trong các thuật toán IV-

FS-FRS-2, IARM, ASS-IAR và IFSA, thuật toán IFW_FDAR_AdObj cần nhiều thời

gian hơn để thực hiện phân lớp. Thời gian thực hiện của thuật toán ASS-IAR là nhỏ

nhất vì loại bỏ các dữ liệu nhiễu trong tính toán gia tăng.

3.2.5.5 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính của tập rút

gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-

FS-FRS-2, IARM, ASS-IAR, IFSA

Kết quả của độ chính xác phân lớp và số lượng thuộc tính của tập rút gọn

được trình bày trong Bảng 3.7. Theo kết quả này, số lượng thuộc tính của tập rút gọn

tại mỗi bước tăng dần, thuật toán filter-wrapper IFW_FDAR_AdObj đề xuất có số

lượng thuộc tính của tập rút gọn nhỏ hơn nhiều các thuật toán IV-FS-FRS-2, IARM,

ASS-IAR và IFSA. Đồng thời, tính chính xác và tính khái quát hóa của tập luật phân

lớp trên tập rút gọn của thuật toán IFW_FDAR_AdObj tốt hơn các thuật toán IV-FS-

FRS-2, IARM, ASS-IAR và IFSA. Hơn nữa, với việc chọn tập rút gọn có độ chính

xác cao nhất trong giai đoạn wrapper, độ chính xác phân lớp của thuật toán

IFW_FDAR_AdObj cao hơn các thuật toán IV-FS-FRS-2, IARM, ASS-IAR và IFSA

65

trên tất cả các bộ dữ liệu. Độ chính xác phân lớp của thuật toán IV-FS-FRS-2, IARM

theo tiếp cận tập thô mờ cao hơn các thuật toán ASS-IAR, IFSA theo tiếp cận tập thô

truyền thống.

Với mỗi bộ dữ liệu, chúng ta thấy rằng, độ chính xác phân lớp không tăng khi

bổ sung bộ dữ liệu gia tăng. Điều này là do có một vài đối tượng nhiễu trong bộ dữ

liệu gia tăng làm giảm độ chính xác phân lớp của thuật toán học.

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các

thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA

(Giá trị tô đậm trên mỗi hàng là giá trị tốt nhất trên bộ dữ liệu đó)

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

IFW-FDAR- AdObj

Stt

Bộ dữ liệu

Độ chính xác

Độ chính xác

Độ chính xác

Độ chính xác

Độ chính xác

Dữ liệu gốc, dữ liệu gia tăng

7

34

33

29

30

U0

0.546 ± 0.028

0.518 ± 0.037

0.508 ± 0.028

8

38

36

32

33

U1

0.594 ± 0.032

0.556 ± 0.026

0.564 ± 0.037

8

42

41

36

37

U2

0.594 ± 0.032

0.580 ± 0.019

0.588 ± 0.028

1 Libra

9

46

44

39

39

U3

0.649 ± 0.028

0.621 ± 0.034

0.632 ± 0.016

9

48

47

42

42

U4

0.649 ± 0.028

0.628 ± 0.028

0.614 ± 0.038

51

48

45

45

10

U5

0.502 ± 0.020

0.517 ± 0.014

0.582 ± 0.076

4

18

12

11

12

U0

0.889 ± 0.018

0.886 ± 0.043

0.852 ± 0.028

2 WDBC

4

18

12

11

12

U1

0.889 ± 0.018

0.886 ± 0.043

0.852 ± 0.028

0.492 ± 0.021 0.524 ± 0.042 0.556 ± 0.017 0.602 ± 0.028 0.576 ± 0.041 0.498 ± 0.024 0.846 ± 0.028 0.846 ±

0.496 ± 0.016 0.528 ± 0.023 0.542 ± 0.036 0.598 ± 0.029 0.565 ± 0.018 0.496 ± 0.012 0.836 ± 0.016 0.836 ±

5

20

14

12

13

U2

0.841 ± 0.025

0.824 ± 0.032

0.849 ± 0.034

5

20

14

12

13

U3

0.841 ± 0.025

0.824 ± 0.032

0.849 ± 0.034

6

23

15

14

15

U4

0.932 ± 0.056

0.885 ± 0.018

0.908 ± 0.019

24

16

15

16

66

6

U5

0.895 ± 0.012

0.912 ± 0.014

0.932 ± 0.056

4

8

9

7

8

U0

0.765 ± 0.048

0.712 ± 0.028

0.706 ± 0.032

4

8

9

7

8

U1

0.765 ± 0.048

0.712 ± 0.028

0.706 ± 0.032

4

9

10

8

9

U2

0.765 ± 0.048

0.708 ± 0.016

0.701 ± 0.024

3 Horse

5

10

11

9

10

U3

0.806 ± 0.052

0.769 ± 0.028

0.758 ± 0.036

5

11

11

10

10

U4

0.806 ± 0.052

0.795 ± 0.037

0.758 ± 0.036

12

12

11

12

5

U5

0.788 ± 0.048

0.744 ± 0.023

0.806 ± 0.052

3

6

7

6

7

U0

0.768 ± 0.064

0.744 ± 0.052

0.726 ± 0.038

0.028 0.818 ± 0.032 0.818 ± 0.032 0.872 ± 0.029 0.886 ± 0.025 0.705 ± 0.012 0.705 ± 0.012 0.695 ± 0.028 0.742 ± 0.036 0.758 ± 0.024 0.742 ± 0.018 0.712 ± 0.028

0.016 0.812 ± 0.018 0.812 ± 0.018 0.862 ± 0.022 0.874 ± 0.017 0.702 ± 0.026 0.702 ± 0.026 0.693 ± 0.021 0.722 ± 0.037 0.722 ± 0.037 0.718 ± 0.024 0.706 ± 0.025

3

7

8

7

8

U1

0.768 ± 0.064

0.758 ± 0.026

0.738 ± 0.018

0.728 ± 0.019

0.719 ± 0.019

4 Heart

7

8

7

8

4

U2

0.864 ± 0.048

0.758 ± 0.026

0.738 ± 0.018

0.728 ± 0.019

0.719 ± 0.019

4

8

9

8

9

U3

0.864 ± 0.048

0.815 ± 0.052

0.806 ± 0.047

0.764 ± 0.028

0.745 ± 0.024

4

8

10

8

10

U4

0.864 ± 0.048

0.815 ± 0.052

0.798 ± 0.049

0.764 ±

0.726 ±

0.028

0.021

10

11

10

9

67

5

U5

0.766 ± 0.058

0.772 ± 0.014

0.812 ± 0.072

0.738 ± 0.039

0.726 ± 0.036

8

7

7

3

8

U0

0.786 ± 0.027

0.764 ± 0.027

0.802 ± 0.048

0.684 ± 0.018

0.692 ± 0.026

8

7

7

3

8

U1

0.786 ± 0.027

0.764 ± 0.027

0.802 ± 0.048

0.684 ± 0.018

0.692 ± 0.026

9

8

8

4

9

U2

0.798 ± 0.035

0.792 ± 0.026

0.865 ± 0.026

0.696 ± 0.029

0.708 ± 0.032

5 Credit

11

10

9

4

10

U3

0.839 ± 0.029

0.818 ± 0.034

0.865 ± 0.026

12

10

11

4

11

U4

0.806 ± 0.048

0.802 ± 0.022

0.865 ± 0.026

14

10

11

13

4

U5

0.828 ± 0.014

0.826 ± 0.014

0.865 ± 0.026

6

5

5

3

6

U0

0.706 ± 0.018

0.706 ± 0.018

0.725 ± 0.026

8

6

7

5

8

U1

0.748 ± 0.029

0.748 ± 0.029

0.768 ± 0.026

8

8

8

5

8

U2

0.748 ± 0.029

0.748 ± 0.029

0.768 ± 0.026

6 German

9

9

9

6

9

U3

0.642 ± 0.038

0.642 ± 0.038

0.716 ± 0.028

9

9

10

6

10

U4

0.696 ± 0.024

0.696 ± 0.024

0.716 ± 0.028

11

10

10

6

12

U5

0.688 ± 0.032

0.690 ± 0.015

0.716 ± 0.028

5

5

6

3

6

U0

0.512 ± 0.027

0.505 ±0.038

0.692 ± 0.012

7 Cmc

6

6

7

3

7

U1

0.789 ± 0.036 0.743 ± 0.024 0.743 ± 0.024 0.684 ± 0.029 0.705 ± 0.032 0.702 ± 0.026 0.622 ± 0.037 0.622 ± 0.037 0.618 ± 0.018 0.502 ± 0.017 0.543 ±

0.782 ± 0.036 0.736 ± 0.027 0.736 ± 0.027 0.695 ± 0.028 0.714 ± 0.019 0.709 ± 0.019 0.615 ± 0.024 0.615 ± 0.033 0.602 ± 0.022 0.504 ± 0.026 0.552 ±

0.586 ± 0.048

0.576 ± 0.042

0.692 ± 0.012

7

6

6

3

7

U2

0.586 ± 0.048

0.576 ± 0.042

0.692 ± 0.012

8

7

7

4

8

U3

0.502 ± 0.035

0.502 ± 0.029

0.658 ± 0.072

8

7

7

4

8

U4

0.502 ± 0.035

0.502 ± 0.029

0.658 ± 0.072

9

8

8

9

68

4

U5

0.489 ± 0.042

0.482 ± 0.012

0.658 ± 0.072

13

10

11

5

11

U0

0.694 ± 0.036

0.682 ± 0.015

0.785 ± 0.016

14

12

13

6

13

U1

0.716 ± 0.012

0.706 ± 0.011

0.794 ± 0.025

16

12

13

6

13

U2

0.716 ± 0.012

0.765 ± 0.032

0.816 ± 0.017

8 Wave

16

14

14

7

14

U3

0.764 ± 0.043

0.728 ± 0.036

0.806 ± 0.048

18

15

15

7

15

U4

0.786 ± 0.028

0.732 ± 0.018

0.811 ± 0.016

21

17

17

17

8

U5

0.784 ± 0.016

0.702 ± 0.024

0.812 ± 0.022

0.028 0.543 ± 0.028 0.498 ± 0.036 0.498 ± 0.036 0.476 ± 0.029 0.646 ± 0.026 0.695 ± 0.038 0.695 ± 0.038 0.723 ± 0.026 0.726 ± 0.017 0.701 ± 0.029

0.037 0.552 ± 0.037 0.492 ± 0.023 0.492 ± 0.023 0.469 ± 0.024 0.652 ± 0.027 0.702 ± 0.034 0.704 ± 0.029 0.726 ± 0.029 0.716 ± 0.017 0.702 ± 0.028

0,65

p ớ

l

0,6

IFW-FDAR-AdObj

IV-FS-FRS-2

0,55

í

IARM

0,5

ASS-IAR

n â h p c á x h n h c ộ Đ

IFSA

0,45

U3

U0

U1

U4

U5

U2

Các tập đối tượng của dữ liệu Libra

Hình 3.2a. Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Libra

69

0,85

p ớ l

0,8

IFW-FDAR-AdObj

n â h p

IV-FS-FRS-2

0,75

c á x

IARM

h n í h c

0,7

ASS-IAR

ộ Đ

IFSA

0,65

U0

U3

U2

U5

U1 U4 Các tập đối tượng của dữ liệu Horse

Hình 3.2.b Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu WDBC

0,9

p ớ l

0,85

IFW-FDAR-AdObj

n â h p

IV-FS-FRS-2

0,8

c á x

IARM

h n í h c

0,75

ASS-IAR

ộ Đ

IFSA

0,7

U4

U0

U3

U1

U5

U2

Các tập đối tượng của dữ liệu Heart

Hình 3.2.c Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Horse

Hình 3.2.d Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Heart

0,8

p ớ l

0,75

IFW-FDAR-AdObj

n â h p

IV-FS-FRS-2

0,7

c á x

70

IARM

h n í h c

0,65

ASS-IAR

Hình 3.2.e Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Credit

IFSA

0,6

U0

U3

U2

U5

U1 U4 Các tập đối tượng của dữ liệu Germen

ộ Đ

0,75

0,7

p ớ l

0,65

IFW-FDAR-AdObj

n â h p

IV-FS-FRS-2

0,6

c á x

IARM

0,55

h n í h c

ASS-IAR

0,5

IFSA

0,45

U5

U1

U0

U3

U4

U2

Các tập đối tượng của dữ liệu Cmc

Hình 3.2.f Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Germen

ộ Đ Hình 3.2.g Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Cmc

71

Hình 3.2.h Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Wave

Hình 3.2 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA

3.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng

Tiếp theo, chúng tôi trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng

khoảng cách mờ khi loại bỏ tập đối tượng theo hướng tiếp cận tính toán gia tăng.

Trước hết, chúng tôi xây dựng các công thức cập nhật khoảng cách mờ khi loại bỏ một

đối tượng.

3.3.1. Cập nhật khoảng cách mờ khi loại bỏ một đối tượng

Mệnh đề 3.4: Cho bảng quyết định với và là một

quan hệ tương đương mờ được xác định trên miền giá trị của tập thuộc tính điều

kiện. Giả sử đối tượng bị loại khỏi U. Khi đó, công thức tính khoảng cách mờ

như sau:

(3.7)

Với tương ứng là khoảng

cách mờ trên các tập đối tượng .

Chứng minh: Giả sử rằng tương ứng là ma trận tương

đương mờ của

72

trên và . Khi đó, ta có:

Ví dụ 3.3. Cho bảng quyết định với

U

D

c1

c2

c3

c4

c5

c6

0.8

0.2

0.6

0.4

1

0

0

u1

0.8

0.2

0

0.6

0.2

0.8

1

u2

0.6

0.4

0.8

0.2

0.6

0.4

0

u3

0

0.4

0.6

0.4

0

1

1

u4

0

0.6

0.6

0.4

0

1

1

u5

0

0.6

0

1

0

1

0

u6

Bảng 3.8 Bảng quyết định của Ví dụ 3.3

với

Luận án sử dụng quan hệ tương đương mờ trên thuộc tính như sau:

Từ đó, tính các ma trận tương đương mờ lần lượt:

,

73

,

,

Khoảng cách mờ giữa hai tập thuộc tính C và D của bảng quyết định

được tính bằng công thức không gia tăng:

Tiếp theo, ta tiến hành loại bỏ 1 đối tượng khỏi bảng quyết định

74

.

U

D

c1

c2

c3

c4

c5

c6

0.8

0.2

0.6

0.4

1

0

0

u1

0.8

0.2

0

0.6

0.2

1

0.8

u2

0

0.4

0.6

0.4

0

1

1

u3

0

0.6

0.6

0.4

0

1

1

u4

0

0.6

0

1

0

0

1

u5

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.4

,

,

,

,

Các ma trận tương đương mờ khi loại bỏ 1 đối tượng

75

2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề

3.4 và công thức không gia tăng khi loại bỏ 1 đối tượng trên toàn bộ bảng quyết định

là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.

3.3.2. Cập nhật khoảng cách mờ khi loại bỏ tập đối tượng

Trên cơ sở Mệnh đề 3.4, chúng tôi xây dựng công thức cập nhật khoảng cách

mờ trong trường hợp loại bỏ tập đối tượng bởi Mệnh đề 3.5 như sau:

Mệnh đề 3.5. Cho bảng quyết định với và là một

quan hệ tương đương mờ. Giả sử tập đối tượng gồm s phần tử

bị loại khỏi U, . Ma trận tương đương mờ và ma trận tương đương trên C và D

tương ứng được xác định bởi .

Khi đó, công thức cập nhật khoảng cách mờ như sau:

(3.8)

Với

Chứng minh: Ký hiệu tương ứng là khoảng cách mờ khi

loại bỏ lần lượt các đối tượng khỏi U và là khoảng cách mờ trên

tập đối tượng ban đầu U. Áp dụng Mệnh đề 3.4, ta có:

76

Tính tương tự như vậy, ta được:

Vì vậy,

Với

Ví dụ 3.4 Cho bảng quyết định , với

U

D

c4

c5

c6

c1

c2

c3

0.4

1

0

0

0.8

0.2

0.6

u1

0.6

0.2

0.8

1

0.8

0.2

0

u2

0.2

0.6

0.4

0

0.6

0.4

0.8

u3

0.4

0

1

1

0

0.4

0.6

u4

0.4

0

1

1

0

0.6

0.6

u5

1

0

1

0

0

0.6

0

u6

Bảng 3. 10 Bảng quyết định của Ví dụ 3.4

với

Luận án sử dụng quan hệ tương đương mờ trên thuộc tính như sau:

Từ đó, tính các ma trận tương đương mờ lần lượt:

,

,

,

77

Khoảng cách mờ giữa hai tập thuộc tính C và D của bảng quyết định

được tính bằng công thức không gia tăng:

Tiếp theo, ta tiến hành loại bỏ tập đối tượng

khỏi bảng quyết

định

.

78

D

U

0

0.8

0.2

0.6

0.4

1

0

1

0.8

0.2

0

0.6

0.2

0.8

0

0.6

0.4

0.8

0.2

0.6

0.4

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.5

Ta có các ma trận

2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề

3.5 và công thức không gia tăng khi loại bỏ tập đối tượng trên toàn bộ bảng quyết định

là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.

3.3.3. Thuật toán fifter-wrapper để cập nhật tập rút gọn khi loại bỏ tập đối tượng

Cho bảng quyết định với và là một quan hệ

tương đương mờ. Giả sử tập đối tượng gồm s phần tử bị loại

khỏi U,

79

. Ma trận tương đương mờ và ma trận tương đương trên C và D tương

ứng được xác định bởi . Khi đó,

công thức cập nhật khoảng cách phân mờ như sau:

là một

Mệnh đề 3.6. Cho bảng quyết định với và

quan hệ tương đương mờ xác định trên miền giá trị của tập thuộc tính điều kiện.

là tập rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử

bị loại khỏi , . Khi đó ta có:

1) Nếu với thì

2) Nếu với thì .

Chứng minh. Giả sử tương ứng

là ma trận tương đương mờ trên C và B sau khi loại bỏ tập đối tượng 𝛥𝑈. Có hai trường

hợp xảy ra:

- Nếu với thì với mọi ta có

. Do đó, . Từ Mệnh đề 3.5 ta có công thức (1).

- Nếu với mọi thì . Khi đó ta có

và . Do đó, ta có

, và

, . Hơn nữa, với

, có hai công thức

.

Từ kết quả của Mệnh đề 3.5, ta có:

80

(3.9)

(3.10)

Mặt khác do B là tập rút gọn của C, ta có

Từ (3.9) và (3.10) ta có công thức 2).

Dựa trên kết quả của Mệnh đề 3.6, thuật toán filter-wrapper cập nhật tập rút gọn

xấp xỉ có độ chính xác phân lớp tốt nhất sử dụng khoảng cách mờ khi loại bỏ tập đối

tượng được thực hiện như sau:

81

Algorithm IFW_FDAR_DelObj Input: Đầu vào

với , một quan 1. Bảng quyết định

hệ tương đương mờ , tập rút gọn ;

2. Ma trận tương đương mờ

3. Tập đối tượng gồm s phần tử bị loại bỏ

,

của có độ

Output: Tập rút gọn xấp xỉ chính xác phân lớp cao nhất.

;

to do

then 1. 2. Đặt 3. For 4. If

then Return ; 5. If

; 6. Đặt

7. Tính các FPDs ban đầu:

8. Tính khoảng cách mờ bởi Mệnh đề 3.6 khi loại tập đối tượng :

// Giai đoạn Fifter, tìm các ứng viên cho tập rút gọn

do 9. While

do

10. Begin 11. For each 12. Begin

Tính bởi Mệnh đề 13.

;

3.6 khi loại bỏ tập đối tượng Tính 14.

;

End; 15.

Chọn sao cho ; 16.

; 17.

; 18.

82

19.

End; 20.

// Giai đoạn Wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất

Đặt // ; 21.

Đặt ; 22.

For j:= 1 to t do

23. 24. Tính độ chính xác phân lớp trên bằng một bộ phân

lớp sử dụng phương pháp 10-fold;

với có độ chính xác phân lớp cao nhất; 25.

Return ;

3.3.4. Phân tích độ phức tạp của thuật toán

Độ phức tập của thuật toán IFW_FDAR_DelObj được tính như bên dưới. Giả

sử . Độ phức tạp của vòng lặp trong câu lệnh 3 (For) là .

Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 5 (khi tập rút gọn

không thay đổi). Độ phức tạp của thuật toán IFW_FDAR_DelObj là .

Ngược lại, độ phức tạp của thuật toán tính khoảng cách mờ ở câu lệnh 7 là . Để

tính độ phức tạp của thuật toán khi loại bỏ tập ra khỏi U ở câu lệnh 8, độ phức tạp

. Để tính giá trị của , ta phải tính là

. Độ phức tạp của

. Do đó, độ phức tạp của vòng lặp While là và độ là

phức tạp của giai đoạn fifter trong trường hợp xấu nhất là . Giả sử độ

phức tạp của bộ phân lớp là khi đó độ phức tạp của giai đoạn wrapper là

.

Tóm lại, độ phức tạp của thuật toán IFW_FDAR_DelObj là

. Khi áp dụng thuật toán FW_FDBAR trực tiếp vào bảng

quyết định với đối tượng, từ kết quả của phần 2.4 độ phức tạp của

83

FW_FDBAR là . Nếu nhỏ, thuật toán IFW_FDAR_DelObj

tốt hơn thuật toán FW_FDBAR. Nhưng nếu và đều lớn, thuật toán

FW_FDBAR tốt hơn thuật toán IFW_FDAR_DelObj.

3.3.5. Thực nghiệm thuật toán

3.3.5.1 Mục tiêu thử nghiệm

Trong phần này chúng tôi cài đặt thử nghiệm để đánh giá độ chính xác phân

loại của thuật toán IFW_FDAR_DelObj so với các thuật toán gia tăng dựa trên tập thô

theo tiếp cận fifter IFSD [36]. IFSD là thuật toán gia tăng rút gọn thuộc tính dựa trên

hàm phụ thuộc khi loại bỏ tập đối tượng.

3.3.5.2 Dữ liệu thử nghiệm

Các thử nghiệm được triển khai trên một số bộ dữ liệu mẫu lấy từ kho dữ liệu

UCI [59] trong Bảng 3.12. Tất cả dữ liệu mẫu trong Bảng 3.12 là dữ liệu đã được rời

rạc, luận án sử dụng quan hệ tương đương mờ như sau:

Với và .

Dùng bộ phân lớp CART để tính toán độ chính xác phân lớp trong giai đoạn

wrapper của thuật toán IFW_FDAR_DelObj. Chúng tôi cũng sử dụng bộ phân lớp

CART để tính độ chính xác phân lớp cho các thuật toán IFW_FDAR_DelObj, IFSD

sau khi rút gọn thuộc tính. Đồng thời sử dụng phương pháp kiểm tra chéo 10-fold.

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng

Stt

Bộ dữ liệu

Số đối tượng

Số lớp quyết định

Số các thuộc tính điều kiện

1 Audiology

226

69

24

2 Dermatology

366

34

6

3 Arrhythmia

452

279

16

4 Mfeat-factor

2000

216

10

5

Chess-kr-vs-kp

3196

36

2

6

Satimage

6435

36

6

7 Mushroom

8124

22

2

8

Letter

20000

16

26

84

Để đánh giá hiệu quả về thời gian thực hiện và độ chính xác của thuật toán,

chúng tôi chọn xóa ngẫu nhiên 10%, 20%, 30%, 40% đối tượng trên mỗi bộ dữ liệu

khi xóa các tập đối tượng ký hiệu tương ứng U1, U2, U3, U4. Dữ liệu ban đầu ký hiệu

là U.

3.3.5.3 Kết quả so sánh thời gian thực hiện của thuật toán IFW_FDAR_DelObj với

thuật toán IFSD

Bảng 3.13 so sánh kết quả về thời gian thực hiện của thuật toán

IFW_FDAR_DelObj với thuật toán IFSD, mà các cột T1, T2 tương ứng là thời gian

thực hiện của IFW_FDAR_DelObj, IFSD. Bảng 3.12 chỉ ra rằng thời gian thực hiện

của thuật toán IFW_FDAR_DelObj cao hơn thuật toán IFSD trên tất cả các bộ dữ liệu

vì thuật toán IFW_FDAR_DelObj cần nhiều thời gian để xử lý bộ phân lớp.

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD (tính bằng giây)

Stt

Bộ dữ liệu

1

Audiology

2

Dermatology

3

Arrhythmia

4 Mfeat-factor

5

Chess-kr-vs-kp

6

Statimage

T1 1.15 1.84 2.26 2.98 1.18 2.16 2.86 3.12 9.98 13.26 18.64 22.36 28.67 34.16 39.08 48.58 21.06 28.65 34.08 39.89 58.29 74.28 79.14

T2 0.98 1.36 1.82 2.24 1.02 1.84 2.26 2.84 7.06 9.84 12.16 15.06 23.16 28.68 32.36 38.64 18.06 23.08 29.16 33.18 51.18 68.24 72.06

Tập đối tượng bị loại U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3

7 Mushroom

8

Letter

86.68 19.26 24.76 30.12 39.08 116.78 128.68 199.46 228.69

78.85 16.46 20.08 24.58 32.06 98.06 112.87 178.89 202.65

U4 U1 U2 U3 U4 U1 U2 U3 U4

3,5

3

n ệ i h

2,5

2

c ự h t

1,5

n a i g

IFW_FDAR_Del Obj

1

IFSD

i ờ h T

0,5

0

U1 U2 U3 U4

Tập đối tượng bị loại của Bộ dữ liệu Audiology

85

86

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD

3.3.5.4 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

thu được bởi thuật toán IFW_FDAR_DelObj và thuật toán IFSD

Kết quả của độ chính xác phân lớp thu được bởi IFW_FDAR_DelObj và IFSD

được trình bày ở Bảng 3.14 với là số lượng thuộc tính của tập rút gọn, Acc là độ

chính xác phân lớp của tập rút gọn. Theo kết quả trong bảng này, độ chính xác phân

lớp của thuật toán IFW_FDAR_DelObj cao hơn thuật toán IFSD trên tất cả các bộ dữ

liệu. Hơn nữa, số thuộc tính trong tập rút gọn của thuật toán IFW_FDAR_DelObj nhỏ

hơn thuật toán IFSD.

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD

IFW_FDAR_DelObj

IFSD

Stt

Bộ dữ liệu

RO

Acc

Acc

15

0.724 ± 0.058

10

0.729 ± 0.086

14

0.692 ± 0.044

9

0.710 ± 0.032

1

Audiology

12

0.687 ± 0.064

8

0.692 ± 0.037

12

0.689 ± 0.042

8

0.691 ± 0.056

11

0.894 ± 0.038

7

0.901 ± 0.024

10

0.923 ± 0.062

6

0.931 ± 0.048

2

Dermatology

10

0.923 ± 0.062

6

0.931 ± 0.022

8

0.912 ± 0.028

5

0.927 ± 0.054

22

0.745 ± 0.086

15

0.756 ± 0.058

21

0.713 ± 0.072

13

0.723 ± 0.072

3

Arrhythmia

19

0.722 ± 0.069

11

0.739 ± 0.064

19

0.722 ± 0.034

11

0.739 ± 0.027

18

0.782 ± 0.052

4 Mfeat-factor

12

0.831 ± 0.064

U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1

17

0.815 ± 0.083

87

0.831 ± 0.086

12

15

0.803 ± 0.092

0.822 ± 0.079

10

14

0.798 ± 0.058

0.803 ± 0.064

9

29

0.848 ± 0.073

0.861 ± 0.064

18

28

0.840 ± 0.058

0.844 ± 0.069

16

5

Chess-kr-vs-kp

27

0.831 ± 0.049

0.838 ± 0.018

14

27

0.831 ± 0.049

0.838 ± 0.026

14

12

0.837 ± 0.069

0.842 ± 0.046

10

12

0.837 ± 0.074

0.843 ± 0.038

10

6

Statimage

11

0.815 ± 0.082

0.820 ± 0.025

8

10

0.804 ± 0.078

0.819 ± 0.048

8

6

0.983 ± 0.038

0.987 ± 0.026

6

6

0.983 ± 0.069

0.991 ± 0.059

5

7 Mushroom

5

0.968 ± 0.026

0.972 ± 0.064

4

5

0.968 ± 0.041

0.972 ± 0.025

4

10

0.842 ± 0.064

0.857 ± 0.047

8

9

0.852 ± 0.073

0.860 ± 0.058

8

8

Letter

8

0.822 ± 0.028

0.835 ± 0.019

7

8

0.822 ± 0.034

0.829 ± 0.026

6

U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4 U1 U2 U3 U4

88

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và IFSD

3.4. Kết luận Chương 3

Trong Chương 3, luận án trình bày kết quả xây dựng các công thức gia tăng tính

khoảng cách mờ đề xuất ở Chương 2 trong trường hợp bổ sung, loại bỏ tập đối tượng.

Dựa vào các công thức gia tăng được xây dựng, luận án trình bày kết quả đề xuất của

hai thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận filter-wrapper:

1) Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong

trường hợp bổ sung tập đối tượng.

2) Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng.

Các thuật toán gia tăng đề xuất sử dụng độ đo khoảng cách mờ nên hiệu quả hơn

các thuật toán gia tăng khác sử dụng quan hệ phân biệt giữa các cặp đối tượng trong

tập thô mờ. Kết quả thử nghiệm trên các tập dữ liệu mẫu từ kho dữ liệu UCI cho

những kết luận quan trọng:

89

Số thuộc tính trong tập rút gọn của thuật toán IFW_FDAR_AdObj nhỏ hơn thuật

toán IV-FS-FRS-2 [54], IARM [18], ASS-IAR [40] và IFSA [36]. Hơn nữa thuật toán

IFW_FDAR_AdObj có độ chính xác phân lớp cao hơn các thuật toán IV-FS-FRS-2,

IARM, ASS-IAR và IFSA.

Số thuộc tính trong tập rút gọn của thuật toán IFW_FDAR_DelObj nhỏ hơn thuật

toán IFSD [36] và thuật toán IFW_FDAR_DelObj có độ chính xác phân lớp cao hơn

thuật toán IFSD.

Về thời gian thực hiện của các thuật toán gia tăng filter-wrapper rút gọn thuộc

tính trong trường hợp bổ sung, loại bỏ tập đối tượng đề xuất đều cao hơn so với các

thuật toán gia tăng filter truyền trống trên tất cả các tập dữ liệu, nguyên nhân là các

thuật toán gia tăng kết hợp filter-wrapper đều mất thêm chi phí thời gian thực hiện bộ

phân lớp trong giai đoạn wrapper, đây cũng là nhược điểm chung của các thuật toán

theo tiếp cận filter-wrapper. Tuy nhiên, với mục tiêu giảm thiểu độ phức tạp và tăng

độ chính xác của tập luật phân lớp thì chi phí về thời gian tìm tập rút gọn của thuật

toán đề xuất là chấp nhận được.

90

CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER

TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH

Tiếp nối sự thành công của thuật toán gia tăng filter-wrapper sử dụng khoảng

cách mờ trong chương trước, Chương 4 của luận án tiếp tục đề xuất hai thuật toán gia

tăng filter-wrapper sử dụng công thức tính khoảng cách mờ rút gọn thuộc tính trong

trường hợp bổ sung, loại bỏ tập thuộc tính. Dựa trên công thức gia tăng cập nhật

khoảng cách mờ đề xuất, chương này xây dựng các thuật toán gia tăng rút gọn thuộc

tính của bảng quyết định trong trường hợp bổ sung, loại bỏ tập thuộc tính. Thử nghiệm

trên một số bộ dữ liệu cho thấy, thuật toán đề xuất hiệu quả hơn thuật toán gia tăng

filter truyền thống theo tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian

thực hiện của thuật toán.

4.1. Mở đầu

Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có

số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu

thuộc tính. Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình

huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị

tập đối tượng, tập thuộc tính thay đổi. Trong đó, trường hợp bổ sung, loại bỏ tập thuộc

tính xuất hiện ngày càng phổ biến. Ví dụ bài toán chẩn đoán bệnh trong lĩnh vực y tế,

các triệu chứng lâm sàng được xem như các thuộc tính ban đầu để bác sĩ chẩn đoán

bệnh. Sau đó, các chỉ số xét nghiệm được xem như các thuộc tính tiếp theo liên tục

được bổ sung, cập nhật nhằm hỗ trợ bác sĩ trong việc nâng cao độ chính xác chẩn

đoán. Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc

tính trên các bảng quyết định kích thước lớn và thay đổi. Các phương pháp rút gọn

thuộc tính theo tiếp cận truyền thống trên các bảng quyết định như vậy gặp hai thách

thức. Thứ nhất, với các bảng quyết định có kích thước lớn, việc thực hiện các thuật

toán tìm tập rút gọn gặp khó khăn về không gian lưu trữ và tốc độ tính toán. Thứ hai,

với các bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lại tập rút

gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời gian tính toán

tăng lên đáng kể. Để giải quyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng

tiếp cận tính toán gia tăng tìm tập rút gọn. Các thuật toán gia tăng chỉ cập nhật lại tập

rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng

quyết định ban đầu. Do đó, chúng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa,

91

các thuật toán gia tăng có thể thực hiện được trên các bảng quyết định kích thước lớn

bằng giải pháp chia nhỏ bảng quyết định thành nhiều phần, tập rút gọn được tính khi

lần lượt bổ sung từng phần.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã và

đang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua. Theo

tiếp cận lý thuyết tập thô truyền thống của của Pawlak [19] và các mô hình tập thô mở

rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng

quyết định thay đổi. Với trường hợp bổ sung, loại bỏ tập đối tượng, một số thuật toán

gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27],

ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan

hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất quán [39], lựa

chọn mẫu kích hoạt [40]. Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật

toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương [41], entropy thông

tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách

[48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51].

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và

loại bỏ tập đối tượng [52, 53, 54, 55, 56], bổ sung và loại bỏ tập thuộc tính [57]. Với

trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công

thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn

khi bổ sung tập đối tượng. Yang và các cộng sự [53] xây dựng công thức gia tăng tính

quan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn

khi bổ sung tập đối tượng. Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệ

phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong

trường hợp bổ sung tập đối tượng. Trong Chương 2 của luận án này đã xây dựng công

thức gia tăng tính khoảng cách mờ, trên cơ sở đó trong Chương 3 đã đề xuất hai thuật

toán gia tăng filter – wrapper tìm tập rút gọn: thuật toán IFW_FDAR_AdObj trong

trường hợp bổ sung tập đối tượng và thuật toán IFW_FDAR_DelObj trong trường hợp

loại bỏ tập đối tượng. Zhang và các cộng sự [56] đề xuất thuật toán gia tăng AIFWAR

tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp bổ sung tập đối

tượng. Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính (key instance set),

trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa trên tập đối tượng

92

chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc

mờ và thuật toán PIAR sử dụng miền dương mờ. Với trường hợp bổ sung, loại bỏ tập

thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập rút gọn theo tiếp

cận tập thô mờ còn hạn chế. Zeng và các cộng sự [58] xây dựng các công thức gia

tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở đó đề xuất

hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán

FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-

HIS(AD) trong trường hợp loại bỏ tập thuộc tính. Kết quả thực nghiệm trong các công

trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện

so với các thuật toán không gia tăng. Do đó, chúng có thể thực thi hiệu quả trên các

bảng quyết định có kích thước lớn và thay đổi, cập nhật. Tuy nhiên, phần lớn các thuật

toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống. Với cách tiếp cận này,

tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xây dựng. Việc

đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó,

tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: số lượng thuộc

tính tập rút gọn và độ chính xác phân lớp. Với trường hợp bổ sung, loại bỏ tập đối

tượng nêu trên, các tác giả trong [55, 56] đã đề xuất các thuật toán gia tăng tìm tập rút

gọn theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạn filter tìm các ứng viên tập

rút gọn khi bổ sung thuộc tính có độ quan trọng lớn nhất, giai đoạn wapper tìm tập rút

gọn có độ chính xác phân lớp cao nhất. Các kết quả thử nghiệm cho thấy, tập rút gọn

thu được của cách tiếp cận filter-wrapper giảm thiểu số lượng thuộc tính và cải thiện

độ chính xác phân lớp so với cách tiếp cận filter.

Đồng thời qua kết quả nghiên cứu Chương 3 của luận án cho thấy sự hiệu quả

của thuật toán gia tăng filter-wrapper rút gọn thuộc tính trong trường hợp bổ sung, loại

bỏ tập đối tượng sử dụng khoảng cách mờ. Vì vậy, động lực nghiên cứu của chương

này là tiếp tục áp dụng hướng tiếp cận filter-wrapper vào việc xây dựng các thuật toán

gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập thuộc tính nhằm giảm

thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp.

Từ những vấn đề phân tích nêu trên, trong chương này, trước hết luận án trình

bày các công thức gia tăng cập nhật khoảng cách mờ (được đề xuất ở Chương 2) trong

trường hợp bổ sung, loại bỏ tập thuộc tính. Dựa trên các công thức tính toán gia tăng

khoảng cách mờ được xây dựng, luận án trình bày 02 thuật toán gia tăng tìm tập rút

93

gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper:

1) Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trong

trường hợp bổ sung tập thuộc tính.

2) Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trong

trường hợp loại bỏ tập thuộc tính.

Hai thuật toán đề xuất nêu trên đều theo tiếp cận kết hợp filter-wrapper, hai thuật

toán nêu trên nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính

xác mô hình phân lớp.

Kết quả nghiên cứu ở chương này được công bố ở công trình số 4, phần “Danh

mục công trình của tác giả”.

4.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính

4.2.1. Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính

Cho bảng quyết định với khi đó, khoảng cách

mờ giữa hai tập thuộc tính C và D theo Mệnh đề 2.3 được đề xuất trong Chương 2

được xác định như sau:

Mệnh đề 4.1. Cho bảng quyết định với . Giả sử tập

thuộc tính điều kiện B được bổ sung vào C với . Giả sử ,

, là các ma trận tương đương mờ của các quan hệ

tương đương mờ trên B, C, D tương ứng. Khi đó ta có:

1) Nếu với mọi thì

2) Nếu với mọi thì

3) Nếu với mọi thì

94

Chứng minh: Khi bổ sung thêm B vào C, theo mục 2.4 của Chương 2 về khoảng cách

mờ được xác định như sau:

1) Nếu với mọi thì và .

Từ đó ta có:

2) Từ ta có và với mọi . Từ đó ta có:

3) Từ ta có và với mọi . Từ đó ta có:

4.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính

Từ công thức gia tăng tính khoảng cách mờ trong Mệnh đề 4.1 ta có Mệnh đề 4.2

sau đây:

Mệnh đề 4.2. Cho bảng quyết định với và là

tập rút gọn dựa trên khoảng cách mờ. Giá sử tập thuộc tính điều kiện B được bổ sung

vào C với . Đặt , , là các ma

trận tương đương mờ của các quan hệ tương đương mờ

95

trên B, C, D tương

ứng. Khi đó ta có:

1) Nếu với mọi thì R là tập rút gọn của

.

2) Nếu với mọi thì B chứa một tập rút gọn của

.

Chứng minh:

1) Theo Mệnh đề 4.1, nếu với thì

. Do R là tập rút gọn của DS nên

. Theo Định nghĩa 2.1 của Chương 2, R

là tập rút gọn của .

2) Cũng theo Mệnh đề 4.1, nếu với thì

, nghĩa là tồn tại sao cho thỏa mãn

Định nghĩa 1 về tập rút gọn của .

Dựa trên Mệnh đề 4.2, đề xuất thuật toán gia tăng filter-wrapper tìm tập rút gọn

trong bảng quyết định sử dụng khoảng cách mờ khi bổ sung tập thuộc tính B vào C.

Thuật toán gồm hai giai đoạn: giai đoạn filter tìm các ứng viên cho tập rút gọn mỗi khi

bổ sung thuộc tính có độ quan trọng lớn nhất, giai đoạn wapper tìm tập rút gọn có độ

chính xác phân lớp cao nhất. Thuật toán được mô tả như sau:

Thuật toán IFW_FDAR_AA (Incremental Filter-Wrapper Fuzzy Distance-based Attribute Reduction Algorithm when Adding Attributes).

Đầu vào:

Bảng quyết định với , tập 1)

rút gọn , các ma trận tương đương mờ

, của các quan hệ tương đương mờ ,

khoảng cách mờ ;

96

Tập thuộc tính bổ sung B với ; 2)

Đầu ra: Tập rút gọn của

Bước 1: Khởi tạo và kiểm tra tập thuộc tính bổ sung

1. ; // Chứa các ứng viên tập rút gọn

Tính ma trận quan hệ tương đương mờ ; 2.

với mọi then Return ; 3. If

với mọi then ; //Tìm 4. If

tập rút gọn trong tập B

Bước 2: Thực hiện thuật toán tìm tập rút gọn

// Giai đoạn filter, tìm các ứng viên cho

tập rút gọn xuất phát từ tập R.

do 5. While

6. Begin

each tính 7. For

với

được tính bởi công thức trong Mệnh đề 3.7.

sao cho ; 8. Chọn

; 9.

; 10.

11. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất

Đặt //t là số phần tử của T, T chứa các 12.

chuỗi thuộc tính được chọn, nghĩa là

;

13. Đặt

14. For j = 1 to t tính độ chính xác phân lớp trên

bằng một bộ phân lớp;

với có độ chính xác phân lớp cao nhất. 15.

Return ;

97

Tiếp theo, chúng tôi đánh giá độ phức tạp của thuật toán IFW_FDAR_AA. Ký

hiệu tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính điều

kiện bổ sung thêm. Ở câu lệnh 2, độ phức tạp tính quan hệ tương đương mờ là

. Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 3 (tập rút gọn

không thay đổi). Khi đó, độ phức tạp thuật toán IFW_FDAR_AA là .

Ngược lại xét vòng lặp While từ câu lệnh 5 đến 11, để tính ta phải tính

. Độ phức tạp tính là . Do đó, độ

phức tạp của vòng lặp While là và độ phức tạp của giai đoạn filter là

. Giả sử độ phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai

đoạn wrapper là . Vì vậy, độ phức tạp của thuật toán IFW_FDAR_AA là

. Nếu thực hiện thuật toán không gia tăng filter-wrapper

FW_FDAR trong mục 2.4 của Chương 2 trực tiếp trên bảng quyết định có số thuộc

tính , độ phức tạp là . Do đó, thuật toán gia tăng

IFW_FDAR_AA giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong

trường hợp nhỏ.

4.2.3. Thực nghiệm và đánh giá thuật toán

4.2.3.1. Mục tiêu thực nghiệm

Trong phần này, chúng tôi trình bày kết quả thử nghiệm nhằm đánh giá tính

hiệu quả của thuật toán gia tăng filter-wrapper đề xuất IFW_FDAR_AA với thuật toán

gia tăng filter FRSA-IFS-HIS(AA) trong công trình [58] về số lượng thuộc tính tập rút

gọn và độ chính xác của mô hình phân lớp. FRSA-IFS-HIS(AA) là thuật toán gia tăng

filter tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ trong trường hợp bổ

sung tập thuộc tính.

4.2.3.2. Dữ liệu thực nghiệm

98

Việc thử nghiệm được thực hiện trên 06 bộ dữ liệu mẫu lấy từ kho dữ liệu UCI

[59] được mô tả ở Bảng 3.14. Trên mỗi tập dữ liệu, với các thuộc tính có miền giá trị

thực, chúng tôi chuẩn hóa miền dữ liệu về đoạn [0, 1] sử dụng công thức [9,54]

với max(a), min(a) là giá trị lớn nhất, nhỏ nhất trên miền giá trị thuộc tính a. Chúng tôi

sử dụng quan hệ tương đương mờ trong [9,54] trên thuộc tính a như sau

với

Với các thuộc tính có miền giá trị định danh hoặc nhị phân (nominal hoặc

binary), chúng tôi sử dụng quan hệ tương đương , với

Trên thuộc tính quyết định chúng tôi sử dụng quan hệ tương đương

. Phân hoạch với là một lớp

tương đương. Khi đó, lớp tương đương được xem là lớp đương đương mờ, ký

hiệu là , với hàm thuộc nếu và nếu .

Mỗi tập thuộc tính được chia ngẫu nhiên thành hai phần: tập thuộc tính ban đầu

(cột 5 Bảng 4.1) ký hiệu là C0, và tập thuộc tính gia tăng (cột 6 Bảng 4.1). Tập thuộc

tính gia tăng được chia ngẫu nhiên thành 5 phần bằng nhau, ký hiệu tương ứng là C1,

C2, C3, C4, C5.

Bảng 4.1 Bộ dữ liệu thử nghiệm

STT

Tập dữ liệu

Số lớp quyết định

Số đối tượng

Số thuộc tính điều kiện

Số thuộc tính ban đầu

Số thuộc tính gia tăng

(1)

(2)

(3)

(4)

(5)

(6)

(7)

1

360

90

45

45

15

Libras movement (Libra)

2

569

30

15

15

2

Wisconsin diagnostic breast cancer (WDBC)

3

Horse colic (Horse)

368

22

12

10

2

4

690

15

5

10

2

Credit approval (Credit)

5

1000

20

10

10

2

German credit data (German)

6 Waveform (Wave)

5000

21

10

3

11 4.2.3.3. Phương pháp, công cụ và môi trường thử nghiệm

99

Để tiến hành thử nghiệm hai thuật toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA), trước hết chúng tôi thực hiện hai thuật toán trên tập dữ liệu với tập thuộc

tính ban đầu (coi tập thuộc tính ban đầu là tập gia tăng). Tiếp theo, thực hiện hai thuật

toán khi lần lượt bổ sung từ phần thứ nhất đến phần thứ năm của tập thuộc tính gia

tăng. Với thuật toán đề xuất theo tiếp cận lai filter-wrapper IFW_FDAR_AA, chúng tôi sử dụng bộ phân lớp CART (cây phân lớp, hồi quy) để tính độ chính xác phân lớp

trong bước tìm tập rút gọn có độ chính xác tốt nhất. Chúng tôi sử dụng phương pháp

kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được chia thành 10 phần xấp xỉ bằng nhau,

lấy ngẫu nhiên 1 phần làm bộ dữ liệu kiểm tra, 9 phần còn lại làm dữ liệu huấn luyện.

Quá trình được lặp lại 10 lần. Công cụ thực hiện thử nghiệm là Matlab R2016a. Môi

trường thử nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) i7-3770CPU

@3.40 GHz, sử dụng hệ điều hành Windows 7, 32 bit.

4.2.3.4. Kết quả so sánh số lượng thuộc tính của tập rút gọn và độ chính xác phân lớp

của hai thuật toán IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)

Bảng 4.2 và Hình 4.1 trình bày kết quả so sánh về số lượng thuộc tính tập rút

gọn (ký hiệu là ) và độ chính xác phân lớp của hai thuật toán IFW_FDAR_AA và

FRSA-IFS-HIS(AA). Kết quả Bảng 4.2 cho thấy, với mỗi bước lặp khi bổ sung tập

thuộc tính gia tăng và trên toàn bộ thuộc tính, độ chính xác phân lớp của

IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) một chút trên tất cả các tập dữ liệu. Hơn nữa, số thuộc tính tập rút gọn của IFW_FDAR_AA nhỏ hơn khá nhiều FRSA- IFS-HIS(AA), đặc biệt trên tập rút gọn có số thuộc tính lớn như Libra. Do đó, thời gian thực hiện và tính khái quát hóa của tập luật phân lớp trên tập rút gọn của

IFW_FDAR_AA hiệu quả hơn so với FRSA-IFS-HIS(AA).

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của IFW_FDAR_AA và FRSA-IFS-HIS(AA)

IFW_FDAR_AA

FRSA-IFS- HIS(AA)

STT

Tập dữ liệu

Tập thuộc tính

Số thuộc tính

Tổng số thuộc tính

Độ chính xác

Độ chính xác

45

45

6

58.45

16

56.94

54

9

7

59.02

21

58.72

63

9

7

59.95

26

59.24

1

Libra

72

9

8

61.48

32

60.98

81

9

9

61.87

38

61.26

90

9

46

61.48

100

10

62.16

15

15

3

76.14

5

75.96

18

3

4

79.02

8

78.25

21

3

4

79.02

9

79.82

2

WDBC

24

3

5

85.98

12

84.85

27

3

6

93.18

15

89.36

30

3

16

92.86

6

93.18

12

12

6

80.26

8

78.47

14

2

7

82.49

9

81.06

16

2

7

82.49

9

81.06

3

Horse

18

2

8

84.78

10

83.92

20

2

9

85.02

11

84.45

22

2

12

86.26

9

86.75

5

5

3

78.64

4

77.92

7

2

4

81.92

5

80.15

9

2

5

84.26

6

82.39

4

Credit

11

2

5

84.26

6

82.39

13

2

6

86.05

7

84.72

15

2

8

85.96

6

86.05

10

10

5

72.16

6

70.46

12

2

5

72.16

7

72.02

14

2

6

73.08

8

73.08

5

German

16

2

6

73.08

8

73.08

18

2

7

74.28

10

73.92

20

2

11

74.16

7

74.28

11

11

4

65.96

9

65.02

13

2

5

68.72

11

67.78

15

2

6

69.08

13

68.25

6

Wave

17

2

6

69.08

14

68.97

19

2

7

70.88

16

70.02

21

2

17

70.85

101

8

71.49

Hình 4.1.a. Tập dữ liệu Libra

Hình 4.1.b. Tập dữ liệu WDBC

102

Hình 4.1.c. Tập dữ liệu Horse

Hình 4.1.e. Tập dữ liệu Credit

Hình 4.1.f. Tập dữ liệu German

72

70

p ớ l

IFW_FDAR_A A

68

n â h p

66

c á x

64

h n í h c

62

ộ Đ

60

C0 C1 C2 C3 C4 C5

Các tập thuộc tính của dữ liệu Wave

103

Hình 4.1.g. Tập dữ liệu Wave

Hình 4. 1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA)

4.2.3.5. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper

IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)

Bảng 4.3 và Hình 4.2 trình bày kết quả so sánh thời gian thực hiện hai thuật

toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) (tính bằng giây s). Kết quả Bảng 4.3

cho thấy, thời gian thực hiện của IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) trên

tất cả các tập dữ liệu, nguyên nhân là IFW_FDAR_AA mất thêm chi phí thời gian thực

hiện bộ phân lớp trong giai đoạn wrapper, đây cũng là nhược điểm chung của các thuật

toán theo tiếp cận filter-wrapper. Tuy nhiên, với mục tiêu giảm thiểu độ phức tạp và

tăng độ chính xác của tập luật phân lớp thì chi phí về thời gian tìm tập rút gọn của

thuật toán đề xuất là chấp nhận được.

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA)

(Tính bằng s)

IFW_FDAR_AA

FRSA-IFS- HIS(AA)

STT

Tập dữ liệu

Tập thuộc tính

Số thuộc tính

Thời gian

Tổng thời gian

Thời gian

Tổng thời gian

Tổng số thuộ c tính

45

4.26

4.26

3.68

3.68

45

54

0.42

4.68

0.24

3.92

9

1

Libra

63

0.46

5.14

0.35

4.27

9

72

0.61

5.75

0.27

4.54

9

81

0.57

6.32

0.22

4.76

9

90

0.52

9

6.84

0.16

104

4.92

15

2.92

15

2.92

2.16

2.16

18

0.33

3

3.25

0.28

2.44

21

0.34

3

3.59

0.32

2.76

2 WDBC

24

0.22

3

3.81

0.20

2.96

27

0.21

3

4.02

0.18

3.14

30

0.24

3

4.26

0.16

3.30

12

1.86

12

1.86

1.45

1.45

14

0.29

2

2.15

0.17

1.62

16

0.19

2

2.34

0.18

1.80

3

Horse

18

0.24

2

2.59

0.18

1.98

20

0.13

2

2.72

0.17

2.15

22

0.22

2

2.94

0.20

2.35

5

2.05

5

2.05

1.74

1.74

7

0.24

2

2.29

0.18

1.92

9

0.29

2

2.58

0.22

2.14

4

Credit

11

0.26

2

2.84

0.21

2.35

13

0.28

2

3.12

0.20

2.55

15

0.22

2

3.34

0.18

2.73

10

3.08

10

3.08

2.64

2.64

12

0.21

2

3.29

0.17

2.81

14

0.30

2

3.59

0.17

2.98

5

German

16

0.32

2

3.91

0.21

3.19

18

0.38

2

4.29

0.24

3.43

20

0.35

2

4.64

0.26

3.69

11

64.56

56.02

11

64.56

56.02

13

8.00

2

72.56

6.8

62.82

15

6.52

2

79.08

5.62

68.44

6 Wave

17

7.17

2

86.25

6.08

74.52

19

5.79

2

92.04

4.94

79.46

21

6.68

2

98.72

5.18

84.64

105

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA)

Tiếp theo, chúng tôi trình bày thuật toán filter-wrapper tìm tập rút gọn sử dụng

khoảng cách mờ khi loại bỏ tập thuộc tính theo hướng tiếp cận tính toán gia tăng.

Trước hết, chúng tôi xây dựng các công thức cập nhật khoảng cách khi loại bỏ tập

thuộc tính.

106

4.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính

4.3.1. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính

Mệnh đề 4.3. Cho bảng quyết định với . Giá sử tập

thuộc tính điều kiện B được loại bỏ khỏi C với và là tập thuộc tính

còn lại. Đặt , , ,

tương ứng là ma trận tương đương mờ của các quan hệ tương đương mờ .

Khi đó ta có:

Chứng minh: Ta có:

4.3.2. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập

thuộc tính

Dựa trên Mệnh đề 4.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn trong

bảng quyết định sử dụng khoảng cách mờ khi loại bỏ tập thuộc tính B như sau:

Thuật toán IFW_FDAR_DA (Incremental Filter-Wrapper Fuzzy Distance-based Attribute Reduction Algorithm when Deleting Attributes). Đầu vào:

Bảng quyết định với , tập 1)

rút gọn , các ma trận tương đương mờ ,

, khoảng cách mờ ;

Tập thuộc tính B loại bỏ khỏi C với ; 2)

107

Đầu ra: Tập rút gọn của

;

1) Trường hợp 1: If

then Retturn (R); then thực hiện thuật toán

2) Trường hợp 2: If không gia tăng filter-wrapper tìm tập rút gọn sử dụng khoảng cách FW_FDBAR trong mục 2.4 của Chương 2.

then thực hiện các bước

3) Trường hợp 3: If của thuật toán tìm tập rút gọn.

; // Chứa các ứng viên tập rút Bước 1: Khởi tạo ; 1. Đặt gọn

, 2.Tính ma trận tương đương mờ

//Xét các thuộc tính trong tập rút gọn 3.Đặt

Bước 2: Thực hiện thuật toán tìm tập rút gọn // Giai đoạn filter, tìm các ứng viên cho tập rút gọn xuất phát từ tập R.

do 4. While

tính 5. Begin 6. For each

với

được tính bởi công thức trong

3.9;

sao cho ; 7. Chọn

; 8.

;

9. 10. End;

// Giai đoạn Wrapper, tìm tập rút gọn có độ chính xác phân lớp cao nhất

//t là số phần tử của T, T chứa các

11. Đặt chuỗi thuộc tính được chọn, nghĩa là

;

12. Đặt

13. For j = 1 to t tính độ chính xác phân lớp trên bằng một bộ phân lớp;

với có độ chính xác phân lớp lớn

14. nhất.

108

; 15. Return

Tiếp theo, chúng tôi đánh giá độ phức tạp của thuật toán IFW_FDAR_DA. Ký

hiệu tương ứng là số thuộc tính điều kiện, số đối tượng và số thuộc tính điều

kiện xóa khỏi C.

Trường hợp tốt nhất, thuật toán rơi vào Trường hợp 1, nghĩa là tập rút gọn không

thay đổi.

Trường hợp xấu nhất, thuật toán rơi vào Trường hợp 2, thực hiện lại thuật toán

FW_FDAR tìm tập rút gọn trên bảng quyết định sau khi xóa tập thuộc tính B với độ

phức tạp là: .

Tiếp theo, ta xét độ phức tạp trong Trường hợp 3. Xét vòng lặp While từ câu

lệnh 4 đến 10, để tính ta phải tính . Độ phức tạp tính

là . Do đó, độ phức tạp của vòng lặp While là

và độ phức tạp của giai đoạn filter là . Giả sử độ

phức tạp của bộ phân lớp là , khi đó độ phức tạp của giai đoạn wrapper là

. Vì vậy, độ phức tạp của thuật toán IFW_FDAR_DA là

. Nếu thực hiện thuật toán không gia tăng filter-

wrapper FW_FDBAR trực tiếp trên bảng quyết định có số thuộc tính , độ phức

tạp là . Do đó, với Trường hợp 3 thì thuật toán

IFW_FDAR_DA hiệu quả. Nếu R càng nhỏ thì thuật toán IFW_FDAR_DA càng hiệu

quả. Nếu thuật toán rơi vào Trường hợp 2 (tính lại tập rút gọn) thì độ phức tạp thuật

toán IFW_FDAR_DA tương đương thuật toán FW_FDBAR .

4.4. Kết luận Chương 4

Trong Chương 4, luận án trình bày kết quả xây dựng các công thức gia tăng tính

khoảng cách mờ đề xuất ở Chương 2 trong trường hợp bổ sung, loại bỏ tập thuộc tính.

Dựa vào các công thức gia tăng được xây dựng, luận án trình bày kết quả đề xuất hai

thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận filter-wrapper:

109

1)Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trong

trường hợp bổ sung tập thuộc tính.

2)Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trong

trường hợp loại bỏ tập thuộc tính.

Các thuật toán gia tăng đề xuất sử dụng độ đo khoảng cách mờ nên hiệu quả hơn

các thuật toán gia tăng khác sử dụng quan hệ phân biệt giữa các cặp đối tượng trong

tập thô mờ. Kết quả thử nghiệm trên các tập dữ liệu mẫu từ kho dữ liệu UCI cho

những kết luận quan trọng:

Độ chính xác phân lớp của thuật toán IFW_FDAR_AA cao hơn thuật toán

FRSA-IFS-HIS(AA) trên tất cả các tập dữ liệu. Hơn nữa, số thuộc tính tập rút gọn của

IFW_FDAR_AA nhỏ hơn khá nhiều FRSA-IFS-HIS(AA), đặc biệt trên tập rút gọn có

số thuộc tính lớn như Libra.

Về thời gian thực hiện của các thuật toán gia tăng filter-wrapper đề xuất đều cao

hơn so với các thuật toán gia tăng filter truyền trống trên tất cả các tập dữ liệu, nguyên

nhân là các thuật toán gia tăng kết hợp filter-wrapper đều mất thêm chi phí thời gian

thực hiện bộ phân lớp trong giai đoạn wrapper, đây cũng là nhược điểm chung của các

thuật toán theo tiếp cận filter-wrapper. Tuy nhiên, với mục tiêu giảm thiểu độ phức tạp

và tăng độ chính xác của tập luật phân lớp thì chi phí về thời gian tìm tập rút gọn của

thuật toán đề xuất là chấp nhận được.

110

KẾT LUẬN

1. Các kết quả đạt được của luận án

Luận án nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn của bảng

quyết định nhằm giảm thiểu số lượng thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp

của mô hình phân lớp và nâng cao độ chính xác của mô hình phân lớp. Kết quả chính của

luận án bao gồm:

(1) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết

định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng. Đóng góp này được

trình bày ở Chương 3 của luận án.

(2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết

định thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính. Đóng góp này được

trình bày ở Chương 4 của luận án.

2. Định hướng phát triển

(1) Triển khai các thuật toán đề xuất vào việc giải quyết các lớp bài toán trong

thực tiễn, đặc biệt các bài toán có dữ liệu với số thuộc tính lớn (high dimention data)

trong các lĩnh vực khác nhau như dữ liệu gen trong tin sinh học…

(2) Tiếp tục nghiên cứu, đề xuất các thuật toán gia tăng filter-wrapper hiệu quả

nhằm giảm thiểu thời gian thực hiện dựa trên các mô hình tập thô mở rộng khác phù

hợp với các lớp bài toán trong thực tiễn.

111

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

STT TÊN BÀI BÁO

1

Nguyen Long Giang, Le Hoang Son, Tran Thi Ngan, Tran Manh Tuan, Ho Thi Phuong, Mohamed Abdel-Basset, Antônio Roberto L. de Macêdo, VictorHugo C. de Albuquerque, “Novel Incremental Algorithms for Attribute Reduction from DynamicDecision Tables using Hybrid Filter– Wrapper with Fuzzy Partition Distance”, IEEE Transactions on Fuzzy Systems, Volume 28, Issue 5, pp. 858-873, 2020 (SCIE, Q1, IF = 9.518).

2

Hồ Thị Phượng, Cao Chính Nghĩa, Nguyễn Long Giang, Nguyễn Ngọc Cương, “Về một thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc của CNTT và TT, Thái Bình, 28-29/6/2019, Tr. 333- 339.

3

Hồ Thị Phượng, Cao Chính Nghĩa, Nguyễn Long Giang, “Về thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc của CNTT và TT, Quảng Ninh, 5-6/11/2020, Tr. 483-490.

4

Ho Thi Phuong, Nguyen Long Giang, “fuzzy distance-based filter-wrapper incremental algorithms for attribute reduction when adding or deleting attribute set”, Vietnam Journal of Science and Technology - Vietnam Academy of Science and Technology. Accepted (06/01/2021)

112

TÀI LIỆU THAM KHẢO

[1] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International

Journal of General Systems 17, pp.191-209, 1990.

[2] Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla,

“Tolerance-based intuitionistic fuzzy-rough set approach for attribute

reduction”, Expert Systems With Applications 101, pp. 205–212, 2018.

[3] Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin, “A

Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, Volume: 25, Issue: 4, pp. 741-753, 2017.

[4] Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature

selection method using representative instances”, Knowledge-Based Systems,

Vol. 151, pp. 216-229, 2018.

[5] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using

fuzzy rough sets”, Computers in Industry 97, pp. 111- 116, 2018.

[6] Y. Lin, Y. Li, C. Wang, J. Chen, “Attribute reduction for multi-label learning

with fuzzy rough set”, Knowl.-Based Syst. 152, pp. 51-61, 2018.

[7] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set

approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy

Systems 34, pp. 423-436, 2018.

[8] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction

based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414-423,

2016.

[9] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A

method using a novel fuzzy rough set-based information entropy”, Pattern

Recognition 56, pp. 1-15, 2016.

[10] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, “Fuzzy rough setbased attribute

reduction using distance measures”, Knowledge-Based Systems, Vol. 164,

2019, pp. 205-212.

[11] C.Z. Wang, Y. Qi, Q. He, “Attribute reduction using distancebased fuzzy rough

113

sets”, International Conference on Machine Learning and Cybernetics, IEEE,

2015.

[12] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi,

“About a fuzzy distance between two fuzzy partitions and attribute reduction

problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28,

2016

[13] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility

Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, Vol. 26, Issue 4, pp. 2174-2187, 2018.

[14] J.H. Dai, Q.H. Hu, H. Hu, D.B.Huang, “Neighbor inconsistent pair selection for

attribute reduction by rough set approach”. IEEE Transactions on Fuzzy

Systems, Vol. 26, Issue 2, pp. 937-950, 2017.

[15] L.J.Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P.

Niyoyita, “learning with fuzzy rough set-based attribute selection”, Expert

Systems with Applications, Vol. 139, pp. 1- 17, 2020.

[16] W.P. Ding, C.T. Lin, Z.H. Cao, “Deep neuro-cognitive coevolution for fuzzy

attribute reduction by quantum leaping PSO with nearest-neighbor

memeplexes”, IEEE Transactions on Cybernetics, 49(7):2744-2757, 2019

[17] X.M. Liu, C. Shen, W. Wang, X.H. Guan, “CoEvil: A Coevolutionary Model

for Crime Inference Based on Fuzzy Rough Feature Selection”, IEEE

Transactions on Fuzzy Systems, Early Access, 2019.

[18] Y.J. Lin, Q.H. Hu, J.H. Liu, J.J. Li, X.D. Wu, “Streaming feature selection for

multi-label learning based on fuzzy mutual information”, IEEE Transactions on

Fuzzy Systems, Vol. 25, Issue 6, pp. 1491-1507, 2017.

[19] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer

Academic Publisher, London, 1991.

[20] Demetrovics, J., Thi, V.D., & Giang, N.L. (2014). Metric Based Attribute

Reduction in Dynamic Decision systems. Annales Univ. Sci. Budapest., Sect.

Comp, Vol. 42, 157-172.

[21] Huong, N. T. L., &Giang, N. L. (2016). Incremental algorithms based on metric

114

for finding reduct in dynamic decision systems. Journal on Research and

Development on Information & Communications Technology, Vol.E-3, No.9,

26-39.

[22] Y.G. Jing, T.R. Li, J.F. Huang, H.M. Chen, S.J. Horng, “A Group Incremental

Reduction Algorithm with Varying Data Values”, International Journal of

Intelligent Systems 32(9), pp. 900-925, 2017.

[23] Y.G. Jing, T.R. Li, H. Fujita, Z. Yu, B. Wang, “An incremental attribute

reduction approach based on knowledge granularity with a multi-granulation

view”, Information Sciences 411, pp. 23-38, 2017.

[24] Zhang, C., Dai, J. & Chen, J. (2020). Knowledge granularity based incremental

attribute reduction for incomplete decision systems. International Journal of

Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.

[25] Cai, M.J., Lang, G.M., Hamido, F., Li, Z.Y., &Yang, T. (2019). Incremental

approaches to updating reducts under dynamic covering granularity.

Knowledge-Based Systems 172, 130-140.

[26] Zhang, C., &Dai, J. (2019). An incremental attribute reduction approach based

on knowledge granularity for incomplete decision systems. Granular

Computing, 1-15.

[27] Zhang, C., Dai, J. &Chen, J. (2020). Knowledge granularity based incremental

attribute reduction for incomplete decision systems. International Journal of

Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.

[28] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based

incremental attribute reduction for dynamic data”, Knowledge-Based Systems,

Vol. 140, pp. 142-157, 2018.

[29] G. Lang, Q. Li, M. Cai, T. Yang, Q. Xiao, “Incremental approaches to

knowledg reduction based on characteristic matrices”, Int. J. Mach. Learn.

Cybern. 8 (1) pp. 203-222, 2017.

[30] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary

115

discernibility matrix based incremental attribute reduction algorithm for group

dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.

[31] Yang, C.J., Ge, H., Li, L.S., &Ding, J. (2019). A unified incremental reduction

with the variations of the object for decision tables. Soft Computing 23, 6407-

6427.

[32] Liu, Y., Zheng, L.D., Xiu, Y.L., Yin, H., Zhao, S.Y., Wang, X.H., Chen, H., &Li,

C.P. (2020). Discernibility matrix based incremental feature selection on fused

decision tables. International Journal of Approximate Reasoning 118, 1-26.

[33] Das, A. K., Sengupta, S., & Bhattacharyya, S. (2018). A group incremental

feature selection for classification using rough set theory based genetic

algorithm. Applied Soft Computing, 65, 400-411.

[34] Lang, G., Cai, M., Fujita, H., &Xiao, Q. (2018). Related families-based

attribute reduction of dynamic covering decision information

systems. Knowledge-Based Systems, 162, 161-173.

[35] Hao, G., Longshu, L., Chuanjian, Y., &Jian, D. (2019). Incremental reduction

algorithm with acceleration strategy based on conflict region. Artificial

Intelligence Review, 51(4), 507-536.

[36] Shua, W.H., Qian, W.B., &Xie, Y.H. (2019). Incremental approaches for

feature selection from dynamic data with the variation of multiple objects.

Knowledge-Based Systems, Vol. 163, 320-331.

[37] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for

faster attribute reduction, International Journal of Information Technology.

https://doi.org/10.1007/s41870-019-00326-6.

[38] Shu, W.H., Qian, W., &Xie, Y. (2020). Incremental feature selection for

dynamic hybrid data using neighborhood rough set. Knowledge-Based Systems

194, 105516.

[39] Xie, X., &Qin, X. (2018). A novel incremental attribute reduction approach for

dynamic incomplete decision systems. International Journal of Approximate

Reasoning, 93, 443-462.

[40] Y.Y. Yang, D.G. Chen, H. Wang, “Active Sample Selection Based Incremental

116

Algorithm for Attribute Reduction With Rough Sets”, IEEE Transactions on

Fuzzy Systems, Vol. 25, Issue 4, pp. 825- 838, 2017.

[41] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision

systems with the variation of attribute set”, International Journal of

Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.

[42] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension incremental

strategy”, Knowledge-Based Systems, Volume 39, pp. 95-108, 2013.

[43] M.J. Cai, Q.G. Li, J.M. Ma, “Knowledge reduction of dynamic covering

decision information systems caused by variations of attribute values”,

International Journal of Machine Learning and Cybernetics 8(4), pp. 1131-

1144, 2017.

[44] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary

discernibility matrix based incremental attribute reduction algorithm for group

dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.

[45] Wei, W., Song, P., Liang, J.Y., &Wu, X.Y. (2019). Accelerating incremental

attribute reduction algorithm by compacting a decision system. International

Journal of Machine Learning and Cybernetics 10, 2355-2373.

[46] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for

faster attribute reduction, International Journal of Information Technology.

https://doi.org/10.1007/s41870-019-00326-6.

[47] Chen, D.G., Dong, L.J., &Mi, J.H. (2020). Incremental mechanism of attribute

reduction based on discernible relations for dynamically increasing attribute.

Soft Computing 24, 321-332.

[48] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long Giang,

“Metric Based Attribute Reduction Method in Dynamic Decision Tables”,

Cybernetics and Information Technologies, Vol.16, No.2, pp. 3-15, 2016.

[49] M.S. Raza,U. Qamar, “An incremental dependency calculation technique for

feature selection using rough sets”, Information Sciences 343–344, pp. 41–65,

2016.

[50] Y. Jing, T. Li, J. Huang, et al., “An incremental attribute reduction approach

117

based on knowledge granularity under the attribute generalization”, Int. J.

Approx. Reason. 76, pp.80-95, 2016.

[51] Y.G. Jing, T.R. Li, H. Fujita, B.L. Wang, N. Cheng, “An incremental attribute

reduction method for dynamic data mining”, Information Sciences 465, pp. 202-

218, 2018.

[52] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental

Attribute Reduction Applying Dependency Measures”, APWeb-WAIM 2017:

Web and Big Data, pp 484-492, 2017.

[53] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough

set based incremental attribute reduction from dynamic data with sample

arriving”, Fuzzy Sets and Systems, Volume 312, pp. 66-86, 2017

[54] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for

feature selection based on fuzzy rough sets”, IEEE Transactions on Fuzzy

Systems, Vol. 26, Issue 3, pp. 1257-1273, 2017.

[55] Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition

Distance Based Attribute Reduction in Incomplete Decision Tables”, Journal on

Information Communications Technology, Research and Development on

Information & Communications Technology, Vol. V-2, No. 14(34), pp. 23-32,

12-2015.

[56] Zhang, X., Mei, C.L., Chen, D.G., Yang, Y.Y., &Li, J.H. (2020). Active

Incremental Feature Selection Using a Fuzzy-Rough-Set-Based Information

Entropy. IEEE Transactions on Fuzzy Systems, Volume 28, Issue 5, 901-915.

[57] Ni, P., Zhao, S.Y., Wang, X.H., Chen, H., Li, C.P., Tsang, E.C.C (2020).

Incremental Feature Selection Based on Fuzzy Rough Sets. Information

Sciences.

[58] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set

approach for incremental feature selection on hybrid information systems”,

Fuzzy Sets and Systems, Vol. 258, pp. 39-60, 2015.

[59] The UCI machine

118

learning repository, http://archive.ics.uci.edu/ml/

datasets.html. https://sourceforge.net/projects/weka/

[60] Jensen, R., and Q. Shen, Q.(2008), Computational Intelligence and Feature

Selection, Rough and Fuzzy Approaches, Aberystwyth University, IEEE

Computational Intelligence Society, Sponsor.

[61] N. Long, D. Gianola, K.A. Weigel, “Dimension reduction and variable selection

for genomic selection : application to predicting milk yield in Holsteins”, Journal

of Animal Breeding and Genetics. 128 (4), pp. 247–257, 2011.

[62] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic

attribute variation in set-valued information systems”, Int. J. Approx. Reason,

Vol.53, pp. 620-635, 2012

[63] Q.H. Hu, Z.X. Xie, D.R. Yu, “Hybrid attribute reduction based on a novel

fuzzy-rough model and information granulation”, Pattern Recognition 40, pp.

3509-3521, 2007.

[64] Y.H. Qian., J.Y. Liang, W.Z. Wu, C.Y. Dang, “Information Granularity in

Fuzzy Binary GrC Model”, IEEE Trans. Fuzzy Syst. 19, No 2, pp. 253-264,

2011.

[65] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective

for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp.

126-136, 2012.

[66] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, Một phương pháp mới

rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric, Tạp chí

Tin học và Điều khiển học, T.28, S.2, 2012, tr. 129-140.

[67] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”,

Federated Conference on Computer Science and Information System

(FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.

[68] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based

on metric for finding reduct in dynamic decision tables”, Journal on Research

and Development on Information & Communications Technology, Vol.E-3,

No.9 (13), pp. 26-39, 2016.

[69] Nguyen Long Giang, Nguyen Thi Lan Huong, Metric Based Attribute

119

Reduction in Incomplete Information Systems, Kỷ yếu Hội thảo Quốc gia lần

thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Hà

Nội 11/2012, 2013, Tr. 185-190.

[70] Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang, Phương pháp

rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách

phân hoạch, Các công trình nghiên cứu, phát triển và ứng dụng CNTT&TT,

Tạp chí CNTT&TT, Tập V-2, số 14(34), 12-2015, Trang 23-32.

[71] Demetrovics Janos, Vu Duc Thi, Nguyen Long Giang, “A Distance-based

Method for Attribute Reduction in Incomplete Decision Systems”, Serdica

Journal of Computing 7, No 4, pp. 355-374, 2013.

[72] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in

Incomplete Decision Tables”, Proceedings of 14th International Conference,

Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC

2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink,

Vol. 8170, pp. 99-110, 2013.

[73] Nguyễn Long Giang, Cao Chính Nghĩa, Nguyễn Quang Huy, Nguyễn Thị Lan

Hương, Nguyễn Ngọc Cương, Trần Anh Tú, Về một độ đo khoảng cách mờ và

ứng dụng rút gọn thuộc tính trong bảng quyết định, Kỷ yếu Hội thảo Quốc gia

lần thứ XX - Một số vấn đề chọn lọc của CNTT và TT, Quy Nhơn, 23-

24/11/2017, Tr. 404-409.

[74] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh, “Fuzzy distance

based attribute reduction in decision tables”, Journal on Information

Communications Technology, Research and Development on Information &

Communications Technology, Vietnam, Vol. V-2, No. 16 (36), pp. 104-111, 2016.

[75] Qian, Y., Li, Y., Liang, J., Lin, G., and Dang, C. (2015), Fuzzy granular

structure distance, IEEE Transactions on Fuzzy Systems, 23(6), pp. 2245-2259.

[76] Nguyễn Long Giang (2012), Nghiên cứu một số phương pháp khai phá dữ liệu

theo tiếp cận lý thuyết tập thô, Luận án Tiến sĩ Toán học, Viện Công nghệ

thông tin.

[77]

120

Qian, Y., Wang, Q., Cheng, H., Liang, J., and Dang, C. (2015), Fuzzy-rough

feature selection accelerator, Fuzzy Sets and Systems, 258, pp. 61-78.

[78] J.H. Dai, Q. Xu, “Attribute selection based on information gain ratio in fuzzy

rough set theory with application to tumor classification”, Applied Soft

Computing 13, pp. 211-221, 2013.

[79] Q.H. Hu, D.R. Yu, Z.X. Xie, J. F. Liu, “Fuzzy probabilistic approximation

spaces and their information measures”, IEEE Transaction on Fuzzy Systems,

vol. 14, no. 2, pp. 191-201, 2006.

[80] Pradipta Maji, Partha Garai, “On fuzzy-rough attribute selection: Criteria of

Max-Dependency, Max-Relevance, Min-Redundancy, and Max-Significance”,

Applied Soft Computing 13, pp. 3968-3980, 2013.

[81] Q. Shen, R. Jensen, “Selecting informative features with fuzzy-rough sets and

its application for complex systems monitoring”, Pattern Recognition 37, pp.

1351 – 1363, 2004.

[82] Nguyễn Thị Lan Hương, “Rút gọn thuộc tính trong bảng quyết định động theo

tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin, 2017.

[83] Vũ Văn Định, “Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp

cận tập thô dung sai”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin, 2016.

[84] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating fuzzy

rough approximations for hybrid data under the variation of attribute values”,

Information Sciences 000, pp. 1-26, 2016.

[85] Nguyễn Văn Thiện, “Một số phương pháp kết hợp trong rút gọn thuộc tính theo

tiếp cận tập thô mờ”, Luận án Tiến sĩ Máy tính, Học viện Khoa học và Công

nghệ, 2018

[86] C. Luo, T. R. Li and H. M. Chen, “Dynamic maintenance of approximations in

setvalued ordered decision systems under the attribute generalization”,

Information Sciences 257, pp. 210 - 228, 2014.

[87] C. Luo, T.R. Li, H.M. Chen, H. Fujita, Z. Yi, “Efficient updating of

probabilistic approximations with incremental objects”, Knowledge-Based

Systems 109, pp. 71-83, 2017.

[88] C. Luo, T.R. Li, Y. Yao, “Dynamic probabilistic rough sets with incomplete

121

data”, Information Sciences 417, pp. 39–54, 2017.

[89] C. Luo, T.R. Li, Y.Y. Huang, H. Fujita, “Updating three-way decisions in

incomplete multi-scale information systems”, Information Sciences 476, pp.

274-289, 2019.

[90] C.X. Hu, S.X. Liu, G.X. Liu, “Matrix-based approaches for dynamic updating

approximations in multigranulation rough sets”, Knowl Based Syst 122, pp. 51-

63, 2017.

[91] C.Z. Wang, Y. Qi, Q. He, Attribute reduction using distance-based fuzzy rough

sets, 2015 International Conference on Machine Learning and Cybernetics ,

IEEE, 2015.

[92] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, Fuzzy rough set-based attribute

reduction using distance measures, Knowledge-Based Systems, Volume 164, 15

January 2019, pp. 205-212.

[93] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute

reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp.

129-149, 2016.

[94] DF.M. Ma, J.W. Chen, W. Han, “A Positive Region Based Incremental

Attribute Reduction Algorithm for Incomplete System”, International

Conference on Electronic Information Technology and Intellectualization

(ICEITI 2016), pp. 153-158, 2016.

[95] F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix

for attribute reduction in incomplete information systems”, The Journal of

China Universities of Posts and Telecommunications, Volume 24, Issue 4, pp.

57-75, 2017.

[96] G.M. Lang, Q. Li, M.J. Cai, T. Yang, Q.M. Xiao, Incremental approaches to

knowledge reduction based on characteristic matrices, Int. J. Mach. Learn.

Cybern. 8 (1) pp. 203-222, 2017.

[97] G.M. Lang, D.Q. Miao , M.J. Cai, Z.F. Zhang, “ Incremental approaches for

updating reducts in dynamic covering information systems, Knowledge Based

Systems 134, pp. 85..104, 2017.

[98] G. Q. Wang, “ Valid Incremental Attribute Reduction Algorithm Based on

122

Attribute Generalization for an Incomplete Information System”, Chinese

Journal of Electronics, Vol.28, No.4, 2019.

[99] Huyen Tran, Thinh Cao, Koichi Yamada, Do Van Nguyen, “Incremental

Updating Methods with Three-way Decision Models in Incomplete Information

Systems”, IEEE Joint 10th International Conference on Soft Computing and

Intelligent Systems, pp. 27-32, 2018.

[100] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete

Decision Information System”, IJCRS 2017, pp 289-305, 2017.

[101] J. Qian, C.Y. Dang, X.D. Yue, N. Zhang, “Attribute reduction for sequential

three-way decisions under dynamic granulation”, International Journal of

Approximate Reasoning 85(2017) 196-216.

[102] J. Yu, L. Sang, H. Dong, “Based on Attribute Order for Dynamic Attribute

Reduction in the Incomplete Information System”, IEEE IMCEC 2018, pp.

2475-2478, 2018.

[103] L.N. Wang , X. Yang , Y. Chen , L. Liu , S.Y. An , P. Zhuo , “ Dynamic

composite decision-theoretic rough set under the change of attributes”, Int. J.

Comput. Intell.Syst. 11 (2018) 355–370 .

[104] Long Giang Nguyen, Thien Nguyen, Nhu Son Nguyen , “Fuzzy Partition

Distance based Attribute Reduction in Decision Tables”, IJCRS 2018:

International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103,

Springer Link, 2018, pp. 614-627.

[105] M. Kryszkiewicz (1998), “Rough set approach to incomplete information

systems”, Information Science, Vol. 112, pp. 39-49.

[106] Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of

Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and

Applications (FAIA), Volume 252: Advanced Methods and Technologies for

Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.

[107] S. Li, T. Li, “Incremental update of approximations in dominance-based rough

123

sets approach under the variation of attribute values”, Inf. Sci. 294, pp.348-361,

2015

[108] S. Wang , T. Li , C. Luo , H. Fujita , Efficient updating rough approximations

with multi-dimensional variation of ordered data, Inf. Sci. 372, pp. 690-708,

2016.

[109] Y.Y. Huang , T.R. Li , C. Luo , H. Fujita , S.J. Horng , Matrix-based dynamic

updating rough fuzzy approximations for data mining, Knowl. Based Syst. 119,

pp. 273-283, 2017.

[110] W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection

from incomplete data”, Neurocomputing, Volume 168, pp. 210-220, 2015.