1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ -----------------------------

VŨ VĂN ĐỊNH

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI

LUẬN ÁN TIẾN SỸ TOÁN HỌC

HÀ NỘI – 2016

2

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ……..….***…………

VŨ VĂN ĐỊNH

RÚT GỌN THUỘC TÍNH TRONG

BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI

LUẬN ÁN TIẾN SỸ TOÁN HỌC

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 62 46 01 10

Người hướng dẫn khoa học:

1. GS.TS Vũ Đức Thi

2. PGS.TS Ngô Quốc Tạo

HÀ NỘI – 2016

1

LỜI CAM ĐOAN

Tôi xin cam đoan bản luận án tiến sĩ này là công trình do chính tôi

nghiên cứu và thực hiện. Các thông tin số liệu được sử dụng trong luận án

hoàn toàn trung thực và chính xác. Tất cả sự giúp đỡ cho việc thực hiện luận

án đã được xin phép và cảm ơn. Các thông tin trích dẫn trong luận án đã được

ghi rõ nguồn gốc.

Vũ Văn Định

Tác giả luận án

2

LỜI CẢM ƠN

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến GS.TS Vũ Đức Thi,

PGS.TS Ngô Quốc Tạo, TS. Nguyễn Long Giang, những người Thầy đã

không ngại gian khó tận tình giúp đỡ và hướng dẫn tôi trong suốt quá trình

nghiên cứu và hoàn thành luận án.

Tôi xin chân thành cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin

thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Học viện Khoa học và

Công nghệ thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Phòng

quản lý đào tạo, các phòng ban chức năng và tập thể các Nhà khoa học của

Viện Công nghệ thông tin và Học viện Khoa học và Công nghệ đã giúp đỡ tôi

trong suốt quá trình học tập và nghiên cứu.

Tôi xin được bày tỏ lòng biết ơn đến Ban giám hiệu, lãnh đạo các đơn vị

Trường Đại học Điện lực đã hỗ trợ, tạo điều kiện tốt nhất cho tôi trong suốt

quá trình thực hiện luận án.

Tôi xin chân thành cảm ơn tới lãnh đạo và các đồng nghiệp tại Khoa

Công nghệ thông tin, Phòng Khảo thí và Đảm bảo chất lượng giáo dục

trường Đại học Điện lực đã động viên giúp đỡ tôi trong thời gian tôi học tập

và nghiên cứu.

Cuối cùng tôi bày tỏ lòng biết ơn đến gia đình và người thân của tôi,

những người luôn sát cánh bên tôi để động viên, giúp đỡ tôi vượt qua khó

khăn để hoàn thành luận án.

3

MỤC LỤC

LỜI CAM ĐOAN.............................................................................................................................1

LỜI CẢM ƠN....................................................................................................................................2

MỤC LỤC ..........................................................................................................................................3

DANH MỤC CÁC THUẬT NGỮ...............................................................................................6

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT.....................................................................................7

DANH MỤC HÌNH, BẢNG..........................................................................................................8

MỞ ĐẦU.............................................................................................................................................9

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ.........................................................................18

1.1. Hệ thông tin và mô hình tập thô truyền thống ................................................18

1.1.1. Hệ thông tin....................................................................................18

1.1.2. Mô hình tập thô truyền thống.........................................................19

1.1.3. Bảng quyết định đầy đủ..................................................................21

1.1.4. Tập rút gọn và tập lõi ....................................................................22

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai................................23

1.2.1. Hệ thông tin không đầy đủ .............................................................23

1.2.2. Mô hình tập thô dung sai ...............................................................24

1.2.3. Bảng quyết định không đầy đủ.......................................................27

1.3. Các khái niệm về tập rút gọn của bảng quyết định không đầy đủ.................29

1.3.1. Tập rút gọn dựa trên hàm quyết định suy rộng .............................29

1.3.2. Tập rút gọn dựa trên miền dương ..................................................30

1.3.3. Tập rút gọn dựa trên độ đo lượng thông tin ..................................30

1.3.4. Tập rút gọn dựa trên ma trận phân biệt ........................................30

1.3.5. Tập rút gọn dựa trên ma trận dung sai..........................................31

1.3.6. Tập rút gọn dựa trên hàm phân bố, hàm ấn định ..........................32

1.3.7. Tập rút gọn dựa trên metric...........................................................32

1.4. Kết luận chương 1 ............................................................................................33

4

CHƯƠNG 2. ĐỀ XUẤT PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ........34

2.1. Mở đầu ..............................................................................................................34

2.2. Đề xuất phân nhóm các phương pháp rút gọn thuộc tính ..............................35

2.2.1 Bảng ký hiệu các tập rút gọn của bảng quyết định không đầy đủ .36

IR ,

TMR ...............37

PR ..............................................................40

2.2.2 Mối liên hệ giữa các khái niệm tập rút gọn DR ,

2.2.3 Mối liên hệ giữa R và

2.2.4 Mối liên hệ giữa DR và R .............................................................41

2.2.5 Mối liên hệ giữa R và R .............................................................44

2.2.6 Đề xuất phân nhóm các phương pháp rút gọn thuộc tính .............45

2.3. Đánh giá các phương pháp rút gọn thuộc tính................................................48

2.3.1. Luật quyết định và các độ đo đánh giá hiệu năng .........................48

2.3.2. Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định ....54

2.3.3. Nghiên cứu sự thay đổi giá trị các độ đo đề xuất trên các tập rút

gọn ........................................................................................................57

2.3.4. Thử nghiệm sự thay đổi giá trị các độ đo đề xuất trên các tập rút

gọn ........................................................................................................60

2.3.5. Lựa chọn, đánh giá các phương pháp rút gọn thuộc tính..............65

2.4. Kết luận chương 2 ............................................................................................67

CHƯƠNG 3. ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG

BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ.............................................................................68

3.1. Mở đầu ..............................................................................................................68

3.2. Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính.........................68

3.2.1. Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ.........69

3.2.2. Chọn tập đối tượng đại diện cho bảng quyết định không đầy đủ ..73

3.3. Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều

kiện ...........................................................................................................................78

5

3.3.1. Độ đo lượng thông tin mở rộng .....................................................79

3.3.2. Xây dựng lượng thông tin mở rộng có điều kiện ...........................80

3.3.3. Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện82

3.3.4. Thử nghiệm và đánh giá kết quả....................................................87

3.4. Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ..................................91

3.4.1. Ma trận quan hệ và hàm quan hệ ..................................................92

3.4.2. Rút gọn thuộc tính sử dụng hàm quan hệ ......................................95

3.4.3. Thử nghiệm và đánh giá kết quả....................................................98

3.5. Kết luận chương 3 ..........................................................................................100

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ.....................................................................104

6

DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin không đầy đủ Incomplete Information System

Bảng quyết định không đầy đủ Incomplete Decision Table

Quan hệ không phân biệt được Indiscernibility Relation

Tolerance Relation Quan hệ dung sai

Tolerance Rough Set Tập thô dung sai

Lower Approximation Xấp xỉ dưới

Upper Approximation Xấp xỉ trên

Rút gọn thuộc tính Attribute Reduction

Reduct Tập rút gọn

Core Tập lõi

Ma trận phân biệt Indiscernibility Matrix

Indiscernibility Function Hàm phân biệt

Relational Matrix Ma trận quan hệ

Relations Function Hàm quan hệ

Lượng thông tin mở rộng Extended information quantity

Luật quyết định Decision Rule

7

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT

,

Ký hiệu, từ viết tắt Diễn giải

 IIS U A 

Hệ thông tin không đầy đủ

,

  d

 IDS U A 

U

Bảng quyết định không đầy đủ

A

Số đối tượng

u

a

Số thuộc tính điều kiện của bảng quyết định

 u a

Giá trị của đối tượng tại thuộc tính

 SIM A

u

Quan hệ dung sai trên tập thuộc tính A

  AS u

U

/U A

Lớp dung sai của đối tượng trên tập thuộc tính A

/U SIM A

Phân hoạch của sinh bởi tập thuộc tính A.

COVER U

Phủ của U sinh bởi tập thuộc tính A.

u

Họ tất cả các phủ của U.

A u ( )

AX

X

A 

Hàm quyết định suy rộng của đối tượng đối với A.

X

A 

xấp xỉ dưới của

AX

X

xấp xỉ trên của

BN P

D

A 

B - miền biên của X

POS D A

dBI    /

miền dương của

Lượng thông tin của tập thuộc tính B đối với thuộc

tính quyết định d

    CEI R d

Lượng thông tin mở rộng của tập thuộc tính R đối

với thuộc tính quyết định d

AMC

Họ các khối đồng nhất cực đại trên tập A

RDIS 

Hàm quan hệ của IDS trên R

8

DANH MỤC HÌNH, BẢNG

Hình 1.1. Mối quan hệ giữa các tập rút gọn .................................................46

Hình 2.1. Sự thay đổi độ hỗ trợ  trên các tập rút gọn..................................64

Hình 3.1. Sự thay đổi độ hỗ trợ  trên hai tập rút gọn của hai thuật toán

EIQBAR và MBAR....................................................................................90

Bảng 1.1. Bảng quyết định về bệnh cúm.........................................................21

Bảng 1.2. Bảng thông tin về xe hơi.................................................................24

Bảng 1.3. Bảng quyết định về các xe hơi........................................................28

Bảng 2.1. Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ. ......36

Bảng 2.2. Bảng quyết định minh họa Ví dụ 2.1 ..............................................41

Bảng 2.3. Bảng quyết định minh họa Ví dụ 2.2 ..............................................43

Bảng 2.4. Bảng quyết định không đầy đủ về các tivi ......................................49

Bảng 2.5. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 1 ..63

Bảng 2.6. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 2 ..63

Bảng 3.1. Bảng thông tin về các xe hơi ..........................................................72

Bảng 3.2. Bảng quyết định không đầy đủ về các xe hơi .................................77

Bảng 3.3. Bảng quyết định không đầy đủ mô tả về các xe hơi .......................86

Bảng 3.5. Tập rút gọn của thuật toán MBAR và Thuật toán EIQBAR ...........89

Bảng 3.6. Kết quả tính toán độ chắc chắn, độ nhất quán và độ hỗ trợ trên các

tập rút gọn ................................................................................................90

Bảng 3.7. Bảng quyết định không đầy đủ mô tả về các tivi ............................92

Bảng 3.8. Kết quả thực hiện thuật toán MBAR, Thuật toán EIQBAR và Thuật

toán RBAR ................................................................................................99

Bảng 3.9. Tập rút gọn của thuật toán MBAR, Thuật toán EIQBAR và Thuật

toán RBAR ................................................................................................99

9

MỞ ĐẦU

Lý thuyết tập thô do Pawlak [31] đề xuất vào những năm đầu thập niên

tám mươi của thế kỷ hai mươi được xem là công cụ hữu hiệu để giải quyết

các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc

chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các

bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý

số liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và

trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết

tập thô trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai đoạn tiền xử lý

dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu. Mục tiêu của rút

gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tìm tập con nhỏ nhất

của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của

bảng quyết định. Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt

hiệu quả cao nhất.

Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô

của Pawlak [31] là chủ đề nghiên cứu sôi động trong hai thập kỷ qua. Cho đến

nay, có rất nhiều phương pháp rút gọn thuộc tính đã được đề xuất bởi các

nhóm nghiên cứu theo các hướng tiếp cận khác nhau như: hướng tiếp cận dựa

trên miền dương, hướng tiếp cận dựa trên ma trận, hướng tiếp cận dựa trên độ

đo entropy, hướng tiếp cận tính toán hạt, hướng tiếp cận dựa trên độ đo

khoảng cách... Phương pháp rút gọn thuộc tính dựa trên miền dương do

Pawlak [48] đề xuất, phương pháp này đã xây dựng thuật toán tính miền

D

POSC

dương . Về sau, các công bố trong [31][49][11][25] đã tiếp tục cải

tiến thuật toán này. Phương pháp rút gọn thuộc tính sử dụng các phép toán

trong đại số quan hệ do Hu Xiaohua và các cộng sự [14] đưa ra, phương pháp

này xây dựng thuật toán tìm tập lõi và tập rút gọn của bảng quyết định. Tuy

nhiên khái niệm tập lõi có nhược điểm và đã được tác giả trong luận án [1]

10

khắc phục. Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt do

Skowron [8] đề xuất được xây dựng trên khái niệm ma trận phân biệt, hàm

phân biệt. Phương pháp này cũng đã được Ye Dong Yi và các cộng sự [51]

khắc phục nhược điểm tìm tập rút gọn và tập lõi trong bảng quyết định không

nhất quán. Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán

hạt được Zadeh [53] giới thiệu về mô hình tính toán hạt và đã được các tác giả

[21], [22], [54] đề xuất các thuật toán heuristic tìm tập rút gọn sử dụng độ đo

phép kết hạt bởi thuộc tính làm tiêu chuẩn đánh giá độ quan trọng của thuộc

tính. Phương pháp rút gọn thuộc tính sử dụng entropy thông tin do các tác giả

Wang Guo Yin và các cộng sự [43], [45], [46], [47], [48] phát triển từ khái

niệm Entropy thông tin Shannon giới thiệu vào năm 1948. Tuy nhiên, các tác

giả trong [42], [43], đã phân tích nhược điểm của định nghĩa độ quan trọng

của thuộc tính trong [47] và đề xuất định nghĩa độ quan trọng mới, từ đó xây

dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy Shannon có điều

kiện. Phương pháp rút gọn thuộc tính sử dụng metric do tác giả trong luận

án[2] đề xuất dựa trên cơ sở khái niệm metric do R.López de Mántaras [38]

xây dựng. Song song với việc đề xuất các phương pháp rút gọn thuộc tính,

các nhà nghiên cứu tập trung vào đề xuất các độ đo làm tiêu chuẩn định lượng

để so sánh, đánh giá các phương pháp rút gọn thuộc tính. Trong luận án [2]

tác giả đã tìm mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn,

dựa vào đó đã phân các phương pháp rút gọn làm 3 nhóm: Nhóm 1: Nhóm

phương pháp tìm tập rút gọn Pawlak; Nhóm 2: Nhóm phương pháp tìm tập rút

gọn Entropy Shannon (bao gồm phương pháp sử dụng entropy Shannon và

phương pháp sử dụng các phép toán trong đại số quan hệ); Nhóm 3: Nhóm

phương pháp tìm tập rút gọn Entropy Liang (Bao gồm phương pháp sử dụng

entropy Liang, phương pháp sử dụng ma trận phân biệt và phương pháp sử

dụng độ khác biệt của tri thức). Dựa vào ba độ đo độ chắc chắn, độ nhất quán

và độ hỗ trợ của Yuhua Qian [36], tác giả trong luận án [2] cũng đã đề xuất độ

11

nhất quán mới, nhằm so sánh, đánh giá các nhóm phương pháp rút gọn thuộc

tính.

Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên

miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ. Trên bảng

quyết định không đầy đủ, Kryszkiewicz [18] đã mở rộng quan hệ tương

đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất

mô hình tập thô dung sai nhằm giải quyết bài toán rút gọn thuộc tính và trích

lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Giống như các phương

pháp rút gọn thuộc tính trong bảng quyết định đầy đủ theo tiếp cận lý thuyết

tập thô truyền thống được trình bày trong luận án [2], các phương pháp rút gọn

thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô

dung sai đã công bố là các phương pháp heuristic, đều thực hiện các bước sau

đây:

1) Đưa ra khái niệm tập rút gọn dựa trên độ đo được xây dựng.

2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng

đóng góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ

quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng

nhiều và ngược lại.

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu

chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của thuộc

tính)

Trong mấy năm gần đây các phương pháp rút gọn thuộc tính trong bảng

quyết định không đầy đủ theo tiếp cận tập thô dung sai đã được các nhà khoa

học quan tâm nghiên cứu và đã thu được một số kết quả đáng kể. Các phương

pháp điển hình có thể kể đến là: Kryszkiewicz [18] định nghĩa tập rút gọn dựa

trên hàm quyết định suy rộng và đề xuất phương pháp rút gọn thuộc tính sử

12

dụng hàm quyết định suy rộng. Zuqiang Meng và các cộng sự [56] đưa ra

khái niệm về tập rút gọn dựa trên miền dương và đề xuất phương pháp rút gọn

thuộc tính dựa trên miền dương. Theo hướng tiếp cận tính toán hạt (granular

computing), Huang B và các cộng sự [16] đưa ra khái niệm tập rút gọn dựa

trên độ đo lượng thông tin (information quantity) và đề xuất phương pháp rút

gọn thuộc tính dựa trên độ đo lượng thông tin. Theo hướng tiếp cận mở rộng

khái niệm ma trận phân biệt trong lý thuyết tập thô truyền thống, Huasheng

ZOU và cộng sự [17] đưa ra khái niệm tập rút gọn dựa trên ma trận phân biệt

và đề xuất phương pháp rút gọn thuộc tính dựa trên ma trận phân biệt . Cũng

theo hướng tiếp cận này, các tác giả trong [19] đưa ra khái niệm tập rút gọn

dựa trên ma trận dung sai (tolerance matrix) và xây dựng phương pháp rút

gọn thuộc tính dựa trên ma trận dung sai. Ngoài ra, có thể kể đến các phương

pháp rút gọn thuộc tính trong các công trình [29], [31], các tác giả này đã đưa

ra khái niệm tập rút gọn phân bố (distribution reduct), tập rút gọn ấn định

(assignment reduct) và xây dựng phương pháp rút gọn thuộc tính dựa trên

hàm phân bố, hàm ấn định. Theo hướng tiếp cận độ đo khoảng cách (metric),

tác giả trong luận án [2] xây dựng độ đo metric và đề xuất phương pháp rút

gọn thuộc tính trên bảng quyết định không đầy đủ dựa trên metric được xây

dựng.

Giống như cách tiếp cận trong lý thuyết tập thô truyền thống, để tiến hành

so sánh, đánh giá các phương pháp rút gọn thuộc tính theo các hướng tiếp cận

khác nhau nhằm tìm ra một phương pháp hiệu quả với một bài toán thực tế,

các nhà nghiên cứu tập trung giải quyết hai vấn đề: vấn đề thứ nhất là tìm

kiếm mối liên hệ giữa các khái niệm tập rút gọn của các phương pháp nhằm

phân nhóm các phương pháp; vấn đề thứ hai là đề xuất các độ đo hiệu quả

nhằm đánh giá các phương pháp về mặt định lượng.

13

Về vấn đề thứ nhất, cho đến nay đã có một số kết quả nghiên cứu về mối

liên hệ giữa các khái niệm tập rút gọn. Trong bảng quyết định nhất quán,

công bố [37], [56] đã chỉ ra tập rút gọn dựa trên miền dương [56], tập rút gọn

dựa trên hàm quyết định suy rộng [18], tập rút gọn dựa trên hàm phân bố, tập

rút gọn dựa trên hàm ấn định [37], [55] là có định nghĩa độ đo tương đương

nhau. Trong bảng quyết định không nhất quán, Renpu Li và cộng sự [37] đã

chứng minh tập rút gọn dựa trên miền dương, tập rút gọn dựa trên hàm ấn

định là có định nghĩa độ đo tương đương nhau. Huasheng ZOU và cộng sự [17]

đã chứng minh tập rút gọn dựa trên hàm quyết định suy rộng, tập rút gọn dựa

trên ma trận phân biệt là có định nghĩa độ đo tương đương nhau. Tuy nhiên,

theo tài liệu hiện có thì cho đến nay chưa có nghiên cứu tổng thể về mối liên hệ

đầy đủ giữa các khái niệm tập rút gọn, từ đó có một bức tranh tổng thể về mối

liên hệ giữa các khái niệm tập rút gọn, là cơ sở để phân nhóm các phương pháp

rút gọn thuộc tính dựa vào tập rút gọn.

Về vấn đề thứ hai, Yuhua Qian và các cộng sự [33] đã xây dựng các độ đo

đánh giá hiệu năng của tập luật quyết định, tuy nhiên các độ đo này các tác

giả đã xây dựng dựa trên khối đồng nhất cực đại, nhưng các phương pháp trên

được định nghĩa dựa trên quan hệ dung sai, do đó không thể sử dụng các độ

đo của Yuhua Qian và các cộng sự [33] để đánh giá các phương pháp rút gọn

thuộc tính và đòi hỏi phải xây dựng các độ đo mới.

Trên cơ sở tổng kết các nghiên cứu liên quan đến các phương pháp rút

gọn thuộc tính và các độ đo đánh giá hiệu năng tập luật quyết định dựa trên

các tập rút gọn theo tiếp cận tập thô dung sai như đã trình bày ở trên, luận án

đặt ra các vấn đề cần nghiên cứu như sau:

1) Có thể nói rằng tập rút gọn chính là kết quả của một phương pháp rút

gọn thuộc tính. Trong bảng quyết định nhất quán, công bố [37], [56]

đã chỉ ra tập rút gọn của phương pháp dựa trên miền dương [56], tập

14

rút gọn của phương pháp sử dụng hàm quyết định suy rộng [18], tập

rút gọn sử dụng hàm phân bố, phương pháp sử dụng hàm ấn định

[37], [55] là có định nghĩa độ đo tương đương nhau. Tuy nhiên trên

bảng quyết định không nhất quán, các tập rút gọn của các phương

pháp là khác nhau và theo tài liệu hiện có mà tác giả biết thì chưa có

nghiên cứu liên quan đến việc so sánh các tập rút gọn làm cơ sở để so

sánh, đánh giá các phương pháp rút gọn thuộc tính.

2) Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính thường

dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán heuristic

tìm tập rút gọn và khả năng phân lớp của tập rút gọn [2]. Từ việc

tổng kết các phương pháp rút gọn thuộc tính, tác giả thấy rằng nếu

cùng sử dụng một đơn vị tính toán cơ sở trong tập thô dung sai (lực

lượng các lớp dung sai) thì độ phức tạp thời gian các thuật toán

heuristic của các phương pháp là gần như nhau (độ phức tạp thời

gian đa thức). Do đó, việc so sánh, đánh giá các phương pháp đều sử

dụng tiêu chuẩn khả năng phân lớp (độ hỗ trợ của tập luật) của tập

rút gọn. Về mặt định tính, tập rút gọn bảo toàn khả năng phân lớp

của bảng quyết định. Về mặt định lượng, tập rút gọn bảo toàn độ

chắc chắn của tập luật quyết định [2]. Tập rút gọn của phương pháp

nào có độ hỗ trợ của tập luật cao (luật quyết định phủ nhiều đối

tượng) thì có khả năng phân lớp cao [2]. Do đó, khả năng phân lớp

được tính bằng độ hỗ trợ của tập luật. Trong công trình [33], các tác

giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ trợ của tập luật

quyết định trên bảng quyết định không đầy đủ. Tuy nhiên, các tác giả

chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút gọn

của các phương pháp rút gọn thuộc tính, do đó các độ đo này không

đánh giá được khả năng phân lớp của tập rút gọn và đòi hỏi phải có

15

độ chắc chắn, độ hỗ trợ mới để đánh giá khả năng phân lớp của tập

rút gọn, làm cơ sở để so sánh, đánh giá các phương pháp rút gọn

thuộc tính.

3) Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả

nhất định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp

mới vẫn đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các

phương pháp rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương

pháp phù hợp để giải quyết các bài toán trong thực tiễn.

Từ các vấn đề cần nghiên cứu đã trình bày ở trên, mục tiêu nghiên cứu

của luận án là so sánh, đánh giá các phương pháp rút gọn thuộc tính đã công

bố, trên cơ sở đó đề xuất các phương pháp mới.

Với mục tiêu trên, nội dung nghiên cứu của luận án là:

1) Nghiên cứu mối liên hệ giữa các tập rút gọn nhằm: phân nhóm các

phương pháp rút gọn thuộc tính đã công bố theo nguyên tắc: các tập

rút gọn của các phương pháp có định nghĩa độ đo tương đương nhau

được phân thành một nhóm; mối quan hệ giữa các tập rút gọn của các

nhóm phương pháp.

2) Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định (độ

chắc chắn, độ nhất quán, độ hỗ trợ) và nghiên cứu sự thay đổi các độ

đo này trên các tập rút gọn của các nhóm phương pháp nhằm đánh

giá các phương pháp theo tiêu chuẩn khả năng phân lớp của tập rút

gọn. Tập rút gọn của phương pháp nào có khả năng phân lớp tốt nhất,

kém nhất...

3) Đề xuất hai phương pháp mới rút gọn thuộc tính trong bảng quyết

định không đầy đủ: phương pháp sử dụng hàm quan hệ và phương

16

pháp sử dụng lượng thông tin mở rộng. So sánh, đánh giá phương

pháp đề xuất với các phương pháp đã công bố.

Đối tượng nghiên cứu của luận án: các bảng quyết định không đầy đủ

với kích thước trung bình và kích thước lớn.

Phạm vi nghiên cứu của luận án: Tập trung vào bài toán toán rút gọn

thuộc tính ở bước tiền xử lý số liệu trên bảng quyết định không đầy đủ.

Phương pháp nghiên cứu:

- Nghiên cứu lý thuyết: các mệnh đề được đưa ra đều được chứng minh

chặt chẽ trên nền tảng kiến thức cơ bản kết hợp với các kết quả đã được công

bố trên các tạp chí chuyên ngành uy tín.

- Nghiên cứu thực nghiệm: Thực nghiệm các phương pháp đề xuất trên

các bộ số liệu lấy từ kho dữ liệu UCI [40], kết quả thực nghiệm kiểm chứng

kết quả lý thuyết để khẳng định tính đúng đắn của kết quả nghiên cứu.

Bố cục của luận án: gồm phần mở đầu và ba chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo.

Chương 1 trình bày tổng quan về các khái niệm cơ bản về mô hình tập thô

truyền thống và mô hình tập thô dung sai dựa trên quan hệ dung sai trong hệ

thông tin không đầy đủ, các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ đã có. Các đóng góp chính của luận án sẽ được trình bày

trong chương 2 và chương 3.

Chương 2 trình bày hai kết quả chính. Thứ nhất là kết quả phân nhóm các

phương pháp rút gọn thuộc tính dựa vào kết quả nghiên cứu mối liên hệ giữa

các tập rút gọn. Thứ hai là đề xuất các độ đo mới đánh giá hiệu năng tập luật

quyết định (độ chắc chắn, độ nhất quán, độ hỗ trợ) và nghiên cứu sự thay đổi

giá trị các độ đo này trên các tập rút gọn nhằm so sánh, đánh giá các nhóm

17

phương pháp rút gọn thuộc tính trên tiêu chuẩn khả năng phân lớp của tập rút

gọn (độ hỗ trợ của tập luật).

Chương 3 trình bày ba kết quả chính. Thứ nhất là chọn tập tối tượng đại

diện cho bài toán rút gọn thuộc tính nhằm giảm thiểu số đối tượng (dữ liệu),

tăng tính hiệu quả của các thuật toán rút gọn thuộc tính. Thứ hai là đề xuất

phương pháp mới rút gọn thuộc tính sử dụng hàm quan hệ và so sánh, thử

nghiệm phương pháp với các phương pháp đã có trên các bộ số liệu UCI. Thứ

ba là đề xuất phương pháp mới rút gọn thuộc tính sử dụng lượng thông tin mở

rộng và so sánh, thử nghiệm phương pháp với các phương pháp đã có trên các

bộ số liệu UCI.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát

triển tiếp theo và các vấn đề khác mà tác giả quan tâm.

18

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ

Chương này trình bày một số khái niệm cơ bản về hệ thông tin và mô

hình tập thô truyền thống của Pawlak[31], mô hình tập thô mở rộng dựa trên

quan hệ dung sai do Kryszkiewicz [18] đề xuất, gọi là mô hình tập thô dung

sai, trên các hệ thông tin không đầy đủ, bao gồm: hệ thông tin không đầy đủ,

quan hệ dung sai, các tập xấp xỉ dựa trên quan hệ dung sai, bảng quyết định

không đầy đủ. Chương này cũng trình bày một số khái niệm về tập rút gọn

của các phương pháp rút gọn thuộc tính đã công bố làm cơ sở cho nghiên cứu

về mối liên hệ giữa các khái niệm tập rút gọn ở Chương 2.

1.1. Hệ thông tin và mô hình tập thô truyền thống

,

1.1.1. Hệ thông tin

 IS U A

Hệ thông tin là một cặp trong đó U là tập hữu hạn, khác rỗng

a U :

a A

a A

các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính

V a

xác định một ánh xạ: với Va là tập giá trị của thuộc tính

u U a A ,

.

B

,...,

A

Với mọi , ta ký hiệu giá trị thuộc tính a tại đối tượng u là

  a u

 b b 2, 1

b k

Nếu là một tập con các thuộc tính thì ta ký hiệu bộ

 B u

  ib u

i

1,...,

k

các giá trị bởi . Như vậy, nếu u và v là hai đối tượng, thì ta viết

  B u

  B v

  b u i

  b v i

A

,

P

nếu với mọi .

 IS U A

Xét hệ thông tin . Mỗi tập con các thuộc tính xác định

 IND P

,

,

   

một quan hệ hai ngôi trên U, ký hiệu là , xác định bởi

 IND P

  u v U U a P a u

 

   a v

.

 IND P

 IND P

,u v

là quan hệ P-không phân biệt được. Dễ thấy rằng là một

 IND P

quan hệ tương đương trên U. Nếu thì hai đối tượng u và v

19

/U IND P

/U P

 IND P

/U P

không phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương . Ký xác định một phân hoạch trên U, ký hiệu là hay

 P u

,

hiệu lớp tương đương trong phân hoạch chứa đối tượng u là , khi đó

 IND P

  u

P

  v U u v  

 

.

,

X U

1.1.2. Mô hình tập thô truyền thống

 IS U A

B

A

Cho hệ thông tin và tập đối tượng . Với một tập thuộc

/U B

/U B

tính cho trước, chúng ta biểu diễn X thông qua các lớp tương đương

BX

BX

(còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi của hợp của một số hữu hạn các lớp tương đương của . Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-

BX

X

BX

B

B

   u U u  

,

   u U u  

. X   

BX

xấp xỉ trên của X, ký hiệu là lượt là và , được xác định như sau:

BX

Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính

U BX

BX BX 

tập B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 BBN X

: B-miền biên của X , : B-miền ngoài của X.

BX

X

BX

.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại

 Y U B Y /

 Y U B Y /

 X   

,

 BBN X  

Trong trường hợp thì X được gọi là tập chính xác (exact

,B D A

set), ngược lại X được gọi là tập thô (rough set).

(

)

BX

POS D B

 

X U D

/

Với , ta gọi B-miền dương của D là tập được xác định như sau

20

(

)

v U

POS D B

Rõ ràng là tập tất cả các đối tượng u sao cho với mọi mà

 u B

 v B

(

)

. Nói cách khác,

  u

POS D B

D

 ta đều có    u U u  

  u D v D 

B

.

Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân

cho ở Bảng 1.1.

Bảng 1.1. Bảng thông tin về bệnh cúm

Đau đầu Thân nhiệt Cảm cúm U

Bình thường Không Có u1

Có Cao Có u2

Có Rất cao Có u3

Không Bình thường Không u4

Không Cao Không u5

Không Rất cao Có u6

Không Cao Có u7

,

,

,

,

,

/U

Không Rất cao Không u8

  ,

u u u u u , 6 8

5

7

4

  u u u 1 2 3

 

,

,

/U

Ta có: {Đau đầu} =

  ,

  ,

4

u u u , 5

2

7

u u u , 3 6 8

  u u , 1

 

,

,

,

,

/U

{Thân nhiệt} =

  ,

5

u u u u , 3

6

2

7

  u u u u , 1 4 8

 

,

/U

{Cảm cúm} =

  ,

  ,

u u , 2 3

u u u , 5 8

4

u u , 6

7

    u , 1

 

{Đau đầu, Cảm cúm} =

,u u 2 3

Như vậy, các bệnh nhân không phân biệt được về đau đầu và cảm

cúm, nhưng phân biệt được về thân nhiệt.

u

u

,

,

,

Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:

  ,

         u u , 1 3

4

2

u u , 5

7

u u , 6 8

u u

,

,

{X 

.

 u u u u , 3

6

2

7

Đặt (Cảm cúm) = Có} = . Khi đó:

21

BX

BX

,

,

,

,

.

 u u , 2 3

u u u u u u , 5 8

2

3

6

7

,

,

và Như vậy, B-miền biên của X là

  

 BBN X

u u u u , 5 6 8

7

U D /

X

,

,

;

X

,

,

,

BX

BX

tập hợp . Nếu đặt D = {Cảm cúm} thì

1

u u u u , 1 4 8

5

2

u u u u , 3

2

6

7

1

 u u , 1

4

2

 u u , 2 3

 

(

)

BX

,

,

; ,

  

POS D B

u u u u , 1 2

3

4

X U D

/

/U B

.

Với các khái niệm của tập xấp xỉ đối với phân hoạch , các tập thô

BX U

BX  

được chia thành bốn lớp cơ bản:

BX U

BX  

1) Tập X là B-xác định thô nếu và .

BX U

BX  

2) Tập X là B-không xác định trong nếu và .

BX U

BX  

3) Tập X là B-không xác định ngoài nếu và .

4) Tập X là B-không xác định hoàn toàn nếu và .

1.1.3. Bảng quyết định đầy đủ

DS

DCU (

,

)

C D  

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là

DS

DCU (

,

)

u U d D ,    

với .

  d u

u U

c C

Xét bảng quyết định với giả thiết ,

  c u

đầy đủ giá trị, nếu tồn tại và sao cho thiếu giá trị thì DS

DS

được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.

,

,

Bảng quyết định

  D u

  D v

  C v

kéo theo tức là với mọi được gọi là nhất quán nếu D phụ thuộc hàm vào C,   . Ngược lại thì gọi là u v U C u

C

không nhất quán hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết  . Trong trường hợp bảng không định là nhất quán khi và chỉ khi POS D U

POS D C

C

D

nhất quán thì chính là tập con cực đại của U sao cho phụ thuộc hàm

đúng.

22

1.1.4. Tập rút gọn và tập lõi

DCU (

DS

)

,

c C

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định. Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định. Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.

D

Định nghĩa 1.1. [31] (Tập lõi dựa trên miền dương) Cho bảng quyết được gọi là không cần thiết . Thuộc tính định

 POS D POS

C

)

(

C c 

  

(dispensable) trong DS dựa trên miền dương nếu ;

PCORE C

Ngược lại, c được gọi là cần thiết (indispensable). Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu là

. Khi đó, thuộc tính cần thiết chính là thuộc tính lõi.

DS

DCU (

,

)

R C

Định nghĩa 1.2. [31] (Tập rút gọn dựa trên miền dương) Cho bảng quyết

(

)

(

)

POS D POS D 

định và tập thuộc tính . Nếu

C

R

r R POS ,

(

D POS D

)

(

)

 

1)

C

  R r 

2)

PRED C

thì R là một tập rút gọn của C dựa trên miền dương.

PCORE C

R

là họ tất cả các tập rút gọn Pawlak của C. Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak. Ký hiệu 

 

R PRED C

Khi đó .

23

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai

,

1.2.1. Hệ thông tin không đầy đủ

 IS U A

Hệ thông tin là một cặp trong đó U là tập hữu hạn, khác rỗng

a U :

a A

a A

các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính

V a

xác định một ánh xạ: với Va là tập giá trị của thuộc tính

u U a A ,

.

B

,...,

A

Với mọi , ta ký hiệu giá trị thuộc tính a tại đối tượng u là

  a u

 b b 2, 1

b k

Nếu là một tập con các thuộc tính thì ta ký hiệu bộ

 B u

  ib u

i

1,...,

k

các giá trị bởi . Như vậy, nếu u và v là hai đối tượng, thì ta viết

  B u

  B v

  b u i

  b v i

,

u U

a A

nếu với mọi .

 IS U A

  a u

Với hệ thông tin , nếu tồn tại và sao cho chứa

giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái

,

lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là

 IIS U A 

‘*’ và hệ thông tin không đầy đủ là .

,

U

,

,

A

,

}

Ví dụ 1.2. Bảng 1.2 biểu diễn thông tin về các xe hơi là hệ thông tin không

 IIS U A 

u u u u u u , { , 1 3

, } 6

4

5

2

a a a a , { , 1 2 4

3

đầy đủ với , với a1 (Đơn giá),

a2 (Km đã đi), a3 (Kích thước), a4 (Tốc độ tối đa).

24

Bảng 1.2. Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa

Cao Nhiều Trung bình Thấp u1

Thấp * Trung bình Thấp u2

* * Gọn nhẹ Cao u3

Cao * Trung bình Cao u4

* * Trung bình Cao u5

Thấp Nhiều Trung bình * u6

P

,

A

1.2.2. Mô hình tập thô dung sai

 IIS U A 

Xét hệ thông tin không đầy đủ , với tập thuộc tính P, ta

,

,

'*'

 

 

định nghĩa một quan hệ nhị phân trên U như sau:

 SIM P

  u v U U a P a u

  a v

  a u

  a v

 

 '*'

.

 SIM P

Quan hệ không phải là quan hệ tương đương vì chúng có tính

 SIM P

phản xạ, đối xứng nhưng không có tính bắc cầu. Do đó, là một quan

 

hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên

 SIM P

a P 

   SIM a

,

U. Theo [18], .

  u

  u

 SIM P

PS

PS

  v U u v

 

Gọi là tập . là tập lớn nhất các đối

tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi

/U SIM P

là một lớp dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai

sinh bởi quan hệ SIM(P) trên U là , khi đó các lớp dung sai trong

25

/U SIM P

không phải là một phân hoạch của U mà hình thành một phủ của

  u U 

u U PS

U vì chúng có thể giao nhau và .

Ví dụ 1.3. Từ hệ thông tin đầy đủ cho ở ví dụ 1.2 Ta tính:

AS u (

1

u ) { } 1

AS u (

2

u u ) { , } 2

6

AS u (

3

u ) { } 3

AS u (

4

u u ) { , } 4 5

, , ,

AS u (

5

) { , 4

u u u 5

, } 6

AS u (

6

) { , 2

u u u 5

, } 6

U SIM A

(

/

),

),

),

),

),

)}

) { 

, .

S u ( 1 A

S u ( A

2

S u ( A 3

S u ( A

4

S u ( 5 A

S u ( A

6

,

,

    u , ,

  ,

  ,

    u , 1

uu , 2

6

3

uu , 4

5

uuu , 5

4

6

uuu , 5

2

6 

P

Ta có =

a a , 3 4

)

)

,

Với ta tính :

S u ( 1 P

S u ( P

2

) { , u u u  1 2

, }, 6

S u ( 3 P

) { }, u  3

S u ( P

4

S u ( 5 P

) { , u u u  4 5

, } 6

PS u (

6

) { , u u u u u ,  1 4

, } 6

5

2

U SIM P

(

/

),

),

),

),

),

)}

) { 

,

S u ( 1 P

S u ( P

2

S u ( P 3

S u ( P

4

S u ( 5 P

S u ( P

6

,

,

,

,

,

,

,

,

,

,

  ,

    u , ,

  ,

  ,

  uuu 2 1

6

uuu 2 1

6

3

uuu , 5

4

6

uuu , 5

4

6

uuuuu 4 1

2

5

6 

Ta có =

COVER U

COVER U

P

A

Ta ký hiệu tập tất cả các phủ của U sinh bởi các tập con thuộc tính

,

là . Trên ta định nghĩa một quan hệ thứ tự bộ

 COVER U 

,

,P Q A

phận như sau.

 IIS U A 

Định nghĩa 1.3. [24] Cho hệ thông tin không đầy đủ với .

/U SIM P

/U SIM Q

Ta nói:

/

/

S

 

1) Phủ và phủ là như nhau (viết

  u U S u ,

  u

 U SIM P U SIM Q 

P

Q

/U SIM P

/U SIM P

U SIM P

/

U SIM Q

/

) khi và chỉ khi .

u U S

,

S

 

2) mịn hơn (viết ) khi

  u

  u

P

Q

và chỉ khi .

26

,

 COVER U 

S

S

u u U

,



Trên , phần tử nhỏ nhất gọi là phủ rời rạc

  u

    u 

A

A

S

S



và phần tử lớn nhất gọi là phủ một khối

  u

  u U u U ,

A

A

,

.

 IIS U A 

S

S

 u U

P Q A  

Tính chất 1.1. [24] Cho hệ thông tin không đầy đủ

  u

  u

P

Q

/

/

P Q A  

1) Nếu thì với .

  U SIM Q U SIM P

S

S

S

 u U

,P Q A

2) Nếu thì .

  u

  u

  u

P

Q

P Q 

3) Nếu thì với .

Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và

PX

P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX

PX

X

X

  u

  u

P

P

 u U S  

 u X S  

PX

X

S

  u

  u u U

P

P

 u U S  

    

và , được xác định như sau

,

U PX

PX PX 

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập

 PBN X

và P-miền ngoài của X là tập . Trong trường hợp

 PBN X  

thì X được gọi là tập chính xác (exact set), ngược lại X được gọi

,P D A

là tập thô (rough set) dựa trên quan hệ dung sai.

(

)

PX

POS D P

 

X U D

/

v

(

)

Với , ta gọi P-miền dương của D là tập được xác định như sau

  S u P

POS D P

(

)

Rõ ràng là tập tất cả các đối tượng u sao cho với mọi

  u

  u D v D

POS D P

P

   u U S u  

D

ta đều có . Nói cách khác, .

27

Như vậy, mô hình tập thô dung sai là mô hình tập thô mở rộng dựa trên

quan hệ dung sai trên các hệ thông tin không đầy đủ với các tập xấp xỉ dưới,

xấp xỉ trên được định nghĩa dựa trên quan hệ dung sai.

P

Ví dụ 1.4. Từ hệ thông tin không đầy đủ cho ở ví dụ 1.2

a a , 3 4

U SIM P

(

/

),

),

),

),

),

)}

) { 

Với ta có

S u ( 1 P

S u ( P

2

S u ( 3 P

S u ( P

4

S u ( 5 P

S u ( P

6

)

)

,

, với

S u ( 1 P

S u ( P

2

) { , u u u  1 2

, }, 6

S u ( 3 P

) { }, u  3

S u ( P

4

S u ( P 5

) { , u u u  4 5

, } 6

PS u (

6

) { , u u u u u ,  1 4

, } 6

5

2

PX

X

,

 u u , 1

2

u u u u , { , 1 2

, } 6

4

PX

,

,

,

Xét tập đối tượng , khi đó và

 u u u u u , 1 4

2

5

6

.

1.2.3. Bảng quyết định không đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập

thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

DS U C D ,

C D  

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là

DS U C D ,

u U d D ,    

với .

  d u

u U

c C

Xét bảng quyết định với giả thiết ,

  c u

đầy đủ giá trị, nếu tồn tại và sao cho thiếu giá trị thì DS

,

được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết

 IDS U C D

d D

, '*'

 

định đầy đủ. Ta biểu diễn bảng quyết định không đầy đủ là

V d

với . Không mất tính chất tổng quát, giả thiết D chỉ gồm một

 d

,

P

A

u U

thuộc tính quyết định duy nhất .

  d

 IDS U A 

u ( )

Cho bảng quyết định không đầy đủ . Với , ,

P

   d v v

 S u ( ) P

gọi là hàm quyết định suy rộng của đối tượng u trên tập

28

|

( ) | 1 

u U

A u

thuộc tính P. Nếu với mọi thì IDS là nhất quán, trái lại IDS là

P

A

không nhất quán.

 d

POS

/ { }}

|

{  

PX X U d 

Theo khái niệm miền dương, với miền dương của đối với P là

  d ) (

P

POS

U

) 

, khi đó IDS là nhất quán khi và chỉ khi

  d (

B

,

.

  d

 IDS U A 

Ví dụ 1.5. Xét bảng quyết định không đầy đủ cho ở Bảng

U

,

,

1.3 được xây dựng từ hệ thông tin không đầy đủ ở Ví dụ 1.2 bằng cách thêm

u u u u u u { , , 1 3

, } 6

2

4

5

A

,

}

vào thuộc tính quyết định d (Gia tốc), với ,

a a a a , { , 1 2 4

3

.

Bảng 1.3. Bảng quyết định về các xe hơi

Km đã Kích Ô tô Đơn giá Tốc độ Gia tốc đi thước

Cao Nhiều Trung bình Thấp Nhanh u1

Thấp * Trung bình Thấp Nhanh u2

* * Gọn nhẹ Cao Chậm u3

Cao * Trung bình Cao Nhanh u4

Rất * * Trung bình Cao u5 nhanh

{

X X X

,

,

}

X

X

X

Nhanh Thấp Nhiều Trung bình * u6

  U d /

1

2

3

1

u u u u , { , 1 2

, }, 6

4

2

u { }, 3

3

u { } 5

AX

,

AX

,

AX

Ta có với .

   

1

 u u , 1

2

2

  u 3

3

POS

Các tập xấp xỉ dưới đối với A là .

  d (

A

u u u ) { , , } 1 2 3

Do đó, .

Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính A là:

29

)

)

)

)

A u 1(

A u 2(

A u 3(

A u 4(

)

)

{Nhanh}, {Nhanh}, {Chậm}, {Nhanh, Rất

A u 5(

A u 6(

nhanh}, {Nhanh, Rất nhanh}, {Nhanh, Rất nhanh}.

Do đó, IDS là bảng quyết định không nhất quán.

1.3. Các khái niệm về tập rút gọn của bảng quyết định không đầy đủ

Trong mấy năm gần đây, một số phương pháp rút gọn thuộc tính trong

bảng quyết định không đầy đủ đã được đề xuất theo hướng tiếp cận mô hình tập

thô dung sai của Kryszkiewicz [18]. Tương tự như các phương pháp rút gọn

thuộc tính theo tiếp cận lý thuyết tập thô truyền thống, mỗi phương pháp đều đưa

ra khái niệm về tập rút gọn dựa trên một độ đo được chọn và xây dựng thuật toán

heuristic tìm một tập rút gọn tốt nhất dựa trên tiêu chuẩn là chất lượng phân lớp

của tập rút gọn hay độ hỗ trợ của tập luật dựa trên tập rút gọn. Trong mục này,

luận án trình bày một số khái niệm về tập rút gọn của các phương pháp rút gọn

thuộc tính đã công bố làm cơ sở cho việc nghiên cứu mối liên hệ giữa các tập rút

gọn ở Chương 2.

1.3.1. Tập rút gọn dựa trên hàm quyết định suy rộng

Sau khi đề xuất mô hình tập thô dung sai, Kryszkiewicz [18] đưa ra khái

niệm về tập rút gọn của bảng quyết định không đầy đủ, là tập con tối thiểu của

tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các

,

đối tượng.

  d

 IDS U A 

R

A

Định nghĩa 1.4. [18] Cho bảng quyết định không đầy đủ . Nếu

 

u U

thỏa mãn:

  u

  u

A

R

 

R

u U

' R

'

(1) với mọi

  u

  u

A

R

(2) , tồn tại sao cho

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng.

30

1.3.2. Tập rút gọn dựa trên miền dương

Dựa trên ý tưởng mở rộng khái niệm tập rút gọn của Pawlak trong lý

thuyết tập thô truyền thống, Zuqiang Meng và các cộng sự [56] đưa ra khái

,

niệm về tập rút gọn dựa trên miền dương.

  d

 IDS U A 

R

A

Định nghĩa 1.5. [56] Cho bảng quyết định không đầy đủ . Nếu

POS

POS

thỏa mãn:

  d

  d

R

A

R

' R

POS

POS

'

(1)

  d

  d

A

R

(2) ,

thì R được gọi là một tập rút gọn của IDS dựa trên miền dương.

1.3.3. Tập rút gọn dựa trên độ đo lượng thông tin

Theo tiếp cận tính toán hạt (granular computing), Huang B và các cộng

B

B

A

sự [16] đưa ra khái niệm về tập rút gọn dựa trên lượng thông tin (information

n

S

U

,...,

u

quantity). Với , lượng thông tin của đối với {d} là

 I B

  d

 I B

B

u i

 u u , 1

2

n

 I B

   I B d

1    1 2 U  1 i

,

với và .

  d

 IDS U A 

R

A

Định nghĩa 1.6. [16] Cho bảng quyết định không đầy đủ . Nếu

;

  1

thỏa mãn:

'

.

   I R d ' R  

  2

     R I R d ,

   I A d 

   I A d

.

thì R được gọi là một tập rút gọn của IDS dựa trên lượng thông tin.

1.3.4. Tập rút gọn dựa trên ma trận phân biệt

Theo hướng tiếp cận mở rộng khái niệm ma trận phân biệt trong lý

thuyết tập thô truyền thống, trong công trình [17] Huasheng ZOU và các cộng

31

sự đưa ra khái niệm tập rút gọn dựa trên ma trận phân biệt. Ma trận phân biệt

i jm

 M m   i j

 

n n 

(discernibility matrix) của IDS là , các phần tử được xác định

)

a u (

)

)

a u (

)

  

  

 

a a A a u ( , i

j

a u ( i

j

j

u i

A

m i j

 

 

j

u i

A

 d u  d u

 

    

,

như sau:

  d

 IDS U A 

R C

Định nghĩa 1.7. [17] Cho bảng quyết định không đầy đủ và

 M m   i j

 

n n 

R m

 

ma trận phân biệt . Nếu thỏa mãn:

i j

i jm  

R

r R

(1) với mọi

  r

(2) Với mọi , không thỏa mãn (1)

thì R được gọi là một tập rút gọn của IDS dựa trên ma trận phân biệt.

1.3.5. Tập rút gọn dựa trên ma trận dung sai

Cũng theo hướng tiếp cận mở rộng ma trận phân biệt, công trình [19]

đưa ra khái niệm tập rút gọn dựa trên ma trận dung sai. Ma trận dung sai

i jm

 TM m   i j

 

n n 

(tolerance matrix) của IDS là , các phần tử được xác định

)

a u (

)

)

a u (

)

  

  

a a A a u ( , i

j

a u ( i

j

 d u i

j

m i j

 

 d u i

j

 d u  d u

 

    

,

như sau:

  d

 IDS U A 

R C

Định nghĩa 1.8. Cho bảng quyết định không đầy đủ và ma

 TM m   i j

 

n n 

R m

 

trận dung sai . Nếu thỏa mãn:

i j

i jm  

R

r R

(1) với mọi

  r

(2) Với mọi , không thỏa mãn (1)

thì R được gọi là một tập rút gọn của IDS dựa trên ma trận dung sai.

32

1.3.6. Tập rút gọn dựa trên hàm phân bố, hàm ấn định

Trong các công trình [29], [31], các tác giả đưa ra khái niệm tập rút gọn

dựa trên hàm phân bố, gọi tắt là tập rút gọn phân bố (distribution reduct), tập

rút gọn dựa trên hàm ấn định, gọi tắt là tập rút gọn ấn định (assignment

,

reduct).

  d

 IDS U A 

U

U d /

R C

 

Định nghĩa 1.9. [29], [31] Cho bảng quyết định không đầy đủ ,

   Y  1

Y ,..., m

iu U

 u 1,..., U u

Y

j

R

Y

j

1,...,

m

,...,

, , . Với , đặt:

R j

u i

 R

u i

Y 1

u i

R Y m

u i

S

S 

 u i 

R u i

R

S

 R

u i

j

R

u i

 Y Y : j

  

với , .

 R

u i

 A

u i

i

1,...,

U

P

'P  

u

u

(1) R được gọi là một tập rút gọn phân bố của IDS nếu

ju U

 R

j

 A

j

với và , tồn tại sao cho .

 R

u i

 A

u i

i

1,...,

U

P

'P  

u

u

(1) R được gọi là một tập rút gọn ấn định của IDS nếu với

ju U

 R

j

 A

j

và , tồn tại sao cho .

,

1.3.7. Tập rút gọn dựa trên metric

  d

 IDS U A 

/

/

,P Q A

hệ thông tin không đầy đủ . Theo hướng tiếp cận metric công trình [2] đưa ra khái niệm metric. trên 

 K P U SIM P K Q U SIM Q ,

Với , giả sử tương ứng là hai

,

:

phủ sinh bởi hai tập thuộc tính P và Q. Khi đó với mọi

 K P K Q COVER U 

 Ed COVER U COVER U

 0,  

, ánh xạ xác định

,

  Ed K P K Q

 IE P Q IE Q P 

COVER U

bởi

là một metric trên tập .

33

,

  d

 IDS U A 

R C

Định nghĩa 1.10. [2] Cho bảng quyết định không đầy đủ và

.

  1

E

E

,

,

D

.

 

  2

   r

  r

 d K C K C D ,

E

 

 d K R K R D ,   r R d K R E

  d K C K C D ,       K R

metric Nếu thỏa mãn:

thì R được gọi là một tập rút gọn của IDS dựa trên metric.

1.4. Kết luận chương 1

Chương 1 đã trình bày tổng quan một số khái niệm cơ bản trong mô hình

tập thô dung sai do Kryszkiewicz [18] đề xuất và một số khái niệm cơ bản về

tập rút gọn và tập lõi [56] trong hệ thông tin không đầy đủ và bảng quyết định

không đầy đủ. Khái niệm tập rút gọn và tập lõi của bảng quyết định không

đầy đủ được mở rộng từ khái niệm tập lõi và tập rút gọn dựa trên miền dương

trong lý thuyết tập thô truyền thống của Pawlak và tổng kết một số khái niệm

về tập rút gọn của các phương pháp rút gọn thuộc tính đã công bố. Các khái

niệm này được sử dụng trong chương 2 và chương 3 của luận án.

34

CHƯƠNG 2. ĐỀ XUẤT PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC

PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT

ĐỊNH KHÔNG ĐẦY ĐỦ

2.1. Mở đầu

Mục tiêu của rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ

nhất của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết

định. Dựa vào tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao

nhất. Rút gọn thuộc tính trong bảng quyết định đầy đủ theo tiếp cận mô hình tập

thô truyền thống của Pawlak [31] là chủ đề nghiên cứu sôi động trong nhiều năm

qua. Trên bảng quyết định không đầy đủ, dựa trên mô hình tập thô dung sai của

Kryszkiewicz [18], nhiều phương pháp heuristic rút gọn thuộc tính đã được đề

xuất trong mấy năm gần đây [15], [16], [17], [20], [27], [29], [37], [55], [56].

Giống như cách tiếp cận tập thô truyền thống của Pawlak, các phương pháp này

đều thực hiện các bước chính như sau:

1) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được định nghĩa.

2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng

đóng góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ

quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng

nhiều và ngược lại.

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo

tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của

thuộc tính). Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó

có thể áp dụng đối với các bài toán có dữ liệu lớn. Các thuật toán heuristic

này thường được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếp cận

từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down). Dựa vào

nhận xét tập lõi xuất hiện trong mọi tập rút gọn nên các thuật toán xây dựng

theo hướng tiếp cận bottom-up được chia thành hai nhóm: các thuật toán tính

35

toán lõi và các thuật toán không tính toán lõi. Ý tưởng chung của các thuật

toán tính toán lõi là xuất phát từ tập lõi, bổ sung dần dần các thuộc tính có độ

quan trọng lớn nhất vào tập lõi cho đến khi thu được tập rút gọn. Các thuật

toán không tính toán lõi xuất phát từ tập rỗng và bổ sung dần các thuộc tính

có độ quan trọng lớn nhất cho cho đến khi thu được tập rút gọn. Các thuật

toán được xây dựng theo hướng tiếp cận top-down xuất phát từ tập thuộc tính

điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ nhất cho đến

khi thu được tập rút gọn. Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp

danh sách các thuộc tính theo thứ tự giảm dần hoặc tăng dần của độ quan trọng

tại mỗi bước lặp.

Trên cơ sở tổng kết các kết quả đã công bố về các phương pháp rút gọn

thuộc tính trong bảng quyết định không đầy đủ, chương này trình bày các kết

quả nghiên cứu sau đây:

1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ dựa vào nghiên cứu mối liên hệ giữa các khái

niệm tập rút gọn.

2) Đánh giá các phương pháp rút gọn thuộc tính dựa vào nghiên cứu sự

thay đổi các độ đo đánh giá hiệu năng tập luật quyết định trên các

khái niệm tập rút gọn.

2.2. Đề xuất phân nhóm các phương pháp rút gọn thuộc tính

Phần này trình bày kết quả phân nhóm các phương pháp rút gọn thuộc

tính và mối quan hệ giữa các tập rút gọn của các nhóm phương pháp dựa vào

nghiên cứu mối liên hệ giữa các khái niệm tập rút gọn. Tiêu chí phân nhóm là:

các phương pháp có khái niệm tập rút gọn dựa vào độ đo như nhau được phân

thành một nhóm.

36

Vì kết quả của một phương pháp rút gọn thuộc tính chính là tập rút gọn

nên kết quả phân nhóm này có ý nghĩa rất quan trọng, là cơ sở để so sánh,

đánh giá các phương pháp được trình bày ở phần sau.

Các kết quả trong phần này đã được tác giả công bố trong công trình

[CT1] .

2.2.1 Bảng ký hiệu các tập rút gọn của bảng quyết định không đầy đủ

Để trình bày kết quả nghiên cứu về mối liên hệ giữa các khái niệm tập

rút gọn, chúng tôi ký hiệu các khái niệm tập rút gọn đã mô tả ở chương 1

trong Bảng 2.1 như sau:

Bảng 2.1. Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ.

Ký hiệu tập rút gọn Mô tả

PR

Tập rút gọn dựa trên miền dương

R

Tập rút gọn dựa trên hàm quyết định suy rộng

R

Tập rút gọn ấn định

MR

Tập rút gọn dựa trên ma trận phân biệt

DR

Tập rút gọn dựa trên metric

IR

Tập rút gọn dựa trên lượng thông tin

TMR

Tập rút gọn dựa trên ma trận dung sai

R

Tập rút gọn phân bố

Trước hết, chúng tôi tổng kết các kết quả đã công bố về mối liên hệ giữa

các khái niệm tập rút gọn trong bảng quyết định không đầy đủ.

37

1) Nếu bảng quyết định nhất quán, các tác giả trong [37], [56] đã chỉ ra

PR

R R R

, , , có khái niệm tập rút gọn dựa trên độ đo là như nhau.

2) Nếu bảng quyết định không nhất quán, Renpu Li và cộng sự [37] đã

R

R

chứng minh , có khái niệm tập rút gọn dựa trên độ đo là như nhau.

MR

R

Huasheng ZOU và cộng sự [17] đã chứng minh , có khái niệm tập rút

gọn dựa trên độ đo là như nhau.

Tiếp theo, chúng tôi tiếp tục nghiên cứu các mối liên hệ còn lại giữa các

tập rút gọn trong trường hợp bảng quyết định không đầy đủ nhất quán hoặc

không nhất quán.

DR

IR

TMR

,

, , 2.2.2 Mối liên hệ giữa các khái niệm tập rút gọn

  d

 IDS U A 

Cho bảng quyết định không đầy đủ . Trong mục này,

DR

IR

TMR

chúng tôi chứng minh ba khái niệm tập rút gọn , và là tương đương

R

A

,

nhau trong cả hai trường hợp IDS nhất quán và không nhất quán.

  d

 IDS U A 

,

,

Mệnh đề 2.1. Cho bảng quyết định không đầy đủ và .

  d

  d K A K A

  d

E

E

   d K R K R

Khi đó khi và chỉ khi

   I R d

   I A d

,

.

  d

 IDS U A 

U

,...,

u

A

,

,

R 

Chứng minh. Xét bảng quyết định không đầy đủ với

  d

  d K A K A

  d

 u u , 1

2

n

E

E

   d K R K R

và . Từ ,

U

U

S

S

S

S

R

u i

u i

A

u i

u i

d

R

d

A

  

  

1 U

U

U

1 U

i

i

1 

1 

   

   

   

   

U

U

U

U

1

1

1

1

S

1

S

1

S

1

S

u i

R

u i

u i

A

u i

R

d

d

A

2

2

2

2

  

  

i

i

i

i

1 

1 

1 

1 

U

U

U

U

  1    

   

   

   

   

   

   

   

theo định nghĩa metric ta có:

38

Theo định nghĩa lượng thông tin ta có:

  d

 I R

  d

 I A

 I R

 I A

   I R d

   I A d

.

Mệnh đề 2.1 cho thấy khái niệm tập rút gọn dựa trên metric và tập rút

DR

gọn dựa trên lượng thông tin là tương đương nhau, hay tương đương với

R

A

,

.IR

  d

 IDS U A 

Mệnh đề 2.2. Cho bảng quyết định không đầy đủ , và

 TM m   i j

 

n n 

,

,

 

là ma trận dung sai của IDS. Khi đó

  d

  d K A K A

  d

R m i j

E

E

   d K R K R

khi và chỉ khi với mọi

i jm  

,

.

  d

 IDS U A 

U

,...,

u

R

,

,

A

Chứng minh. Xét bảng quyết định không đầy đủ với

  d

  d K A K A

  d

 u u , 1

2

n

E

E

   d K R K R

và . Từ ,

U

U

S

S

S

S

R

u i

u i

A

u i

u i

d

R

d

A

  

  

1 U

U

U

1 U

i

i

1 

1 

   

   

   

   

S

S

S

S

theo định nghĩa metric ta có:

iu U

R

u i

u i

A

u i

u i

d

R

d

A

  

  

S

S

,

S

S

với mọi . (2.1)

u i

R

u i

u i

u i

A

d

R

d

A

  

  

S

S

S

S

 

Do nên (2.1) tương đương với:

iu U

R

u i

u i

A

u i

u i

d

R

d

A

  

  

S

S

S

S

với . (2.2)

u i

A

R

u i

u i

A

u i

R

u i

u i

d

d

   S

   S

S

S

S

S

S

S

S

S

u i

A

u i

A

u i

R

u i

R

u i

u i

u i

A

u i

R

u i

u i

d

d

d

A

d

R

   S

   S

  

  

Từ

.

Do đó (2.2) tương đương với:

39

S

S

S

S

 

iu U

R

u i

u i

A

u i

u i

d

R

d

A

  

  

 

với (2.3)

R m i j

i jm  

 

U

1) Ta chứng minh nếu (2.3) thỏa mãn thì với mọi .

jm  

u u ,i

i 0 0

R m i j 0 0

0

j 0

u

Giả sử tồn tại sao cho . Khi đó tồn tại sao

u ,i

0

j 0

j 0

 d u i 0

 d u

u

A R

cho . không phân biệt được nhau bởi các thuộc tính trong

u ,i

0

j 0

u

S

u

S

R và phân biệt được nhau bởi các thuộc tính trong , nghĩa là

A

R

j 0

u i 0

j 0

u i 0

u

S

u

S

S

và .

A

A

d

A

j 0

u i 0

j 0

u i 0

u i 0

  

u

S

u

S

S

Từ suy ra (*)

R

R

R

d

j 0

u i 0

j 0

j 0

u i 0

u i 0

u i 0

 d u i 0

 d u

   S

u

S

S

Từ và ta suy ra

R

R

d

j 0

u i 0

u i 0

  

S

S

S

S

hay . (**)

R

u i

u i

A

u i

u i

d

R

d

A

  

  

 

Từ (*) và (**) suy ra , điều này mâu thuẫn

R m i j

với (2.3). Do đó, giả sử là sai và ta kết luận nếu (2.3) thỏa mãn thì

i jm  

 

với mọi .

R m i j

i jm  

2) Ngược lại, ta cần chứng minh nếu với mọi thì (2.3)

S

S

S

S

thỏa mãn.

R

A

R

d

d

A

0iu

u i 0

u i 0

u i 0

u i 0

 

 

S

S

S

S

U

Giả sử tồn tại sao cho . Do

A

R

d

A

R

d

u i 0

u i 0

u i 0

u i 0

0ju

  

  

u

S

S

u

S

S

u

S

S

nên tồn tại sao cho

R

A

R

R

d

d

A

R

d

j 0

u i 0

u i 0

j 0

u i 0

u i 0

j 0

u i 0

u i 0

  

  

  

u

S

S

u

S

và . Từ suy ra

A

A

d

A

j 0

j 0

u i 0

u i 0

j 0

u i 0

 d u

 d u i 0

  

a R

, kết hợp với suy ra . Theo định

jm  

i 0 0

a m i j 0 0

u

S

 

nghĩa ma trận dung sai, tồn tại sao cho với mọi thì (vì

R

j 0

u i 0

R m i j 0 0

), nghĩa là . Điều đó mâu thuẫn với điều kiện

40

 

 

R m i j

i jm  

R m i j

với mọi . Do đó, giả sử là sai và ta kết luận nếu

i jm  

,

,

với mọi thì (2.3) thỏa mãn.

  d

  d K A K A

  d

E

E

   d K R K R

 

Từ 1) và 2) ta kết luận khi và

R m i j

i jm  

chỉ khi với mọi .

Mệnh đề 2.2 cho thấy khái niệm tập rút gọn dựa trên metric và tập rút

DR

gọn dựa trên ma trận dung sai là tương đương nhau, hay tương đương

TMR

DR

IR

TMR

với . Kết hợp với Mệnh đề 2.1 ta kết luận , và là tương đương

nhau

PR

R

R

A

,

2.2.3 Mối liên hệ giữa và

  d

 IDS U A 

POS

POS

 

u U

Mệnh đề 2.3. Cho bảng quyết định không đầy đủ và .

  u

  u

  d

  d

A

R

R

A

POS

POS

Nếu với mọi thì .

  d

  d

R

A

u

POS

u

POS

u

POS

Chứng minh. Giả sử , khi đó chắc chắn tồn tại

  d

  d

  d

0

A

0

R

0

A

0u U

1

1

u

u

u

POS

 

sao cho và . Từ suy ra

  d

 A u

0

 R u

0

R

0

0

A

0

R

u

u

S

u

S

u

u

u

 

 

, từ suy ra . Vì vậy, . Do

R

0

0

A

A

0

R

0

A

0

R

0

u

u

 

 

u U

nên , kết hợp với suy ra

  u

  u

A

0

R

0

A

R

 

u U

. Điều này mâu thuẫn với điều kiện với mọi

  u

  u

R

A

POS

POS

. Do đó giả sử là sai và ta kết luận nếu với mọi thì

  d

  d

R

A

.

Chú ý: Nếu IDS không nhất quán thì chiều ngược lại của Mệnh đề 2.3

,

không thỏa mãn. Điều này được minh họa bằng Ví dụ 2.1 sau đây.

  d

 IDS U A 

U

,

,

,

,

A

,

,

Ví dụ 2.1. Xét bảng quyết định không đầy đủ với

 u u u u u 1 3 5

2

4

a a a 1 2 3

, cho ở Bảng 2.2.

41

2a

3a

1a

Bảng 2.2. Bảng quyết định minh họa Ví dụ 2.1

1u

d U

2u

1 0 0 1

3u

1 0 1 1

4u

* 0 0 1

5u

2 2 2 *

u

u

 

 

 

2 * 0 2

  

 0,1

  

 0, 2

u 1

A

2

A

u 3

A

4

A

u 5

A

POS

R

 

Ta có , . Do đó IDS

  d

A

a a , 1 2

POS

POS

,

,

 

không nhất quán và dễ thấy rằng . Xét , dễ thấy rằng

  

  d

  d

 A u

3

u u u 1 2 3

R

A

,

,

 

. Tuy nhiên, và

  

 R u

3

u u u u , 1 2

3

4

u 3

u 3

A

R

, do đó .

R

Mệnh đề 2.3 cho thấy nếu là một tập rút gọn dựa trên hàm quyết định

PR

PR

R

POS

POS

U

u U

suy rộng thì tồn tại với là một tập rút gọn dựa trên miền dương.

  d

  d

R

A

1

 

 

 

u U

Nếu IDS nhất quán thì , nghĩa là với mọi

  u

  u

  u

  u

  u

  u

R

A

A

R

A

R

POS

POS

ta có , hay . Do đó, với mọi

  d

  d

R

A

R

khi và chỉ khi , điều này có nghĩa là tương đương

với .PR

DR

R

R

A

,

2.2.4 Mối liên hệ giữa và

  d

 IDS U A 

,

,

Mệnh đề 2.4. Cho bảng quyết định không đầy đủ và .

  d K R K R

  d

  d K A K A

  d

E

E

u U

,

 

 

Nếu thì

  u

  u

R

A

.

42

,

  d

 IDS U A 

U

,...,

u

R

,

,

A

Chứng minh. Xét bảng quyết định không đầy đủ với

  d

  d K A K A

  d

 u u , 1

2

n

E

E

   d K R K R

và . Từ ,

S

S

S

S

 

theo phần chứng minh của Mệnh đề 2.2 (công thức (2.3)), ta có:

iu U

R

u i

u i

A

u i

u i

d

R

d

A

  

  

với (2.4)

S

S

S

S

Mặt khác

B

u i

B

u i

u i

B

u i

B

u i

u i

d

d

   S

   S

S

S

S

S

.

C

u i

C

u i

u i

C

u i

C

u i

u i

d

d

   S

   S

d

S

S

.

i

 d u i

B i

 d v i

v i

B

u i

B

u i

u i

d

   S

 

S

S

C i

 d v i

v i

C

u i

C

u i

u i

d

   S

 

Giả sử , ,

S

S

S

d

B

u i

 d v i

v i

B

u i

u i

B

u i

B

u i

u i

i

B i

d

d

   S

   S

Khi đó ta có:

   

d

S

S

S

i

C i

C

u i

 d v i

v i

C

u i

u i

C

u i

C

u i

u i

d

d

   S

   S

   

 

u i

B

C

u i

B C i

i

iu U

Từ công thức (2.4) ta suy ra , do đó với mọi .

,

 

Chú ý: Nếu IDS không nhất quán thì chiều ngược lại của Mệnh đề 2.4

u U    i

B

u i

C

u i

S

không thỏa mãn vì điều kiện chỉ bảo toàn giá trị hàm

B

iu

B

u i

,

,

quyết định tổng quát của lớp dung sai , còn điều kiện

  d

  d

E

E

   d K R K R

   d K A K A

S

bảo toàn các đối tượng không

B

u i

iu

nhất quán đối với của lớp dung sai (điều kiện này chặt hơn). Điều

này được minh họa bằng Ví dụ 2.2 sau đây.

43

,

  d

 IDS U A 

U

,

,

,

,

A

,

,

Ví dụ 2.2. Xét bảng quyết định không đầy đủ với

 u u u u u 1 3 5

4

2

a a a 1 2 3

, cho ở Bảng 2.3

1a

3a

2a

Bảng 2.3. Bảng quyết định minh họa Ví dụ 2.2

1u

U d

2u

1 0 1 *

3u

1 0 0 1

4u

1 0 0 *

5u

* 2 0 2

S

S

u

S

,

,

2 * 1 2

  

u 1

A

A

2

A

u 3

u u u 1 2 3

S

u

S

u

u

 

 

 

 

Từ Bảng 2.3 ta có: ,

  

  

 0,1

A

4

A

u 5

u u , 4 5

A

u 1

2

A

u 3

A

4

A

u 5

A

R

S

S

,

,

, . Do đó

  

u 1

R

R

u 3

u u u u , 1 2

3

4

a a , 1 2

u

,

,

u

,

,

IDS không nhất quán. Xét ta có ,

  

  

  

RS

2

u u u 1 2 3

RS

4

u u u u , 1 3 5

4

RS

u 5

u u , 4 5

u

u

1..5

 

 

 

 

 

, , ,

  

 0,1

R

u 1

R

2

R

u 3

R

4

R

u 5

iu U i ,

 

. Vì vậy với ,

R

u i

u i

A

U

)

S

)

S u ( A i

u ( i

A

  d

,

  d K A K A

  d

 2 1 1 1 1    

E

1 U

U

1 4.4

6 16

i

1 

U

)

S

)

S u ( R i

u ( i

R

  d

,

. Mặt khác

  d

 3 1 1 2 1    

E

   d K R K R

1 U

U

1 4.4

8 16

i

1 

,

,

.

  d

  d K A K A

  d

E

E

   d K R K R

Do đó, .

DR

Mệnh đề 2.4 cho thấy nếu là một tập rút gọn dựa trên metric thì tồn

R D

R  

R

tại với là một tập rút gọn dựa trên hàm quyết định suy rộng.

44

,

1

 

u U   i

R

u i

u i

A

S

S

S

S

Nếu IDS nhất quán, từ điều kiện suy ra

iu U

R

u i

u i

u i

A

u i

d

R

d

A

  

  

và với mọi . Theo định nghĩa metric

,

,

0

ta có:

  d K R K R

  d

  d K A K A

  d

E

E

,

,

.

  d K R K R

  d

  d K A K A

  d

E

E

,

 

Vì vậy, khi và chỉ khi

u U    i

R

u i

u i

A

DR

R

, điều này có nghĩa là tương đương với .

R

R

R

A

,

2.2.5 Mối liên hệ giữa và

  d

 IDS U A 

u U

,

 

 

u U

,

 

Mệnh đề 2.5. Cho bảng quyết định không đầy đủ và .

  u

  u

  u

  u

R

A

 R

 A

,

Nếu thì .

  d

 IDS U A 

U

,...,

u

u

u

 

R

A

Chứng minh. Xét bảng quyết định không đầy đủ với

R

0

0

A

 u u , 1

2

n

0u U

d

u

d

u

d

/

,

 

 

và . Giả sử tồn tại sao cho . Khi

0

R

0

0

A

0

0

  Y Y U d  0

0

d

u

S

u

d

u

S

u

 

 

 

 

đó tồn tại sao cho , với . Do

0

A

0

Y 0

A

0

0

R

0

Y 0

R

0

S

u

S

u

nên . Mặt khác, nên . Từ

Y 0

A

0

Y   0

R

0

Y 0

0

Y 0

0

đó ta có , nghĩa là:

R u

S

A u

S

S 

u 

S 

u 

0

R

0

A

u

u

u

u

,

R Y 0

0

A Y 0

0

 R

0

 A

0

u U

,

 

theo định nghĩa hàm phân bố ta có , từ đó .

  u

  u

 R

 A

u U

,

 

 

u U

,

 

Điều này mâu thuẫn với điều kiện . Do đó giả sử là sai

  u

  u

  u

  u

R

A

 R

 A

và ta kết luận nếu thì . 

,

 

Chú ý: Nếu IDS không nhất quán thì chiều ngược lại của Mệnh đề 2.5

u U    i

B

u i

C

u i

S

không thỏa mãn vì điều kiện chỉ bảo toàn giá trị hàm

B

iu

B

u i

quyết định tổng quát của lớp dung sai , còn điều kiện

45

,

u U   i

 R

u i

 A

u i

iu

bảo toàn hàm phân bố của đối tượng (điều kiện này

1..5

 

 

chặt hơn). Điều này được minh họa bằng Ví dụ 2.3 sau đây.

R

u i

u i

A

iu U i ,

U d /

,

,

Ví dụ 2.3. Tiếp tục Ví dụ 2.2, ta có , . Giả sử

   

1u U

Y Y , 1 2

Y 1

 u u , 1 5

Y 2

 u u u , 3

2

4

R

A

với . Xét đối tượng .

 R u

1

Y 1

 R u Y , 1 2

u 1

 A u

1

Y 1

 A u Y , 1 2

u 1

1 3 , 4 4

1 2 , 3 3

   

  

   

  

 R

u 1

 A

u 1

, .Do đó,

R

Mệnh đề 2.5 cho thấy nếu là một tập rút gọn phân bố thì tồn tại

R

R  

R

,

1

d

 

với là một tập rút gọn dựa trên hàm quyết định suy rộng.

u U   i

B

u i

C

u i

i

 d u i

d

/

,

Nếu IDS nhất quán thì . Giả sử với

i

  Y Y U d  i

i

S

S

Y i

R

Y i

A

R

A

1

1

. Khi đó:

Y i

u i

Y i

u i

S

S

S

S

S 

u i 

 

 

S 

u i 

 

 

R u i

R

R

u i u i

A u i

A

A

u i u i

j

i

,

j

1,...,

m

,

và (2.5)

 R

u i

 A

u i

iu

Y

Y

j

j

Y

0

Y

0

Với , các phần tử trong hàm phân bố của

R j

u i

A j

u i

S

S

S

S

S 

 u i 

 

S 

 u i 

 

R u i

R

R

u i

A u i

A

A

u i

 

và (2.6)

iu U

 R

u i

 A

u i

 

u U 

Từ công thức (2.5), (2.6) ta có với . Vì vậy ta kết

  u

  u

  u

  u

R

A

 R

 A

luận khi và chỉ khi với , điều này có

R

R

nghĩa là tương đương với .

2.2.6 Đề xuất phân nhóm các phương pháp rút gọn thuộc tính

Từ các công bố và các kết quả nghiên cứu đã trình bày ở trên, chúng tôi

tổng kết mối liên hệ giữa các khái niệm tập rút gọn của bảng quyết định

không đầy đủ như sau:

46

PR

MR

DR

IR

Nếu bảng quyết định nhất quán, các tập rút gọn , , , , , , R R

TMR

R

, có khái niệm tập rút gọn dựa trên độ đo là như nhau.

Từ những mối quan hệ giữa các khái niệm tập rút gọn của các tác giả và các

mối quan hệ đã trình bày trên ta có nhận xét là nếu bảng quyết định không nhất

, RRR

,

D

I

TM

,

,  MRRR

PR

R

quán, mối liên hệ giữa các tập rút gọn được biểu diễn bằng sơ đồ sau:

Hình 1.1 Mối quan hệ giữa các tập rút gọn

Sơ đồ trên cho thấy các tập rút gọn trong bảng không nhất quán được chia

thành bốn nhóm:

1) Nhóm 1: Bao gồm tập rút gọn .PR

MR

2) Nhóm 2: Bao gồm các tập rút gọn , . , R R

DR

IR

TMR

3) Nhóm 3: Bao gồm các tập rút gọn , , .

4) Nhóm 4: Bao gồm tập rút gọn .R

Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:

3R

2R

là một tập rút gọn thuộc Nhóm 3 thì tồn tại một tập rút gọn  Nếu

1R

thuộc Nhóm 2 và một tập rút gọn thuộc Nhóm 1 sao cho

R 1

R 2

R 3

.

47

4R

2R

là một tập rút gọn thuộc Nhóm 4 thì tồn tại một tập rút gọn  Nếu

1R

thuộc Nhóm 2 và một tập rút gọn thuộc Nhóm 1 sao cho

R 1

R 2

R 4

.

Như vậy, tập rút gọn của Nhóm 1 có số thuộc tính nhỏ nhất, sau đó đến

Nhóm 2 và Nhóm 3, Nhóm 4.

Dựa vào kết quả phân nhóm các tập rút gọn, các phương pháp rút gọn

thuộc tính trong bảng quyết định không đầy đủ cũng được phân thành bốn

nhóm tương ứng.

Đế đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính, cộng

đồng nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về thời

gian thực hiện thuật toán heuristic tìm một tập rút gọn tốt nhất và 2) chất

lượng phân lớp của tập rút gọn. Các công bố về rút gọn thuộc tính đều tính

toán độ phức tạp thời gian thuật toán tìm tập rút gọn. Do đó, hoàn toàn có thể

so sánh được tính hiệu quả của các phương pháp về tiêu chuẩn thời gian. Vì

vậy, luận án tập trung nghiên cứu việc đánh giá các phương pháp dựa trên tiêu

chuẩn về độ hỗ trợ của tập luật.

Việc đánh giá khả năng phân lớp của tập rút gọn dựa vào số lượng thuộc

tính của tập rút gọn và khả năng phân lớp của từng thuộc tính. Về mặt định

tính, tập rút gọn có số thuộc tính càng ít thì khả năng phân lớp càng cao. Tuy

nhiên, điều này chưa hẳn đã chính xác vì khả năng phân lớp của từng thuộc

tính khác nhau. Tóm lại, ta cần phải sử dụng độ đo mang tính định lượng để

đánh giá khả năng phân lớp của tập rút gọn. Trong lý thuyết tập thô, các nhà

nghiên cứu sử dụng ba độ đo để đánh giá tính đúng đắn và tính hiệu quả của

một phương pháp rút gọn thuộc tính: độ chắc chắn (certainty measure), độ

nhất quán (consistency measure) và độ hỗ trợ (support measure), cụ thể là:

tập rút gọn của phương pháp rút gọn thuộc tính phải bảo toàn độ chính xác, độ

48

nhất quán của tập luật quyết định. Độ hỗ trợ sử dụng để đánh giá khả năng

phân lớp của tập rút gọn. Độ hỗ trợ của tập luật quyết định dựa trên tập rút

gọn càng cao thì khả năng phân lớp của tập rút gọn đó càng cao.

2.3. Đánh giá các phương pháp rút gọn thuộc tính

Trong phần này, trước hết luận án sẽ tổng kết các kết quả nghiên cứu

liên quan đến luật quyết định và các độ đo đánh giá hiệu năng tập luật trong

bảng quyết định không đầy đủ. Tiếp theo, luận án sẽ phân tích nhược điểm

các độ đo đánh giá hiệu năng tập luật của Yuhua Qian và các cộng sự trong

công trình [33], trên cơ sở đó luận án đề xuất các độ đo mới và nghiên cứu sự

thay đổi giá trị các độ đo đề xuất trên các tập rút gọn nhằm đánh giá các

phương pháp rút gọn thuộc tính.

Các kết quả trong phần này đã được tác giả công bố trong công trình

[CT2]. (Danh mục các công trình của tác giả).

U

,

2.3.1. Luật quyết định và các độ đo đánh giá hiệu năng

  d

 u 1,...,

u n

 IDS U A 

U SIM A

/

,...,

,...,

U SIM A

/

Cho bảng quyết định không đầy đủ với , giả

 }

  U d /

 S u { A 1

 S u A n

Y Y { , 1 2

Y }m

 S u A i

/

sử và . Với ,

  jY U d

 S u A i

Y   j

A

  des S u i

 des Y

j

và , ký hiệu và lần lượt là các mô

 S u A i

jY

tả của lớp dung sai và lớp tương đương . Chú ý rằng nếu giá trị

A

i a u  

  des S u i

thì bỏ giá trị này ra khỏi vì quy ước giá trị * bằng tất cả

:ij

A

j

  Z des S u i

 des Y

các giá trị khác. Một luật quyết định đơn có dạng

[33].

Giống như luật quyết định trong bảng quyết định đầy đủ, độ chắc chắn,

ijZ

Z

Y

/

ij

 S u A i

j

 S u A i

 

độ hỗ trợ và độ bao phủ của luật quyết định đơn tương ứng là:

49

Y U /

ij

 S u A i

j

 s Z

Z

Y

/

Y

ij

 S u A i

j

j

 

,

  d

 IDS U A 

U

,

,

,

,

,

,

A 

Ví dụ 2.4. Xét bảng quyết định không đầy đủ mô tả về các

 aaaa , 1 2

3

4

 u u u u u u , 1 3 6

4

2

5

1a

tivi cho ở Bảng 2.4 với , với (Đơn

2a

3a

4a

giá), (Màu sắc), (Tính năng), (Độ phân giải).

Bảng 2.4. Bảng quyết định không đầy đủ về các tivi

Chất Tivi Đơn giá Màu sắc Tính năng Độ phân giải lượng(d)

Tốt Cao Đen Đầy đủ Thấp u1

Tốt Thấp * Đầy đủ Thấp u2

Xấu * * Thiếu Thấp u3

Tốt Cao * Đầy đủ Cao u4

* * Đầy đủ Cao Tuyệt hảo u5

U SIM A

(

/

),

),

),

),

),

)}

) { 

Thấp Nâu Đầy đủ * Tốt u6

S u ( A 1

S u ( A

2

S u ( 3 A

S u ( A

4

S u ( A 5

S u ( A

6

Ta có , với

AS u (

1

u ) { } 1

AS u (

2

u u ) { , } 2

6

AS u (

3

u ) { } 3

AS u (

4

u u ) { , } 4 5

AS u (

5

) { , 4

u u u 5

, } 6

U d /

,

u

u

, , , , ,

   

Y Y Y , 1 2 3

AS u (

6

) { , 2

u u u 5

, } 6

Y 1

u u u u , { , , } 1 2 6

4

Y 2

3{ }

Y 3

5{ }

. với , , .

Các luật quyết định là:

11 :Z

(a1, Cao)  (a2, Đen)  (a3, Đầy đủ)  (a4, Thấp)  (d, Tốt)

21 :Z

(a1, Thấp)  (a3, Đầy đủ)  (a4, Thấp)  (d, Tốt)

50

32 :Z

(a3, Thiếu)  (a4, Thấp)  (d, Xấu)

41 :Z

(a1, Cao)  (a3, Đầy đủ)  (a4, Cao)  (d, Tốt)

43 :Z

(a1, Cao)  (a3, Đầy đủ)  (a4, Cao)  (d, Tuyệt hảo)

51 :Z

(a3, Đầy đủ)  (a4, Cao)  (d, Tốt)

53 :Z

(a3, Đầy đủ)  (a4, Cao)  (d, Tuyệt hảo)

61 :Z

(a1, Thấp)  (a2, Nâu)  (a3, Đầy đủ)  (d, Tốt)

63 :Z

(a1, Thấp)  (a2, Nâu)  (a3, Đầy đủ)  (d, Tuyệt hảo)

Z

:

Z

1,

1 / 6,

Z

1 / 4

Các độ đo của các luật quyết định đơn là:

 

 s Z

 

11

11

11

11

Z

:

Z

1,

1 / 3,

Z

1 / 2

,

 

 s Z

 

21

21

21

21

Z

:

Z

1,

1 / 6,

Z

1

,

 

 s Z

 

32

32

32

32

Z

:

Z

1 / 2,

1 / 6,

Z

1 / 4

,

 

 s Z

 

41

41

41

41

Z

:

Z

1 / 2,

1 / 6,

Z

1

,

 

 s Z

 

43

43

43

43

Z

:

Z

2 / 3,

1 / 3,

Z

1 / 2

,

 

 s Z

 

51

51

51

51

Z

:

Z

1 / 3,

1 / 6,

Z

1

,

 

 s Z

 

53

53

53

53

Z

:

Z

2 / 3,

1 / 3,

Z

1 / 2

,

 

 s Z

 

61

61

61

61

Z

:

Z

1 / 3,

1 / 6,

Z

1

,

 

 s Z

 

63

63

63

63

.

F U d

/

Các độ đo này chỉ sử dụng để đánh giá các luật quyết định đơn, không

   

Y Y , 1 2

Y ,..., m

phù hợp cho việc đánh giá tập luật quyết định. Giả sử

51

là một phân lớp của U theo d, độ chính xác của phân lớp F theo A, ký hiệu là

 A F

AY i

  Y U d /

i

F

 A

AY i

  Y U d /

i

 

, được Pawlak [45] định nghĩa:

 A F

Trong một số trường hợp, được dùng để đo độ chắc chắn của

bảng quyết định. Tuy nhiên, nhược điểm của độ đo này được minh họa trong

ví dụ sau:

U SIM a

/

,

,

,

,

,

,

,

,

,

,

,

,

  (

 }

2

 ) { u u u u u U U U U u u u u u ,  1 6

2

5

3

5

4

3

2

4

U SIM a a

/

,

,

,

,

,

,

,

,

,

,

 (

  ,

  ,

  ,

  ,

  ,

 }

2

4

u u u u , 1 2 6

3

u u u u , 1 2 6

3

u u u , 4 5 6

u u u , 4 5 6

u u u u u , 2 4 6

3

5

/

Y U d i

0

 a

    U d /

2

0 6 6 6  

/

Y U d i

  ) { u u u , ,  1 2 3     a Y 2 i     a Y 2 i

/

Y U d i

0

Ví dụ 2.5. Xét bảng quyết định ở Ví dụ 2.4, ta có:

    U d /

  a a , 2

4

0 6 4 3  

 a a Y , 2 4 i  a a Y , 2 4 i

/

   

Y U d i

 

.

 a

 ,a a 2

4

    U d /

    U d /

2

  a a 4, 2

Vì vậy, . Tuy nhiên, phủ sinh bởi mịn

 2a

hơn phủ sinh bởi . Do đó, độ chắc chắn phân lớp nêu trên không phù hợp

để đánh giá độ chắc chắn của bảng quyết định, hay tập luật quyết định

Trong bảng quyết định không đầy đủ, nghiên cứu đáng chú ý về độ đo

đánh giá hiệu năng phải kể đến nhóm nghiên cứu của Yuhua Qian và các

cộng sự [33], trong đó các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ

hỗ trợ của tập luật trong bảng quyết định không đầy đủ dựa trên khái niệm

khối đồng nhất cực đại (consistent block). Trước hết, luận án trình bày khái

niệm khối đồng nhất cực đại trong công trình [52].

52

,

  d

 IDS U A 

Cho bảng quyết định không đầy đủ và một quan hệ

 SIM P

,

SIM

dung sai xác định trên tập thuộc tính P. Khi đó,

 | vuUv 

P 

  uS P

là tập lớn nhất các đối tượng không có khả

  u

PS

năng phân biệt được với u trên tập thuộc tính P. là lớp dung sai, còn

  u

PS

gọi là hạt tri thức (knowledge granular). là đơn vị nhỏ nhất sử dụng để

  u

PS

mô tả tri thức và lực lượng của là đơn vị tính toán cơ sở cho các

phương pháp rút gọn thuộc tính [52]. Theo định nghĩa, các đối tượng trong

  u

PS

lớp dung sai có quan hệ dung sai với đối tượng u, tuy nhiên các đối

  u

PS

,

tượng trong có thể không quan hệ dung sai với nhau. Xét bảng quyết

uuu , 5

4

6

AS u (

5

) { , 4

u u u 5

, } 6

định trong Ví dụ 2.4, ta có , theo định nghĩa quan

4u

5u

6u

hệ dung sai với , tuy nhiên và không quan hệ dung sai với nhau. Do

đó, trong công trình [52], các tác giả nêu quan điểm rằng các lớp dung sai

  u

PS

chưa phải là đơn vị nhỏ nhất để mô tả tri thức và đưa ra khái niệm

khối đồng nhất cực đại (Maximal consistent block). Về bản chất, khối đồng

  u

PS

nhất cực đại của đối tượng u là tập con của lớp dung sai , trong đó tất

cả các đối tượng có quan hệ dung sai với nhau. Khối đồng nhất cực đại được

,

P

A

định nghĩa như sau.

  d

 IDS U A 

UX 

Xét bảng quyết định không đầy đủ với và

SIM

(

P

)

Xvu ,

vu  ,

, ta nói rằng X là đồng nhất (consistent) trên tập thuộc tính P nếu với

Y

UY 

X 

mọi ta có (nghĩa là u và v quan hệ dung sai với nhau).

Nếu không tồn tại một tập con sao cho và X là đồng nhất trên

tập thuộc tính P thì X được gọi là khối đồng nhất cực đại trên tập thuộc tính

PMC

P. Ký hiệu là tập tất cả các khối đồng nhất cực đại trên tập thuộc tính P

 uMC P

và là khối đồng nhất cực đại chứa đối tượng u. Với bảng quyết định

đã cho ở Ví dụ 2.4, các khối đồng nhất cực đại là

53

    u , ,

  ,

MC A

    u , 1

uu , 2

6

3

uu , 4

5

uu , 5

6 

SIMU /

A

,

,

, trong khi đó các lớp dung sai của các đối

    u , ,

  ,

  ,

    u , 1

uu , 2

6

3

uu , 4

5

uuu , 5

4

6

uuu , 5

2

6 

tượng là . Hiển nhiên,

các khối đồng nhất cực đại cũng tạo ra một phủ của U chứ không phải một

phân hoạch của U, nghĩa là các khối cực đại có thể giao nhau.

Trở lại với độ chắc chắn, độ nhất quán và độ hỗ trợ của tập luật trong

công bố của Yuhua Qian và các cộng sự [33], các độ đo này được định nghĩa

,

U

,....,

dựa trên các khối đồng nhất cực đại như sau:

  d

 u 1

nu

 IDS U A 

RULE

|

Z

:

des

X

Cho bảng quyết định không đầy đủ với

 Z

 Ydes

ij

ij

i

j 

X

/

,

..1

, jn

..1

m

và tập luật với

  idUYMC , 

AMC

i

A

j

. là họ các khối đồng nhất cực đại trên

tập thuộc tính A.

m

iN

X

Y

i

j

IDS

 

  

1 m

1 N

X

i

j

1 

1 

i

i

Độ chắc chắn của IDS được định nghĩa [33]

.

m

iN

IDS

X

Y

Z

Z

 

i

j

ij

ij

 

 

 1

1 m

4 X

i

j

1 

1 

i

 1  

  

Độ nhất quán của IDS được định nghĩa [33]

jN

n

Y

X

Y

k

j

IDS

 

U

j

k

1 

1 

j N U i

Độ hỗ trợ của IDS được định nghĩa [33]

Từ các công thức trên ta thấy rằng độ chắc chắn, độ nhất quán, độ hỗ trợ được định nghĩa qua các khối đồng nhất cực đại. Trong khi đó, các phương pháp rút gọn thuộc tính trong các nhóm phương pháp được trình bày ở phần 1.1 đều sử dụng các độ đo được định nghĩa qua lực lượng của các lớp dung sai, ví dụ phương pháp sử dụng độ đo lượng thông tin (information quantity)

54

n

1

1 

[16], độ đo lượng thông tin được định nghĩa qua lực lượng của lớp dung sai

 BI

 B uS

i

Uui 

 B uS

i

2

i

1 

U

X 

của đối tượng , . Do đó, Yuhua Qian và

AMC

AMC

X

S

 

các cộng sự [33] chưa đánh giá sự thay đổi giá trị độ chắc chắn, độ nhất quán, độ hỗ trợ trên các tập rút gọn của của các phương pháp rút gọn thuộc tính, do đó các độ đo này gặp khó khăn trong việc đánh giá tính hiệu quả (về khả năng phân lớp hay độ hỗ trợ của tập luật) của các phương pháp rút gọn thuộc tính. Hơn nữa, vì các độ đo này được tính qua các khối đồng nhất cực đại nên việc nghiên cứu sự thay đổi các độ đo này trên các tập rút gọn ta cần chuyển đổi các độ đo này sang đơn vị tính toán cơ sở là lực lượng các lớp dung sai. Hướng nghiên cứu này hoàn toàn có thể thực hiện được vì công trình [52] cho phép tính toán lớp dung sai dựa trên khối đồng nhất cực đại. Theo [52], nếu khi và chỉ khi là tập tất cả các khối đồng nhất cực đại và

Xu 

 uA

. Tuy nhiên, việc chuyển đổi các công thức độ chắc chắn, độ nhất

quán, độ hỗ trợ trong [33] tính toán qua các lớp dung sai khá phức tạp vì bản thân các công thức độ chắc chắn, độ nhất quán, độ hỗ trợ cũng đã phức tạp và việc chuyển đổi sang lớp dung sai lại càng phức tạp. Do đó, luận án chuyển sang hướng nghiên cứu là định nghĩa lại độ chắc chắn, độ nhất quán, độ hỗ trợ qua các lớp dung sai. Việc định nghĩa các độ đo mới, độ chắc chắn, độ nhất quán, độ hỗ trợ, qua các lớp dung sai dựa trên ý tưởng mở rộng độ chắc chắn, độ nhất quán, độ hỗ trợ trên bảng quyết định đầy đủ trong luận án tiến sĩ [2].

2.3.2. Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định

Trên cơ sở mở rộng các kết quả nghiên cứu trong luận án tiến sĩ [2], luận

án đề xuất ba độ đo mới đánh giá hiệu năng tập luật quyết định: độ chắc chắn,

độ nhất quán và độ hỗ trợ. Các độ đo này được tính bằng trung bình cộng của

tất cả các luật quyết định đơn và được tính dựa trên lực lượng các lớp dung

sai. Từ đó, luận án đánh giá sự thay đổi các độ đo đề xuất trên các tập rút gọn

nhằm so sánh, đánh giá tính hiệu quả của các phương pháp rút gọn thuộc tính.

55

,

U

  d

 u 1,...,

u n

 IDS U A 

RULE

:

Cho bảng quyết định không đầy đủ với và

A

ij

j

 des Y

  Z Z des S u ij i

/

/

1..

n j ,

1..

m

tập luật với

   U SIM A Y U d i , ,

 S u A i

j

.

n

iN

Y

j

IDS

Độ chắc chắn của IDS được định nghĩa

 

1    N

1 n

j

i

1 

1 

 

i

  S u A i  S u A i

.

n

iN

Y

j

IDS

 

n

1

1   N

n

1

1 

1 

j

i

1 

1 

 

i

  S u A i  S u A i

Độ nhất quán của IDS được định nghĩa

S

Y

A

j

IDS

1 n m   n

 u i n

i

j

1 

1 

Độ hỗ trợ của IDS được định nghĩa

iN

Ký hiệu là số luật quyết định (số lớp quyết định) sinh bởi lớp dung

 S u A i

sai .

 IDS

 ijZ

 1 

RULE

1 / n

Dễ thấy rằng, đạt giá trị lớn nhất là 1 nếu với mọi

 IDS

ijZ

m U

U

n

, nghĩa là IDS nhất quán, và đạt giá trị nhỏ nhất là nếu

 IDS

 S u A i

iN

iu U

, nghĩa là và với mọi . Tương tự, đạt

 IDS

 IDS

1 / n

giá trị lớn nhất là 1 khi đạt giá trị lớn nhất là 1 và đạt giá trị

 IDS

 IDS

1 / n

U

nhỏ nhất là 0 khi đạt giá trị nhỏ nhất là . đạt giá trị lớn

 IDS

 S u A i

iu U

S

nhất là 1 nếu với mọi . đạt giá trị nhỏ nhất là nếu

A

u i

   u i

iu U

với mọi . Mệnh đề 2.6 sau đây chứng minh một số tính

chất quan trọng của các độ đo đánh giá hiệu năng.

56

,

 IDS U A 

   d

'

IDS

RULE

:

Mệnh đề 2.6. Cho hai bảng quyết định không đầy đủ ,

A

ij

ij

j

 U B ,

   d

 des Y

  Z Z des S u i

IDS

IDS

B

i

n 1..

j

A

/

/

m 1..

và với

   U SIM A Y U d ,

 

 S u A i

j

 

'

IDS

IDS

IDS

IDS



, , . Nếu thì ,

 

 

'

'

,

Chứng minh.

 iN A

 iN B

B

S

A

1) Giả sử , tương ứng là số luật quyết định sinh bởi lớp

 S u A i

 S u B i

 S u A i

B

u i

dung sai , . Theo [24], nếu thì với mọi

 N A i

 N B i

iu U

n

n

n

Y

j

IDS

, suy ra . Từ đó ta có:

 

 iN A 

1   n

1 n

1 n

i

j

i

i

1 

1 

1 

1 

 

1  N A i

1  N A i

1  N B i

  S u A i  S u A i

n

Y

j

IDS

IDS

= =

 

 IDS

'

 

'

 iN B 

1 n

i

j

1 

1 

 

1  N B i

  S u B i  S u B i

IDS

IDS

= . Do đó .

 

 N A i

 N B i

 

'

|

) |

) |

)

)

|  

 

 

Dấu đẳng thức khi và chỉ khi . Theo định

u ( i

A

u ( i

B

u ( i

A

u ( i

B

nghĩa hàm quyết định suy rộng ta có với mọi

iu U

IDS

IDS

.

 

 

'

IDS

IDS

)

)

 

2) Chứng minh tương tự như phần 1) ta có . Dấu đẳng

 

u ( i

A

u ( i

B

iu U

 

'

B

S

A

thức khi và chỉ khi với mọi .

 S u A i

B

u i

iu U

S

S

Y

/

S

S

Y

3) Nếu thì với , suy ra

  jY U d

iu U

A

u i

Y   j

B

u i

j

A

u i

Y   j

B

u i

j

n m

n m

S

Y

S

Y

A

j

B

j

IDS

IDS

với ,

'





1 n

 u i n

1 n

 u i n

i

j

i

j

1 

1 

1 

1 

IDS

IDS

S

S



. Dấu đẳng thức

u i

A

B

u i

'

khi và chỉ khi .

57

2.3.3. Nghiên cứu sự thay đổi giá trị các độ đo đề xuất trên các tập rút gọn

Trước hết, luận án tổng kết lại kết quả phân nhóm các tập rút gọn được

trình bày ở mục 2.2.6.

Nhóm 1: Tập rút gọn miền dương .PR

Nhóm 2: Bao gồm tập rút gọn dựa trên hàm quyết định suy rộng ( ), R

MR

R

tập rút gọn ấn định ( ), tập rút gọn dựa trên ma trận phân biệt ( ). Luận

R

án chọn tập rút gọn dựa trên hàm quyết định suy rộng làm đại diện.

IR

Nhóm 3: Bao gồm tập rút gọn dựa trên lượng thông tin ( ), tập rút

TMR

DR

gọn dựa trên ma trận dung sai ( ), tập rút gọn dựa trên khoảng cách ( ),

DR

luận án chọn tập rút gọn dựa trên khoảng cách làm đại diện.

Nhóm 4: Tập rút gọn phân bố .R

Trong mục này, chúng tôi nghiên cứu sự thay đổi của độ chắc chắn

 IDS

 IDS

 IDS

, độ nhất quán và độ hỗ trợ dựa trên bốn tập rút gọn

,

của bốn nhóm phương pháp nêu trên.

  d

 IDS U A 

'

IDS

Mệnh đề 2.7. Cho hai bảng quyết định không đầy đủ và

  d

 U B ,

.

PR

'

'

'

IDS

IDS

1

IDS

IDS

1

IDS

IDS



a) Nếu IDS nhất quán và B là một tập rút gọn miền dương ( ) thì

 

 

 

 

, ,

PR

'

'

'

IDS

IDS

IDS

IDS

IDS

IDS



b) Nếu IDS không nhất quán và B là một tập rút gọn miền dương ( ) thì

 

 

 

 

, ,

58

Chứng minh

IDS

,

IDS

|

) |

|  

) | 1 

a) Nếu IDS nhất quán và B là một tập rút gọn miền dương thì

 

 

u ( i

A

u ( i

B

'

'

IDS

IDS

1

IDS

IDS

1

. Từ công thức tính dễ dàng suy ra

 

 

 

 

'DS

DS



, . Hơn nữa, theo Mệnh đề 2.6 ta có

.

PR

Như vậy, tập rút gọn miền dương ( ) bảo toàn độ chắc chắn bằng 1, độ

nhất quán bằng 1 và tăng độ hỗ trợ của tập luật đối với bảng quyết định

'

IDS

IDS

không đầy đủ nhất quán.

 

 

'

'

IDS

IDS

IDS

IDS



b) Nếu IDS không nhất quán: từ Mệnh đề 2.6 ta có ,

 

 

, .

PR

Như vậy, tập rút gọn miền dương ( ) làm giảm độ chắc chắn, giảm độ

nhất quán và tăng độ hỗ trợ của tập luật đối với bảng quyết định không đầy

,

đủ không nhất quán.

  d

 IDS U A 

'

IDS

Mệnh đề 2.8. Cho hai bảng quyết định không đầy đủ và

  d

 U B ,

'

'

'

IDS

IDS

IDS

IDS

IDS

IDS



. Nếu B là một tập rút gọn dựa trên hàm quyết định suy

 

 

R

 

 

rộng ( ) thì , ,

B

Chứng minh

)

)

 

Nếu là một tập rút gọn dựa trên hàm quyết định suy rộng thì

u ( i

A

u ( i

B

iu U

'

'

IDS

IDS

IDS

IDS

với mọi , theo điều kiện dấu đẳng thức của Mệnh đề 2.6 ta

 

 

 

 

'

IDS

IDS



có , . Cũng theo Mệnh đề 2.6 ta có

.

R

Như vậy, tập rút gọn dựa trên hàm quyết định suy rộng ( ) bảo toàn độ

chắc chắn, bảo toàn độ nhất quán và tăng độ hỗ trợ của tập luật quyết định.

59

,

  d

 IDS U A 

'

IDS

Mệnh đề 2.9. Cho hai bảng quyết định không đầy đủ và

  d

DR

 U B ,

'

'

'

IDS

IDS

IDS

IDS

IDS

IDS



. Nếu B là một tập rút gọn dựa trên khoảng cách ( ) thì

 

 

 

 

, ,

B

Chứng minh

DR

,

,

Nếu là một tập rút gọn dựa trên khoảng cách ( ) thì

  d

  d K A K A

  d

E

E

   d K B K B

)

)

 

, theo kết quả nghiên cứu mối liên

u ( i

A

u ( i

B

iu U

'

IDS

IDS

hệ giữa các tập rút gọn đã trình bày ở trên ta có với mọi ,

 

 

'

'

IDS

IDS



IDS

IDS

theo điều kiện dấu đẳng thức của Mệnh đề 2.6 ta có ,

 

 

. Cũng theo Mệnh đề 2.6 ta có .

DR

R

Giống như tập rút gọn , tập rút gọn bảo toàn độ chắc chắn, bảo

toàn độ nhất quán và tăng độ hỗ trợ của tập luật quyết định. Theo kết quả

nghiên cứu về mối liên hệ giữa các tập rút gọn đã trình bày ở trên, mỗi tập

DR

R D

R

R  

rút gọn đều tồn tại một tập rút gọn sao cho . Theo Mệnh đề

DR

2.6, độ hỗ trợ của tập luật dựa trên tập rút gọn sẽ nhỏ hơn độ hỗ trợ của

R

tập luật dựa trên tập rút gọn . Nghĩa là, chất lượng phân lớp của tập rút

DR

R

,

gọn tốt hơn tập rút gọn .

  d

 IDS U A 

'

IDS

Mệnh đề 2.10. Cho hai bảng quyết định không đầy đủ và

  d

R

 U B ,

'

'

'

IDS

IDS

IDS

IDS

IDS

IDS



. Nếu B là một tập rút gọn phân bố ( ) thì

 

 

 

 

, ,

B

Chứng minh

 R

u i

 A

u i

iu U

R

Nếu là một tập rút gọn phân bố ( ) thì với mọi ,

theo kết quả nghiên cứu mối liên hệ giữa tập rút gọn phân bố và tập rút gọn

60

)

)

 

u ( i

A

u ( i

B

'

IDS

IDS

dựa trên hàm quyết định suy rộng trong [18] ta có với mọi

 

iu U

 

'

'

IDS

IDS



IDS

IDS

, theo điều kiện dấu đẳng thức của Mệnh đề 2.6 ta có ,

 

 

. Cũng theo Mệnh đề 2.6 ta có .

R

R

Giống như tập rút gọn , tập rút gọn bảo toàn độ chắc chắn, bảo

toàn độ nhất quán và tăng độ hỗ trợ của tập luật quyết định. Theo kết quả

nghiên cứu về mối liên hệ giữa các tập rút gọn đã trình bày ở trên, mỗi tập

R

R

R  

R

rút gọn đều tồn tại một tập rút gọn sao cho . Theo Mệnh đề 2.6,

R

độ hỗ trợ của tập luật dựa trên tập rút gọn sẽ nhỏ hơn độ hỗ trợ của tập

R

luật dựa trên tập rút gọn . Nghĩa là, chất lượng phân lớp của tập rút gọn

R

R

tốt hơn tập rút gọn .

2.3.4. Thử nghiệm sự thay đổi giá trị các độ đo đề xuất trên các tập rút gọn

Từ kết quả nghiên cứu về lý thuyết của mục 2.3.3 ta có:

PR

- Tập rút gọn miền dương thuộc Nhóm 1 ( ) làm giảm độ chắc chắn

 IDS

 IDS

, độ nhất quán ; tập rút gọn dựa trên hàm quyết định suy rộng

DR

R

thuộc Nhóm 2 ( ), tập rút gọn dựa trên khoảng cách ( ) thuộc Nhóm 3, tập

 IDS

R

rút gọn phân bố ( ) thuộc Nhóm 4 bảo toàn độ chắc chắn , độ nhất

 IDS

quán .

 IDS

PR

DR

R

R

- Các tập rút gọn , , và đều tăng độ hỗ trợ .

PR

R

R

- Tập rút gọn có độ hỗ trợ cao hơn . Tập rút gọn có độ hỗ trợ

DR

R

cao hơn và (tập rút gọn có độ hỗ trợ càng cao thì số luật sinh ra càng

ít).

61

Trong mục này, luận án trình bày thử nghiệm các kết quả nghiên cứu lý

 IDS

 IDS

thuyết nêu trên về sự thay đổi độ chắc chắn , độ nhất quán và

 IDS

độ hỗ trợ trên một số bộ số liệu từ kho dữ liệu UCI.

Để tiến hành thử nghiệm, luận án thực hiện các công việc sau:

1) Cài đặt các thuật toán sau bằng ngôn ngữ C# tìm một tập rút gọn của

 IDS

bảng quyết định. Với mỗi thuật toán, tính độ chắc chắn , độ

 IDS

 IDS

nhất quán và độ hỗ trợ trên bảng quyết định với tập

rút gọn thu được bằng công thức đề xuất trong mục 2.3.2.

PR

[56].  Thuật toán POSBAR tìm một tập rút gọn

R

[18].  Thuật toán GDBAR tìm một tập rút gọn

DR

[27].  Thuật toán MBAR tìm một tập rút gọn

R

[37].  Thuật toán DFBAR tìm một tập rút gọn

2) Trên máy tính PC với cấu hình Core i3 4150, 3 GB bộ nhớ RAM, sử

dụng hệ điều hành Windows 7, chạy thử nghiệm hai thuật toán với 6

bộ số liệu lấy từ kho dữ liệu UCI [40].

3) Dữ liệu thử nghiệm trên kho dữ liệu UCI như sau:

 Bộ số liệu Hepatitis.data với thông số:

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Categorical, Integer và Real, Thiếu giá trị : Yes, Lĩnh vực : Life, Số đối tượng: 155, Số thuộc tính :19.

 Bộ số liệu Lung-cancer.data với thông số:

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Integer, Thiếu giá trị : Yes, Lĩnh vực : Life, Số đối tượng: 32, Số thuộc tính :56.

62

 Bộ số liệu Automobile.data với thông số:

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Categorical, Integer và Real, Thiếu giá trị : Yes, Lĩnh vực : N/A, Số đối tượng: 205, Số thuộc tính :26.

 Bộ số liệu Anneal.data với thông số:

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Categorical, Integer và Real, Thiếu giá trị : Yes, Lĩnh vực : Physical, Số đối tượng: 798, Số thuộc tính :38.

 Bộ số liệu Congressional Voting Records với thông số:

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Categorical, Thiếu giá trị : Yes, Lĩnh vực : Social, Số đối tượng: 435, Số thuộc tính :16.

 Bộ số liệu Credit Approval với thông số:

U

C

Đặc điểm tập dữ liệu: Multivariate, Đặc điểm thuộc tính: Categorical, Integer và Real, Thiếu giá trị : Yes, Lĩnh vực : Financial, Số đối tượng: 690, Số thuộc tính :15.

R

4) Với mỗi bộ số liệu, giả sử là số đối tượng, là số thuộc tính

điều kiện, là số thuộc tính của tập rút gọn, ,  và  tương ứng là

độ chắc chắn, độ nhất quán và độ hỗ trợ của bảng quyết định. Kết

quả thực hiện của hai thuật toán được mô tả ở Bảng 2.5 và Bảng 2.6

sau đây.

63

Bảng 2.5. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 1

Thuật toán POSBAR

Thuật toán GDBAR

U

C

STT

Bộ số liệu

R

R

Hepatitis.data

155

0.909

0.819

0.598

0.909

0.819

0.504

3

3

19

1

1

Lung-cancer.data

32

1

0.814

1

0.814

4

4

56

2

1

Automobile.data

205

0.825

0.702

0.708

0.915

0.781

0.624

6

4

26

3

Anneal.data

798

0.804

0.713

0.586

0.852

0.755

0.503

7

6

38

4

1

435

15

1

0.616

15

1

0.616

16

5

1

Congressional Voting Records

Credit Approval

690

15

3

0.716

0.708

0.786

5

0.884

0.802

0.615

6

Bảng 2.6. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 2

Thuật toán MBAR

Thuật toán DFBAR

U

C

STT

Bộ số liệu

R

R

Hepatitis.data

155

0.909

0.819

0.415

0.909

0.819

0.402

5

4

19

1

1

Lung-cancer.data

32

1

0.814

4

1

0.814

4

56

2

1

Automobile.data

205

0.915

0.781

0.518

0.915

0.781

0.518

8

8

26

3

Anneal.data

798

0.852

0.755

0.426

0.852

0.755

0.406

10

9

38

4

1

435

15

1

0.616

15

1

0.616

16

5

1

Congressional Voting Records

Credit Approval

690

15

7

0.884

0.802

0.487

6

0.884

0.802

0.512

6

Hình 2.1 sau đây biểu diễn sự thay đổi của độ hỗ trợ  trên 6 bộ số liệu

được chọn đối với các thuật toán: Thuật toán POSBAR, Thuật toán GDBAR,

Thuật toán MBAR, Thuật toán DFBAR.

64

Hình 2.1. Sự thay đổi độ hỗ trợ  trên các tập rút gọn

Từ Bảng 2.5, Bảng 2.6 và Hình 2.1 cho thấy, kết quả thử nghiệm trên 6

bộ dữ liệu phù hợp với kết quả nghiên cứu về lý thuyết ở mục 2.3.3, cụ thể

như sau:

 Trên các bộ số liệu nhất quán Lung-cancer.data, Congressional Voting

Records.data, độ chắc chắn , độ nhất quán  và độ hỗ trợ  không thay đổi

trên cả 4 tập rút gọn thu được bởi 4 thuật toán (vì tập rút gọn thu được là như

nhau).

 Trên các bộ số liệu còn lại, độ hỗ trợ của thuật toán POSBAR lớn nhất,

tiếp theo đến thuật toán GDBAR và hai thuật toán MBAR và DFBAR.

 Độ chắc chắn , độ nhất quán  không thay đổi đối với ba thuật toán

GDBAR, MBAR, DFBAR. Tuy nhiên, độ chắc chắn , độ nhất quán  giảm

đối với thuật toán POSBAR đối với các bộ dữ liệu không nhất quán.

Như vậy, có thể kết luận thuật toán GDBAR thuộc nhóm phương pháp 2

hiệu quả nhất (bảo toàn độ chắc chắn, độ nhất quán và có độ hỗ trợ cao nhất).

65

2.3.5. Lựa chọn, đánh giá các phương pháp rút gọn thuộc tính

1) Lựa chọn nhóm phương pháp phù hợp

Mục tiêu rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ

nhất của tập thuộc tính điều kiện mà bảo toàn khả năng phân lớp của bảng

quyết định. Theo tiếp cận độ đo, rút gọn thuộc tính là tìm tập con nhỏ nhất

 IDS

của tập thuộc tính điều kiện mà bảo toàn độ chắc chắn của tập luật

quyết định. Từ các kết quả đã trình bày ở mục 3.2 luận án rút ra kết luận.

PR

DR

R

R

1) Tập rút gọn , tập rút gọn , tập rút gọn và tập rút gọn đều

bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ nhất

quán. Do đó, tất cả các phương pháp rút gọn thuộc tính đã trình bày ở bài báo

này đều phù hợp với các bảng quyết định không đầy đủ nhất quán.

PR

2) Tập rút gọn làm giảm độ chắc chắc của tập luật đối với bảng

quyết định không đầy đủ không nhất quán, do đó phương pháp miền dương

thuộc Nhóm 1 không phù hợp với các bảng quyết định không đầy đủ không

nhất quán.

DR

R

R

3) Tập rút gọn , tập rút gọn và tập rút gọn đều bảo toàn độ

chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất quán.

Do đó, các phương pháp trong Nhóm 2, Nhóm 3, Nhóm 4 đều phù hợp với các

bảng quyết định không đầy đủ không nhất quán

2) Đánh giá các phương pháp

Sau khi đưa ra khái niệm tập rút gọn, các phương pháp rút gọn thuộc

tính đều xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất dựa

trên tiêu chuẩn độ quan trọng của thuộc tính, hay khả năng phân lớp của

thuộc tính. Với bảng quyết định không đầy đủ nhất quán, các tập rút gọn tốt

nhất của bốn nhóm phương pháp là như nhau nên chúng có khả năng phân

66

lớp như nhau. Với bảng quyết định không nhất quán, chúng tôi đánh giá ba

nhóm phương pháp phù hợp (Nhóm 2, Nhóm 3, Nhóm 4) dựa trên tiêu chuẩn

R

khả năng phân lớp tập rút gọn của nhóm phương pháp.

esDB t

R

Giả sử là một tập rút gọn tốt nhất của các phương pháp thuộc

esDB t

Nhóm 3 ( tìm được bởi thuật toán heuristic sử dụng khoảng cách, lượng

thông tin hay ma trận dung sai). Theo kết quả nghiên cứu về mỗi liên hệ giữa

R

R

các tập rút gọn đã trình bày, tồn tại một tập rút gọn dựa trên hàm quyết định

esDB t

esDB t

R

R  

R

suy rộng sao cho ( tối thiểu hơn ).

esB tR

Giả sử là một tập rút gọn tốt nhất của các phương pháp thuộc Nhóm

esB tR

2 ( tìm được bởi thuật toán heuristic sử dụng hàm quyết định suy rộng,

R

tập rút gọn ấn định hay ma trận phân biệt). Ta có hai trường hợp.

esB tR

DB t es

esB tR

R

R 

R   es B t

esB tR

R

- Nếu chính là ( ) thì , nghĩa là tối

esDB t

esB tR

R

thiểu hơn . Theo Mệnh đề 2.6, độ hỗ trợ của tập luật dựa trên cao

esDB t

esB tR

R

hơn độ hỗ trợ của tập luật dựa trên , hay có khả năng phân lớp tốt

esDB t

hơn .

esB tR

R

esB tR

R

esB tR

R

R

- Nếu khác thì có khả năng phân lớp tốt hơn do

esDB t

esDB t

R  

R

R

có khả năng phân lớp tốt nhất. Mặt khác, do nên tốt hơn

esDB t

esB tR

R

về khả năng phân lớp. Do đó, tốt hơn về khả năng phân lớp.

esDB t

esB tR

Do đó, trong cả hai trường hợp có khả năng phân lớp tốt hơn .

Từ đó kết luận các phương pháp thuộc Nhóm 2 hiệu quả hơn các phương pháp

thuộc Nhóm 3 theo tiêu chuẩn đánh giá khả năng phân lớp của tập rút gọn.

Tương tự như trên ta có các phương pháp thuộc Nhóm 2 hiệu quả hơn

các phương pháp thuộc Nhóm 4 theo tiêu chuẩn đánh giá khả năng phân lớp

của tập rút gọn.

67

Các phương pháp thuộc Nhóm 3 không so sánh được với các phương

DR

R

pháp thuộc Nhóm 4 do tập rút gọn và tập rút gọn không có mối quan

hệ.

2.4. Kết luận chương 2

Chương 2 luận án đã thực hiện các nội dung nghiên cứu sau:

(1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ không nhất quán dựa vào kết quả nghiên cứu mối liên hệ

giữa các khái niệm tập rút gọn, mối liên hệ giữa các tập rút gọn của các nhóm

phương pháp. Dựa trên tập rút gọn, các phương pháp được phân thành bốn

PR

nhóm: Nhóm 1 (Tập rút gọn miền dương ), Nhóm 2 (tập rút gọn dựa trên

R

R

hàm quyết định suy rộng , tập rút gọn ấn định , tập rút gọn dựa trên ma

MR

IR

trận phân biệt ), Nhóm 3 (tập rút gọn dựa trên lượng thông tin , tập rút

TMR

DR

gọn dựa trên ma trận dung sai , tập rút gọn dựa trên khoảng cách ),

R

Nhóm 4 (Tập rút gọn phân bố ). Kết quả này được công bố trong công trình

[CT1].

(2) Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định (độ

chắc chắn, độ nhất quán, độ hỗ trợ). Nghiên cứu sự thay đổi giá trị các độ đo

đề xuất trên các tập rút gọn của bốn nhóm phương pháp. Trên cơ sở đó, lựa

chọn và đánh giá các phương pháp rút gọn thuộc tính dựa trên tiêu chuẩn độ hỗ

trợ của tập luật. Kết quả này được công bố trong công trình [CT2].

Chương 3 luận án trình bày hai phương pháp mới: Phương pháp rút gọn

thuộc tính sử dụng lượng thông tin mở rộng và phương pháp rút gọn thuộc tính

sử dụng hàm quan hệ.

68

CHƯƠNG 3. ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC

TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

3.1. Mở đầu

Tiền xử lý dữ liệu là nhiệm vụ quan trọng trong quá trình khai phá dữ liệu

và học máy với mục tiêu xây dựng mẫu dữ liệu đầu vào cho các mô hình khai

phá dữ liệu từ các kho dữ liệu tác nghiệp. Tiền xử lý dữ liệu bao gồm các

bước như trích chọn và làm sạch dữ liệu, rời rạc hóa dữ liệu, rút gọn dữ liệu,

rút gọn thuộc tính. Trong đó, rút gọn dữ liệu và rút gọn thuộc tính là hai bài

toán quan trọng nhất. Trên các bảng quyết định có dung lượng dữ liệu lớn,

thời gian thực hiện các thuật toán rút gọn thuộc tính lớn do phải thực hiện các

công thức tính toán trên tất cả dữ liệu. Do đó, việc nghiên cứu các phương

pháp rút gọn dữ liệu trước khi thực hiện các phương pháp rút gọn thuộc tính

là yêu cầu cấp thiết.

Trong chương này, trước hết luận án giải quyết bài toán rút gọn dữ liệu

bằng đề xuất phương pháp chọn tập đối tượng đại diện. Sau đó, luận án đề

xuất hai phương pháp mới rút gọn thuộc tính trong bảng quyết định không

đầy đủ: Phương pháp sử dụng lượng thông tin mở rộng và phương pháp sử

dụng hàm quan hệ. Luận án chứng minh rằng phương pháp sử dụng lượng

thông tin mở rộng thuộc Nhóm 2 và phương pháp sử dụng hàm quan hệ cũng

thuộc Nhóm 2 (theo phân nhóm phương pháp đã trình bày ở Chương 2).

3.2. Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính

Trong phần này, luận án sử dụng phương pháp chọn tập đối tượng đại

diện để thu gọn đối tượng trước khi thực hiện bài toán rút gọn thuộc tính

trong hệ thông tin không đầy đủ và bảng quyết định không đầy đủ. Các kết

quả trong phần này đã được tác giả công bố trong công trình [CT3].

69

3.2.1. Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ

Chọn tập đối tượng đại diện thực chất là bước tiền xử lý dữ liệu trước khi

thực hiện các thuật toán tìm tập rút gọn. Thay vì tìm tập rút gọn trên toàn bộ tập

đối tượng ban đầu, ta tìm tập rút gọn trên tập đối tượng đại diện và chứng minh

bằng lý thuyết tập rút gọn thu được từ tập đối tượng đại diện tương đương với

tập rút gọn thu được từ tập đối tượng ban đầu. Vì kích cỡ tập đối tượng đại diện

nhỏ hơn nhiều so với kích cỡ tập dữ liệu ban đầu nên thời gian thực hiện thuật

toán tìm tập rút gọn trên tập đối tượng đại diện giảm thiểu đáng kể. Tập đối

tượng đại diện bao gồm các đối tượng đại diện, mỗi đối tượng đại diện được

,

lựa chọn như sau:

 IIS U A 

,u v U

Xét hệ thông tin không đầy đủ , trước hết ta tìm các lớp dung

Aa 

sai trên tập đối tượng U ban đầu. Hai đối tượng thuộc cùng một lớp

a

a

    u S

    v S

tương đương nếu với mọi . Với mỗi lớp tương đương,

ta chọn ra một đối tượng đại diện cho lớp tương đương đó, không mất tính

chất tổng quát, ta chọn đối tượng đầu tiên làm đại diện. Khi đó, tập các đối

tượng được chọn là tập đại diện.

Thuật toán chọn tập đối tượng đại diện của hệ thông tin không đầy đủ

được mô tả như sau:

,

Thuật toán 3.1. Chọn tập đối tượng đại diện của hệ thông tin không đầy đủ.

 IIS U A 

U

A

,...,

Đầu vào: Hệ thông tin không đầy đủ ban đầu với

 a 1

ma

 u 1,...,

u n

IIS

U

,

AU  ,

P

P

U P 

Đầu ra: Hệ thông tin không đầy đủ đại diện với

là một tập đối tượng đại diện.

Bước 1: Đặt ;PU

70

iA

..1

m

, 

u U 

 

ai

U a / i

a i

    u

v U S

 

Bước 2: Với mỗi , Tính với

    u

a i

a i

   u

a i

.

     v S

/ AU

... 

Uu

  u

  u

/ A 

A

a

a

   u

  u

a 1

m

  i u

m  i 1 

X

,...,

/ AU

,...,

i

k 1..

Bước 3: Tính với .

 X

1

kX

i

 u i 1

u i l

U

U

i

k 1..

Giả sử và với .

/ AUX i  ,

:P 

P

 1 u i

IIS

Bước 4: Với mọi , , đặt ;

AU  ,

P

P

Bước 5: Return ;

,

Chứng minh thuật toán 3.1

 IIS U A 

IIS

Cho hệ thông tin không đầy đủ ban đầu và hệ thông tin

AU  ,

P

P

,

không đầy đủ đại diện , trước hết ta chứng minh bổ đề sau:

A

B 

Bổ đề 3.1. Nếu là một đối tượng đại diện được chọn trên

 uS B

p

 uS B

p

pu U  uS A

p

 IIS U A  p

 uS A

IIS

u U

sao cho với thì ta cũng có trên

AU  ,

P

P

p

p

,

X

[ u

với .

 uS A

p

] Ap

u

[

Chứng minh. Trên , giả sử , khi đó với mọi

 Y 

] Apu

  uS A

 uS A

p

 uS B

p

 uS A

p

 IIS U A  p

 uS A

y

u

y Y

y 

[

ta đều có suy ra . . Từ

 p uS 

 uS B p

 A uS

A

] Apu

IIS

u

[

Xét đối tượng bất kỳ , vì , nên với mọi , do

 y

AU  ,

S A

P

P

] Apu

 A yS

p

đó không chứa u với mọi , nghĩa là trên ,

pu

py

,

không chứa với là đối tượng đại diện của lớp tương đương chứa y trên

 IIS U A 

x

[ u

X

x X

(i).

 uS

A

 uS A

p

] Ap

u

u

[

[

Mặt khác, từ giả thiết , với thì với mọi

 xS A

] Apu

] Apu

S

y

y 

x X

[

, hay chứa u với mọi . Với đối tượng y được xét ở trên

  y

 xS

 y

 Ax

A

S A

A

] Apu

IIS

u

[

rõ ràng , giả sử với khi đó và chứa

AU  ,

P

P

] Apu

 A yS

p

pu

py

u với mọi , nghĩa là trên , chứa với là đối

71

IIS

[ u

X

y 

x X

AU  ,

 Ax

P

P

] Ap

p

X

. Với giả thiết với mọi thì trên , tượng đại diện của lớp tương đương chứa y, điều này mâu thuẫn với (i). Do đó  uS A

   u 

 uS A

p

p

p

y 

y Y

với là tập các đối tượng đại diện của các đối tượng

 Y 

 Ax

 uS A

p

p

pX  uS B

IIS

X

Y

y

x X

Y

thuộc X. Với giả thiết và kết quả chứng minh ,

AU  ,

   u 

P

P

 uS B

p

p

p

p

p

p

py

IIS

y Y

với mọi thì trên , với và

AU  ,

P

P

. Do đó ta kết luận trên ,

 uS A

 uS B

p

,  là đối tượng đại diện của p

Từ kết quả của Bổ đề 3.1, ta chứng minh rằng tập rút gọn của hệ thông

tin không đầy đủ ban đầu và tập rút gọn của hệ thông tin không đầy đủ đại

A

R 

diện là như nhau.

,

R

u U

u U

B  

Giả sử là tập rút gọn của hệ thông tin không đầy đủ ban đầu

 uS

 IIS U A 

  uS R

A

, khi đó với mọi và tồn tại sao

 uS

  uS B

A

,

u U

cho .

 uS

 IIS U A 

  uS R

A

IIS

u U

a) Từ với mọi trên dễ dàng suy ra

AU  ,

P

P

 uS R

p

 uS A

p

p

P

B

u U

R

với mọi trên .

,

b) Không mất tính tổng quát, giả sử và tồn tại sao cho

 uS

 IIS U A 

  uS B

A

u

u

trên .

 uS B

p

 uS A

p

p

IIS

,

Nếu u là đối tượng đại diện được chọn thì và trên

AU  ,

 IIS U A 

P

P

 uS B

p

 uS A

p

,

, theo Bổ đề 3.1 thì trên (i).

 IIS U A 

pu

Nếu u không phải đối tượng đại diện thì trên , giả sử là

[ Apu ]

pu

B

A

[ u

][ u

[ u

][ u

[ u

][ u

R 

đối tượng đại diện của lớp tương đương chứa u và , khi đó

] Ap

A

] Ap

A

] Bp

B

A

[ u

][ u

u

. Do nên từ ta cũng suy ra . Từ

ai 

] Ap

A

p

a

 

  i u

    a i

ta có với mọi , theo cách xây dựng trên ta có

72

u

S

S

A

 uS

 uS A

p

a

p

a

A

ai 

p

  u

   u

i

i

  S

    u S

a i

a i

m  i 1 

m  i 1 

S

u

S

u

với mọi , do đó .

  u

  u

B

p

B

p

B

 

   B

,

Từ , bằng cách tương tự ta suy ra . Theo giả thiết,

 uS

 IIS U A 

  uS B

A

 uS B

p

 uS A

p

IIS

nên ta thu được trên , theo Bổ đề 4.1

AU  ,

P

P

 uS B

p

 uS A

p

thì ta cũng có trên (ii)

p

 uS A

p

IIS

B

R

Như vậy, cả hai trường hợp (i) và (ii) ta đều có trên

AU  ,

P

P

 uS B

p

 uS B  uS A

 p

A

R 

, từ đó kết luận tồn tại sao cho . Từ a) và b)

IIS

theo định nghĩa ta có là một tập rút gọn của hệ thông tin không đầy đủ

AU  ,

P

P

,

đại diện .

 IIS U A 

,

,

,

,

,

,

,

,

A

,

}

U 

Ví dụ 3.1. Xét hệ thông tin không đầy đủ

 uuuuuuuuu 1 5

8

4

7

2

3

6

9

a a a a , { , 1 2 4

3

Với , cho ở Bảng 3.1

Bảng 3.1. Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa

Nhiều Trung bình Cao Thấp u1

Thấp * Trung bình Thấp u2

* * Gọn nhẹ Cao u3

Cao * Trung bình Cao u4

* * Trung bình Cao u5

Thấp Nhiều Trung bình * u6

* Nhiều Gọn nhẹ * u7

Thấp Nhiều Trung bình Thấp u8

* * Gọn nhẹ Cao u9

73

,

,

,

,

  

u 1

u 4

u u u u u u , 1 4 9

5

7

3

   S

   S

a 1

a 1

U

Ta có: ,

u 3

u 5

u 7

u 9

  S

  S

  S

  S

a 1

a 1

a 1

a 1

,

,

,

,

,

,

  

u 2

u 6

u 8

u u u u u u u , 2 6 9

3

5

7

8

   S

   S

   S

a 1

a 1

a 1

,

,

,

.

 

  ,

  ,

U a / 1

u u u , 2 6 8

u u u u , 3 5 9

7

  u u , 1 4

 

/U a

U

Do đó: .

 2

U a /

,

,

,

,

,

U a /

,

,

,

,

Tính toán tương tự, ta có ,

 

  ,

 

  ,

  ,

3

5

2

6

u u u , 3 7 9

4

u u u u , 3 4 9

5

u u , 6 7

  u u u u u u , 1 4 8

 

  u u u 1 2 8

 

AU /

u

u

u

u

,

,

,

  ,

    u , 1

uu , 2

8

uu , 3

9

         7 , ,

4

6

5

,

,

,

,

,

,

Từ đó ta có .

PU

 u u u u u u u 1 4 7

2

5

3

6

IIS

Tập đối tượng đại diện được chọn là và hệ

AU  ,

P

P

thông tin không đầy đủ đại diện được chọn ở Bảng 3.1

3.2.2. Chọn tập đối tượng đại diện cho bảng quyết định không đầy đủ

Từ phương pháp chọn tập đối tượng đại diện của hệ thông tin không đầy

đủ đã trình bày ở phần 3.2.1, trong mục này luận án trình bày phương pháp

chọn tập đối tượng đại diện cho bài toán tìm tập rút gọn của bảng quyết định

không đầy đủ. Luận án cũng chứng minh rằng tập rút gọn của bảng quyết định

không đầy đủ thu được từ tập đối tượng đại diện tương đương với tập rút gọn

thu được từ tập đối tượng ban đầu.

74

,

 IDS U A 

   d

/ AU

,...,

Xét bảng quyết định không đầy đủ , bằng phương pháp

 X

1

kX

X

/

,...,

được trình bày ở phần 3.2.1 ta tính được . Với mỗi lớp tương

/ AUX i

i

   Y d  1

Y l

Y

X

/

đương , ta tính . Với mỗi lớp tương đương

  d

j

i

, ta chọn ra một đối tượng đại diện cho lớp tương đương đó,

không mất tính chất tổng quát, ta chọn đối tượng đầu tiên làm đại diện. Khi

đó, tập đối tượng được chọn là tập các đối tượng đại diện.

Thuật toán chọn tập đối tượng đại diện của bảng quyết định không đầy

đủ được mô tả như sau:

Thuật toán 3.2. Chọn tập đối tượng đại diện của bảng quyết định không đầy

,

đủ.

 IDS U A 

   d

U

A

,...,

Đầu vào: Bảng quyết định không đầy đủ ban đầu với

 a 1

ma

 u 1,...,

u n

IDS

,

p

 U A , p

   d

U

Đầu ra: Bảng quyết định không đầy đủ đại diện với

PU

là một tập đối tượng đại diện.

PU  

iA

..1

m

, 

u U 

Bước 1: Đặt ;

 

ai

U a / i

a i

    u

v U S

 

Bước 2: Với mỗi , tính với

    u

a i

a i

   u

a i

.

     v S

/ AU

... 

Uu

  u

  u

/ A 

A

a

a

   u

  u

a 1

m

  i u

m  i 1 

/ AU

,...,

Bước 3: Tính với

 X

1

kX

i

k 1..

Giả sử ;

/ AUX i  ,

Bước 4: Với mỗi , , thực hiện lặp các bước 4.1 và 4.2

như sau:

75

X

u X 

  d

/i

i

d

d

   v X d u   i

   d v

   u

    u

Y

,...,

u

X

/

,...,

j

l 1..

Bước 4.1. Tính với .

j

i

   Y d  1

Y l

 u

j 1

j o

U

U

Y

X

/

j

l 1..

Giả sử và với .

  d

:P 

P

j

i

j

 u

1

IDS

Bước 4.2. Với mỗi , , đặt ;

p

 U A , p

   d

Bước 5: Return ;

Chứng minh thuật toán 3.2

,

Tương tự như phần 3.2.1, cho bảng quyết định không đầy đủ ban đầu

 IDS U A 

   d

IDS

và bảng quyết định không đầy đủ đại diện

p

 U A , p

   d

, ta cũng chứng minh bổ đề sau:

pu U

IIS

A



B 

Bổ đề 3.2. Nếu là một đối tượng đại diện được chọn trên

 , AU

d  

 u

 u

p

A

p

B

IIS



u U

sao cho với thì ta cũng có

 u

 u

d  

p

A

p

p

 , AU p

p

p

B

IIS



trên với .

 , AU

d  

 u

 u

p

A

p

B

y Y

Chứng minh. Trên , từ giả thiết suy ra

 Y 

p

 uS A

p

 uS B

p

p



, giả sử . Khi đó, tồn tại sao cho

  yd

 uS A p

 A u

 uS B Apu  y 

y

y

, suy ra .

p

u

IIS

 



1) Nếu y là đối tượng đại diện, nghĩa là , khi đó trên

d  

 yd

 u

p

 , AU p

p

p

A

p

B

p

 d y



, và , do đó ta kết luận

 u

 u

p

A

p

B

.

76

py

IIS





2) Nếu y không phải là đối tượng đại diện, giả sử là đối tượng đại diện

  yd

d  

 yd

 u

 d y

 , AU p

 A u

p

A

p

p

p

 d y

u

IIS

 

nên trên ta có , mà của lớp tương đương chứa y, theo cách xây dựng tập đối tượng đại diện ta có p

 , AU

d  

 d y

 d y

p

B

p

 d y

u

u

IIS

 

 

(i). Hơn nữa, trên ta có , mà nên

d  

p

 , AU p

p

B

p

p

B

p

 d y

 d y



. Như vậy, trên ta có (ii). Từ (i)

 u

 u

p

A

p

B



và (ii) suy ra .

 u

 u

p

A

p

B

IIS

Như vậy, cả hai trường hợp 1) và 2) ta đều có trên

d  

p

 , AU p

.

Tiếp theo, luận án chứng minh rằng tập rút gọn của hệ quyết định không

đầy đủ ban đầu và tập rút gọn của hệ quyết định không đầy đủ đại diện là như

A

R 

nhau.

IIS

R



u U

u U

B  

Giả sử là tập rút gọn của hệ quyết định không dầy đủ ban đầu

 , AU

d  

  u

 u

R

A



, khi đó với mọi và tồn tại

  u

 u

R

A

IIS



u U

sao cho .

  u

 u

d  

R

A

IIS



u U

với mọi dễ dàng suy ra

 u

 , AU  d  

A

 p

p

R

p

p

P

B

u U

R

với mọi trên . 1) Từ   u trên  , AU p

IIS



2) Không mất tính tổng quát, giả sử và tồn tại trên

 , AU

d  

  u

 u

A

B

u



u

sao cho .

 u

 u

p

A

p

p

B

IIS

IIS



Nếu u là đối tượng đại diện được chọn thì và trên

 , AU

d  

 u

 u

d  

p

A

p

p

 , AU p

B

IIS

, theo Bổ đề 3.2 thì trên (i).

 , AU

d  

pu

[ u

][ u

Nếu u không phải đối tượng đại diện thì trên , giả sử

[ Apu ]

] Ap

A

pu

u

B

A

[ u

][ u

[ u

][ u

R 

là đối tượng đại diện của lớp dung sai chứa u và , khi đó .

  u

] Ap

A

] Ap

A

p

B

 

   B

Do nên từ ta cũng suy ra . Từ ta

77

u



 uS

 u

 u

  u

 uS A

p

A

p

A

A

p

B

 

   B

u

 



có , do đó . Từ , bằng cách tương tự ta

  u

 u

  u

A

B

B

p

B

IIS



suy ra . Theo giả thiết, nên ta thu được

 , AU

d  

 u

 u

 p

A

p

B

IIS



trên , theo Bổ đề 3.2 thì ta cũng có

 u

 u

d  

p

A

p

p

 , AU p

B



trên (ii)

 u

 u

p

A

p

B

IIS

B



R

Tóm lại, cả hai trường hợp (i) và (ii) ta đều có trên

 u

 u

d  

p

A

p

p

 , AU p

B

A

R 

, từ đó kết luận tồn tại sao cho . Từ 1)

và 2) theo định nghĩa ta có là một tập rút gọn của hệ thông tin không

,

đầy đủ đại diện.

 IDS U A 

   d

A

,

}

U

,

,

,

,

,

,

,

Ví dụ 3.2. Xét bảng quyết định không đầy đủ

a a a a , { , 1 2 4

3

 u u u u u u u u u , 1 5 9

7

2

4

8

3

6

với và . cho ở Bảng 3.2

Bảng 3.2. Bảng quyết định không đầy đủ về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa Gia tốc

Cao Cao Đầy đủ Thấp Tốt u1

Thấp * Đầy đủ Thấp Tốt u2

* * Gọn nhẹ Cao Xấu u3

Cao * Đầy đủ Cao Tốt u4

* * Đầy đủ Cao Tuyệt hảo u5

Thấp Cao Đầy đủ * Tốt u6

* Cao Gọn nhẹ * Xấu u7

Thấp Cao Đầy đủ Thấp Tốt u8

* * Gọn nhẹ Cao Xấu u9

78

AU /

u

u

u

u

,

,

XXXXXXX

,

,

,

,

,

,

  ,

         , ,

  

    u , 1

uu , 2

8

uu , 3

9

6

5

7

4

1

2

3

5

4

6

7

u

Từ Ví dụ 3.1 ta có:

  d

/X 1

:PU

 1

1u

    u 1

X

/

: 

- Tính , vậy được chọn và .

  d

2

PU

 u u , 1 2

2u

  u u , 2 8

 

X

/

,

,

: 

- Tính , vậy được chọn và .

  d

3

PU

 u u u 1 2 3

3u

  u u , 3 9

 

,

,

: 

- Tính , vậy được chọn và .

  d

/X 4

PU

 u u u u , 1 2 4

3

4u

    u 4

,

,

,

,

: 

- Tính , vậy được chọn và .

  d

/X 5

PU

 u u u u u 1 3 5

4

2

5u

    u 5

,

,

,

,

: 

- Tính , vậy được chọn và .

  d

/X 6

PU

 u u u u u u , 1 3 6

2

4

5

6u

    u 6

,

,

,

,

,

,

: 

- Tính , vậy được chọn và .

  d

/X 7

PU

 u u u u u u u 1 4 7

6

5

3

2

7u

    u 7

- Tính , vậy được chọn và .

,

,

,

,

,

,

: 

Như vậy, tập tập đối tượng đại diện được chọn là

PU

 u u u u u u u 1 4 7

6

2

3

5

IDS

và hệ quyết định không đầy đủ đại diện

P

 U AT , P

   d

.

Như vậy, luận án đã trình bày phương pháp chọn tập đối tượng đại diện

từ tập đối tượng ban đầu cho bài toán tìm tập rút gọn của hệ thông tin không

đầy đủ và bảng quyết định không đầy đủ. Luận án đã chứng minh được tập rút

gọn trên tập đối tượng ban đầu và tập rút gọn trên tập đối tượng đại diện là

tương đương trên cả hệ thông tin không đầy đủ và bảng quyết định không đầy

đủ, từ đó khẳng định tính đúng đắn của phương pháp và khắc phục được các

nhược điểm của các phương pháp nén dữ liệu trong công trình [19], [44]. Do

kích thước của tập đối tượng đại diện nhỏ hơn kích thước tập đối tượng ban

đầu nên phương pháp chọn tập đối tượng đại diện sẽ giảm thiểu đáng kể thời

gian thực hiện các thuật toán tìm tập rút gọn. Dung lượng tập đối tượng đại

79

diện nhỏ hay lớn phụ thuộc vào tập đối tượng ban đầu của mỗi bài toán cụ thể.

Phần tiếp theo, luận án trình bày phương pháp rút gọn thuộc tính sử dụng

lượng thông tin mở rộng. Phương pháp đề xuất này thuộc Nhóm 2.

3.3. Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng

có điều kiện

Trong phần này, luận án đề xuất phương pháp heuristic rút gọn thuộc tính

trong bảng quyết định không đầy đủ sử dụng độ đo lượng thông tin mở rộng

có điều kiện (conditional extended information quantity), bao gồm các bước:

xây dựng độ đo lượng thông tin mở rộng có điều kiện, định nghĩa tập rút gọn

và độ quan trọng của thuộc tính dựa trên độ đo lượng thông tin mở rộng có

điều kiện, xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng

độ đo lượng thông tin mở rộng có điều kiện, phân nhóm và thử nghiệm

phương pháp trên các tập dữ liệu mẫu từ kho dữ liệu UCI [36 ].

Các kết quả trong phần này đã được tác giả công bố trong công trình

[CT5].

3.3.1. Độ đo lượng thông tin mở rộng

Dựa trên khái niệm độ đo lượng thông tin (information quantity) trong

công trình [16], trong mục này chúng tôi xây dựng độ đo lượng thông tin mở

rộng (extended information quantity) nhằm đánh giá số lượng lớp tương

đương được phân hoạch bởi tập thuộc tính P trên tập đối tượng U cho trước.

Độ đo lượng thông tin mở rộng được xây dựng dựa trên khoảng cách Jaccard

UYX ,

giữa hai tập hợp hữu hạn.

,

1  

 D X Y

X Y  X Y 

Cho U là tập hữu hạn các đối tượng và . Biểu thức

80

được gọi là khoảng cách Jaccard (Jaccard distance) giữa hai tập hợp X và Y

IS

U

[26].

AU  ,

 u 1,...,

u n

A

U P /

,...,

P 

Cho hệ thông tin đầy đủ với , giả sử

P 1

P k

,

là phân hoạch sinh bởi tập thuộc tính . Khi đó, lượng

 EI P U

thông tin mở rộng của P trên tập đối tượng U, ký hiệu là , được tính

iP

k

k

,

1

1

1  

bằng tổng khoảng cách Jaccard trung bình giữa tập U và như sau:

 EI P U

1 k

1 k

P i U

1 k

i

i

1 

1 

U P  i U P  i

  

  

  

  

,

1 

(3.1)

 EI P U

1 n

U P /

,...,

,

/U P



Dễ thấy rằng, đạt giá trị lớn nhất là khi

 EI P U

  U 

   u 1

   u n

,

. đạt giá trị nhỏ nhất là 0 khi .

 EI P U

Độ đo lượng thông tin mở rộng đặc trưng cho số lượng các lớp

,

/U P

tương đương trong phân hoạch sinh bởi tập thuộc tính P trên tập đối tượng U.

 EI P U

/U P

càng lớn thì phân hoạch càng mịn, hay số lượng các lớp tương

đương sinh bởi càng lớn và ngược lại.

Từ lượng thông tin mở rộng xác định bởi tập thuộc tính P trên tập đối

tượng U, mục tiếp theo chúng tôi xây dựng lượng thông tin mở rộng có điều

kiện (conditional extended information quantity) của tập thuộc tính điều kiện

 d

P đối với thuộc tính quyết định trong bảng quyết định không đầy đủ.

IDS

U

,...,

3.3.2. Xây dựng lượng thông tin mở rộng có điều kiện

 , AU

d  

 u 1

nu

A

/ SIMU

P

..1

P 

Cho bảng quyết định không đầy đủ và với

n

  , iUuuS i

p

i

ta có là một phủ của U. Khi đó, ta xây

dựng lượng thông tin mở rộng có điều kiện (conditional extended information

 d

    CEI P d

quantity) của tập thuộc tính P đối với thuộc tính , ký hiệu là , là

81

1  

trung bình cộng các lượng thông tin mở rộng thành phần của thuộc tính  d

 p uS

i

, P

P

    EI d S u i

    EI d S u , i

1 P k i

trên các tập đối tượng , . Giả sử

  d /

i pk

 uS p

i

n

n

n

1

1  

với là số lớp tương đương của phân hoạch . Khi đó ta có:

P

    EI d S u , i

    CEI P d

1 n

1 n

1 n

i

i

i

1 

1 

1 

1 i k P

1 i k P

  

  

IDS

(3.2)

 , AU

d  

AQP ,

QP 

Mệnh đề 3.2. Cho bảng quyết định không đầy đủ và

    CEI P d

    CEI Q d



Uu 

. Nếu thì . Dấu đẳng thức

  u

 u

P

Q

    CEI P d

    CEI Q d

IDS

khi và chỉ khi với mọi .

 , AU

d  

U

,...,

QP 

Chứng minh. Xét bảng quyết định không đầy đủ với

 u 1

nu

Uui 

 uS Q

i

 uS P

i

k

S

. Nếu thì với mọi , nghĩa là

   d /

   d /

i k  Q

i P

Uui 

Q

u i

 S u P i

n

n

1

1 

, hay với mọi . Vì vậy,

    CEI P d

    CEI Q d

1 n

1 n

i

i

1 

1 

1 i k P

1 i k Q

k

, nghĩa là : .

i k  Q

i P

    CEI P d

    CEI Q d



Dấu đẳng thức khi và chỉ khi với mọi

 u

 u

P

i

Q

i

Uui 



, theo định nghĩa hàm quyết định suy rộng ta có với

 u

 u

Uui 

Uui 

 uS Q

i

 uS P

i

i

P

Q

i

mọi . Từ ta suy ra với mọi .

Mệnh đề 3.2 chứng minh tính phản đơn điệu của lượng thông tin mở

rộng có điều kiện đối với lực lượng của tập thuộc tính điều kiện. Nghĩa là tập

thuộc tính điều kiện P càng nhỏ thì phủ sinh bởi P càng thô và lượng thông

tin mở rộng có điều kiện của P đối với {d} càng lớn và ngược lại. Mệnh đề

này rất quan trọng và cho ta cơ sở để xây dựng phương pháp rút gọn thuộc

IDS

A

P 

tính sử dụng lượng thông tin mở rộng có điều kiện.

 , AU

d  

Mệnh đề 3.3. Cho bảng quyết định không đầy đủ và .

Khi đó ta có:

82

n

1 

 ui

P

Uui 

    CEI P d

1 n

1

1) đạt giá trị lớn nhất là khi với mọi .

 P u

i

Uui 

    CEI P d

2) đạt giá trị nhỏ nhất là 0 khi với mọi (Bảng

quyết định IDS nhất quán trên tập thuộc tính P)

Chứng minh.

i Pk

    CEI P d

1) Từ công thức (3.2) ta thấy đạt giá trị lớn nhất khi đạt

 U 

Uui 

 uS P

i

n

giá trị lớn nhất là n với mọi , xảy ra khi và phân hoạch

   / d

Uuu    

 uS p

i

i

i

P

 ui

n

1

(phân hoạch rời rạc), nghĩa là . Khi đó, giá

1 n

1 n

i

1 

1     n 

 1  

trị lớn nhất là .

i Pk

    CEI P d

2) Tương tự, đạt giá trị nhỏ nhất khi đạt giá trị nhỏ nhất

   / d

Uui 

 uS p

i

  uS p

i 

1

là 1 với mọi , xảy ra khi phân hoạch (phân hoạch

 P u

i

Uui 

khối), nghĩa là với mọi , khi đó IDS là bảng quyết định nhất

IDS

quán trên tập thuộc tính điều kiện P.

 , AU

d  

Mệnh đề 3.4. Cho bảng quyết định không đầy đủ . Khi đó ta

 IDS

 1 

    CEI P d

có:

 IDS

với là độ chắc chắn của bảng quyết định IDS trong công trình [CT5].

Mệnh đề 3.4 dễ dàng được suy ra từ công thức (3.2) và công thức tính

 IDS

độ chắc chắn của bảng quyết định trong công trình [CT5]. Mệnh đề

3.4 cho thấy độ đo lượng thông tin mở rộng có điều kiện của P đối với {d} là

đại lượng đối ngẫu với độ chắc chắn của bảng quyết định. Nếu độ đo này

càng lớn thì độ chắc chắn của bảng quyết định càng nhỏ và ngược lại.

83

3.3.3. Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện

Trong phần này, luận án trình bày một phương pháp heuristic rút gọn

thuộc tính trong bảng quyết định không đầy đủ sử dụng độ đo lượng thông tin

mở rộng có điều kiện. Giống như các phương pháp heuristic khác, phương

pháp của này cũng bao gồm các bước: định nghĩa tập rút gọn dựa trên ượng

thông tin mở rộng có điều kiện, định nghĩa độ quan trọng của thuộc tính dựa

trên lượng thông tin mở rộng có điều kiện và xây dựng một thuật toán

heuristic tìm một tập rút gọn tốt nhất dựa trên tiêu chí đánh giá là độ quan

IDS

trọng của thuộc tính.

 , AU

d  

R

A

Định nghĩa 3.1. Cho bảng quyết định không đầy đủ và tập

thuộc tính . Nếu

    CEI R d

    CEI A d

,

 

1)

  r

 r R CEI R

    d

    CEI A d

2)

thì R là một tập rút gọn của A dựa trên lượng thông tin mở rộng có điều kiện

Từ Mệnh đề 3.2 ta thấy tập rút gọn dựa trên lượng thông tin mở rộng có

điều kiện và tập rút gọn dựa trên hàm quyết định suy rộng là như nhau. Từ

kết quả phân nhóm các phương pháp rút gọn thuộc tính được trình bày trong

Chương 2 ta có: phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở

IDS

A

B 

rộng có điều kiện thuộc Nhóm 2.

 , AU

d  

BAb 

Định nghĩa 3.2. Cho bảng quyết định không đầy đủ ,

và . Độ quan trọng của thuộc tính b đối với tập thuộc tính B được

  SIG b B

    CEI B d

 CEI B

     d b

định nghĩa bởi:

84

  0b

 b

SIGB

SIGB

    CEI B d

 CEI B

     d b

Theo Mệnh đề 3.2, nên .

được tính bởi lượng thay đổi lượng thông tin mở rộng có điều kiện giữa tập

thuộc tính điều kiện B và thuộc tính quyết định {d} khi thêm thuộc tính b vào

 b

SIGB

B và càng lớn thì lượng thay đổi lượng thông tin mở rộng có điều kiện

càng lớn, hay thuộc tính b càng quan trọng và ngược lại. Độ quan trọng của

thuộc tính này là tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm

tập rút gọn của bảng quyết định.

R

Ý tưởng của thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng

lượng thông tin mở rộng có điều kiện là xuất phát từ tập rỗng , lần lượt

bổ sung thêm vào R các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm

được tập rút gọn.

Thuật toán 3.3 (Thuật toán EIQBAR). Thuật toán heuristic tìm một tập rút

IDS

gọn sử dụng lượng thông tin mở rộng có điều kiện.

 , AU

d  

Đầu vào: Bảng quyết định không đầy đủ

Đầu ra: Một tập rút gọn .R

1. ;R

    CEI R d

    CEI A d

2. Tính lượng thông tin mở rộng có điều kiện và ;

// Thêm vào R các thuộc tính có độ quan trọng lớn nhất

    CEI R d

    CEI A d

3. While do

RAa 

4. Begin

  SIG a R

    CEI R d

 CEI R

     d a

SIG

RA



For tính ; 5.

 a

 SIG

a  

m

R

R

am

Max RAa 

RR



Chọn sao cho ; 6.

ma 

7. ;

    CEI R d

8. Tính ;

85

9. End;

//Loại bỏ các thuộc tính dư thừa trong R nếu có

10.For each doRa 

11. Begin

 CEI R

     d a

RR 

Tính ; 12.

 a

 CEI R

     d a

    CEI R d

13. If then ;

14.End;

15. Return ;R

 a

SIGR

Xét vòng lặp While từ dòng lệnh 3 đến 9, để tính ta cần phải tính

 CEI R

     d a

    CEI R d

S

phải tính vì đã được tính ở bước trước, nghĩa là

  d /

a

i

a

i

R

S  R

  u

  u

cần phải tính và phân hoạch . Theo Zhang và các cộng

Uui 

 R uS

i

a

i

S  R

  u

S

với mọi khi

  d /

Uui 

a

i

R

  u

, độ phức tạp để tính phân hoạch với mọi là . sự [9], độ phức tạp để tính 2UO  đã được tính là 2UO 

 a

SIGR

2

2

2

2

A

A

U

A

*

A

U

 

 1

 ... 1 *

 / 2 *

 O A U

A

U

Do đó, độ phức tạp thời gian để tính tất cả các ở dòng lệnh số 5 là:

1

A

A

A

A

... 

 1

với là số thuộc tính điều kiện và là số đối tượng. Độ phức tạp thời gian

 AO

để chọn thuộc tính có độ quan trọng lớn nhất ở dòng lệnh số 6 là: 2 . Do đó, độ phức tạp thời gian của

 2/1  2

vòng lặp While là

. Vì vậy, độ phức tạp thời gian của Thuật toán . Tương tự, độ phức tạp của vòng lặp For từ dòng 2

*  2 UAO  2 UAO lệnh số 10 đến 14 là 2

 2 UAO

EIQBAR là .

86

IDS

,

,

,

,

,

U 

Ví dụ 3.3. Bảng 3.3 [16] mô tả dữ liệu về các xe hơi là bảng quyết định

 , AU

d  

 uuuuuuu , 1 3

2

5

4

2

6

không đầy đủ với và A = {Đơn

giá, Km đã đi, Kích thước, Tốc độ}

87

Bảng 3.3. Bảng quyết định không đầy đủ mô tả về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ Gia tốc(d)

Cao Nhiều Trung bình Thấp Nhanh u1

Thấp * Trung bình Thấp Nhanh u2

* * Gọn nhẹ Cao Chậm u3

Cao * Trung bình Cao Nhanh u4

* * Trung bình Cao Rất nhanh u5

,

SIM

R

Thấp Nhiều Trung bình * Nhanh u6

  vuUv 

P 

  uS P  U 

 uS R

1

 uS R

2

 uS R

3

 uS R

4

 uS R

5

 uS R

6

Ta khởi tạo Khi đó từ công thức ta có

   / d

   / d

   / d

  d /

1

 uS R

2

 uS R

3

 uS R

4

 uS R

5

 uS R

6

,

,

   / d   dU /

 uS  R     u u , ,

   uuuu , 2

4

1

   / d 5 

3

6

Khi đó ta có:

    CEI R d

, từ công thức tính lượng thông tin mở rộng có điều Ta tính

    CEI R d

kiện ta có:

    CEI R d 1/3)}=2/3.

u

u

= 1/6 { (1-1/3)+ (1-1/3)+(1-1/3)+ (1-1/3)+ (1-1/3)+(1-

 uS A

1

1

 uS A

2

 , uu 2

6

 uS A

3

3

    CEI A d

,

,

Tiếp tục tính ta có , , ,

 uS A

4

 , uu 4

5

 uS A

5

 uuu , 5

4

6

 uS A

6

 uuu , 5

2

6

u

d

u

d

, , . Khi đó:

   d /

  u

  u ,

   d /

    3 / 

3

 uS A

4

5 

4

  uu , 2

6 

2

, , ,

 uS A    d /

   d /

    1 1 /      uu u , , 4

6

 uS A 5 

 uS A

5

 uS A

6

  uu , 2

6

 uS A   5  . u ,

,

1 / 4

  1 1  

  1 1  

 1 1 / 2

 1 1 / 2

 1 1 / 2

   1 / 6 1 1  

 

    CEI A d

Từ công thức 3.2 ta có:

88

    CEI R d

    CEI A d

Vì vậy . Tiếp tục thực hiện vòng lặp While, tính

2 / 3

  1 1 / 3

  1 1 / 3

   1 1 / 3

2 / 3 2 / 3 0

tương tự ta có:

 CEI R  SIG a 1 R

       1 / 6 1 1 / 3 d a  1       CEI R CEI R d

    1 1 / 3 1 1 / 3      d a 1

Từ đó

2 / 3 2 / 3 0

 SIG a R

2

2

    CEI R d

 CEI R

     d a

2 / 3 5 / 12 1 / 4

 SIG a R

3

3

2 / 9

2 / 3 4 / 9 

 SIG a R

4

4

    CEI R d     CEI R d

 CEI R  CEI R

     d a      d a

RR



Tương tự,

SIGR

3a 

 3a

   CEI R d

 5 / 12 

Vậy lớn nhất do đó ta có , vậy .

0

5 / 12 5 / 12 

 SIG a R 1

    CEI R d

 CEI R

     d a 1

0

5 / 12 5 / 12 

 SIG a R

2

2

    CEI R d

 CEI R

     d a

5 / 12 1 / 4 1 / 6

 SIG a R

4

4

    CEI R d

 CEI R

     d a

RR



Tiếp tục tính

SIGR

4a 

 4a

   CEI R d

 1 / 4 

R 

Vậy lớn nhất do đó ta có , Vậy

 3 , aa

4

    CEI R d

    CEI A d

Ta có dừng vòng lặp, Vậy .

5 / 12

Loại bỏ thuộc tính dư thừa trong R.

4

4

 CEI R

 CEI R

4 / 9

, do đó vậy không

3

3

         CEI R d d a       d a CEI R

    CEI R d

     d a       d a CEI R không loại bỏ a3.

R 

, do đó vậy loại bỏ a4.

 3 , aa

4

Vậy tập rút gọn thu được là .

3.3.4. Thử nghiệm và đánh giá kết quả

Luận án chọn thuật toán MBAR tìm tập rút gọn của bảng quyết định

không đầy đủ sử dụng metric trong [2] để so sánh với thuật toán sử dụng

89

lượng thông tin mở rộng có điều kiện đề xuất (Thuật toán EIQBAR) về thời

gian thực hiện và kết quả thực hiện. Sở dĩ chọn thuật toán MBAR vì theo lý

thuyết đã trình bày, tập rút gọn của Thuật toán EIQBAR (thuộc Nhóm 2) tối

thiểu hơn tập rút gọn của thuật toán MBAR (thuộc Nhóm 3). Để tiến hành thử

nghiệm, chúng tôi thực hiện các công việc sau:

1) Cài đặt thuật toán MBAR và Thuật toán EIQBAR bằng ngôn ngữ C#.

S

Cả hai thuật toán đều sử dụng thuật toán trong [17] để tính các lớp dung sai

B

u i

iu U

với . Với mỗi tập rút gọn thu được của mỗi thuật toán, thực hiện

 IDS

 IDS

 IDS

tính độ chắc chắn , độ nhất quán và độ hỗ trợ trên bảng

quyết định với tập rút gọn thu được bằng công thức đề xuất trong mục 2.3.2.

2) Trên máy tính PC với cấu hình Core i3 4150, 3 GB bộ nhớ RAM, sử

dụng hệ điều hành Windows 7, chạy thử nghiệm hai thuật toán với 6 bộ số

U

C

liệu lấy từ kho dữ liệu UCI [40]. (Mô tả bộ dữ liệu chi tiết tại mục 2.3.4)

R

Với mỗi bộ số liệu, giả sử là số đối tượng, là số thuộc tính điều

kiện, là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán

(đơn vị là giây s), các thuộc tính điều kiện được đánh số là 1, 2,…, . C

- Kết quả thực hiện của hai thuật toán về tập rút gọn được mô tả ở Bảng

3.4 và Bảng 3.5 sau đây:

90

Bảng 3.4. Kết quả thực hiện thuật toán MBAR và Thuật toán EIQBAR

Thuật toán

Thuật toán

MBAR

EIQBAR

U

C

STT

Bộ số liệu

t

t

R

R

Hepatitis.data

155

4

19

1.296

3

1.29

1

Lung-cancer.data

32

4

56

0.171

4

0.17

2

Automobile.data

205

8

26

1.687

6

1.68

3

Anneal.data

798

9

38

179

7

178

4

16

Congressional Voting

435

15

16.7

15

16.73

5

Records

Credit Approval

690

15

7

15.7

5

15.68

6

Bảng 3.5. Tập rút gọn của thuật toán MBAR và Thuật toán EIQBAR

Tập rút gọn của

Tập rút gọn của

STT

Tập dữ liệu

Thuật toán MBAR

Thuật toán EIQBAR

Hepatitis.data

{1, 2, 4, 17}

{1, 2, 17}

1

Lung-cancer.data

{3, 4, 9, 43}

{3, 4, 9, 43}

2

Automobile.data

{1, 8, 9, 13, 14, 20,

{1, 4, 13, 14, 20, 21}

3

21, 24}

Anneal.data

{1, 3, 4, 5, 8, 9, 33,

{1, 3, 4, 5, 8, 9, 34}

4

34, 35}

Congressional Voting

{1, 2, 3, 4, 5, 7, 8, 9,

{1, 2, 3, 4, 5, 7, 8, 9,

5

Records

10, 11, 12, 13, 14, 15,

10, 11, 12, 13, 14, 15,

16}

16}

Credit Approval

{1, 2, 3, 4, 5, 6, 8}

{1, 3, 4, 5, 8}

6

91

Kết quả thực hiện của hai thuật toán về tập rút gọn và tính toán giá trị

các độ chắc chắn , độ nhất quán , độ hỗ trợ  mô tả ở Bảng 3.6 sau đây:

Bảng 3.6. Kết quả tính toán độ chắc chắn, độ nhất quán và độ hỗ trợ trên các

tập rút gọn

Thuật toán EIQBAR

Thuật toán MBAR

U

C

Bộ số liệu

R

R

S T T

1 Hepatitis.data

155

0.909 0.819

0.504 4

0.909

0.819 0.415

3

19

2

Lung-cancer.data

32

1

0.814 4

1

0.814

4

56

1

1

6

26

0.915 0.781

0.624 8

0.915

0.781 0.518

3 Automobile.data

205

7

38

0.852 0.755

0.503 9

0.852

0.755 0.426

4 Anneal.data

798

5

16

15

1

0.616 15

1

0.616

1

1

435

Congressional Voting Records

6

Credit Approval

690

15

5

0.884 0.802

0.615 7

0.884

0.802 0.487

Hình 3.1 biễu diễn sự thay đổi độ hỗ trợ  trên hai tập rút gọn của hai

0.900

0.800

0.700

0.600

0.500

0.400

0.300

0.200

0.100

Thuật toán EIQBAR Thuật toán MBAR

0.000

A nneal.data

H epatitis.data

Credit A pproval

A uto m obile.data

L ung-cancer.data

C. V oting R ecords

thuật toán EIQBAR và MBAR.

Hình 3.1. Sự thay đổi độ hỗ trợ  trên hai tập rút gọn của hai thuật toán

EIQBAR và MBAR.

92

1) Kết quả thử nghiệm từ Bảng 3.4 và Bảng 3.5 cho thấy:

 Trên các bộ số liệu Lung-cancer.data, Congressional Voting Records, tập

rút gọn thu được bởi Thuật toán EIQBAR và Thuật toán MBAR là như nhau.

Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi Thuật toán

EIQBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán MBAR. Điều này

cũng phù hợp với kết quả nghiên cứu về lý thuyết.

 Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ

bản là tương đương nhau.

2) Kết quả thử nghiệm từ Bảng 3.6 và Hình 3.1 cho thấy:

 Độ chắc chắn , độ nhất quán  của hai tập rút gọn thu được bởi hai

thuật toán EIQBAR và MBAR trên 6 bộ dữ liệu thử nghiệm là bằng nhau.

 Độ hỗ trợ của tập rút gọn thu được bởi Thuật toán EIQBAR cao hơn độ

hỗ trợ của tập rút gọn thu được bởi Thuật toán MBAR.

Phần tiếp theo, chúng tôi trình bày phương pháp rút gọn thuộc tính sử

dụng hàm quan hệ (relations function) được xây dựng trên ma trận quan hệ

(relational matrix). Phương pháp đề xuất này cũng thuộc Nhóm 2.

3.4. Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ

Theo tiếp cận lý thuyết tập thô truyền thống, Skowron [39] đã đưa ra khái

niệm ma trận phân biệt và hàm phân biệt để tìm tập rút gọn trong bảng quyết

định đầy đủ. Dựa trên cách tiếp cận này, luận án đưa ra khái niệm hàm quan hệ

(relations function) và ma trận quan hệ (relational matrix) để tìm tập rút gọn

của bảng quyết định không đầy đủ. Phương pháp heuristic đề xuất cũng bao

gồm các bước: xây dựng ma trận quan hệ và hàm quan hệ, định nghĩa tập rút

gọn và độ quan trọng của thuộc tính sử dụng hàm quan hệ, xây dựng thuật toán

heuristic tìm một tập rút gọn tốt nhất sử dụng hàm quan hệ.

Các kết quả trong phần này đã được tác giả công bố trong công trình số

[CT4].

93

,

3.4.1. Ma trận quan hệ và hàm quan hệ

  d

 IDS U A 

R

R

IDS

A

U n

Định nghĩa 3.3. Cho bảng quyết định không đầy đủ với

. Ma trận quan hệ của trên tập thuộc chính , ký hiệu

 m

R ij

M  R

, là ma trận vuông cấp n, mỗi phần tử có giá trị 0 hoặc 1, được và nxn

1R



định nghĩa như sau:

 u

 ud

ijm

i

R

j

0R



(1) nếu

 u

 ud

ijm

i

R

j

R

0R

(2) nếu .

RM

ijm

i

1,...,

n

j

1,...,

n





Chú ý: Nếu thì quy ước và không phải là ma trận đối

 u

 ud

 ud

 u

j

i

R

i

R

j

xứng vì vẫn có thể với ; .

IDS

,

,

,

,

,

U 

A

,

,

Ví dụ 3.4. Bảng 3.7 mô tả dữ liệu về tivi là bảng quyết định không đầy đủ

 , AU

d  

 uuuuuuu , 1 3

4

2

2

5

6

 a a a a , 1 2

3

4

với và với a1 (Đơn

giá) a2 (Màu sắc), a3 (Kích thước), a4 (Độ phân giải), d ={Chất lượng}.

Bảng 3.7. Bảng quyết định không đầy đủ mô tả về các tivi

Kích Độ phân Chất Tivi Đơn giá Màu sắc thước giải lượng

Đen Gọn nhẹ Thấp Cao Tốt u1

Gọn nhẹ Thấp Thấp * Tốt u2

Nhỏ nặng Cao * * Xấu u3

Cao Nâu Gọn nhẹ Thấp Tốt u4

* * Gọn nhẹ Cao Tuyệt hảo u5

A

IDS

Thấp Nâu Gọn nhẹ * Tốt u6

Khi đó, ma trận quan hệ của trên tập thuộc tính là:

94

AM

010100   010100   111011  010100   000100  000100  

         

" "

X 

Y 

 R ijx

R ijy

mxn

mxn

" "

Định nghĩa 3.4. Cho hai ma trận và . Hai quan hệ và

X Y

y

i

1, 2,...,

m

j

1, 2,...,

n

được định nghĩa như sau:

R x  ij

R ij

X Y

y

i

1, 2,...,

m

j

1, 2,...,

n

(1) khi và chỉ khi , ,

R x  ij

R ij

AQP ,

,

(2) khi và chỉ khi , ,

  d

 IDS U A 

P Q

Mệnh đề 3.5. Cho bảng quyết định không đầy đủ với .

M M P

Q

A

,

,

R 

R 

Nếu thì .

 aaa 2 1

3

Ví dụ 3.5. Tiếp tục Ví dụ 3.4, giả sử với , khi đó ta tính

000100

000100

RM

000100

000100

000100

    111011      

         

M 

được:

R M

A

R

A

,

Rõ ràng,

  d

 IDS U A 

R

IDS

Định nghĩa 3.5. Cho hệ quyết định không đầy đủ , với

 m

M  R

R ij

nxn

R

IDS

và là ma trận quan hệ của trên tập thuộc tính . Khi đó,

RDIS 

n

n

1

n

, 1

n

i  

j  

hàm quan hệ của trên , ký hiệu là , được định nghĩa như sau:

 RDIS

R ijm

  

i

j

1 

1 

với .

95

AM

112522

13

ADIS

Ví dụ 3.6. Tiếp tục Ví dụ 3.4, với ma trận phân biệt , hàm phân biệt là:

AQP ,

,

Từ Định nghĩa 3.5 và Mệnh đề 3.5 ta có mệnh đề sau:

  d

 IDS U A 

P Q

Mệnh đề 3.6. Cho hệ quyết định không đầy đủ với .

 DIS Q DIS P 

,

Nếu thì .

ADIS 

  d

AM

 IDS U A 

A

IDS

Mệnh đề 3.7. Cho hệ quyết định không đầy đủ và ,

( ADIS )



u U 

tương ứng là ma trận quan hệ và hàm quan hệ của trên tập thuộc tính .

 RDIS

  u

 u

R

A

Khi đó, khi và chỉ khi với .





Chứng minh.

 u

R

A

i

A

R

i

i 0

i 0







sao cho

0iu U  ud

 u

 u  ud

 

 u  u

 ud

 u  u

j

R

j

A

i

j

i

A

0

i 0

0

0 . Vì 0

0

0 nên tồn 0

A

1

M

0

M

R 

sao cho tại . Từ ta có i) Giả sử tồn tại 0jud 

im

A

im

R

R j 00

R m  j i 00

R j 00

R m  j i 00

M 

( ADIS )

, (1). Từ , (2). Từ giả thiết ta có

 RDIS

R M

A

( ADIS )

( ADIS )



, kết hợp với (1) và (2) ta có

 RDIS

 RDIS

 u

 u

A

R

i

0

i 0

( ADIS )

A

R 

điều kiện . Vì vậy, nếu thì . , điều này mâu thuẫn với 

 RDIS

M 

( ADIS )

M 

ii) Ngược lại, giả sử . Theo bổ đề 1 từ ta có

 RDIS

R M

A

R M

A

0i

0j

m

0

m

1

, kết hợp với suy ra , khi đó tồn tại và

mM , R

mM , A

R i j 00

R i j 00

R i j 00

R i j 00





 

sao cho (3) và (4). Từ (4) suy ra

 ud

 u

 u

 u

j

A

i

R

A

i

R

0

0

i 0

0

j 0

u i 0

 d u





u U 

. Từ (3) suy ra . Do đó, , điều này

  u

 u

  u

 u

A

R

A

R

( ADIS )

u U 

mâu thuẫn với điều kiện với . Vì vậy nếu với

 RDIS

thì .

Từ i) và ii) ta có điều phải chứng minh.

96

3.4.2. Rút gọn thuộc tính sử dụng hàm quan hệ

Trong mục này, luận án trình bày phương pháp heuristic rút gọn thuộc

tính trong bảng quyết định không đầy đủ sử dụng hàm quan hệ. Giống như

các phương pháp heuristic khác, phương pháp của chúng tôi bao gồm các

bước: định nghĩa tập rút gọn dựa trên hàm quan hệ; định nghĩa độ quan trọng

của thuộc tính dựa trên hàm quan hệ; xây dựng thuật toán heuristic tìm một

tập rút gọn tốt nhất sử dụng độ quan trọng của thuộc tính làm tiêu chuẩn lựa

,

chọn thuộc tính.

  d

 IDS U A 

R

A

Định nghĩa 3.6. Cho bảng quyết định không đầy đủ . Nếu

( ADIS )

thỏa mãn:

 RDIS

'

ADIS ) (

R

' R

(1)

 RDIS

IDS

(2) ,

thì R được gọi là một tập rút gọn của dựa trên hàm quan hệ.

Mệnh đề 3.7 cho thấy rằng tập rút gọn sử dụng hàm quan hệ tương đương

với tập rút gọn sử dựa trên hàm quyết định suy rộng. Do đó, phương pháp rút

gọn thuộc tính sử dụng hàm quan hệ thuộc Nhóm 2 (theo kết quả phân nhóm

R

A

,

các phương pháp rút gọn thuộc tính trình bày ở Chương 2).

  d

 IDS U A 

a

R

RAa 

Định nghĩa 3.7. Cho bảng quyết định không đầy đủ , và

. Độ quan trọng của thuộc tính đối với tập thuộc tính được định

  a

 RDIS

   a

RDIS 

SIG out R

R

A

,

nghĩa bởi

  d

 IDS U A 

a

R

Ra 

Định nghĩa 3.8. Cho hệ quyết định không đầy đủ , và

. Độ quan trọng của thuộc tính trong tập thuộc tính được định

nghĩa bởi

97

  a

 RDIS

 RDIS

a  

SIG in R

  0a

  0a

 a

SIG out R

SIG in R

SIG out R

Từ Mệnh đề trên ta có và Do đó, và

 a

SIG in R

được tính bởi lượng thay đổi hàm quan hệ khi thêm thuộc tính a vào

 a

 a

SIG out R

SIG in R

R hoặc loại bỏ a khỏi R và , càng lớn thì lượng thay đổi này

càng lớn, hay thuộc tính a càng quan trọng và ngược lại.

Tiếp theo, luận án đề xuất thuật toán heuristic tìm một tập rút gọn tốt

:R

nhất theo tiêu chuẩn đánh giá độ quan trọng của thuộc tính. Ý tưởng của thuật

toán là xuất phát từ tập thuộc tính rỗng , lần lượt bổ sung vào tập R các

thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn. Thuật

toán đề xuất sử dụng chiến lược Thêm - Xóa [50].

Thuật toán 3.4(Thuật toán RBAR). Thuật toán heuristic tìm một tập rút gọn

,

tốt nhất sử dụng hàm quan hệ.

  d

 IDS U A 

Đầu vào: Bảng quyết định không đầy đủ .

R  

.R

( ADIS )

;

 RDIS

Đầu ra: Một tập rút gọn 1. // Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất; 2. While do

RAa 

3. Begin

 out SIG a R

 DIS R

   a

SIG

RA



4. For each tính ;

 a

  SIG

 DIS R a  

out R

m

out R

am

Max RAa 

R R

 

5. Chọn sao cho ;

m a

6. ;

R R

 

7. End; //Loại bỏ các thuộc tính dư thừa trong R nếu có; 8. For each a R

  a

 DIS R

  a

 DIS R

9. If then ;

10. Return ;R

98

n

k

Giả sử là số đối tượng. Dễ thấy rằng độ

ADIS 

AM

 O kn

 O kn

2

là phức tạp để tính , do đó độ phức tạp tính là . Xét là số thuộc tính điều kiện và 2

2

2

k

k

kn

k

*

k

vòng lặp While từ dòng lệnh 2 đến dòng lệnh 7, độ phức tạp để tính tất cả các

 1   

 SIG a R

 ... 1 *

  1 / 2 *

 3 2 kn O k n

là . Độ phức tạp thời gian

k

k

... 1

k

*

k

   

để chọn thuộc tính độ quan trọng lớn nhất là

 1

 1 / 2

 O k

. Do đó, độ phức tạp của vòng lặp While là có 2

 3 2 O k n

 2 2 O k n

. Tương tự, độ phức tạp của vòng lặp For là . Vì vậy, độ phức

 3 2 O k n

,

tạp của Thuật toán RBAR là .

  d

 IDS U A 

R

Ví dụ 3.7. Xét bảng quyết định không đầy đủ cho ở Ví dụ 3.4.

R  

Áp dụng Thuật toán RBAR. tìm tập rút gon ta có:

DIS

0

 

  

 

a 1

out SIG 

 DIS a 1

 DIS a 1

DIS

0

 

  

 

a 2

out SIG 

 DIS a 2

 DIS a 2

DIS

DIS

DIS

 a

    a

  

   a

 10 

3

3

3

SIG out 

DIS

DIS

DIS

 a

    a

  

   a

 6 

4

4

4

SIG out 

R

a

Đặt và tính:

3a

 3

( ADIS )

Chọn thuộc tính có độ quan trọng lớn nhất và . Từ Ví dụ 3.5

 13ADIS 

 RDIS

DIS

DIS

10

10

0

 

    a

SIG out a

 a 1

  aa , 1

3

3

3

DIS

DIS

10

10

0

 a

 

    a

SIG out a

2

  aa , 2

3

3

3

DIS

DIS

13

10

3

 a

 

    a

SIG out a

4

  aa , 3

4

3

3

R

ta có , do đó . Chuyển vòng lặp thứ 2 và tính:

4a

a a , 3 4

Chọn thuộc tính có độ quan trọng lớn nhất, và .

99

DIS

ADIS ) (

13

 

  aa , 3

4

Ta thấy , chuyển đến vòng lặp For thực hiện

DIS

ADIS ( )

DIS

ADIS ) (

kiểm tra tập R thu được.

    a

    a

4

3

R

Theo tính toán ở trên, và . Do đó

a a , 3 4

thuật toán kết thúc và là một rút gọn “tốt nhất” của A.

3.4.3. Thử nghiệm và đánh giá kết quả

Luận án chọn thuật toán MBAR tìm tập rút gọn của bảng quyết định

không đầy đủ sử dụng metric trong [2] và Thuật toán EIQBAR tìm tập rút gọn

sử dụng lượng thông tin mở rộng để so sánh với Thuật toán RBAR tìm tập rút

gọn sử dụng hàm quan hệ về thời gian thực hiện và kết quả thực hiện. Bởi vì:

- Tập rút gọn của Thuật toán RBAR (thuộc Nhóm 2) tối thiểu hơn tập

rút gọn của Thuật toán MBAR (thuộc Nhóm 3).

- Tập rút gọn của Thuật toán RBAR (thuộc Nhóm 2) tương đương với

tập rút gọn của Thuật toán EIQBAR (thuộc Nhóm 2).

Để tiến hành thử nghiệm, Ta thực hiện các công việc sau:

1) Cài đặt thuật toán MBAR, Thuật toán EIQBAR và Thuật toán RBAR

S

bằng ngôn ngữ C#. Thuật toán MBAR, Thuật toán EIQBAR sử dụng thuật toán

u i

B

iu U

trong [17] để tính các lớp dung sai với .

2) Trên máy tính PC với cấu hình Core i3 4150, 3 GB bộ nhớ RAM, sử

dụng hệ điều hành Windows 7, chạy thử nghiệm ba thuật toán với 6 bộ số liệu

U

C

lấy từ kho dữ liệu UCI [40]. (Mô tả bộ dữ liệu chi tiết tại mục 2.3.4)

R

Với mỗi bộ số liệu, giả sử là số đối tượng, là số thuộc tính điều

C

kiện, là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán

(đơn vị là giây s), các thuộc tính điều kiện được đánh số là 1, 2,…, . Kết

quả thực hiện của ba thuật toán được mô tả ở Bảng 3.8 và Bảng 3.9 như sau.

100

Bảng 3.8. Kết quả thực hiện thuật toán MBAR, Thuật toán EIQBAR và Thuật toán RBAR

Thuật toán

Thuật toán

Thuật toán

MBAR

EIQBAR

RBAR

U

C

STT

Bộ số liệu

t

t

t

R

R

R

Hepatitis.data

155

19

4

1.296

3

1.29

3

1.56

1

Lung-cancer.data

32

56

4

0.171

4

0.17

4

0.98

2

Automobile.data

205

26

8

1.687

6

1.68

6

1.92

3

Anneal.data

798

38

9

179

7

178

7

196

4

Congressional

435

16

15

16.7

15

16.73

15

18.45

5

Voting Records

Credit Approval

690

15

7

15.7

5

15.68

5

17.02

6

Bảng 3.9. Tập rút gọn của thuật toán MBAR, Thuật toán EIQBAR và Thuật toán RBAR Tập rút gọn của

Tập rút gọn của

Tập rút gọn của

STT

Tập dữ liệu

MBAR

EIQBAR

RBAR

Hepatitis.data

{1, 2, 4, 17}

{1, 2, 17}

{1, 2, 17}

1

Lung-cancer.data

{3, 4, 9, 43}

{3, 4, 9, 43}

{3, 4, 9, 43}

2

Automobile.data

{1, 8, 9, 13, 14, 20,

{1, 4, 13, 14, 20,

{1, 4, 13, 14, 20,

3

21, 24}

21}

21}

Anneal.data

{1, 3, 4, 5, 8, 9, 33,

{1, 3, 4, 5, 8, 9,

{1, 3, 4, 5, 8, 9,

4

34, 35}

34}

34}

Congressional

{1, 2, 3, 4, 5, 7, 8, 9,

{1, 2, 3, 4, 5, 7, 8,

{1, 2, 3, 4, 5, 7, 8,

5

Voting Records

10, 11, 12, 13, 14,

9, 10, 11, 12, 13,

9, 10, 11, 12, 13,

15, 16}

14, 15, 16}

14, 15, 16}

Credit Approval

{1, 2, 3, 4, 5, 6, 8}

{1, 3, 4, 5, 8}

{1, 3, 4, 5, 8}

6

101

Kết quả thử nghiệm cho thấy:

 Trên cả 6 bộ dữ liệu, tập rút gọn thu được bởi Thuật toán EIQBAR và

Thuật toán RBAR là như nhau. Điều này phù hợp với nghiên cứu lý thuyết,

phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng (Thuật toán

EIQBAR) và phương pháp rút gọn thuộc tính sử dụng hàm quan hệ (Thuật

toán RBAR) đều thuộc Nhóm 2.

 Trên các bộ số liệu nhất quán Lung-cancer.data, Congressional Voting

Records, tập rút gọn thu được bởi Thuật toán RBAR và Thuật toán MBAR là

như nhau. Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi

Thuật toán RBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán MBAR.

Điều này cũng phù hợp với kết quả nghiên cứu về lý thuyết.

 Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ

bản là tương đương nhau. Tuy nhiên, thời gian thực hiện của Thuật toán

RBAR lớn hơn thời gian thực hiện của Thuật toán EIQBAR. Bởi vì, độ phức

tạp thời gian của Thuật toán RBAR cao hơn so với Thuật toán EIQBAR. Sở

a

i

S  R

  u

dĩ cao hơn là vì Thuật toán EIQBAR sử dụng công thức cải tiến tính

Uui 

 R uS

i

với mọi khi đã được tính ở bước trước [17]. Còn Thuật toán 3.4

Uui 

 S u R i

tính ma trận quan hệ trực tiếp từ các lớp dung sai với mọi .

3.5. Kết luận chương 3

Chương 3 luận án đã thực hiện các nội dung nghiên cứu sau:

(1) Theo hướng tiếp cận rút gọn dữ liệu, chương 3 đề xuất kỹ thuật chọn

tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông tin

không đầy đủ và bảng quyết định không đầy đủ nhằm giảm thiểu thời gian

thực hiện các thuật toán tìm tập rút gọn trên các bảng quyết định có dung

lượng dữ liệu lớn. Kết quả này được công bố trong công trình [CT3].

102

(2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở

rộng và chứng minh phương pháp đề xuất thuộc Nhóm 2 (trong phân nhóm

các phương pháp rút gọn thuộc tính được trình bày ở Chương 2). Kết quả này

được công bố trong công trình [CT5].

(3) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ và

chứng minh phương pháp đề xuất cũng thuộc Nhóm 2 (trong phân nhóm các

phương pháp rút gọn thuộc tính được trình bày ở Chương 2). Kết quả này

được công bố trong công trình [CT4].

Các kết quả nghiên cứu này góp phần làm phong phú thêm về hướng

nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không

đầy đủ.

103

KẾT LUẬN

1) Những kết quả chính của luận án:

Luận án tập trung giải quyết bài toán rút gọn thuộc tính trong bảng quyết

định không đầy đủ ở bước tiền xử lý dữ liệu với các kết quả chính như sau:

(1) Phân nhóm các phương pháp rút gọn thuộc tính dựa vào kết quả nghiên

cứu mối liên hệ giữa các khái niệm tập rút gọn dựa trên nguyên tắc: các phương

pháp có tập rút gọn giống nhau được phân vào một nhóm. Luận án chỉ ra các

phương pháp rút gọn thuộc tính được phân thành bốn nhóm: Nhóm 1, Nhóm 2,

Nhóm 3, Nhóm 4. Luận án cũng nghiên cứu mối liên hệ giữa các tập rút gọn của

các nhóm phương pháp. Kết quả phân nhóm là cơ sở để đánh giá các phương

pháp rút gọn thuộc tính. Kết quả này được công bố trong công trình [CT1].

(2) Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định (độ chắc

chắn, độ nhất quán, độ hỗ trợ). Nghiên cứu sự thay đổi giá trị các độ đo đề xuất

trên các tập rút gọn của bốn nhóm phương pháp. Trên cơ sở đó, lựa chọn và

đánh giá các phương pháp rút gọn thuộc tính trong các nhóm dựa trên tiêu chuẩn

khả năng phân lớp của tập rút gọn. Kết quả này được công bố trong công trình

[CT2].

(3) Theo hướng tiếp cận rút gọn dữ liệu, luận án đề xuất kỹ thuật chọn

tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông tin

không đầy đủ và bảng quyết định không đầy đủ nhằm giảm thiểu thời gian

thực hiện các thuật toán tìm tập rút gọn trên các bảng quyết định có dung

lượng dữ liệu lớn. Kết quả này được công bố trong công trình [CT3].

(4) Đề xuất phương pháp mới rút gọn thuộc tính sử dụng lượng thông tin

mở rộng. Lượng thông tin mở rộng được xây dựng dựa trên khoảng cách Jaccard

giữa hai tập hợp hữu hạn. Chứng minh phương pháp đề xuất sử dụng lượng

thông tin mở rộng thuộc Nhóm 2. Kết quả này được công bố trong công trình

[CT5].

104

(5) Đề xuất phương pháp mới rút gọn thuộc tính sử dụng hàm quan hệ.

Hàm quan hệ được xây dựng theo ma trận quan hệ dựa trên tiếp cận ma trận

phân biệt trong lý thuyết tập thô truyền thống. Chứng minh phương pháp đề xuất

sử dụng hàm quan hệ cũng thuộc Nhóm 2. Kết quả này được công bố trong công

trình [CT4].

2) Hướng phát triển của luận án:

Tiếp tục nghiên cứu các phương pháp rút gọn thuộc tính trên bảng quyết

định không đầy đủ mới hiệu quả hơn.

Tiếp tục nghiên cứu và giải quyết bài toán rút gọn thuộc tính trong

trường hợp bổ sung và loại bỏ tập đối tượng, tập thuộc tính theo hướng tiếp

cận tính toán gia tăng bằng nhiều độ đo khác nhau nhằm tìm kiếm phương

pháp hiệu quả.

105

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

CT1 Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and Applications (FAIA), Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.

CT2 Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn của bảng quyết định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu cơ bản và ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr. 394-402.

CT3 Nguyễn Long Giang, Vũ Văn Định, “Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông tin không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VII - Nghiên cứu cơ bản và ứng dụng CNTT - FAIR7, Thái Nguyên, 20-21/06/2014, Tr. 51- 59.

CT4 Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing 7 (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp. 375-388.

CT5 Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang, “Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách phân hoạch”, Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí thông tinm khoa học công nghệ của bộ thông tin &Truyền thông Kỳ 3, Tập V-2, số 14(34), 2015.

106

TÀI LIỆU THAM KHẢO

[1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số và lôgic phát hiện luật

theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ

Thông Tin.

[2] Nguyễn Long Giang (2012), “Nghiên cứu các phương pháp khai phá

dữ liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện

Công Nghệ Thông Tin.

[3] Phùng Thị Thu Hiền (2014), “Nghiên cứu rút gọn tập thuộc tính trong

hệ quyết định giá trị tập”, Luận án Tiến sĩ Toán học, Học viện kỹ thuật

quân sự.

[4] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, “Một phương

pháp mới rút gọn thuộc tính trong bảng quyết định không đầy đủ sử

dụng metric”, Tạp chí Tin học và Điều khiển học, T.28, S.2, 2012, tr.

129-140.

[5] Nguyễn Long Giang, Vũ Đức Thi (2011), “Thuật toán tìm tất cả các rút

gọn trong bảng quyết định”, Tạp chí Tin học và Điều khiển học, T.27, S.3,

tr. 199-205.

[6] Nguyễn Long Giang, Vũ Văn Định,“Chọn tập đối tượng đại diện cho

bài toán rút gọn thuộc tính trong hệ thông tin không đầy đủ”,Kỷ yếu

Hội nghị khoa học Công nghệ Quốc gia lần thứ VII-Nghiên cứu cơ bản

và ứng dụng CNTT-FAIR7,Thái Nguyên, 20-21/06/2014,Tr.51-59.

[7] Nguyễn Long Giang, Vũ Văn Định, “Nghiên cứu sự thay đổi giá trị

các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn

của bảng quyết định không đầy đủ”, Kỷ yếu Hội nghị khoa học Công

nghệ Quốc gia lần thứ VI - Nghiên cứu cơ bản và ứng dụng CNTT -

FAIR6, Huế, 20-21/06/2013, Tr. 394-402.

107

Tài liệu tiếng Anh

[8] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices

and Functions in Information Systems”, Interlligent Decision

Support, Handbook of Applications and Advances of the Rough Sets

Theory, Kluwer, Dordrecht, pp. 331-362.

[9] Chen D.G, Zhao S.Y., Zhang L., Yang Y.P. and Zhang X. (2011),

“Sample pair selection for attribute reduction with rough set”, IEEE

Transaction on Knowledge and Data Engineering, 29 March 2011.

[10] Chin K.S., Liang J.Y. and Dang C.Y. (2003), “Rough Set Data

Analysis Algorithms for Incomplete Information Systems”,

Proceedings of the 9th international conference on Rough sets, fuzzy

sets, data mining, and granular computing, RSFDGrC'03, pp. 264-

268.

[11] Ge H., Li L.S and Yang C.J. (2009), “Improvement to Quick

Attribution Reduction Algorithm”, Journal of Computers, Vol.30,

No.2, pp. 308-312.

[12] Grzymala-Busse J.W (2011), “Mining Incomplete Data - A Rough Set

Approach”, RSKT 2011: 1-7.

[13] Hu X.H. and Cercone N. (1995), “Learning in relational databases: a

rough set approach”, International Journal of computational intelligence,

pp. 323-338.

[14] Hu X.H., Lin T.Y. and Han J.C. (2004), “A new rough sets model based

on database systems”, Fundamenta Informaticae, 59(1), pp. 135-152 .

[15] Huang B., He X. and Zhou X.Z. (2004), “Rough Computational

methods based on tolerance matrix”, Acta Automatica Sinica, Vol. 30,

Vab. 2004, pp. 363-370.

[16] Huang B., Li H. X. and Zhou X. Z. (2005), “Attribute Reduction

108

Based on Information Quantity under Incomplete Information

Systems”, Systems Application Theory & Practice, Vol. 34, pp. 55-60.

[17] Huasheng ZOU, Changsheng ZHANG, “Efficient Algorithm for

Knowledge Reduction in Incomplete Information System”, Journal of

Computational Information Systems 8: 6, 2012, pp. 2531-2538.

[18] Kryszkiewicz M. (1998), “Rough set approach to incomplete

information systems”, Information Science, Vol. 112, pp. 39-49.

[19] Lang G. M., Lia Q. G., Data compression of dynamic set-valued

information systems, CoRR abs/1209.6509, 2012.

[20] Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based

algorithm for attribute reduction under incomplete information

systems”, Computer Science, Vol. 33, pp. 169-171.

[21] Li J.H. and Shi K.Q. (2006), “A algorithm for attribute reduction

based on knowledge granularity”, Computer Applications, Vol. 26,

No. 6, pp. 76-77.

[22] Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based

algorithm for attribute reduction under incomplete information

systems”, Computer Science, Vol. 33, pp. 169-171.

[23] Liang J.Y. and Qian Y.H. (2006), “Axiomatic approach of knowledge

granulation in information system”, Lecture Notes in Artificial

Intelligence 4304, pp. 1074-1078.

[24] Liang J.Y. and Qian Y.H. (2008), “Information granules and entropy

theory in information systems”, Information Sciences, Vol. 51, pp. 1-

18.

[25] Liu Y., Xiong R. and Chu J. (2009), “Quick Attribute Reduction

Algorithm with Hash”, Chinese Journal of Computers, Vol.32, No.8,

pp. 1493-1499.

[26] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision

109

Tables”, Federated Conference on Computer Science and Information

System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp. 311-316.

[27] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute

Reduction in Incomplete Decision Tables”, Proceedings of 14th

International Conference, Rough Sets, Fuzzy Sets, Data Mining, and

Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture

Notes in Computer Science, SpingerLink, Vol. 8170, 2013, pp. 99-

110.

[28] Long Giang Nguyen, Van Dinh Vu, “Relationships Among the

Concepts of Reduct in Incomplete Decision Tables”, Frontiers in

Artificial Intelligence and Applications, Volume 252: Advanced

Methods and Technologies for Agent and Multi-Agent Systems, IOS

Press, 2013, pp. 417-426.

[29] Liang J.Y. and Xu Z.B. (2002), “The algorithm on knowledge

reduction in incomplete information systems”, International Journal

of Uncertainty, Fuzziness and Knowledge-Based Systems 10 (1), pp.

95-103.

[30] Luo P., He Q. and Shi Z.Z. (2005), “Theoretical study on a new

information entropy and its use in attribute reduction”, ICCI, pp. 73-79.

[31] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning

About Data, Kluwer Aca-demic Publishers.

[32] Pawlak Z. (1998), “Rough set theory and its applications to data

analysis”, Cybernetics and systems 29, pp. 661-688.

[33] Qian Y. H. , Dang C. Y., Liang J. Y., Zhang H. Y., Ma J. M., “On the

evaluation of the decision performance of an incomplete decision

table”, Data & Knowledge Engineering 65, 2008, pp. 373–400.

[34] Qian Y.H. and Liang J.Y. (2006), “Combination Entropy and

110

Combination Granulation in Incomplete Information System”, RSKT

2006, pp. 184-190.

[35] Qian Y.H. and Liang J.Y. (2008), “New method for measuring

uncertainty in incomplete information systems”, International Journal

of Uncertainty, Fuzziness and Knowledge-Based Systems.

[36] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008),

“Measures for Evaluating The Decision Performace of a Decision

Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-

202.

[37] Renpu Li, Dao Huang, “Reducts in incomplete decision tables”,

Proceedings of the First international conference on Advanced Data

Mining and Applications, ADMA’05, 2005, pp. 165-174.

[38] R.López de Mántaras (1991), “A distance-based attribute selection

measure for decision tree induction”, Machine Learning Vol. 6, pp.81-

92.

[39] Skowron A., Rauszer C., The Discernibility Matrices and Functions

in Information systems, Interlligent Decision Support, Handbook of

Applications and Advances of the Rough Sets Theory, Kluwer,

Dordrecht, 1992, pp. 331-362.

[40] The UCI machine learning repository,

http://archive.ics.uci.edu/ml/datasets.html

[41] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, "Generalized

Discernibility Function based Attribute Reduction in Incomplete

Decision Systems", Serdica Journal of Computing 7 (2013), Institute

of Mathematics and Informatics, Bulgarian Academy of Sciences, No

4, 2013, pp. 375-388.

[42] Wang B.Y. and Zhang S.M. (2007), “A Novel Attribute Reduction

111

Algorithm Based on Rough Set and Information Entropy Theory”,

2007 International Conference on Computational Intelligence and

Security Workshops, IEEE CISW, pp.81-84.

[43] Wang C.R. and OU F.F. (2008), “An Attribute Reduction Algorithm

in Rough Set Theory Based on Information Entropy”, 2008

International Symposium on Computational Intelligence and Design,

IEEE ISCID, pp. 3-6.

[44] Wang C. Z., Wua C. X., Chenb D. G., Duc W. J., Some properties of

relation information systems under homomorphisms, Applied

Mathematics Letters 21, 2008, pp. 940–945.

[45] Wang G.Y. (2001), “Algebra view and information view of rough sets

theory”, In: Dasarathy BV,editor. Data mining and knowledge discovery:

Theory, tools, and technology III, Proceedings of SPIE, pp. 200-207.

[46] Wang G.Y. (2003), “Rough reduction in algebra view and information

view”, International Journal of Intelligent System 18, pp. 679-688.

[47] Wang G.Y., Yu H. and Yang D.C. (2002), “Decision table reduction based

on conditional information entropy”, Journal of Computers, Vol. 25 No. 7,

pp. 759-766.

[48] Wang G.Y., Yu H., Yang D.C. and Wu Z.F. (2001), “Knowledge

Reduction Based on Rough Set and Information Entropy”, Proc. Of the

World Multi-conference on Systemics, Cybernetics and Informatics,

Orlando, Florida, pp. 555-560.

2

/

,

[49] Xu Z.Y., Liu Z.P., Yang B.R. and Song W. (2006), “A quick attribute

 Max O C U O C U C

reduction algorithm with complexity of ”,

 

Journal of Computers, Vol.29, No.3, pp. 391-399.

[50] Yao Y.Y., Zhao Y., Wang J., On reduct construction algorithms, Proceedings of International Conference on Rough Sets and

112

Knowledge Technology, 2006, pp. 297-304.

[51] Ye D.Y. and Chen Z.J. (2002), “A new discernibility matrix and

computation of a core”, Acta Electronica Sinica, Vol. 30, No. 7, pp.

1086-1088.

[52] Y. Leung, D.Y. Li, Maximal consistent block technique for rule acquisition in incomplete information systems, Information Sciences 153 (2003) 85–106.

[53] Zadeh L.A. (1997), “Towards a theory of fuzzy information

granulation and its centrality in human reasoning and fuzzy logic”,

Fuzzy Sets and System, 90, pp. 111-127.

[54] Zhao M., Luo K. and Qin Z. (2008), “Algorithm for attribute

reduction based on granular computing”, Computer Engineering and

Applications, Vol. 44, No. 30, pp. 157-159.

[55] Zhou, X.Z., Huang, B., “Rough Set-based Attribute Reduction under

Incomplete Information Systems”, Journal of Nanjing University of

Science and Technology, 27(2003), pp. 630-635.

[56] Zuqiang Meng, Zhongzhi Shi, “A fast approach to attribute reduction

in incomplete decision systems with tolerance relation-based rough

sets”, Information Sciences, Vol. 179, 2009, pp. 2774-2793.