B THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
CAO CHÍNH NGHĨA
NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GN THUỘC
TÍNH VÀ SINH LUT QUYẾT ĐỊNH THEO TIẾP CẬN TẬP
THÔ M
Chuyên ngành: Hệ thống thông tin
số: 62.48.01.04
TÓM TẮT LUẬN ÁN TIẾN SĨ K THUẬT
Hà Nội - 2017
Công trình được hoàn thành ti: Hc vin Công ngh Bưu chính
Vin thông
Người hướng dn khoa hc: GS. TS. Vũ Đức Thi
TS. Tân Hnh
Phn bin:.....................................................................
.....................................................................................
Phn bin:.....................................................................
.....................................................................................
Phn bin:.....................................................................
.....................................................................................
Lun án s được bo v trước Hội đồng cp Hc vin Công
ngh Bưu chính Vin thông chm lun án tiến sĩ họp ti..
.....................................................................................
vào hi gi ngày tháng năm
Có th tìm hiu lun án ti:
- Thư viện Quc gia Vit Nam
- Thư vin Hc vin Công ngh Bưu chính Vin thông
1
MỞ ĐẦU
Tính cấp thiết của luận án
Rút gn thuc tính sinh lut quyết đnh là hai bài toán quan
trng trong quá trình khám ptri thc t d liu. Rút gn thuc
tính ca bng quyết định quá trình la chn tp con nh nht ca
tp thuc tính điều kin, loi bc thuộc tính dư thừa bo toàn
thông tin phân lp ca bng quyết đnh, gi tp rút gn (reduct).
Kết qu rút gn thuc tính ảnh hưởng trc tiếp đến hiu qu thc
hin c nhim v khai phá: Gia ng tốc độ, ci thin chất lượng,
tính d hiu ca các kết qu thu được. Sinh lut quyết định bước
tiếp theo ca rút gn thuc tính trong khai pd liu nhm đánh
giá chất lượng phân lp ca d liệu thông qua độ h tr ca tp lut
quyết định.
thuyết tp thô m (Fuzzy rough set) do Dubois, D., và
Prade, H., đề xut s kết hp ca thuyết tp thô thuyết
tp m nhm xp x các tp m da trên mt quan h tương đương
m (fuzzy equivalent relation) được xác định trên min giá tr thuc
tính. Theo thuyết tp thô m, độ tương đương mờ của hai đối
tượng mt giá tr nm trong đoạn [0,1] cho thy tính gn nhau,
hay kh năng phân biệt giữa hai đối tượng. Do đó, quan hệ tương
đương mờ bo toàn s khác nhau giữa các đối tượng các phương
pháp rút gn thuc tính theo tiếp cn tp thô m có tim năng trong
vic bo toàn độ chính xác phân lp sau khi thc hiện các phương
pháp rút gn thuc tính.
Ch đề nghiên cu v rút gn thuc tính sinh lut quyết
định theo tiếp cn tp thô m đã thu hút s quan tâm ca các nhà
nghiên cu trong my năm gần đây. Lun án tp trung nghiên cu
trngm vào hai bài toán:
2
1) Bài toán th nht rút gn thuc tính ca bng quyết định
min giá tr thực trong bước tin x s liu.
2) Bài toán th hai rút gn thuc tính sinh lut quyết
định ca bng quyết định m.
Đối tượng nghiên cu ca lun án là các bng quyết định có
min giá tr thc bng quyết định m.
c kết qu đạt được ca lun án
1) Đề xuất các phương pháp rút gọn thuc tính trc tiếp trên
bng quyết định min giá tr thc theo tiếp cn tp thô m, bao
gm:
- Phương pháp rút gn thuc tính s dng miền dương mờ
nhm nhm khc phc mt s hn chế ca nhng công b trước
đây để tìm được mt tp rút gọn không thừa thuc tính bo
toàn miền dương mờ. Kết qu này công b trong công trình
[CCN1], [CCN2].
- Phương pháp rút gn thuc tính s dng khong cách
Jaccard mkhong cách phân hoch m. Thc nghim trên mt
s b d liu ly t kho d liu UCI chứng minh hai phương pháp
s dng khong cách m hiu qu hơn các phương pháp đã công
b trên c hai tiêu chí: Độ chính xác phân lp thi gian thc
hin trên mt s b d liu thc nghim. Các kết qu này công b
trong công trình [CCN3], [CCN4].
2) Đề xut phương pháp rút gn thuc tính và sinh lut trong
bng quyết định m theo tiếp cn tp thô mờ. Phương pháp rút gọn
thuc tính s dng miền dương m được công b trong công trình
[CCN2], phương pháp sinh h lut m trên bng quyết định m s
dng khong cách Jaccard m được công b trong [CCN5]. Bng lý
thuyết thc nghim chứng minh phương pháp đề xuất tương
3
đương vi các phương pháp khác trên tiêu chí độ chính xác phân lp
d liu.
B cc ca lun án gm phn m đầu và bốn chương ni
dung, phn kết lun danh mc các tài liu tham kho. Chương 1
trình y mt s khái nim bản v thuyết tp thô tng quan
v bài toán rút gn thuc nh mà lun án tp trung nghiên cu.
Chương 2 trình bày các kết qu nghiên cu v các phương pháp rút
gn thuc tính trong bng quyết đnh min giá tr thc s dng min
dương m và khong cách Jaccard m. Chương 3 trình bày kết qu
nghiên cu v phương pháp rút gọn thuc tính trong bng quyết định
min giá tr thc s dng khong cách phân hoch m. Cơng 4
trình bày phương pp rút gn thuc tính sinh lut quyết đnh
ca bng quyết đnh m.
CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ
1.1. Mt s khái nim v tp thô
H thông tin mt cp
,
IS U A
trong đó
U
tp hu hn
khác rỗng các đối tượng gi tp vũ tr;
A
tp hu hn khác
rng các thuc tính.
Cho h thông tin
,
IS U A
và tập đối tượng
X U
. Vi mt
tp thuc tính
P A
cho trước, xác định được các lớp tương đương
ca phân hoch
/
U P
. Có hai cách xp x tập đối tượng X thông
qua tp thuc tính P, được gi là P-xp x dướiP-xp x trên ca
X, ký hiu lần lượt là
PX
PX
, được xác định như sau:
,
P
PX u U u X
P
PX u U u X
Tp
PX
bao gm tt c các phn t ca U chc chn thuc
vào X, còn tp
PX
bao gm các phn t ca U có kh năng thuộc
vào X da vào tp thuc tính P.