YOMEDIA
ADSENSE
Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ
31
lượt xem 1
download
lượt xem 1
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Bài viết trình bày các nội dung chính sau: Rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số, phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
<br />
Về phƣơng pháp rút gọn thuộc tính trong bảng<br />
quyết định với miền trị thuộc tính nhận giá trị<br />
số theo tiếp cận tập thô mờ<br />
Fuzzy Rough Set based Attribute Reduction in Numeric Domain<br />
Decision Tables<br />
Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Nhƣ Sơn<br />
<br />
Abstract: Attributes reduction based on rough set tươ g ứ g 39.5 độ v 39.6 độ được rời rạ hó<br />
is interesting research area. However, the attributes th h một gi t ị “Nhiệt độ cao”. T ê ảng quyết định<br />
reduction algorithms based on rough set is done on mới, h i đối tượng x v y ó gi t ị bằ g h u t ê<br />
the discrete domain decision tables (that is applied thuộ t h "Nhiệt độ cơ thể” v khô g ả t được<br />
discretization methods). In recent years, some sự kh h u 0.1 độ t ê ảng quyết đị h đầu.<br />
researchs on fuzzy rough set based directly attribute D đó, phươ g ph p ời rạ hó dữ liệu khô g ảo<br />
reduction in numeric domain decision tables have t “ gữ ghĩ ” ủa dữ liệu gố v ó thể m giảm<br />
been studied. This paper proposes fuzzy rough set độ h h x phâ ớp t ê dữ liệu gố . Để giải quyết<br />
based directly attribute reduction method in numeric i t út gọn thuộ t h t ực tiếp t ê ảng<br />
domain decision tables. The experiment results quyết đị h ó miền trị thuộ t h hậ gi t ị số, iê<br />
showed that the fuzzy rough set method has better tục nhằm khắc phụ hượ điểm t ê , t g mấy ăm<br />
classification accuracy than rough set theory. gầ đây ô g t ì h ghiê ứu đề xuất hướng tiếp<br />
cận mới sử dụ g ý thuyết tập thô mờ<br />
Keywords: rough set, fuzzy rough set, decision<br />
table, fuzzy similarity relation, attribute reduction, Lý thuyết tập thô mờ (Fuzzy Rough Set) do D.<br />
reduct. Du is v ộng sự [4, 5] đề xuất mở ra một hướng<br />
ghiê ứu mới về út gọn thuộ t h t ê ảng<br />
I. GIỚI THIỆU quyết định mờ v ảng quyết đị h ó miền trị<br />
Rút gọn thuộ t h i t u t ọ g trong thuộ t h nhậ gi t ị số, iê tục. Lý thuyết tập thô<br />
ước tiền xử ý số liệu với mụ tiêu ại bỏ mờ sự kết hợp củ ý thuyết tập thô [13] v ý thuyết<br />
thuộ t h dư thừa nhằm â g t h hiệu quả của tập mờ [11] nhằm xấp xỉ tập mờ dự t ê một<br />
thuật t kh i ph dữ liệu. Lý thuyết tập thô [13] quan hệ tươ g tự (simi ity e ti ) đượ x định<br />
ô g ụ hiệu quả giải quyết i t út gọn thuộc t ê miề gi t ị thuộ t h. T g ý thuyết tập thô,<br />
t h t g ảng quyết đị h v được cộ g đồ g ghiê h i đối tượ g tươ g đươ g t ê tập thuộ t h R,<br />
cứu về tập thô thực hiệ âu y. Để thực hiệ h y độ tươ g tự 1, ếu gi t ị thuộ t h ủ hú g<br />
phươ g ph p út gọn thuộ t h the tiếp cận tập thô, bằ g h u t ê tất cả thuộ t h t g R. Ngược<br />
thuộ t h ó miền gi t ị số, iê tục cầ được rời lại, hú g khô g tươ g đươ g, h y độ tươ g tự 0.<br />
rạ hó . Tuy hiê , phươ g ph p ời rạ hó dữ T g ý thuyết tập thô mờ, quan hệ tươ g tự thay thế<br />
liệu khô g ả t được sự kh h u đầu giữa quan hệ tươ g đươ g hằm x đị h độ tươ g tự của<br />
gi t ị thuộ t h. V dụ, với thuộ t h “Nhiệt độ h i đối tượ g. Độ tươ g tự một gi t ị nằm trong<br />
cơ thể”, giả sử h i đối tượng x v y ó hiệt độ ơ thể khoảng [0, 1] cho thấy t h gầ h u, h y t h tươ g<br />
<br />
<br />
- 40 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
tự, củ h i đối tượ g. C ghiê ứu iê u đến T g i y, hú g tôi đề xuất thuật t<br />
út gọn thuộ t h the tiếp cận tập thô mờ tập trung heu isti út gọn thuộ t h t g ảng quyết đị h ó<br />
v h i hướ g h h: hướng thứ nhất sử dụng tập miền trị thuộ t h nhậ gi t ị số sử dụ g độ phụ<br />
thô mờ để giải quyết i t út gọn thuộ t h t ê thuộc mờ của thuộ t h t g tập thô mờ. Thuật t<br />
ảng quyết định mờ (bảng quyết định với gi t ị đề xuất tìm một tập út gọn tốt nhất the tiêu huẩn<br />
thuộ t h tập mờ) t ước khi thực hiệ thuật chất ượng phâ ớp (độ quan trọng của thuộ t h), d<br />
t t h ọc hệ luật mờ với ô g ố điể hì h đó hiệu quả hơ ô g ố trong [1, 2, 3, 21, 22, 23,<br />
[6, 7, 8, 15, 18, 19, 20, 24]; hướng thứ hai giải quyết 25]. Do sử dụ g độ phụ thuộc mờ củ thuộ t h<br />
i t út gọn thuộ t h t ực tiếp t ê ảng ê thuật t đề xuất ó khối ượ g t h t hỏ hơ<br />
quyết đị h ó miền trị thuộ t h nhậ gi t ị số, đây thuật t t g [8, 17] sử dụ g ô g thức entropy<br />
hướ g ghiê ứu củ i y. Shannon mờ. Kết quả thử nghiệm t ê một số bộ số<br />
The hướng tiếp cậ út gọn thuộ t h t ực tiếp liệu cho thấy, phươ g ph p đề xuất ó độ h h x<br />
tê ảng quyết đị h ó miền trị thuộ t h nhận phâ ớp tốt hơ s với phươ g ph p sử dụ g độ phụ<br />
gi t ị số, t ước hết một quan hệ tươ g tự đượ định thuộc của thuộ t h the tiếp cậ ý thuyết tập thô<br />
ghĩ t ê miề gi t ị thuộ t h. Tiếp the , m truyền thố g. Hơ ữ , phươ g ph p đề xuất ó độ<br />
trận quan hệ đượ xây dựng. Ma trận quan hệ cho h h x phâ ớp tốt hơ phươ g ph p dự t ê<br />
phép x định gi t ị h m thuộc củ đối tượ g đối entropy Shannon mờ trong [8, 17]. Cấu t ú i<br />
với mỗi lớp tươ g tự mờ. Từ đó, h m thuộc củ hư s u. Phầ 2 t ì h y một số kh i iệm ơ ản<br />
tập xấp xỉ dưới mờ, xấp xỉ t ê mờ, miề dươ g mờ t g ý thuyết tập thô mờ. Phầ 3 t ì h y phươ g<br />
đượ t h dự v t tử xấp xỉ t g ý thuyết ph p út gọn thuộ t h sử dụ g độ phụ thuộc mờ của<br />
tập thô mờ [4, 5]. T ê ơ sở đó, phươ g ph p út thuộ t h the tiếp cận tập thô mờ. Phần 4 t ì h y<br />
gọn thuộ t h đượ xây dựng dự t ê ền tảng mở kết quả thử nghiệm. Cuối ù g kết luậ v hướng<br />
rộng phươ g ph p út gọn thuộ t h the tiếp cận ph t t iển tiếp theo<br />
tập thô t uyền thố g. Đó g góp u t ọng về hướng<br />
II. CÁC KHÁI NIỆM CƠ BẢN<br />
ghiê ứu y phải kể đế ô g t ì h [1, 2, 3, 21,<br />
22, 23, 25]. T g ô g t ì h y, t giả xây Phầ y t ì h y một số kh i iệm ơ ả t g<br />
dựng ma trận phâ iệt mờ dự t ê m t ận quan hệ ý thuyết tập thô t uyề thố g ủ P w k [13] v ý<br />
v đề xuất thuật t tìm tất cả tập út gọn bằng thuyết tập thô mờ d D. Du is v ộ g sự [4, 5]<br />
h mở rộ g phươ g ph p út gọn thuộ t h dự t ê đề xuất.<br />
ma trậ phâ iệt t g ý thuyết tập thô t uyền thống. Mô hì h tập thô t uyền thố g d P w k [13] đề<br />
Tuy hiê , t giả hư ô g ố thuật t xuất dự t ê u hệ tươ g đươ g để xấp xỉ tập hợp.<br />
heuristic tìm một tập út gọn tốt nhất dự t ê tiêu Xét ảng quyết định DS U , C D , Mỗi tập thuộc<br />
chuẩn chất ượ g phâ ớp h y độ quan trọng của t h PC x định một quan hệ tươ g đươ g<br />
thuộ t h. T g ô g t ì h [8, 17], t giả xây<br />
dự g phươ g ph p út gọn thuộ t h dự t ê <br />
IND P u, v U U a P, a u a v . Nếu<br />
<br />
entropy Shannon. C t giả t g [8, 17] ũ g mi h u, v IND P thì u v v khô g phâ iệt được nhau<br />
chứng bằng thực nghiệm rằ g, phươ g ph p út gọn bởi thuộ t h t g P. Ký hiệu lớp tươ g đươ g<br />
thuộ t h the tiếp cận tập thô mờ ó độ h h x chứ đối tượng u u P , khi đó<br />
phâ ớp tốt hơ phươ g ph p út gọn theo tiếp cậ ý<br />
thuyết tập thô t uyền thống (sau khi rời rạ hó dữ u P v U u, v IND P . Với X U , tập<br />
liệu) t ê một số bộ dữ liệu thử nghiệm.<br />
<br />
CX u U u C X v CX u U u C X tươ g <br />
<br />
- 41 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
ứng gọi C-xấp xỉ dưới, C-xấp xỉ trên của X. Ta gọi với x y R x, y , khi đó tập mờ xấp xỉ dưới<br />
R<br />
tập POSC ( D) CX C-miền dương của D. Dễ R F v tập mờ xấp xỉ t ê R F đượ viết ại hư<br />
X U / D<br />
<br />
thấy POSC ( D) tập đối tượng trong U đượ phâ sau:<br />
lớp đú g v ớp của U / D sử dụng tập thuộ t h C.<br />
Độ phụ thuộc của tập thuộ t h C v tập thuộ t h D<br />
yU<br />
<br />
R F x inf max 1 x y , F y <br />
R<br />
(3)<br />
<br />
t g ý thuyết tập thô t uyền thố g, ký hiệu C D ,<br />
yU<br />
<br />
R F x sup min x y , F y <br />
R<br />
(4)<br />
đượ đị h ghĩ hư s u:<br />
Cặp R F , R F đượ gọi tập thô mờ. Dễ thấy<br />
POSC D <br />
k C D ằ g một tập hợp (tập õ) ất kỳ X U ó thể xem<br />
U<br />
một tập mờ, h m thuộ X y 1 với y X v<br />
với S ự ượ g ủ tập S. Nếu k =1 thì D phụ thuộ<br />
X y 0 với y X . Mô hì h tập thô mờ ó thể xem<br />
h t v C. Nếu 0 k 1 , D phụ thuộ ộ phậ<br />
việ sử dụ g u hệ tươ g tự để xấp xỉ tập mờ<br />
v C. Tiếp the , hú g tôi t ì h y kh i iệm t ê<br />
(h ặ tập õ) ằ g tập mờ xấp xỉ dưới v tập mờ xấp<br />
t g ý thuyết tập thô mờ t g [4, 5].<br />
xỉ t ê .<br />
T g mô hì h tập thô mờ, một u hệ tươ g tự<br />
Ch ả g uyết đị h ó miề t ị thuộ t h hậ<br />
(similarity relation) đượ sử dụ g th y thế u hệ<br />
gi t ị số DS U , C D với U u1,..., un ,<br />
tươ g đươ g để xấp xỉ tập mờ. Cho U tập<br />
đối tượ g, một u hệ R đượ đị h ghĩ t ê U đượ C c1,..., cm . Giả sử một u hệ tươ g tự R ất kỳ<br />
gọi u hệ tươ g tự ếu R thỏ mã t h hất: x đị h t ê miề gi t ị ủ thuộ t h điều kiệ<br />
t h phả xạ ( ef exive) R x, x 1 , t h đối xứ g c C . T ký hiệu ck u hệ R x đị h t ê thuộ<br />
(symetric) R x, y R y, x v t h ắ ầu sup-min t h điều kiệ ck C, k 1..m . Khi đó, kh i iệm miề<br />
(sup-min transitive) R x, z min R x, y , R y, z ) với dươ g POSC D t g ý thuyết tập thô t uyề thố g<br />
mọi x, y, z U . Qu hệ tươ g tự R x đị h một phâ đượ mở ộ g th h kh i iệm miề dươ g mờ ủ<br />
h ạ h mờ t ê U, ký hiệu U / R x R x U , trong tập thuộ t h D đối với tập thuộ t h C dự t ê u<br />
hệ R, ký hiệu POSC D . POSC D một tập mờ<br />
đó x R một ớp tươ g đươ g mờ tươ g ứ g với đối<br />
m h m thuộ ủ đối tượ g x U đượ đị h ghĩ<br />
tượ g x, h m thuộ đượ x đị h ởi ô g thứ<br />
như s u [18].<br />
x y R x, y R x, y với mọi y U .<br />
POS x sup C X x <br />
R<br />
<br />
D (5)<br />
Giả sử F một tập mờ v R một u hệ tươ g C<br />
X U / D<br />
<br />
tự x đị h t ê U, khi đó tập mờ xấp xỉ dưới R F v Dự t ê kh i iệm miề dươ g mờ, độ phụ thuộ<br />
tập mờ xấp xỉ t ê R F ủ F tập mờ v h m ủ tập thuộ t h điều kiệ C v tập thuộ t h uyết<br />
đị h D dự t ê u hệ R đượ đị h ghĩ the tiếp<br />
thuộ ủ đối tượ g x U đượ x đị h hư s u:<br />
ậ tập thô mờ hư s u [18].<br />
R F x inf max 1 R x, y , F y (1)<br />
yU POS D x xU POS D x <br />
C D <br />
R F x sup min R x, y , F y <br />
C C (6)<br />
(2) U U<br />
yU<br />
<br />
The hướ g tiếp ậ út gọ thuộ t h t ự tiếp<br />
tê ả g uyết đị h thuộ t h số, m t ậ u<br />
<br />
<br />
- 42 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
hệ x đị h t ê thuộ t h ck m t ậ vuô g ấp n giả t g [8] ũ g xây dự g thuật t heu isti tìm<br />
đượ đị h ghĩ hư s u [21] một tập út gọ tốt hất dự t ê ượ g thô g ti tă g<br />
thêm mờ. T g ả h i ô g t ì h [8, 17], t giả<br />
<br />
M ck mijck <br />
nn đều hứ g mi h ằ g thự ghiệm ằ g út gọ thuộ<br />
t h the tiếp ậ thô mờ ó độ h h x phâ ớp tốt<br />
với mijc ck ui , u j , i 1..n, j 1..n . Ở đây, ck ui , u j <br />
k<br />
<br />
hơ út gọ thuộ t h the tiếp ậ ý thuyết tập thô<br />
gi t ị ủ u hệ giữ hai đối tượ g ui v u j . Khi t uyề thố g. Tuy hiê , hượ điểm ủ h i phươ g<br />
đó, m t ậ u hệ mờ x đị h t ê tập thuộ t h ph p y đều sử dụ g ô g thứ e t py Sh<br />
điều kiệ C đượ đị h ghĩ [21] để xây dự g đị h ghĩ tập út gọ , d đó thời<br />
gi thự hiệ kém hiệu uả d phải t h t iểu<br />
<br />
M C mijC <br />
nn thứ g it. T g i y, hú g tôi sử dụ g độ<br />
phụ thuộ mờ ủ thuộ t h th y h độ đ e t py<br />
k 1.. m<br />
<br />
với mijC min mijc min mijc , mijc ,..., mijc<br />
k 1 2 m<br />
Sh để đị h ghĩ tập út gọ v xây dự g thuật<br />
t heu isti tìm một tập út gọ tốt hất. Vì độ phụ<br />
Dễ thấy ằ g, với phầ tử mijC ủ m tậ M C thuộ mờ ủ thuộ t h khô g phải t h t iểu<br />
t ó mijC C ui , u j , i 1..n, j 1..n , với thứ g it ê hiệu uả hơ phươ g ph p dự<br />
t ê e t py Sh t g [8, 17]. Chú g tôi ũ g<br />
C ui , u j C ui , u j ui u j . Từ m t ậ<br />
C<br />
M C hứ g mi h ằ g thự ghiệm ằ g phươ g ph p đề<br />
h phép x đị h đượ ớp tươ g đươ g mờ xuất ó độ h h x phâ ớp hơ phươ g<br />
m C<br />
m C<br />
ph p dự t ê e t py Sh t g [8, 17].<br />
ui C ... <br />
i1 i1 thuộ phâ h ạ h mờ<br />
u1 un Tươ g tự phươ g ph p út gọ thuộ t h t g ý<br />
U / C ui C ui U . Khi đó, h m thuộ ủ tập thuyết tập thô t uyề thố g, phươ g ph p đề xuất<br />
mờ xấp xỉ dưới, tập mờ xấp xỉ t ê , miề dươ g mờ ó gồm ướ : đị h ghĩ tập út gọ dự t ê độ phụ<br />
thể đượ t h dự v ô g thứ (3), (4), (5) tươ g thuộ mờ ủ thuộ t h, đị h ghĩ độ u t ọ g ủ<br />
ứ g v từ đó t h đượ độ phụ thuộ ủ tập thuộ t h thuộ t h đặ t ư g h hất ượ g phâ ớp ủ<br />
điều kiệ C v tập thuộ t h uyết đị h D the ô g thuộ t h v xây dự g thuật t heu isti tìm tập út<br />
thứ (6). gọ tốt hất dự t ê tiêu huẩ độ u t ọ g ủ<br />
thuộ t h.<br />
III. RÚT GỌN THUỘC TÍNH TRONG BẢNG Định nghĩa 1. Cho bảng quyết định DS U ,C D ó<br />
QUYẾT ĐỊNH VỚI MIỀN TRỊ THUỘC TÍNH<br />
miề t ị thuộ t h hậ gi t ị số , một u hệ tươ g tự<br />
NHẬN GIÁ TRỊ SỐ<br />
R đượ x đị h t ê miề gi t ị ủ thuộ t h. Với<br />
Như đã t ì h y ở phầ I, t ê ớp i t út gọ P C , nếu<br />
thuộ t h t ự tiếp t ê ả g uyết đị h với miề t ị<br />
1) P ( D) C ( D)<br />
thuộ t h hậ gi t ị số the hướ g tiếp ậ heuristic<br />
sử dụ g tập thô mờ, t g ô g t ì h [17], t giả 2) p P, P p ( D) C ( D)<br />
<br />
đã đị h ghĩ tập út gọ dự t ê e t py Sh<br />
mờ v xây dự g thuật t heu isti tìm một tập út thì P một tập út gọ ủ C dự t ê độ phụ thuộ<br />
gọ tốt hất dự t ê e t py Sh mờ. T g mờ ủ thuộ t h.<br />
ô g t ì h [8], t giả đị h ghĩ tập út gọ dư Từ Đị h ghĩ 1, dễ thấy ằ g tập út gọ dự t ê<br />
t ê độ đ ượ g thô g ti tă g thêm mờ (fuzzy độ phụ thuộ mờ ủ thuộ t h tươ g đươ g với tập<br />
information gain). Lượ g thô g ti tă g thêm mờ út gọ dự t ê miề dươ g mờ, tập út gọ dự t ê<br />
đượ xây dự g dự t ê e t py Sh mờ. C t<br />
<br />
- 43 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
miề dươ g mờ mở ộ g tập út gọ dự t ê miề Ví dụ 1. Xét ả g uyết đị h ó miề gi t ị thuộ<br />
dươ g ủ P w k the tiếp ậ ý thuyết tập thô mờ. t h số DS U , C d h ở Bả g 1 với<br />
Định nghĩa 2. Cho bảng quyết định DS U , C D ó U u1 , u2 , u3 , u4 , u5 , u6 , C c1 , c2 , c3 , c4 , c5 , c6 .<br />
miề gi t ị thuộ t h số v u hệ tươ g tự R x đị h<br />
Bảng 1. Bảng quyết định mô tả Ví dụ 1<br />
t ê miề gi t ị thuộ t h. Với B C , độ u t ọ g<br />
mờ ủ thuộ t h b C B đối với tập thuộ t h B c1 c2 c3 c4 c5 c6 d<br />
đượ đị h ghĩ : u1 0.8 0.2 0.6 0.4 1 0 No<br />
<br />
SIGB b Bb D B D (7) u2 0.8 0.2 0 0.6 0.2 0.8 Yes<br />
u3 0.6 0.4 0.8 0.2 0.6 0.4 No<br />
Độ u t ọ g ủ thuộ t h đặ t ư g h hất<br />
u4 0 0.4 0.6 0.4 0 1 Yes<br />
ượ g phâ ớp ủ thuộ t h điều kiệ v thuộ t h<br />
uyết đị h v đượ sử dụ g m tiêu huẩ ự họ u5 0 0.6 0.6 0.4 0 1 Yes<br />
thuộ t h h thuật t heu isti tìm tập út gọ s u u6 0 0.6 0 1 0 1 No<br />
đây.<br />
Giả sử t ê miề gi t ị ủ thuộ t h ck C , quan<br />
Thuật toán F_RSAR (Fuzzy Rough Set based<br />
Attribute Reduction). Thuật t heu isti tìm một tập hệ tươ g tự ck đượ đị h ghĩ hư s u [8]<br />
út gọ sử dụ g độ phụ thuộ mờ ủ thuộ t h. ck ui ck u j ck ui ck u j <br />
1 4 * , 0.25 (8)<br />
Đầu vào: Bả g uyết đị h gi t ị thuộ t h số ck (ui , u j ) max(ck ) min(ck ) max(ck ) min(ck )<br />
<br />
DS U , C D , một u hệ tươ g tự R đượ x 0, otherwise<br />
<br />
đị h t ê miề gi t ị thuộ t h. Với max ck , min ck tươ g ứ g gi t ị ớ<br />
Đầu ra: Một tập út gọ tốt hất P . hất v gi t ị hỏ hất ủ miề gi t ị thuộ t h ck<br />
1. P ; Áp dụ g ướ ủ Thuật t F_RSAR tìm một<br />
2. D 0 ; tập út gọ ủ ả g uyết đị h. T ướ hết, t h<br />
thuộ t h điều kiệ M c1 ,<br />
3. T h m t ậ u hệ M C ; m t ậ u hệ t ê<br />
<br />
4. T h C D ; <br />
M c2 , M c3 , M c4 , M c5 , M c6 . Từ đó, t h m <br />
5. While P D C D do tậ M C : <br />
6. Begin<br />
1 0 0 0 0 0<br />
For c C P t h 0 0 <br />
7.<br />
1 0 0 0<br />
SIGP c Pc D P D ; 0 0 1 0 0 0<br />
M (C ) <br />
8. Chọ cm C P sao cho 0 0 0 1 0 0<br />
0 0<br />
SIGP cm Max SIGP c ;<br />
0 0 0 1<br />
cC P<br />
<br />
0 0 0 0 0 1<br />
9. P P cm ;<br />
T ó U / d u1 , u3 , u6 , u2 , u4 , u5 . Xét<br />
10. T h P D ;<br />
X u1 , u3 , u6 , xấp xỉ mờ dưới C X tập mờ với<br />
11. End;<br />
12. Return P; h m thuộ ủ x U t h ởi<br />
<br />
1 3 6<br />
<br />
Cu ,u ,u x inf max 1 x y , u ,u ,u y <br />
yU C 1 3 6<br />
<br />
- 44 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
Từ m t ậ M C t ó đó thuật t dừ g v P c1, c4 một tập út gọ tốt<br />
hất ủ ả g uyết đị h DS.<br />
1 0 0 0 0 0<br />
u1 C Thuật t F_RSAR tìm đượ một tập út gọ ủ<br />
u1 u2 u3 u4 u5 u6<br />
ả g uyết đị h dự t ê độ u t ọ g ủ thuộ t h<br />
D đó C u ,u ,u u1 inf 1,1,1,1,1,1 1 , tươ g (đặ t ư g h hất ượ g phâ ớp ủ thuộ t h)<br />
1 3 6<br />
ê hiệu uả hơ thuật t tìm tất ả tập út<br />
tự t ó Cu ,u ,u u2 0 , Cu ,u ,u u3 1 ,<br />
1 3 6 1 3 6 gọ the hướ g tiếp ậ m t ậ phâ iệt t g<br />
Cu ,u ,u u4 0 , Cu ,u ,u u5 0 ,<br />
1 3 6<br />
ô g t ì h [1, 2, 3, 21, 22, 23, 25]. Thuật t<br />
1 3 6<br />
F_RSAR sử dụ g độ phụ thuộ ủ thuộ t h để tìm<br />
Cu ,u ,u u6 1 ,<br />
1 3 6<br />
Cu ,u ,u u1 0 ,<br />
2 4 5<br />
tập út gọ , d đó ó khối ượ g t h t hỏ hơ<br />
thuật t the hướ g tiếp ậ e t py Sh t g<br />
Cu ,u ,u u2 1 , Cu ,u ,u u3 0 ,<br />
2 4 5 2 4 5 [8, 17]. Dễ thấy ằ g, tập út gọ thu đượ ủ Thuật<br />
Cu ,u ,u u4 1 Cu ,u ,u u5 1 , t F_RSAR ả t miề dươ g mờ. Phầ tiếp<br />
the , hú g tôi tiế h h thử ghiệm phươ g ph p đề<br />
2 4 5 2 4 5<br />
<br />
<br />
Cu ,u ,u u6 0 .<br />
2 4 5<br />
xuất t ê một số ộ dữ iệu thử ghiệm để m õ h i<br />
vấ đề s u: 1) T h hiệu uả ủ hướ g tiếp ậ tập<br />
Từ đó, h m thuộ ủ đối tượ g đối với miề<br />
thô mờ s với hướ g tiếp ậ tập thô t uyề thố g về<br />
dươ g mờ POSC d :<br />
độ h h x phâ ớp s u khi út gọ thuộ t h; 2)<br />
<br />
<br />
POS d u1 sup Cu ,u ,u u1 , Cu ,u ,u u1 1 ,<br />
C 1 3 6 2 4 5<br />
T h hiệu uả ủ thuật t đề xuất với thuật t<br />
t g ô g t ì h [8] về độ h h x phâ ớp.<br />
POS d u2 1 , POS d u3 1 , POS d u4 1 ,<br />
C C C<br />
VI. KẾT QUẢ THỰC NGHIỆM<br />
POS d u5 1 , POS d u6 1 . Từ đó: Chú g tôi họ 8 ộ dữ iệu mẫu từ ấy từ kh dữ<br />
C C<br />
<br />
<br />
C d 1 iệu UCI [26] ó miề t ị thuộ t h hậ gi t ị số h<br />
ở Bả g 2 để tiế h h thử ghiệm. Môi t ườ g thử<br />
Áp dụ g ướ ủ Thuật t F_RSAR t ó ghiệm m y t h PC với ấu hì h Pe tium du e<br />
c<br />
1<br />
d 0.167 , d 0 , c2<br />
c 3<br />
d 0.167 , 2.13 GHz CPU, 1GB ộ hớ RAM, sử dụ g hệ điều<br />
h h Wi d ws 7.<br />
c d 0.5 , d 0.467 , c5<br />
c d 0.467 .<br />
4 6<br />
Bảng 2. Bộ số liệu thử nghiệm<br />
Chọ thuộ t h c4 ó độ u tọ g ớ hất v TT Bộ dữ liệu Số thuộc tính Số đối<br />
P c4 . Thự hiệ vò g ặp Whi e. Xét thuộ điều kiện tƣợng<br />
1 Ecoli 7 336<br />
t h c1 t ó: 2 Ionosphere 34 351<br />
3 Wdbc 30 569<br />
SIGc c1 c ,c d c d 1 0.5 0.5 . Tươ g tự 4 Wpbc 33 198<br />
4 4 1 4<br />
5 Wine 13 178<br />
SIGc c2 0.5 , SIGc c3 0 , SIGc c5 0.5 , 6 Glass 9 214<br />
4 4 4<br />
<br />
<br />
SIGc c6 0.5 . Khô g mất t h tổ g u t, họ<br />
7 Magic04 10 19020<br />
4 8 Page-blocks 10 5473<br />
thuộ t h c1 ó độ u tọ g ớ hất v<br />
T ướ hết, hú g tôi tiế h h thử ghiệm hằm<br />
P c1, c4 . Khi đó t ó c ,c<br />
1 4<br />
d 1 d , do C<br />
đ h gi độ h h x phâ ớp t ê ộ số iệu<br />
<br />
<br />
- 45 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
mẫu s u khi thự hiệ thuật t F_RSAR v thuật Bảng 3. Kết quả thử nghiệm rút gọn thuộc tính theo tiếp<br />
t út gọ thuộ t h sử dụ g độ phụ thuộ ủ cận tập thô và tập thô mờ<br />
thuộ t h t g ý thuyết tập thô t uyề thố g (gọi tắt Rút gọn thuộc tính Rút gọn thuộc tính theo<br />
thuật t RSAR). Để tiế h h thử ghiệm, hú g theo tiếp cận tập thô tiếp cận tập thô mờ<br />
(RSAR) (F_RSAR)<br />
tôi thự hiệ ô g việ s u:<br />
S R Độ Độ R Độ Độ<br />
Bộ số U C<br />
- C i đặt thuật t ời ạ hó dữ iệu ằ g phươ g T chính chính chính chính<br />
liệu<br />
ph p e u -width [12], thuật t RSAR, thuật t T xác xác xác xác<br />
phân phân phân phân<br />
F_RSAR sử dụ g u hệ tươ g tự t g [8], thuật<br />
lớp lớp lớp lớp<br />
t phâ ớp SVM [9], C4.5 [10] ằ g ô g ụ J v . SVM C4.5 SVM C4.5<br />
<br />
- Thự hiệ thuật t ời ạ hó equal-width v 1 Ecoli 336 7 50.851 0.819 7 0.865 0.855<br />
<br />
thuật t RSAR để tìm tập út gọ the tiếp ậ tập 2 Ionos 351 3 10.814 0.802 15 0.937 0.915<br />
phere 4 0<br />
thô. 3 Wdbc 569 3 80.795 0.784 19 0.980 0.975<br />
- Thự hiệ thuật t F_RSAR để tìm tập út gọ 0<br />
<br />
t ự tiếp từ ả g uyết đị h đầu the tiếp ậ tập 4 Wpbc 198 3 70.718 0.704 19 0.825 0.818<br />
3<br />
thô mờ sử dụ g u hệ tươ g tự ở ô g thứ (8) 5 Wine 178 1 40.814 0.802 10 0.955 0.920<br />
trong ô g t ì h [8] 3<br />
<br />
- T ê ả g uyết đị h thu đượ ủ h i h tiếp 6 Glass 214 9 50.815 0.795 7 0.891 0.882<br />
7 Magic 190 1 40.745 0.715 6 0.782 0.765<br />
ậ , họ 2/3 đối tượ g đầu tiê để m tập huấ uyệ 04 20 0<br />
(t i i g), 1/3 đối tượ g ò ại m tập kiểm t (test). 8 Page- 547 1 50.758 0.725 7 0.865 0.855<br />
Thự hiệ thuật t SVM, C4.5 t ê tập huấ uyệ blocks 3 0<br />
<br />
v đ h gi độ h h x phâ ớp t ê tập kiểm t .<br />
Từ đó, đ h gi độ h h x phâ ớp ủ h i h Từ Bả g 3 v Hì h 1 t thấy, tập út gọ ủ<br />
tiếp ậ . F_RSAR hiều thuộ t h hơ RSAR. Độ h h x<br />
Bả g 3 kết uả thử ghiệm t ê 8 ộ số iệu phâ ớp s u khi út gọ thuộ t h the tiếp ậ tập<br />
đượ họ với U số đối tượ g, C số thuộ t h thô mờ (F_RSAR) hơ độ h h x phâ ớp the<br />
tiếp ậ tập thô t uyề thố g (RSAR).<br />
điều kiệ , R số thuộ t h ủ tập út gọ .<br />
Tiếp the , hú g tôi tiế h h thử ghiệm để đ h<br />
gi thuật t đề xuất (F_RSAR) với thuật t tìm<br />
tập út gọ the tiếp ậ tập thô mờ sử dụ g ượ g<br />
thô g ti tă g thêm (i f m ti g i ) dự t ê<br />
e t py Sh , gọi thuật t<br />
GAIN_RATIO_AS_FRS [8]. Để tiế h h thử<br />
ghiệm, hú g tôi i đặt thuật t<br />
GAIN_RATIO_AS_FRS trong [8] v thuật t<br />
F_RSAR. Cả h i thuật t đều dù g u hệ tươ g tự<br />
ở ô g thức (8) trong ô g t ì h [8]. Chạy 02 thuật<br />
t t ê 8 ộ dữ iệu thử ghiệm. Kết uả thử ghiệm<br />
h ở Bả g 4.<br />
<br />
Hình 1. Độ chính xác phân lớp F_RSAR và RSAR<br />
<br />
<br />
<br />
<br />
- 46 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
Bảng 4. Kết quả thử nghiệm thuật toán V. KẾT LUẬN<br />
GAIN_RATIO_AS_FRS và thuật toán F_RSAR<br />
Mô hì h tập thô mờ do D. Du is v ộng sự<br />
Thuật toán Thuật toán F_RSAR [4, 5] đề xuất ô g ụ hiệu quả để giải quyết i<br />
GAIN_RATIO_AS_FR<br />
t út gọn thuộ t h t ực tiếp t ê ảng quyết<br />
S<br />
S R Độ Độ R Độ Độ<br />
đị h ó miền trị thuộ t h nhậ gi t ị số. T g i<br />
Bộ số C<br />
T U chính chính chính chính y, hú g tôi đề xuất thuật t heu isti tìm một<br />
liệu<br />
T xác xác xác xác tập út gọn của bảng quyết đị h ó miền trị thuộ t h<br />
phân phân phân phân<br />
nhậ gi t ị số sử dụ g độ phụ thuộc mờ của thuộc<br />
lớp lớp lớp lớp<br />
SVM C4.5 SVM C4.5<br />
t h the tiếp cận tập thô mờ.<br />
1 Ecoli 336 7 6 0.814 0.802 7 0.865 0.855 Độ phụ thuộc mờ của thuộ t h đượ x định dựa<br />
2 Ionosp 351 34 13 0.916 0.904 15 0.937 0.915<br />
t ê m t ận quan hệ sinh bởi một quan hệ tươ g tự<br />
here<br />
3 Wdbc 569 30 17 0.925 0.917 19 0.980 0.975<br />
x đị h t ê miề gi t ị thuộ t h. Thực nghiệm t ê<br />
4 Wpbc 198 33 17 0.815 0.804 19 0.825 0.818 ộ số liệu UCI cho thấy, độ h h x phâ ớp<br />
5 Wine 178 13 9 0.910 0.902 10 0.955 0.920 của tập dữ liệu sau khi thực hiệ phươ g ph p đề xuất<br />
6 Glass 214 9 7 0.891 0.882 7 0.891 0.882<br />
hơ độ h h x phâ ớp sau khi thực hiệ út<br />
Magic 1902<br />
7 10 6 0.782 0.765 6 0.782 0.765 gọn thuộ t h the tiếp cận tập thô truyền thống.<br />
04 0<br />
Page- Hơ ữ , phươ g ph p đề xuất ó độ h h x<br />
8 5473 10 6 0.852 0.848 7 0.865 0.855<br />
blocks phâ ớp hơ phươ g ph p tiếp cận dự t ê<br />
e t py Sh t g ô g t ì h [8]. Mặt kh ,<br />
phươ g ph p đề xuất khô g phải t h ô g thức<br />
logarit củ e t py Sh ê thời gian thực hiện<br />
hiệu quả hơ phươ g ph p t g [8].<br />
Về đị h hướ g ghiê ứu tiếp theo, thứ nhất<br />
tìm kiếm độ đ hiệu quả để giải quyết i t út<br />
gọn thuộ t h the tiếp cận tập thô mờ nhằm â g<br />
độ h h x phâ ớp, thứ h i tìm kiếm u hệ<br />
tươ g tự kh hằm â g độ h h x phâ ớp<br />
s u khi út gọn thuộ t h.<br />
<br />
<br />
TÀI LIỆU THAM KHẢO<br />
Hình 2. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS [1] CHEN, D.G., TSANG E.C.C. and ZHAO, S.Y, An<br />
và F_RSAR approach of attributes reduction based on fuzzy TL<br />
rough sets, IEEE International Conference on<br />
Từ Bả g 4 v Hì h 2 t thấy, t ê ù g một u Systems, Man and Cybernetics, pp. 486-491, 2007.<br />
hệ tươ g tự đượ sử dụ g, độ h h x phâ ớp s u [2] CHEN D.G, ZHAO S.Y., Local reduction of decision<br />
khi thự hiệ thuật t đề xuất F_RSAR hơ độ system with fuzzy rough sets, Fuzzy Sets and Systems<br />
h h x phâ ớp s u khi thự hiệ thuật t 161, pp. 1871-1883, 2010.<br />
GAIN_RATIO_AS_FRS t g [8]. Bả g 4 ũ g h [3] CHEN D.G, LEI Z, SUYUN Z, QINGHUA H, and<br />
thấy, tập út gọ ủ thuật t đề xuất F_RSAR ả PENGFEI Z, A Novel Algorithm for Finding Reducts<br />
With Fuzzy Rough Sets, IEEE Transaction on Fuzzy<br />
t miề dươ g mờ v hiều thuộ t h hơ s với<br />
Systems, Vol. 20, No. 2, pp. 385 - 389 , 2012.<br />
thuật t GAIN_RATIO_AS_FRS t g [8].<br />
<br />
<br />
- 47 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
[4] DUBOIS D, PRADE H, Putting rough sets and fuzzy Knowledge-Based Systems 24 (2011), pp. 689–696,<br />
sets together, Intelligent Decision Support, Kluwer 2011.<br />
Academic Publishers,Dordrecht, 1992. [17] QINGHUA HU, DAREN YU, ZONGXIA XIE,<br />
[5] DUBOIS D, PRADE H, Rough fuzzy sets and fuzzy Information-preserving hybrid data reduction based<br />
rough sets, International Journal of General Systems, on fuzzy-rough techniques, Pattern Recognition Letters<br />
17, pp. 191-209, 1990. 27, 2006, pp. 414-423.<br />
[6] F. F. XU, D. Q. MIAO and L. WEI, An Approach for [18] R. JENSEN, Q. SHEN, Fuzzy-Rough Sets for<br />
Fuzzy-Rough Sets Attributes Reduction via Mutual Descriptive Dimensionality Reduction, Proceedings of<br />
Information, Fourth International Conference the 2002 IEEE International Conference on Fuzzy<br />
on Fuzzy Systems and Knowledge Discovery, FSKD Systems ,FUZZ-IEEE'02, pp. 29-34, 2002.<br />
2007, Volume 3, pp. 107 – 112, 2007. [19] R. JENSEN, Q. SHEN, Fuzzy–rough attribute<br />
[7] F.F. XU, D.Q. MIAO and L. WEI, Fuzzy-rough reduction with application to web categorization,<br />
attribute reduction via mutual information with an Fuzzy Sets and Systems, Volume 141, Issue 3, pp.<br />
application to cancer classification, Computers and 469-485,2004.<br />
Mathematics with Applications 57, pp. 1010 -1017, [20] RAJEN, B. BHATT, M. GOPAL., On fuzzy-rough sets<br />
2009. approach to feature selection, Pattern Recognition<br />
[8] J. DAI, QING X, Attribute selection based on Letters 26, pp. 965–975, 2005.<br />
information gain ratio in fuzzy rough set theory with [21] TSANG G.C.Y., CHEN DEGANG., TSANG<br />
application to tumor classification, Applied Soft E.C.C, LEE J.W.T and DANIEL S. YEUNGA, On<br />
Computing 13, pp. 211–221, 2013. attributes reduction with fuzzy rough sets,<br />
[9] J. NEUMANN, C. SCHNORR, G. STEILD, Proceedings of 2005 IEEE International Conference<br />
Combined SVM-based feature selection and on Systems, Man and Cybernetics ,Volume 3, pp.<br />
classification, Mach. Learn. 61 (2005), pp. 129-150. 2775 - 2780, 2005.<br />
[10] J. QUINLAN, C4.5: Programs For Machine [22] TSANG E.C.C, DE GANG CHEN, The Fuzzy Rough<br />
Learning, Morgan kaufmann, 1993. Set Approaches of Fuzzy Reasoning, Proceedings of<br />
[11] L. A. ZADEH, Fuzzy sets, Information and Control, the Fifth International Conference on Machine<br />
8:338-353, 1965. Learning and Cybernetics, Dalian, pp. 1642-1646,<br />
2006.<br />
[12] M.R. CHMIELEWSKI, J.W. GRZYMALABUSSE,<br />
Global discretization of continuous attributes as [23] TSANG E.C.C, DEGANG CHEN. YEUNG D.S., XI<br />
preprocessing for machine learning, Int. J. Approx. ZHAO WANG and JOHN W. T. LEE, Attributes<br />
reasoning 15 (4), 1996, pp. 319–331. Reduction Using Fuzzy Rough Sets, IEEE Transactions<br />
on Fuzzy Systems, Volume16, Issue 5 , pp. 1130 -<br />
[13] PAWLAK Z., Rough sets, International Journal of<br />
1141, 2008.<br />
Computer and Information Sciences, 11(5): 341-356,<br />
1982. [24] YI CHENG, Forward approximation and backward<br />
approximation in fuzzy rough sets, Neurocomputing,<br />
[14] PAWLAK Z., Rough sets: Theoretical Aspects of<br />
Volume 148, pp. 340-353, 2015.<br />
Reasoning About Data, Kluwer Aca-demic Publishers,<br />
1991. [25] ZHAO MING, YAN ZHENGBO, ZHOU LIUKUN,<br />
WANG HUIJIE and XU XIAOGANG, The Extraction<br />
[15] Q. SHEN, R. JENSEN, Selecting informative features<br />
Method of the Energy Consumption Characteristics<br />
with fuzzy-rough sets and its application for complex<br />
Based on Fuzzy Rough Set, Proceedings of Conference<br />
systems monitoring, Pattern Recognition, Volume 37,<br />
on Computational Intelligence and Bioinformatics<br />
Issue 7, pp. 1351–1363, 2004.<br />
(AASRI), pp. 142 – 149, 2012.<br />
[16] QIANG HE, CONGXIN WU, DEGANG CHEN,<br />
[26] The UCI machine learning repository,<br />
SUYUN ZHAO, Fuzzy rough set based attribute<br />
<br />
reduction for information systems with fuzzy decisions,<br />
Ngày nhận bài: 29/02/2016<br />
<br />
<br />
- 48 -<br />
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016<br />
<br />
SƠ LƢỢC VỀ TÁC GIẢ<br />
<br />
NGUYỄN VĂN THIỆN NGUYỄN NHƢ SƠN<br />
Si h ăm 1970 tại Phú Thọ. Si h ăm 1974 tại Nghệ A .<br />
Tốt ghiệp ĐH B h kh H Nội Tốt ghiệp ĐH B h kh H<br />
ăm 1996. Tốt ghiệp Thạ sỹ tại Nội ăm 1995, thạ sĩ CNTT tại<br />
t ườ g ĐH Sư phạm H Nội ăm t ườ g ĐH B h kh H Nội<br />
2000. ăm 2001. Nhậ ằ g tiế sỹ tại<br />
Hiệ đ g ô g t tại : T ườ g ĐH Queensland - Aust i ăm<br />
ĐH Cô g ghiệp H Nội. 2007, huyê g h Kh họ<br />
m y t h.<br />
Hướ g ghiê ứu: Hệ thố g thô g ti , Cơ sở dữ iệu,<br />
Kh i ph dữ iệu. Hiệ ô g t tại: Việ CNTT, Việ H âm<br />
KH&CN Việt N m.<br />
Điệ th ại: 0902416668.<br />
Hướ g ghiê ứu: Hệ thố g thô g ti , Cơ sở dữ iệu,<br />
Email: nvthien1970@gmail.com<br />
Kh i ph dữ iệu, T h t đ m mây.<br />
NGUYỄN LONG GIANG Điệ th ại: 0987039966.<br />
Email: nnson@ioit.ac.vn<br />
Sinh ăm 1975 tại H Nội.<br />
Tốt ghiệp ĐH B h kh H Nội<br />
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn