Nghiên cứu khoa học công nghệ<br />
<br />
<br />
Ph¬ng ph¸p gi¸ t¨ng rót gän thuéc tÝnh<br />
trong b¶ng quyÕt ®Þnh thay ®æi<br />
sö dông kho¶ng c¸ch<br />
NGUYỄN LONG GIANG*, VŨ VĂN HUÂN**<br />
Tóm tắt: Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu về rút gọn thuộc tính đã thu<br />
hút đông đảo cộng đồng nghiên cứu về tập thô tham gia. Tuy nhiên, hầu hết các phương<br />
pháp rút gọn thuộc tính đều thực hiện trên các bảng quyết định cố định, không thay đổi. Sử<br />
dụng độ đo khoảng cách, trong bài báo này chúng tôi đề xuất các thuật toán tìm tập rút gọn<br />
của bảng quyết định khi bổ sung và loại bỏ đối tượng. Vì không phải thực hiện lại thuật<br />
toán trên toàn bộ tập đối tượng nên các thuật toán đề xuất giảm thiểu đáng kể độ phức tạp<br />
về thời gian thực hiện.<br />
Từ khóa: Tập thô, Bảng quyết định, Rút gọn thuộc tính, Tập rút gọn, Khoảng cách.<br />
<br />
<br />
1. MỞ ĐẦU<br />
Trong lý thuyết tập thô, chủ đề nghiên cứu về rút gọn thuộc tính đã và đang thu hút sự<br />
quan tâm của đông đảo các nhà nghiên cứu [1]. Tuy nhiên, phần lớn các nghiên cứu về rút<br />
gọn thuộc tính đều được thực hiện trên các bảng quyết định với tập đối tượng và tập thuộc<br />
tính cố định, không thay đổi. Trong các bài toán thực tế, các bảng quyết định luôn bị cập<br />
nhật và thay đổi với các trường hợp: bổ sung hoặc loại bỏ tập đối tượng, bổ sung hoặc loại<br />
bỏ tập thuộc tính, cập nhật tập đối tượng đã tồn tại. Mỗi khi thay đổi như vậy, chúng ta lại<br />
phải thực hiện lại các thuật toán tìm tập rút gọn trên toàn bộ tập đối tượng, do đó chi phí<br />
về thời gian thực hiện thuật toán tìm tập rút gọn sẽ rất lớn.<br />
Trong mấy năm gần đây, một số công trình nghiên cứu đã xây dựng các phương pháp<br />
gia tăng rút gọn thuộc tính trên bảng quyết định thay đổi dựa trên các độ đo khác nhau<br />
[4,5,8,9]. Trong [4,5,9], các tác giả đã xây dựng phương pháp gia tăng tìm tập rút gọn dựa<br />
trên miền dương và ma trận phân biệt khi bổ sung tập đối tượng mới. Trong [8], các tác<br />
giả đã xây dựng các công thức tính các độ đo entropy (entropy Shannon, entropy Liang,<br />
entropy kết hợp) khi bổ sung, loại bỏ các thuộc tính. Tuy nhiên, các công thức tính toán<br />
entropy trong [8] còn phức tạp. Hơn nữa, các công trình trên chưa giải quyết đầy đủ các<br />
trường hợp đối với bảng quyết định thay đổi với các trường hợp nêu trên.<br />
Sử dụng độ đo khoảng cách trong công trình số [2], trong bài báo này chúng tôi đề xuất<br />
hai thuật toán gia tăng tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung và<br />
loại bỏ đối tượng. Thuật toán đề xuất sử dụng độ đo khoảng cách nên giảm thiểu đáng kể<br />
thời gian thực hiện so với các thuật toán sử dụng entropy Shannon trong [8].<br />
Cấu trúc bài báo như sau. Phần 2 trình bày một số khái niệm cơ bản trong lý thuyết tập<br />
thô. Phần 3 trình bày hai thuật toán tìm tập rút gọn sử dụng khoảng cách trong trường hợp<br />
bổ sung và loại bỏ đối tượng. Phần 4 là kết luận và định hướng nghiên cứu tiếp theo.<br />
2. CÁC KHÁI NIỆM CƠ BẢN<br />
Phần này trình bày một số khái niệm cơ bản trong lý thuyết tập thô do Pawlak [7] đề<br />
xuất. Hệ thông tin là một cặp IS U , A trong đó U là tập hữu hạn, khác rỗng các đối<br />
tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính a A xác định một ánh<br />
xạ: a : U Va với Va là tập giá trị của thuộc tính a. Cho hệ thông tin IS U , A , mỗi<br />
tập thuộc tính PA xác định một quan hệ tương đương:<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 53<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
<br />
<br />
IND P u , v U U a P, a u a v . Ký hiệu phân hoạch của U sinh bởi<br />
quan hệ IND P là U / P và lớp tương đương chứa đối tượng u là u P , khi đó<br />
<br />
u P v U u, v IND P . Cho hệ thông tin IS U , A . Với B A và X U ,<br />
các tập BX u U u B X và BX u U u B X tương ứng gọi là B-<br />
xấp xỉ dưới, B-xấp xỉ trên của X.<br />
Bảng quyết định là một dạng đặc biệt của hệ thông tin, trong đó tập thuộc tính A bao gồm<br />
hai tập con tách biệt nhau: tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D.<br />
Như vậy, bảng quyết định là một hệ thông tin DS U , C D trong đó C D . Với<br />
bảng quyết định DS U , C D , ta gọi tập POSC ( D) CD <br />
Di U / D<br />
i là C-miền<br />
<br />
dương của D. Dễ thấy POSC ( D) là tập các đối tượng trong U được phân lớp đúng vào các lớp<br />
quyết định của D nếu sử dụng tập thuộc tính điều kiện C. Bảng quyết định DS được gọi là nhất<br />
quán khi và chỉ khi POSC ( D ) U , ngược lại DS là không nhất quán.<br />
Rút gọn thuộc tính là lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn<br />
thông tin phân lớp của bảng quyết định. Trong hai thập kỷ trở lại đây, nhiều phương pháp rút gọn<br />
thuộc tính được công bố [1]. Mỗi phương pháp đều đưa ra một khái niệm về tập rút gọn và xây<br />
dựng thuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên tiêu chuẩn là chất lượng phân lớp<br />
của thuộc tính. Các phương pháp điển hình được trình bày trong [1] là: phương pháp miền<br />
dương, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng đại số quan hệ, phương<br />
pháp sử dụng entropy thông tin, phương pháp sử dụng tính toán hạt, phương pháp sử dụng<br />
khoảng cách (metric). Các nghiên cứu trong [1] cho thấy hầu hết các phương pháp rút gọn thuộc<br />
tính đều thực hiện trên bảng quyết định cố định, không thay đổi. Dựa vào ý tưởng tính toán gia<br />
tăng trong các công trình [4,5,9], phần tiếp theo chúng tôi trình bày phương pháp rút gọn<br />
trong bảng quyết định thay đổi sử dụng khoảng cách trong hai trường hợp: bổ sung đối<br />
tượng và loại bỏ đối tượng.<br />
<br />
3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI<br />
SỬ DỤNG KHOẢNG CÁCH<br />
3.1. Khoảng cách giữa hai phân hoạch<br />
Một khoảng cách trên tập hợp U là một ánh xạ d : U U 0, thỏa mãn các điều<br />
kiện sau với mọi x, y, z U [3]<br />
P 1 d x, y 0 , d x, y 0 khi và chỉ khi x y .<br />
P 2 d x, y d y , x .<br />
P 3 d x , y d y , z d x, z .<br />
Điều kiện P(3) được gọi là bất đẳng thức tam giác.<br />
Trong công trình số [2], tác giả đã xây dựng công thức tính khoảng cách giữa hai phân<br />
hoạch dựa trên độ đo entropy Liang [6].<br />
Định nghĩa 1. [6] Cho bảng quyết định DS U , C D với P, Q C . Giả sử ta có<br />
hai phân hoạch U / P {P1 , P2 ,...., Pm }, U / Q {Q1 , Q2 ,..., Qn } . Entropy Liang có điều<br />
kiện của Q khi đã biết P được định nghĩa bởi<br />
<br />
<br />
54 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
c c<br />
n m<br />
Qi Pj Qi Pj<br />
E (Q P ) với Qic U Qi , Pjc U Pj .<br />
i 1 j 1 U U<br />
<br />
Mệnh đề 1. [2] Cho bảng quyết định DS U , C D với P, Q C . Giả sử<br />
K P U / P {P1 , P2 ,..., Pm } và K Q U / Q {Q1 , Q2 ,..., Qn } . Khi đó<br />
d K P , K Q E P Q E Q P .<br />
là khoảng cách entropy giữa hai phân hoạch K P và K Q .<br />
Mệnh đề 1 cho thấy công thức tính khoảng cách d K P , K Q thỏa mãn điều kiện <br />
bất đẳng thức tam giá P(3). Từ mệnh đề 1, chúng tôi xây dựng công thức tính khoảng cách<br />
<br />
d K B , K B D như sau: <br />
Mệnh đề 2. Cho bảng quyết định DS U , C D với B C . Giả sử ta có hai phân<br />
hoạch K B U / B {X1, X2 ,...Xm} và K D U / D {Y1 , Y2 ,..., Yn } . Khi đó:<br />
n m<br />
1<br />
d K B , K B D 2 Y X i j X j Yi<br />
U i 1 j 1<br />
<br />
Chứng minh. Với u U ta có u B D u B u D , do đó các phần tử của phân<br />
hoạch U / B D sẽ là Yi X j khác rỗng với i 1,..., n và j 1,..., m . Từ đó ta có:<br />
<br />
<br />
E BBD <br />
m n <br />
Xj Yi Xj Yi Xj Xj Yi Xj m n Yi Xj Yi Xj Yi Xj <br />
j1 i1 U U<br />
<br />
j1 i1 U U<br />
0<br />
<br />
n m Y X C<br />
i j j X j Yi X j 1 n m<br />
E B D B 2 Y X i j X j Yi .<br />
i 1 j 1 U U U i 1 j 1<br />
<br />
n m<br />
1<br />
<br />
Do đó: d K B , K B D 2 Y X i j X j Yi .<br />
U i 1 j 1<br />
<br />
<br />
Định nghĩa 2. Cho bảng quyết định DS U , C D và tập thuộc tính R C . Nếu<br />
1) d K R , K R D d K C , K C D <br />
2) r R , d ( K R r , K R r D ) d ( K C , K C D )<br />
thì R là một rút gọn của C dựa trên khoảng cách.<br />
Phần tiếp theo, chúng tôi xây dựng công thức tính khoảng cách khi bổ sung và loại bỏ<br />
đối tượng.<br />
3.2. Công thức tính khoảng cách khi bổ sung một đối tượng mới<br />
Cho bảng quyết định DS U , C D với B C . Giả sử ta có hai phân hoạch<br />
K B U / B { X 1 , X 2 ,... X m } và K D U / D {Y1 , Y2 ,..., Yn } . Khoảng cách giữa<br />
K B và K B D là dU K B , K B D .<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 55<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
Mệnh đề 3. Giả sử đối tượng x được bổ sung vào U , khi đó ta có:<br />
1) Nếu x X j với mọi j 1..m và x Yi với mọi i 1..n thì<br />
2<br />
U<br />
dU x K B , K B D 2<br />
dU K B , K B D <br />
U 1<br />
2) Nếu x X j với mọi j 1..m và x Yq với q n thì<br />
2<br />
U<br />
dU x K B , K B D 2<br />
dU K B , K B D <br />
U 1<br />
3) Nếu x X p với p m và x Yi với mọi i 1..n thì<br />
1<br />
dU x K B , K B D <br />
U 1<br />
U 2<br />
2<br />
dU K B , K B D 2 X p <br />
4) Nếu x X p với p m và x Yq với q n thì<br />
1<br />
dUx K B , K B D <br />
U 1<br />
U 2<br />
2<br />
dU K B , K B D 2 X p Yq <br />
Chứng minh<br />
n1 m1<br />
1<br />
<br />
1) Giả sử Xm1 x , Yn1 x . Ta có dU x K B , K BD Y X<br />
2 i j Xj Yi<br />
U1 i1 j1<br />
<br />
1 n m m1 n <br />
2 <br />
U 1 i 1 j 1<br />
Yi X j X j Yi Yn 1 X j X j Yn 1 Yi X m 1 X m 1 Yi <br />
j 1 i 1 <br />
2<br />
U<br />
2<br />
dU K B , K B D <br />
U 1<br />
2) Giả sử X m 1 x và x Yq với q n . Ta có:<br />
1 n m1 m1 <br />
dU x K B , K B D 2 i<br />
Y X j X j Yi Yq x X j X j Yq x <br />
U 1 i1,iq j1 j 1 <br />
1 n m m <br />
2 i <br />
Y X j X j Yi Yq X j X j Yq <br />
U 1 i1,i q j 1 j 1 <br />
2<br />
1 n m U<br />
2 U <br />
2 Yi X j X j Yi d K B , K B D <br />
U 1 i 1 j 1 U 1<br />
3) Giả sử x X p với p m và Yn 1 x . Ta có:<br />
1 n1 m n1 <br />
dUx K B , K B D 2 Yi X j X j Yi Yi X p x X p x Yi <br />
U 1 i1 j1, j p i 1 <br />
1 n m n <br />
2 Yi X j X j Yi Yi X p x X p x Yi X p x <br />
U 1 i1 j1, j p i 1 <br />
<br />
<br />
56 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
<br />
1 n m n 1<br />
2 i<br />
U 1 i1 j1<br />
Y X j X j Yi Yi Xp x Xp x <br />
<br />
i1 U 1<br />
2<br />
2<br />
U dU K B , K BD 2 Xp <br />
4) Giả sử x X p với p m và x Yq với q n . Ta có: dU x K B , K B D <br />
n m m<br />
1 1<br />
<br />
U 1<br />
2 <br />
i 1,i q j 1, j p<br />
Yi X j X j Yi <br />
U 1<br />
2 Y x X<br />
j 1, j p<br />
q j X j Yq x<br />
<br />
n<br />
1 1<br />
2 Y x X x X x Y x <br />
q p p q 2 Y X x X x Y<br />
i p p i<br />
U 1 U 1 i1,iq<br />
<br />
n m n<br />
1 1 1<br />
<br />
U 1<br />
2 Y X<br />
i 1 j 1<br />
i j X j Yi <br />
U 1<br />
2 x X p Yq U 1<br />
2 Y X x <br />
i 1,i q<br />
i p<br />
<br />
<br />
1<br />
<br />
U 1<br />
2 U 2<br />
deU K B , K B D X p Yq U Yq X p <br />
1<br />
<br />
U 1<br />
2 U 2<br />
dU K B , K B D 2 X p Yq .<br />
3.3. Công thức tính khoảng cách khi loại bỏ một đối tượng<br />
Mệnh đề 4. Giả sử đối tượng x U bị loại khỏi U , khi đó ta có:<br />
1) Nếu x X p với p m và x Yq với q n thì<br />
2<br />
U<br />
dU x K B , K B D 2<br />
dU K B , K B D <br />
U 1<br />
2) Nếu x X p với p m và x Yq với q n thì<br />
2<br />
U<br />
dU x K B , K B D 2<br />
dU K B , K B D <br />
U 1<br />
3) Nếu x X p với p m và x Yq với q n thì<br />
1<br />
dU x K B , K B D <br />
U 1<br />
2 U 2<br />
dU K B , K B D 2 X p 2 <br />
4) Nếu x X p với p m và x Yq với q n thì<br />
1<br />
dU x K B , K B D <br />
U 1<br />
U<br />
2<br />
2<br />
dU K B , K B D X p Yq X p Yq X p <br />
Chứng minh<br />
1) Giả sử X m x và Yn x . Ta có<br />
n 1 m 1<br />
1<br />
dU x K B , K B D 2 Y X i j X j Yi<br />
U 1 i 1 j 1<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 57<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
<br />
1 n m m 1 n <br />
2 i <br />
Y X j X j Yi Yn X j X j Yn Yi X m X m Yi <br />
U 1 i 1 j 1 j 1 i 1 <br />
2<br />
U<br />
2<br />
dU K B , K B D <br />
U 1<br />
<br />
2) Giả sử X m x và x Yq với q n . Ta có:<br />
n m1 1 m1 <br />
dUx K B , K B D 2 i<br />
U 1 i1,iq j1<br />
Y X j X j Yi Yq x X j X j Yq x <br />
j1 <br />
1 n m m 1 n m <br />
2 i<br />
Y X j X j Yi Yq X j X j Yq 2 i<br />
Y X j X j Yi <br />
U 1 i1,iq j1 j1 U 1 i1 j1 <br />
2<br />
U<br />
2 dU K B , K B D <br />
U 1<br />
<br />
3) Giả sử x X p với p m và Yn x . Ta có:<br />
n1 m 1 n1 <br />
dUx K B , K B D 2 i<br />
Y X j X j Yi Yi X p x X p x Yi <br />
U 1 i1 j1, jp i1 <br />
1 n m n n<br />
<br />
2 Yi X j X j Yi Yi X p X p Y i Yi X p x X p x Yi <br />
U 1 i1 j1 i 1 i 1 <br />
n m n1 n1<br />
1 <br />
2 i<br />
U 1 i1 j1<br />
Y X j X j Yi Yi Xp X p Yi Yn X p Xp Yn Yi Xp Xp Yi 1 <br />
i1 i1 <br />
1 n m 1<br />
2 i<br />
U 1 i1 j1<br />
Y X j X j Yi 2 X p 2 <br />
U 1<br />
2<br />
2<br />
<br />
U dU K B , K B D 2 X p 2 <br />
4) Giả sử x X p với p m và x Yq với q n . Ta có: dUx K B , K B D <br />
n m m<br />
1 1<br />
<br />
U 1<br />
2 <br />
i 1,i q j 1, j p<br />
Yi X j X j Yi <br />
U 1<br />
2 Y x X<br />
j 1, j p<br />
q j X j Yq x<br />
<br />
n<br />
1 1<br />
<br />
U 1<br />
2 Yq x Xp x Xp x Yq x U 1<br />
2 Y X x X x Y<br />
i p p i<br />
i1,iq<br />
n m m<br />
1 1<br />
<br />
U 1<br />
2 <br />
i 1,i q j 1, j p<br />
Yi X j X j Yi <br />
U 1<br />
2 <br />
j 1, j p<br />
Yq X j X j Yq<br />
<br />
n<br />
1 1<br />
<br />
U 1<br />
2 Yq X p 1 X p Yq U 1<br />
2 Y X X<br />
i 1,i q<br />
i p p Yi 1 <br />
1<br />
<br />
U 1<br />
2 U 2<br />
dU K B , K B D X p Yq X p Yq X p <br />
<br />
58 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
3.4 Thuật toán tìm tập rút gọn khi bổ sung, loại bỏ đối tượng<br />
Trước hết, chúng tôi xây dựng thuật toán gia tăng tìm tập rút gọn khi bổ sung một đối<br />
tượng mới. Mệnh đề 5 sau đây là cơ sở để xây dựng thuật toán.<br />
Mệnh đề 5. Cho bảng quyết định DS U , C D với B C là một tập rút gọn của DS<br />
dựa trên khoảng cách và x là đối tượng mới được bổ sung vào U. Giả sử ta có hai phân<br />
hoạch K B U / B { X 1 , X 2 ,... X m } , K C U / C {Y1 , Y2 ,..., Yn } .<br />
<br />
1) Nếu x X j với mọi j 1..m thì dUx K B , K B D dUx K C , K C D <br />
2) Nếu x X p với p m và x Yi với mọi i 1..n thì<br />
dU x K B , K B D dU x K C , K C D <br />
3) Nếu x X p với p m và x Yq với q n thì<br />
dU x K B , K B D dU x K C , K C D <br />
<br />
Chứng minh. Mục 1) và 2) được suy ra trực tiếp từ Mệnh đề 3 và Định nghĩa 2. Chúng tôi<br />
chứng minh mục 3). Theo Mệnh đề 3 ta có:<br />
1<br />
dUx K B ,K BD <br />
U1<br />
U d K B ,K BD 2 X D với D U / D , xX ,xD<br />
2<br />
2<br />
U p r r p r<br />
<br />
<br />
1<br />
dUx K C , K CD <br />
U1<br />
U d KC ,KCD 2Y D với x Y , x D<br />
2<br />
2<br />
U q r q r<br />
<br />
<br />
<br />
<br />
Do B là tập rút gọn của DS nên dU K B , K B D dU K C , K C D , theo định <br />
<br />
nghĩa ta có E D B E D C . Do B C nên Yq X p . Nếu Yq X p thì rõ ràng ta có<br />
điều phải chứng minh. Nếu Yq X p thì giả sử Yq X p X k . Từ E D B E D C <br />
theo [6] ta có X p Dr , X k Dr hay X p Dr , Yq Dr , do đó Xp Dr và<br />
Yq Dr . Từ đó kết luận dUx K B , K BD dUx K C , K CD .<br />
Mệnh đề 5 cho thấy nếu x không thuộc một lớp tương đương nào trong U / B và U / C ,<br />
hoặc x đồng thời thuộc một lớp tương tương trong U / B và U / C thì các khoảng cách<br />
dU K B , K B D , dU K C , K C D được bảo toàn, nghĩa là không thay<br />
đổi tập rút gọn. Từ đó chúng tôi xây dựng thuật toán tính gia tăng tập rút gọn như sau:<br />
Thuật toán 1. Thuật toán gia tăng tìm tập rút gọn dựa trên khoảng cách<br />
Đầu vào: Bảng quyết định DS U , C D , tập rút gọn RU trên U và đối tượng<br />
mới x.<br />
Đầu ra: Tập rút gọn RU x trên U x .<br />
1. Đặt R RU , tính U / R { X 1 , X 2 ,... X m } ;<br />
2. If x X p , X p U / R then<br />
3. Begin<br />
4. Tính U / C {Y1 , Y2 ,..., Yn } ;<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 59<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
5. If x Yq , q 1..n then<br />
6. Begin<br />
7. <br />
While dU x K R , K R D dU x K C , K C D do <br />
8. Begin<br />
9. For a C R tính SIGR a ;<br />
10. Chọn am C R sao cho SIGR am Max SIGR a ;<br />
aC R<br />
<br />
11. R R am ;<br />
12. End;<br />
13. End;<br />
14. End;<br />
15. For a R do<br />
16. Begin<br />
17. <br />
Tính dU x K R a , K R a D ;<br />
18. K Ra , K Ra D d K R , K RD then R R a ;<br />
If dU x U x<br />
<br />
19. End<br />
20. Return R .<br />
<br />
Theo [9], độ phức tạp để tính phân hoạch U / C là O C U , do đó độ phức tạp của <br />
công thức tính gia tăng khoảng cách trong Mệnh đề 3 là<br />
<br />
O C U m C U X p Yq O C U X p Yq . Độ phức tạp của vòng lặp<br />
<br />
While từ dòng lệnh số 7 đến số 12 là O C C U X Y . Độ phức tạp của vòng lặp For<br />
p q<br />
<br />
<br />
từ dòng lệnh số 15 đến 19 là O C C U X Y . Do đó, độ phức tạp của Thuât toán 1 là<br />
p q<br />
<br />
<br />
2<br />
<br />
O C U C X p Yq . Rõ ràng là X p Yq nhỏ hơn nhiều U<br />
2<br />
nên độ phức tạp của Thuật<br />
toán 1 tính gia tăng tập rút gọn nhỏ hơn nhiều thuật toán tính tập rút gọn bằng phương pháp truyền<br />
thống [1].<br />
Tương tự trường hợp bổ sung đối tượng mới, cơ sở xây dựng thuật toán tìm tập rút gọn<br />
khi xóa một đối tượng là Mệnh đề 6 sau đây.<br />
Mệnh đề 6. Cho bảng quyết định DS U , C D với B C là một tập rút gọn của DS<br />
dựa trên khoảng cách và x U . Giả sử K B U / B { X 1 , X 2 ,... X m } ,<br />
K C U / C {Y1 , Y2 ,..., Yn } .<br />
1) Nếu x X j với mọi j 1..m thì<br />
dU x K B , K B D dU x K C , K C D <br />
2) Nếu x X p với p m và x Yi với mọi i 1..n thì<br />
dU x K B , K B D dU x K C , K C D <br />
3) Nếu x X p với p m và x Yq với q n thì<br />
<br />
<br />
<br />
60 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
dU x K B , K B D dU x K C , K C D <br />
Sử dụng công thức tính khoảng cách khi loại bỏ một đối tượng trong Mệnh đề 4, Mệnh<br />
đề 6 được chứng minh tương tự như Mệnh đề 5. Từ Mệnh đề 6, thuật toán tìm tập rút gọn<br />
khi xóa một đối tượng được xây dựng tương tự như Thuật toán 1.<br />
<br />
5. KẾT LUẬN<br />
Trong bối cảnh các hệ cơ sở dữ liệu ngày càng lớn, thay đổi và cập nhật, việc đề xuất<br />
các phương pháp hiệu quả nhằm tối ưu thời gian thực hiện các thuật toán tìm tập rút gọn là<br />
mục tiêu của các nhà nghiên cứu. Dựa vào ý tưởng tính toán gia tăng, trong bài báo này<br />
chúng tôi sử dụng độ đo khoảng cách để xây dựng hai thuật toán tìm tập rút gọn tương ứng<br />
với hai trường hợp: bổ sung và loại bỏ đối tượng. Dựa vào hai thuật toán này, chúng tôi<br />
hoàn toàn có thể xây dựng được thuật toán mở rộng để giải quyết trường hợp bổ sung tập<br />
đối tượng hoặc loại bỏ tập đối tượng. Chúng tôi cũng chứng minh bằng lý thuyết độ phức<br />
tạp thời gian của hai thuật toản nhỏ hơn độ phức tạp của thuật toán thực hiện theo phương<br />
pháp truyền thống. Định hướng nghiên cứu tiếp theo của chúng tôi là sử dụng độ đo<br />
khoảng cách đề xây dựng thuật toán tìm tập rút gọn trong trường hợp cập nhật các đối<br />
tượng.<br />
<br />
TÀI LIỆU THAM KHẢO<br />
[1] Nguyễn Long Giang, “Nghiên cứu một số phương pháp khai phá dữ liệu theo<br />
tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin<br />
(2012).<br />
[2] Nguyễn Thanh Tùng,“Về một metric trên họ các phân hoạch của một tập hợp<br />
hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1 (2010), tr. 73-85.<br />
[3] Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer (2009).<br />
[4] Guan L. H, “An incremental updating algorithm of attribute reduction set in<br />
decision tables”, FSKD'09 Proceedings of the 6th international conference on<br />
Fuzzy systems and knowledge discovery, Vol 2 (2009), pp. 421-425.<br />
[5] Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based<br />
on elementary sets”, Proceedings of the 10th International Conference on Rough<br />
Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina, Canada<br />
(2005), pp. 185-193.<br />
[6] Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New method for<br />
measuring uncertainty and fuzziness in rough set theory”, International Journal<br />
of General Systems 31 (2002), pp. 331-342.<br />
[7] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer<br />
Aca-demic Publishers (1991).<br />
[8] Wang F., Liang J. Y, Qian Y. H., “Attribute reduction: A dimension incremental<br />
strategy”, Knowledge-Based Systems, Volume 39 (2013), pp. 95–108<br />
[9] Zhang C. S, Jing Ruan J.,Tan Y. H., “An Improved Incremental Updating<br />
Algorithm for Core Based on Positive Region, Journal of Computational<br />
Information Systems“ 7: 9 (2011), pp. 3127-3133.<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 61<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
ABSTRACT<br />
<br />
INCREMENTAL METHODS FOR ATTRIBUTE REDUCTION IN<br />
DYNAMIC DECISION TABLES BASED ON DISTANCE.<br />
<br />
In the last two decades, many attribute reduction methods in decision tables<br />
have been developed. However, most of them can only be applicable to static<br />
decision tables. In this paper, by using distance measure we propose algorithms for<br />
attribute reduction in decision tables in two cases: adding objects, deleting objects.<br />
By this approach, we show that the reduct of the dynamically-increasing decision<br />
table do not recomputed, so this reduces significantly computational time and<br />
memory space.<br />
Keywords: Rough set, Decision table, Attribute reduction, Reduct, Distance.<br />
<br />
<br />
<br />
Nhận bài ngày 11 tháng 12 năm 2013<br />
Hoàn thiện ngày 04 tháng 02 năm 2014<br />
Chấp nhận đăng ngày 10 tháng 03 năm 2014<br />
<br />
<br />
<br />
<br />
Địa chỉ: * Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt nam.<br />
Email: nlgiang@ioit.ac.vn.<br />
** Đại học Tài nguyên môi trường Hà Nội. Email: huanvn.tnmt@gmail.com.<br />
<br />
<br />
<br />
<br />
62 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />