Nghiên cứu khoa học công nghệ<br />
<br />
HỆ QUYẾT ĐỊNH NHẤT QUÁN VÀ LUẬT QUAN TRỌNG<br />
Nguyễn Đức Thọ1, Nguyễn Bá Tường2*, Nguyễn Hữu Đông2<br />
Tóm tắt: Trong bài này nhóm tác giả giới thiệu một số tính chất liên quan đến các ma<br />
trận độ hỗ trợ, độ chính xác và độ phủ của các luật quyết đinh. Mục đích chính của bài<br />
viết là trình bày thuật toán tìm luật quan trọng sau khi dựa vào các tính chất được nêu ở<br />
trên. Đó là dựa vào các ma trận thưa của độ phủ, độ chính xác để tìm các luật quan<br />
trọng trong hệ quyết định nhất quán.<br />
Từ khóa: Tập thô, Độ hỗ trợ, Độ chính xác, Độ phủ, Khai thác dữ liệu.<br />
<br />
1. ĐẶT VẤN ĐỀ<br />
Các luật trong hệ quyết định dựa trên nền lý thuyết tập thô được phát triển và nghiên cứu trong<br />
[1, 2, 3]. Mô hình xác suất tối thiểu của các luật được nghiên cứu để phân loại luật dựa vào độ<br />
chính xác và độ phủ cao được các tác giả quan tâm nghiên cứu và đã trình bày trong [4, 5].<br />
Bản chất cốt lõi và cũng là kỹ thuật cơ bản khi nghiên cứu các luật trong hệ quyết định là xác<br />
định độ đo chất lượng của luật, các khái niệm về độ đo chất lượng của luật được nêu và xét<br />
trong [1, 4, 5, 6, 7, 8, 9, 14, 15]. Trong bài viết này chúng tôi tiếp tục nghiên cứu và phát triển<br />
các ý tưởng trên và dựa vào các ma trận độ hỗ trợ, độ chính xác, độ phủ v.v để xét và nghiên<br />
cứu phát triển các tri thức mới. Trong bài viết chúng tôi đã đưa ra được một số tính chất của các<br />
ma trận liện quan các luật từ đó nêu được thuật toán tìm luật quan trọng đơn giản và hiệu quả.<br />
2. TỔNG QUAN VỀ LÝ THUYẾT HỆ TIN<br />
Các khái niệm cơ bản trong bài viết của chúng tôi được trích trong các tài liệu [1, 5, 6, 14, 15].<br />
Định nghĩa 2.1. Hệ tin đầy đủ là S = ( U, A ), với U là tập hữu hạn khác rỗng các đối<br />
tượng, A là tập khác rỗng các thuộc tính. Giá trị thuộc tính a A của đối tượng u U là a(u)<br />
và a(u) khác rỗng ( not null).<br />
Định nghia 2.2. Hệ quyết định đầy đủ DS = (U, C D) là hệ tin đầy đủ, trong đó U là tập<br />
hữu hạn khác rỗng các đối tượng, A= C D, với C là tập khác rỗng các thuộc tính được gọi là<br />
các thuộc tính điều kiện và D là tập các thuộc tính được gọi là các thuộc tính quyết định và C<br />
D= .<br />
Định nghĩa 2.3. Cho S = ( U, A) là hệ tin đầy đủ.<br />
Với mỗi tập con B A, ta xác định quan hệ tương đương IND(B) UxU, với<br />
IND(B) = { (u,v) UxU: a B, a(u) = a(v)}. Phân hoạch của U sinh bởi IND(B) ký hiệu<br />
là U/B. Lớp tương đương ứng với u U là [u]B và [u]B = { v U: (u,v) IND(B)}<br />
Định nghĩa 2.4. Cho DS = ( U, C D ) là hệ quyết định đầy đủ. Ta sẽ ký hiệu U/C = {<br />
C1, C2, …, Cm}, với Ci ( i = 1, 2, …, m) là lớp điều kiện; U/D = { D1, D2, …, Dn}, với Dj ( j= 1,<br />
2, …, n) là lớp quyết định. Ci U/C & Dj U/D, độ hỗ trợ ( support), độ chính xác<br />
(accuracy), độ phủ (coverage), độ lệch (error ratio) của luật Ci → Dj được xác định như sau:<br />
Độ hỗ trợ của luật Ci → Dj , ký hiệu Supp(Ci|Dj ) và Supp(Ci|Dj ) = | Ci DJ| / | U| ;<br />
Độ chính xác của luật Ci → Dj, ký hiệu Acc(Ci|Dj ) và Acc(Ci|Dj ) = | Ci DJ| / | Ci|;<br />
Độ phủ của luật Ci → Dj, ký hiệu Cov(Ci|Dj ) và Cov(Ci|Dj ) = | Ci DJ| / | Dj|.<br />
Độ lệch của luật Ci → Dj, ký hiệu E(Ci|Dj ) và E(Ci|Dj ) = 1- Acc(Ci|Dj ). Ở đây | Ci| và | Dj|<br />
là lực lượng của các tập Ci và Dj tương ứng.<br />
Từ định nghĩa ta có các ma trận độ hỗ trợ, độ chính xác và độ phủ như sau:<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 69<br />
Công nghệ thông tin & Khoa học máy tính<br />
<br />
Supp(C1 | D1 ) Supp(C1 | D 2 )... Supp(C1 | D n ) <br />
Supp(C | D ) Supp(C | D )... Supp(C | D ) <br />
2 1 2 2 2 n <br />
Supp(C|D) = . <br />
<br />
. <br />
Supp(C m | D1 ) Supp(C m | D 2 ) ... Supp(C m | D n )<br />
<br />
Cov(C1 | D1 ) Cov(C1 | D 2 )... Cov(C1 | D n ) <br />
<br />
Cov(C2 | D1 ) Cov(C2 | D 2 )... Cov(C2 | D n ) <br />
Cov(C|D) = . <br />
<br />
. <br />
<br />
Cov(Cm | D1 ) cov(Cm | D 2 ) ... Cov(Cm | D n )<br />
Tương cho các a trận độ chính xác Acc(C⃒D) và độ lệch E(C⃒D).<br />
n<br />
Tính chất 2.1.[15] 0 Acc(Ci|Dj ) 1 và Acc(C | D<br />
j 1<br />
i j ) = 1, Ci U/C.<br />
<br />
m<br />
Tính chất 2.2.[15] 0 Cov(Ci|Dj ) 1 và Cov(C | D )<br />
i 1<br />
i j = 1, Dj U/D.<br />
<br />
Định nghĩa 2.5. Hệ quyết định DS = ( U, C D ) là nhất quán ( consistent) nếu Ci<br />
U/C Dj U/D sao cho Ci Dj.<br />
Định nghĩa 2.6. Cho DS = ( U, C D ) là hệ quyết định; U/C = { C1, C2, …, Cm}, U/D =<br />
{ D1, D2, …, Dn}. Ta nói luật Ci → Dj là luật quan trọng nếu Acc(Ci|Dj ) minAcc và<br />
Cov(Ci|Dj ) minCov. Trong đó các ngưỡng minAcc và minCov do người dùng xác định.<br />
3. MỘT SỐ TÍNH CHẤT CỦA MA TRẬN ĐỘ HỖ TRỢ, ĐỘ CHÍNH XÁC, ĐỘ PHỦ VÀ<br />
THUẬT TOÁN TÌM CÁC LUẬT QUAN TRỌNG<br />
3.1. Các tính chất<br />
Cho DS = ( U, C D ) là hệ quyết định; U/C = { C1, C2, …, Cm} và U/D = { D1, D2, …,<br />
Dn}. Khi đó ta có mn luật quyết định Ci → Dj. Một cách tự nhiên ta có trị trung bình cộng của<br />
support, accuracy, coverage và độ lệch của các luật.<br />
Đinh nghiã 3.1. Trị trung bình cộng của supports, accuracy và coverage của S xác định<br />
tương ứng như sau:<br />
m n<br />
1<br />
AVG(Supp(S)) =<br />
m.n<br />
Supp(C<br />
i 1 j 1<br />
i | Dj )<br />
m n<br />
1<br />
AVG(Acc(S)) =<br />
m.n<br />
Acc(C | D<br />
i 1 j 1<br />
i j )<br />
m n<br />
1<br />
AVG(Cov(S)) =<br />
m.n<br />
Cov(C | D<br />
i 1 j 1<br />
i j )|<br />
<br />
n<br />
Tính chất 3.1. 0 supp(Ci|Dj ) 1 và Supp(C i | D j ) = | Ci | / | U|, Ci U/C<br />
j 1<br />
<br />
<br />
<br />
<br />
70 N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Chứng minh<br />
x Ci Dj sao cho x Dj và vì Dj Dk = if k J nên<br />
n<br />
| Ci D1 | | Ci D 2 | | Ci D n |<br />
Supp(C<br />
j 1<br />
i | Dj )<br />
|U|<br />
= +<br />
|U|<br />
+ … +<br />
|U|<br />
=<br />
<br />
| Ci (D1 D 2 ... D n ) | | C i U | | Ci |<br />
= =<br />
|U| |U| |U|<br />
m<br />
Tính chất 3.2. 0 Supp(Ci|Dj ) 1 và Supp(C i | D j ) = | DJ | / | U|, Dj U/D.<br />
i 1<br />
<br />
Chứng minh<br />
Tương tự như tính chất 3.1 ta có<br />
<br />
m | C1 D j | | C2 D j | | Cm D j |<br />
Supp(C<br />
i 1<br />
i |D j ) =<br />
|U|<br />
+<br />
|U|<br />
+ … +<br />
|U|<br />
=<br />
<br />
| D j (C1 C 2 ... C m ) | | Dj U | | Dj |<br />
= =<br />
|U| |U| |U|<br />
m n<br />
Tính chất 3.3. Supp(C<br />
i 1 j 1<br />
i |D j ) = 1.<br />
<br />
Chứng minh<br />
Theo tính chất 3.1 ta có<br />
m m<br />
| Ci | |U |<br />
n | U | = | U | = 1.<br />
i 1<br />
Supp(C<br />
j 1<br />
i |D j ) = i 1<br />
<br />
<br />
<br />
1 1<br />
m n<br />
Tính chất 3.4. AVG(Supp(S)) = m.n Supp(Ci | D j ) = m.n .<br />
i 1 j 1<br />
<br />
Chứng minh tính chất 3.4 suy trực tiếp từ tính chất 3.3.<br />
1 1<br />
m n<br />
Tính chất 3.5. AVG(Acc(S)) = m.n Acc(Ci | D j ) = n<br />
i 1 j 1<br />
<br />
Chứng minh tính chất 3.5 suy trực tiếp từ tính chất 2.1<br />
1 1<br />
m n<br />
Tính chất 3.6. AVG(Cov(S)) = m.n Cov(Ci | D j ) = m<br />
i 1 j 1<br />
<br />
Chứng minh tính chất 3.6 suy từ tính chất 2.2.<br />
n<br />
Tính chất 3.7. <br />
j 1<br />
E(Ci|Dj) = n-1.<br />
<br />
Chứng minh<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 71<br />
Công nghệ thông tin & Khoa học máy tính<br />
<br />
n n n<br />
<br />
<br />
j 1<br />
E(Ci|Dj) = <br />
j 1<br />
( 1 - | Ci DJ| / | Ci|) = n - j 1<br />
| Ci DJ| / | Ci| = n – (| Ci D1| + | Ci<br />
<br />
D2|+ … + | Ci Dn|)/| Ci| = n – ( |Ci ( D1 D2 ... Dn)|)/ | Ci| = n - | Ci|/| Ci| = n-1.<br />
m n<br />
Tính chất 3.8. <br />
i 1 j 1<br />
E(Ci|Dj) = m(n-1).<br />
<br />
Chứng minh tính chất 3.8 suy từ tính chất 3.7.<br />
m n<br />
1 n 1<br />
Tính chất 3.9. AVG(E(S)) =<br />
m.n<br />
<br />
i 1 j 1<br />
E(Ci|Dj) =<br />
n<br />
Chứng minh tính chất 3.9 được suy từ định nghĩa và tính chất 3.8.<br />
<br />
Tính chất 3.10. Cho DS = ( U, C D ) là hệ quyết định nhất quán; U/C = { C1, C2, …,<br />
Cm}, U/D = { D1, D2, …, Dn}. Với Ci U/C ta có:<br />
a. Giá trị mỗi phần tử của ma trận Acc(C|D) chỉ có thể là 0 hoặc 1.<br />
b. Trên mỗi dòng của ma trận Acc(C|D) có duy nhất một số 1<br />
Ci<br />
c. Trên mỗi dòng của ma trận Cov(C|D) có duy nhất một phần tử Cov(Ci|Dj) =<br />
Dj<br />
3.2. Thuật toán tìm các luật quan trọng<br />
Lưu ý: liên quan giữa hai ma trận Acc(C|D) và Cov(C|D) là<br />
Ci<br />
Acc(Ci|Dj) =1 Cov(Ci|Dj) = .<br />
Dj<br />
Thuật toán tìm các luật quan trọng<br />
Input DS = ( U, C D ) là hệ quyết định nhất quán, minAcc, minCov;<br />
Output Tập các luật quan trọng IR.<br />
Thuật toán<br />
1. Tính U/C = {C1, C2, …, Cm}<br />
2. Tính U/D = {D1, D2, …, Dn}<br />
3. Tính Acc(C|D)<br />
4. Tính Cov(C|D)<br />
5. IR:= <br />
6. Với mỗi Cov(Ci|Dj) trong Cov(C|D) nếu Cov(Ci|Dj) > minCov then IR:= IR Ci → Dj<br />
7. Kết thúc vòng lặp 6 ta có tập luật quan trọng IR.<br />
4. MÔ PHỎNG VÍ DỤ<br />
Trong phần này chúng ta minh họa một ví dụ để làm sáng tỏ các ý tưởng vừa nêu ở các phần<br />
trên. Cho hệ quyết định nhất quán như trong bảng 1 với U = { x1, x2, …, x8 }, C = { a1, a2, a3},<br />
D ={d}. Khi đó U/C = {C1, C2, C3, C4, C5} và C1= { x1, x8 }, C2 = { x2}, C3 = { x3, x7 }, C4 = {<br />
x4 }, C5 = { x5, x6 }; U/D = {D1, D2} và D1= { x1, x2, x5, x6, x8 }, D2 = { x3, x4, x7}<br />
<br />
<br />
<br />
72 N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Bảng 1. Hệ quyết định nhất quán.<br />
U a1 a2 a3 d<br />
x1 1 1 1 1<br />
x2 1 1 0 1<br />
x3 2 0 0 0<br />
x4 0 0 0 0<br />
x5 2 2 0 1<br />
x6 2 2 0 1<br />
x7 2 0 0 0<br />
x8 1 1 1 1<br />
0.25 0.00 <br />
0.125 0.00 <br />
<br />
Supp(C|D) = 0.00 0.25 <br />
<br />
0.00 0.125 <br />
0.25 0.00 <br />
1.00 0.00 <br />
1.00 0.00 <br />
<br />
Acc(C|D) = 0.00 1.00 <br />
<br />
0.00 1.00 <br />
1.00 0.00 <br />
0.40 0.00 <br />
0.2 0.00 <br />
<br />
Cov(C|D) = 0.00 0.66 <br />
<br />
0.00 0.33 <br />
0.40 0.00 <br />
<br />
Trong trường hợp này ta có n = 2, m = 5 và AVG(supp(S)) = 0.1, AVG(Acc(S)) = 0.5,<br />
AVG(cov(S)) = 0.2.<br />
Từ Cov(C|D), nếu đặt minAcc = 0.5 và minCov = 0.4 ta có tập luật quan trọng:<br />
IR = { C1 → D1, C3 → D2, C5 → D1}.<br />
5. KẾT LUẬN<br />
Trong bài viết nhóm tác giả đã nêu được một số tính chất quan trọng liên quan các ma trận<br />
độ hỗ trợ, độ chính xác, độ phủ của các luật quyết định trong hệ quyết định. Từ đó nêu được<br />
thuật toán tìm luật quan trọng đơn giản và hiệu quả. Các kết quả trong bài viết sẽ làm cơ sở để<br />
các tác giả tiếp tục nghiên cứu và phát triển các kết quả mới.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Z. Pawlak, “Rough set theory and its application”. Journal of telecommunications and<br />
Information technology 3/2002.<br />
[2]. M. Beynon, N. Driffeld, “An illustration of variable precision rough sets model: an<br />
analysis of the finding of the UK Monopollies and Mergers Commission”. Computers and<br />
operations Research, 32, 2005, pp. 1739-1759.<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 73<br />
Công nghệ thông tin & Khoa học máy tính<br />
<br />
[3]. C. Su, J. Hsu, “Precision parameter in the variable precision rough sets model: an<br />
application”. The International Journal of Management Science, 34, 2006, pp. 149-157.<br />
[4]. S. Tsumoto, “Extraction of expert decision process from clinical databases using rough set<br />
model”. In Proceeding of PKDD 1997, pp. 58-67.<br />
[5]. S. sumoto, “Accuracy and coverage in rough set rule induction”. In: J. Alpigini et al.<br />
(Eds): RSCTC 2002, LNAI, 2475, pp. 373-380.<br />
[6]. W. Zarko, “Variable precision rough set model”. Journal of Computer and System<br />
Science, 46, 1993, pp. 39-59.<br />
[7]. Y. Yao, S.K.M. Wong, “A decision theoretic frmamework for approximating concept”.<br />
International Journal of Man-machine Studies, 37, 1992, pp. 793-809.<br />
[8]. Y. Yao, “Decision- theoretic rough set model”. In: The Second Iternational Conference on<br />
Rough Set and Knowledge Technology, LNAI, 4481, Springer, Heidelberg 2007, pp.1-12.<br />
[9]. Y. Yao, “Probabilistic rough set approximations”. International Journal of Approximate<br />
Reasoning, 49, 2008, pp. 255-271.<br />
[10]. A. Skowron, C. Rauszer, “The discernibility matrices and function in information<br />
system”. Intelligent Decision Support, Dordrecht, Kluwer Academic publishers, 1992, pp.<br />
331-362.<br />
[11]. L. Tong, L. An, “Incremental learning of decision rules based on rough set theory”. In:<br />
Proceedings of the Word Congress on Intelligent Control and Automation (WCICA<br />
2002), pp. 420-425.<br />
[12]. B. Jerzy, R. Slominski, “Incremental Induction of decision rules from dominance-based<br />
rough set approximation”. Electronic Notes in Theoretical ComputerScience, 82, 2003,<br />
pp. 40-51.<br />
[13]. Z. Zheng, G.Y. Wang, “RRIA: A rough set and rule tree based incremental knowledge<br />
acquisition algorithm”. Fundamenta Informaticae, 59(2-3), 2004, pp. 299-231.<br />
[14]. D. Liu, P. Hu, C. Jiang, “The methodology of the variable precision rough set increment study<br />
based on completely information system”. In the third International Conference on Rough<br />
Sets and Knowledge Technolgy, LNAI 5009, Springer, Heidlberg 2008, pp. 276-283.<br />
[15]. D. Liu, T. Li, D. Ruan, W. Zou, “An Incremental Approach for inducing knowledge from<br />
Dinamic Information Systems”. Fundamenta Informaticae, 94, 2009, pp. 245-260.<br />
ABSTRACT<br />
AN ALGORITHM FOR COMPUTING IMPORTANT RULES<br />
IN CONSISTENT DECISION SYSTEM<br />
Rough set analysis are closely related with accuracy and coverage. There have been<br />
studies and results of accuracy and coverage for rule induction have been discussed and<br />
showed in [1, 5, 6, 14, 15]. In this paper, the following characteristics of accuracy and<br />
coverage are further investigated.<br />
Keywords: The rough set, Support, Accuracy, Coverage, Data mining.<br />
<br />
Nhận bài ngày 30 tháng 7 năm 2015<br />
Hoàn thiện ngày 20 tháng 8 năm 2015<br />
Chấp nhận đăng ngày 22 tháng 10 năm 2015<br />
1<br />
Địa chỉ: Học viện Kỹ thuật quân sự;<br />
2<br />
Đại học Sư phạm kỹ thuật Hưng Yên.<br />
<br />
<br />
<br />
<br />
74 N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.”<br />