intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:9

55
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài báo này, đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định có miền giá trị thuộc tính số theo tiếp cận tập thô mờ. Phương pháp đề xuất sử dụng độ phụ thuộc mờ của thuộc tính nên hiệu quả hơn các phương pháp sử dụn

Chủ đề:
Lưu

Nội dung Text: Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ

Công nghệ thông tin & Khoa học máy tính<br /> <br /> RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH<br /> THEO TIẾP CẬN TẬP THÔ MỜ<br /> Cao Chính Nghĩa1*, Vũ Đức Thi2, Nguyễn Long Giang3<br /> Tóm tắt: Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thực<br /> hiện trên các bảng quyết định có miền giá trị thuộc tính rời rạc. Để thực hiện rút<br /> gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc tính số,<br /> hướng tiếp cận tập thô mờ được xem là hiệu quả và được các nhà nghiên cứu quan<br /> tâm hiện nay. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính<br /> trực tiếp trên bảng quyết định có miền giá trị thuộc tính số theo tiếp cận tập thô mờ.<br /> Phương pháp đề xuất sử dụng độ phụ thuộc mờ của thuộc tính nên hiệu quả hơn các<br /> phương pháp sử dụng độ đo entropy Shannon.<br /> Từ khóa: Tập thô, Tập thô mờ, Bảng quyết định, Quan hệ tương tự mờ, Rút gọn thuộc tính, Tập rút gọn.<br /> <br /> 1. MỞ ĐẦU<br /> Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý số liệu với mục tiêu là<br /> loại bỏ các thuộc tính dư thừa nhằm nâng cao tính hiệu quả của các thuật toán khai phá dữ<br /> liệu. Đối với các thuộc tính có miền giá trị số, liên tục cần được rời rạc hóa trước khi áp<br /> dụng các phương pháp rút gọn theo tiếp cận lý thuyết tập thô. Tuy nhiên, các phương pháp<br /> rời rạc hóa không bảo toàn được sự khác nhau ban đầu giữa các giá trị thuộc tính. Để giải<br /> quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc<br /> tính số không qua bước rời rạc hóa dữ liệu, trong mấy năm gần đây các nhà nghiên cứu<br /> quan tâm đến hướng tiếp cận mới sử dụng lý thuyết tập thô mờ.<br /> Lý thuyết tập thô mờ (Fuzzy Rough Set) [2,3] là sự kết hợp của lý thuyết tập thô và lý<br /> thuyết tập mờ nhằm xấp xỉ các tập mờ (fuzzy set) dựa trên quan hệ tương tự mờ (fuzzy<br /> similarity relation). Trong lý thuyết tập thô, hai đối tượng là tương đương trên tập thuộc<br /> tính R (độ tương tự là 1) nếu giá trị thuộc tính của chúng bằng nhau trên tất cả các thuộc<br /> tính thuộc R. Ngược lại, chúng là không tương đương (độ tương tự là 0). Trong lý thuyết<br /> tập thô mờ, quan hệ tương tự mờ thay thế quan hệ tương đương nhằm xác định độ tương<br /> tự của hai đối tượng. Độ tương tự là một giá trị nằm trong khoảng [0, 1] cho thấy tính gần<br /> nhau, hay tính tương tự, của hai đối tượng. Trong các công trình [1, 9], các tác giả xây<br /> dựng ma trận quan hệ mờ dựa trên một quan hệ tương tự mờ được định nghĩa trên miền<br /> giá trị thuộc tính. Từ đó, các tác giả xây dựng thuật toán tìm tất cả các tập rút gọn bằng<br /> cách mở rộng phương pháp rút gọn thuộc tính dựa trên ma trận phân biệt trong lý thuyết<br /> tập thô truyền thống. Trong công trình [5, 7], dựa trên ma trận quan hệ mờ được xây dựng,<br /> các tác giả tính toán lượng thông tin tăng thêm (information gain) của entropy Shanon mờ<br /> [5] và tính entropy Shannon có điều kiện mờ [7], trên cơ sở đó xây dựng thuật toán<br /> heuristic tìm một tập rút tối thiểu nhất dựa trên độ quan trọng của thuộc tính. Nhóm tác giả<br /> trong [5, 7] cũng minh chứng bằng thực nghiệm rằng, phương pháp của họ có độ chính xác<br /> phân lớp tốt hơn phương pháp rút gọn theo tiếp cận lý thuyết tập thô truyền thống trên một<br /> số bộ dữ liệu thử nghiệm.<br /> Trong bài báo này, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn của bảng<br /> quyết định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính trong tập<br /> thô mờ. Thuật toán đề xuất tìm một tập rút gọn tối thiểu nhất nhất theo độ quan trọng của<br /> thuộc tính, do đó hiệu quả hơn các công bố trong [1, 9]. Kết quả thử nghiệm trên một số<br /> bộ dữ liệu cho thấy, thời gian thực hiện của phương pháp đề xuất hiệu quả hơn phương<br /> pháp sử dụng độ đo entropy Shannon trong [5]. Cấu trúc bài báo như sau. Phần 2 trình bày<br /> một số khái niệm cơ bản trong lý thuyết tập thô và lý thuyết tập thô mờ. Phần 3 trình bày<br /> <br /> <br /> 110 C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp… tiếp cận tập thô mờ.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> phương pháp rút gọn thuộc tính sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận tập<br /> thô mờ. Phần 4 trình bày ví dụ minh họa của thuật toán. Phần 5 trình bày kết quả thử<br /> nghiệm. Cuối cùng là kết luận và hướng phát triển tiếp theo.<br /> 2. CÁC KHÁI NIỆM CƠ BẢN<br /> 2.1. Các khái niệm cơ bản trong lý thuyết tập thô<br /> Hệ thông tin là một cặp IS  U , A  trong đó U là tập khác rỗng, hữu hạn các đối<br /> tượng; A là tập khác rỗng, hữu hạn các thuộc tính. Mỗi thuộc tính a  A xác định một ánh<br /> xạ: a : U  Va với Va là tập giá trị của thuộc tính a  A . Bảng quyết định là hệ thông tin<br /> DS  U , C  D  với C  D   , D được gọi là tập thuộc tính quyết định, C được gọi là<br /> tập thuộc tính điều kiện.<br /> Cho bảng quyết định DS  U , C  D  , mỗi tập thuộc tính P  C xác định một quan<br /> hệ tương đương:<br /> IND  P    u , v   U  U  a  P , a u   a v  <br /> Ký hiệu phân hoạch của U sinh bởi quan hệ IND  P  là U / P và lớp tương đương<br /> <br />  <br /> chứa đối tượng u là u P , khi đó u P  v  U  u , v   IND  P  . Với X  U , các tập<br /> <br />    <br /> CX  u U uC  X và CX  u U uC  X   tương ứng gọi là C-xấp xỉ dưới, C-<br /> xấp xỉ trên của X. Ta gọi tập POSC ( D)    CX <br /> X U / D<br /> là C-miền dương của D. Dễ thấy<br /> <br /> POSC ( D ) là tập các đối tượng trong U được phân lớp đúng vào các lớp của U / D sử<br /> dụng tập thuộc tính C. Độ phụ thuộc của tập thuộc tính C vào tập thuộc tính D trong lý<br /> POSC  D<br /> thuyết tập thô truyền thống, ký hiệu là  C  D  , được định nghĩa: k   C  D <br /> U<br /> với S là lực lượng của tập S. Nếu k =1 thì D phụ thuộc hoàn toàn vào C. Nếu 0  k  1 , D<br /> phụ thuộc bộ phận vào C.<br /> 2.2. Ma trận quan hệ và tập thô mờ<br /> Cho U  x1 ,..., xn  là tập hữu hạn, khác rỗng n đối tượng, R là một quan hệ trên U .<br /> Ma trận quan hệ của R trên U , ký hiệu là M ( R ) , được xác định như sau [7]<br />  r11 r12 ... r1 n <br /> r r22 ... r2 n <br /> M ( R )   21<br />  ... ... ... ... <br />  <br />  rn 1 rn 2 ... rnn <br /> <br />  <br /> với rij  R xi , x j là giá trị của quan hệ giữa đối tượng xi và x j , rij   0,1 .<br /> Một quan hệ R xác định trên U được gọi là quan hệ tương tự mờ (fuzzy similarity<br /> relation) nếu thỏa mãn các điều kiện sau đây [7]<br /> 1) Tính phản xạ: R  x, x   1, x  U<br /> 2) Tính đối xứng: R  x, y   R  y , x  , x, y  U<br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 111<br /> Công nghệ thông tin & Khoa học máy tính<br /> <br /> 3) Tính bắc cầu Max-min: R  x, z   min  R  x, y  , R  y, z  với mọi x, y , z  U .<br /> Quan hệ tương tự mờ R có các tính chất sau đây [7]<br /> 1) R1  R 2  R1  x , y   R 2  x , y <br /> 2) R  R 1  R 2  R  x , y   m a x R 1  x , y  , R 2  x , y <br /> 3) R  R 1  R 2  R  x , y   m in R 1  x , y  , R 2  x , y <br /> 4) R 1  R 2  R 1  x , y   R 2  x , y <br /> Quan hệ tương tự mờ R xác định một phân hoạch mờ (fuzzy partition) trên U, ký hiệu<br /> n<br /> U / R   xi R  , với  xi R là một tập mờ, được gọi là lớp tương đương mờ.  xi R được<br /> i 1<br /> <br /> biểu diễn dựa trên lý thuyết tập mờ như sau:  x i    ri 1  ri 2  ...  rin  và lực lượng của<br /> R<br />  x1 x2 xn <br /> n<br /> tập mờ  xi R được tính:  x i   r ij<br /> R<br /> j 1<br /> <br /> Dễ thấy rằng, hàm thuộc của các đối tượng u j  U đối với lớp tương đương mờ ui R<br /> <br />    <br /> là ui  u j  R ui , u j  rij .<br /> R<br /> <br /> Giả sử F là một tập mờ trên U và R là một quan hệ tương tự mờ, khi đó tập mờ xấp xỉ<br /> dưới R  F  và tập mờ xấp xỉ trên R  F  của F là các tập mờ và hàm thuộc của các đối<br /> tượng x  U được xác định như sau [2, 3]<br />  R  F   x   inf max 1   R  x , y  ,  F  y   (1)<br /> yU<br /> <br />  R  F   x   sup m in   R  x , y  ,  F  y   (2)<br /> y U<br /> <br /> Với  x   y   R  x, y  , khi đó tập mờ xấp xỉ dưới R  F  và tập mờ xấp xỉ trên<br /> R<br /> <br /> <br /> R  F  được viết lại như sau:<br /> <br /> y U<br /> <br />  R  F   x   inf m ax 1    x <br /> R<br />  y  ,  F  y  (3)<br />  RF   x   sup min     x R<br />  y  ,  F  y  (4)<br /> y U<br /> <br /> <br />  <br /> Cặp R  F  , R  F  được gọi là tập thô mờ [2, 3]. Dễ thấy rằng một tập hợp (tập rõ) bất<br /> kỳ X  U có thể xem là một tập mờ, hàm thuộc  X  y   1 với y  X và  X  y   0<br /> với y  X . Mô hình tập thô mờ có thể xem là việc sử dụng quan hệ tương tự mờ để xấp<br /> xỉ tập mờ (hoặc tập rõ) bằng tập mờ xấp xỉ dưới và tập mờ xấp xỉ trên.<br /> Cho bảng quyết định có miền giá trị thuộc tính số DS  U , C  D  với<br /> U  u1 ,..., u n  , C  c1 ,..., cm  . Giả sử một quan hệ tương tự mờ R xác định trên miền giá<br /> <br />  <br /> trị của thuộc tính C. Ta ký hiệu R ck  là quan hệ R xác định trên thuộc tính điều kiện<br /> ck  C , k  1..m và R  C  là quan hệ R xác định trên tập thuộc tính điều kiện C. Khi đó,<br /> khái niệm miền dương POSC  D  trong lý thuyết tập thô truyền thống được mở rộng<br /> thành khái niệm miền dương mờ của tập thuộc tính D đối với tập thuộc tính C dựa trên<br /> <br /> <br /> <br /> 112 C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp… tiếp cận tập thô mờ.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> quan hệ R, ký hiệu là POS RC   D  . POS RC   D  là một tập mờ mà hàm thuộc của các<br /> đối tượng x  U được định nghĩa như sau [7].<br /> POS  R C D  x  sup RC  X   x  (5)<br /> X U / D<br /> Dựa trên khái niệm miền dương mờ, độ phụ thuộc của tập thuộc tính điều kiện C vào<br /> tập thuộc tính quyết định D dựa trên quan hệ R được định nghĩa theo tiếp cận tập thô mờ<br /> như sau [7].<br />  PO S D  x  xU<br />  PO S D  x<br />  R C   D  <br /> R C <br />  R C <br /> (6)<br /> U U<br /> Cho bảng quyết định có miền giá trị thuộc tính số DS  U , C  D  với P, Q  C và<br /> R  P  , R  Q  là quan hệ R trên tập thuộc tính P, Q tương ứng. Khi đó ta có<br /> R  P  Q   R  P   R Q  [7], nghĩa là với mọi x, y  U ,<br /> R  P  Q  x, y   min R  P  x, y  , R Q  x, y  . Giả sử M  R  P     rijR P   và<br />   n n<br /> <br /> M  R  Q     rijRQ   là ma trận quan hệ của R trên tập thuộc tính P và Q tương ứng, khi<br /> n n<br /> <br /> đó ma trận quan hệ của R trên tập thuộc tính P  Q là:<br /> <br /> M  R  P  Q     rijR PQ  <br /> n n<br /> <br /> với rijR PQ   min rijR P  , rijRQ   (7)<br /> <br /> 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ LIÊN<br /> TỤC SỬ DỤNG ĐỘ PHỤ THUỘC CỦA THUỘC TÍNH<br /> Trong phần này, chúng tôi trình bày phương pháp rút gọn thuộc tính của bảng quyết<br /> định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính trong tập thô<br /> mờ. Phương pháp đề xuất bao gồm các bước: định nghĩa tập rút gọn dựa trên độ phụ thuộc<br /> mờ của thuộc tính trong tập thô mờ, định nghĩa độ quan trọng của thuộc tính trong tập thô<br /> mờ và xây dựng thuật toán heuristic tìm tập rút gọn tối thiểu nhất dựa trên tiêu chuẩn độ<br /> quan trọng của thuộc tính.<br /> Định nghĩa 1. Cho bảng quyết định có miền giá trị thuộc tính số DS  U , C  D  , quan hệ<br /> tương tự mờ R và tập thuộc tính P  C . Nếu:<br /> 1)  R P  ( D )   RC  ( D )<br /> 2) p  P,  R P  p ( D )   RC  ( D )<br /> thì P là một tập rút gọn nhỏ nhất của C dựa trên độ phụ thuộc mờ của thuộc tính.<br /> Định nghĩa 2. Cho bảng quyết định có miền giá trị thuộc tính số DS  U , C  D  và quan<br /> hệ tương tự mờ R xác định trên miền giá trị thuộc tính. Với B  C , độ quan trọng của thuộc<br /> tính b  C  B đối với tập thuộc tính B dựa trên quan hệ R được định nghĩa:<br /> SIGR B   b    R Bb  D    R B   D  (8)<br /> Độ quan trọng của thuộc tính được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho<br /> thuật toán heuristic tìm tập rút gọn nhỏ nhất sau đây.<br /> Thuật toán F_RSAR (Fuzzy Rough Set based Attribute Reduction) Thuật toán heuristic<br /> tìm một tập rút gọn sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận tập thô mờ.<br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 113<br /> Công nghệ thông tin & Khoa học máy tính<br /> <br /> Đầu vào: Bảng quyết định giá trị thuộc tính số DS  U , C  D  , quan hệ tương tự<br /> mờ R.<br /> Đầu ra: Một tập rút gọn nhỏ nhất P .<br /> 1. P   ;  R  D   0 ;<br /> 2. Tính ma trận quan hệ M(R(C));<br /> 3. Tính  R C   D  ;<br /> // Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất<br /> 4. While  R P   D    R C   D  do<br /> 5. Begin<br /> 6. For c  C  P tính SIG R  P   c    R  P c  D    R  P   D  ;<br /> <br /> 7. Chọn cm  C  P sao cho SIGR P   cm   Max SIGR P   c  ;<br /> cC  P<br />  <br /> 8. P  P  cm  ;<br /> 9. Tính  R P   D  ;<br /> 10. End;<br /> //Loại bỏ các thuộc tính dư thừa trong P nếu có<br /> 11. For each a  P<br /> 12. Begin<br /> 13. Tính  R  P a  D  ;<br /> <br /> 14. If  R  P a  D    R  C   D  then P  P  a ;<br /> 15. End;<br /> 16. Return P;<br /> Ví dụ 1. Xét bảng quyết định DS  U , C  d  cho ở Bảng 1 với U  u1 , u2 , u3 , u4 , u5 , u6  ,<br /> C  c1 , c2 , c3 , c4 , c5 , c6  .<br /> Bảng 1. Bảng quyết định mô tả ví dụ 1.<br /> c1 c2 c3 c4 c5 c6 d<br /> u1 0.8 0.2 0.6 0.4 1 0 No<br /> u2 0.8 0.2 0 0.6 0.2 0.8 Yes<br /> u3 0.6 0.4 0.8 0.2 0.6 0.4 No<br /> u4 0 0.4 0.6 0.4 0 1 Yes<br /> u5 0 0.6 0.6 0.4 0 1 Yes<br /> u6 0 0.6 0 1 0 1 No<br />  <br /> Định nghĩa quan hệ tương tự mờ R ck  ; k  1..6 trên ck  C như sau:<br />  xi  x j xi  x j<br /> 1  4 * ,  0 .2 5<br /> R c k  ( u i , u j )   m a x ( c k )  m in ( c k ) m a x ( c k )  m in ( c k ) (9)<br /> <br />  0, o th e rw ise<br /> <br /> <br /> <br /> 114 C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp… tiếp cận tập thô mờ.”<br /> Nghiên cứu khoa học công nghệ<br /> <br />  <br /> M R C được tính thông qua các ma trận quan hệ tương tự mờ trên các thuộc tính<br /> <br />   <br /> điều kiện M R ck  ; k  1..6 . Từ đó tính được  R C   d   .<br />  1 0 0 0 0 0<br />  <br /> 0 1 0 0 0 0<br /> 0 0 1 0 0 0  xU<br />  POS d  x <br /> M ( R  C )   ,  R  C   d     <br /> RC<br /> 1<br /> 0 0 0 1 0 0<br /> U<br /> 0 0 0 0 1 0<br />  0 0 0 0 0<br /> <br /> 1 <br /> <br /> Áp dụng các bước của Thuật toán F_RSAR tìm được tập rút gọn nhỏ nhất<br /> P  c4 , c1 .<br /> Thuật toán F_RSAR tìm được một tập rút gọn nhỏ nhất dựa trên độ quan trọng của<br /> thuộc tính nên hiệu quả hơn các thuật toán tìm tất cả các tập rút gọn theo hướng tiếp cận<br /> ma trận phân biệt trong các công trình [1, 9]. Thuật toán F_RSAR sử dụng độ phụ thuộc<br /> của thuộc tính để tìm tập rút gọn, do đó có khối lượng tính toán nhỏ hơn các thuật toán<br /> theo hướng tiếp cận entropy Shannon trong [5, 7]. Dễ thấy rằng, tập rút gọn thu được của<br /> Thuật toán F_RSAR bảo toàn miền dương mờ.<br /> 4. THỬ NGHIỆM<br /> Chúng tôi chọn thuật toán GAIN_RATIO_AS_FRS (Gọi tắt là thuật toán GRAF) tìm<br /> tập rút gọn sử dụng lượng thông tin tăng thêm (gain ratio) theo tiếp cận tập thô mờ trong<br /> công trình [5] để so sánh với thuật toán đề xuất F_RSAR về thời gian thực hiện và kết quả<br /> thực hiện. Sở dĩ chọn thuật toán GRAF vì đây là thuật toán heuristic tìm một tập rút gọn<br /> tối thiểu nhất của bảng quyết định miền giá trị thuộc tính số sử dụng entropy Shannon theo<br /> tiếp cận thô mờ. Thuật toán GRAF được trình bày cụ thể trong công trình [5], tóm lược<br /> như sau:<br /> Thuật toán GRAF (GAIN_RATIO_AS_FRS) Tìm một tập rút gọn tốt nhất của bảng<br /> quyết định theo tiếp cận tập thô mờ.<br /> Đầu vào: Bảng quyết định giá trị thuộc tính số DS  U , C  D  , P, Q  C , quan<br /> hệ tương tự mờ R.<br /> Đầu ra: Một tập rút gọn nhỏ nhất P .<br /> 1. P  ;<br /> <br /> 2. For a  C  P , tính độ quan trọng của thuộc tính a, Gain _ Ratio(a, P, D );<br /> <br /> 3. Chọn thuộc tính a sao cho Gain _ Ratio(a, P, D) đạt giá trị lớn nhất;<br /> <br /> 4. If Gain _ Ratio(a, P, D)  0 , then P  P  {a} goto 2, else goto 5;<br /> 5. P là tập thuộc tính được chọn.<br /> Trong đó:<br />  (a, B, D)<br /> Gain H (B {a})  H ((B {a})D)  H (B)  H (BD)<br /> <br /> Gain _ Ratio(a, B, D)  <br /> H ({a}) H ({a})<br /> (10)<br /> 1 n [x ] 1 n [ xi ]P  [ xi ]Q<br /> Với H ( R)    log i R ; H ( RP RQ )    log<br /> n i 1 n n i 1 n<br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 115<br /> Công nghệ thông tin & Khoa học máy tính<br /> <br /> Thuật toán GRAF[5] có độ phức tạp tính toán hàm đa thức do sử dụng ma trận quan hệ<br /> 2<br /> trên các thuộc tính, độ phức tạp tính toán của các ma trận quan hệ là O ( C U ) với C là<br /> số lượng thuộc tính điều kiện, U là số lượng phần tử của bộ dữ liệu. Do vậy, độ phức tạp<br /> 3 2<br /> tính toán của GRAF và F_RSAR đều là O ( C U ) . Thuật toán GRAF được xây dựng<br /> dựa trên việc tính lượng thông tin tăng thêm khi thêm dần các thuộc tính điều kiện vào tập<br /> rút gọn, khi nào lượng thông tin không tăng nữa thì kết thúc nên đảm bảo được các điều<br /> kiện của định nghĩa 1 để tìm ra một tập rút gọn tối thiểu nhất, loại bỏ được các thuộc tính<br /> dư thừa của tập rút gọn. Hơn nữa, theo hiểu biết của tác giả thì đây là công bố tốt nhất cho<br /> đến thời điểm năm 2015 về hướng nghiên cứu của bài báo. Để tiến hành thử nghiệm,<br /> chúng tôi thực hiện các công việc sau:<br /> 1) Cài đặt thuật toán GRAF trong [5] và Thuật toán F_RSAR bằng ngôn ngữ C#. Cả hai<br /> thuật toán đều sử dụng quan hệ tương tự mờ xác định bởi công thức (9).<br /> 2) Trên máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ<br /> RAM, hệ điều hành Windows 7, chạy thử nghiệm hai thuật toán với 5 bộ số liệu lấy từ kho<br /> dữ liệu UCI [10]. Với mỗi bộ số liệu, giả sử U là số đối tượng, C là số thuộc tính điều<br /> kiện, R là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán (đơn vị là giây<br /> s), các thuộc tính điều kiện được đánh số là 1, 2,…, C . Kết quả thực hiện của hai thuật<br /> toán được mô tả ở bảng 2 và bảng 3:<br /> Bảng 2. Kết quả thực hiện Thuật toán F_RSAR và Thuật toán GRAF[5].<br /> Thuật toán Thuật toán<br /> STT Bộ số liệu U C F_RSAR GRAF[5]<br /> R t R t<br /> 1 Ionosphere 351 34 12 1.02 12 1.04<br /> 2 Wpbc 198 33 15 0.67 17 0.68<br /> 3 Wine 178 13 6 0.26 6 0.26<br /> 4 Glass 214 9 7 0.46 8 0.48<br /> 5 Magic04 19020 10 9 6.09 9 6.28<br /> <br /> Bảng 3. Tập rút gọn của Thuật toán F_RSAR và Thuật toán GRAF[5].<br /> Tập rút gọn của Tập rút gọn của<br /> STT Tập dữ liệu<br /> Thuật toán F_RSAR Thuật toán GRAF[5]<br /> 1,2,4,5,8,9,10,24,26,27, 1,2,4,5,8,9,10,24,26,27,29<br /> 1 Ionosphere<br /> 29,33 ,33<br /> 1,3,4,5,7,12,13,15,18,2 1,3,4,5,7,12,13,15,17,18,2<br /> 2 Wpbc<br /> 4,25,26,28,32,33 0,24,25,26,28,32,33<br /> 3 Wine 1,3,4,8,9,12 1,3,4,8,9,12<br /> 4 Glass 1,2,4,5,6,8,9 1,2,4,5,6,7,8,9<br /> 5 Magic04 1,2,3,4,5,7,8,9,10 1,2,3,4,5,7,8,9,10<br /> Kết quả thử nghiệm cho thấy:<br /> - Trên các bộ số liệu Ionosphere.data, Wine.data, Magic04.data, tập rút gọn thu được<br /> bởi Thuật toán F_RSAR và Thuật toán GRAF là như nhau. Tuy nhiên, với bộ số liệu<br /> <br /> <br /> 116 C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp… tiếp cận tập thô mờ.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> Wpbc.data, Glass.data, tập rút gọn thu được bởi Thuật toán F_RSAR tối thiểu hơn tập rút<br /> gọn thu được bởi Thuật toán GRAF.<br /> - Thời gian thực hiện Thuật toán F_RSAR thường nhỏ hơn Thuật toán GRAF, đặc biệt<br /> là trên các bộ số liệu lớn thì độ chênh lệch càng nhiều.<br /> 5. KẾT LUẬN<br /> Mô hình tập thô mờ do D. Dubois và các cộng sự [2, 3] đề xuất là công cụ hiệu quả để<br /> giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị<br /> thuộc tính số. Trong bài báo này, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn<br /> của bảng quyết định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính<br /> theo tiếp cận tập thô mờ. Độ phụ thuộc mờ của thuộc tính được xác định dựa trên ma trận<br /> quan hệ xác định bởi quan hệ tương tự mờ ở công thức (9). Thực nghiệm trên các bộ số<br /> liệu UCI cho thấy, tập rút gọn thu được bởi thuật toán đề xuất F_RSAR có số thuộc tính<br /> nhỏ hơn thuật toán GRAF trong [5] trên một số bộ dữ liệu. Do đó, độ hỗ trợ của tập luật trên<br /> tập rút gọn của thuật toán F_RSAR cao hơn so với thuật toán GRAF trong [5]. Hơn nữa,<br /> thời gian thực hiện thuật toán F_RSAR nhỏ hơn so với thuật toán GRAF trong [5] bởi<br /> thuật toán F_RSAR không sử dụng các công thức logarit, đặc biệt là trên một số bộ dữ liệu<br /> lớn. Định hướng nghiên cứu tiếp theo là tìm kiếm các độ đo hiệu quả để giải quyết bài<br /> toán rút gọn thuộc tính theo tiếp cận tập thô mờ.<br /> TÀI LIỆU THAM KHẢO<br /> [1]. Chen Degang, Lei Zhang, Suyun Zhao, Qinghua Hu, and Pengfei Zhu, “A Novel<br /> Algorithm for Finding Reducts With Fuzzy Rough Sets”, IEEE TRANSACTIONS ON<br /> FUZZY SYSTEMS, VOL. 20, NO. 2, pp. 385 - 389 , 2012.<br /> [2]. D. Dubois and H. Prade, “Putting rough sets and fuzzy sets together”, Intelligent<br /> Decision Support, Kluwer Academic Publishers,Dordrecht, 1992.<br /> [3]. Dubois, D. and Prade, H., “Rough fuzzy sets and fuzzy rough sets”, International<br /> Journal of General Systems, 17, pp. 191-209, 1990.<br /> [4]. F.F. Xu, D.Q. Miao and L. Wei, “Fuzzy-rough attribute reduction via mutual<br /> information with an application to cancer classification”, Computers and<br /> Mathematics with Applications 57, pp. 1010 -1017, 2009.<br /> [5]. Jianhua Dai and Qing Xu, “Attribute selection based on information gain ratio in<br /> fuzzy rough set theory with application to tumor classification”, Applied Soft<br /> Computing 13, pp. 211–221, 2013.<br /> [6]. Qiang He, Congxin Wu, Degang Chen, Suyun Zhao, “Fuzzy rough set based attribute<br /> reduction for information systems with fuzzy decisions”, Knowledge-Based Systems<br /> 24 (2011), pp. 689–696, 2011.<br /> [7]. Qinghua Hu, Daren Yu, Zongxia Xie, “Information-preserving hybrid data reduction<br /> based on fuzzy-rough techniques”, Pattern Recognition Letters 27, 2006, pp. 414-423.<br /> [8]. R. Jensen and Q. Shen., “Fuzzy-Rough Sets for Descriptive Dimensionality<br /> Reduction”, Proceedings of the 2002 IEEE International Conference on Fuzzy<br /> Systems ,FUZZ-IEEE'02, pp. 29-34, 2002.<br /> [9]. Zhao Ming, Yan Zhengbo, Zhou Liukun, Wang Huijie and Xu Xiaogang, “The<br /> Extraction Method of the Energy Consumption Characteristics Based on Fuzzy Rough<br /> Set”, Proceedings of Conference on Computational Intelligence and Bioinformatics<br /> (AASRI), pp. 142 – 149, 2012.<br /> [10]. The UCI machine learning repository, http://archive.ics.uci.edu/ml/datasets.html<br /> <br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 117<br /> Công nghệ thông tin & Khoa học máy tính<br /> <br /> ABSTRACT<br /> <br /> FUZZY ROUGH SET BASED ON THE DIRECTLY ATTRIBUTE<br /> REDUCTION IN DECISION TABLES<br /> <br /> Attribute reduction methods based on the approach rough set perform on the<br /> decision table with discrete attribute value domain. To perform a attribute<br /> reduction directly on the decision table with the numerical attribute value, fuzzy<br /> rough set approach is considered effective and researchers are now interested. In<br /> this paper, we propose a method attribute reduction directly on the decision table<br /> with the numerical attribute value according to fuzzy rough set approach. The<br /> proposed method uses degree of dependence between attributes is more efficient<br /> than the method of using the Shannon entropy measure.<br /> Keywords: Rough set, Fuzzy rough set, Decision table, fuzzy similarity relation, Attribute redection, Reduct.<br /> <br /> Nhận bài ngày 25 tháng 3 năm 2016<br /> Hoàn thiện ngày 25 tháng 4 năm 2016<br /> Chấp nhận đăng ngày 09 tháng 6 năm 2016<br /> 1<br /> Địa chỉ: Học viện Cảnh sát Nhân dân;<br /> 2<br /> Đại học Sư phạm kỹ thuật Hưng Yên;<br /> 3<br /> Viện Công nghệ thông tin, Viện Hàn lâm Khoa học & Công nghệ Việt Nam.<br /> *Email: ccnghia@gmail.com<br /> <br /> <br /> <br /> <br /> 118 C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp… tiếp cận tập thô mờ.”<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2