intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi sử dụng khoảng cách

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:10

60
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu về rút gọn thuộc tính đã thu hút đông đảo cộng đồng nghiên cứu về tập thô tham gia. Tuy nhiên, hầu hết các phương pháp rút gọn thuộc tính đều thực hiện trên các bảng quyết định cố định, không thay đổi. Sử dụng độ đo khoảng cách, trong bài báo này chúng tôi đề xuất các thuật toán tìm tập rút gọn của bảng quyết định khi bổ sung và loại bỏ đối tượng. Vì không phải thực hiện lại thuật toán trên toàn bộ tập đối tượng nên các thuật toán đề xuất giảm thiểu đáng kể độ phức tạp về thời gian thực hiện.

Chủ đề:
Lưu

Nội dung Text: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi sử dụng khoảng cách

Nghiên cứu khoa học công nghệ<br /> <br /> <br /> Ph­¬ng ph¸p gi¸ t¨ng rót gän thuéc tÝnh<br /> trong b¶ng quyÕt ®Þnh thay ®æi<br /> sö dông kho¶ng c¸ch<br /> NGUYỄN LONG GIANG*, VŨ VĂN HUÂN**<br /> Tóm tắt: Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu về rút gọn thuộc tính đã thu<br /> hút đông đảo cộng đồng nghiên cứu về tập thô tham gia. Tuy nhiên, hầu hết các phương<br /> pháp rút gọn thuộc tính đều thực hiện trên các bảng quyết định cố định, không thay đổi. Sử<br /> dụng độ đo khoảng cách, trong bài báo này chúng tôi đề xuất các thuật toán tìm tập rút gọn<br /> của bảng quyết định khi bổ sung và loại bỏ đối tượng. Vì không phải thực hiện lại thuật<br /> toán trên toàn bộ tập đối tượng nên các thuật toán đề xuất giảm thiểu đáng kể độ phức tạp<br /> về thời gian thực hiện.<br /> Từ khóa: Tập thô, Bảng quyết định, Rút gọn thuộc tính, Tập rút gọn, Khoảng cách.<br /> <br /> <br /> 1. MỞ ĐẦU<br /> Trong lý thuyết tập thô, chủ đề nghiên cứu về rút gọn thuộc tính đã và đang thu hút sự<br /> quan tâm của đông đảo các nhà nghiên cứu [1]. Tuy nhiên, phần lớn các nghiên cứu về rút<br /> gọn thuộc tính đều được thực hiện trên các bảng quyết định với tập đối tượng và tập thuộc<br /> tính cố định, không thay đổi. Trong các bài toán thực tế, các bảng quyết định luôn bị cập<br /> nhật và thay đổi với các trường hợp: bổ sung hoặc loại bỏ tập đối tượng, bổ sung hoặc loại<br /> bỏ tập thuộc tính, cập nhật tập đối tượng đã tồn tại. Mỗi khi thay đổi như vậy, chúng ta lại<br /> phải thực hiện lại các thuật toán tìm tập rút gọn trên toàn bộ tập đối tượng, do đó chi phí<br /> về thời gian thực hiện thuật toán tìm tập rút gọn sẽ rất lớn.<br /> Trong mấy năm gần đây, một số công trình nghiên cứu đã xây dựng các phương pháp<br /> gia tăng rút gọn thuộc tính trên bảng quyết định thay đổi dựa trên các độ đo khác nhau<br /> [4,5,8,9]. Trong [4,5,9], các tác giả đã xây dựng phương pháp gia tăng tìm tập rút gọn dựa<br /> trên miền dương và ma trận phân biệt khi bổ sung tập đối tượng mới. Trong [8], các tác<br /> giả đã xây dựng các công thức tính các độ đo entropy (entropy Shannon, entropy Liang,<br /> entropy kết hợp) khi bổ sung, loại bỏ các thuộc tính. Tuy nhiên, các công thức tính toán<br /> entropy trong [8] còn phức tạp. Hơn nữa, các công trình trên chưa giải quyết đầy đủ các<br /> trường hợp đối với bảng quyết định thay đổi với các trường hợp nêu trên.<br /> Sử dụng độ đo khoảng cách trong công trình số [2], trong bài báo này chúng tôi đề xuất<br /> hai thuật toán gia tăng tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung và<br /> loại bỏ đối tượng. Thuật toán đề xuất sử dụng độ đo khoảng cách nên giảm thiểu đáng kể<br /> thời gian thực hiện so với các thuật toán sử dụng entropy Shannon trong [8].<br /> Cấu trúc bài báo như sau. Phần 2 trình bày một số khái niệm cơ bản trong lý thuyết tập<br /> thô. Phần 3 trình bày hai thuật toán tìm tập rút gọn sử dụng khoảng cách trong trường hợp<br /> bổ sung và loại bỏ đối tượng. Phần 4 là kết luận và định hướng nghiên cứu tiếp theo.<br /> 2. CÁC KHÁI NIỆM CƠ BẢN<br /> Phần này trình bày một số khái niệm cơ bản trong lý thuyết tập thô do Pawlak [7] đề<br /> xuất. Hệ thông tin là một cặp IS  U , A  trong đó U là tập hữu hạn, khác rỗng các đối<br /> tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính a  A xác định một ánh<br /> xạ: a : U  Va với Va là tập giá trị của thuộc tính a. Cho hệ thông tin IS  U , A  , mỗi<br /> tập thuộc tính PA xác định một quan hệ tương đương:<br /> <br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 53<br /> Kỹ thuật điện tử & Khoa học máy tính<br /> <br /> <br />  <br /> IND  P    u , v   U  U a  P, a  u   a  v  . Ký hiệu phân hoạch của U sinh bởi<br /> quan hệ IND  P  là U / P và lớp tương đương chứa đối tượng u là u P , khi đó<br /> <br /> u P  v U  u, v   IND  P  . Cho hệ thông tin IS  U , A . Với B  A và X  U ,<br /> các tập BX  u  U u B  X  và BX  u  U u B  X   tương ứng gọi là B-<br /> xấp xỉ dưới, B-xấp xỉ trên của X.<br /> Bảng quyết định là một dạng đặc biệt của hệ thông tin, trong đó tập thuộc tính A bao gồm<br /> hai tập con tách biệt nhau: tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D.<br /> Như vậy, bảng quyết định là một hệ thông tin DS  U , C  D  trong đó C  D   . Với<br /> bảng quyết định DS  U , C  D  , ta gọi tập POSC ( D)    CD <br /> Di U / D<br /> i là C-miền<br /> <br /> dương của D. Dễ thấy POSC ( D) là tập các đối tượng trong U được phân lớp đúng vào các lớp<br /> quyết định của D nếu sử dụng tập thuộc tính điều kiện C. Bảng quyết định DS được gọi là nhất<br /> quán khi và chỉ khi POSC ( D )  U , ngược lại DS là không nhất quán.<br /> Rút gọn thuộc tính là lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn<br /> thông tin phân lớp của bảng quyết định. Trong hai thập kỷ trở lại đây, nhiều phương pháp rút gọn<br /> thuộc tính được công bố [1]. Mỗi phương pháp đều đưa ra một khái niệm về tập rút gọn và xây<br /> dựng thuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên tiêu chuẩn là chất lượng phân lớp<br /> của thuộc tính. Các phương pháp điển hình được trình bày trong [1] là: phương pháp miền<br /> dương, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng đại số quan hệ, phương<br /> pháp sử dụng entropy thông tin, phương pháp sử dụng tính toán hạt, phương pháp sử dụng<br /> khoảng cách (metric). Các nghiên cứu trong [1] cho thấy hầu hết các phương pháp rút gọn thuộc<br /> tính đều thực hiện trên bảng quyết định cố định, không thay đổi. Dựa vào ý tưởng tính toán gia<br /> tăng trong các công trình [4,5,9], phần tiếp theo chúng tôi trình bày phương pháp rút gọn<br /> trong bảng quyết định thay đổi sử dụng khoảng cách trong hai trường hợp: bổ sung đối<br /> tượng và loại bỏ đối tượng.<br /> <br /> 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI<br /> SỬ DỤNG KHOẢNG CÁCH<br /> 3.1. Khoảng cách giữa hai phân hoạch<br /> Một khoảng cách trên tập hợp U là một ánh xạ d : U  U   0,   thỏa mãn các điều<br /> kiện sau với mọi x, y, z  U [3]<br /> P 1 d  x, y   0 , d  x, y   0 khi và chỉ khi x  y .<br /> P  2  d  x, y   d  y , x  .<br /> P  3  d  x , y   d  y , z   d  x, z  .<br /> Điều kiện P(3) được gọi là bất đẳng thức tam giác.<br /> Trong công trình số [2], tác giả đã xây dựng công thức tính khoảng cách giữa hai phân<br /> hoạch dựa trên độ đo entropy Liang [6].<br /> Định nghĩa 1. [6] Cho bảng quyết định DS  U , C  D  với P, Q  C . Giả sử ta có<br /> hai phân hoạch U / P  {P1 , P2 ,...., Pm }, U / Q  {Q1 , Q2 ,..., Qn } . Entropy Liang có điều<br /> kiện của Q khi đã biết P được định nghĩa bởi<br /> <br /> <br /> 54 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> c c<br /> n m<br /> Qi  Pj Qi  Pj<br /> E (Q P )   với Qic  U  Qi , Pjc  U  Pj .<br /> i 1 j 1 U U<br /> <br /> Mệnh đề 1. [2] Cho bảng quyết định DS  U , C  D  với P, Q  C . Giả sử<br /> K  P   U / P  {P1 , P2 ,..., Pm } và K  Q   U / Q  {Q1 , Q2 ,..., Qn } . Khi đó<br /> d  K  P  , K Q   E  P Q   E Q P  .<br /> là khoảng cách entropy giữa hai phân hoạch K  P  và K  Q  .<br /> Mệnh đề 1 cho thấy công thức tính khoảng cách d K  P  , K  Q  thỏa mãn điều kiện  <br /> bất đẳng thức tam giá P(3). Từ mệnh đề 1, chúng tôi xây dựng công thức tính khoảng cách<br /> <br /> d K  B  , K  B  D  như sau: <br /> Mệnh đề 2. Cho bảng quyết định DS  U , C  D  với B  C . Giả sử ta có hai phân<br /> hoạch K  B  U / B  {X1, X2 ,...Xm} và K  D   U / D  {Y1 , Y2 ,..., Yn } . Khi đó:<br /> n m<br /> 1<br /> d  K  B  , K  B  D   2  Y  X i j X j  Yi<br /> U i 1 j 1<br /> <br /> Chứng minh. Với u  U ta có u B  D  u B  u D , do đó các phần tử của phân<br /> hoạch U / B  D sẽ là Yi  X j khác rỗng với i  1,..., n và j  1,..., m . Từ đó ta có:<br /> <br /> <br /> E BBD <br /> m n <br /> Xj Yi Xj  Yi Xj   Xj Yi Xj   m n Yi Xj Yi Xj  Yi Xj <br /> j1 i1 U U<br /> <br /> j1 i1 U U<br /> 0<br /> <br /> n m Y  X   C<br /> i j j X j  Yi  X j  1 n m<br /> E  B  D B    2  Y  X i j X j  Yi .<br /> i 1 j 1 U U U i 1 j 1<br /> <br /> n m<br /> 1<br /> <br /> Do đó: d K  B  , K  B  D    2  Y  X i j X j  Yi .<br /> U i 1 j 1<br /> <br /> <br /> Định nghĩa 2. Cho bảng quyết định DS  U , C  D  và tập thuộc tính R  C . Nếu<br /> 1) d  K  R  , K  R  D    d  K  C  , K  C  D  <br /> 2) r  R , d ( K  R  r , K  R  r  D )  d ( K  C  , K  C  D )<br /> thì R là một rút gọn của C dựa trên khoảng cách.<br /> Phần tiếp theo, chúng tôi xây dựng công thức tính khoảng cách khi bổ sung và loại bỏ<br /> đối tượng.<br /> 3.2. Công thức tính khoảng cách khi bổ sung một đối tượng mới<br /> Cho bảng quyết định DS  U , C  D  với B  C . Giả sử ta có hai phân hoạch<br /> K  B   U / B  { X 1 , X 2 ,... X m } và K  D   U / D  {Y1 , Y2 ,..., Yn } . Khoảng cách giữa<br /> K  B  và K  B  D  là dU  K  B  , K  B  D   .<br /> <br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 55<br /> Kỹ thuật điện tử & Khoa học máy tính<br /> <br /> Mệnh đề 3. Giả sử đối tượng x được bổ sung vào U , khi đó ta có:<br /> 1) Nếu x  X j với mọi j  1..m và x  Yi với mọi i  1..n thì<br /> 2<br /> U<br /> dU x  K  B  , K  B  D    2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> 2) Nếu x  X j với mọi j  1..m và x  Yq với q  n thì<br /> 2<br /> U<br /> dU x  K  B  , K  B  D    2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> 3) Nếu x  X p với p  m và x  Yi với mọi i  1..n thì<br /> 1<br /> dU x  K  B , K  B  D  <br /> U 1<br /> U 2<br /> 2<br /> dU  K  B , K  B  D   2 X p <br /> 4) Nếu x  X p với p  m và x  Yq với q  n thì<br /> 1<br /> dUx  K  B , K  B  D  <br /> U 1<br /> U 2<br /> 2<br /> dU  K  B , K  B  D   2 X p Yq <br /> Chứng minh<br /> n1 m1<br /> 1<br /> <br /> 1) Giả sử Xm1   x , Yn1  x . Ta có dU x K B , K BD   Y X<br /> 2 i j Xj Yi<br /> U1 i1 j1<br /> <br /> 1  n m m1 n <br />  2  <br /> U  1  i 1 j 1<br /> Yi  X j X j  Yi   Yn 1  X j X j  Yn 1   Yi  X m 1 X m 1  Yi <br /> j 1 i 1 <br /> 2<br /> U<br />  2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> 2) Giả sử X m 1   x và x  Yq với q  n . Ta có:<br /> 1  n m1 m1 <br /> dU x  K  B , K  B D   2  i<br /> Y  X j X j  Yi   Yq x  X j X j Yq x <br /> U 1  i1,iq j1 j 1 <br /> 1  n m m <br /> 2    i <br />  Y  X j X j  Yi  Yq  X j X j  Yq <br /> U  1  i1,i q j 1 j 1 <br /> 2<br /> 1  n m  U<br /> 2 U <br />  2   Yi  X j X j  Yi  d K  B  , K  B  D <br /> U  1  i 1 j 1  U 1<br /> 3) Giả sử x  X p với p  m và Yn 1   x . Ta có:<br /> 1  n1 m n1 <br /> dUx  K  B , K  B D   2    Yi  X j X j Yi   Yi  X p  x   X p  x  Yi <br /> U 1  i1 j1, j p i 1 <br /> 1  n m n <br />  2    Yi  X j X j  Yi   Yi   X p  x   X p  x   Yi  X p  x <br /> U 1  i1 j1, j p i 1 <br /> <br /> <br /> 56 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> <br /> 1 n m n  1<br />  2  i<br /> U 1  i1 j1<br /> Y X j X j Yi Yi Xp  x  Xp  x  <br /> <br /> i1  U 1<br /> 2<br /> 2<br /> U dU  K B , K BD  2 Xp  <br /> 4) Giả sử x  X p với p  m và x  Yq với q  n . Ta có: dU x K  B  , K  B  D    <br /> n m m<br /> 1 1<br /> <br /> U 1<br /> 2  <br /> i 1,i  q j 1, j  p<br /> Yi  X j X j  Yi <br /> U 1<br /> 2  Y x  X<br /> j 1, j  p<br /> q j X j  Yq  x<br /> <br /> n<br /> 1 1<br />  2 Y x  X x  X x Y x <br /> q p p q 2  Y  X x  X x Y<br /> i p p i<br /> U 1 U 1 i1,iq<br /> <br /> n m n<br /> 1 1 1<br /> <br /> U 1<br /> 2  Y  X<br /> i 1 j 1<br /> i j X j  Yi <br /> U 1<br /> 2  x X p  Yq   U 1<br /> 2   Y  X x <br /> i 1,i  q<br /> i p<br /> <br /> <br /> 1<br /> <br /> U 1<br /> 2 U 2<br /> deU  K  B  , K  B  D    X p  Yq  U  Yq   X p <br /> 1<br /> <br /> U 1<br /> 2 U 2<br /> dU  K  B  , K  B  D    2 X p  Yq .<br /> 3.3. Công thức tính khoảng cách khi loại bỏ một đối tượng<br /> Mệnh đề 4. Giả sử đối tượng x  U bị loại khỏi U , khi đó ta có:<br /> 1) Nếu  x  X p với p  m và  x  Yq với q  n thì<br /> 2<br /> U<br /> dU  x  K  B  , K  B  D    2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> 2) Nếu  x  X p với p  m và x  Yq với q  n thì<br /> 2<br /> U<br /> dU  x  K  B  , K  B  D    2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> 3) Nếu x  X p với p  m và  x  Yq với q  n thì<br /> 1<br /> dU x  K  B  , K  B  D   <br /> U 1<br /> 2 U 2<br /> dU  K  B  , K  B  D    2 X p  2 <br /> 4) Nếu x  X p với p  m và x  Yq với q  n thì<br /> 1<br /> dU x  K  B , K  B  D  <br /> U 1<br /> U<br /> 2<br /> 2<br /> dU  K  B , K  B  D   X p Yq  X p  Yq  X p <br /> Chứng minh<br /> 1) Giả sử X m   x và Yn   x . Ta có<br /> n 1 m 1<br /> 1<br /> dU x  K  B  , K  B  D    2  Y  X i j X j  Yi<br /> U 1 i 1 j 1<br /> <br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 57<br /> Kỹ thuật điện tử & Khoa học máy tính<br /> <br /> <br /> 1  n m m 1 n <br /> 2   i  <br />  Y  X j X j  Yi  Yn  X j X j  Yn  Yi  X m X m  Yi <br /> U  1  i 1 j 1 j 1 i 1 <br /> 2<br /> U<br />  2<br /> dU  K  B  , K  B  D  <br /> U 1<br /> <br /> 2) Giả sử X m   x và x  Yq với q  n . Ta có:<br />  n m1 1 m1 <br /> dUx  K  B , K  B  D   2  i<br /> U 1  i1,iq j1<br /> Y  X j X j  Yi    Yq x  X j X j  Yq x <br /> j1 <br /> 1  n m m  1  n m <br /> 2   i<br />  Y  X j X j  Yi   Yq  X j X j  Yq   2   i<br /> Y  X j X j  Yi <br /> U 1  i1,iq j1 j1  U 1  i1 j1 <br /> 2<br /> U<br />  2 dU  K  B  , K  B  D  <br /> U 1<br /> <br /> 3) Giả sử x  X p với p  m và Yn   x . Ta có:<br />  n1 m 1 n1 <br /> dUx  K  B , K  B  D   2   i<br /> Y  X j X j  Yi   Yi  X p x  X p x Yi <br /> U 1  i1 j1, jp i1 <br /> 1  n m n n<br /> <br />  2   Yi  X j X j  Yi   Yi  X p X p  Y i   Yi   X p  x  X p  x  Yi <br /> U 1  i1 j1 i 1 i 1 <br /> n m n1 n1<br /> 1  <br />  2   i<br /> U 1  i1 j1<br /> Y  X j X j Yi  Yi  Xp X p Yi  Yn  X p Xp Yn  Yi  Xp Xp Yi 1   <br /> i1 i1 <br /> 1  n m  1<br />  2   i<br /> U 1  i1 j1<br /> Y  X j X j Yi  2 X p  2 <br />  U 1<br /> 2<br /> 2<br /> <br /> U dU  K  B , K  B  D   2 X p  2 <br /> 4) Giả sử x  X p với p  m và x  Yq với q  n . Ta có: dUx K  B , K  B  D   <br /> n m m<br /> 1 1<br /> <br /> U 1<br /> 2  <br /> i 1,i  q j 1, j  p<br /> Yi  X j X j  Yi <br /> U 1<br /> 2  Y  x  X<br /> j 1, j  p<br /> q j X j  Yq  x<br /> <br /> n<br /> 1 1<br /> <br /> U 1<br /> 2 Yq x  Xp x  Xp x Yq x  U 1<br /> 2  Y  X x  X x Y<br /> i p p i<br /> i1,iq<br /> n m m<br /> 1 1<br /> <br /> U 1<br /> 2  <br /> i 1,i  q j 1, j  p<br /> Yi  X j X j  Yi <br /> U 1<br /> 2 <br /> j 1, j  p<br /> Yq  X j X j  Yq<br /> <br /> n<br /> 1 1<br /> <br /> U 1<br /> 2  Yq  X p 1 X p Yq   U 1<br /> 2  Y X  X<br /> i 1,i q<br /> i p p  Yi 1 <br /> 1<br /> <br /> U 1<br /> 2 U 2<br /> dU  K  B  , K  B  D    X p  Yq  X p  Yq  X p <br /> <br /> 58 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> 3.4 Thuật toán tìm tập rút gọn khi bổ sung, loại bỏ đối tượng<br /> Trước hết, chúng tôi xây dựng thuật toán gia tăng tìm tập rút gọn khi bổ sung một đối<br /> tượng mới. Mệnh đề 5 sau đây là cơ sở để xây dựng thuật toán.<br /> Mệnh đề 5. Cho bảng quyết định DS  U , C  D  với B  C là một tập rút gọn của DS<br /> dựa trên khoảng cách và x là đối tượng mới được bổ sung vào U. Giả sử ta có hai phân<br /> hoạch K  B   U / B  { X 1 , X 2 ,... X m } , K  C   U / C  {Y1 , Y2 ,..., Yn } .<br />   <br /> 1) Nếu x  X j với mọi j  1..m thì dUx K  B , K  B D  dUx K  C , K  C  D <br /> 2) Nếu x  X p với p  m và x  Yi với mọi i  1..n thì<br /> dU x  K  B  , K  B  D    dU x  K  C  , K  C  D  <br /> 3) Nếu x  X p với p  m và x  Yq với q  n thì<br /> dU x  K  B  , K  B  D    dU x  K  C  , K  C  D  <br /> <br /> Chứng minh. Mục 1) và 2) được suy ra trực tiếp từ Mệnh đề 3 và Định nghĩa 2. Chúng tôi<br /> chứng minh mục 3). Theo Mệnh đề 3 ta có:<br /> 1<br /> dUx  K B ,K BD  <br /> U1<br />  U d  K B ,K BD 2 X D  với D U / D , xX ,xD<br /> 2<br /> 2<br /> U p r r p r<br /> <br /> <br /> 1<br /> dUx  K C , K CD  <br /> U1<br />  U d  KC ,KCD 2Y D  với x  Y , x  D<br /> 2<br /> 2<br /> U q r q r<br /> <br /> <br /> <br />   <br /> Do B là tập rút gọn của DS nên dU K  B , K  B  D  dU K  C , K  C  D , theo định <br />    <br /> nghĩa ta có E D B  E D C . Do B  C nên Yq  X p . Nếu Yq  X p thì rõ ràng ta có<br /> điều phải chứng minh. Nếu Yq  X p thì giả sử Yq  X p  X k . Từ E D B  E D C    <br /> theo [6] ta có X p  Dr , X k  Dr hay X p  Dr , Yq  Dr , do đó Xp Dr  và<br /> Yq  Dr . Từ đó kết luận dUx  K B , K BD   dUx  K C , K CD  .<br /> Mệnh đề 5 cho thấy nếu x không thuộc một lớp tương đương nào trong U / B và U / C ,<br /> hoặc x đồng thời thuộc một lớp tương tương trong U / B và U / C thì các khoảng cách<br /> dU  K  B  , K  B  D   , dU  K  C  , K  C  D   được bảo toàn, nghĩa là không thay<br /> đổi tập rút gọn. Từ đó chúng tôi xây dựng thuật toán tính gia tăng tập rút gọn như sau:<br /> Thuật toán 1. Thuật toán gia tăng tìm tập rút gọn dựa trên khoảng cách<br /> Đầu vào: Bảng quyết định DS  U , C  D  , tập rút gọn RU trên U và đối tượng<br /> mới x.<br /> Đầu ra: Tập rút gọn RU x trên U  x .<br /> 1. Đặt R  RU , tính U / R  { X 1 , X 2 ,... X m } ;<br /> 2. If x  X p , X p  U / R then<br /> 3. Begin<br /> 4. Tính U / C  {Y1 , Y2 ,..., Yn } ;<br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 59<br /> Kỹ thuật điện tử & Khoa học máy tính<br /> <br /> 5. If x  Yq , q  1..n then<br /> 6. Begin<br /> 7.   <br /> While dU x K  R  , K  R  D   dU x K  C  , K  C  D  do <br /> 8. Begin<br /> 9. For a  C  R tính SIGR  a ;<br /> 10. Chọn am  C  R sao cho SIGR  am   Max SIGR  a  ;<br /> aC  R<br />  <br /> 11. R  R  am  ;<br /> 12. End;<br /> 13. End;<br /> 14. End;<br /> 15. For a  R do<br /> 16. Begin<br /> 17.  <br /> Tính dU x K R  a , K    R  a  D   ;<br /> 18.    K Ra , K  Ra D d    K R , K RD  then R  R  a ;<br /> If dU x U x<br /> <br /> 19. End<br /> 20. Return R .<br /> <br /> Theo [9], độ phức tạp để tính phân hoạch U / C là O C U , do đó độ phức tạp của <br /> công thức tính gia tăng khoảng cách trong Mệnh đề 3 là<br />    <br /> O C U  m C  U  X p Yq  O C U  X p Yq . Độ phức tạp của vòng lặp<br /> <br /> While từ dòng lệnh số 7 đến số 12 là O  C  C U  X Y   . Độ phức tạp của vòng lặp For<br /> p q<br /> <br /> <br /> từ dòng lệnh số 15 đến 19 là O  C  C U  X Y   . Do đó, độ phức tạp của Thuât toán 1 là<br /> p q<br /> <br /> <br />  2<br /> <br /> O C U  C X p Yq . Rõ ràng là X p Yq nhỏ hơn nhiều U<br /> 2<br /> nên độ phức tạp của Thuật<br /> toán 1 tính gia tăng tập rút gọn nhỏ hơn nhiều thuật toán tính tập rút gọn bằng phương pháp truyền<br /> thống [1].<br /> Tương tự trường hợp bổ sung đối tượng mới, cơ sở xây dựng thuật toán tìm tập rút gọn<br /> khi xóa một đối tượng là Mệnh đề 6 sau đây.<br /> Mệnh đề 6. Cho bảng quyết định DS  U , C  D  với B  C là một tập rút gọn của DS<br /> dựa trên khoảng cách và x  U . Giả sử K  B   U / B  { X 1 , X 2 ,... X m } ,<br /> K  C   U / C  {Y1 , Y2 ,..., Yn } .<br /> 1) Nếu x  X j với mọi j  1..m thì<br /> dU x  K  B  , K  B  D    dU  x  K  C  , K  C  D  <br /> 2) Nếu x  X p với p  m và x  Yi với mọi i  1..n thì<br /> dU x  K  B  , K  B  D    dU x  K  C  , K  C  D  <br /> 3) Nếu x  X p với p  m và x  Yq với q  n thì<br /> <br /> <br /> <br /> 60 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> dU x  K  B  , K  B  D    dU  x  K  C  , K  C  D  <br /> Sử dụng công thức tính khoảng cách khi loại bỏ một đối tượng trong Mệnh đề 4, Mệnh<br /> đề 6 được chứng minh tương tự như Mệnh đề 5. Từ Mệnh đề 6, thuật toán tìm tập rút gọn<br /> khi xóa một đối tượng được xây dựng tương tự như Thuật toán 1.<br /> <br /> 5. KẾT LUẬN<br /> Trong bối cảnh các hệ cơ sở dữ liệu ngày càng lớn, thay đổi và cập nhật, việc đề xuất<br /> các phương pháp hiệu quả nhằm tối ưu thời gian thực hiện các thuật toán tìm tập rút gọn là<br /> mục tiêu của các nhà nghiên cứu. Dựa vào ý tưởng tính toán gia tăng, trong bài báo này<br /> chúng tôi sử dụng độ đo khoảng cách để xây dựng hai thuật toán tìm tập rút gọn tương ứng<br /> với hai trường hợp: bổ sung và loại bỏ đối tượng. Dựa vào hai thuật toán này, chúng tôi<br /> hoàn toàn có thể xây dựng được thuật toán mở rộng để giải quyết trường hợp bổ sung tập<br /> đối tượng hoặc loại bỏ tập đối tượng. Chúng tôi cũng chứng minh bằng lý thuyết độ phức<br /> tạp thời gian của hai thuật toản nhỏ hơn độ phức tạp của thuật toán thực hiện theo phương<br /> pháp truyền thống. Định hướng nghiên cứu tiếp theo của chúng tôi là sử dụng độ đo<br /> khoảng cách đề xây dựng thuật toán tìm tập rút gọn trong trường hợp cập nhật các đối<br /> tượng.<br /> <br /> TÀI LIỆU THAM KHẢO<br /> [1] Nguyễn Long Giang, “Nghiên cứu một số phương pháp khai phá dữ liệu theo<br /> tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin<br /> (2012).<br /> [2] Nguyễn Thanh Tùng,“Về một metric trên họ các phân hoạch của một tập hợp<br /> hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1 (2010), tr. 73-85.<br /> [3] Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer (2009).<br /> [4] Guan L. H, “An incremental updating algorithm of attribute reduction set in<br /> decision tables”, FSKD'09 Proceedings of the 6th international conference on<br /> Fuzzy systems and knowledge discovery, Vol 2 (2009), pp. 421-425.<br /> [5] Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based<br /> on elementary sets”, Proceedings of the 10th International Conference on Rough<br /> Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina, Canada<br /> (2005), pp. 185-193.<br /> [6] Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New method for<br /> measuring uncertainty and fuzziness in rough set theory”, International Journal<br /> of General Systems 31 (2002), pp. 331-342.<br /> [7] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer<br /> Aca-demic Publishers (1991).<br /> [8] Wang F., Liang J. Y, Qian Y. H., “Attribute reduction: A dimension incremental<br /> strategy”, Knowledge-Based Systems, Volume 39 (2013), pp. 95–108<br /> [9] Zhang C. S, Jing Ruan J.,Tan Y. H., “An Improved Incremental Updating<br /> Algorithm for Core Based on Positive Region, Journal of Computational<br /> Information Systems“ 7: 9 (2011), pp. 3127-3133.<br /> <br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 61<br /> Kỹ thuật điện tử & Khoa học máy tính<br /> <br /> ABSTRACT<br /> <br /> INCREMENTAL METHODS FOR ATTRIBUTE REDUCTION IN<br /> DYNAMIC DECISION TABLES BASED ON DISTANCE.<br /> <br /> In the last two decades, many attribute reduction methods in decision tables<br /> have been developed. However, most of them can only be applicable to static<br /> decision tables. In this paper, by using distance measure we propose algorithms for<br /> attribute reduction in decision tables in two cases: adding objects, deleting objects.<br /> By this approach, we show that the reduct of the dynamically-increasing decision<br /> table do not recomputed, so this reduces significantly computational time and<br /> memory space.<br /> Keywords: Rough set, Decision table, Attribute reduction, Reduct, Distance.<br /> <br /> <br /> <br /> Nhận bài ngày 11 tháng 12 năm 2013<br /> Hoàn thiện ngày 04 tháng 02 năm 2014<br /> Chấp nhận đăng ngày 10 tháng 03 năm 2014<br /> <br /> <br /> <br /> <br /> Địa chỉ: * Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt nam.<br /> Email: nlgiang@ioit.ac.vn.<br /> ** Đại học Tài nguyên môi trường Hà Nội. Email: huanvn.tnmt@gmail.com.<br /> <br /> <br /> <br /> <br /> 62 N. L. Giang, V. V. Huân, “Phương pháp gia tăng rút gọn … sử dụng khoảng cách.”<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1