intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp xây dựng tri thức từ tập dữ liệu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong quá trình phát triển hệ thống dựa trên tri thức, việc biểu diễn tri thức là giai đoạn đầu tiên và rất quan trọng. Bài viết đề xuất thuật toán xây dựng các tri thức từ các nguồn dữ liệu, trong đó các cơ sở tri thức được biểu diễn bằng GBPA.

Chủ đề:
Lưu

Nội dung Text: Phương pháp xây dựng tri thức từ tập dữ liệu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 PHƯƠNG PHÁP XÂY DỰNG TRI THỨC TỪ TẬP DỮ LIỆU Nguyễn Văn Thẩm1, Nguyễn Đỗ Kiều Loan2 1 Trường Đại học Thủy lợi, email: thamnv@tlu.edu.vn 2 Học viện Tài chính 1. GIỚI THIỆU CHUNG 1 cj mẫu của tập dữ liệu, trong đó ij  cj x ki j Trong quá trình phát triển hệ thống dựa k 1 trên tri thức, việc biểu diễn tri thức là giai với xk,j là giá trị mẫu thử k tương ứng với đoạn đầu tiên và rất quan trọng. Lựa chọn thuộc tính ai và cụm cj. Gọi D   ij nm là một mô hình để biểu diễn tri thức tuỳ thuộc vào nhiều yếu tố như loại tri thức, công cụ ma trận độ lệch chuẩn của tập dữ liệu, trong c hiện có,... Tri thức có thể được biểu diễn 1   j 2 bằng luật và suy diễn logic, mạng ngữ nghĩa, đó  ij   xki j  ij c j  1 k 1 khung, mô hình dựa trên logic mờ, hàm xác suất cơ bản (Basic Probability Assignment- Gọi L   lij nm và U   uij nm là ma trận cận BPA),... Tri thức biểu diễn bằng BPA có hạn dưới và ma trận cận trên của tập dữ liệu, trong chế các BPA phải thoả mãn m     0 . Tuy đó:  là tham số mở rộng, lij  Min  xk j    ij , i nhiên trong thực tế, có thể tồn tại tri thức mà m     0 , các tri thức dạng này được gọi là   uij  Max xki j   ij . Định nghĩa 2. [2] Cho C  c1 ,..., cm  và GBPA (Generalized BPA). Bài báo đề xuất thuật toán xây dựng các A  a1 ,..., an  lần lượt là các cụm và các tri thức từ các nguồn dữ liệu, trong đó các cơ thuộc tính của tâp dữ liệu. Hàm thành viên sở tri thức được biểu diễn bằng GBPA. tam giác (triangular membership function) biểu diễn đường tam giác mờ của m cụm 2. NỘI DUNG trong n thuộc tính, được định nghĩa như sau: 2.1. Một số khái niệm  0 x     l ij  Đặt F  E1 , E1 ,..., En  là một khung phân  x  l ij l  x    ij  -l ij  ij ij biệt gồm một tập hữu hạn không rỗng chứa n   x    f biến cố loại trừ lẫn nhau. Đặt h = 2n. Tập lũy  u ij  x    ij  x   u ij  thừa (Power Set) của F là một tập gồm h    - u    ij ij phần tử   F   , E1 ,..., En , E1 E2 ,..., E1...En  .  0 x   ij   Định nghĩa 1. [1] Hàm m :   F   0,1 2.2. Thuật toán xây dựng tri thức được gọi là GBPA nếu thỏa mãn tính chất sau:  m   1 Bài báo đề xuất thuật toán tìm tri thức từ   F  một tập dữ liệu [2, 3] như sau: Cho C  c1 ,..., cm  và A  a1 ,..., an  lần lượt (1) Đầu vào: Một tập dữ liệu gồm m cụm là các cụm và các thuộc tính của một tập dữ C  c1 ,..., cm  và n thuộc tính A  a1 ,..., an  . liệu. Gọi M   ij nm là ma trận trung bình (2) Đầu ra: Tri thức của thuộc tính ai  A 80
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 (3) Phạm vi bài toán: Tri thức được biểu Bước 2: Xác định các đường tam giác mờ diễn bằng GBPA của 3 cụm {Se, Ve, Vi} và trong 4 thuộc tính (4) Tiến trình: {SL, SW, PL, PW}. Ví dụ, đường đường tam Bước 1: Tính các ma trận trung bình mẫu, giác mờ của 3 cụm với thuộc tính SL được độ lệch chuẩn, ma trận cận dưới và ma trận chỉ ra trong Hình 1. cận trên của tập dữ liệu. Bước 3: Với mỗi thuộc tính, tìm các giao Bước 2: Xác định các đường tam giác mờ điểm của mẫu thử với tất cả đường tam giác của m cụm trong n thuộc tính theo Định mờ của m cụm. nghĩa 2. - Xét thuộc tính SL với mẫu thử x1 = 5.6 trên Bước 3: Với ai  A i  1, n , thêm mẫu thử cả 3 cụm {Se, Ve, Vi}. Giao điểm của x1 = 5.6 xi =  vào mô hình sao cho xi giao với đường với mô hình đường tam giác mờ của 3 cụm tam giác mờ của m cụm: được chỉ ra trong Hình 1. - Tìm các giao điểm và sắp xếp theo chiều giảm dần sao cho 1  1  2  ...  m  0 . m - Tính    i i 1 Bước 4: k  1, m Nếu   1 thì m(c1 ,..., ck )  k , m()  1   k Nếu   1 thì m(c1 ,..., ck )  , m()  0  2.3. Ví dụ tính toán và thảo luận Tập dữ liệu Iris được lấy từ kho lưu trữ UCI (http://archive.ics.uci.edu/ml/datasets/Iris). Bộ dữ liệu Iris chứa ba cụm: Setosa (Se), Hình 1. Mô hình đường tam giác mờ theo SL Versicolour (Ve) và Virginica (Vi). Mỗi cụm chứa 50 mẫu và có bốn thuộc tính: chiều dài + Xét đường tam giác của cụm Se, đài hoa (SL-sepal length), chiều rộng đài hoa phương trình đường thẳng đi qua hai điểm (SW-sepal width), chiều dài cánh hoa (PL- A   11 ,1   5.01,1 và B   u11 , 0    5.91, 0  petal length) và chiều rộng cánh hoa (PW- là y  1.11x  6.56 . Giao của đường thẳng petal width). Do đó, ta có C  Se,Ve,Vi và y  1.11x  6.56 và x1  5.6 là y Se  0.34 . A  SL, SW , PL, PW  + Xét đường tam giác của cụm Ve, phương trình đường thẳng đi qua hai điểm Tiến trình thực hiện thuật toán: A   l12 , 0    4.75, 0  và B   12 ,1   5.94,1 Bước 1: Xây dựng các ma trận là y  0.84 x  3.98 . Giao của đường thẳng  5.01 5.94 6.59   0.35 0.52 0.64      y  0.84 x  3.98 và x1  5.6 là y Ve  0.72 . 3.43 2.77 2.97  0.38 0.31 0.32  M  , D + Xét đường tam giác của cụm Vi, 1.46 4.26 5.55   0.17 0.47 0.55      phương trình đường thẳng đi qua hai điểm  0.25 1.33 2.03   0.11 0.20 0.27  A   l13 , 0    4.71, 0  và B   13 ,1   6.59,1 Cho   0.3 , ta có: là y  0.53x  2.51 . Giao của đường thẳng  4.19 4.75 4.71   5.91 7.05 8.09      y  0.53 x  2.51 và x1  5.6 là y Vi  0.47 . 2.19 1.91 2.10  4.51 3.49 3.90  L , U   0.95 2.86 4.33  1.95 5.24 7.07  Ta có: 1  0.72 , 2  0.47 , 3  0.34 .      0.07 0.94 1.32   0.63 1.86 2.58    1  2  3  1.53 81
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 Vì   1.53  1 nên m Ve  0.72  0.47 , Bảng 1 chỉ ra cơ sở tri thức của các thuộc 1.53 tính SL, SW , PL, PW  được biểu diễn bằng các m Ve, Vi  0.31 , m Ve, Vi, Se  0.22 GBPA. Kết quả thu được cho thấy các GBPA - Xét thuộc tính PW với mẫu thử x3  1.6 của các thuộc tính đều thoả mãn tính  m     1 trong Định nghĩa 1. trên cả 3 cụm Se,Ve,Vi . Giao điểm của     x4  1.6 với mô hình đường tam giác mờ của Bảng 1. Cơ sở tri thức của các thuộc tính 3 cụm được chỉ ra trong Hình 2. + Xét đường tam giác của cụm Se, GBPA SL SW PL PW phương trình đường thẳng đi qua hai điểm {Ve} 0.47 0.49 0.45 0.49 A   l41 , 0    0.07, 0  và B   41 , 0    0.25, 0  {Vi} 0 0 0 0 {Se} 0 0 0 0 là y  5.63x  0.39 . Giao của đường thẳng {Ve,Vi} 0.31 0.33 0.38 0.40 y  5.63 x  0.39 và x4  1.6 là y Se  8.62  1 . {Ve,Se} 0 0 0 0 {Vi,Se} 0 0 0 0 {Ve,Vi,Se} 0.22 0.18 0 0  0 0 0.17 0.12 3. KẾT LUẬN Bài báo này đã đề xuất một thuật toán để tiến hành tìm tri thức của tập dữ liệu cho trước, trong đó các tri thức cần tìm sẽ được biểu diễn bằng các GBPA. Tri thức được biểu diễn bằng các GBPA khắc phục được hạn chế khi mà tri thức được biểu diễn bằng các BPA không phù hợp với tri thức tồn tại m     0 . Các tri thức của từng thuộc tính có thể được đem tính hợp Hình 2. Mô hình đường tam giác mờ theo PW với nhau bằng một phương pháp tích hợp tri + Xét đường tam giác của cụm Ve, thức nào đó để có được một tri thức chung phương trình đường thẳng đi qua hai điểm biểu diễn cho tri thức của từng cụm dữ liệu. A   42 ,1  1.33,1 và B   u42 , 0   1.86, 0  Kết quả của bài báo là cơ sở để trong tương lai tác giả xem xét sẽ xem xét vấn đề ứng dụng là y  1.88x  3.49 . Giao của đường thẳng trong các bài toán phân cụm và phân lớp. y  1.88x  3.49 và x4  1.6 là y Ve  0.49 . + Xét đường tam giác của cụm Vi, 4. TÀI LIỆU THAM KHẢO phương trình đường thẳng đi qua hai điểm [1] Deng, Y. 2015. Generalized evidence A   l43 , 0   1.32, 0  và B   43 ,1   2.03,1 theory. Appl Intell 43, 530-543. [2] Zhang, Jingfei & Deng, Yong. 2017. A là y  1.11x  5.56 . Giao của đường thẳng method to determine basic probability y  1.11x  5.56 và x4  1.6 là y Vi  0.4 . assignment in the open world and its application in data fusion and classification. Ta có: 1  0.49 , 2  0.4 , 3  0 . Applied Intelligence. 46.   1  2  3  0.88 [3] Fan, Y., Ma, T. & Xiao, F. 2021. An Vì   0.88  1 nên m Ve  0.49 , improved approach to generate generalized basic probability assignment based on fuzzy m Ve, Vi  0.4 , m Ve, Vi, Se  0 , sets in the open world and its application in multi-source information fusion. Appl Intell m     1  0.88  0.12 51, 3718-3735. 82
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2