
Phương pháp xây dựng tri thức từ tập dữ liệu
lượt xem 1
download

Trong quá trình phát triển hệ thống dựa trên tri thức, việc biểu diễn tri thức là giai đoạn đầu tiên và rất quan trọng. Bài viết đề xuất thuật toán xây dựng các tri thức từ các nguồn dữ liệu, trong đó các cơ sở tri thức được biểu diễn bằng GBPA.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phương pháp xây dựng tri thức từ tập dữ liệu
- Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 PHƯƠNG PHÁP XÂY DỰNG TRI THỨC TỪ TẬP DỮ LIỆU Nguyễn Văn Thẩm1, Nguyễn Đỗ Kiều Loan2 1 Trường Đại học Thủy lợi, email: thamnv@tlu.edu.vn 2 Học viện Tài chính 1. GIỚI THIỆU CHUNG 1 cj mẫu của tập dữ liệu, trong đó ij cj x ki j Trong quá trình phát triển hệ thống dựa k 1 trên tri thức, việc biểu diễn tri thức là giai với xk,j là giá trị mẫu thử k tương ứng với đoạn đầu tiên và rất quan trọng. Lựa chọn thuộc tính ai và cụm cj. Gọi D ij nm là một mô hình để biểu diễn tri thức tuỳ thuộc vào nhiều yếu tố như loại tri thức, công cụ ma trận độ lệch chuẩn của tập dữ liệu, trong c hiện có,... Tri thức có thể được biểu diễn 1 j 2 bằng luật và suy diễn logic, mạng ngữ nghĩa, đó ij xki j ij c j 1 k 1 khung, mô hình dựa trên logic mờ, hàm xác suất cơ bản (Basic Probability Assignment- Gọi L lij nm và U uij nm là ma trận cận BPA),... Tri thức biểu diễn bằng BPA có hạn dưới và ma trận cận trên của tập dữ liệu, trong chế các BPA phải thoả mãn m 0 . Tuy đó: là tham số mở rộng, lij Min xk j ij , i nhiên trong thực tế, có thể tồn tại tri thức mà m 0 , các tri thức dạng này được gọi là uij Max xki j ij . Định nghĩa 2. [2] Cho C c1 ,..., cm và GBPA (Generalized BPA). Bài báo đề xuất thuật toán xây dựng các A a1 ,..., an lần lượt là các cụm và các tri thức từ các nguồn dữ liệu, trong đó các cơ thuộc tính của tâp dữ liệu. Hàm thành viên sở tri thức được biểu diễn bằng GBPA. tam giác (triangular membership function) biểu diễn đường tam giác mờ của m cụm 2. NỘI DUNG trong n thuộc tính, được định nghĩa như sau: 2.1. Một số khái niệm 0 x l ij Đặt F E1 , E1 ,..., En là một khung phân x l ij l x ij -l ij ij ij biệt gồm một tập hữu hạn không rỗng chứa n x f biến cố loại trừ lẫn nhau. Đặt h = 2n. Tập lũy u ij x ij x u ij thừa (Power Set) của F là một tập gồm h - u ij ij phần tử F , E1 ,..., En , E1 E2 ,..., E1...En . 0 x ij Định nghĩa 1. [1] Hàm m : F 0,1 2.2. Thuật toán xây dựng tri thức được gọi là GBPA nếu thỏa mãn tính chất sau: m 1 Bài báo đề xuất thuật toán tìm tri thức từ F một tập dữ liệu [2, 3] như sau: Cho C c1 ,..., cm và A a1 ,..., an lần lượt (1) Đầu vào: Một tập dữ liệu gồm m cụm là các cụm và các thuộc tính của một tập dữ C c1 ,..., cm và n thuộc tính A a1 ,..., an . liệu. Gọi M ij nm là ma trận trung bình (2) Đầu ra: Tri thức của thuộc tính ai A 80
- Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 (3) Phạm vi bài toán: Tri thức được biểu Bước 2: Xác định các đường tam giác mờ diễn bằng GBPA của 3 cụm {Se, Ve, Vi} và trong 4 thuộc tính (4) Tiến trình: {SL, SW, PL, PW}. Ví dụ, đường đường tam Bước 1: Tính các ma trận trung bình mẫu, giác mờ của 3 cụm với thuộc tính SL được độ lệch chuẩn, ma trận cận dưới và ma trận chỉ ra trong Hình 1. cận trên của tập dữ liệu. Bước 3: Với mỗi thuộc tính, tìm các giao Bước 2: Xác định các đường tam giác mờ điểm của mẫu thử với tất cả đường tam giác của m cụm trong n thuộc tính theo Định mờ của m cụm. nghĩa 2. - Xét thuộc tính SL với mẫu thử x1 = 5.6 trên Bước 3: Với ai A i 1, n , thêm mẫu thử cả 3 cụm {Se, Ve, Vi}. Giao điểm của x1 = 5.6 xi = vào mô hình sao cho xi giao với đường với mô hình đường tam giác mờ của 3 cụm tam giác mờ của m cụm: được chỉ ra trong Hình 1. - Tìm các giao điểm và sắp xếp theo chiều giảm dần sao cho 1 1 2 ... m 0 . m - Tính i i 1 Bước 4: k 1, m Nếu 1 thì m(c1 ,..., ck ) k , m() 1 k Nếu 1 thì m(c1 ,..., ck ) , m() 0 2.3. Ví dụ tính toán và thảo luận Tập dữ liệu Iris được lấy từ kho lưu trữ UCI (http://archive.ics.uci.edu/ml/datasets/Iris). Bộ dữ liệu Iris chứa ba cụm: Setosa (Se), Hình 1. Mô hình đường tam giác mờ theo SL Versicolour (Ve) và Virginica (Vi). Mỗi cụm chứa 50 mẫu và có bốn thuộc tính: chiều dài + Xét đường tam giác của cụm Se, đài hoa (SL-sepal length), chiều rộng đài hoa phương trình đường thẳng đi qua hai điểm (SW-sepal width), chiều dài cánh hoa (PL- A 11 ,1 5.01,1 và B u11 , 0 5.91, 0 petal length) và chiều rộng cánh hoa (PW- là y 1.11x 6.56 . Giao của đường thẳng petal width). Do đó, ta có C Se,Ve,Vi và y 1.11x 6.56 và x1 5.6 là y Se 0.34 . A SL, SW , PL, PW + Xét đường tam giác của cụm Ve, phương trình đường thẳng đi qua hai điểm Tiến trình thực hiện thuật toán: A l12 , 0 4.75, 0 và B 12 ,1 5.94,1 Bước 1: Xây dựng các ma trận là y 0.84 x 3.98 . Giao của đường thẳng 5.01 5.94 6.59 0.35 0.52 0.64 y 0.84 x 3.98 và x1 5.6 là y Ve 0.72 . 3.43 2.77 2.97 0.38 0.31 0.32 M , D + Xét đường tam giác của cụm Vi, 1.46 4.26 5.55 0.17 0.47 0.55 phương trình đường thẳng đi qua hai điểm 0.25 1.33 2.03 0.11 0.20 0.27 A l13 , 0 4.71, 0 và B 13 ,1 6.59,1 Cho 0.3 , ta có: là y 0.53x 2.51 . Giao của đường thẳng 4.19 4.75 4.71 5.91 7.05 8.09 y 0.53 x 2.51 và x1 5.6 là y Vi 0.47 . 2.19 1.91 2.10 4.51 3.49 3.90 L , U 0.95 2.86 4.33 1.95 5.24 7.07 Ta có: 1 0.72 , 2 0.47 , 3 0.34 . 0.07 0.94 1.32 0.63 1.86 2.58 1 2 3 1.53 81
- Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 Vì 1.53 1 nên m Ve 0.72 0.47 , Bảng 1 chỉ ra cơ sở tri thức của các thuộc 1.53 tính SL, SW , PL, PW được biểu diễn bằng các m Ve, Vi 0.31 , m Ve, Vi, Se 0.22 GBPA. Kết quả thu được cho thấy các GBPA - Xét thuộc tính PW với mẫu thử x3 1.6 của các thuộc tính đều thoả mãn tính m 1 trong Định nghĩa 1. trên cả 3 cụm Se,Ve,Vi . Giao điểm của x4 1.6 với mô hình đường tam giác mờ của Bảng 1. Cơ sở tri thức của các thuộc tính 3 cụm được chỉ ra trong Hình 2. + Xét đường tam giác của cụm Se, GBPA SL SW PL PW phương trình đường thẳng đi qua hai điểm {Ve} 0.47 0.49 0.45 0.49 A l41 , 0 0.07, 0 và B 41 , 0 0.25, 0 {Vi} 0 0 0 0 {Se} 0 0 0 0 là y 5.63x 0.39 . Giao của đường thẳng {Ve,Vi} 0.31 0.33 0.38 0.40 y 5.63 x 0.39 và x4 1.6 là y Se 8.62 1 . {Ve,Se} 0 0 0 0 {Vi,Se} 0 0 0 0 {Ve,Vi,Se} 0.22 0.18 0 0 0 0 0.17 0.12 3. KẾT LUẬN Bài báo này đã đề xuất một thuật toán để tiến hành tìm tri thức của tập dữ liệu cho trước, trong đó các tri thức cần tìm sẽ được biểu diễn bằng các GBPA. Tri thức được biểu diễn bằng các GBPA khắc phục được hạn chế khi mà tri thức được biểu diễn bằng các BPA không phù hợp với tri thức tồn tại m 0 . Các tri thức của từng thuộc tính có thể được đem tính hợp Hình 2. Mô hình đường tam giác mờ theo PW với nhau bằng một phương pháp tích hợp tri + Xét đường tam giác của cụm Ve, thức nào đó để có được một tri thức chung phương trình đường thẳng đi qua hai điểm biểu diễn cho tri thức của từng cụm dữ liệu. A 42 ,1 1.33,1 và B u42 , 0 1.86, 0 Kết quả của bài báo là cơ sở để trong tương lai tác giả xem xét sẽ xem xét vấn đề ứng dụng là y 1.88x 3.49 . Giao của đường thẳng trong các bài toán phân cụm và phân lớp. y 1.88x 3.49 và x4 1.6 là y Ve 0.49 . + Xét đường tam giác của cụm Vi, 4. TÀI LIỆU THAM KHẢO phương trình đường thẳng đi qua hai điểm [1] Deng, Y. 2015. Generalized evidence A l43 , 0 1.32, 0 và B 43 ,1 2.03,1 theory. Appl Intell 43, 530-543. [2] Zhang, Jingfei & Deng, Yong. 2017. A là y 1.11x 5.56 . Giao của đường thẳng method to determine basic probability y 1.11x 5.56 và x4 1.6 là y Vi 0.4 . assignment in the open world and its application in data fusion and classification. Ta có: 1 0.49 , 2 0.4 , 3 0 . Applied Intelligence. 46. 1 2 3 0.88 [3] Fan, Y., Ma, T. & Xiao, F. 2021. An Vì 0.88 1 nên m Ve 0.49 , improved approach to generate generalized basic probability assignment based on fuzzy m Ve, Vi 0.4 , m Ve, Vi, Se 0 , sets in the open world and its application in multi-source information fusion. Appl Intell m 1 0.88 0.12 51, 3718-3735. 82

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Ứng dụng UML phân tích thiết kế hệ thống phần mềm quản lý tuyến sinh
7 p |
1320 |
318
-
TRÍ TUỆ NHÂN TẠO (Nguyễn Thanh Cẩm) - Chương 1: Tổng quan về khoa học trí tuệ nhân tạo
43 p |
821 |
301
-
Báo cáo thực tập tốt nghiệp: Khai phá dữ liệu bằng cây quyết định và ứng dụng
45 p |
1077 |
165
-
SỬ DỤNG CHỨC NĂNG DATA VALIDATION TRONG EXCEL
17 p |
1234 |
107
-
Khoa học trí tuệ nhân tạo
43 p |
219 |
89
-
BẢNG BĂM
10 p |
340 |
76
-
Bài giảng Xây dựng bản vẽ kỹ thuật: Phần 1 - Phan Thị Cúc, Trần Nguyễn Duy Trung
78 p |
145 |
28
-
Tài liệu Windows Presentation Foundation: Bài 4 Thực đơn (menu) và thanh công cụ (toolbar) WPF
25 p |
119 |
21
-
SEO, nghề hấp dẫn "dân" công nghệ thông tin
3 p |
60 |
14
-
Chụp màn hình trên máy tính và điện thoại
5 p |
137 |
10
-
Liên kết là cách tốt nhất để xếp hạng nội dung
4 p |
77 |
8
-
10 loại liên kết quan trọng mà bạn dễ dàng có được.Liên kết sẽ luôn luôn là quan trọng trong tiếp thị kĩ thuật số (và chắc chắn sẽ vẫn là một yếu tố quan trọng của trang web).Hiện nay có rất nhiều phương pháp có thể được sử dụng để xây dựng các liên k
15 p |
99 |
5
-
Đồ án Quản trị mạng máy tính: Xây dựng hệ thống mạng doanh nghiệp vừa và nhỏ
71 p |
6 |
5
-
Đồ án Quản trị mạng máy tính: Xây dựng hệ thống mạng doanh nghiệp vừa hoặc nhỏ
72 p |
22 |
3
-
Bài giảng Xây dựng hệ: Khai mỏ dữ liệu - Phan Hiền
13 p |
78 |
2
-
Bài giảng Giới thiệu ngành Công nghệ thông tin: Bài 3 - PGS. TS. Nguyễn Đình Thuận
6 p |
12 |
1
-
Bài giảng Trí tuệ nhân tạo: Chương 5 - TS. Nguyễn Văn Hiệu
29 p |
3 |
1


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
