
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
80
PHƯƠNG PHÁP XÂY DỰNG TRI THỨC TỪ TẬP DỮ LIỆU
Nguyễn Văn Thẩm1, Nguyễn Đỗ Kiều Loan2
1Trường Đại học Thủy lợi, email: thamnv@tlu.edu.vn
2Học viện Tài chính
1. GIỚI THIỆU CHUNG
Trong quá trình phát triển hệ thống dựa
trên tri thức, việc biểu diễn tri thức là giai
đoạn đầu tiên và rất quan trọng. Lựa chọn
một mô hình để biểu diễn tri thức tuỳ thuộc
vào nhiều yếu tố như loại tri thức, công cụ
hiện có,... Tri thức có thể được biểu diễn
bằng luật và suy diễn logic, mạng ngữ nghĩa,
khung, mô hình dựa trên logic mờ, hàm xác
suất cơ bản (Basic Probability Assignment-
BPA),... Tri thức biểu diễn bằng BPA có hạn
chế các BPA phải thoả mãn
0m . Tuy
nhiên trong thực tế, có thể tồn tại tri thức mà
0m , các tri thức dạng này được gọi là
GBPA (Generalized BPA).
Bài báo đề xuất thuật toán xây dựng các
tri thức từ các nguồn dữ liệu, trong đó các cơ
sở tri thức được biểu diễn bằng GBPA.
2. NỘI DUNG
2.1. Một số khái niệm
Đặt
11
, ,..., n
FEE E là một khung phân
biệt gồm một tập hữu hạn không rỗng chứa n
biến cố loại trừ lẫn nhau. Đặt h = 2n. Tập lũy
thừa (Power Set) của F là một tập gồm h
phần tử
1121
, ,..., , ,..., ...
nn
FEEEEEE .
Định nghĩa 1. [1] Hàm
0,1
:mF
được gọi là GBPA nếu thỏa mãn tính chất sau:
1
F
m
Cho
1,..., m
Cc c và
1,..., n
A
aa lần lượt
là các cụm và các thuộc tính của một tập dữ
liệu. Gọi
ij nm
M
là ma trận trung bình
mẫu của tập dữ liệu, trong đó ij
1
1j
i
c
kj
k
j
x
c
với xk,j là giá trị mẫu thử k tương ứng với
thuộc tính ai và cụm cj. Gọi
ij nm
D
là
ma trận độ lệch chuẩn của tập dữ liệu, trong
đó
2
ij ij
1
1
1
j
i
c
kj
k
j
x
c
Gọi
ij nm
Ll
và
ij nm
Uu
là ma trận cận
dưới và ma trận cận trên của tập dữ liệu, trong
đó:
là tham số mở rộng,
ij i
kj ij
lMinx
,
ij i
kj ij
u Max x
.
Định nghĩa 2. [2] Cho
1,..., m
Cc c và
1,..., n
A
aa lần lượt là các cụm và các
thuộc tính của tâp dữ liệu. Hàm thành viên
tam giác (triangular membership function)
biểu diễn đường tam giác mờ của m cụm
trong n thuộc tính, được định nghĩa như sau:
0
-
-
0
ij
ij
ij ij
ij ij
ij
ij ij
ij ij
ij
xl
xl lx
l
fx ux xu
u
x
2.2. Thuật toán xây dựng tri thức
Bài báo đề xuất thuật toán tìm tri thức từ
một tập dữ liệu [2, 3] như sau:
(1) Đầu vào: Một tập dữ liệu gồm m cụm
1,..., m
Cc cvà n thuộc tính
1,..., n
A
aa.
(2) Đầu ra: Tri thức của thuộc tính ai A