
1
MỞ ĐẦU
1. Đặt vấn đề
Ngày nay, với sự phát triển nhanh chóng của ứng dụng công nghệ thông
tin trong hầu hết các lĩnh vực, lượng dữ liệu từ các hệ thống thông tin, ứng
dụng ngày càng gia tăng và được lưu trữ thành các kho dữ liệu lớn. Các
phương pháp khai thác dữ liệu truyền thống không còn đáp ứng đầy đủ
những yêu cầu về phân tích, đánh giá, dự đoán, dự báo dựa trên dữ liệu. Do
đó, kỹ thuật phát hiện tri thức trong cơ sở dữ liệu (CSDL) đã ra đời nhằm
giải quyết bài toán khai phá dữ liệu đang được áp dụng một cách rộng rãi
trong nhiều lĩnh vực khác nhau của đời sống. Mục đích của khai phá dữ liệu
(KPDL) là khám phá tri thức nhằm tìm ra những mẫu mới, những thông tin
tiềm ẩn mang tính dự đoán chưa được biết đến, có khả năng mang lại lợi ích
cho người sử dụng, trong đó quan trọng nhất là tìm ra các mẫu chứa đựng
những thông tin có thể hỗ trợ ra quyết định tồn tại trong CSDL. Có nhiều
kỹ thuật đã được nghiên cứu và đề xuất trong KPDL. Một trong những kỹ
thuật quan trọng được ứng dụng rộng rãi là khai phá tập mục thường xuyên
và luật kết hợp.
Trong khai phá tập mục thường xuyên vai trò của các mục xuất hiện
trong các giao tác là như nhau. Mỗi mục không thể xuất hiện nhiều hơn một
lần trong mỗi giao tác. Tập mục xuất hiện phổ biến hơn trong CSDL sẽ có ý
nghĩa hơn đối với người dùng. Như vậy, các tập mục thường xuyên khai
thác được chỉ mang ngữ nghĩa thống kê nên nó chỉ đáp ứng một phần nhu
cầu ứng dụng thực tiễn. Chẳng hạn như nhà kinh doanh quan tâm đến tần
suất xuất hiện đồng thời của các mặt hàng trong cùng một giao dịch của
khách hàng thì có thể sử dụng kỹ thuật khai thác tập mục thường xuyên để
dự đoán xu thế mua sắm của khách hàng. Tuy nhiên, nhà quản lý có thể cần
đến những thông tin chi tiết hơn như lợi ích mang lại của một hoặc một
nhóm mặt hàng được khách hàng mua sắm cùng nhau trong một giao dịch.
Khai phá tập mục thường xuyên không đáp ứng được điều này. Chính vì
điều này mà một khái niệm mới ra đời, đó là Khai phá hữu ích cao, tức là có
xét đến yếu tố hữu ích của mỗi mục trong CSDL (ví dụ: số lượng, lợi nhuận
của mỗi mặt hàng trong mỗi giao tác của CSDL).
Ngày nay, sự phát triển nhanh chóng của Công nghệ thông tin đang tạo
môi trường thuận lợi để thúc đẩy hợp tác thương mại toàn cầu và kinh
doanh xuyên quốc gia. Trong môi trường kinh doanh quốc tế, việc chia sẻ
dữ liệu giữa các đối tác hoặc công bố ra bên ngoài internet là rất cần thiết
để thúc đẩy sự phát triển. Tuy nhiên, bên trong dữ liệu có thể ẩn chứa các
thông tin riêng tư hoặc nhạy cảm (gọi chung là thông tin nhạy cảm) mà chủ