HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
Đặng Th Kim Trang
PHƯƠNG PHÁP N CÁC TP MỤC CÓ ĐỘ HU ÍCH CAO
TRONG CƠ S D LIU GIAO TÁC LN
CHUYÊN NGÀNH: H THNG THÔNG TIN
MÃ S: 8.48.01.04
TÓM TT LUN VĂN THẠC
TP.H CHÍ MINH - NĂM 2022
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. Nguyễn Khắc Chiến
(Ghi rõ học hàm, học vị)
Phản biện 1: ........................................................................................................
Phản biện 2: ........................................................................................................
Luận văn sẽ được bảo vtrước Hội đồng chấm luận văn thạc tại Học viện Công nghệ
Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện ca Hc vin Công ngh Bưu cnh Vin thông
1
M ĐẦU
1. Lý do chọn đề tài
Hin nay, trong lĩnh vực kinh doanh vic nh toán doanh s tối ưu hóa lợi nhun
bán hàng công vic cc k quan trng, ảnh hưởng trc tiếp đến doanh thu và chiến lược
bán hàng ca các công ty, siêu th hay các đơn vị bán lẻ. Đặc bit, vi s ng hàng hóa ln,
giá c khác nhau, nên vic tính toán li nhun tối ưu bán hàng càng quan trọng. Vi s ng
giao tác mi gi th lên đến hàng chc nghìn giao tác, vic tính toán xem mt hàng nào
đem lại doanh s cao, mt hàng nào kinh doanh không hiu qu bán vi s ng ln càng
tr nên khó khăn do d liu quá ln, liên tc.
Khai phá tp ph biến thường được mô tmt quá trình ly thông tin có giá tr t
s d liu ln, bt ngun t dng mu có sn tn tại trong sở d liu, các mu này
khuynh ng gom nhóm li với nhau được định nghĩa như là mt hình khai thác. Khai
phá tp mục độ hu ích cao là mt m rng ca bài toán khai phá tp ph biến, đã được nhiu
tác gi quan tâm vi mục đích đánh giá ý nghĩa của các tp mc trong khai phá lut kết hp.
Để khai phá tp mc độ hu ích cao, mt giá tr đưc s dụng đó là lợi nhun ca tp mc,
chng hn tng li nhun doanh nghiệp thu được nếu bán tp mc y trong giao tác. Khác
vi khai phá tp ph biến, độ hu ích ca tp mc không tha tính cht bao đóng gim nên
độ phc tp ca bài toán cao.
Ngoài ra, trong hp tác kinh doanh vic mun chia s sở d liu với nhau để cùng
lợi, nhưng mang lại nhiu rủi ro để l ra các thông tin nhy cm như: số định danh nhân,
s tài khon ngân ng,… Đ gii quyết vấn đề y, các tri thc nhy cm th được n
bng cách chuyển đổi sở d liệu ban đầu thành sở d liệu được sa đổi theo mt s
chiến lược c th và quá trình ẩn đó đưc gi là làm sch d liu.
Bên cạnh đó, những m gần đây, khai phá d liu bo v tính riêng đã trở thành
hướng nghiên cu quan trng. Trong phn luận văn này, tôi xin tập trung nghiên cu bài toán
khai phá các tp mc có đ hữu ích cao đưc bo v tính riêng để n các tp mc đ
hu ích cao nhy cm trong cơ sở d liu giao tác có kích thước ln. Mt trong nhng vấn đề
đặt ra khi gii quyết bài toán này là làm gim các hiu ng ph như: ẩn nhm các tp mc có
độ hu ích cao không nhy cm, s khác nhau gia CSDL ban đầu CSDL sau khi sa
đổi,… thế, luận văn sẽ tp trung nghiên cu thut toán n các tp mc độ hu ích cao
2
nhy cảm và đề xut phương pháp n các tp mc có đ hu ích cao nhy cm hiu qu hơn
nhm gim thiu các hiu ng ph.
2. Mc tiêu nghiên cu
Nghiên cứu các phương pháp n tp mục độ hu ích cao nhy cm hin da trên
các công trình đã công b gần đây.
Tìm hiu những ưu điểm hn chế ca các phương pháp n t đó đề xuất phương
pháp n hiu qu hơn.m hiu các thông s đánh giá tính hiệu qu của các phương pháp ẩn
tp mục có độ hu ích cao nhy cm.
Tiến hành cài đặt th nghim phương pháp đề xuất, đánh giá dựa trên các thông s, so
sánh với các phương pháp ẩn hin có.
3. Tng quan nghiên cu của đề tài
Bài toán n các tp mục độ hu ích cao nhy cảm đang chủ đề được nhiu nhà nghiên
cu quan tâm. Mc tiêu ca bài toán là bo v các thông tin nhy cm không th khai phá
được bằng các phương pháp khai phá tp mc độ hu ích cao vi cùng mt ngưỡng độ hu
ích ti thiểu do ngưi dùng quy định. Đồng thời, các phương pháp ẩn tp mc độ hu ích
cao nhy cm làm gim thiu các hiu ng ph trên các thông tin không nhy cm tính
toàn vn của cơ sở d liệu ban đầu. Hiện đã có một s phương pháp ẩn hiu qu để gii quyết
vấn đềy, tuy nhiên những phương phápy vẫn còn to ra các hiu ng ph không mong
mun. Kết qu thc nghim cho thy thuật toán đề xut hiu qu hơn các thut toán hin
v mt các hiu ng ph như n nhm các thông tin không nhy cm, chất lượng của s
d liu sau quá trình n.
4. Đối tượng, phm vi nghiên cu
Phương pháp ẩn các tp mc có đ hu ích cao nhy cm trong các cơ sở d liu giao
tác ln.
5. Đóng góp của đề tài
Luận văn đề xuất phương pháp cải tiến thut toán EHSHUI trong công trình ca Trieu
và cng s (2020) [4]; Vo, B và cng s (2013) [14]. Phương pháp đưc đề xut s la chn
tp mc nhy cm hp lý và mc sửa đổi. Thc nghim đã chỉ ra, phương pháp đề xut hiu
qu hơn EHSHUI [4] và thut toán [14] v thi gian thc hin và s dng b nh.
3
CHƯƠNG 1: CƠ SỞ LÝ THUYT
1.1. Tp mc ph biến và khai phá tp ph biến truyn thng
1.1.1. Tập mục phổ biến
1.1.2. Khám phá tri thức và khai thác dữ liệu
1.1.3. Khai phá tập phổ biến truyền thống
1.2. Tp mục độ hu ích cao và bài toán khai phá tp mục độ hu ích cao
Khi thc hin khai phá tp ph biến người ta đã bỏ qua giá tr độ hữu ích được gn vi
mi mc. Có nhng tp mc không phi là tp ph biến (có tn sut xut hin thấp) nhưng lại
có giá tr độ hữu ích cao hơn nhiều so vi tp ph biến. Trong thc tế, vic khai phá các tp
mc mang giá tr độ hu ích cao là rt quan trọng và có ý nghĩa rất lớn trong đời sng xã hi.
T đó dẫn đến một hướng nghiên cu mi trong khai phá d liệu, đó là khai phá tp mc đ
hu ích cao.
C th, mt siêu th kinh doanh hàng trăm mặt hàng t nhiu nhà cung cp khác nhau.
Hy bán các mt hàng theo tng khu vc, vic sp xếp các mt hàng ph thuc vào chiến
c kinh doanh, kích thích khách ng. Mi mặt hàng đưc bán s đem li mt giá tr li
nhuận được xác định chênh lch gia giá bán giá mua. Theo đó, mỗi khách hàng vào
siêu th mua mt vài mt hàng vi s ng nhất định, tp hp tt c sn phm khách hàng
mua s đem lại mt giá tr li nhun cho siêu thị, được gi là mt giao tác. Tt c các giao tác
s được siêu th lưu trữ li và to ra một cơ s d liu giao tác. Ngưi qun siêu th mun
tp hp tt c sn phẩm khách ng đã mua đem lại li nhun cho siêu th (ví d: 30%
tng li nhun), t đó đưa ra các chiến c kinh doanh, tiếp th hoc sp xếp các mt hàng
cạnh nhauđưa ra các chương trình khuyến mãi, khuyến khích khách hàng mua sn phm
này thì s mua thêm mt sn phm khác trong các sn phẩm đã tìm ra.
Bài toán khai phá tp mục độ hu ích cao đã đưc nhóm tác gi R.C. Chan, Q. Yang,
Y.D. Shen đề xuất vào năm 2003 [27]. Cùng với s phát trin ca nn kinh tế, nhu cu tính
toán doanh thu, hiu qu kinh doanh theo thi gian thc với lượng d liu ln ngày càng tr
nên cp thiết.
Khai phá tp mc độ hu ích cao bài toán m rng tng quát ca khai phá tp
ph biến. Trong khai phá tp mục độ hu ích cao, giá tr ca mc trong giao tác được quan
tâm nhiu nhất (như số ợng đã bán của mt hàng), ngoài ra còn có bng li nhun cho biết