ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HC BÁCH KHOA
HUNH TRIU V
NGHIÊN CU VÀ PHÁT TRIN MT S K
THUT CHE GIU THÔNG TIN NHY CM
TRONG KHAI PHÁ HU ÍCH CAO
Chuyên ngành : KHOA HC MÁY TÍNH
s : 9480101
TÓM TT LUN ÁN TIN SĨ KỸ THUT
Đà Nẵng, 02/2023
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học:
1. TS. Trương Ngọc Châu
2. TS. Lê Quốc Hải
Phản biện 1: ……………………………………………….
Phản biện 2: ……………………………………………….
Phản biện 3: ……………………………………………….
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp
Trường, Trường Đại học Bách khoa
Vào hồi … giờ … ngày tháng năm 20....
Có thể tìm hiểu luận án tại:
- Thư viện quốc gia Việt Nam.
- Trungm Học liệu Truyền thông, Trường Đại học Bách khoa,
Đại học Đà Nẵng.
1
M ĐẦU
1. Đặt vấn đề
Ngày nay, vi s phát trin nhanh chóng ca ng dng công ngh thông
tin trong hu hết các lĩnh vực, lượng d liu t các h thng thông tin, ng
dụng ngày ng gia tăng được lưu trữ thành các kho d liu ln. Các
phương pháp khai thác dữ liu truyn thống không còn đáp ứng đầy đ
nhng u cu v phân tích, đánh giá, dự đoán, dựo da trên d liu. Do
đó, kỹ thut phát hin tri thức trong s d liu (CSDL) đã ra đi nhm
gii quyết bài toán khai phá d liệu đang được áp dng mt cách rng i
trong nhiu lĩnh vực khác nhau của đi sng. Mục đích của khai phá d liu
(KPDL) là khám phá tri thc nhm tìm ra nhng mu mi, nhng thông tin
tim n mangnh d đoán chưa đưc biết đến, có kh năng mang lại li ích
cho người s dụng, trong đó quan trng nht m ra các mu chứa đựng
nhng thông tin th h tr ra quyết định tn ti trong CSDL. nhiu
k thuật đã được nghiên cứu đ xut trong KPDL. Mt trong nhng k
thut quan trọng được ng dng rng rãi khai phá tp mc thường xuyên
và lut kết hp.
Trong khai phá tp mục thường xuyên vai trò ca các mc xut hin
trong các giao tác là như nhau. Mỗi mc không th xut hin nhiu hơn một
ln trong mi giao tác. Tp mc xut hin ph biến hơn trong CSDL s có ý
nghĩa hơn đi với người dùng. Như vậy, các tp mục thường xuyên khai
thác được ch mang ng nghĩa thống nên ch đáp ng mt phn nhu
cu ng dng thc tin. Chng hạn như nhà kinh doanh quan m đến tn
sut xut hiện đồng thi ca c mt hàng trong cùng mt giao dch ca
khách hàng t th s dng k thut khai thác tp mục thường xuyên đ
d đoán xu thế mua sm ca khách hàng. Tuy nhiên, nhà qun lý th cn
đến nhng thông tin chi tiết hơn như lợi ích mang li ca mt hoc mt
nhóm mặt ng được khách ng mua sm cùng nhau trong mt giao dch.
Khai phá tp mục thường xuyên không đáp ứng được điều này. Chính
điều này mà mt khái nim mới ra đời, đó là Khai phá hu ích cao, tc là có
t đến yếu t hu ích ca mi mc trong CSDL (ví d: s ng, li nhun
ca mi mt hàng trong mi giao tác ca CSDL).
Ngày nay, s phát trin nhanh chóng ca ng ngh thông tin đang to
môi trường thun lợi đ thúc đẩy hp tác thương mi toàn cu và kinh
doanh xuyên quốc gia. Trong môi trường kinh doanh quc tế, vic chia s
d liu gia c đối tác hoc công b ra bên ngoài internet rt cn thiết
để thúc đy s phát trin. Tuy nhiên, bên trong d liu th n cha c
thông tin riêng hoặc nhy cm (gi chung là thông tin nhy cm) mà ch
2
s hu không mun tiết l ra n ngoài, vic l nhng thông tin nhy
cm ra n ngoài th khiến cho bên s hu d liu đánh mất mt kinh
doanh hoc li thế cnh tranh,... Do đó, hiện nay nhiu hình k
thuật đang được nghiên cứu đ gii quyết vấn đ đặt ra, làm thế nào đ cho
phép thc hin quá trình KPDL trên các tp d liu trong khi vn bo v
được các thông tin nhy cm.
Như vậy, để đảm bo các thông tin nhy cm không b khai thác khi
CSDL đưc chia s ra bên ngoài, thut toán che giu thông tin nhy cm
trong KPDL được áp dng đ sa d liu nhm loi b các mu d liu có
th suy lun ra các thông nhy cm t kết qu KPDL. Quá trình thc hin
che giu thông tin nhy cm luôn gây ra các hiu ng ph. Hiu ng ph
được xác định s sai khác ca bn thân d liu kết qu KPDL ca
CSDL gc so vi CSDL sửa đổi. Như vậy, vn đ chính cn gii quyết
trong i toán che giu thông tin nhy cm trong KPDL là đ xut các thut
toán che giấu được tt c thông tin nhy cảm nhưng giảm thiu các hiu
ng ph. nhiều phương pháp tiếp cn đ gii quyết bài toán này: Theo
tiếp cận heuristic để thay đổi d liu hoc khóa d liu; theo tiếp cn
border-based; theo tiếp cn exact,...
Để gii quyết i toán che giu thông tin nhy cm trong khai phu
ích cao, m 2010 Jieh-Shan Yeh cng s đề xut phương pháp n tp
mc hu ích cao nhy cm theo hướng tiếp cận heuristic đ sa CSDL gc
vi 2 thuật toán được đề xut HHUIF (Hiding High Utility Item First
Algorithm) MSICF (Maximum Sensitive Itemsets Conflict First
Algorithm). Da trên nn tng này nhiu thut toán hiu qu hơn cũng được
đề xut. Nhìn chung, hướng tiếp cn ca các thuật toán đã được đề xuất đu
dựa trên hướng tiếp cận heuristic đ sa CSDL nhm tối ưu cục b. Tuy
nhiên, mi thuật toán đều tập trung đưa ra phương pháp tối ưu cục b cho
mt hoc mt s tiêu chí cc tiu hiu ng ph, nhng tu chí khác ca
hiu ng ph vn còn cao. Chính vì vy, vic tiếp tc nghiên cứu và đ xut
các thut toán che giu thông tin nhy cm trong khai phá hu ích cao hiu
qu hơn các thuật toán hin ti là một hướng nghiên cu cn thiết.
Nhm góp phn gii quyết mt phn vấn đ nêu trên, nghiên cứu sinh đã
chọn đ tài "Nghiên cu và phát trin mt s k thut che giu thông tin
nhy cm trong khai phá hu ích cao" làm ni dung nghiên cu lun án tiến
sĩ kỹ thut ca mình.
3
2. Mc tiêu nghiên cu
Luận án được thc hin nhm nghiên cu gii quyết mt phn các thách
thc trong gii quyết bài toán che giu thông tin nhy cm trong khai phá
hu ích cao nhm mục đích đm bo cho ch s hu CSDL che giấu được
thông tin nhy cm khi thc hin chia s CSDL ra bên ngoài hoc cho các
đối tác. C th hơn, luận án nhằm hướng đến hai mc tiêu chính sau:
- Th nht, nghiên cứu đề xut các thut toán n tp mc hu ích cao
nhy cm và lut kết hp hu ích cao nhy cm da trên k thut heuristic.
- Th hai, nghiên cu áp dng thuyết Giàn đ gim hiu ng ph
trong quá trình che giu thông tin nhy cm trong khai phá hu ích cao.
3. Đối tượng và phm vi nghiên cu
3.1. Đối tượng nghiên cu ca lun án gm:
- V s d liu cn thc hin che giu thông tin nhy cm: CSDL
giaoc.
- V thut toán, gm: n tp mc hu ích cao nhy cm; n tp mc hu
ích trung bình cao nhy cm; n tp mc hu ích cao và ph biến nhy cm;
n lut kết hp hu ích cao nhy cm.
- V cơ sở toán hc: Giàn giao ca tp hp.
3.2. Phm vi nghiên cu ca lun án:
- Th nht, nghiên cu tng quan v khai phá hu ích cao che giu
thông tin nhy cm trong khai phu ích cao t CSDL giao tác da trên
k thuật heuristic để xác định các hn chế ca các thut toán hin ti, các
vấn đ hiện nay chưa được đề xut và gii quyết.
- Th hai, da trên các kết qu phân tích tng quan khai phá hu ích cao
và che giu thông tin nhy cm trong khai phá hu ích cao da trên k thut
heuristic, đ xut mt s thut toán ci tiến:
+ Đề xut thut toán ci tiến n tp mc hu ích cao nhy cm và thut
toán n tp mc hu ích cao và ph biến nhy cm.
+ Đề xut hình thut toán n tp mc hu ích trung bình cao nhy
cm, n lut kết hp hu ích cao nhy cm.
- Th ba, áp dng các tính cht ca lý thuyết Giàn để chn mc mc tiêu
hiu qu nhm gim hiu ng ph ca qtrình sa d liệu đ n thông tin
nhy cm, c th: y dng giàn giao ràng buc ca tp các tp mc