B GIÁO DỤC VÀ ĐÀO TẠO
VIN HÀN LÂM KHOA HC
VÀ CÔNG NGH VIT NAM
HC VIN KHOA HC VÀ CÔNG NGH
……..….***…………
TRẦN HUY DƯƠNG
KHAI PHÁ MU DÃY CÓ TRNG S
TRONG CƠ S D LIU DÃY
Chuyên ngành: H thng thông tin
Mã s: 62 48 01 04
TÓM TT LUN ÁN TIN S NGÀNH MÁY TÍNH
Hà Ni 2021
Công trình được hoàn thành ti: Hc vin Khoa hc và Công ngh -
Vin Hàn lâm Khoa hc và Công ngh Vit Nam
Người hướng dn khoa hc 1: TS. Nguyễn Trường Thng
Người hướng dn khoa hc 2: GS.TS. Đức Thi
Phn bin 1: …
Phn bin 2: …
Phn bin 3: ….
Lun án s đưc bo v trước Hội đồng chm lun án tiến sĩ, họp ti Hc
vin Khoa hc ng ngh - Vin Hàn m Khoa hc ng ngh Vit
Nam vào hồi … gi ..’, ngày … tháng … năm 201….
Có th tìm hiu lun án ti:
- Thư viện Hc vin Khoa hc và Công ngh
- Thư viện Quc gia Vit Nam
1
M ĐẦU
1. Tng quan
Khai phá các mẫu dãy thường xuyên là mt trong nhng vấn đề quan trọng được
nhiu hc gi nghiên cứu trong lĩnh vực khai phá d liu. Trong nhiều lĩnh vực như
khai phá văn bản, phân tích trình t gen, chng xâm nhp mng trái phép da trên phân
tích nht truy cp... thì th t ca các mục đóng vai trt quan trọng. Để th
gii quyết vấn đề này, bài toán khai pmẫu dãy thường xuyên đã đưc Agrawal
Srikant đ xut trong [2]. Các mẫu dãy thường xuyên không ch th hin s ln xut
hin ca các phn t trong còn th hiện được th t ca các phn t đó. Khai
phá mu dãy thường xuyên được ng dng trong nhiều lĩnh vực nphân tích hành vi
mua sm, phân tích các mu truy cp web, phân tích thm ha t nhiên, phân tích s
hình thành các chui protein...
Thông thường, khai phá mẫu dãy thường xuyên c đin thc hin khai phá mu
dãy thường xuyên mà không thêm các thông tin m rng khác. Trong khi đó, việc
m rng các thông tin ca dãy d liu rất đa dạng nđưa thêm các thông tin v trng
s ca các mc trong dãy, thông tin v định lượng ca các mc trong dãy, thông tin v
khong cách thi gian gia các thành phần trong dãy …
Đối vi các CSDL dãy có yếu t thi gian tc là có thêm thông tin v khong cách
thi gian xut hin ca các dãy d liu cho phép phân tích xem sau khong thi gian
bao lâu thì các mu dãy s xut hin. Các nghiên cứu đến nay đều tp trung phát hin
các mu dãy khong cách thi gian xy ra gia các thành phn trong các CSDL dãy
khong cách thi gian, đó khoảng cách thi gian giá tr s được xác định
ràng.
Các thut toán khai phá mu dãy c điển thông thường không quan tâm ti mức đ
quan trng ca tng mc d liu trong dãy (trng s) cũng như số ng d liu ca
tng mc d liệu trong dãy (định lượng) . Tuy nhiên trên thc tế, mi dãy d liệu đều
độ quan trng khác nhau bao gm c giá tr li ích trong ịnh lượng) li ích
ngoài (trng s) ca các dãy d liu trong CSDL.
Đến nay chưa nhiu các nghiên cu v khai pmu dãy trng s trong
CSDL dãy khong cách thời gian trong đó quan tâm đến c đến trng s ca mi
mc trong dãy d liu và khong cách thi gian giữa các dãy. Đng thời cũng chưa
nhiu nghiên cu v khai phá mu dãy lợi ích cao trong CSDL dãy định lượng
khong cách thời gian trong đó quan tâm đến c đến trng s ca mi mc trong dãy
d liu, giá tr định lượng ca các mc xut hin khong cách thi gian gia các dãy
trong CSDL dãy định lượng có khong cách thi gian.
Đó do đề xut lun án “Khai phá mẫu dãy trng s trong sở d liu
dãy”. Luận án đ xut gii quyết vấn đề v khai phá mẫu dãy thường xuyên trng
s trong CSDL dãy khong cách thi gian và khai phá mu dãy li ích cao trong
CSDL dãy định lượng khong cách thi gian. Vic nghiên cu gii quyết nhng vn
đề đó thực s cn thiết không ch phương diện phát trin thuyết c phương
din ng dng thc tế.
2
2. Mc tiêu và phm vi nghiên cu ca lun án
Mc tiêu ca luận án là đ xut gii pháp khai phá các mu dãy trng s
khong cách thi gian gia các dãy trong các CSDL dãy khong cách thi gian
CSDL dãy định lượng có khong cách thi gian.
C th lun án tập trung đề xut các gii pháp nhm:
Phát hin các mu dãy có trng s trong các CSDL dãy khong cách thi gian. Các
mu dãy tìm được khi đó được gi mu dãy thường xuyên trng s vi khong
cách thi gian.
Phát hin các mu y có trng s trong các CSDL dãy định lượng có khong cách
thi gian. Các mu dãy tìm được khi đó được gi là mu dãy thường xuyên li ích
cao vi khong cách thi gian.
NCS tp trung vào nghiên cứu đề xut các thut toán mới để khai phá các mu dãy
thưng xuyên; chng minh tính đúng đắn tính đầy đủ, phân tích độ phc tp tính
toán ca các thut toán; th nghiệm và phân tích ý nghĩa của mẫu dãy thường xuyên
khai phá được.
3. Phương pháp nghiên cứu
Lun án nghiên cu các mu dãy, trng s ca các mc trong dãy, khong cách
thi gian gia các dãy, các CSDL dãy khong cách thi gian CSDL dãy định
ng có khong cách thi gian.
Các nghiên cu, thut toán phương pháp khai phá mu dãy hin nay trên CSDL
dãy, CSDL dãy định lượng có các yếu t khong cách thi gian, trng s, li ích cao.
4. Các đóng góp của lun án
Những đóng góp chính ca luận án là đề xut và gii quyết các vấn đề sau:
Đề xut 01 thut toán khai phá top-k mu dãy có tính đến trng s ca các mc và
khong cách thi gian trong các CSDL dãy có khong cách thi gian. Kết qu công
trình được đăng trong kết qu ti [CT1].
Đề xut 02 thut toán khai phá mu dãy li ích cao tính đến trng s ca các
mc, giá tr định lượng ca mi mc và khong cách thi gian trong các CSDL dãy
định lượng khong cách thi gian. Kết qu công trình được đăng trong kết qu
ti [CT2], [CT3], [CT4], [CT5].
5. B cc lun án
Lun án gm phn m đầu, 03 chương ni dung và phn kết lun:
Phn m đầu: Trình bày tng quan ca lun án; mc tiêu, đối tượng, phm vi nghiên
cu; phương pháp nghiên cứu; nhng đóng góp chính và cu trúc ca lun án.
Chương 1: Tng quan tình hình nghiên cu và các định nghĩa v khai phá mu dãy
trng s trong CSDL dãy, trong CSDL dãy khong cách thi gian trong
CSDL dãy định lượng có khong cách thi gian.
Chương 2: Khai phá mu dãy trng s trong CSDL dãy khong cách thi
gian. Chương này nêu vấn đề đ xut 01 thut toán khai phá top-k mu dãy
thưng xuyên trng s trong CSDL dãy khong cách thời gian. Tính đúng đn
và đầy đủ ca thut toán, vic thc nghim thut toán trên các b d liu thc và so
sánh vi các nghiên cứu trước đó.
3
Chương 3: Khai phá mu dãy lợi ích cao trong CSDL dãy định lượng khong
cách thời gian. Chương này nêu đặt vấn đề đề xut 02 thut toán khai phá mu
dãy lợi ích cao trong CSDL dãy định lượng khong cách thi gian. Tính đúng
đắn và đầy đủ ca thut toán, vic thc nghim thut toán trên các b d liu thc
và so sánh vi các nghiên cứu trước đó.
Phn kết lun: Trình bày mt s kết lun những đóng góp ca luận án, hướng phát
trin và nhng vấn đề quan tâm ca NCS.
TNG QUAN KHAI PHÁ MU DÃY CÓ TRNG S TRONG
CƠ SỞ D LIU DÃY
Chương này trình bày tng quan những định nghĩa bản nhng vấn đ khai
phá các mu dãy trong CSLD dãy, mu dãy trng s trong CSDL dãy, mu dãy
trong CSDL dãy định lượng mu dãy trong CSDL dãy khong cách thi gian.
Chương này cũng chỉ ra các khong trng chưa được gii quyết để t đó xác định vn
đề nghiên cu ca lun án.
1.1. Khai phá mu dãy trong các CSDL dãy
CSDL y SDB: Gi I={i1, i2, …, in} là tp hp các mc duy nht. Mt tp con
khác rng ca I đưc gi là mt tp mc. Mt dãy d liu S là mt danh sách sp xếp
theo th t ca các tp mc, hiu 𝑆=(𝑠1),(𝑠2),,(𝑠𝑚), trong đó sj là mt tp
mc hay mt phn t ca dãy (𝑠𝑗𝐼) .
Một cơ sở d liu dãy SDB là mt b <sid, Sk>, trong đó sid là một định danh ca
dãy Sk là mt dãy d liu.
Kích thước ca dãy: dãy 𝑆=(𝑠1),(𝑠2),,(𝑠𝑚) đưc ký hiu |S| là tng s dãy
sj trong dãy S. Ví d: dãy S= <(a)(abd)(f)(a)(d)>kích thước |S| =5.
Độ dài ca dãy: dãy 𝑆=(𝑠1),(𝑠2),,(𝑠𝑚) trong đó sj mt tp mc hay mt
phn t ca dãy (𝑠𝑗𝐼) đưc ký hiu l(S) là tng s mc 𝑖𝑗𝐼 có trong dãy S. Mt
dãy có độ dài l được gi là l-sequence. Ví d: dãy S= <(a)(abd)(f)(a)(d)>độ dài là
l(S) =7.
Dãy con và dãy cha: Dãy α=(𝑆1),(𝑆2),,(𝑆𝑚) đưc gi là dãy con ca dãy
𝛽=(𝑆′1),(𝑆′2),,(𝑆′𝑚),,(𝑆𝑛) nếu ch nếu 𝑆𝑖𝑆𝑖 hiu là 𝛼𝛽. Dãy
β cũng được gi là dãy cha ca dãy α. d: Dãy <(abd)(f)> và dãy <(ab)(d)> là mt
trong các dãy con ca dãy cha <(a)(abd)(f)(a)(d)> .
Độ h tr ca dãy: Độ h tr (tuyệt đi) của dãy α trong CSDL dãy SDB tng
s dòng có chứa α trong SDB, ký hiệu là sup(α).
𝑠𝑢𝑝(𝛼)=|{𝛼|𝛼𝑆𝑖𝑆𝑖𝑆𝐷𝐵}|
Mt dãy α đưc gi là mẫu dãy thường xuyên khi và ch khi độ h tr ca α không
nh hơn độ h tr cc tiu minsup cho trước, tc là sup(α) minsup.
Các thut toán khai phá mẫu dãy thường xuyên trong các CSDL dãy thường được
thc hiện theo các phương pháp sau:
Thc hin sinh mu dãy bằng phương pháp tìm kiếm theo b rng (breath-first
search). Các thuật toán điển hình nhất được phát trin theo cách tiếp cn này gm
AprioriAll[2], GSP[10]...