
Luận văn tốt nghiệp
Khai phá song song luật kết hợp mờ
- 1 -
M đầu
Hơn mt thp niên tr li đây, khai phá d liu (KPDL) đã tr thành mt trong
nhng hướng nghiên cu chính trong lĩnh vc khoa hc máy tính và công ngh tri
thc. Hàng lot nghiên cu, đề xut ra đời đã được th nghim và ng dng thành
công vào đời sng cùng vi hơn mười năm lch s cho thy rng KPDL là mt
lĩnh vc nghiên cu n định, có mt nn tng lý thuyết vng chc ch không phi
được xem là “sm n ti tàn” như mt s ít nhà tin hc nghi ng ti tha ban đầu
ca lĩnh vc này.
KPDL bao hàm rt nhiu hướng tiếp cn. Các k thut chính được áp dng
trong lĩnh vc này phn ln được tha kế t lĩnh vc cơ s d liu (CSDL),
machine learning, trí tu nhân to, lý thuyết thông tin, xác sut thng kê, và tính
toán hiu năng cao. Các bài toán ch yếu trong KPDL là phân lp/d đoán
(classification/prediction), phân cm (clustering), khai phá lut kết hp
(association rules mining), khai phá chui (sequence mining), v.v. Lĩnh vc này
cũng là đim hi t và giao thoa ca rt nhiu lĩnh vc khác. KPDL đã và đang
được ng dng thành công vào thương mi, tài chính & th trường chng khoán,
sinh hc, y hc, giáo dc, vin thông, .v.v.
Ý thc được đây là mt lĩnh vc nghiên cu có nhiu trin vng, tôi đã chn
hướng nghiên cu Khai phá song song lut kết hp m cho đề tài lun văn ca
mình. Lun văn được xây dng da trên nn các nghiên cu đã có trong lĩnh vc
khai phá lut kết hp k t năm 1993, đồng thi tôi cũng mnh dn trình bày mt
vài đề xut ca riêng mình mà hai trong s nhng đề xut đó là “nêu lên mi liên
h gia lut kết hp m và lý thuyết tp m” và “thut toán song song khai phá
lut kết hp m”.
Lun văn được t chc thành 5 chương như sau:
Chương I trình bày tng quan v KPDL như định nghĩa thế nào là KPDL
và khám phá tri thc t cơ s d liu, các bước chính trong quá trình khám
phá tri thc. Chương này cũng đề cp đến các k thut và hướng tiếp cn
chính trong KPDL và phân loi các h thng khai phá theo nhiu tiêu chí
khác nhau. Phn cui ca chương này phác ha nhng ng dng chính ca
- 2 -
lĩnh vc này và nhng hướng nghiên cu đang và s được chú trng trong
thi gian ti.
Chương II trình bày v bài toán “khai phá lut kết hp”. Để đi vào nhng
nghiên cu c th hai chương sau, chương này cung cp nhng hiu biết
cn thiết v bài toán khai phá lut kết hp. Phn cui chương s là tng
hp nhng đề xut chính trong hơn 10 năm lch s tn ti và phát trin ca
bài toán này.
Chương III trình bày v “khai phá lut kết hp m”. Phn đầu ca chương
phát biu li bài toán khai phá lut kết hp vi thuc tính s và thuc tính
hng mc cùng các phương pháp ri rc hóa d liu cho bài toán này.
Dng lut kết hp này cùng vi các phương pháp ri rc hóa đi kèm có
mt vài hn chế như ng nghĩa ca lut hay vn đềđim biên gãy”. Lut
kết hp m được đề xut như mt hướng khc phc các nhược đim ca
bài toán trên. Bên cnh s tng hp v các nghiên cu trước đó v dng
lut này, lun văn cũng nêu lên mi liên h gia lut kết hp và lý thuyết
tp m và gii quyết câu hi “ti sao li chn phép tích đại s và phép ly
min cho toán t T-norm”. Phn cui ca chương này là mt đề xut v
cách chuyn đổi lut kết hp m v dng lut kết hp m vi thuc tính s
da vào ngưỡng w
f
tương ng vi các tp m f ca tng thuc tính m.
Chương IV tp trung vào bài toán ”khai phá song song lut kết hp”. Phn
đầu ca chương này, lun văn tóm tt li các thut toán đã được đề xut và
th nghim thành công. Các thut toán này ging nhau mt đim là phi
đồng b hóa dù nhiu hay ít trong sut quá trình tính toán và đây chính là
nhược đim cn khc phc. Nm bt được tính cht ca lut kết hp m,
lun văn đã đề xut mt thut toán mi theo đó các b x lý (BXL) trong
h thng song song hn chế được ti đa quá trình trao đổi d liu và đồng
b hóa. Thut toán khai phá song song lut kết hp m này được xem là
gn lý tưởng bi ngoài vic tránh được nhược đim truyn thông, nó còn
đạt được s cân bng ti gia các BXL nh mt chiến thut chia tp thuc
tính ng c viên phù hp.
Chương V tng kết lun văn bng vic nêu li nhng công vic đã thc
hin và kết qu đạt được ca lun văn này. Ngoài ra, chương này cũng đề
- 3 -
cp nhng vn đề chưa được gii quyết hoc gii quyết thu đáo trong toàn
lun văn cũng như công vic và hướng nghiên cu trong tương lai.
Li cm ơn:
Đầu tiên, tôi mun gi li cm ơn sâu sc nht đến cán b hướng dn khoa
hc, thy giáo, TS. Hà Quang Thy, người đã truyn cho tôi ngun cm hng
nghiên cu khoa hc, người đã đưa tôi đến vi lĩnh vc nghiên cu này, và là
người đã ging dy, hướng dn tôi hết sc tn tình trong sut bn năm qua.
Tôi xin bày t li cm ơn ti các thy cô giáo đã ging dy tôi trong sut hai
năm hc qua như GS. Hunh Hu Tu, GS, TSKH. Nguyn Xuân Huy, PGS, TS.
Ngô Quc To, TS. Vũ Đức Thi, TS. Nguyn Kim Anh, .v.v. Tôi cũng xin trân
trng cm ơn các nhà khoa hc và đồng thi là các thy giáo trong ban ch nhim
lp cao hc K8T
1
như GS. VS. Nguyn Văn Hiu, GS. TSKH. Bch Hưng Khang,
PGS. TS. H S Đàm, GS. TSKH. Phm Trn Nhu, và PGS. TS. Đỗ Đức Giáo.
Tôi cũng mun gi li cm ơn ti nhng thành viên trong nhóm seminar v
“Khai phá d liu & tính toán song song” như TS. Đỗ Văn Thành, ThS. Phm Th
Hoàn, ThS. Đoàn Sơn, CN. Bùi Quang Minh, ThS. Nguyn Trí Thành, CN.
Nguyn Thành Trung, CN. Tào Th Thu Phượng, CN. Vũ Bi Hng, .v.v. H
nhng người thy, người bn đã sát cánh bên tôi trong lĩnh vc nghiên cu này và
có nhng góp ý chuyên môn cũng như s động viên v tinh thn rt đáng trân
trng.
Tôi xin ghi nhn nhng tình cm, s giúp đỡ v chuyên môn cũng như trong
cuc sng ca các thy giáo, các bn đồng nghip trong B môn Các H thng
thông tin, Khoa Cng ngh, ĐHQG Hà Ni. S quan tâm ca nhng ngưi thy
như TS. Nguyn Tu, PGS. TS. Trnh Nht Tiến, ThS. Nguyn Quang Vinh, ThS.
Vũ Bá Duy, ThS. Lê Quang Hiếu .v.v. đã động viên và khích l tôi rt nhiu trong
thi gian qua.
Cui cùng, tôi xin gi li cm ơn sâu sc ti tt c người thân trong gia đình
tôi, bn bè tôi. H tht s là ngun động viên vô tn đối vi tôi trong cuc sng.
Hc viên thc hin lun văn
- 4 -
Phan Xuân Hiếu
Mc lc
M đầu ............................................................................................................... 1
Mc lc .............................................................................................................. 4
Danh sách hình v ............................................................................................. 6
Danh sách bng biu .......................................................................................... 7
Bng t viết tt .................................................................................................. 8
Chương I. Tng quan v Khai phá d liu ........................................................ 9
1.1 Khai phá d liu ...................................................................................... 9
1.1.1 Ti sao li Khai phá d liu? ........................................................... 9
1.1.2 Định nghĩa Khai phá d liu .......................................................... 10
1.1.3. Các bước chính trong Khám phá tri thc (KDD) .......................... 11
1.2 Các hướng tiếp cn và các k thut áp dng trong Khai phá d liu .... 12
1.2.1 Các hướng tiếp cn và các k thut chính trong Khai phá d liu 12
1.2.2 Các dng d liu có th khai phá ................................................... 13
1.3 ng dng ca Khai phá d liu ............................................................ 14
1.3.1 ng dng ca Khai phá d liu ..................................................... 14
1.3.2 Phân loi các h Khai phá d liu .................................................. 14
1.4 Nhng vn đề được chú trng trong Khai phá d liu .......................... 15
Chương II. Lut kết hp .................................................................................. 17
2.1 Ti sao li lut kết hp? ........................................................................ 17
2.2 Phát biu bài toán khai phá lut kết hp ............................................... 18
2.3 Nhng hướng tiếp cn chính trong khai phá lut kết hp ..................... 20
Chương III. Khai phá lut kết hp m ............................................................ 23
3.1 Lut kết hp có thuc tính s ................................................................ 23