December 27, 2012 1
Chương 4:
Khai phá lut kết hp
Da theo “Data Mining: Concepts and Techniques”
Chapter 6. Mining Association Rules in Large Databases
©Jiawei Han and Micheline Kamber
www.cs.uiuc.edu/~hanj
December 27, 2012 2
Chương 4: Khai phá lut kết hp
Khai phá lut kết hp (Association rule)
Các thut toán khai phá vô hướng lut kết hp (giá tr
lôgic đơn chiu) trong CSDL giao dch
Khai phá kiu đa dng lut kết hp/tương quan
Khai phá kết hp da theo ràng buc
Khai phá mu dãy
ng dng/m rng khai phá mu ph biến
December 27, 2012 3
Khái nim cơ s: Tp ph biến và lut kết hp
M t s ví d v “lu t k t h p” (associate rule) ế
98% khách ng mà mua t p c th thao t đ u mua
các t p chí v ô
s k t h pế gi a “t p c th thao
v i “t p c v ôtô
60% khách hàng mà mua bia t i su th thì đ u mua b m
tr em
s k t h pế gi a “bia v i “b m tr em
Có t i 70% ng i truy nh p Web o đ a ch Url 1 thì ườ
cũng o đ a ch Url 2 trong m t phiên truy nh p web”
s k t h pế gi a “Url 1” v i “Url 2. Khai p d li u s
d ng Web (D li u t file log c a các site, ch ng h n
đ c MS cung c p). ượ
Các Url có g n v i nhãn “l p” là các đ c tr ng t lu t ư
k t h p liên quan gi a các l p Url y.ế
December 27, 2012 4
Khái nim cơ s: Tp ph biến và lut kết hp
[IV06] Renáta Iváncsy, István Vajk (2006). Frequent Pattern Mining in Web Log Data,
Acta Polytechnica Hungarica, 3(1):77-90, 2006
December 27, 2012 5
Khái nim cơ s: Tp ph biến và lut kết hp
C s d li u giao d ch (transaction database)ơ
Giao d ch: danh sách các m t hàng (m c: item) trong m t phi u mua hàng ế
c a khách hàng. Giao d ch T là m t t p m c.
T p toàn b các m c I = {i 1, i2, …, ik} “t t c các m t hàng”. M t giao d ch
T là m t t p con c a I: T I. M i giao d ch T có m t đ nh danh là T ID.
A là m t t p m c A I và T là m t giao d ch: G i T ch a A n u A ế T.
Lu t k t h p ế
G i A B là m t “lu t k t h p” n u A ế ế I, B I và AB=.
Lu t k t h p A ế B đ h tr (support) s trong CSDL giao d ch D n u ế
trong D s% các giao d ch T ch a AB: chính xác su t P(AB). T p m c
A P(A) s>0 (v i s cho tr c) đ c g i ướ ượ t p ph bi n (frequent set) ế .
Lu t k t h p A ế B đ tin c y (confidence) c trong CSDL D n u nh ế ư
trong D c% các giao d ch T ch a A thì cũng ch a B: chính xác su t
P(B|A).
Support (A B) = P(AB) : 1 s (A B) 0
Confidence (A B) = P(B|A) : 1 c (A B) 0
Lu t A B đ c g i đ m b o đ h tr s trong D n u s(A ượ ế B) s.
Lu t AB đ c g i đ m b o đ tin c y c trong D n u c(A ượ ế B) c.