
- 1 -
B GIÁO DC – ĐÀO TO
ĐI HC ĐÀ NNG
TRN TH BÍCH ĐÀO
NG DNG KHAI PHÁ D LIU Đ TÌM
LUT KT HP ĐÁNG TIN CY TRONG H THNG
BÁN HÀNG TI CÔNG TY DƯC TW3
Chuyên ngành: KHOA HC MÁY TÍNH
Mã s: 60.48.01
TÓM TT LUN VĂN THC SĨ K THUT
Đà Nng - Năm 2012
- 2 -
Công trình ñưc hoàn thành ti
ĐI HC ĐÀ NNG
Ngưi hưng dn khoa hc: TS. Huỳnh Công Pháp
Phn bin 1: TS. Trương Ngc Châu
Phn bin 2: TS. Trương Công Tun
Lun văn ñã ñưc bo v trưc hi ñng chm Lun văn tt
nghip Thc sĩ K thut hp ti Đi hc Đà Nng vào ngày 16 tháng
06 năm 2012.
Có th tìm hiu Lun văn ti:
- Trung tâm Thông tin – Hc liu, Đi hc Đà Nng.
- Trung tâm Hc liu, Đi hc Đà Nng.

- 3 -
M ĐU
1. Lý do chn ñ! tài
Ngày nay, công ngh thông tin ñang dn ph bin trên hu ht các
lĩnh vc. T l thun vi s phát trin ñó là lưng d liu ñưc chúng ta
lưu tr cũng ln theo. Chúng ta bit rng trong lưng d liu ñó ñang n
ch!a nhng giá tr" nht ñ"nh. Tuy nhiên theo thng kê, ch# mt lưng nh$
nhng d liu này (khong 5% - 10%) là ñưc phân tích, s còn li
không bit ñ làm gì nhưng chúng ta v%n luôn phi lưu tr vì s s& b$ qua
nhng thông tin quan trng nào ñó ho'c mt ngày nào ñó s& dùng ti
chúng. Do ñó, các phương pháp qun tr" và khai thác cơ s( d liu truy)n
thng ngày càng không th ñáp !ng ñưc thc t ñã làm phát sinh mt
khuynh hưng k thut mi: ñó là phát hin tri th!c và khai phá d liu
KDD (Knowledge Discovery and Data Mining). Phát hin tri th!c và
khai phá d liu là quá trình phát hin tri th!c ti)m n, ti)m năng, không
bit trưc và có li t* kho d liu ln. KDD là s k th*a và phát trin
các thành tu c+a nhi)u lĩnh vc nghiên c!u !ng d,ng tin hc trưc ñó
như: H chuyên gia, Trí tu nhân to, lý thuyt nhn dng, …
Th" trư-ng v) dưc ph m, thit b" y t ngày càng phát trin mnh
m&, các công ty kinh doanh v) lĩnh vc này liên t,c ñưa ra các sn ph m,
các hình th!c kinh doanh mi cnh tranh vi nhau nhm thu hút ngư-i
tiêu dùng. Đ công ty có th tn ti, phát trin b)n vng và cnh tranh
trên th" trư-ng thì cn phi ñưa ra nhng nhn ñ"nh k"p th-i, và ngư-i
qun lý phi có cách nhìn tng th v) cách th!c ñu tư v) m't hàng nào
nhm ñáp !ng ñúng yêu cu c+a khách hàng ñ có hưng ñu tư ñúng
ñ.n. Hin ti, công ty Dưc ñang có mt ngun d liu ln thông tin v)
khách hàng, s lưng, doanh thu các m't hàng ñưc bán ra,… Da vào
lưu lưng d liu này, và do ñây là mt hưng ñi ti)m năng, có nhi)u kh
năng phát trin trong tương lai, nên tôi ñã chn ñ) tài : “ng dng khai
- 4 -
phá d liu ñ tìm lut kt hp tin cy trong h thng bán hàng ti Công
ty Dưc TW3”.
Đ) tài ch# mô t và thc hin mt s ch!c năng c+a h thng bán
hàng nhm ph,c v, cho m,c ñích chính c+a ñ) tài là !ng d,ng khai phá
d liu, c, th là ng dng thut toán phân lp vi cây quyt ñnh ñ
tìm lut kt hp trong h thng bán hàng c+a Công ty Dưc TW3, mang
li cho ngư-i qun lý có cách nhìn tng quát v) nhu cu mua bán ñ
ñưa ra nhng nhn ñ"nh ñúng và hp lý, mang li hiu qu cho hot
ñng bán hàng ti công ty.
2. Đ"i tư#ng và ph$m vi nghiên c%u
a. Đi tưng
Lý thuy&t
- K thut khai phá d liu
- Nghip v, qun lý bán hàng ti công ty dưc TW3
D' liu
- Cơ s( d liu: khách hàng, loi hàng, m't hàng…
- Các văn bn, qui ñ"nh có liên quan…
b. Phm vi
- Nghiên c!u các kin th!c cơ bn v) phương pháp lut kt hp.
- Tìm hiu các qui trình tác nghip trong h thng.
3. M(c tiêu và nhim v(
a. Mc tiêu
- /ng d,ng lut kt hp vào công tác qun lý bán hàng.
- Đưa ra kt qu nhn ñ"nh hay các d ñoán mang tính chin lưc
cho nhà qun lý.
b. Nhim v
Nghiên c%u cơ s* lý thuy&t
- Nghiên c!u k thut khai phá d liu.
- Nghiên c!u và phát trin các thut gii tìm lut kt hp.

- 5 -
- /ng d,ng các thut toán trên vào cơ s( d liu qun lý bán
hàng.
Tri+n khai xây d,ng %ng d(ng
- Xây dng cơ s( d liu m%u.
- Xây dng các !ng d,ng.
4. Phương pháp nghiên c%u
- Tham kho các tài liu liên quan, các bài báo khoa hc…
- Lp k hoch, lp qui trình, tin ñ thc hin
- Nghiên c!u k thut khai phá d liu bng vic tìm lut kt hp
gia các m't hàng da trên loi hàng và doanh thu c+a các loi
hàng ñó.
5. K&t qu d, ki&n
- Tng hp các kin th!c cơ bn c+a phương pháp khai phá lut
kt hp
- Xây dng mt s !ng d,ng ñơn gin, d0 s1 d,ng nhưng mang
tính hiu qu cao.
6. Ý nghĩa khoa hc và th,c ti.n c/a ñ! tài
a. Ý nghĩa khoa hc
- Đây là phương pháp ñưc nhi)u nhà khoa hc nghiên c!u và
cũng có rt nhi)u ñóng góp vào thc ti0n.
- /ng d,ng tin hc vào trong công tác qun lý.
b. Ý nghĩa th,c ti.n
- Gii quyt ñưc mt s tác nghip trong công tác qun lý.
- Đánh giá kt qu nhn ñ"nh, h2 tr ñưa ra các quyt ñ"nh hay
các d ñoán mang tính chin lưc da trên loi hàng và doanh
thu c+a các loi hàng ñó.
- Giúp nhà qun lý n.m b.t k"p th-i các nhu cu mua bán trên th"
trư-ng và có mt cách nhìn tng quan hơn.
7. C0u trúc lu1n văn
- 6 -
Lun văn gm có 3 chương:
Chương 1: Tng quan v) lý thuyt
- Nghiên c!u, tìm hiu lý thuyt khai phá d liu.
- Trình bày thut toán ñưc áp d,ng trong lun văn: thut toán
phân lp vi cây quyt ñ"nh.
Chương 2: Phân tích thit k h thng qun lý bán hàng ti công ty
dưc TW3
- Phát biu bài toán: ñ"nh nghĩa bài toán và qui trình bán hàng.
- Phân tích thit k cơ s( d liu và xác ñ"nh các tác nhân liên
quan ñn h thng bán hàng.
Chương 3: Xây dng chương trình và thc nghim
- Trình bày ngôn ng lp trình
- Đưa ra các d liu thc t thu thp ñưc
- Thit k giao din bao gm 2 s ch!c năng chính: khai phá d
liu theo mã loi hàng và khai phá d liu các loi hàng theo
doanh thu. Bên cnh ñó còn có mt s ch!c năng h2 tr thêm:
danh m,c khách hàng, cp nht thông tin hóa ñơn, qun lý
doanh thu bán hàng…
CHƯƠNG 1: T3NG QUAN V4 LÝ THUYT
1.1. LÝ THUYT V4 KHAI PHÁ D LIU
1.1.1. Khai phá d' liu
1.1.1.1. Đnh nghĩa khai phá d liu
Đ"nh nghĩa c+a Ferruzza: “Khai phá d liu là tp hp các
phương pháp ñưc dùng trong tin trình khám phá tri th!c ñ ch# ra s
khác bit các mi quan h và các m%u chưa bit bên trong d liu”.
Đ"nh nghĩa c+a Parsaye: “Khai phá d liu là quá trình tr giúp
quyt ñ"nh, trong ñó chúng ta tìm kim các m%u thông tin chưa bit và
bt ng- trong CSDL ln”.

- 7 -
Đ"nh nghĩa c+a Fayyad: “Khai phá tri th!c là mt quá trình
không tm thư-ng nhn ra nhng m%u d liu có giá tr", mi, hu ích,
ti)m năng và có th hiu ñưc”.
1.1.1.2. Đc ñim ca khai phá d liu
Khai phá d' liu là giai ño$n ch/ y&u c/a quá trình phát
hin tri th%c.
Khai phá d liu ñ tìm ra các m%u (pattern) có ý nghĩa ñưc
tin hành trên tp d liu mà ta hy vng là s& thích hp vi nhim v,
khai phá hin th-i.
Mu tìm ñư#c t5 quá trình khai phá d' liu phi có tính mô
t (description) và d, ñoán (prediction).
Khai phá d' liu là quá trình mà trong ñó con ngưi là
trung tâm.
Khai phá d' liu là quá trình tìm ki&m tri th%c ch6 t5 d' liu.
Khai phá d' liu mang tính ch0t hưng nhim v(.
1.1.1.3. Ý nghĩa thc tin và tình hình ng dng khai phá d liu
a. Ý nghĩa th,c ti.n
Cùng vi s tăng lên không ng*ng c+a khi lưng d liu , yêu
cu khai thác d liu ngày càng cao hơn. Ngoài nhng ñòi h$i v) tính
linh hot, năng sut, s chuyên môn hóa trong vn ñ) khai thác, CSDL
cn phi mang li tri th!c hơn là chính d liu ñó. Các quyt ñ"nh cn
phi hp lý, nhanh chóng, chính xác và có kh năng d ñoán s vic
trong tương lai. Trưc yêu cu này, cách khai thác CSDL truy)n thng
cho thy s hn ch c+a mình. Khai phá ra ñ-i m( hưng cho s khó
khăn này.
Có th k mt s !ng d,ng c+a khai phá d liu như sau: mt
công ty bo him mun phát hin t* CSDL c+a khách hàng b" nghi ng-
là gian ln, khi ñó, ngư-i ta thc hin khai phá d liu trên CSDL ch!a
các thông tin liên quan ñn giao d"ch gia khách hàng và công ty ñ tìm
ra s phân lp, có th là lp “ñáng tin” và lp “không ñáng tin” trong
- 8 -
khách hàng. T* ñó công ty s& có bin pháp hn ch gian ln xy ra. Hay
công ty nhn ñ't hàng t* khách hàng qua email có th gim bt chi phí
g1i email bng cách dùng tri th!c khám phá ñ ch# g1i email liên lc
ñn nhng khách hàng có kh năng mua thư-ng xuyên. Bnh vin cũng
cn khám phá tri th!c t* d liu nhm ph,c v, cho m,c ñích nghiên
c!u, ch n ñoán trong ngành y…
b. Tình hình %ng d(ng
3 Vit Nam, có nhi)u ñ) tài nghiên c!u khoa hc v) khai phá
d liu và ñt ñưc nhi)u kt qu ñáng khích l.
Khai phá d liu là mt lĩnh vc nghiên c!u mi dùng các k
thut thông minh ñ khai phá tri th!c tìm n trong d liu. Kh năng h2
tr công vic c+a khai phá d liu làm cho vic !ng d,ng k thut này
vào thc t ngày càng rng rãi hơn. M'c dù, các h thng khai phá d
liu khai phá d liu trên th gii ít nhi)u còn hn ch nhưng ñã dn
dn hoàn thin hơn và thc s tr( thành mt công c, quan trng không
th thiu ñưc trong hu ht các lĩnh vc xã hi.
1.1.2. Các bưc cơ bn c/a quá trình phát hin tri th%c
Nhìn chung, quá trình khai phá d liu gm các bưc sau:
Bưc 1: Tìm hiu lĩnh vc !ng d,ng và xác ñ"nh m,c ñích khai phá d liu.
Bưc 2: Xác ñ"nh d liu liên quan và hình th!c khai phá.
Bưc 3: Ti)n x1 lý d liu.
Bưc 4: Chn thut toán khai phá và chuyn d liu v) dng phù hp.
Bưc 5: Khai phá d liu.
Bưc 6: Trích lc các m%u thc s có ý nghĩa.
Bưc 7: /ng d,ng tri th!c phát hin ñưc.
1.2. LUT KT HP TRONG KHAI PHÁ D LIU
1.2.1. Vài nét v! khai phá lu1t k&t h#p
M,c ñích chính c+a khai phá d liu là trích rút tri th!c mt cách
t ñng, hiu qu và “thông minh” t* kho d liu.

- 9 -
Trong hot ñng sn xut kinh doanh, ví d, kinh doanh các m't
hàng ti siêu th", các nhà qun lý rt thích có ñưc nhng thông tin
mang tính thng kê như: “90% ph, n có xe máy màu ñ$ và ñeo ñng
h Th,y S thì dùng nưc hoa hiu Chanel” ho'c “70% khách hàng là
công nhân thì mua TV thư-ng mua loi 21 inches”. Nhng thông tin
như vy rt hu ích trong vic ñ"nh hưng kinh doanh. Vy vn ñ) ñ't
ra là liu có tìm ñưc các lut như vy bng các công c, khai phá d
liu hay không? Câu tr l-i là hoàn toàn có th. Đó chính là nhim v,
khai phá lut kt hp.
1.2.2. Lu1t k&t h#p
1.2.2.1. Đnh nghĩa v lut kt hp
Đ7nh nghĩa 1: Cho I={I
1
, I
2
, .., I
m
} là tp hp c+a m tính cht riêng bit.
Gi s1 D là cơ s( d liu, vi các bn ghi ch!a mt tp con T các tính
cht (có th coi như T ⊆ I), các bn ghi ñ)u có ch# s riêng. Mt lut kt
hp là mt mnh ñ) kéo theo có dng X→Y, trong ñó X, Y ⊆ I, th$a mãn
ñi)u kin X∩Y=∅. Các tp hp X
và
Y ñưc gi là các tp hp tính cht
(itemset). Tp X gi là nguyên nhân, tp Y gi là h qu.
Có 2 ñ ño quan trng ñi vi lut kt hp: Đ h2 tr (support) và ñ
tin cy (confidence), ñưc ñ"nh nghĩa như phn dưi ñây.
Đ7nh nghĩa 2: Đ8 h9 tr#
Đ h2 tr c+a mt tp hp X trong cơ s( d liu D là t s gia các bn
ghi T⊆D có ch!a tp X và tng s bn ghi trong D (hay là phn trăm c+a
các bn ghi trong D có ch!a tp hp X), ký hiu là Support
(X
) hay
Supp(X).
Ký hiu: Supp(X).
Ta có: 0 ≤ Supp(X) ≤ 1 vi mi tp hp X.
Đ h2 tr Supp(X) còn ñưc hiu là xác sut X ñưc th$a trong D.
Ký hiu: P(X).
Đ h2 tr c+a mt lut kt hp X→Y là t l gia s lưng các bn ghi
ch!a tp hp X ∪ Y, so vi tng s các bn ghi trong D.
- 10 -
Supp(X→Y) = Supp(X∪Y)= ||
|}|{|
D
TYXDT
⊆
∪
∈
Khi chúng ta nói rng ñ h2 tr c+a mt lut là 70%, có nghĩa là có
70% tng s bn ghi ch!a
X
∪ Y. Như vy, ñ h2 tr mang ý nghĩa
thng kê c+a lut.
Đ h tr ca X là:
S lưng giao d"ch h2 tr (X)
Supp(X)= Tng s giao d"ch
Đ7nh nghĩa 3: Đ8 tin c1y
Đ tin cy (Confidence) c+a lut kt hp có dng R: X→Y là t l gia s
lưng các bn ghi trong D ch!a X
∪
Y vi s bn ghi trong D có ch!a tp
hp X. Ký hiu ñ tin cy c+a mt lut là Conf(R).
Conf (X→Y) = P( XY |)= )(
)(
XSupp
YXSupp
∪
Có th ñ"nh nghĩa ñ tin cy như sau:
Đ tin cy c+a mt lut kt hp X→Y là t l gia s lưng các bn ghi
c+a tp hp ch!a
X
∪ Y, so vi tng s các bn ghi ch!a X.
Vic khai thác các lut kt hp t* cơ s( d liu chính là vic tìm tt cc các
lut có ñ h2 tr và ñ tin cy do ngư-i s1 d,ng xác ñ"nh trưc. Các
ngư4ng c+a ñ h2 tr và ñ tin cy ñưc ký hiu là minsup, minconf và do
ngư-i dùng xác ñ"nh.
Vic khai thác các lut kt hp có th ñưc phân tích thành hai vn ñ):
1. Tìm tt c các tp m,c thư-ng xuyên xy ra mà có ñ h2 tr ln
hơn ho'c bng minsup.
2. To ra các lut mong mun s1 d,ng các tp m,c ln mà có ñ tin
cy ln hơn ho'c bng minconf.
Đ7nh nghĩa 4: Đ8 quan trng
Đ quan trng (importance) c+a lut X→Y, ký hiu Imp(X→Y), ñưc xác
ñ"nh b(i t s gia Conf(X→Y) và Conf(
X
→Y) .

