- 1 -
B GIÁO DC – ĐÀO TO
ĐI HC ĐÀ NNG
TRN TH BÍCH ĐÀO
NG DNG KHAI P D LIU Đ M
LUT KT HP ĐÁNG TIN CY TRONG H THNG
N NG TI CÔNG TY DƯC TW3
Chuyên ngành: KHOA HC MÁY TÍNH
Mã s: 60.48.01
TÓM TT LUN VĂN THC SĨ K THUT
Đà Nng - Năm 2012
- 2 -
Công trình ñưc hoàn thành ti
ĐI HC ĐÀ NNG
Ngưi hưng dn khoa hc: TS. Hunh Công Pháp
Phn bin 1: TS. Trương Ngc Châu
Phn bin 2: TS. Trương Công Tun
Lun văn ñã ñưc bo v trưc hi ñng chm Lun văn tt
nghip Thc sĩ K thut hp ti Đi hc Đà Nng vào ngày 16 tháng
06 năm 2012.
Có th tìm hiu Lun văn ti:
- Trung tâm Thông tin – Hc liu, Đi hc Đà Nng.
- Trung tâm Hc liu, Đi hc Đà Nng.
- 3 -
M ĐU
1. Lý do chn ñ!i
Ngày nay, công ngh thông tin ñang dn ph bin trên hu ht c
lĩnh vc. T l thun vi s phát trin ñó là lưng d liu ñưc chúng ta
lưu tr cũng ln theo. Chúng ta bit rng trong lưng d liu ñó ñang n
ch!a nhng giá tr" nht ñ"nh. Tuy nhiên theo thng kê, ch# mt lưng nh$
nhng d liu y (khong 5% - 10%) ñưc phân tích, s n li
không bit ñ làm gì nhưng chúng ta v%n luôn phi lưu tr vì s s& b$ qua
nhng thông tin quan trng o ñó ho'c mt ngày nào ñó s& dùng ti
chúng. Do ñó, các phương pháp qun tr" khai thác cơ s( d liu truy)n
thng ngày ng không th ñáp !ng ñưc thc t ñã m phát sinh mt
khuynh hưng k thut mi: ñó pt hin tri th!c và khai phá d liu
KDD (Knowledge Discovery and Data Mining). Phát hin tri th!c
khai phá d liu là quá trình phát hin tri th!c ti)m n, ti)m năng, không
bit trưc li t* kho d liu ln. KDD s k th*a phát trin
các thành tu c+a nhi)u lĩnh vc nghiên c!u !ng d,ng tin hc trưc ñó
như: H chuyên gia, Trí tu nhân to, thuyt nhn dng,
Th" trư-ng v) dưc ph m, thit b" y t ngày càng phát trin mnh
m&, các công ty kinh doanh v) lĩnh vc này liên t,c ñưa ra các sn ph m,
các hình th!c kinh doanh mi cnh tranh vi nhau nhm thu hút ngư-i
tiêu dùng. Đ công ty th tn ti, phát trin b)n vng cnh tranh
trên th" trư-ng thì cn phi ñưa ra nhng nhn ñ"nh k"p th-i, và ngư-i
qun phi cách nhìn tng th v) cách th!c ñu tư v) m't hàng nào
nhm ñáp !ng ñúng u cu c+a khách hàng ñ hưng ñu tư ñúng
ñ.n. Hin ti, công ty Dưc ñang mt ngun d liu ln thông tin v)
khách hàng, s lưng, doanh thu các m't hàng ñưc bán ra,Da o
lưu lưng d liu này, và do ñây là mt hưng ñi ti)m năng, có nhi)u kh
năng phát trin trong tương lai, nên tôi ñã chn ñ) tài : ng dng khai
- 4 -
phá d liu ñ tìm lut kt hp tin cy trong h thng bán hàng ti Công
ty Dưc TW3”.
Đ) tài ch# mô t thc hin mt s ch!c năng c+a h thng bán
hàng nhm ph,c v, cho m,c ñích chính c+a ñ) tài là !ng d,ng khai phá
d liu, c, th ng dng thut toán phân lp vi cây quyt ñnh ñ
tìm lut kt hp trong h thng bán hàng c+a Công ty Dưc TW3, mang
li cho ngư-i qun lý cách nhìn tng quát v) nhu cu mua bán ñ
ñưa ra nhng nhn ñ"nh ñúng hp lý, mang li hiu qu cho hot
ñng bán hàng ti công ty.
2. Đ"i tư#ng và ph$m vi nghiên c%u
a. Đi tưng
Lý thuy&t
- K thut khai phá d liu
- Nghip v, qun lý bán hàng ti công ty dưc TW3
D' liu
- Cơ s( d liu: khách hàng, loi hàng, m't hàng…
- Các văn bn, qui ñ"nh có liên quan…
b. Phm vi
- Nghiên c!u các kin th!c cơ bn v) phương pháp lut kt hp.
- Tìm hiu các qui trình tác nghip trong h thng.
3. M(c tiêu và nhim v(
a. Mc tiêu
- /ng d,ng lut kt hp vào công tác qun lý bán hàng.
- Đưa ra kt qu nhn ñ"nh hay các d ñoán mang tính chin lưc
cho nhà qun lý.
b. Nhim v
Nghiên c%u cơ s* lý thuy&t
- Nghiên c!u k thut khai phá d liu.
- Nghiên c!u và phát trin các thut gii tìm lut kt hp.
- 5 -
- /ng d,ng các thut toán trên vào cơ s( d liu qun bán
hàng.
Tri+n khai xây d,ng %ng d(ng
- Xây dng cơ s( d liu m%u.
- Xây dng các !ng d,ng.
4. Phương pháp nghiên c%u
- Tham kho các tài liu liên quan, các bài báo khoa hc…
- Lp k hoch, lp qui trình, tin ñ thc hin
- Nghiên c!u k thut khai phá d liu bng vic tìm lut kt hp
gia các m't hàng da trên loi hàng doanh thu c+a các loi
hàng ñó.
5. K&t qu d, ki&n
- Tng hp các kin th!c cơ bn c+a phương pháp khai phá lut
kt hp
- Xây dng mt s !ng d,ng ñơn gin, d0 s1 d,ng nhưng mang
tính hiu qu cao.
6. Ý nghĩa khoa hc và th,c ti.n c/a ñ! tài
a. Ý nghĩa khoa hc
- Đây phương pháp ñưc nhi)u nhà khoa hc nghiên c!u
cũng có rt nhi)u ñóng góp vào thc ti0n.
- /ng d,ng tin hc vào trong công tác qun lý.
b. Ý nghĩa th,c ti.n
- Gii quyt ñưc mt s tác nghip trong công tác qun lý.
- Đánh giá kt qu nhn ñ"nh, h2 tr ñưa ra các quyt ñ"nh hay
các d ñoán mang tính chin lưc da trên loi hàng doanh
thu c+a các loi hàng ñó.
- Giúp nhà qun lý n.m b.t k"p th-i các nhu cu mua bán trên th"
trư-ng và có mt cách nhìn tng quan hơn.
7. C0u trúc lu1n văn
- 6 -
Lun văn gm có 3 chương:
Chương 1: Tng quan v) thuyt
- Nghiên c!u, tìm hiu lý thuyt khai phá d liu.
- Trình bày thut toán ñưc áp d,ng trong lun văn: thut toán
phân lp vi cây quyt ñ"nh.
Chương 2: Phân tích thit k h thng qun bán hàng ti công ty
dưc TW3
- Phát biu bài toán: ñ"nh nghĩa bài toán và qui trình bán hàng.
- Phân tích thit k cơ s( d liu xác ñ"nh các tác nhân liên
quan ñn h thng bán hàng.
Chương 3: Xây dng chương trình và thc nghim
- Trình bày ngôn ng lp trình
- Đưa ra các d liu thc t thu thp ñưc
- Thit k giao din bao gm 2 s ch!c năng chính: khai phá d
liu theo loi hàng và khai phá d liu c loi hàng theo
doanh thu. Bên cnh ñó n mt s ch!c năng h2 tr thêm:
danh m,c khách hàng, cp nht thông tin hóa ñơn, qun
doanh thu bán hàng
CHƯƠNG 1: T3NG QUAN V4 LÝ THUYT
1.1. LÝ THUYT V4 KHAI PHÁ D LIU
1.1.1. Khai phá d' liu
1.1.1.1. Đnh nghĩa khai phá d liu
Đ"nh nghĩa c+a Ferruzza: “Khai phá d liu tp hp các
phương pháp ñưc dùng trong tin trình khám phá tri th!c ñ ch# ra s
khác bit các mi quan h và các m%u chưa bit bên trong d liu”.
Đ"nh nghĩa c+a Parsaye: “Khai phá d liu quá trình tr giúp
quyt ñ"nh, trong ñó chúng ta tìm kim các m%u thông tin chưa bit
bt ng- trong CSDL ln”.
- 7 -
Đ"nh nghĩa c+a Fayyad: “Khai phá tri th!c mt quá trình
không tm thư-ng nhn ra nhng m%u d liu giá tr", mi, hu ích,
ti)m năng và có th hiu ñưc”.
1.1.1.2. Đc ñim ca khai phá d liu
Khai phá d' liu giai ño$n ch/ y&u c/a quá trình phát
hin tri th%c.
Khai phá d liu ñ tìm ra các m%u (pattern) ý nghĩa ñưc
tin hành trên tp d liu ta hy vng s& thích hp vi nhim v,
khai phá hin th-i.
Mu tìm ñư#c t5 quá trình khai phá d' liu phi có tính mô
t (description) và d, ñoán (prediction).
Khai phá d' liu quá trình trong ñó con ngưi
trung tâm.
Khai phá d' liu là q trình tìm ki&m tri th%c ch6 t5 d' liu.
Khai phá d' liu mang tính ch0t hưng nhim v(.
1.1.1.3. Ý nghĩa thc tin và tình hình ng dng khai phá d liu
a. Ý nghĩa th,c ti.n
Cùng vi s tăng lên không ng*ng c+a khi lưng d liu , yêu
cu khai thác d liu ngày càng cao hơn. Ngoài nhng ñòi h$i v) tính
linh hot, năng sut, s chuyên môn hóa trong vn ñ) khai thác, CSDL
cn phi mang li tri th!c hơn chính d liu ñó. Các quyt ñ"nh cn
phi hp lý, nhanh chóng, chính xác kh năng d ñoán s vic
trong tương lai. Trưc yêu cu này, cách khai thác CSDL truy)n thng
cho thy s hn ch c+a mình. Khai phá ra ñ-i m( hưng cho s khó
khăn này.
th k mt s !ng d,ng c+a khai phá d liu như sau: mt
công ty bo him mun phát hin t* CSDL c+a khách hàng b" nghi ng-
gian ln, khi ñó, ngư-i ta thc hin khai phá d liu trên CSDL ch!a
các thông tin liên quan ñn giao d"ch gia khách hàng và công ty ñ tìm
ra s phân lp, th lp ñáng tin” lp “không ñáng tin” trong
- 8 -
khách hàng. T* ñó công ty s&bin pháp hn ch gian ln xy ra. Hay
công ty nhn ñ't hàng t* khách hàng qua email th gim bt chi phí
g1i email bng cách dùng tri th!c khám phá ñ ch# g1i email liên lc
ñn nhng khách hàng kh năng mua thư-ng xuyên. Bnh vin cũng
cn khám phá tri th!c t* d liu nhm ph,c v, cho m,c ñích nghiên
c!u, ch n ñoán trong ngành y
b. Tình hình %ng d(ng
3 Vit Nam, nhi)u ñ) tài nghiên c!u khoa hc v) khai phá
d liu và ñt ñưc nhi)u kt qu ñáng khích l.
Khai phá d liu mt lĩnh vc nghiên c!u mi ng các k
thut thông minh ñ khai phá tri th!c tìm n trong d liu. Kh năng h2
tr công vic c+a khai phá d liu làm cho vic !ng d,ng k thut này
vào thc t ngày càng rng rãi hơn. M'c dù, các h thng khai phá d
liu khai phá d liu trên th gii ít nhi)u còn hn ch nhưng ñã dn
dn hoàn thin hơn thc s tr( thành mt công c, quan trng không
th thiu ñưc trong hu ht các lĩnh vc xã hi.
1.1.2. Các bưc cơ bn c/a quá trình phát hin tri th%c
Nhìn chung, quá trình khai phá d liu gm các bưc sau:
Bưc 1: Tìm hiu lĩnh vc !ng d,ng và xác ñ"nh m,c ñích khai phá d liu.
Bưc 2: Xác ñ"nh d liu liên quan và hình th!c khai phá.
Bưc 3: Ti)n x1 lý d liu.
Bưc 4: Chn thut toán khai phá và chuyn d liu v) dng phù hp.
Bưc 5: Khai phá d liu.
Bưc 6: Trích lc các m%u thc s có ý nghĩa.
Bưc 7: /ng d,ng tri th!c phát hin ñưc.
1.2. LUT KT HP TRONG KHAI PHÁ D LIU
1.2.1. Vài nét v! khai phá lu1t k&t h#p
M,c ñích chính c+a khai phá d liu là trích rút tri th!c mt cách
t ñng, hiu qu và “thông minh” t* kho d liu.
- 9 -
Trong hot ñng sn xut kinh doanh, d, kinh doanh các m't
hàng ti siêu th", các nhà qun lý rt thích ñưc nhng thông tin
mang tính thng như: “90% ph, n xe máy màu ñ$ ñeo ñng
h Th,y S thì dùng nưc hoa hiu Chanel” ho'c “70% khách hàng
công nhân thì mua TV thư-ng mua loi 21 inches”. Nhng thông tin
như vy rt hu ích trong vic ñ"nh hưng kinh doanh. Vy vn ñ) ñ't
ra liu có tìm ñưc các lut như vy bng các công c, khai phá d
liu hay không? Câu tr l-i hoàn toàn th. Đó chính nhim v,
khai phá lut kt hp.
1.2.2. Lu1t k&t h#p
1.2.2.1. Đnh nghĩa v lut kt hp
Đ7nh nghĩa 1: Cho I={I
1
, I
2
, .., I
m
} là tp hp c+a m tính cht riêng bit.
Gi s1 D cơ s( d liu, vi các bn ghi ch!a mt tp con T các tính
cht (có th coi như T I), các bn ghi ñ)u có ch# s riêng. Mt lut kt
hp là mt mnh ñ) kéo theo có dng XY, trong ñó X, Y I, th$a mãn
ñi)u kin XY=. Các tp hp X
Y ñưc gi là các tp hp tính cht
(itemset). Tp X gi là nguyên nhân, tp Y gi là h qu.
Có 2 ñ ño quan trng ñi vi lut kt hp: Đ h2 tr (support) và ñ
tin cy (confidence), ñưc ñ"nh nghĩa như phn dưi ñây.
Đ7nh nghĩa 2: Đ8 h9 tr#
Đ h2 tr c+a mt tp hp X trong cơ s( d liu D là t s gia các bn
ghi TD ch!a tp X và tng s bn ghi trong D (hay phn trăm c+a
các bn ghi trong D ch!a tp hp X), ký hiu Support
(X
) hay
Supp(X).
Ký hiu: Supp(X).
Ta có: 0 Supp(X) 1 vi mi tp hp X.
Đ h2 tr Supp(X) còn ñưc hiu là xác sut X ñưc th$a trong D.
Ký hiu: P(X).
Đ h2 tr c+a mt lut kt hp XY t l gia s lưng các bn ghi
ch!a tp hp X Y, so vi tng s các bn ghi trong D.
- 10 -
Supp(XY) = Supp(XY)= ||
|}|{|
D
TYXDT
Khi chúng ta nói rng ñ h2 tr c+a mt lut là 70%, nghĩa
70% tng s bn ghi ch!a
X
Y. Như vy, ñ h2 tr mang ý nghĩa
thng c+a lut.
Đ h tr ca X :
S lưng giao d"ch h2 tr (X)
Supp(X)= Tng s giao d"ch
Đ7nh nghĩa 3: Đ8 tin c1y
Đ tin cy (Confidence) c+a lut kt hp có dng R: XY là t l gia s
lưng c bn ghi trong D ch!a X
Y vi s bn ghi trong D có ch!a tp
hp X. hiu ñ tin cy c+a mt lut Conf(R).
Conf (XY) = P( XY |)= )(
)(
XSupp
YXSupp
Có th ñ"nh nghĩa ñ tin cy như sau:
Đ tin cy c+a mt lut kt hp XY t l gia s lưng các bn ghi
c+a tp hp ch!a
X
Y, so vi tng s các bn ghi ch!a X.
Vic khai thác c lut kt hp t* cơ s( d liu chính vicm tt cc các
lut có ñ h2 tr ñ tin cy do ngư-i s1 d,ng c ñ"nh trưc. Các
ngư4ng c+a ñ h2 tr và ñ tin cy ñưc ký hiu là minsup, minconf và do
ngư-i dùng xác ñ"nh.
Vic khai thác c lut kt hp có th ñưc phân ch tnh hai vn ñ):
1. Tìm tt c các tp m,c thư-ng xuyên xy ra có ñ h2 tr ln
hơn ho'c bng minsup.
2. To ra các lut mong mun s1 d,ng các tp m,c ln ñ tin
cy ln hơn ho'c bng minconf.
Đ7nh nghĩa 4: Đ8 quan trng
Đ quan trng (importance) c+a lut XY, ký hiu Imp(XY), ñưc c
ñ"nh b(i t s gia Conf(XY) Conf(
X
Y) .