- 1 -
B GIÁO DC VÀ ĐÀO TO
ĐẠI HC ĐÀ NNG
NGUYN MINH TÂN
NG DNG KHAI PHÁ D LIU D ĐOÁN
KHÁCH HÀNG RI MNG VIN THÔNG
Chuyên ngành: KHOA HC MÁY TÍNH
Mã s: 60.48.01
TÓM TT LUN VĂN THC SĨ K THUT
Đà Nng - Năm 2011
- 2 -
Công trình ñược hoàn thành ti
ĐẠI HC ĐÀ NNG
Người hướng dn khoa hc: PGS.TS. Võ Trung Hùng
Phn bin 1:
Phn bin 2:
Lun văn s ñược bo v trước Hi ñồng chm Lun
văn tt nghip thc sĩ k thut hp ti Đại hc Đà Nng
vào ngày tháng năm 2011
Có th tìm hiu lun văn ti:
- Trung tâm Thông tin - Hc liu, Đại hc Đà Nng
- Trung tâm Hc liu, Đại hc Đà Nng.
- 3 -
M ĐẦU
1. Lý do chn ñề tài
Vi s bùng n phát trin ca công ngh thông tin ñã mang
li nhiu hiu qu ñối vi khoa hc cũng như các hot ñộng thc tế,
trong ñó khai phá d liu là mt lĩnh vc mang li hiu qu thiết
thc cho con người. Khai phá d liu ñã giúp người s dng thu
ñược nhng tri thc hu ích t nhng cơ s d liu hoc c kho d
liu khng l khác.
Cơ s d liu trong các ñơn v, t chc kinh doanh, qun lý khoa
hc cha ñựng nhiu thông tin tim n, phong phú ña dng, ñòi
hi phi nhng phương pháp nhanh, phù hp, chính xác, hiu qu
ñể ly ñược nhng thông tin b ích. Nhng tri thc chiết sut t
ngun cơ s d liu trên s ngun thông tin h tr cho lãnh ñạo
trong vic lên kế hoch hot ñộng hoc trong vic ra quyết ñịnh sn
xut kinh doanh. Tiến hành công vic như vy chính là thc hin quá
trình phát hin tri thc trong cơ s d liu (Knowledge Discovery in
Database) trong ñó k thut khai phá d liu (Data Mining) cho
phép phát hin nhng tri thc tim n. Để ly ñược thông tin mang
tính tri thc trong khi d liu khng l, cn thiết phi phát trin các
k thut kh năng tích hp các d liu t các h thng giao dch
khác nhau, chuyn chúng thành mt tp hp các cơ s d liu n
ñịnh có cht lượng.
Mt trong các ni dung cơ bn nht trong khai phá d liu
rt ph biến k thut gom cm. Phương pháp này nhm tìm ra
các tp thuc tính thường xut hin ñồng thi trong cơ s d liu và
rút ra các lut v nh hưởng ca mt tp thuc tính dn ñến s xut
hin ca mt (hoc mt tp) thuc tính khác như thế nào.ng dng
- 4 -
khai phá d liu ñã mang li nhng li ích to ln trong vic tng hp
và cung cp nhng thông tin trong các ngun cơ s d liu ln.
EVNTelecom mt nhà cung cp dch v vin thông mi
trên th trường Vit Nam. Chính thc cung cp dch v vin thông
công cng t cui năm 2005, ñến cui năm 2007 ñã phát trin ñược
hai triu khách hàng. Đến tháng 6 năm 2008, s lượng khách hàng
phát ñược con s bn triu. Tuy nhiên tình hình trn xu ñi khi
các nhà cung cp ào t khuyến mãi nhiu ñợt ñại h giá. Kết
qu là nhiu khách hàng ri mng chuyn sang s dng dch v
ca nhà cung cp khác, doanh thu ngày mt gim, khó thu hi vn
ñầu tư. Để phát trin ñược khách hàng, EVNTelecom phi ñầu tư
gn ba triu ñồng bao gm chi phí phát trin khách hàng, ñầu tư h
thng thiết b ñầu cui. Trong khi ñó ARPU 80.000 ñồng
vòng ñời trung bình ca khách hành 20 tháng. Như vy mi khách
hàng ri mng s mt ñi 1.4 triu ñồng. Con s thit hi s rt ln
khi hàng trăm ngàn khách hàng ri mng mi năm. Trong bi
cnh ñó ñồng thi ñược s ñồng ý ca Thy PGS.TS Võ Trung
Hùng, tác gi chn ñề tài “ng dng khai phá d liu d ñoán khách
hàng ri mng vin thông” cho lun văn tt nghip ca mình. Bài
toán tp trung tìm phương pháp s dng công c khai phá d liu ñể
d ñoán ñược nhng khách hàng nào nguy cơ ri mng cao ñể
bin pháp gi khách hàng li. Vic trin khai bài toán ý nghĩa
thi s cao, nht là ñối vi EVNTelecom trong hoàn cnh này.
2. Mc tiêu ca ñề tài
Mc tiêu ca ñề tài nghiên cu ng dng các k thut khai
phá d liu trong công c d báo khách hàng ri mng. Da trên
kho d liu ch lu trong nhng năm gn ñây ñể làm d liu hun
- 5 -
luyn, tính toán d báo khách hàng ri mng. Thc hin ñánh giá kết
qu d ñoán trên cơ s các mu d liu trích ra t d liu thu thp.
3. Ni dung trin khai
Để gii quyết bài toán d o khách hàng ri mng, lun văn
tiến hành nghiên cu các k thut khai phá d liu, la chn mô hình
ng dng cho bài toán, tìm hiu công c trin khai ng dng khai
phá d liu.
Bước tiếp theo s t chc thu thp d liu t các b phn: qun
khách hàng, b phn nh cước, b phn qun lý n chăm sóc
khách hàng. Thc hin xây dng cơ s d liu trên h qun tr cơ s
d liu SQL Server 2005. Tiến hành lc, phân ch np d liu
chun b khai khoáng.
Bước kế tiếp thc hin nghiên cu xây dng hình gii quyết
bài toán. Trước hết s tiến hành xây dng mô hình gom cm ñể phân
khách hàng thành 5 cm da theo các tiêu chí danh sách dch v
ñang s dng, mc ñộ trung thành, doanh thu hàng tháng, quá trình
thanh toán cước dch v quá trình chăm sóc khách hàng. Sau ñó
xây dng cây quyết ñịnh d ñoán khách hàng ri mng cho tng
cm. Thc hin kim tra hình trên 15% lượng khách hàng ri
mng. Đây là mt quá trình lp ñể la chn mô hình hu ích nht.
Bước cui cùng thc hin d ñoán kh năng khách hàng ri
mng cho lượng khách hàng ñang hot ñộng. Trong quá trình trin
khai lun văn, tôi tiến hành tìm hiu cơ s thuyết ca thut toán
cây quyết ñịnh thut toán gom cm hai thut toán s ñược s
dng trong mô nh ng dng d ñoán. Đồng thi cũng s tiến hành
nghiên cu các công c khai phá d liu ca Microsoft SQL Server
2005 ñể làm công c trin khai mô hình.