Đồ Án Tt Nghip GVHD: Ths:Võ Đình By
1
Chương 1: Khái nim v khai thác d liu
1. Gii thiu
Vic khai thác d liu thường được mô t như mt quá trình ly các thông tin
có giá tr, xác thc t nhng cơ s d liu ln. Nói cách khác, vic khai thác d
liu bt ngun t các dng mu và khuynh hướng tn ti trong d liu. Các mu và
khuynh hướng này có th được gom li vi nhau và được định nghĩa như là mt
mô hình khai thác. Các mô hình này có th được áp dng cho các kch bn nghip
v riêng bit như:
- D đoán vic bán hàng.
- Chuyn thư đến các khách hàng được ch định.
- Xác định các sn phm nào có kh năng được bán vi nhau.
- Tìm các trình t mà khách hàng chn các sn phm.
Mt khái nim quan trng là xây dng mô hình khai thác là mt phn ca mt
tiến trình ln hơn bao gm t vic xác định các vn đề cơ bn mà mô hình s gii
thích, đến vic trin khai mô hình này vào môi trường làm vic. Tiến trình này có th
được định nghĩa bng vic trin khai 6 bước cơ bn sau:
Bước 1: Xác định vn đề.
Bước 2. Chnh sa d liu.
Bước 3. Thăm dò d liu.
Bước 4. Xây dng mô hình.
Bước 5. Thăm dò và thông qua các mô hình.
Bước 6. Trin khai và cp nht các mô hình. Biu đồ sau mô t mi quan h
gia mi bước trong tiến trình, và có th s dng công ngh trong Microsoft SQL
Server 2005 để hoàn thành tng bưc.
SVTH: Hoàng Th Thu-104102128
Đồ Án Tt Nghip GVHD: Ths:Võ Đình By
2
Hình 1.1: Mô t mi quan h gia các bước trong tiến trình
Mc dù tiến trình được minh ha trong biu đồ là hình tròn, nhưng mi bước
không trc tiếp dn đến bước tiếp theo. To ra mt mô hình khai thác d liu là mt
tiến trình động và lp li. Sau khi thăm dò d liu, có th nhn ra rng d liu không
đủ để to ra mô hình khai thác thích hp, do đó s phi tìm thêm d liu. Có th xây
dng nhiu mô hình và nhn ra là chúng không gii quyết được các vn đề đã đưa ra
khi định nghĩa vn đề, và do đó phi xác định li vn đề đó. Có th cp nht các mô
hình sau khi chúng được trin khai bi vì nhiu d liu hơn s tr nên hiu qu. Điu
này quan trng để hiu rng to ra mt mô hình khai thác d liu là mt tiến trình, và
mi bước trong tiến trình có th đưc lp li nhiu ln khi cn thiết để to ra mt mô
hình tt.
SQL Server 2005 cung cp mt môi trường hi nhp để to ra và làm vic vi
mô hình khai thác d liu, gi là Business Intelligence Development Studio. Môi
trường này bao gm các thut toán khai thác d liu và các công c mà làm cho vic
xây dng gii pháp toàn din cho các d án khác nhau d hơn.
2. Các bước trong tiến trình khai thác d liu
2.1. Xác định vn đề
Bước đầu tiên trong tiến trình khai thác d liu (được in đậm trong biu đồ bên
dưới (Hình 1.2)), là để xác định rõ ràng các vn đề nghip v:
SVTH: Hoàng Th Thu-104102128
Đồ Án Tt Nghip GVHD: Ths:Võ Đình By
3
Hình 1.2: Xác định các vn đề
Bước này bao gm vic phân tích các yêu cu nghip v, xác định phm vi ca vn
đề, xác định đim quan trng bng mô hình nào s đánh giá, và xác định mc tiêu cui
cùng cho d án khai thác d liu. Nhng công vic này thông dch thành các câu hi
như:
- Đang tìm kiếm gì?
- D đoán các thuc tính nào ca dataset?
- Đang tìm nhng dng quan h nào?
- Mun d đoán t mô hình khai thác d liu hay ch tìm các dng mu và kết
hp yêu thích.
- D liu được phân b như thế nào?
- Các ct liên quan như thế nào, hay nếu có nhiu bng thì mi quan h ca
chúng như thế nào?
Để tr li nhng câu hi này, có th phi tìm hiu v d liu thc tế, điu tra nhu
cu ca người dùng nghip v cùng vi s quan tâm v d liu thc tế. Nếu d liu
không cung cp được cho nhu cu người dùng, có th phi xác định li d án.
SVTH: Hoàng Th Thu-104102128
Đồ Án Tt Nghip GVHD: Ths:Võ Đình By
4
2.2. Chnh sa d liu
Bước th hai trong tiến trình khai thác d liu (được in đậm trong mô hình bên
dưới (Hình 1.3)), để cng c và chnh sa li d liu được xác định trong bước xác
định vn đề:
Hình 1.3: Chnh sa d liu
Microsoft SQL Server 2005 Integration Services (SSI) cha tt c các công c,
bao gm vic thay đổi d liu rõ ràng và vng chc hơn. D liu có th được cha
nhiu nơi trong công ty và được định dng khác nhau, hay có th có nhng mâu thun
như b rn nt hay mt mt s mc nào đó.
Ví d: D liu có th ch ra rng khách hàng đã mua hàng hóa trước khi khách
hàng đó được sinh ra, hay khách hàng đi mua sm ti ca hàng cách nhà khong 2000
dm.
Trước khi bn bt đầu xây dng mô hình, phi sa cha các vn đềy. Đin
hình như đang làm vic vi mt s lượng ln các dataset và không th đọc lướt qua tt
c các giao tác. Do đó, phi s dng các dng t động, như Integration Services, để
kho sát tt c d liu và tìm ra các mâu thun.
2.3. Kho sát d liu
Bước th ba trong tiến trình khai thác d liu (được in đậm trong mô hình bên
dưới (Hình 1.4)) là kho sát các d liu đã được sa cha
SVTH: Hoàng Th Thu-104102128
Đồ Án Tt Nghip GVHD: Ths:Võ Đình By
5
Hình 1.4: Kho sát d liu
Phi hiu d liu để đưa ra mt quyết định thích hp khi to ra các mô hình.
Các kĩ thut kho sát bao gm tính toán các giá tr nh nht và ln nht, tính toán độ
trung bình và độ chênh lch, và nhìn vào thuc tính ca d liu. Sau đó, kho sát d
liu, có th quyết định xem rng dataset có cha các d liu b rn nt hay không, và
sau đó có th nghĩ ra các chiến thut để gii quyết vn đề.
Data Source View Designer trong BI Develop Studio cha nhiu công c mà có
th s dng để kho sát d liu.
2.4. Xây dng mô hình
Bước th tư trong tiến trình khai thác d liu (được in đậm trong mô hình bên
dưới (Hình 1.5)) để xây dng mô hình khai thác.
SVTH: Hoàng Th Thu-104102128