Luận văn tốt nghip
Tng quan khai phá d liu và
ng dng
Chương 1. TNG QUAN V KHAI PHÁ D LIU WEB
1.1. GII THIU V KHAI PHÁ D LIU (DATAMING) VÀ KDD
1.1.1. Ti sao li cn khai phá d liu (datamining)
Khong hơn mt thp k tr li đây, lượng thông tin được lưu tr trên các
thiết b đin t (đĩa cng, CD-ROM, băng t, .v.v.) không ngng tăng lên. S tích lũy
d liu này xy ra vi mt tc độ bùng n. Người ta ước đoán rng lượng thông tin
trên toàn cu tăng gp đôi sau khong hai năm và theo đó s lượng cũng như kích c
ca các cơ s d liu (CSDL) cũng tăng lên mt cách nhanh chóng. Nói mt cách hình
nh là chúng ta đang “ngp” trong d liu nhưng li “đói” tri thc. Câu hi đặt ra là
liu chúng ta có th khai thác được gì t nhng “núi” d liu tưởng chng như “b đi”
y không ?
“Necessity is the mother of invention” - Data Mining ra đời như mt hướng
gii quyết hu hiu cho câu hi va đặt ra trên []. Khá nhiu định nghĩa v Data
Mining và s được đề cp phn sau, tuy nhiên có th tm hiu rng Data Mining như
là mt công ngh tri thc giúp khai thác nhng thông tin hu ích t nhng kho d liu
được tích tr trong sut quá trình hot động ca mt công ty, t chc nào đó.
1.1.2. Khai phá d liu là gì?
Khai phá d liu (datamining) được định nghĩa như là mt quá trình cht lc
hay khai phá tri thc t mt lượng ln d liu. Mt ví d hay được s dng là là vic
khai thác vàng t đá và cát, Dataming được ví như công vic "Đãi cát tìm vàng" trong
mt tp hp ln các d liu cho trước. Thut ng Dataming ám ch vic tìm kiếm mt
tp hp nh có giá tr t mt s lượng ln các d liu thô. Có nhiu thut ng hin
được dùng cũng có nghĩa tương t vi t Datamining như Knowledge Mining (khai
phá tri thc), knowledge extraction(cht lc tri thc), data/patern analysis(phân tích d
liu/mu), data archaeoloogy (kho c d liu), datadredging(no vét d liu),...
Định nghĩa: Khai phá d liu là mt tp hp các k thut được s dng để t
động khai thác và tìm ra các mi quan h ln nhau ca d liu trong mt tp hp d
liu khng l và phc tp, đồng thi cũng tìm ra các mu tim n trong tp d liu đó.
Khai phá d liu là mt bước trong by bước ca quá trình KDD (Knowleadge
Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo th t
sau:s
1. Làm sch d liu (data cleaning & preprocessing)s: Loi b nhiu và các d
liu không cn thiết.
2. Tích hp d liu: (data integration): quá trình hp nht d liu thành nhng
kho d liu (data warehouses & data marts) sau khi đã làm sch và tin x lý (data
cleaning & preprocessing).
3. Trích chn d liu (data selection): trích chn d liu t nhng kho d liu
và sau đó chuyn đổi v dng thích hp cho quá trình khai thác tri thc. Quá trình này
bao gm c vic x lý vi d liu nhiu (noisy data), d liu không đầy đủ
(incomplete data), .v.v.
4. Chuyn đổi d liu: Các d liu được chuyn đổi sang các dng phù hp
cho quá trình x
5. Khai phá d liu(data mining): Là mt trong các bước quan trng nht,
trong đó s dng nhng phương pháp thông minh để cht lc ra nhng mu d liu.
6. Ước lượng mu (knowledge evaluation): Quá trình đánh giá các kết qu tìm
được thông qua các độ đo nào đó.
7. Biu din tri thc (knowledge presentation): Quá trình này s dng các k
thut để biu din và th hin trc quan cho người dùng.
Hình 1 - Các bước trong Data Mining & KDD
1.1.3. Các chc năng chính ca khai phá d liu
Data Mining được chia nh thành mt s hướng chính như sau:
Mô t khái nim (concept description): thiên v mô t, tng hp và tóm
tt khái nim. Ví d: tóm tt văn bn.
Lut kết hp (association rules): là dng lut biu din tri th dng khá
đơn gin. Ví d: “60 % nam gii vào siêu th nếu mua bia thì có ti 80% trong s h s
mua thêm tht bò khô”. Lut kết hp đưc ng dng nhiu trong lĩnh vc kính doanh,
y hc, tin-sinh, tài chính & th trường chng khoán, .v.v.
Phân lp và d đoán (classification & prediction): xếp mt đối tượng
vào mt trong nhng lp đã biết trước. Ví d: phân lp vùng địa lý theo d liu thi
tiết. Hướng tiếp cn này thường s dng mt s k thut ca machine learning như
cây quyết định (decision tree), mng nơ ron nhân to (neural network), .v.v. Người ta
còn gi phân lp là hc có giám sát (hc có thy).
Phân cm (clustering): xếp các đối tượng theo tng cm (s lượng cũng
như tên ca cm chưa được biết trước. Người ta còn gi phân cm là hc không giám
sát (hc không thy).
Khai phá chui (sequential/temporal patterns): tương t như khai phá
lut kết hp nhưng có thêm tính th t tính thi gian. Hướng tiếp cn này được ng
dng nhiu trong lĩnh vc tài chính và th trưng chng khoán vì nó có tính d báo
cao.
1.1.4. ng dng ca khai phá d liu
Data Mining tuy là mt hướng tiếp cn mi nhưng thu hút được rt nhiu s
quan tâm ca các nhà nghiên cu và phát trin nh vào nhng ng dng thc tin ca
nó. Chúng ta có th lit kê ra đây mt s ng dng đin hình:
Phân tích d liu và h tr ra quyết định (data analysis & decision
support)
Điu tr y hc (medical treatment)
Text mining & Web mining
Tin-sinh (bio-informatics)
Tài chính và th trường chng khoán (finance & stock market)
Bo him (insurance)
Nhn dng (pattern recognition)
.v.v.
1.2. CƠ S S LIU HYPERTEXT VÀ FULLTEXT
1.2.1. Cơ s d liu FullText
D liu dng FullText là mt dng d liu phi cu trúc vi thông tin ch gm
các ti liu dng Text. Mi tài liu cha thông tin v mt vn đề nào đó th hin qua
ni dung ca tt c các t cu thành tài liu đó. Ý nghĩa ca mi t trong tài liu
khkông c định mà tu thuc vào tng ng cnh khác nhau s mang ý nghĩa khác
nhau. Các t trong tài liu được liên kết vi nhau theo mt ngôn ng nào đó.
Trong các d liu hin nay thì văn bn là mt trong nhng d liu ph biến
nht, nó có mt khp mi nơi và chúng ta thường xuyên bt gp do đó các bài toán
v x lý văn bn đã được đặt ra khá lâu và hin nay vn là mt trong nhng vn đề
trong khai phá d liu Text, trong đó có nhng bài toán đáng chú ý như tìm kiếm văn
bn, phân loi văn bn, phân cm văn bn hoc dn đường văn bn
CSDL full_text là mt dng CSDL phi cu trúc mà d liu bao gm các tài
liu và thuc tính ca tài liu. Cơ s d liu Full_Text thường được t chc như môt
t hp ca hai thành phn: Mt CSDL có cu trúc thông thường (cha đặc đim ca
các tài liu) và các tài liu
Ni dung cu tài liu được lưu tr gián tiếp trong CSDL theo nghĩa h thng
ch qun lý địa ch lưu tr ni dung.
Cơ s d liu dng Text có th chia làm hai loi sau:
Dng không có cu trúc (unstructured): Nhng văn bn thông thường mà
chúng ta thường đọc hàng ngày được th hin dưới dng t nhiên ca con người và nó
CSDL Full-Text
CSDL có cu trúc cha đặc đim
ca các tài li
u
Các tài liu