Khai phá d li u ữ ệ (Data Mining)

Nguy n Đình Thuân ễ

UIT – VNU HCM

1

18/01/13

N i dung môn h c ọ

1 1

Ch Ch Ch Ch

ươ ươ ươ ươ

ng 1: T ng quan v khai phá d li u ng 1: T ng quan v khai phá d li u ề ề ng 1: T ng quan v khai phá d li u ng 1: T ng quan v khai phá d li u ề ề

ữ ệ ữ ệ ữ ệ ữ ệ

ổ ổ ổ ổ

Ch Ch

ng 2: Lu t k t h p ng 2: Lu t k t h p

ươ ươ

ậ ế ợ ậ ế ợ

2

Ch Ch

ng 3: Dãy ph bi n ng 3: Dãy ph bi n

ươ ươ

ổ ế ổ ế

3

Ch Ch

ng 4: Phân l p d li u ng 4: Phân l p d li u

ươ ươ

ữ ệ ữ ệ

ớ ớ

4

Ch Ch

ng 5: Gom c m d li u ng 5: Gom c m d li u

ươ ươ

ữ ệ ữ ệ

ụ ụ

5

Gi Gi

i thi u 10 thu t toán hàng đ u c a DataMining i thi u 10 thu t toán hàng đ u c a DataMining

ớ ớ

ủ ủ

ệ ệ

ậ ậ

ầ ầ

6

2

01/18/13

www.lhu.edu.vn

Thông tin v môn h c ề

Đánh giá Đánh giá

Ph ng pháp đánh giá Tr ng s [%] ươ ố ọ

Chuyên c n, bài t p trên l p 10% ầ ậ ớ

Th c hành, thí nghi m 15% ự ệ

Ki m tra gi a kỳ 15% ữ ể

Ti u lu n, báo cáo trên l p 20% ể ậ ớ

40% Thi cu i h c kỳ ố ọ

3

01/18/13

www.lhu.edu.vn

Tài li u tham kh o

, Giáo trình + Slide Bài gi ng Khai thác d li u,

1. Đ Phúc ỗ

ữ ệ ĐHQG

TPHCM, 2005.

2. H Tú B o

ả , Introduction to knowledge discovery and data mining,

IOIT, 2001.

3. Jiawei Han and Micheline Kamber, Data Mining Concepts and

Techniques, University of Illinois, Morgan Kaufmann Publishers, 2006.

4. X. Wu, V. Kumar, J. Ross Quinlan, ... Top 10 Algorithms in Data

Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.

5. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server

2005, Wiley Publishing, 2005.

4

01/18/13

www.lhu.edu.vn

Ch

ươ

ng 1 T ng quan ổ

Các khái ni m c b n ệ Các khái ni m c b n ệ ơ ả ơ ả

ữ ệ Data): có th xem là chu i các D li u ( ể bit, là s , ký t …mà chúng ta thu th p ự ố hàng ngày trong công vi c.ệ

ữ ệ ử

ủ ả ả ặ

ữ , gi ng nào đó. Thông tin (Information): là t p h p ậ c x lý, dùng c a nh ng d li u đã đ ượ ủ i thích đ c tính c a m t đ i mô t ố ộ t ượ

Knowledge): th c ( ứ ợ

ậ ẽ ậ

ứ ệ ể

ượ ề ủ ư

là Tri t p h p ậ nh ng thông tin có liên h v i nhau, ệ ớ ữ đ c l p lu n ch t ch ho c đ c ượ ặ ặ th c nghi m ki m ch ng quan nhi u ự th h . Tri th c th hi n t duy c a ể ứ ế ệ con ng ườ ề ộ ấ ệ i v m t v n đ . ề

5

01/18/13

www.lhu.edu.vn

Khám phá tri th c t

c s d li u:

ứ ừ ơ ở ữ ệ (Knowledge Discovery in Databases – KDD) – “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996)

Các khái ni m c b n ệ Các khái ni m c b n ệ ơ ả ơ ả

ồ ề ậ ấ

ữ ệ ợ ế

– “Khám phá tri th c t ạ ề ọ ọ ả c s d li u là quy trình bao ứ ừ ơ ở ữ ệ g m nhi u công đo n nh : xác đ nh v n đ , t p h p ư và ch n l c d li u, khai thác d li u, đánh giá k t i thích d li u, áp d ng tri th c vào th c t qu , gi ụ ả ị ữ ệ ứ ự ế ữ ệ

– http://www.kdnuggets.com/

6

01/18/13

www.lhu.edu.vn

c thu th p hàng ậ

ượ

T i sao ph i khai phá d li u ? T i sao ph i khai phá d li u ? ữ ệ ữ ệ ả ả ạ ạ

John Naisbitt (www.naisbitt.com/) in 1982: “We are drowning in data, but starving for knowlegde”. D li u đ ữ ệ ngày là r t l n ấ ớ – Các CSDL kh ng l ổ – D li u t Internet

ữ ệ

Theo các báo cáo c a IBM, c ượ i n ạ ẩ

ch có 80% d li u đ khai thác, 20% còn l trong các Database là nh ngữ tri th c quý giá

ữ ệ ừ

7

01/18/13

www.lhu.edu.vn

c

ữ ệ

ư

ế

i thích d li u trên các t p d li u l n .

Khai phá d li u (Datamining) là m t b ộ ướ trong quy trình khám phá tri th c, nh m: ằ ứ – Rút trích thông tin h u ích, ch a bi t, ti m n ề ẩ ữ trong kh i d li u l n ố ữ ệ ớ – Phân tích d li u bán t ữ ệ – Gi ữ ệ

đ ng ự ộ ậ

ữ ệ ớ

Khai phá d li u là gì? Khai phá d li u là gì? ữ ệ ữ ệ

8

01/18/13

www.lhu.edu.vn

L i ích c a khai phá d li u L i ích c a khai phá d li u ữ ệ ữ ệ ủ ủ ợ ợ

EDP

MIS

DSS

Giá trị

Số lượng

9

01/18/13

EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems

www.lhu.edu.vn

Khai phá d li u là gì ? Khai phá d li u là gì ?

ữ ệ ữ ệ

t ngậ ThuThu t ngậ

ữ:: ữ

– Khai phá d li u - Data mining ữ ệ ộ ế

• KPDL là m t bu c c a ti n trình KDD ớ ủ – Knowledge discovery in databases (KDD)

• Thu t ng t ng quát g m các bu c nh ti n ư ề ớ ậ

ồ ữ ổ x lý, KPDL, h u x lý . ử ử ậ

10

i gì ? i gì ?

Khai phá d li u có ích l ữ ệ Khai phá d li u có ích l ữ ệ

ợ ợ

ị ị

Ti p thế ị

•Cung c Cung c p tri th c h p tri th c h ứ ỗ ấ ứ ỗ ấ tr ra quyêt đ nh ợ tr ra quyêt đ nh ợ •D báoựD báoự •KhKhái quát d li u ái quát d li u ữ ệ ữ ệ

CSDL Ti p thế ị

Nhà kho d li u

ữ ệ

KDD & Data Mining

11

Ti nế trình khai phá d li u

ữ ệ (1)(1)

ên c u lĩnh v c NghiNghiên c u lĩnh v c ự ứ ự ứ NghiNghiên c u lĩnh v c ên c u lĩnh v c ự ứ ự ứ

TT o t p d li u đ u vào o t p d li u đ u vào ạ ậ ữ ệ ầ ạ ậ ữ ệ ầ TT o t p d li u đ u vào o t p d li u đ u vào ạ ậ ữ ệ ầ ạ ậ ữ ệ ầ

TiTi n x lý/ làm s ch, mã hóa n x lý/ làm s ch, mã hóa ạ ề ử ạ ề ử TiTi n x lý/ làm s ch, mã hóa n x lý/ làm s ch, mã hóa ạ ề ử ạ ề ử

RRút g n / chi u út g n / chi u ề ọ ề ọ RRút g n / chi u út g n / chi u ề ọ ề ọ

ụ ụ ụ ụ

ChCh n tác v Khai thác d li u n tác v Khai thác d li u ữ ệ ọ ữ ệ ọ ChCh n tác v Khai thác d li u n tác v Khai thác d li u ữ ệ ọ ọ ữ ệ

12

Ti nế trình khai phá d li u

ữ ệ (2)(2)

i KTDL n các thu t gi ChCh n các thu t gi ả ọ i KTDL ả ọ ChCh n các thu t gi i KTDL n các thu t gi ả ọ i KTDL ọ ả

ậ ậ ậ ậ

ế ế ế ế

KTDL: Tìmìm ki m tri th c KTDL: T ki m tri th c ứ ứ KTDL: Tìmìm ki m tri th c KTDL: T ki m tri th c ứ ứ

Đánh giá m u tìm đ Đánh giá m u tìm đ Đánh giá m u tìm đ Đánh giá m u tìm đ ẫ ẫ ẫ ẫ c ượ c ượ c ượ c ượ

u di n tri th c BiBi u di n tri th c ứ ễ ể ứ ễ ể BiBi u di n tri th c u di n tri th c ứ ễ ể ể ứ ễ

SS d ng các tri th c v a khám phá d ng các tri th c v a khám phá ứ ừ ử ụ ứ ừ ử ụ SS d ng các tri th c v a khám phá d ng các tri th c v a khám phá ứ ừ ử ụ ứ ừ ử ụ

13

Ti n trình KDD tiêu bi u Ti n trình KDD tiêu bi u

ể ể

ế ế

Raw data

Time based selection

Operational Operational Operational Operational Database Database Database Database

n n

t i o t i o

c c

S e l e S e l e

Eval. of interes- tingness

Preprocessing Preprocessing

Postprocessing Postprocessing

Input data Input data Input data Input data

Results Results Results Results

Data mining Data mining Data mining Data mining

n n

t i o t i o

c c

2

S e l e S e l e

Cleaned Verified Focused

3

1

Utilization Utilization Utilization Utilization

Selected usable patterns

14

Khai phá d li u

ữ ệ

End User

Increasing potential to support business decisions

Making Decisions

Business Analyst

Data Presentation Visualization Techniques

Data Analyst

Data Mining Information Discovery

Data Exploration Statistical Analysis, Querying and Reporting

DBA

Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP

15

ừ ữ ệ ừ ữ ệ

ế ị ế ị

TT d li u đ n quy t đ nh d li u đ n quy t đ nh ế ế

QuyQuy t đ nh t đ nh ế ị ế ị • Promote product A in region Z. • Mail ads to families of profile P • Cross-sell service B to clients C

Tri thTri th cứcứ • A quantity Y of product A is used in

region Z • Customers of class Y use x% of C during period D

ông tin  ThThông tin • X lives in Z • S is Y years old • X and S moved • W has money in Z

DD li u ữ ệ li u ữ ệ • Customer data • Store data • Demographical Data • Geographical data

16

ềv KPDL Các quan ni m ệm ệ v KPDL ề Các quan ni

Các ti p c n t ng quan: ậ ổ Các ti p c n t ng quan: ậ ổ

ế ế – KPDL mô t

:ả

t đi u gì là h u ích có th tìm th y đ

ế

ượ

c trong d ữ

• Cho bi li uệ

• Gi

i thích d li u đó

ữ ệ

– KPDL d báo:

• D a trên d li u quá kh , d báo t

ng lai

ứ ự

ữ ệ

ươ

• Xu th phát tri n!

ế

17

ề ề

CCác quan ni m v KTDL ác quan ni m v KTDL ệ ệ Quan ni m d a trên … ệ Quan ni m d a trên … ệ

ự ự

– CSDL đ khai thác ể

– Tri th c đ c khám phá ứ ượ

– Các k thu t đ ỹ ậ ượ c s d ng ử ụ

– Các ng d ng ứ ụ

18

Các quan ni m v KPDL ề ệ Các quan ni m v KPDL ề ệ CSDL c n khai thác CSDL c ần khai thác ầ CSDL c n khai thác CSDL c ần khai thác ầ

Databases Databases

Quan h ệ Giao tác Hu ng đ i ố ớ ngượ t Hu ng đ i ố ớ t ng, quan h ượ Active Không gian Th i gian

Text, XML Multi-media Heterogeneous Legacy Inductive WWW etc.

19

Các quan ni m v KPDL ệ Các quan ni m v KPDL ệ

ề ề ụTTác v khai thác ụác v khai thác TTác v khai thác ụác v khai thác

Phân tích đ ộ

l ch ệ

Knowledge Knowledge == tasktask

Phân tích hi m ế

etc.

Đ c tr ng ư tệ Phân bi K t h p ế ợ Phân l pớ Gom c mụ Xu thế

20

Các quan ni m KPDL ệ Các quan ni m KPDL ệ CCác k thu t đã s d ng ác k thu t đã s d ng ỹ ậ ử ụ ỹ ậ ử ụ CCác k thu t đã s d ng ác k thu t đã s d ng ỹ ậ ử ụ ỹ ậ ử ụ

Techniques Techniques

i GA

CSDL Nhà kho d li u (OLAP) ữ ệ Máy h c ọ Th ng kê ố Tr c quan hóa ự M ng n ron và thu t gi ơ ạ . . . .

21

ụ ụ ụ ụ

CCác quan ni m v KPDL ác quan ni m v KPDL ề ệ ề ệ CCác ng d ng ác ng d ng ứ ứ CCác ng d ng ác ng d ng ứ ứ

, siêu th ị

Phân tích c ổ

Applic. Applic.

Bán l ẻ Ngân hàng Khai thác gen

phi uế KTDL Web Phân tích d ữ

li uệ

22

Các ng d ng Các ng d ng ụ ụ ứ ứ

ữ ệ ị

- Phân tích d li u bán hàng và ti p thế - Phân tích đ u tầ ư - Ch ng khoán - Xác đ nh gian l n ị

ề ả

- Đi u khi n và l p l ch ể - Qu n tr m ng l ị ạ - Phân tích k t qu th nghi m ế

ậ ị i ướ ả ử

S n xu t ấ ả Kinh doanh

Khoa h cọ

- Không gian - Sinh h cọ - Đ a lý ị - etc.

- B nh lý ệ - Sinh h cọ

Y h cọ

23

01/18/13

www.lhu.edu.vn

ư

ủ ớ

Tìm các đ c tr ng c a l p ng và s d ng các đ i t ử ụ đ phân l p d li u m i. ớ

ặ ố ượ ớ

ữ ệ

Xác đ nh các c m ị ti m n trong các ề ẩ ng ch a t p đ i t ố ượ ư ậ c x p l p. đ ế ớ ượ

Các k thu t s d ng Các k thu t s d ng ậ ử ụ ậ ử ụ ỹ ỹ

Gom c mụ

bi n t

?

Tìm các m u ph ổ ẫ d li u và m i ế ừ ữ ệ ố quan h c a các đ i ố ệ ủ t ng d li u. ượ

ữ ệ

D đoán d li u t ng ữ ệ ươ lai d a trên d li u quá ữ ệ ự kh .ứ

Phân l p ớ

Khám phá các m u tín hi u ph ẫ ổ ệ bi n nh t t d ấ ừ ữ ế li u các s ki n ự ệ ệ

d Xác đ nh tr t t ậ ự ữ ị li u, c u trúc l u tr ữ ư ấ ệ phù h p v i tác v ụ ớ khai phá

D đoán Lu t k t h p ự ậ ế ợ

M u tu n t ầ ự ẫ

Nhà kho- OLAP

24

01/18/13

www.lhu.edu.vn

K t lu n K t lu n ế ế ậ ậ

KPDL: ti n trình khám phá bán t KPDL: ti n trình khám phá bán t

ế ế

đ ng các ự ộ đ ng các ự ộ CSDL l n ớ CSDL l n ớ

ừ ừ

Các b Các b

ử ậ

thông tin, m u có ích t ẫ thông tin, m u có ích t ẫ c c a KDD ướ ủ c c a KDD ướ ủ – Ti n x lý ử ề – KTDL( data mining tasks) – H u x lý ệ ệ

– CSDL (quan h , h

ạ ạ ng đ i t

ng, không gian, WWW,

Các quan ni m, khía c nh … Các quan ni m, khía c nh … ố ượ

Tri th c (đ c tr ng, gom c m, k t h p, …)

ư

ệ ướ

ế ợ – K thu t (máy h c, th ng kê, tr c quan hóa, …) ự ố – , đi n tho i, khai thác Web …) ệ

ặ ậ ụ

…) ứ ọ ỹ ng d ng (bán l ẻ Ứ ạ

25

01/18/13

www.lhu.edu.vn