ọ Bài gi ng môn h c

KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

CHƯƠNG 2. TIỀN XỬ LÝ DỮ LIỆU

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

1

Tài li u tham kh o

J.

M.

and

Han

Kamber

(2006). Morgan

[HK06] Data Mining-Concepts and Techniques (Second Edition), Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hải (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và một số tài liệu khác

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

2

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

3

ờ ạ ế ệ

ể ể

ữ ề ơ ả Nh ng v n đ  c  b n đ  hi u d   li uệ

ượ

ữ ệ

ế ể

 Cách thu th p đ

c d  li u c n thi

t đ  mô hình hóa:

 Data Acquisition

ế ợ

ữ ệ

 Cách k t h p d  li u tìm đ

ượ ừ c t

ữ ệ  các ngu n d  li u khác nhau

 Data Integeation.

ả ữ ệ

 Mô t

d  li u

 Data Description

ấ ượ

ộ ạ

ữ ệ

 Đánh giá ch t l

ng (đ  s ch) c a d  li u

 Data Assessment

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

4

ữ ệ

Thu th p d  li u

 Cách thu thập dữ liệu cần thiết để mô hình hóa

ỏ ừ

ớ ậ

CSDL t

i t p tin

ph ngẳ

ữ ỏ ậ

ế

 Ngôn ng  h i b c cao truy nh p tr c ti p CSDL

ế

 K t n i m c th p đ  truy nh p tr c ti p CSDL

ậ ế ố  Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối

lượng lớn dữ liệu

 Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa

 Rút gọn sự tăng không cần thiết của dữ liệu

 Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan

tâm đúng đắn

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

5

Data Acquisition: ữ ệ  Trích ch n d  li u theo câu h i t

ữ ệ

Tích h p d  li u

ữ ệ

 Cách k t h p d  li u tìm đ

ượ ừ c t

ữ ệ  các ngu n d  li u khác nhau

ế ợ Data Integeation.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

6

ả ữ ệ

Mô t

d  li u

 Giá trị kỳ vọng (mean)

ỳ ọ

ố ữ ệ

ố ầ

ị ủ

 L

ậ ồ ọ

ễ ầ

ị ủ

ế

 Xu hướng trung tâm của tập dữ liệu  Độ lệch chuẩn (Standard deviation)  Phân b  d  li u xung quanh k  v ng ự  C c ti u (Minimum) ấ ị  Giá tr  nh  nh t ự  C c đ i (Maximum) ấ ị ớ  Giá tr  l n nh t ầ ả  B ng t n su t (Frequency tables) ế ấ  Phân b  t n su t giá tr  c a các bi n ượ ể  Cung c p k  thu t đ  h a bi u di n t n s  giá tr  c a m t bi n

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

7

c đ  (Histograms) ỹ

Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10])

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

8

ồ ơ ữ ệ

ậ Đánh giá và l p h  s  d  li u

 Đánh giá dữ liệu

 Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định

cách nắm bắt vấn đề

 Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề  Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ

liệu chất lượng kém. ồ ơ ữ ệ

 L p h  s  d  li u (c  s  căn c : phân b  d  li u)

ơ ở ố ữ ệ ứ

test, hoặc chỉ đơn giản dữ liệu rác

 Những phát hiện nên được trình bày dưới dạng các báo cáo và liẹt kế

như các mốc quan trọng của kế hoạch

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

9

ậ  Tâm của dữ liệu  Các ngoại lai tiềm năng bất kỳ  Số lượng và phân bố các khoảng trong trong mọi trường hợp  Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học, dữ liệu

ề ơ ả

ị ữ ệ

Nh ng v n đ  c  b n đ  chu n b  d  li u

 Cách thức làm sạch dữ liệu:

 Data Cleaning

 Cách thức diễn giải dữ liệu:  Data Transformation

 Cách thức nắm bắt giá trị thiếu:

 Data Imputation

 Trọng số của các trường hợp:  Data Weighting and Balancing

 Xử lý dữ liệu ngoại lai và không mong muốn khác:

 Data Filtering

 Cách thức nắm bắt dữ liệu thời gian/chuỗi thời gian:

 Data Abstraction

 Cách thức rút gọn dữ liệu để dùng: Data Reduction

 Bản ghi : Data Sampling  Biến: Dimensionality Reduction  Giá trị: Data Discretization

ữ ệ

ữ ệ

 Cách thức tạo biến mới: Data Derivation ươ Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

10

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ử ủ ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

11

ờ ạ ế ệ

Tính quan tr ng c a ti n x  lý

 Không có d  li u t

ữ ệ ố ể ả ố ế t, không th  có k t qu  khai phá t t!

 Quy t đ nh ch t l

ế ị ấ ượ ả ự ữ ệ ấ ng ph i d a trên d  li u ch t

ữ ệ ậ

chính xác, th m chí gây hi u nh m.

ngượ l ế ẳ  Ch ng h n, d  li u b i hay thi u là nguyên nhân th ng không

 Kho d  li u c n tích h p nh t quán c a d  li u ch t

ữ ệ ữ ệ ủ ấ ầ ấ ợ

ngượ l ớ ữ ệ ệ

ộ ổ ữ ệ ạ ọ ự  Phân l n công vi c xây d ng m t kho d  li u là trích  ể ch n, làm s ch và chuy n đ i d  li u —Bill Inmon .

 D  li u có ch t l

ợ ụ i ớ m c đích

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

12

ng cao n u nh  phù h p v ậ ấ ượ ề ư ế ị ế ạ ữ ệ ế ử ụ s  d ng trong đi u hành, ra quy t đ nh, và l p k  ho ch

ữ ệ

ng d  li u

ấ ượ Đ  đo đa chi u ch t l Multi­Dimensional Measure of Data Quality

ấ t:

ậ ộ

 Phân lo i b  r ng (Broad categories):

ễ ậ ể ế c (Interpretability) c (Accessibility)

ậ ố ề  Khung đa chi u c p nh n t  Đ  chính xác (Accuracy) ủ  Tính đ y đ  (Completeness)  Tính nh t quán (Consistency) ờ  Tính k p th i (Timeliness)  Đ  tin c y (Believability)  Giá tr  gia tăng (Value added) ượ  Bi u di n đ ượ  Ti p c n đ ạ ề ộ ấ ả

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

13

ữ ả  B n ch t (intrinsic), ng  c nh (contextual),trình di n  ế ượ ậ ễ c (accessibility). (representational), và ti p c n đ

Major Tasks in Data Preprocessing

ơ

ạ  Làm s ch d  li u

ữ ệ  Đi n giá tr  thi u, làm tr n d  li u nhi u, đ nh danh ho c xóa  ấ

ễ ngo i lai, và kh  tính không nh t quán

ữ ệ ế ị ử

ạ ợ  Tích h p d  li u

ố ữ ệ

ặ ậ

ứ  Tích h p CSDL, kh i d  li u ho c t p tin ph c

ữ ệ

ướ

c nh ng s n xu t cùng

ượ ặ ươ

ữ ệ ổ ạ  Chuy n d ng d  li u ợ

 Chu n hóa và t ng h p ữ ệ c trình bày thu g n v  kích th  k t qu  phân tích ng t

ự ế ữ ệ

ữ ệ

t  c a  rút  g n  d   li u  (rút  g n  mi n  giá  tr )

ể ẩ ọ  Rút g n d  li u  Thu đ ho c t

ặ ộ

ọ ệ ớ ữ ệ

ệ ủ ọ nh ng có đ  quan tr ng riêng, đ c bi

t v i d  li u s

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

14

ờ ạ  R i r c hóa d  li u ậ ộ  B   ph n  đ c  bi ư

ữ ệ

Các thành ph n c a ti n x  lý d  li u (B ng 2.1)

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

15

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

16

ờ ạ ệ ế

ữ ệ

Làm s ch d  li u

 Là quá trình

 xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu

 chỉnh sửa các sai sót và thiếu sót được phát hiện

 nâng cao chất lượng dữ liệu.

 Quá trình bao gồm

 kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn,

 xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi

trường) hoặc các lỗi khác,

 đánh giá dữ liệu của các chuyên gia miền chủ đề.

 Quá trình thường dẫn đến

 loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi

ngờ.

 Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với

các chuẩn áp dụng, các quy luật, và quy tắc.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

17

ơ ồ

ữ ệ

ơ

ụ Ngu n d  li u đ n: m c s  đ  (Ví d )

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

18

ể ệ

ữ ệ

ơ

ụ Ngu n d  li u đ n: m c th  hi n (Ví d )

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

19

ữ ệ

ể ệ

ơ ồ ứ Ngu n d  li u ph c: m c s  đ   ụ và th  hi n (Ví d )

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

20

ữ ệ

Làm s ch d  li u

 Nguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng).  hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa  Phòng ngừa liên quan chặt chẽ với thu thập và nhập dữ liệu vào CSDL.  Tăng cường phòng ngừa lỗi, vẫn/tồn tại sai sót trong bộ dữ liệu lớn (Maletic và Marcus 2000) và không thể bỏ qua việc xác nhận và sửa chữa dữ liệu  Vai trò quan tr ngọ ộ

ấ ủ

ữ ệ

ữ ệ

 “là m t trong ba bài toán l n nh t c a kho d  li u”—Ralph Kimball  “là bài toán “number one” trong kho d  li u”—DCI kh o sát

 Xử lý giá trị thiếu  Dữ liệu nhiễu: định danh ngoại lai và làm trơn.  Chỉnh sửa dữ liệu không nhất quán  Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

21

ữ ệ ạ ộ  Các bài toán thu c làm s ch d  li u

ị ế X  lý thi u giá tr

 Bỏ qua bản ghi có giá trị thiếu:

ườ

s  bài toán phân l p)

ỷ ệ ố

ế ớ

ế  Th ể  không hi u qu  khi t

ng làm khi thi u nhãn phân l p (gi  l

ả ử  s  giá tr  thi u l n (bán giám sát)

 Điền giá trị thiếu bằng tay:

 tẻ nhạt  tính khả thi

 Điền giá trị thiếu tự động:

 Hằng toàn cục: chẳng hạn như“chưa biết”, có phải một lớp mới  Trung bình giá trị thuộc tính các bản ghi hiện có  Trung bình giá trị thuộc tính các bản ghi cùng lớp: tinh hơn  Giá trị khả năng nhất: dựa trên suy luận như công thức Bayes hoặc cây

quyết định

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

22

ữ ệ

D  li u nhi u

 Nhi u: ễ

 Lỗi ngẫu nhiên  Biến dạng của một biến đo được

 Giá tr  không chính xác do

 Lỗi do thiết bị thu thập dữ liệu  Vấn đề nhập dữ liệu: người dùng hoặc máy có thể sai  Vấn đề truyền dữ liệu: sai từ thiết bị gửi/nhận/truyền  Hạn chế của công nghệ: ví dụ, phần mềm có thể xử lý không đúng  Thiết nhất quán khi đặt tên: cũng một tên song cách viết khác nhau

 Các v n đ  d  li u khác yêu c u làm s ch d  li u

ữ ệ ầ ạ ề ữ ệ

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

23

ấ  Bộ bản ghi  Dữ liệu không đầy đủ  Dữ liệu không nhất quán

ễ ắ ữ ệ N m b t d  li u nhi u (Handle Noisy Data)

 Ph

ươ ng pháp đóng thùng (Binning): ắ ề

 S p d  li u tăng và chia “đ u” vào các thùng  Làm tr n: theo trung bình

ữ ệ ơ ế , theo trung tuy n, theo

biên… ụ

 K t h p ki m tra máy tính và con ng

 Phân c m (Clustering) ạ ỏ ệ  Phát hi n và lo i b  ngo i lai (outliers) ể ế ợ ệ

 Phát hi n giá tr  nghi ng  đ  con ng

ườ

ờ ể ạ ị ố ẳ ạ ớ i ườ ể i ki m tra  ể (ch ng h n, đ i phó v i ngo i lai có th )

ồ  H i quy

 Làm tr n: ghép d  li u theo các hàm h i quy

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

24

ữ ệ ồ ơ

ươ

ờ ạ

ơ

Ph ng pháp r i r c hóa đ n gi n  (Simple Discretization Methods: Binning)

 Phân ho ch cân b ng b  r ng Equal­width

ề ộ ạ ẳ (distance)

ư ạ ị N đo n dài nh  nhau:

ị ừ partitioning: ề  Chia mi n giá tr :   Mi n giá tr  t ỏ  A (nh  nh t) t ớ ấ ớ B (l n nh t) ­> i uniform grid ấ W = (B –

ề A)/N. ơ ả ướ ạ

ị ị ữ ệ ử

ng theo ngo i lai. ằ t khi d  li u không cân b ng (đ u). ằ ấ  Đ n gi n nh t song b  đ nh h ố  Không x  lý t ạ ề ề  Phân ho ch cân b ng theo chi u sâu Equal­depth

ạ (frequency) partitioning: ề ố ề  Chia mi n xác đ nh thành N đo n “đ u nhau v  s

ề ụ ẫ ỉ ố ượ l

ố t.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

25

ể ộ ớ ị ạ ấ ng”,  các đo n có x p x  s  ví d  m u. ả ỡ ữ ệ  Kh  c  d  li u: t ả ệ  Vi c qu n lý các thu c tính l p: có th  “khôn khéo”.

ươ

ữ ệ

ế

ơ

ng pháp x p thùng làm tr n d  li u

Ph (Binning Methods for Data Smoothing)

ế

ượ

c x p theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

ơ

ữ ệ *  D  li u đ *  Chia thùng theo chi u sâu:       ­ Bin 1: 4, 8, 9, 15       ­ Bin 2: 21, 21, 24, 25       ­ Bin 3: 26, 28, 29, 34 ơ *  Làm tr n thùng theo trung bình:       ­ Bin 1: 9, 9, 9, 9       ­ Bin 2: 23, 23, 23, 23       ­ Bin 3: 29, 29, 29, 29 *  Làm tr n thùng theo biên:       ­ Bin 1: 4, 4, 4, 15       ­ Bin 2: 21, 21, 25, 25       ­ Bin 3: 26, 26, 26, 34

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

26

Phân tích c m ụ (Cluster Analysis)

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

27

BÀI TOÁN PHÂN C MỤ

 Bài toán

 T p đ i t  Phân tách D thành các c mụ

ố ượ

ộ ụ

ng trong m t c m: “t

ươ

ươ ng t ” nhau (g n nhau) ự

ng t ” nhau (xa nhau)

 Các đ i t ố ượ  Đ i t ươ

ậ ố ượ ng D = {d}

 Đo “t

ộ ố ượ

 Tiên đ  phân c m:

ng

ụ ng hai c m: “không t ầ ng t ” (g n) nhau ? ườ ế ụ  N u ng ề ố ượ ọ ự ọ d thì h  cũng l a ch n các đ i t ự

ộ ố ộ

ươ

ư

ớ d ố ượ

ụ ễ

ng

ườ

 Đ a ra m t s  đ  đo “t ọ ự  Khai thác “cách ch n l a” c a ng

ọ i dùng l a ch n m t đ i t ng cùng c m v i  ể ng t ” theo bi u di n đ i t i dùng

ố ượ

ố ượ

ướ

ộ ạ  D y b  phân cum ồ ươ ộ ự ng đ ng  Xây d ng đ  đo t ổ  Khai thác thông tin b  sung ướ ụ  S  l

ng c m cho tr

c, s  l

ng c m không cho tr

c

YÊU C U PHÂN C M

 Tính phù h pợ

ệ t ợ

ệ ụ

ườ

ầ ạ ấ  Cung  c p  s   phân  bi

t  c m  phù  h p  v i  yêu  c u  ng

i  dùng  v i  các

ả  T o c m c n đ m b o tính phân bi ự ụ ợ c m không phù h p khác. ả ễ ọ  T ng h p ph i d  đ c ọ ắ ả

ng n g n và chính xác c a các c m

ủ ề

ề ộ ụ

ng ch  thu c v  m t c m.

 S  d ng các m u thông tin

ượ

c

ố ượ

ợ ổ ấ  Cung c p mô t  Tính đa hình ề ố ượ ng nhi u ch  đ  Đ i t ế ộ ố ượ ạ  Tránh h n ch  m t đ i t ẩ ử ụ ả ạ ụ ươ  Ph ng pháp ph i t o c m “t ờ ợ ệ ố  Tránh ph i ch  đ i h  th ng t

ố ẩ t”: ch  dùng m u thông tin có đ ộ ả i toàn b  các đ i t

ng.

 Phân ho chạ ạ

ố ư

 Phân ho ch t p thành các t p con  Đánh giá theo các tiêu chí  T i  u chung, k­mean

 Phân c pấ

ậ  S  d ng ma tr n kho ng cách  Xây d ng ki n trúc phân c p: t

ừ ướ  d

i lên (

trên

Ộ Ố ƯƠ Ụ Ể M T S  PH NG PHÁP PHÂN C M ĐI N HÌNH

AGNES) ­ t

ử ụ ế ự ố DIANA) xu ng (  D a theo m t đ

ậ ộ

ố ượ ố ể

ể ở ộ

i thi u

m t lân c n

ậ ộ ự  D a trên hàm m t đ  các đ i t ng  Lân c n, bán kính lân c n, s  đi m t

 D a theo l

ướ

ữ ệ

ượ

Ộ Ố ƯƠ Ụ Ể M T S  PH NG PHÁP PHÂN C M ĐI N HÌNH

i đa chi u: mi n d  li u đ

c chia thành

ự  Xây d ng c u trúc l

đ nh m t lo i mô hình bi u di n các c m

 D a trên mô hình ạ ố

ụ ặ ố

ả ị ị

ấ ậ

 Self Organization Matrix (SOM) ự  Gi  Xác đ nh tham s  mô hình cho phép đ t t

t nh t t p c n phân

c m vào

ướ i ấ ự h p các c p

Đ  ĐO TRONG PHÂN C M WEB

ộ ươ  Đ  đo t ồ ạ  T n t ể  Bi u di n đ i t

ồ ng đ ng ộ ố ộ i m t s  đ  đo, căn c  vào ố ượ ễ ng: d=(d

1, d2, …, dn) vector

 M t s  đ  đo đi n hình

ộ ố ộ ả  kho ng cách Minkowski (q=2: Kho ng cách  Ơ ơ c lit)

wv (cid:0)

ự ầ ơ ng t (g n nhau): cosin hai vect ặ  ho c

ả ộ  đ  đo t ạ ượ đ i l ươ ng CoordLevel (q,d) vector b n

(cid:0)

CoordLevel

K

dq ,(

)

(

)

cos

q K

d

wv . wv .

(cid:0) (cid:0) (cid:0)

ƯƠ

PH

Ậ NG PHÁP LU N PHÂN C M

ế

 Ti p c n theo phân ho ch

 Phân ho ch t p D thành k t p con {D

i}

ố ượ

ướ

ướ

 S  l

ng c m k cho tr

c / không cho tr

c

 M c tiêu phân ho ch ả

ộ ộ ậ

ể ổ

ạ ụ  Ho c c c ti u t ng kho ng cách n i b  t p con

ạ ổ

ươ

ự ộ ộ ậ

ự  Ho c c c đ i t ng t

ng t

n i b  t p con

ố ượ

 Kh i l

ng tính toán

ộ ộ ộ ậ

ố ượ

 “N i b  m t t p con”: toàn b  kho ng cách ? Kh i l

ng

l nớ

ố ượ

ố ượ

ạ ng đ i di n

 Thông qua đ i t ạ

ố ượ

ượ

 Đ i t

ng đ i di n đ

ng đ i di n: Tính theo  đ i t ổ ệ c thay đ i

ƯƠ

PH

Ậ NG PHÁP LU N PHÂN C M

ế

 Ti p c n theo hình h c

ọ ề

ế

 Quy chi u không gian nhi u chi u v  hai chi u

ươ

 Ph

ng pháp

self­organizing map ố ượ

ố  Phân b  các đ i t

ng không gian g c vào không gian hai

chi uề ế

ườ

ươ

ậ ộ  Đ  đo t

ố i dùng cung c p

ượ ng c

 Ti p c n theo mô hình sinh và th ng kê  (kho ng cách) đ ẫ

ng t ộ

ố ượ

ố  Sinh ra m t phân b  ng u nhiên các đ i t

ng theo đ  đo đã

cho

PHÂN HO CH BOTTOM­UP HAC

 Phân c m tích lũy (Agglomerative)

ơ

 bottom­up agglomerative  hierarchical agglomerative clustering (HAC) ử ụ ậ

ở ộ

ố ượ d thành m t c m {

ệ ng hi n có) d}

2

ụ ọ  Tên g i khác

kh i Gỏ

s

)(

)

dds ( , 1

2

)1

(

dd 1 ,

2

ộ s(d,q): đ  đo cosin

(cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0)

: s((cid:0) ) t ng s  h ng  ạ

ầ ử ư

 S  d ng bi u di n vect ệ ậ  Thu t toán (G: ký hi u cho t p các c m đ i t ộ ụ ỗ ố ượ ng   Kh i đ ng: Gán m i đ i t ệ ặ ự  Trong khi |G| > 1 th c hi n l p  và (cid:0) ụ (cid:0) ộ ớ  thu c G là “g n nhau” theo đ  đo  V i hai c m   (cid:0) • Đ t ặ (cid:0)  (cid:0)  = (cid:0)  và (cid:0) ạ ỏ (cid:0) • Lo i b   ổ • B  sung   vào G ầ  “hai c m g n nhau” ộ ộ ủ  và (cid:0)

ố ạ ầ : c c đ i min và max g n nhau các c p ph n t

. L u ý

ụ ộ ầ ờ

ụ (cid:0)  Đ  đo n i b  c a c m  ự  G n nhau  th i gian tính toán: tính tăng c a thu t toán

(cid:0)

ự Ạ PHÂN HO CH TOP­DOWN VÀ BOTTOM­UP (xây d ng dendrogram)

THU T TOÁN K­MEAN

 Gi

ỗ ụ

ủ ỗ ụ

đ i di n cho m i c m

ở ộ

ơ ọ

ụ c  tr ng tâm cho các c m

ố ơ

ẫ t h n” v n còn

ầ d nh tấ

ạ ọ

ố ượ

i tr ng tâm theo theo các đ i t

ộ ng thu c nó

/*

ệ  Đi u ki n “làm t

ệ i thi u ứ ạ ọ  D ng c ng: theo tr ng tâm c a m i c m ầ ử ạ ệ  Theo ph n t ố ượ  Đ i t 1, d2, …, dn) ng: d=(d ộ  N i dung k­mean c ng ọ  Kh i đ ng: Ch n tùy ý các vect ệ ề  */ Trong khi đi u ki n “làm t ọ ố ượ d ng   V i m i đ i t • Tìm c m ụ c có tr ng tâm g n  ọ • Gán d vào c m ụ c ọ ụ c  V i m i c m  • Tính toán l ố ơ t h n” ể

ố ượ

ừ ụ

ng t

c m này sang c m khác

• Không/chuy n ít đ i t ự • Ho c s  thay đ i ít

ơ ạ

 Th i gian th c hi n ề  Thu t toán k­mean m m liên quan ch n vect

ệ  đ i di n c m

H i quy (Regression)

Y1

Y1’

y

X1

y = x + 1

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

38

x

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

39

ờ ạ ệ ế

ữ ệ

Tích h p d  li u

 Tích h p d  li u (Data integration):  ữ ệ ừ

ữ ệ

 K t h p d  li u t

ồ ư ề ộ ồ nhi u ngu n thành m t ngu n l u

ợ ế ợ ữ tr  chung ợ  Tích h p s  đ

ữ ệ ừ

ấ ợ ề ị ồ  các ngu n khác nhau ị ự ế t

(cid:0)

ồ ệ ế ấ

t nh t quá d  li u ị ộ ồ ộ ề ự  Cùng m t th c th  th c s : giá tr  thu c tính các ngu n

ơ ồ  Tích h p sieu d  li u t ể ự ế ừ ự  V n đ  đ nh danh th c th : xác đ nh th c th  th c t   ữ ệ ạ ẳ ứ  B.cust­# ngu n d  li u ph c, ch ng h n, A.cust­id  ữ ệ ế ấ ả  Phát hi n và gi i quy t v n đ  thi ể ự ự khác nhau là khác nhau

 Nguyên nhân: trình bày khác nhau, c  khác nhau,  ố ế

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

40

ẳ ạ ơ ớ ố ị ch ng h n, đ n v  qu c t khác v i Anh qu c

ắ ư ừ

ữ ệ

N m b t d  th a trong tích h p d  li u  (Handling Redundancy in Data Integration)

 D  th a d  li u: th

ữ ệ ườ ợ ừ ề ồ ng có khi tích h p t nhi u ngu n

ư ừ khác nhau

 M t thu c tính có nhi u tên khác nhau

ề ộ ộ ở các CSDL

khác nhau

 M t thu c tính: thu c tính “ngu n g c” trong CSDL

ộ ồ ố

ộ ẳ ạ ộ khác, ch ng h n, doanh thu hàng năm

 D  li u d  th a có th  đwocj phát hi n khi phân tích

ư ừ ể ệ

ữ ệ ươ t ng quan

 Tích h p c n tr ng d  li u ngu n ph c giúp gi m/tránh  ấ

ọ ữ ệ ứ ả ồ

ẩ ế ả ố ệ ấ ộ

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

41

ợ ư ừ d  th a, thi u nh t quán và tăng hi u qu  t c đ  và ch t  ngượ l

ữ ệ

ạ Chuy n d ng d  li u

 Làm tr n (Smoothing): lo i b  nhi u t

ạ ỏ ễ ừ ữ ệ ơ d  li u

 T ng h p (Aggregation): tóm t

ổ ợ ắ ố ữ ệ ự t, xây d ng kh i d  li u

 T ng quát hóa (Generalization): leo ki n trúc khái ni m

ế ệ ổ

 Chu n hóa (Normalization): thu nh  vào mi n nh , riêng

ề ẩ ỏ ỏ

 Chu n hóa min­max

 Chu n hóa z­score

ỷ ệ ậ ẩ  Chu n hóa t th p phân l

ự ư ặ ộ  Xây d ng thu c tính/đ c tr ng

 Thu c tính m i đ

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

42

ớ ượ ộ ự ừ ộ c xây d ng t các thu c tính đã có

ổ ữ ệ

Chuy n đ i d  li u: Chu n hóa

 Chu n hóa min­max

A

min

(cid:0)

A

A

A

v

new

max

new

min

new

min

'

(

_

_

)

_

(cid:0) (cid:0) (cid:0)

A

A

v max

min

(cid:0)

 Chu n hóa z­score

A

(cid:0)

v

'

A

dev

mean _

(cid:0)

v stand  th p phân

j : s  nguyên nh  nh t mà Max(|     |)<1

v

' (cid:0)

'v

j

v 10

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

43

ỷ ệ ậ ẩ  Chu n hóa t l

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ử ủ ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

44

ờ ạ ệ ế

ế ượ

ữ ệ

c rút g n d  li u  Chi n l (Data Reduction Strategies)

ứ ớ ữ ệ  Kho d  li u ch a t

 Phân tích/khai phá d  li u ph c m t th i gian r t dài khi ch y trên

ộ ữ ệ

ậ t p toàn b  d  li u

ượ

i hàng TB ứ ữ ệ

ỏ ơ ế

ả ng mà sinh ra cùng (ho c h u nh  cùng) k t qu .

ủ ậ ặ ữ ệ c rút g n d  li u

ữ ệ ữ ệ c trình bày g n c a t p d  li u mà nh  h n nhi u v  kh i  ư

ạ ỏ

ữ ệ

d  li u thành mô hình ệ

ả ờ ạ

 T p h p kh i d  li u  Gi m đa chi u – lo i b  thu c tính không quan tr ng ữ ệ  Nén d  li u  Gi m tính s  hóa –  R i r c hóa và sinh cây khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

45

ọ  Rút g n d  li u  Có đ ượ l ế ượ  Chi n l ậ ợ ả ọ ố ữ ệ ề

ế ợ

ố ữ ệ

K t h p kh i d  li u (Data Cube  Aggregation)

ố ữ ệ ứ ấ ấ ủ  M c th p nh t c a kh i d  li u

 T ng h p d  li u thành m t cá th  quan tâm

ữ ệ ể ổ ợ ộ

 Ch ng h n, m t khách hàng trong kho d  li u cu c g i

ữ ệ ộ ộ ọ

ẳ ệ ạ ạ đi n tho i.

 Các m c ph c h p c a tích h p thành kh i d  li u

ố ữ ệ ứ ứ ủ ợ ợ

 Gi m thêm kích th

ả ướ ữ ệ c d  li u

 Tham kh o m c thích h p

ứ ả ợ

ấ ủ ể ả ử ụ ỏ ễ  S  d ng trình di n nh  nh t đ  đ  gi i bài toán

 Nên s  d ng d  li u kh i l p ph

ữ ệ ố ậ ươ ng khi tr  l ả ờ âu h i ỏ i c

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

46

ử ụ ợ ổ t ng h p thông tin

ọ Rút g n chi u

 Rút g n đ c tr ng (nh ., l a ch n t p con thu c tính):

ọ ộ

ố ỏ ư ự ấ ặ ư ọ ậ

ư ổ ố ị ủ

ư

ễ ẫ ậ ẫ ơ ể  Rút g n # c a các m u trong t p m u d  dàng h n đ

 Ph

ự ượ ọ

ế ừ

ng mũ # phép ch n): ướ c ậ phía tr ạ ỏ ạ ể ế

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

47

ế ợ ọ ể ế ị ọ ậ ư ặ ự  L a ch n t p nh  nh t các đ c tr ng mà phân b  xác  ị ủ ớ ấ ủ su t c a các l p khác nhau cho giá tr  khi cho giá tr  c a  ầ ớ các l p này g n nh  phân b  v n có đã cho giá tr  c a  ặ các đ c tr ng ọ ủ ữ ệ ể hi u d  li u ươ ng pháp Heuristic (có l c l ọ  Khôn ngoan ch n chuy n ti p t  K t h p chon chuy n ti p và lo i b  l c h u.  Rút g n câu qyuy t đ nh

ế ị

Ví d  rút g n cây quy t đ nh  (Example of Decision Tree Induction)

ộ ậ ở ạ

T p thu c tính kh i t o: {A1, A2, A3, A4, A5, A6}

A4 ?

A6? A1?

Class 2 Class 2 Class 1 Class 1

> T p thu c tinh rút g n:  {A1, A4, A6}

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

48

ậ ộ ọ

ế ị

Phân l p cây quy t đ nh

ồ ị ạ ỉ

ả ể

ớ ế

ươ

ạ i

 Đ  th  d ng cây ộ  Đ nh trong là m t hàm test ng  ng v i k t qu  ki m tra t  Các nhánh t đ nh trong

 Các lá là các nhãn, ho c các l p.

ế ị

Phân l p cây quy t đ nh

ế ị

Phân l p cây quy t đ nh

ế ị

Phân l p cây quy t đ nh

ế ị

 Xây d ng cây quy t đ nh:

 Xây d ng cây quy t đ nh

ự ươ

ế ị ng pháp top­down

 C t t a cây (pruning)

 Ph ắ ỉ  Ph

ươ ữ ị ng pháp bottom­up: xác đ nh và lo i b  nh ng

ạ ỏ ớ

ố ượ

ng

ượ

ữ ộ ườ nhánh r m rà tăng đ  chính xác khi phân l p  ố ượ nh ng đ i t

ử ụ ư ch a đ

ớ ng m i ế ị  S  d ng cây quy t đ nh: phân l p các đ i t c gán nhãn

ươ

ư

Ph

ặ ng pháp ch n đ c tr ng Heuristic

ậ ặ ư

ư t đ c l p đ c tr ng: ư ư ế ộ ậ  thi

ừ ấ ượ t nh t đ

ướ ố ấ c t t nh t:  ầ ọ c ch n đ u tiên ề ệ ơ ố t nh t ti p theo theo đi u ki n đã

ấ ế c đó, ...

ế ọ ố ch n t ạ ỏ ặ ướ c:

ạ ỏ ặ ư ặ

ặ ừ d đ c tr ng  Có 2d  t p con đ c tr ng t ộ ự ọ ươ ng pháp ch n dad c tr ng heuristic:  M t vài ph ố ặ ả ư ặ ấ  Các đ c tr ng t tnh t theo gi ử ể ọ ừ ể ch n t  ki m th  đi n hình. ặ ự ư ọ  L a ch n đ c tr ng khôn ngoan t ng b ộ  Các thu c tính đ n t ọ ố  Ti p đó, ch n t ấ ướ t nh t tr ừ ư  Lo i b  đ c tr ng khôn ngoan t ng b ấ ồ i nh t  Lo i b  l p các đ c tr ng t ấ ạ ỏ ố ọ ế ợ ự  K t h p l a ch n và lo i b  t t nh t: ạ  Nhánh và ph m vi t i  u:

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

53

ử ụ ư ọ ố ư ạ ỏ ặ  S  d ng lo i b  đ c tr ng và tùy ch n

ữ ệ

Nén d  li u (Data Compression)

 Nén xâu (String compression)

ủ ề ậ ỉ ố i lý thuy t đ y đ  và thu t toán đi u ch nh t t

ng

ế ầ ườ ạ ượ ở ộ ế ầ ng h n ch  thao tác không c n m  r ng

ồ ạ  T n t ấ  M t mát thông th  Cho phép l  Nén Audio/video

ấ ể ớ

ế ế ể ộ ự ạ ạ i mà

 Nén m t mát đi n hình, v i tinh ch  ti n b ỏ  Đôi khi các đo n nh  tín hi u có th  xây d ng l ạ không c n xây d ng l ả

ự ầ ộ

ệ i toàn b  Dãy th i gian không ph i là audio

 Ng n đi n hình và ch m theo th i gian

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

54

ể ậ ờ ờ ắ

ữ ệ

Nén d  li u (Data Compression)

ữ ệ ự D  li u th c (Original Data)

á t ­ l o s s y

ượ DL đ c nén Compressed  Data ỡ ấ Đ  m t mát lossless

t  m

M

ữ ệ ự ượ ấ D  li u th c đ ỉ c x p x

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

55

Original Data Approximated

Chuy n d ng sóng (Wavelet  Transformation)

Daubechie4

Haar2  Discrete wavelet transform (DWT): linear signal

 Compressed approximation: store only a small fraction of

processing, multiresolutional analysis

 Similar to discrete Fourier transform (DFT), but better

the strongest of the wavelet coefficients

 Method:

 Length, L, must be an integer power of 2 (padding with 0s, when

necessary)

 Each transform has 2 functions: smoothing, difference

 Applies to pairs of data, resulting in two set of data of length L/2

 Applies two functions recursively, until reaches the desired length

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

56

lossy compression, localized in space

DWT cho nén  nhả

 Image

Low Pass       High Pass

Low Pass    High Pass

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

57

Low Pass       High Pass

Phân tích thành ph n chính  (Principal Component Analysis )

 Cho N vector d  li u

ề c  (<=  k) vector tr c ự

ấ ể ữ ệ ố ữ ệ k­chi u, tìm  ễ t nh t đ  trình di n d  li u. giao t

ữ ệ ậ c rút g n thành N vector d  li u c

ượ ọ ượ ữ ệ  T p d  li u g c đ ầ ọ ề  (chi u đ c rút g n).

 M i vector d  li u là t ầ thành ph n chính.

ủ ế ố chi u: ề c thành ph n chính ỗ ổ ợ ữ ệ h p tuy n tính c a các vector

 Ch  áp d ng cho d  li u s

ữ ệ ụ ỉ

 Dùng khi s  chi u vector l n.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

58

ề ố ố. ớ

Phân tích thành ph n chính (PCA)

X2

Y1

Y2

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

59

X1

ướ

Rút g n kích th

c s

 Ph

 Assume the data fits some model, estimate model

ươ ố ng pháp tham s

 Log­linear models: obtain value at a point in m­D  space as the product on appropriate marginal  subspaces

 Non­parametric methods

 Do not assume models

 Major families: histograms, clustering, sampling

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

60

parameters, store only the parameters, and discard  the data (except possible outliers)

ế

H i quy và mô hình logarit tuy n tính

 Linear regression: Data are modeled to fit a straight line

 Often uses the least­square method to fit the line

 Multiple regression: allows a response variable Y to be

modeled as a linear function of multidimensional feature

 Log­linear model: approximates discrete

vector

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

61

multidimensional probability distributions

ế

Phân tích h i quy và mô hình logarit tuy n tính

 Linear regression: Y = (cid:0)  + (cid:0)  X

 Two parameters , (cid:0)

and (cid:0)  specify the line and are to

 using the least squares criterion to the known values of

be estimated by using the data at hand.

 Multiple regression: Y = b0 + b1 X1 + b2 X2.

 Many nonlinear functions can be transformed into the

Y1, Y2, …, X1, X2, ….

 Log­linear models:

 The multi­way table of joint probabilities is

above.

 Probability:  p(a, b, c, d) = (cid:0) ab (cid:0) ac(cid:0) ad (cid:0) bcd

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

approximated by a product of lower­order tables.

ượ

L

c đ  (Histograms)

technique

20

40  A popular data reduction  35  Divide data into buckets  30 and store average (sum)  25 for each bucket  Can be constructed  optimally in one  15 dimension using dynamic  programming 10

 Related to quantization

5

problems.

0

10000

50000

70000

90000

ữ ệ

ữ ệ

Kho d  li u và khai phá d  li u: Ch

30000 ươ ng 2

November 4, 2015

63

Phân c mụ

 Partition data set into clusters, and one can store

 Can be very effective if data is clustered but not if data

cluster representation only

 Can have hierarchical clustering and be stored in multi­

is “smeared”

 There are many choices of clustering definitions and

dimensional index tree structures

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

64

clustering algorithms

Rút g n m u (Sampling)

 Allow a mining algorithm to run in complexity that is

 Simple random sampling may have very poor

potentially sub­linear to the size of the data  Choose a representative subset of the data

 Develop adaptive sampling methods

 Stratified sampling:

 Approximate the percentage of each class (or

performance in the presence of skew

 Used in conjunction with skewed data

 Sampling may not reduce database I/Os (page at a time).

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

65

subpopulation of interest) in the overall database

ẫ Rút g n m u (Sampling)

(

a n d o m t h o u t )

s

S R S W O R r i m p l e   a m p l e   w i e m e n t s c e p l a

r

SRSWR

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

66

Raw Data

Rút g n m u (Sampling)

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

67

Cluster/Stratified Sample Raw Data

Rút g n phân c p

 Use multi­resolution structure with different degrees of

 Hierarchical clustering is often performed but tends to  define partitions of data sets rather than “clusters”  Parametric methods are usually not amenable to

reduction

 Hierarchical aggregation

 An index tree hierarchically divides a data set into

hierarchical representation

ữ ệ

ữ ệ

partitions by value range of some attributes  Each partition can be considered as a bucket  Thus an index tree with aggregates stored at each

ng 2

November 4, 2015

68

node is a hierarchical histogram ươ Kho d  li u và khai phá d  li u: Ch

ữ ệ

ề Chapter 2: Ti n x  lý d  li u

 Hi u d  li u và chu n b  d  li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x  lý d  li u

ữ ệ ạ  Làm s ch d  li u

 Tích h p và chuy n d ng d  li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d  li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

69

ờ ạ ế ệ

ờ ạ

R i r c hóa

 Three types of attributes:

 Nominal — values from an unordered set  Ordinal — values from an ordered set  Continuous — real numbers

 Discretization:

 divide the range of a continuous attribute into

 Some classification algorithms only accept

intervals

 Reduce data size by discretization  Prepare for further analysis

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

70

categorical attributes.

ờ ạ

ế R i r c hóa và ki n trúc khái ni m

 Discretization

 reduce the number of values for a given continuous  attribute by dividing the range of the attribute into  intervals. Interval labels can then be used to replace  actual data values

 Concept hierarchies

 reduce the data by collecting and replacing low level  concepts (such as numeric values for the attribute  age) by higher level concepts (such as young, middle­ aged, or senior)

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

71

ế

ờ ạ ớ ữ R i r c hóa và ki n trúc khái ni m v i d   ố li u sệ

 Binning (see sections before)

 Histogram analysis (see sections before)

 Clustering analysis (see sections before)

 Entropy­based discretization

 Segmentation by natural partitioning

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

72

ờ ạ

ự R i r c hóa d a trên Entropy

 Given a set of samples S, if S is partitioned into two

|

|

|

Ent

Ent

E S T ( ,

)

(

(

)

S

S

) 1

2

S | 1 S | |

S 2 S | |

 The boundary that minimizes the entropy function over all  possible boundaries is selected as a binary discretization.

 The process is recursively applied to partitions obtained

(cid:0)

intervals S1 and S2 using boundary T, the entropy after  partitioning is (cid:0) (cid:0)

E T S (

)

,

 Experiments show that it may reduce data size and

(cid:0) (cid:0) until some stopping criterion is met, e.g., Ent S ( )

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

73

improve classification accuracy

Phân đo n b ng phân ho ch t

nhiên

ắ ả ượ ữ ệ ể ạ ơ  Quy t c đ n gi n 3­4­5 đ c dùng đ  phân đo n d  li u

ạ ươ ấ ố ự ố s  thành các đo n t ố ng đ i th ng nh t, “t nhiên”.

ớ ố ọ ướ  H ng t ị i s  giá tr  khác bi ệ ở t ấ  vùng quan tr ng nh t

ế ị ệ ề ặ  N u 3, 6, 7 ho c 9 giá tr  khác bi t thì chia mi n thành

ạ ươ ươ 3 đo n t ng đ ng.

 N u ph  2, 4, ho c 8 giá tr  phân bi

ủ ế ặ ị ệ t thì chia thành 4.

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

74

ủ ế ị ệ ặ  N u ph  1, 5, ho c 10 giá tr  phân bi t thì chia thành 5.

ụ ậ

Ví d  lu t 3­4­5

count

­$351

­$159

profit

$1,838

$4,700

Step 1:

Min             Low (i.e, 5%­tile)

High(i.e, 95%­0 tile)        Max

Step 2:

msd=1,000

Low=­$1,000

High=$2,000

(­$1,000  ­ $2,000)

Step 3:

(­$1,000 ­ 0)

($1,000 ­ $2,000)

(0 ­$ 1,000)

(­$4000 ­$5,000)

Step 4:

($2,000 ­ $5, 000)

($1,000 ­ $2, 000)

(­$400 ­ 0)

(0 ­ $1,000)

(0 ­   $200)

($1,000 ­  $1,200)

(­$400 ­  ­$300)

($2,000 ­  $3,000)

($200 ­  $400)

($1,200 ­  $1,400)

(­$300 ­   ­$200)

($3,000 ­  $4,000)

($1,400 ­  $1,600)

($400 ­  $600)

(­$200 ­  ­$100)

($4,000 ­  $5,000)

($600 ­  $800)

($1,600 ­  $1,800)

ữ ệ

ữ ệ

($1,800 ­  $2,000) ươ

($800 ­  $1,000) Kho d  li u và khai phá d  li u: Ch

ng 2

(­$100 ­   0) November 4, 2015

75

ữ ẹ

ế

ạ Sinh ki n trúc khái ni m cho d  li u phân lo i

ị ứ m t th  t b  ph n giá tr  thu c tính theo m c

ậ ặ ộ ứ ự ộ i dùng ho c chuyên gias

 Đ c t

 Đ c t

ờ ấ ữ ệ thành c u trúc phân c p nh  nhóm d  li u

ộ ộ ậ ắ ằ

ặ ả ộ  Đ c t ườ ơ ồ s  đ  do ng  street

 Đ c t

ậ b  ph n

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

76

ỉ theo t p các thu c tính.  ế ị  Nh ,ư  street < city 

ế

ự ộ

Sinh ki n trúc khái ni m t

đ ng

 Some concept hierarchies can be automatically

generated based on the analysis of the number of  distinct values per attribute in the given data set   The attribute with the most distinct values is placed

 Note: Exception—weekday, month, quarter, year

at the lowest level of the hierarchy

15 distinct values country

province_or_ state

65 distinct  values 3567 distinct values city

ữ ệ

ữ ệ

ươ

Kho d  li u và khai phá d  li u: Ch

ng 2

November 4, 2015

77

674,339 distinct values street