Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2

ả

ọ Bài gi ng môn h c

KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

CHƯƠNG 2. TIỀN XỬ LÝ DỮ LIỆU

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ệ

ả

Tài li u tham kh o



and

Han

Kamber

(2006). Morgan



[HK06] Data Mining-Concepts and Techniques (Second Edition), Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hải (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và một số tài liệu khác

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ế ệ

ữ

ể ể

ấ

ữ ề ơ ả Nh ng v n đ c b n đ hi u d li uệ

ậ

ượ

ữ ệ

ầ

ế ể

 Cách thu th p đ

c d li u c n thi

t đ mô hình hóa:

 Data Acquisition

ế ợ

ữ ệ

ồ

 Cách k t h p d li u tìm đ

ượ ừ c t

ữ ệ các ngu n d li u khác nhau

 Data Integeation.

ả ữ ệ

 Mô t

d li u

 Data Description

ấ ượ

ộ ạ

ữ ệ

ủ

 Đánh giá ch t l

ng (đ s ch) c a d li u

 Data Assessment

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ậ

Thu th p d li u

 Cách thu thập dữ liệu cần thiết để mô hình hóa

ọ

ỏ ừ

ớ ậ

CSDL t

i t p tin

ph ngẳ

ữ ỏ ậ

ự

ế

ậ

 Ngôn ng h i b c cao truy nh p tr c ti p CSDL

ự

ứ

ể

ế

ấ

 K t n i m c th p đ truy nh p tr c ti p CSDL

ậ ế ố  Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối

lượng lớn dữ liệu

 Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa

 Rút gọn sự tăng không cần thiết của dữ liệu

 Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan

tâm đúng đắn

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Data Acquisition: ữ ệ  Trích ch n d li u theo câu h i t

ữ ệ

ợ

Tích h p d li u

ữ ệ

ồ

 Cách k t h p d li u tìm đ

ượ ừ c t

ữ ệ các ngu n d li u khác nhau

ế ợ Data Integeation.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ả ữ ệ

Mô t

d li u

 Giá trị kỳ vọng (mean)

ỳ ọ

ố ữ ệ

ỏ

ể

ạ

ố ầ

ị ủ

ấ

 L

ồ

ậ ồ ọ

ễ ầ

ị ủ

ế

ấ

ộ

ố

 Xu hướng trung tâm của tập dữ liệu  Độ lệch chuẩn (Standard deviation)  Phân b d li u xung quanh k v ng ự  C c ti u (Minimum) ấ ị  Giá tr nh nh t ự  C c đ i (Maximum) ấ ị ớ  Giá tr l n nh t ầ ả  B ng t n su t (Frequency tables) ế ấ  Phân b t n su t giá tr c a các bi n ượ ể  Cung c p k thu t đ h a bi u di n t n s giá tr c a m t bi n

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

c đ (Histograms) ỹ

Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10])

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ồ ơ ữ ệ

ậ Đánh giá và l p h s d li u

 Đánh giá dữ liệu

 Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định

cách nắm bắt vấn đề

 Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề  Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ

liệu chất lượng kém. ồ ơ ữ ệ

 L p h s d li u (c s căn c : phân b d li u)

ơ ở ố ữ ệ ứ

test, hoặc chỉ đơn giản dữ liệu rác

 Những phát hiện nên được trình bày dưới dạng các báo cáo và liẹt kế

như các mốc quan trọng của kế hoạch

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ậ  Tâm của dữ liệu  Các ngoại lai tiềm năng bất kỳ  Số lượng và phân bố các khoảng trong trong mọi trường hợp  Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học, dữ liệu

ề ơ ả

ị ữ ệ

ữ

ể

ấ

ẩ

Nh ng v n đ c b n đ chu n b d li u

 Cách thức làm sạch dữ liệu:

 Data Cleaning

 Cách thức diễn giải dữ liệu:  Data Transformation

 Cách thức nắm bắt giá trị thiếu:

 Data Imputation

 Trọng số của các trường hợp:  Data Weighting and Balancing

 Xử lý dữ liệu ngoại lai và không mong muốn khác:

 Data Filtering

 Cách thức nắm bắt dữ liệu thời gian/chuỗi thời gian:

 Data Abstraction

 Cách thức rút gọn dữ liệu để dùng: Data Reduction

 Bản ghi : Data Sampling  Biến: Dimensionality Reduction  Giá trị: Data Discretization

ữ ệ

 Cách thức tạo biến mới: Data Derivation ươ Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ử ủ ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ế ệ

ử

ủ

ề

ọ

Tính quan tr ng c a ti n x lý

 Không có d li u t

ữ ệ ố ể ả ố ế t, không th có k t qu khai phá t t!

 Quy t đ nh ch t l

ạ

ố

ộ

ế ị ấ ượ ả ự ữ ệ ấ ng ph i d a trên d li u ch t

ể

ầ

ữ ệ ậ

chính xác, th m chí gây hi u nh m.

ngượ l ế ẳ  Ch ng h n, d li u b i hay thi u là nguyên nhân th ng không

 Kho d li u c n tích h p nh t quán c a d li u ch t

ữ ệ ữ ệ ủ ấ ầ ấ ợ

ngượ l ớ ữ ệ ệ

ộ ổ ữ ệ ạ ọ ự  Phân l n công vi c xây d ng m t kho d li u là trích ể ch n, làm s ch và chuy n đ i d li u —Bill Inmon .

 D li u có ch t l

ợ ụ i ớ m c đích

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ng cao n u nh phù h p v ậ ấ ượ ề ư ế ị ế ạ ữ ệ ế ử ụ s d ng trong đi u hành, ra quy t đ nh, và l p k ho ch

ộ

ữ ệ

ề

ng d li u

ấ ượ Đ đo đa chi u ch t l MultiDimensional Measure of Data Quality

ấ t:

ộ

ầ

ấ

ị

ậ ộ

ị

 Phân lo i b r ng (Broad categories):

ễ ậ ể ế c (Interpretability) c (Accessibility)

ậ ố ề  Khung đa chi u c p nh n t  Đ chính xác (Accuracy) ủ  Tính đ y đ (Completeness)  Tính nh t quán (Consistency) ờ  Tính k p th i (Timeliness)  Đ tin c y (Believability)  Giá tr gia tăng (Value added) ượ  Bi u di n đ ượ  Ti p c n đ ạ ề ộ ấ ả

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ả  B n ch t (intrinsic), ng c nh (contextual),trình di n ế ượ ậ ễ c (accessibility). (representational), và ti p c n đ

Major Tasks in Data Preprocessing

ề

ặ

ị

ạ  Làm s ch d li u

ữ ệ  Đi n giá tr thi u, làm tr n d li u nhi u, đ nh danh ho c xóa ấ

ễ ngo i lai, và kh tính không nh t quán

ữ ệ ế ị ử

ạ ợ  Tích h p d li u

ố ữ ệ

ặ ậ

ợ

ứ  Tích h p CSDL, kh i d li u ho c t p tin ph c

ữ ệ

ề

ọ

ướ

ữ

ấ

ả

c nh ng s n xu t cùng

ượ ặ ươ

ả

ữ ệ ổ ạ  Chuy n d ng d li u ợ

 Chu n hóa và t ng h p ữ ệ c trình bày thu g n v kích th k t qu phân tích ng t

ự ế ữ ệ

ữ ệ

ề

ọ

ị

t c a rút g n d li u (rút g n mi n giá tr )

ể ẩ ọ  Rút g n d li u  Thu đ ho c t

ặ ộ

ặ

ọ ệ ớ ữ ệ

ố

ệ ủ ọ nh ng có đ quan tr ng riêng, đ c bi

t v i d li u s

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ  R i r c hóa d li u ậ ộ  B ph n đ c bi ư

ữ ệ

ủ

ử

ề

ầ

ả

Các thành ph n c a ti n x lý d li u (B ng 2.1)

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ệ ế

ữ ệ

ạ

Làm s ch d li u

 Là quá trình

 xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu

 chỉnh sửa các sai sót và thiếu sót được phát hiện

 nâng cao chất lượng dữ liệu.

 Quá trình bao gồm

 kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn,

 xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi

trường) hoặc các lỗi khác,

 đánh giá dữ liệu của các chuyên gia miền chủ đề.

 Quá trình thường dẫn đến

 loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi

ngờ.

 Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với

các chuẩn áp dụng, các quy luật, và quy tắc.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ơ ồ

ữ ệ

ứ

ồ

ơ

ụ Ngu n d li u đ n: m c s đ (Ví d )

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ể ệ

ữ ệ

ứ

ồ

ơ

ụ Ngu n d li u đ n: m c th hi n (Ví d )

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ồ

ữ ệ

ứ

ể ệ

ơ ồ ứ Ngu n d li u ph c: m c s đ ụ và th hi n (Ví d )

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ạ

Làm s ch d li u

 Nguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng).  hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa  Phòng ngừa liên quan chặt chẽ với thu thập và nhập dữ liệu vào CSDL.  Tăng cường phòng ngừa lỗi, vẫn/tồn tại sai sót trong bộ dữ liệu lớn (Maletic và Marcus 2000) và không thể bỏ qua việc xác nhận và sửa chữa dữ liệu  Vai trò quan tr ngọ ộ

ấ ủ

ữ ệ

ớ

ữ ệ

ả

 “là m t trong ba bài toán l n nh t c a kho d li u”—Ralph Kimball  “là bài toán “number one” trong kho d li u”—DCI kh o sát

 Xử lý giá trị thiếu  Dữ liệu nhiễu: định danh ngoại lai và làm trơn.  Chỉnh sửa dữ liệu không nhất quán  Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ ạ ộ  Các bài toán thu c làm s ch d li u

ử

ị ế X lý thi u giá tr

 Bỏ qua bản ghi có giá trị thiếu:

ườ

ớ

s bài toán phân l p)

ỷ ệ ố

ế ớ

ả

ị

ế  Th ể  không hi u qu khi t

ng làm khi thi u nhãn phân l p (gi l

ả ử s giá tr thi u l n (bán giám sát)

 Điền giá trị thiếu bằng tay:

 tẻ nhạt  tính khả thi

 Điền giá trị thiếu tự động:

 Hằng toàn cục: chẳng hạn như“chưa biết”, có phải một lớp mới  Trung bình giá trị thuộc tính các bản ghi hiện có  Trung bình giá trị thuộc tính các bản ghi cùng lớp: tinh hơn  Giá trị khả năng nhất: dựa trên suy luận như công thức Bayes hoặc cây

quyết định

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ễ

D li u nhi u

 Nhi u: ễ

 Lỗi ngẫu nhiên  Biến dạng của một biến đo được

 Giá tr không chính xác do

 Lỗi do thiết bị thu thập dữ liệu  Vấn đề nhập dữ liệu: người dùng hoặc máy có thể sai  Vấn đề truyền dữ liệu: sai từ thiết bị gửi/nhận/truyền  Hạn chế của công nghệ: ví dụ, phần mềm có thể xử lý không đúng  Thiết nhất quán khi đặt tên: cũng một tên song cách viết khác nhau

ị

 Các v n đ d li u khác yêu c u làm s ch d li u

ữ ệ ầ ạ ề ữ ệ

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ấ  Bộ bản ghi  Dữ liệu không đầy đủ  Dữ liệu không nhất quán

ắ

ễ ắ ữ ệ N m b t d li u nhi u (Handle Noisy Data)

 Ph

ươ ng pháp đóng thùng (Binning): ắ ề

 S p d li u tăng và chia “đ u” vào các thùng  Làm tr n: theo trung bình

ữ ệ ơ ế , theo trung tuy n, theo

biên… ụ

ạ

 K t h p ki m tra máy tính và con ng

 Phân c m (Clustering) ạ ỏ ệ  Phát hi n và lo i b ngo i lai (outliers) ể ế ợ ệ

 Phát hi n giá tr nghi ng đ con ng

ườ

ờ ể ạ ị ố ẳ ạ ớ i ườ ể i ki m tra ể (ch ng h n, đ i phó v i ngo i lai có th )

ồ  H i quy

 Làm tr n: ghép d li u theo các hàm h i quy

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ ồ ơ

ươ

ờ ạ

ả

Ph ng pháp r i r c hóa đ n gi n (Simple Discretization Methods: Binning)

 Phân ho ch cân b ng b r ng Equalwidth

ề ộ ạ ẳ (distance)

ư ạ ị N đo n dài nh nhau:

ị ừ partitioning: ề  Chia mi n giá tr :  Mi n giá tr t ỏ A (nh nh t) t ớ ấ ớ B (l n nh t) > i uniform grid ấ W = (B –

ề A)/N. ơ ả ướ ạ

ị ị ữ ệ ử

ng theo ngo i lai. ằ t khi d li u không cân b ng (đ u). ằ ấ  Đ n gi n nh t song b đ nh h ố  Không x lý t ạ ề ề  Phân ho ch cân b ng theo chi u sâu Equaldepth

ạ (frequency) partitioning: ề ố ề  Chia mi n xác đ nh thành N đo n “đ u nhau v s

ề ụ ẫ ỉ ố ượ l

ố t.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ể ộ ớ ị ạ ấ ng”, các đo n có x p x s ví d m u. ả ỡ ữ ệ  Kh c d li u: t ả ệ  Vi c qu n lý các thu c tính l p: có th “khôn khéo”.

ươ

ữ ệ

ế

ng pháp x p thùng làm tr n d li u

Ph (Binning Methods for Data Smoothing)

ế

ượ

c x p theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

ề

ữ ệ * D li u đ * Chia thùng theo chi u sâu: Bin 1: 4, 8, 9, 15 Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 ơ * Làm tr n thùng theo trung bình: Bin 1: 9, 9, 9, 9 Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29 * Làm tr n thùng theo biên: Bin 1: 4, 4, 4, 15 Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Phân tích c m ụ (Cluster Analysis)

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

BÀI TOÁN PHÂN C MỤ

 Bài toán

 T p đ i t  Phân tách D thành các c mụ

ố ượ

ộ ụ

ự

ầ

ng trong m t c m: “t

ươ

ươ ng t ” nhau (g n nhau) ự

ng t ” nhau (xa nhau)

 Các đ i t ố ượ  Đ i t ươ

ậ ố ượ ng D = {d}

 Đo “t

ộ ố ượ

ự

 Tiên đ phân c m:

ụ ng hai c m: “không t ầ ng t ” (g n) nhau ? ườ ế ụ N u ng ề ố ượ ọ ự ọ d thì h cũng l a ch n các đ i t ự

ộ ố ộ

ươ

ớ d ố ượ

ụ ễ

ủ

ườ

 Đ a ra m t s đ đo “t ọ ự  Khai thác “cách ch n l a” c a ng

ọ i dùng l a ch n m t đ i t ng cùng c m v i ể ng t ” theo bi u di n đ i t i dùng

ố ượ

ụ

ướ

ộ ạ  D y b phân cum ồ ươ ộ ự ng đ ng  Xây d ng đ đo t ổ  Khai thác thông tin b sung ướ ụ  S l

ng c m cho tr

c, s l

ng c m không cho tr

ự

Ụ

Ầ

YÊU C U PHÂN C M

 Tính phù h pợ

ả

ụ

ệ t ợ

ệ ụ

ầ

ớ

ườ

ớ

ầ ạ ấ  Cung c p s phân bi

t c m phù h p v i yêu c u ng

i dùng v i các

ả  T o c m c n đ m b o tính phân bi ự ụ ợ c m không phù h p khác. ả ễ ọ  T ng h p ph i d đ c ọ ắ ả

ủ

ụ

ng n g n và chính xác c a các c m

ủ ề

ỉ

ề ộ ụ

ộ

ng ch thu c v m t c m.

 S d ng các m u thông tin

ỉ

ượ

ả

ố ượ

ợ ổ ấ  Cung c p mô t  Tính đa hình ề ố ượ ng nhi u ch đ  Đ i t ế ộ ố ượ ạ  Tránh h n ch m t đ i t ẩ ử ụ ả ạ ụ ươ  Ph ng pháp ph i t o c m “t ờ ợ ệ ố  Tránh ph i ch đ i h th ng t

ố ẩ t”: ch dùng m u thông tin có đ ộ ả i toàn b các đ i t

ng.

 Phân ho chạ ạ

ậ

ố ư

 Phân ho ch t p thành các t p con  Đánh giá theo các tiêu chí  T i u chung, kmean

 Phân c pấ

ả

ấ

ừ

ậ  S d ng ma tr n kho ng cách  Xây d ng ki n trúc phân c p: t

ừ ướ d

i lên (

trên

Ộ Ố ƯƠ Ụ Ể M T S PH NG PHÁP PHÂN C M ĐI N HÌNH

AGNES) t

ử ụ ế ự ố DIANA) xu ng (  D a theo m t đ

ậ ộ

ự

ố ượ ố ể

ậ

ố

ể ở ộ

ậ

i thi u

m t lân c n

ậ ộ ự  D a trên hàm m t đ các đ i t ng  Lân c n, bán kính lân c n, s đi m t

 D a theo l

ướ

ữ ệ

ề

ượ

Ộ Ố ƯƠ Ụ Ể M T S PH NG PHÁP PHÂN C M ĐI N HÌNH

i đa chi u: mi n d li u đ

c chia thành

ấ

ộ

ự  Xây d ng c u trúc l

ễ

ể

ộ

đ nh m t lo i mô hình bi u di n các c m

 D a trên mô hình ạ ố

ụ ặ ố

ả ị ị

ấ ậ

ầ

 Self Organization Matrix (SOM) ự  Gi  Xác đ nh tham s mô hình cho phép đ t t

t nh t t p c n phân

ụ

c m vào

ướ i ấ ự h p các c p

Ộ

Ụ

Đ ĐO TRONG PHÂN C M WEB

ứ

ộ ươ  Đ đo t ồ ạ  T n t ể  Bi u di n đ i t

ồ ng đ ng ộ ố ộ i m t s đ đo, căn c vào ố ượ ễ ng: d=(d

1, d2, …, dn) vector

ể

 M t s đ đo đi n hình

ộ ố ộ ả  kho ng cách Minkowski (q=2: Kho ng cách Ơ ơ c lit)

wv (cid:0)

ả

ự ầ ơ ng t (g n nhau): cosin hai vect ặ ho c

ả ộ  đ đo t ạ ượ đ i l ươ ng CoordLevel (q,d) vector b n

(cid:0)

CoordLevel

dq ,(

)

(

)

cos

q K

wv . wv .

(cid:0) (cid:0) (cid:0)

ƯƠ

Ụ

PH

Ậ NG PHÁP LU N PHÂN C M

ế

ạ

ậ

 Ti p c n theo phân ho ch

ậ

ạ

 Phân ho ch t p D thành k t p con {D

ố ượ

ụ

ướ

 S l

ng c m k cho tr

c / không cho tr

 M c tiêu phân ho ch ả

ộ ộ ậ

ể ổ

ự

ặ

ạ ụ  Ho c c c ti u t ng kho ng cách n i b t p con

ạ ổ

ặ

ươ

ự ộ ộ ậ

ự  Ho c c c đ i t ng t

ng t

n i b t p con

ố ượ

 Kh i l

ng tính toán

ộ ộ ộ ậ

ố ượ

ả

ộ

 “N i b m t t p con”: toàn b kho ng cách ? Kh i l

l nớ

ố ượ

ạ

ệ

ố ượ

ệ

ạ ng đ i di n

 Thông qua đ i t ạ

ố ượ

ượ

 Đ i t

ng đ i di n đ

ng đ i di n: Tính theo đ i t ổ ệ c thay đ i

ƯƠ

Ụ

PH

Ậ NG PHÁP LU N PHÂN C M

ế

ậ

 Ti p c n theo hình h c

ọ ề

ề

ế

ề

 Quy chi u không gian nhi u chi u v hai chi u

ươ

 Ph

ng pháp

selforganizing map ố ượ

ố

ố  Phân b các đ i t

ng không gian g c vào không gian hai

chi uề ế

ườ

ươ

ấ

ự

ả

ậ ộ  Đ đo t

ố i dùng cung c p

ượ ng c

 Ti p c n theo mô hình sinh và th ng kê (kho ng cách) đ ẫ

ng t ộ

ố ượ

ộ

ố  Sinh ra m t phân b ng u nhiên các đ i t

ng theo đ đo đã

cho

Ạ

PHÂN HO CH BOTTOMUP HAC

 Phân c m tích lũy (Agglomerative)

ễ

ể

ụ

 bottomup agglomerative  hierarchical agglomerative clustering (HAC) ử ụ ậ

ở ộ

ố ượ d thành m t c m {

ệ ng hi n có) d}

ầ

ộ

ụ ọ  Tên g i khác

kh i Gỏ

)(

)

dds ( , 1

(

dd 1 ,

ổ

ộ s(d,q): đ đo cosin

(cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0)

: s((cid:0) ) t ng s h ng ạ

ặ

ầ ử ư

 S d ng bi u di n vect ệ ậ  Thu t toán (G: ký hi u cho t p các c m đ i t ộ ụ ỗ ố ượ ng  Kh i đ ng: Gán m i đ i t ệ ặ ự  Trong khi |G| > 1 th c hi n l p và (cid:0) ụ (cid:0) ộ ớ thu c G là “g n nhau” theo đ đo  V i hai c m (cid:0) • Đ t ặ (cid:0) (cid:0) = (cid:0) và (cid:0) ạ ỏ (cid:0) • Lo i b ổ • B sung vào G ầ  “hai c m g n nhau” ộ ộ ủ và (cid:0)

ố ạ ầ : c c đ i min và max g n nhau các c p ph n t

. L u ý

ụ ộ ầ ờ

ủ

ậ

ụ (cid:0)  Đ đo n i b c a c m ự  G n nhau th i gian tính toán: tính tăng c a thu t toán

(cid:0)

ự Ạ PHÂN HO CH TOPDOWN VÀ BOTTOMUP (xây d ng dendrogram)

Ậ

THU T TOÁN KMEAN

ớ

 Gi

ỗ ụ

ủ ỗ ụ

đ i di n cho m i c m

ứ

ở ộ

ơ ọ

ụ c tr ng tâm cho các c m

ố ơ

ẫ t h n” v n còn

ớ

ầ d nh tấ

ớ

ạ ọ

ố ượ

i tr ng tâm theo theo các đ i t

ộ ng thu c nó

ề

ệ  Đi u ki n “làm t

ệ i thi u ứ ạ ọ  D ng c ng: theo tr ng tâm c a m i c m ầ ử ạ ệ  Theo ph n t ố ượ  Đ i t 1, d2, …, dn) ng: d=(d ộ  N i dung kmean c ng ọ  Kh i đ ng: Ch n tùy ý các vect ệ ề  */ Trong khi đi u ki n “làm t ọ ố ượ d ng  V i m i đ i t • Tìm c m ụ c có tr ng tâm g n ọ • Gán d vào c m ụ c ọ ụ c  V i m i c m • Tính toán l ố ơ t h n” ể

ố ượ

ừ ụ

ụ

ng t

c m này sang c m khác

ặ

ổ

• Không/chuy n ít đ i t ự • Ho c s thay đ i ít

ờ

ự

ệ

ậ

ọ

ơ ạ

ụ

 Th i gian th c hi n ề  Thu t toán kmean m m liên quan ch n vect

ệ đ i di n c m

ồ

H i quy (Regression)

Y1’

y = x + 1

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ệ ế

ữ ệ

ợ

Tích h p d li u

 Tích h p d li u (Data integration): ữ ệ ừ

ữ ệ

 K t h p d li u t

ồ ư ề ộ ồ nhi u ngu n thành m t ngu n l u

ợ ế ợ ữ tr chung ợ  Tích h p s đ

ữ ệ ừ

ấ ợ ề ị ồ các ngu n khác nhau ị ự ế t

(cid:0)

ồ ệ ế ấ

t nh t quá d li u ị ộ ồ ộ ề ự  Cùng m t th c th th c s : giá tr thu c tính các ngu n

ơ ồ  Tích h p sieu d li u t ể ự ế ừ ự  V n đ đ nh danh th c th : xác đ nh th c th th c t ữ ệ ạ ẳ ứ B.cust# ngu n d li u ph c, ch ng h n, A.custid ữ ệ ế ấ ả  Phát hi n và gi i quy t v n đ thi ể ự ự khác nhau là khác nhau

 Nguyên nhân: trình bày khác nhau, c khác nhau, ố ế

ỡ

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ẳ ạ ơ ớ ố ị ch ng h n, đ n v qu c t khác v i Anh qu c

ắ

ắ ư ừ

ữ ệ

ợ

N m b t d th a trong tích h p d li u (Handling Redundancy in Data Integration)

 D th a d li u: th

ữ ệ ườ ợ ừ ề ồ ng có khi tích h p t nhi u ngu n

ư ừ khác nhau

 M t thu c tính có nhi u tên khác nhau

ề ộ ộ ở các CSDL

khác nhau

 M t thu c tính: thu c tính “ngu n g c” trong CSDL

ộ ồ ố

ộ ẳ ạ ộ khác, ch ng h n, doanh thu hàng năm

 D li u d th a có th đwocj phát hi n khi phân tích

ư ừ ể ệ

ữ ệ ươ t ng quan

 Tích h p c n tr ng d li u ngu n ph c giúp gi m/tránh ấ

ọ ữ ệ ứ ả ồ

ẩ ế ả ố ệ ấ ộ

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ợ ư ừ d th a, thi u nh t quán và tăng hi u qu t c đ và ch t ngượ l

ữ ệ

ể

ạ Chuy n d ng d li u

 Làm tr n (Smoothing): lo i b nhi u t

ạ ỏ ễ ừ ữ ệ ơ d li u

 T ng h p (Aggregation): tóm t

ổ ợ ắ ố ữ ệ ự t, xây d ng kh i d li u

 T ng quát hóa (Generalization): leo ki n trúc khái ni m

ế ệ ổ

 Chu n hóa (Normalization): thu nh vào mi n nh , riêng

ề ẩ ỏ ỏ

 Chu n hóa minmax

ẩ

 Chu n hóa zscore

ẩ

ỷ ệ ậ ẩ  Chu n hóa t th p phân l

ự ư ặ ộ  Xây d ng thu c tính/đ c tr ng

 Thu c tính m i đ

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ớ ượ ộ ự ừ ộ c xây d ng t các thu c tính đã có

ổ ữ ệ

ể

ẩ

Chuy n đ i d li u: Chu n hóa

 Chu n hóa minmax

ẩ

min

(cid:0)

new

max

new

min

new

min

(

)

(cid:0) (cid:0) (cid:0)

v max

min

(cid:0)

 Chu n hóa zscore

ẩ

(cid:0)

dev

mean _

(cid:0)

v stand th p phân

ấ

ố

ỏ

j : s nguyên nh nh t mà Max(| |)<1

' (cid:0)

v 10

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ỷ ệ ậ ẩ  Chu n hóa t l

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ử ủ ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ệ ế

ế ượ

ữ ệ

ọ

c rút g n d li u Chi n l (Data Reduction Strategies)

ứ ớ ữ ệ  Kho d li u ch a t

ấ

ạ

ấ

ờ

 Phân tích/khai phá d li u ph c m t th i gian r t dài khi ch y trên

ộ ữ ệ

ậ t p toàn b d li u

ượ

ề

ố

ọ

i hàng TB ứ ữ ệ

ỏ ơ ế

ầ

ả ng mà sinh ra cùng (ho c h u nh cùng) k t qu .

ủ ậ ặ ữ ệ c rút g n d li u

ữ ệ ữ ệ c trình bày g n c a t p d li u mà nh h n nhi u v kh i ư

ạ ỏ

ộ

ọ

ữ ệ

ố

d li u thành mô hình ệ

ả ờ ạ

 T p h p kh i d li u  Gi m đa chi u – lo i b thu c tính không quan tr ng ữ ệ  Nén d li u  Gi m tính s hóa –  R i r c hóa và sinh cây khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ọ  Rút g n d li u  Có đ ượ l ế ượ  Chi n l ậ ợ ả ọ ố ữ ệ ề

ế ợ

ố ữ ệ

K t h p kh i d li u (Data Cube Aggregation)

ố ữ ệ ứ ấ ấ ủ  M c th p nh t c a kh i d li u

 T ng h p d li u thành m t cá th quan tâm

ữ ệ ể ổ ợ ộ

 Ch ng h n, m t khách hàng trong kho d li u cu c g i

ữ ệ ộ ộ ọ

ẳ ệ ạ ạ đi n tho i.

 Các m c ph c h p c a tích h p thành kh i d li u

ố ữ ệ ứ ứ ủ ợ ợ

 Gi m thêm kích th

ả ướ ữ ệ c d li u

 Tham kh o m c thích h p

ứ ả ợ

ấ ủ ể ả ử ụ ỏ ễ  S d ng trình di n nh nh t đ đ gi i bài toán

 Nên s d ng d li u kh i l p ph

ữ ệ ố ậ ươ ng khi tr l ả ờ âu h i ỏ i c

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ử ụ ợ ổ t ng h p thông tin

ề

ọ Rút g n chi u

 Rút g n đ c tr ng (nh ., l a ch n t p con thu c tính):

ọ ộ

ố ỏ ư ự ấ ặ ư ọ ậ

ị

ư ổ ố ị ủ

ễ ẫ ậ ẫ ơ ể  Rút g n # c a các m u trong t p m u d dàng h n đ

 Ph

ự ượ ọ

ế ừ

ng mũ # phép ch n): ướ c ậ phía tr ạ ỏ ạ ể ế

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ế ợ ọ ể ế ị ọ ậ ư ặ ự  L a ch n t p nh nh t các đ c tr ng mà phân b xác ị ủ ớ ấ ủ su t c a các l p khác nhau cho giá tr khi cho giá tr c a ầ ớ các l p này g n nh phân b v n có đã cho giá tr c a ặ các đ c tr ng ọ ủ ữ ệ ể hi u d li u ươ ng pháp Heuristic (có l c l ọ  Khôn ngoan ch n chuy n ti p t  K t h p chon chuy n ti p và lo i b l c h u.  Rút g n câu qyuy t đ nh

ụ

ế ị

ọ

Ví d rút g n cây quy t đ nh (Example of Decision Tree Induction)

ộ ậ ở ạ

T p thu c tính kh i t o: {A1, A2, A3, A4, A5, A6}

A4 ?

A6? A1?

Class 2 Class 2 Class 1 Class 1

> T p thu c tinh rút g n: {A1, A4, A6}

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ậ ộ ọ

ế ị

ớ

Phân l p cây quy t đ nh

ồ ị ạ ỉ

ả ể

ớ ế

ươ

ứ

ạ i

ỉ

 Đ th d ng cây ộ  Đ nh trong là m t hàm test ng ng v i k t qu ki m tra t  Các nhánh t đ nh trong

ặ

ớ

 Các lá là các nhãn, ho c các l p.

ế ị

ớ

Phân l p cây quy t đ nh

ế ị

ớ

Phân l p cây quy t đ nh

ế ị

ớ

Phân l p cây quy t đ nh

ế ị

ự

 Xây d ng cây quy t đ nh:

 Xây d ng cây quy t đ nh

ự ươ

ế ị ng pháp topdown

 C t t a cây (pruning)

 Ph ắ ỉ  Ph

ươ ữ ị ng pháp bottomup: xác đ nh và lo i b nh ng

ạ ỏ ớ

ố ượ

ớ

ượ

ữ ộ ườ nhánh r m rà tăng đ chính xác khi phân l p ố ượ nh ng đ i t

ử ụ ư ch a đ

ớ ng m i ế ị  S d ng cây quy t đ nh: phân l p các đ i t c gán nhãn

ươ

ư

ọ

Ph

ặ ng pháp ch n đ c tr ng Heuristic

ậ ặ ư

ư t đ c l p đ c tr ng: ư ư ế ộ ậ thi

ừ ấ ượ t nh t đ

ướ ố ấ c t t nh t: ầ ọ c ch n đ u tiên ề ệ ơ ố t nh t ti p theo theo đi u ki n đã

ấ ế c đó, ...

ế ọ ố ch n t ạ ỏ ặ ướ c:

ạ ỏ ặ ư ặ

ặ ừ d đ c tr ng  Có 2d t p con đ c tr ng t ộ ự ọ ươ ng pháp ch n dad c tr ng heuristic:  M t vài ph ố ặ ả ư ặ ấ  Các đ c tr ng t tnh t theo gi ử ể ọ ừ ể ch n t ki m th đi n hình. ặ ự ư ọ  L a ch n đ c tr ng khôn ngoan t ng b ộ  Các thu c tính đ n t ọ ố  Ti p đó, ch n t ấ ướ t nh t tr ừ ư  Lo i b đ c tr ng khôn ngoan t ng b ấ ồ i nh t  Lo i b l p các đ c tr ng t ấ ạ ỏ ố ọ ế ợ ự  K t h p l a ch n và lo i b t t nh t: ạ  Nhánh và ph m vi t i u:

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ử ụ ư ọ ố ư ạ ỏ ặ  S d ng lo i b đ c tr ng và tùy ch n

ữ ệ

Nén d li u (Data Compression)

 Nén xâu (String compression)

ủ ề ậ ỉ ố i lý thuy t đ y đ và thu t toán đi u ch nh t t

ế ầ ườ ạ ượ ở ộ ế ầ ng h n ch thao tác không c n m r ng

ồ ạ  T n t ấ  M t mát thông th  Cho phép l  Nén Audio/video

ấ ể ớ

ế ế ể ộ ự ạ ạ i mà

 Nén m t mát đi n hình, v i tinh ch ti n b ỏ  Đôi khi các đo n nh tín hi u có th xây d ng l ạ không c n xây d ng l ả

ự ầ ộ

ệ i toàn b  Dãy th i gian không ph i là audio

 Ng n đi n hình và ch m theo th i gian

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ể ậ ờ ờ ắ

ữ ệ

Nén d li u (Data Compression)

ữ ệ ự D li u th c (Original Data)

á t l o s s y

ượ DL đ c nén Compressed Data ỡ ấ Đ m t mát lossless

t m

ấ

ữ ệ ự ượ ấ D li u th c đ ỉ c x p x

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Original Data Approximated

ể

ạ

Chuy n d ng sóng (Wavelet Transformation)

Daubechie4

Haar2  Discrete wavelet transform (DWT): linear signal

 Compressed approximation: store only a small fraction of

processing, multiresolutional analysis

 Similar to discrete Fourier transform (DFT), but better

the strongest of the wavelet coefficients

 Method:

 Length, L, must be an integer power of 2 (padding with 0s, when

necessary)

 Each transform has 2 functions: smoothing, difference

 Applies to pairs of data, resulting in two set of data of length L/2

 Applies two functions recursively, until reaches the desired length

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

lossy compression, localized in space

DWT cho nén nhả

 Image

Low Pass High Pass

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Low Pass High Pass

ầ

Phân tích thành ph n chính (Principal Component Analysis )

 Cho N vector d li u

ề c (<= k) vector tr c ự

ấ ể ữ ệ ố ữ ệ kchi u, tìm ễ t nh t đ trình di n d li u. giao t

ữ ệ ậ c rút g n thành N vector d li u c

ượ ọ ượ ữ ệ  T p d li u g c đ ầ ọ ề (chi u đ c rút g n).

 M i vector d li u là t ầ thành ph n chính.

ủ ế ố chi u: ề c thành ph n chính ỗ ổ ợ ữ ệ h p tuy n tính c a các vector

 Ch áp d ng cho d li u s

ữ ệ ụ ỉ

 Dùng khi s chi u vector l n.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ề ố ố. ớ

ầ

Phân tích thành ph n chính (PCA)

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ọ

ướ

ố

Rút g n kích th

c s

 Ph

 Assume the data fits some model, estimate model

ươ ố ng pháp tham s

 Loglinear models: obtain value at a point in mD space as the product on appropriate marginal subspaces

 Nonparametric methods

 Do not assume models

 Major families: histograms, clustering, sampling

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

parameters, store only the parameters, and discard the data (except possible outliers)

ế

ồ

H i quy và mô hình logarit tuy n tính

 Linear regression: Data are modeled to fit a straight line

 Often uses the leastsquare method to fit the line

 Multiple regression: allows a response variable Y to be

modeled as a linear function of multidimensional feature

 Loglinear model: approximates discrete

vector

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

multidimensional probability distributions

ế

ồ

Phân tích h i quy và mô hình logarit tuy n tính

 Linear regression: Y = (cid:0) + (cid:0) X

 Two parameters , (cid:0)

and (cid:0) specify the line and are to

 using the least squares criterion to the known values of

be estimated by using the data at hand.

 Multiple regression: Y = b0 + b1 X1 + b2 X2.

 Many nonlinear functions can be transformed into the

Y1, Y2, …, X1, X2, ….

 Loglinear models:

 The multiway table of joint probabilities is

above.

 Probability: p(a, b, c, d) = (cid:0) ab (cid:0) ac(cid:0) ad (cid:0) bcd

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

approximated by a product of lowerorder tables.

ượ

ồ

L

c đ (Histograms)

technique

20 40  A popular data reduction 35  Divide data into buckets 30 and store average (sum) 25 for each bucket  Can be constructed optimally in one 15 dimension using dynamic programming 10

 Related to quantization

5

problems.

0 10000

50000

70000

90000

ữ ệ

Kho d li u và khai phá d li u: Ch

30000 ươ ng 2

November 4, 2015

Phân c mụ

 Partition data set into clusters, and one can store

 Can be very effective if data is clustered but not if data

cluster representation only

 Can have hierarchical clustering and be stored in multi

is “smeared”

 There are many choices of clustering definitions and

dimensional index tree structures

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

clustering algorithms

ẫ

ọ

Rút g n m u (Sampling)

 Allow a mining algorithm to run in complexity that is

 Simple random sampling may have very poor

potentially sublinear to the size of the data  Choose a representative subset of the data

 Develop adaptive sampling methods

 Stratified sampling:

 Approximate the percentage of each class (or

performance in the presence of skew

 Used in conjunction with skewed data

 Sampling may not reduce database I/Os (page at a time).

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

subpopulation of interest) in the overall database

ọ

ẫ Rút g n m u (Sampling)

(

a n d o m t h o u t )

S R S W O R r i m p l e a m p l e w i e m e n t s c e p l a

SRSWR

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Raw Data

ẫ

ọ

Rút g n m u (Sampling)

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

Cluster/Stratified Sample Raw Data

ấ

ọ

Rút g n phân c p

 Use multiresolution structure with different degrees of

 Hierarchical clustering is often performed but tends to define partitions of data sets rather than “clusters”  Parametric methods are usually not amenable to

reduction

 Hierarchical aggregation

 An index tree hierarchically divides a data set into

hierarchical representation

ữ ệ

partitions by value range of some attributes  Each partition can be considered as a bucket  Thus an index tree with aggregates stored at each

ng 2

November 4, 2015

node is a hierarchical histogram ươ Kho d li u và khai phá d li u: Ch

ữ ệ

ử

ề Chapter 2: Ti n x lý d li u

 Hi u d li u và chu n b d li u

ị ữ ệ ữ ệ ể ẩ

ữ ệ ủ ử ề  Vai trò c a ti n x lý d li u

ữ ệ ạ  Làm s ch d li u

 Tích h p và chuy n d ng d li u

ữ ệ ể ạ ợ

ữ ệ ọ  Rút g n d li u

 R i r c và sinh ki n trúc khái ni m

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ ế ệ

ờ ạ

R i r c hóa

 Three types of attributes:

 Nominal — values from an unordered set  Ordinal — values from an ordered set  Continuous — real numbers

 Discretization:

 divide the range of a continuous attribute into

 Some classification algorithms only accept

intervals

 Reduce data size by discretization  Prepare for further analysis

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

categorical attributes.

ờ ạ

ệ

ế R i r c hóa và ki n trúc khái ni m

 Discretization

 reduce the number of values for a given continuous attribute by dividing the range of the attribute into intervals. Interval labels can then be used to replace actual data values

 Concept hierarchies

 reduce the data by collecting and replacing low level concepts (such as numeric values for the attribute age) by higher level concepts (such as young, middle aged, or senior)

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ệ

ế

ờ ạ ớ ữ R i r c hóa và ki n trúc khái ni m v i d ố li u sệ

 Binning (see sections before)

 Histogram analysis (see sections before)

 Clustering analysis (see sections before)

 Entropybased discretization

 Segmentation by natural partitioning

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ờ ạ

ự R i r c hóa d a trên Entropy

 Given a set of samples S, if S is partitioned into two

Ent

E S T ( ,

)

(

)

) 1

S | 1 S | |

S 2 S | |

 The boundary that minimizes the entropy function over all possible boundaries is selected as a binary discretization.

 The process is recursively applied to partitions obtained

(cid:0)

intervals S1 and S2 using boundary T, the entropy after partitioning is (cid:0) (cid:0)

E T S (

)

 Experiments show that it may reduce data size and

(cid:0) (cid:0) until some stopping criterion is met, e.g., Ent S ( )

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

improve classification accuracy

ạ

ằ

ự

Phân đo n b ng phân ho ch t

nhiên

ắ ả ượ ữ ệ ể ạ ơ  Quy t c đ n gi n 345 đ c dùng đ phân đo n d li u

ạ ươ ấ ố ự ố s thành các đo n t ố ng đ i th ng nh t, “t nhiên”.

ớ ố ọ ướ  H ng t ị i s giá tr khác bi ệ ở t ấ vùng quan tr ng nh t

ế ị ệ ề ặ  N u 3, 6, 7 ho c 9 giá tr khác bi t thì chia mi n thành

ạ ươ ươ 3 đo n t ng đ ng.

 N u ph 2, 4, ho c 8 giá tr phân bi

ủ ế ặ ị ệ t thì chia thành 4.

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ủ ế ị ệ ặ  N u ph 1, 5, ho c 10 giá tr phân bi t thì chia thành 5.

ụ ậ

Ví d lu t 345

count

$351

$159

profit

$1,838

$4,700

Step 1:

Min Low (i.e, 5%tile)

High(i.e, 95%0 tile) Max

Step 2:

msd=1,000

Low=$1,000

High=$2,000

($1,000 $2,000)

Step 3:

($1,000 0)

($1,000 $2,000)

(0 $ 1,000)

($4000 $5,000)

Step 4:

($2,000 $5, 000)

($1,000 $2, 000)

($400 0)

(0 $1,000)

(0 $200)

($1,000 $1,200)

($400 $300)

($2,000 $3,000)

($200 $400)

($1,200 $1,400)

($300 $200)

($3,000 $4,000)

($1,400 $1,600)

($400 $600)

($200 $100)

($4,000 $5,000)

($600 $800)

($1,600 $1,800)

ữ ệ

($1,800 $2,000) ươ

($800 $1,000) Kho d li u và khai phá d li u: Ch

ng 2

($100 0) November 4, 2015

ữ ẹ

ế

ệ

ạ Sinh ki n trúc khái ni m cho d li u phân lo i

ị ứ m t th t b ph n giá tr thu c tính theo m c

ậ ặ ộ ứ ự ộ i dùng ho c chuyên gias

 Đ c t

ờ ấ ữ ệ thành c u trúc phân c p nh nhóm d li u

ộ ộ ậ ắ ằ

ặ ả ộ  Đ c t ườ ơ ồ s đ do ng  street

 Đ c t

ậ b ph n

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

ỉ theo t p các thu c tính. ế ị  Nh ,ư street < city

ệ

ế

ự ộ

Sinh ki n trúc khái ni m t

đ ng

 Some concept hierarchies can be automatically

generated based on the analysis of the number of distinct values per attribute in the given data set  The attribute with the most distinct values is placed

 Note: Exception—weekday, month, quarter, year

at the lowest level of the hierarchy

15 distinct values country

province_or_ state

65 distinct values 3567 distinct values city

ữ ệ

ươ

Kho d li u và khai phá d li u: Ch

ng 2

November 4, 2015

674,339 distinct values street