Khai phá dữ liệu - Chương 5: Gom cụm dữ liệu
lượt xem 23
download
Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Khai phá dữ liệu - Chương 5: Gom cụm dữ liệu
- Chương 5 Gom cụm dữ liệu Data Clustering 1
- Giới thiệu • Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. • Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. • Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. • Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên clustering lại toàn bộ dữ liệu? 01/18/13 2 www.lhu.edu.vn
- Giới thiệu Gom cụm (clustering) là quá trình nhóm tập đối tượng thành các cụm (cluster) có các đối tượng giống nhau. Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom cụm là bài toán xác định ánh xạ f: Dg{1,…,k} sao cho mỗi ti được gán vào một cụm (lớp) Kj, 1
- Giới thiệu Dựa trên khoảng cách 4 4
- Giới thiệu Cách biểu diễn các cụm – Phân chia bằng các đường ranh giới – Các khối cầu 1 2 3 – Theo xác suất I1 0.5 0.2 0.3 I2 – Hình cây … – … In 5 5
- Mở đầu Gom cụm dữ liệu là hình thức học không giám sát, trong đó các mẫu học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoăc gom cụm tương tự nhau (theo một tiêu chuẩn nào đó) thành các cụm Định nghĩa: Gom cụm là quá trình xây dựng một tập hợp từ một tập dữ liệu mẫu, các phần tử trong tập đã gom cụm tương tự nhau về một vài thuộc tính chọn tr ước. 6
- What Is Clustering? Group data into clusters – Similar to one another within the same cluster – Dissimilar to the objects in other clusters – Unsupervised learning: no predefined classes Outliers Cluster 1 Cluster 2 7
- Application Examples A stand-alone tool: explore data distribution A preprocessing step for other algorithms Pattern recognition, spatial data analysis, image processing, market research, WWW, … – Cluster documents – Cluster web log data to discover groups of similar access patterns 8
- Thế nào là PP gom cụm tốt? • Có độ tương tự cao trong cùng cụm (intra-class) • Có độ tương tự thấp giữa các cụm (inter-class) • Khả năng phát hiện mẫu ẩn (hidden patterns) • Có khả năng làm việc hiệu quả với mẫu lớn (scalability) • Khả năng làm việc với nhiều loại dữ liệu khác nhau • …. 9
- Ma trận dữ liệu (Data Matrix) • Dùng để mô hình hóa bài toán gom cụm • Ma trận biểu diễn không gian dữ liệu gồm n đối tượng theo p thuộc tính • Ma trận biểu diễn mối quan hệ đối tượng theo thuộc tính: x 11 x 1f x 1p x x x i1 if ip xn1 xnf x np 10
- Ma trận phân biệt (Dissimilarity Matrix) Biểu diễn khoảng cách giữa 2 điểm (đối tượng) trong không gian dữ liệu gồm n đối tượng theo p thuộc tính 0 d (2,1) 0 d (3,1) d (3,2) 0 d (n,1) d (n,2) 0 11
- 3. Độ đo khoảng cách Distances are normally used measures Minkowski distance: a generalization d (i, j) = q | x − x |q +| x − x |q +...+| x − x |q (q >0) i1 j1 i2 j2 ip jp If q = 2, d is Euclidean distance If q = 1, d is Manhattan distance Weighed distance d (i, j) = q w | x − x |q +w | x − x |q +...+ w p | x − x |q ) (q > 0) 1 i1 j1 2 i2 j 2 ip jp 12
- Properties of Minkowski Distance Nonnegative: d(i,j) ≥ 0 The distance of an object to itself is 0 – d(i,i) = 0 Symmetric: d(i,j) = d(j,i) Triangular inequality – d(i,j) ≤ d(i,k) + d(k,j) 13
- Các phương pháp phân cụm (Categories of Clustering Approaches ) Thuật toán phân hoạch (Partitioning algorithms) Phân hoạch cơ sở dữ liệu D có n đối tượng thành k c ụm: – Mỗi cụm có ít nhất 1 đối tượng – Mỗi đối tượng thuộc về 1 cụm duy nhất – K là sô 1cụm cho trước Thuật toán phân cấp (Hierarchy algorithms) – Gộp: • Xuất phát mỗi đối tượng và tạo một cụm chứa nó. • Nếu 2 cum gần nhau thì gộp thành 1 cụm • Lặp lại bước 2 cho đến khi còn 1 cụm duy nhất là toàn bộ không gian – Tách: • Xuất phát từ 1 cụm duy nhất là toàn bộ không gian • Chọn cụm có độ phân biệt cao nhất (ma trận phân bi ệt có ph ần t ử lớn nhất hoặc giá trị trung bình lớn nhất) để tách đôi • Lặp lại bước 2 cho đến khi mỗi đối tượng thuộc 1 cụm hoặc đạt điều kiện dừng (đủ số cụm hoặc khoảng cách giữa các cụm đủ nhỏ) 14
- Các phương pháp phân cụm (tiếp) • Phương pháp dựa trên mật độ (Density- based methods) • Phương pháp dựa trên lưới (Grid-based methods) • Phương pháp dựa trên mô hình (Model- based) 15
- 4 Thuật toán K-means • Phân hoạch n đối tượng thành k cụm • Thuật toán K-means gồm 4 bước: – Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu – Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm gần điểm đang xét. – Nếu không có phép gán nào thì dừng (các cụm đã ổn định và thuật toán không cải thiện thêm được nữa) – Tính trọng tâm cho từng cụm – Quay lại bước 2. 16
- K-Means: Example 10 10 10 9 9 9 8 8 8 7 7 7 6 6 6 5 5 5 Update 4 4 Assign 4 3 3 the 3 each 2 2 2 1 objects 1 cluster 1 means 0 0 to most 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 similar center reassign reassign 10 10 K=2 9 9 8 8 Arbitrarily choose K 7 7 object as initial 6 6 5 5 cluster center 4 Update 4 3 the 3 cluster 2 2 1 1 0 0 1 2 3 4 5 6 7 8 9 10 means 0 0 1 2 3 4 5 6 7 8 9 10 17
- Example Cho tập điểm: X1={1,3} = {x11,, x12} X2={1.5,3.2} = {x21,, x22} X3={1.3,2.8} = {x31,, x32} X4={3,1} = {x41,, x42} Dùng K-mean phân cụm với k=2 Bước 1: Khởi tạo ma trận phân hoạch U (2 rows and 4 columns) Bước 2: U=(mij) 1
- Cho n=0 (số lần lặp) tạo U0 x1 x2 x3 x4 Every column has 1 bit number 1 U0= C1 1 0 0 0 C2 0 1 1 1 Bước 3: Tính các vector trọng tâm Do có 2 cụm C1, C2 do đó có 2 vector trọng tậm 19
- Vector v1 for cluster C1: m11* x11 + m12 * x 21 + m13 * x31 + m14 * x 41 v11 = m11 + m12 + m13 + m14 1*1 + 0 * 0.5 + 0 *1.3 + 0 * 3 = =1 1+ 0 + 0 + 0 m11* x12 + m12 * x 22 + m13 * x32 + m14 * x 42 v12 = m11 + m12 + m13 + m14 1* 3 + 0 * 3.2 + 0 * 2.8 + 0 *1 = =3 1+ 0 + 0 + 0 v1 = (1,3) 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Khai Phá Dữ Liệu-Giới thiệu về công cụ WEKA
18 p | 1617 | 200
-
Lịch sử khai phá dữ liệu
14 p | 295 | 125
-
Bài giảng môn học Khai phá dữ liệu: Bài mở đầu - ThS. Nguyễn Vương Thịnh
36 p | 196 | 44
-
Khai phá dữ liệu Web
54 p | 135 | 33
-
Bài giảng Nhập môn Khai phá dữ liệu - PGS.TS. Hà Quang Thụy
195 p | 336 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 498 | 22
-
Bài giảng Nhập môn khai phá dữ liệu: Giới thiệu môn học – K55
12 p | 202 | 18
-
Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại - Nguyễn Tuấn Minh
6 p | 101 | 11
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 112 | 9
-
Bài giảng Chủ đề hiện đại về khai phá dữ liệu “khai phá quá trình” dành cho nghiên cứu sinh Tiến sỹ: Giới thiệu môn học - PGS.TS. Hà Quang Thụy
8 p | 92 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 90 | 5
-
Bài giảng Khai phá dữ liệu: Nội dung bổ sung về Khai phá dữ liệu - PGS. TS. Hà Quang Thụy
102 p | 34 | 5
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 55 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 69 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 64 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - Văn Thế Thành
13 p | 69 | 4
-
Bài giảng Khai phá dữ liệu: Bài 4 - TS. Trần Mạnh Tuấn
62 p | 27 | 3
-
Bài giảng Khai phá dữ liệu: Bài 5 - TS. Trần Mạnh Tuấn
49 p | 30 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn