intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê Tiến

Chia sẻ: You Can | Ngày: | Loại File: PPT | Số trang:84

67
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chương 5 giúp người học hiểu được phương pháp gom cụm dữ liệu trong khai phá dữ liệu. Trong chương này sẽ trình bày các nội dung chính như: Tổng quan về gom cụm dữ liệu, gom cụm dữ liệu bằng phân hoạch, gom cụm dữ liệu bằng phân cấp, gom cụm dữ liệu dựa trên mật độ, gom cụm dữ liệu dựa trên mô hình, các phương pháp gom cụm dữ liệu khác. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê Tiến

  1. Chương 5: Gom cụm dữ liệu Khai phá dữ liệu (Data mining) 1
  2. Nội dung  5.1. Tổng quan về gom cụm dữ liệu  5.2. Gom cụm dữ liệu bằng phân hoạch  5.3. Gom cụm dữ liệu bằng phân cấp  5.4. Gom cụm dữ liệu dựa trên mật độ  5.5. Gom cụm dữ liệu dựa trên mô hình  5.6. Các phương pháp gom cụm dữ liệu khác  5.7. Tóm tắt  2
  3. 5.0. Tình huống 1 – Outlier detection Người đang sử dụng  thẻ ID = 1234 thật sự  là chủ nhân của thẻ  hay là một tên trộm? 3
  4. 5.0. Tình huống 2 ­ Làm sạch dữ liệu  Nhận diện phần tử biên (outliers) và giảm thiểu  nhiễu (noisy data)  Giải pháp giảm thiểu nhiễu  Phân tích cụm (cluster analysis) 4
  5. 5.0. Tình huống 3 5
  6. 5.0. Tình huống 3 6
  7. 5.0. Tình huống 3 7
  8. 5.0. Tình huống 3 8
  9. 5.0. Tình huống 3 9
  10. 5.0. Tình huống 3 10
  11. 5.0. Tình huống 3 11
  12. 5.0. Tình huống 4 http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html Gom cụm ảnh 12
  13. 5.0. Tình huống … Gom cụm 13
  14. 5.0. Tình huống …  Hỗ trợ giai đoạn tiền xử lý dữ liệu (data preprocessing)  Mô tả sự phân bố dữ liệu/đối tượng (data distribution)  Nhận dạng mẫu (pattern recognition)  Phân tích dữ liệu không gian (spatial data analysis)  Xử lý ảnh (image processing)  Phân mảnh thị trường (market segmentation)  Gom cụm tài liệu ((WWW) document clustering)  … 14
  15. 5.1. Tổng quan về gom cụm dữ liệu  Gom cụm  Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm  Các đối tượng trong cùng một cụm tương tự với nhau hơn so với  đối tượng ở các cụm khác.  Obj1, Obj2 ở cụm C1; Obj3 ở cụm C2  Obj1 tương tự Obj2 hơn so  với tương tự Obj3. Gom cụm 15
  16. 5.1. Tổng quan về gom cụm dữ liệu  Gom cụm  Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm  Các đối tượng trong cùng một cụm tương tự với nhau hơn so với  đối tượng ở các cụm khác.  Obj1, Obj2 ở cụm C1; Obj3 ở cụm C2  Obj1 tương tự Obj2 hơn so  với tương tự Obj3. Intra­cluster  distances are  minimized. Inter­cluster  distances are  maximized. 16
  17. 5.1. Tổng quan về gom cụm dữ liệu  Gom cụm  Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm  Các đối tượng trong cùng một cụm tương tự với nhau hơn so với  đối tượng ở các cụm khác.  Obj1, Obj2 ở cụm C1; Obj3 ở cụm C2  Obj1 tương tự Obj2 hơn so  với tương tự Obj3. Low inter­ Intra­cluster  cluster/class  distances are  similarity minimized. Inter­cluster  High intra­ distances are  cluster/class  maximized. similarity 17
  18. 5.1. Tổng quan về gom cụm dữ liệu  Vấn đề kiểu dữ liệu/đối tượng được gom cụm  Ma trận dữ liệu (data matrix) x11 ... x1f ... x1p ... ... ... ... ... xi1 ... xif ... xip ... ... ... ... ... xn1 ... xnf ... xnp ­n đối tượng (objects) ­p biến/thuộc tính (variables/attributes) 18
  19. 5.1. Tổng quan về gom cụm dữ liệu  Vấn đề kiểu dữ liệu/đối tượng được gom cụm  Ma trận sai biệt (dissimilarity matrix) 0 d(2,1) 0 d(3,1) d ( 3,2) 0 : : : d ( n,1) d ( n,2) ... ... 0 d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i  và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính. 19
  20. 5.1. Tổng quan về gom cụm dữ liệu  Vấn đề kiểu dữ liệu/đối tượng được gom cụm d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i  và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính. d(i,j)   0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)   d(i,k) + d(k,j) 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2