intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu (Data mining): Chương 3 - Lê Tiến

Chia sẻ: You Can | Ngày: | Loại File: PPT | Số trang:66

77
lượt xem
11
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chương 3 cung cấp cho người học những kiến thức về khai phá luật kết hợp. Nội dung chi tiết của chương này gồm có: Tổng quan về khai phá luật kết hợp, biểu diễn luật kết hợp, khám phá các mẫu thường xuyên, khám phá các luật kết hợp từ các mẫu thường xuyên, khám phá các luật kết hợp dựa trên ràng buộc, phân tích tương quan. Mời các bạn tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Chương 3 - Lê Tiến

  1. Chương 3: Khai phá luật kết hợp Khai phá dữ liệu (Data mining) 1
  2. Nội dung  3.1. Tổng quan về khai phá luật kết hợp  3.2. Biểu diễn luật kết hợp  3.3. Khám phá các mẫu thường xuyên  3.4. Khám phá các luật kết hợp từ các mẫu thường  xuyên  3.5. Khám phá các luật kết hợp dựa trên ràng buộc  3.6. Phân tích tương quan  3.7. Tóm tắt 2
  3. 3.0. Tình huống 1 – Market basket analysis 3
  4. 3.0. Tình huống 2 ­ Tiếp thị chéo 4
  5. 3.0. Tình huống 2 ­ Tiếp thị chéo 5
  6. 3.0. Tình huống …  Phân tích dữ liệu giỏ hàng (basket data analysis)  Tiếp thị chéo (cross­marketing)  Thiết kế catalog (catalog design)  Phân loại dữ liệu (classification) và gom cụm dữ  liệu (clustering) với các mẫu phổ biến  … 6
  7. 3.1. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp  Các khái niệm cơ bản  Phân loại luật kết hợp 7
  8. 3.1. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp Pre­ Post­ processing Mining Relationships  processing Raw Data Items of Interest among Items User (Rules) 8
  9. 3.1. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp Pre­ Post­ processing Mining Relationships  processing Raw Data Items of Interest among Items User (Rules) Transactional/ Association Items Relational Data Rules Transaction      Items_bought A, B, C, D, F,  A    C  (50%, 66.6%) ­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­ … … 2000      A, B, C 1000      A, C 4000      A, D 5000      B, E, F … Bài toán phân tích giỏ thị trường 9
  10. 3.1. Tổng quan về khai phá luật kết hợp  Dữ liệu mẫu của AllElectronics (sau quá trình  tiền xử lý) 10
  11. 3.1. Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Item (phần tử)  Itemset (tập phần tử)  Transaction (giao dịch)  Association (sự kết hợp) và association rule (luật kết  hợp)  Support (độ hỗ trợ)  Confidence (độ tin cậy)  Frequent itemset (tập phần tử phổ biến/thường xuyên)  Strong association rule (luật kết hợp mạnh) 11
  12. 3.1. Tổng quan về khai phá luật kết hợp  Dữ liệu mẫu của AllElectronics (sau quá trình  tiền xử lý) Itemsets: Item: I4 {I1, I2, I5},  {I2}, … Transaction: T800 12
  13. 3.1. Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Item (phần tử)  Các phần tử, mẫu, đối tượng đang được quan tâm.  J = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ  liệu  Itemset (tập phần tử)  Tập hợp các items  Một itemset có k items gọi là k­itemset.  Transaction (giao dịch)  Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách  hàng mua hàng”)  Liên hệ với một tập T gồm các phần tử được giao dịch 13
  14. 3.1. Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Association (sự kết hợp) và association rule (luật kết  hợp)  Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một  hay nhiều giao dịch.  Thể hiện mối liên hệ giữa các phần tử/các tập phần tử  Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần  tử.  Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử  Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A   B.  B xuất hiện trong điều kiện A xuất hiện. 14
  15. 3.1. Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Support (độ hỗ trợ)  Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.  Minimum support threshold (ngưỡng hỗ trợ tối thiểu)  Giá trị support nhỏ nhất được chỉ định bởi người dùng.  Confidence (độ tin cậy)  Độ đo đo tần số xuất hiện của một tập phần tử trong điều  kiện xuất hiện của một tập phần tử khác.  Minimum confidence threshold (ngưỡng tin cậy tối thiểu)  Giá trị confidence nhỏ nhất được chỉ định bởi người dùng. 15
  16. 3.1. Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Frequent itemset (tập phần tử phổ biến)  Tập phần tử có support thỏa minimum support threshold.  Cho A là một itemset  A là frequent itemset iff support(A) >= minimum support threshold.  Strong association rule (luật kết hợp mạnh)  Luật kết hợp có support và confidence thỏa minimum support  threshold và minimum confidence threshold.  Cho luật kết hợp AB giữa A và B, A và B là itemsets  AB là strong association rule iff support(AB) >= minimum  support threshold và confidence(AB) >= minimum confidence  threshold. 16
  17. 3.1. Tổng quan về khai phá luật kết hợp  Phân loại luật kết hợp  Boolean association rule (luật kết hợp luận lý)/quantitative  association rule (luật kết hợp lượng số)  Single­dimensional association rule (luật kết hợp đơn  chiều)/multidimensional association rule (luật kết hợp đa  chiều)  Single­level association rule (luật kết hợp đơn  mức)/multilevel association rule (luật kết hợp đa mức)  Association rule (luật kết hợp)/correlation rule (luật tương  quan thống kê) 17
  18. 3.1. Tổng quan về khai phá luật kết hợp  Phân loại luật kết hợp  Boolean association rule (luật kết hợp luận  lý)/quantitative association rule (luật kết hợp lượng số)  Boolean association rule: luật mô tả sự kết hợp giữa sự hiện  diện/vắng mặt của các phần tử.  Computer  Financial_management_software [support=2%,  confidence=60%]  Quantitative association rule: luật mô tả sự kết hợp giữa các  phần tử/thuộc tính định lượng.  Age(X, “30..39”)   Income(X, “42K..48K”)  buys(X, high  resolution TV) 18
  19. 3.1. Tổng quan về khai phá luật kết hợp  Phân loại luật kết hợp  Single­dimensional association rule (luật kết hợp đơn  chiều)/multidimensional association rule (luật kết hợp đa  chiều)  Single­dimensional association rule: luật chỉ liên quan đến các  phần tử/thuộc tính của một chiều dữ liệu.  Buys(X, “computer”)  Buys(X, “financial_management_software”)  Multidimensional association rule: luật liên quan đến các phần  tử/thuộc tính của nhiều hơn một chiều.  Age(X, “30..39”)  Buys(X, “computer”) 19
  20. 3.1. Tổng quan về khai phá luật kết hợp  Phân loại luật kết hợp  Single­level association rule (luật kết hợp đơn mức)  /multilevel association rule (luật kết hợp đa mức)  Single­level association rule: luật chỉ liên quan đến các phần  tử/thuộc tính ở một mức trừu tượng.  Age(X, “30..39”)  Buys(X, “computer”)  Age(X, “18..29”)  Buys(X, “camera”)  Multilevel association rule: luật liên quan đến các phần tử/thuộc  tính ở các mức trừu tượng khác nhau.  Age(X, “30..39”)  Buys(X, “laptop computer”)  Age(X, “30..39”)  Buys(X, “computer”) 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2