intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu (Data mining) - Chương 3: Khai phá luật kết hợp

Chia sẻ: Kiếp Này Bình Yên | Ngày: | Loại File: PDF | Số trang:81

109
lượt xem
15
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Khai phá luật kết hợp được xem như là một trong những đóng góp quan trọng nhất từ cộng đồng cơ sở dữ liệu trong việc khám phá tri thức. Trong chương 3 chúng ta sẽ tìm hiểu một số nội dung chính liên quan đến quá trình khai phá luật kết hợp. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining) - Chương 3: Khai phá luật kết hợp

  1. Chương 3: Khai phá luật kết hợp 1
  2. Nội dung  Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Bài toán khai phá luật kết hợp  Phân tích tương quan  Tóm tắt 2
  3. Nội dung  Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Bài toán khai phá luật kết hợp  Phân tích tương quan  Tóm tắt 3
  4. Tình huống 1 – Market basket analysis 4
  5. Tình huống 2 - Tiếp thị chéo 5
  6. Tình huống 2 - Tiếp thị chéo 6
  7. Tình huống …  Phân tích dữ liệu giỏ hàng (basket data analysis)  Tiếp thị chéo (cross-marketing)  Thiết kế catalog (catalog design)  Phân loại dữ liệu (classification) và gom cụm dữ liệu (clustering) với các mẫu phổ biến  … 7
  8. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp Pre- Relationship Post- processing Mining processing s among Raw Data Items of Interest Items User (Rules) 8
  9. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp Pre- Relationship Post- processing Mining s among processing Raw Data Items of Interest Items User (Rules) Transactional/ Association Items Relational Data Rules Transaction Items_bought A, B, C, D, F, A  C (50%, 66.6%) … --------------------------------- … 2000 A, B, C 1000 A, C Khai phá tập phổ biến(FIs Sinh luật từ các tập phổ 4000 A, D – Frequent Itemsets). biến(ARs – Association 5000 B, E, F Rules). … Bài toán phân tích giỏ thị trường 9
  10. Nội dung  Tổng quan về khai phá luật kết hợp  Các khái niệm cơ bản  Bài toán khai phá luật kết hợp  Phân tích tương quan  Tóm tắt 10
  11. Các khái niệm cơ bản  Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) 11
  12. Các khái niệm cơ bản  Các khái niệm cơ bản - Item (phần tử) - Itemset (tập phần tử) - Transaction (giao dịch) - Association (sự kết hợp) và association rule (luật kết hợp) - Support (độ hỗ trợ) - Confidence (độ tin cậy) - Frequent itemset (tập phần tử phổ biến/thường xuyên) - Strong association rule (luật kết hợp mạnh) 12
  13. Các khái niệm cơ bản  Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) Itemsets: Item: I4 {I1, I2, I5}, {I2}, … Transaction: T800 13
  14. Các khái niệm cơ bản  Các khái niệm cơ bản - Item (phần tử)  Các phần tử, mẫu, đối tượng đang được quan tâm.  J = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ liệu - Itemset (tập phần tử)  Tập hợp các items  Một itemset có k items gọi là k-itemset. - Transaction (giao dịch)  Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách hàng mua hàng”)  Liên hệ với một tập T gồm các phần tử được giao dịch 14
  15. Các khái niệm cơ bản  Các khái niệm cơ bản - Association (sự kết hợp) và association rule (luật kết hợp)  Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch.  Thể hiện mối liên hệ giữa các phần tử/các tập phần tử  Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần tử.  Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử  Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A  B.  B xuất hiện trong điều kiện A xuất hiện. 15
  16. Các khái niệm cơ bản  Các khái niệm cơ bản - Support (độ hỗ trợ)  Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.  Minimum support threshold (ngưỡng hỗ trợ tối thiểu)  Giá trị support nhỏ nhất được chỉ định bởi người dùng. - Confidence (độ tin cậy)  Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác.  Minimum confidence threshold (ngưỡng tin cậy tối thiểu)  Giá trị confidence nhỏ nhất được chỉ định bởi người dùng. 16
  17. Các khái niệm cơ bản Tính độ hộ trợ và độ tin cậy của luật sau? Tid Items bought Beer  Diaper 10 Beer, Nuts, Diaper 20 Beer, Coffee, Diaper Giải: 30 Beer, Diaper, Eggs Freq. Pat.: Beer:3, Nuts:3, Diaper:4, 40 Nuts, Eggs, Milk Eggs:3, {Beer, Diaper}:3 50 Nuts, Coffee, Diaper, Eggs, Milk Customer Beer  Diaper Customer buys both support = buys support({Beer}{Diaper}) = diaper 3/5=60% confidence = Customer support({Beer}{Diaper})/support buys beer ({Beer}) = (3/5) / (3/5) = 100% Tính độ hộ trợ và độ tin cậy của luật sau? Diaper Beer
  18. Các khái niệm cơ bản Tìm luật kết hợp Transaction-id Items bought Min. support 50% 10 A, B, C Min. confidence 50% 20 A, C Frequent pattern Support 30 A, D {A} 75% 40 B, E, F {B} 50% {C} 50% For rule A  C: {A, C} 50% support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6%
  19. Các khái niệm cơ bản  Các khái niệm cơ bản - Frequent itemset (tập phần tử phổ biến)  Tập phần tử có support thỏa minimum support threshold.  Cho A là một itemset  A là frequent itemset iff support(A) >= minimum support threshold. - Strong association rule (luật kết hợp mạnh)  Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold.  Cho luật kết hợp AB giữa A và B, A và B là itemsets  AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold. 19
  20. Phân loại luật kết hợp  Phân loại luật kết hợp - Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số) - Single-dimensional association rule (luật kết hợp đơn chiều)/multidimensional association rule (luật kết hợp đa chiều) - Single-level association rule (luật kết hợp đơn mức)/multilevel association rule (luật kết hợp đa mức) - Association rule (luật kết hợp)/correlation rule (luật tương quan thống kê) 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2