Bài giảng Khai phá dữ liệu (Data mining) - Chương 3: Khai phá luật kết hợp
lượt xem 15
download
Khai phá luật kết hợp được xem như là một trong những đóng góp quan trọng nhất từ cộng đồng cơ sở dữ liệu trong việc khám phá tri thức. Trong chương 3 chúng ta sẽ tìm hiểu một số nội dung chính liên quan đến quá trình khai phá luật kết hợp. Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining) - Chương 3: Khai phá luật kết hợp
- Chương 3: Khai phá luật kết hợp 1
- Nội dung Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Bài toán khai phá luật kết hợp Phân tích tương quan Tóm tắt 2
- Nội dung Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Bài toán khai phá luật kết hợp Phân tích tương quan Tóm tắt 3
- Tình huống 1 – Market basket analysis 4
- Tình huống 2 - Tiếp thị chéo 5
- Tình huống 2 - Tiếp thị chéo 6
- Tình huống … Phân tích dữ liệu giỏ hàng (basket data analysis) Tiếp thị chéo (cross-marketing) Thiết kế catalog (catalog design) Phân loại dữ liệu (classification) và gom cụm dữ liệu (clustering) với các mẫu phổ biến … 7
- Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Pre- Relationship Post- processing Mining processing s among Raw Data Items of Interest Items User (Rules) 8
- Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Pre- Relationship Post- processing Mining s among processing Raw Data Items of Interest Items User (Rules) Transactional/ Association Items Relational Data Rules Transaction Items_bought A, B, C, D, F, A C (50%, 66.6%) … --------------------------------- … 2000 A, B, C 1000 A, C Khai phá tập phổ biến(FIs Sinh luật từ các tập phổ 4000 A, D – Frequent Itemsets). biến(ARs – Association 5000 B, E, F Rules). … Bài toán phân tích giỏ thị trường 9
- Nội dung Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Bài toán khai phá luật kết hợp Phân tích tương quan Tóm tắt 10
- Các khái niệm cơ bản Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) 11
- Các khái niệm cơ bản Các khái niệm cơ bản - Item (phần tử) - Itemset (tập phần tử) - Transaction (giao dịch) - Association (sự kết hợp) và association rule (luật kết hợp) - Support (độ hỗ trợ) - Confidence (độ tin cậy) - Frequent itemset (tập phần tử phổ biến/thường xuyên) - Strong association rule (luật kết hợp mạnh) 12
- Các khái niệm cơ bản Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) Itemsets: Item: I4 {I1, I2, I5}, {I2}, … Transaction: T800 13
- Các khái niệm cơ bản Các khái niệm cơ bản - Item (phần tử) Các phần tử, mẫu, đối tượng đang được quan tâm. J = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ liệu - Itemset (tập phần tử) Tập hợp các items Một itemset có k items gọi là k-itemset. - Transaction (giao dịch) Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách hàng mua hàng”) Liên hệ với một tập T gồm các phần tử được giao dịch 14
- Các khái niệm cơ bản Các khái niệm cơ bản - Association (sự kết hợp) và association rule (luật kết hợp) Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch. Thể hiện mối liên hệ giữa các phần tử/các tập phần tử Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần tử. Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A B. B xuất hiện trong điều kiện A xuất hiện. 15
- Các khái niệm cơ bản Các khái niệm cơ bản - Support (độ hỗ trợ) Độ đo đo tần số xuất hiện của các phần tử/tập phần tử. Minimum support threshold (ngưỡng hỗ trợ tối thiểu) Giá trị support nhỏ nhất được chỉ định bởi người dùng. - Confidence (độ tin cậy) Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác. Minimum confidence threshold (ngưỡng tin cậy tối thiểu) Giá trị confidence nhỏ nhất được chỉ định bởi người dùng. 16
- Các khái niệm cơ bản Tính độ hộ trợ và độ tin cậy của luật sau? Tid Items bought Beer Diaper 10 Beer, Nuts, Diaper 20 Beer, Coffee, Diaper Giải: 30 Beer, Diaper, Eggs Freq. Pat.: Beer:3, Nuts:3, Diaper:4, 40 Nuts, Eggs, Milk Eggs:3, {Beer, Diaper}:3 50 Nuts, Coffee, Diaper, Eggs, Milk Customer Beer Diaper Customer buys both support = buys support({Beer}{Diaper}) = diaper 3/5=60% confidence = Customer support({Beer}{Diaper})/support buys beer ({Beer}) = (3/5) / (3/5) = 100% Tính độ hộ trợ và độ tin cậy của luật sau? Diaper Beer
- Các khái niệm cơ bản Tìm luật kết hợp Transaction-id Items bought Min. support 50% 10 A, B, C Min. confidence 50% 20 A, C Frequent pattern Support 30 A, D {A} 75% 40 B, E, F {B} 50% {C} 50% For rule A C: {A, C} 50% support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6%
- Các khái niệm cơ bản Các khái niệm cơ bản - Frequent itemset (tập phần tử phổ biến) Tập phần tử có support thỏa minimum support threshold. Cho A là một itemset A là frequent itemset iff support(A) >= minimum support threshold. - Strong association rule (luật kết hợp mạnh) Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold. Cho luật kết hợp AB giữa A và B, A và B là itemsets AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold. 19
- Phân loại luật kết hợp Phân loại luật kết hợp - Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số) - Single-dimensional association rule (luật kết hợp đơn chiều)/multidimensional association rule (luật kết hợp đa chiều) - Single-level association rule (luật kết hợp đơn mức)/multilevel association rule (luật kết hợp đa mức) - Association rule (luật kết hợp)/correlation rule (luật tương quan thống kê) 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 215 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 498 | 22
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 6 - ĐH Bách khoa TP.HCM
67 p | 268 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 158 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 119 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 93 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 110 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 112 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 108 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 90 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 150 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 64 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 69 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 55 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn