Khai thác tập phổ biến và luật kết hợp: Ứng dụng Data Mining hiệu quả

KHAI THÁC

DỮ LIỆU &

ỨNG DỤNG

(DATA MINING)

GV : NGUYỄN HOÀNG TÚ ANH

BÀI 3- PHẦN 1

KHAI THÁC

TẬP PHỔBIẾN &

LUẬT KẾT HỢP

NỘI DUNG

1. Giới thiệu

2. Các khái niệm cơ bản

3. Bài toán khai thác tập phổ biến

GIỚI THIỆU

Mẫu phổ biến :là mẫu (tập các hạng mục, chuỗi con, cấu

trúc con, đồ thị con, …)xuất hiện thường xuyên trong tập

–Agrawal, Imielinski, Swami –1993 –trong ngữ cảnh bài toán tập phổ

biến và luật kết hợp

Mục đích : Tìm các hiện tượng thường xuyên xảy ra

trong DL

–Những sản phẩm nào thường được mua chung ? Bia và tã lót

–Người ta thường mua gi tiếp theo sau khi mua máy PC ?

–Dạng DNA nào có phản ứng với công thức thuốc mới ?

–Làm thế nào đề phân loại tự động văn bản Web ?

Ứng dụng :

–Áp dụng trong phân tích CSDL bán hàng

–Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến

dịch bán hàng, Web log, chuỗi DNA, …

GIỚI THIỆU

Bài toán khai thác tập phổ biến là bài toán

rất quan trọng lĩnh vực KTDL : vạch ra tính

chất ẩn, quan trọng của tập DL

Là nền tảng cho nhiều nhiệm vụ KTDL khác :

–Phân tích luật kết hợp, mối tương quan

– Mẫu tuần tự, cấu trúc ( Vd :đồ thị con)

–Phân tích DL không gian, đa phương tiện, phụ

thuộc thời gian

–Phân loại :phân loại dựa trên luật kết hợp

–Phân tích nhóm: gom nhóm dựa trên mẫu phổ biến

– ….

NỘI DUNG

1. Giới thiệu

2. Các khái niệm cơ bản

3. Bài toán khai thác tập phổ biến

KHÁI NIỆM CƠ BẢN

1. CSDL GIAO DỊCH

(Transaction DB)

VD giỏ mua hàng:

oGiỏ 1: {Bánh mì,

Trứng, Sữa}

oGiỏ 2: {Bánh mì,

Đường}

…

oGiỏ n: {Bánh qui, ngũ

cốc, sữa}

TID

Produces

MILK, BREAD, EGGS

BREAD, SUGAR

BREAD, CEREAL

MILK, BREAD, SUGAR

MILK, CEREAL

BREAD, CEREAL

MILK, CEREAL

MILK, BREAD, CEREAL,

EGGS

MILK, BREAD, CEREAL

KHÁI NIỆM CƠ BẢN

TID

Products

A, B, E

B, D

B, C

A, B, D

A, C

B, C

A, C

A, B, C, E

A, B, C

ITEMS:

A = milk

B= bread

C= cereal

D= sugar

E= eggs

Biến đổi CSDL về

dạng nhị phân

1. CSDL GIAO DỊCH (tt)

Định nghĩa :

oHạng mục (Item) : mặt hàng trong giỏ hay một thuộc tính

oTập các hạng mục (itemset) I= {i1,i2,…,im} :

VD : I = {sữa, bánh mì, ngũ cốc, sữa chua}

Tập k hạng mục (k-itemset)

oGiao dịch (Transation) : tập các hạng mục được mua trong

một giỏ ( có TID –mã giao dịch) : (Tid, tập hạng mục)

oGiao dịch t:tập các hạng mục sao cho t



oVD : t = { bánh mì, sữa chua, ngũ cốc}

oCSDL giao dịch :tập các giao dịch

oCSDL D={t1,t2,…, tn}, ti={ii1,ii2,…, iik}với iij I:CSDL

giao dịch

KHÁI NIỆM CƠ BẢN

2. ĐỘ PHỔ BIẾN VÀ TẬP PHỔ BIẾN

Giao dịch tchứa X nếu X là tập các hạng mục trong I

và X t

VD : X = { bánh mì, sữa chua}

Độ phổ biến (supp) của tập các hạng mục

Xtrong CSDL Dlà tỷ lệ giữa số các giao

dịch chứa X trên tổng số các giao dịch

trong D

Supp(X) = count(X) / | D |

Tập các hạng mục phổ biến Shay tập phổ biến

(frequent itemsets) là tập các hạng mục có độ phổ

biến thỏa mãn độ phổ biến tối thiểu minsupp (do

người dùng xác định)

Nếu supp(S) minsupp thì S -tập phổ biến .

KHÁI NIỆM CƠ BẢN

DATA MINING AND APPLICATION: KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP

Mẫu phổ biến : là mẫu (tập các hạng mục, chuỗi con, cấu trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập DL– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ biến và luật kết hợp

Tài liêu mới

Chính sách pháp luật thúc đẩy khoa học công nghệ và đổi mới sáng tạo gắn với phát triển kinh tế số hiện nay

Bài giảng Pháp luật đại cương: Chương 6 - Hoàng Đắc Qúy

Bài giảng Pháp luật đại cương: Chương 5 - Hoàng Đắc Qúy

Bài giảng Pháp luật đại cương: Chương 4 - Hoàng Đắc Qúy

Bài giảng Pháp luật đại cương: Chương 3 - Hoàng Đắc Qúy

Bài giảng Pháp luật đại cương: Chương 2 - Hoàng Đắc Qúy

Bài giảng Pháp luật đại cương: Chương 1 - Hoàng Đắc Qúy

Một số tình huống và gợi ý hướng giải quyết trong công tác hòa giải ở cơ sở

Câu hỏi ôn tập môn Quyền con người

Tài liệu ôn tập Pháp luật đại cương

Bài thuyết trình: Các mặt cấu thành của vi phạm pháp luật

Tài liệu hỏi - đáp Luật Trật tự, An toàn giao thông đường bộ

10 tiểu phẩm pháp luật

Tổng hợp hỏi đáp pháp luật mới

145 Câu hỏi - đáp, tình huống pháp luật phổ biến kiến thức pháp luật mới

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok

DATA MINING AND APPLICATION: KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP

Mẫu phổ biến : là mẫu (tập các hạng mục, chuỗi con, cấu trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập DL– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ biến và luật kết hợp

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi