
Bài giảng Khai thác dữ liệu: Chương 4 - ThS. Dương Phi Long
lượt xem 0
download

Bài giảng "Khai thác dữ liệu: Chương 4 - Dãy phổ biến" bao gồm các nội dung chính sau: Các khái niệm cơ bản về dãy phổ biến và ứng dụng trong khai thác dữ liệu; phương pháp khai thác dãy phổ biến, bao gồm thuật toán Apriori cho chuỗi, thuật toán PrefixSpan; các ứng dụng thực tiễn của khai thác dãy phổ biến trong các lĩnh vực như phân tích giao dịch, dự báo, và phân tích hành vi người dùng. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 4 - ThS. Dương Phi Long
- TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 4: Dãy phổ biến (Episode) ThS. Dương Phi Long – Email: longdp@uit.edu.vn
- NỘI DUNG BÀI HỌC 01 Các khái niệm 02 Phương pháp WINEPI 2
- 1. Luật Episode Các khái niệm 2. Dữ liệu cho bài toán 3. Dãy phổ biến (Episode) 3
- 1. Luật Episode - Luật kết hợp trong bài toán dùng Episode mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu. - Các luật Episode mô tả quan hệ thời gian giữa các sự vật, hiện tượng. - VD: sẽ có một tổ hợp các một tổ hợp các IF THEN tín hiệu báo nguy khác tín hiệu báo nguy xảy ra sẽ xảy ra trong một khoảng trong một khoảng thời gian thời gian xác định khác “Thâm đông, hồng tây, dựng may, Ai ơi đợi đến ba ngày hãy đi” 4
- 2. Dữ liệu bài toán - Tập R các loại sự kiện, loại biến cố. VD: R={A,B,C,D} - Mỗi sự kiện là một cặp (A, t) với • A: loại sự kiện, A Î R • t: thời điểm xuất hiện của loại sự kiện, số nguyên - Chuỗi sự kiện S trên R là bộ ba (s, Ts, Te) • Ts : thời điểm bắt đầu chuỗi sự kiện, số nguyên • Te: thời điểm kết thúc chuỗi sự kiện, số nguyên • Ts < Te • s = á (A1, t1), (A2, t2), …, (An, tn) ñ • Ai Î R và Ts £ ti < Te với i = 1, … , n 5
- 2. Dữ liệu bài toán VD1: Cho 1 chuỗi tín hiệu báo động D C A B D A B C A D C A B D A 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 - A, B, C, D: các loại sự kiện báo động - 10, 20, …, 150: các thời điểm xảy ra - s = á (D, 10), (C, 20), …, (A, 150) ñ - Thời điểm bắt đầu: Ts = 10 - Thời điểm kết thúc: Te = 150 6
- 3. Dãy phổ biển (Episode) - Episode: cặp (V, £) • V: tập hợp các loại sự kiện. VD: loại tín hiệu báo động • £: thứ tự riêng phần trên V - Episodes: Chứa các tín hiệu báo động có các tính chất nào đó và xảy ra theo một thứ tự riêng phần nào đó. 7
- 3. Dãy phổ biển (Episode) - Phân loại: • Episode tuần tự (có thứ tự) A B A • Episode song song B A • Episode vừa song song vừa tuần tự C B 8
- 1. Cách tiếp cận & nguyên tắc Phương pháp 2. Tìm Episode phổ biến WINEPI 3. Luật Episode và độ tin cậy 9
- 1. WINEPI: Cách tiếp cận & nguyên tắc - Cách tiếp cận: Kỹ thuật sử dụng cửa sổ trượt • Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện • Mỗi cửa sổ là một “khung ảnh" giống như một dòng của CSDL • Tập các “khung ảnh" tạo thành các dòng của CSDL 10
- 1. WINEPI: Cách tiếp cận & nguyên tắc - Nguyên tắc: • Cửa sổ có độ rộng cố định • Cửa sổ đầu tiên (W1) chỉ chứa 1 sự kiện đầu tiên • Cửa sổ trượt sang phải lần lượt từng sự kiện • Cửa sổ cuối (Wcuối) chỉ chứa 1 sự kiện cuối cùng 11
- 1. WINEPI: Cách tiếp cận & nguyên tắc VD2: Chuỗi tín hiệu báo động Độ rộng cửa sổ: 40 giây Số lượng cửa sổ: 11 U1, U2,…, U11 … U2 U1, U11 chỉ có 1 sự kiện U1 U11 D C A B D A B C -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 12
- 1. WINEPI: Cách tiếp cận & nguyên tắc VD2: Chuỗi tín hiệu báo động Cửa số Ui Nội dung cửa sổ U1[-20,20) _,_,_,D U2[-10,30) _,_,D,C U3[0,40) _,D,C,A … U2 U4[10,50) D,C,A,B U11 U1 U5[20,60) C,A,B,D D C A B D A B C U6[30,70) A,B,D,A -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 U7[40,80) B,D,A,B U8[50,90) D,A,B,C U9[60,100) A,B,C,_ U10[70,110) B,C_,_ U11[80,120) C,_,_,_ 13
- 2. WINEPI: Tìm Episode phổ biến - Tìm Episode phổ biến: • Tìm các Episode theo độ rộng của cửa sổ trượt • Tính độ phổ biến của từng Episode • Episode phổ biến là Episode thỏa ngưỡng min_fr cho trước 14
- 2. WINEPI: Tìm Episode phổ biến - Độ phổ biến (tần suất) của Episode 𝜶 : 𝑆! ∈ 𝑊 𝑆, 𝑊 : 𝛼 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑆! 𝑓𝑟 𝛼, 𝑆, 𝑊 = 𝑊 𝑆, 𝑊 (1) 𝑆ố 𝑐ửa 𝑠ổ 𝑐ℎứa 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝛼 = 𝛼: episode 𝑇ổ𝑛𝑔 𝑠ố 𝑐ửa 𝑠ổ 𝑐ủa 𝑐ℎuỗ𝑖 𝑆 S: chuỗi các sự kiện W: bề rộng cửa sổ trượt 𝑆! : cửa sổ của chuỗi S 𝑊 𝑆, 𝑊 : tập các cửa sổ 𝑆! của chuỗi S 15
- 2. WINEPI: Tìm Episode phổ biến - Episode 𝛼 là phổ biến nếu 𝑓𝑟 𝛼, 𝑆, 𝑊 ³ min_fr - F(S, W, min_fr): tập hợp các episodes phổ biến trong chuỗi sự kiện S ứng với độ rộng W và ngưỡng min_fr - Apriori: Nếu episode 𝛼 là phổ biến trong chuỗi sự kiện S, thì tất cả các episodes con β ≺ 𝛼 là phổ biến. 16
- 3. WINEPI: Luật Episode và độ tin cậy - Luật episode là biểu thức 𝜷 → 𝜸, với: • 𝜷, 𝜸: episode • 𝜷 là episode con 𝜸 (𝜷 ≺ 𝜸) - 𝛽 ≺ 𝛾: đồ thị biểu diễn 𝛽 là con của đồ thị biểu diễn 𝛾 A A 𝜷: 𝜸: C B B 17
- 3. WINEPI: Luật Episode và độ tin cậy - Độ tin cậy (conf): Xác suất điều kiện của toàn bộ của g xảy ra trong cửa sổ khi b xảy ra trước trong cửa sổ đó. 𝑃 b∪g fr( ∪ g, S, W) 𝑐𝑜𝑛𝑓 b → g = 𝑃 g|b = = 𝑃 b fr( , S, W) (2) độ 𝑝ℎổ 𝑏𝑖ến 𝑐ủa 𝑡𝑜àn 𝑏ộ 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝑡𝑟𝑜𝑛𝑔 𝑙𝑢ậ𝑡 = độ 𝑝ℎổ 𝑏𝑖ến 𝑐ủa 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝑣ế 𝑡𝑟á𝑖 𝑡𝑟𝑜𝑛𝑔 𝑙𝑢ậ𝑡 18
- 3. WINEPI: Luật Episode và độ tin cậy - Các luật Episode giống luật kết hợp nhưng có thêm yếu tố thời gian - Nếu sự kiện thỏa vế trái của luật xuất hiện theo thứ tự bên phải trong phạm vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải của luật), nó xuất hiện ở vị trí được mô tả bởi quan hệ thứ tự £, trong phạm vi W đơn vị thời gian. - Ký hiệu: 𝜷 → 𝜸 𝑾 𝒇𝒓 𝜸, 𝑺, 𝑾 , 𝒄𝒐𝒏𝒇 b → g 19
- WINEPI: Tìm Episode phổ biến song song VD3: Chuỗi tín hiệu báo động. Giả sử W = 40, min_fr= 40%. Tìm Episode phổ biến song song và một số luật Episode Độ rộng cửa sổ: 40 giây … Bước di chuyển: 10 giây U2 U11 Chiều dài chuỗi: 70 (10, …, 80) U1 Số lượng cửa sổ: 11 U1, U2,…, U11 D C A B D A B C -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web
67 p |
255 |
89
-
Bài giảng Cơ Sở Dữ Liệu - ĐH Công Nghệ Thông Tin
228 p |
221 |
85
-
Bài giảng Cơ sở dữ liệu đất đai
49 p |
701 |
80
-
DATA MINING AND APPLICATION: TỔNG HỢP MỘT SỐ VÍ DỤ ỨNG DỤNG
3 p |
442 |
71
-
Bài giảng Cơ sở dữ liệu - Hồ Cẩm Hà
163 p |
307 |
35
-
DATA MINING AND APPLICATION: TỔNG QUAN
13 p |
118 |
28
-
Bài giảng tin học ứng dụng: Chương II - Cơ sở dữ liệu
29 p |
199 |
26
-
Bài giảng Tin học nâng cao - ThS. Nguyễn Thanh Trường
57 p |
150 |
17
-
Bài giảng Khai thác dữ liệu & ứng dụng (data mining) - Bài 4: Khai thác chuỗi tuần tự - Nguyễn Hoàng Tú Oanh
18 p |
277 |
14
-
Bài giảng - Bài 2: Hệ quản trị cơ sở dữ liệu
12 p |
93 |
11
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - ĐH Công nghiệp Thực phẩm
142 p |
79 |
8
-
Bài giảng Tin học ứng dụng: Chương 2 - ThS. Hoàng Hải Xanh
93 p |
18 |
5
-
Bài giảng Quản trị cơ sở dữ liệu - Chương 4: Tổ chức khai thác và quản trị cơ sở dữ liệu trong doanh nghiệp
5 p |
23 |
5
-
Bài giảng Công tác triển khai truyền nhận, quản trị hệ thống, kiểm duyệt dữ liệu khai thác và công bố thông tin
37 p |
43 |
5
-
Bài giảng Các hệ quản trị CSDL: Chương 4 - ĐH Sư phạm TP. HCM
66 p |
75 |
4
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - Nguyễn Thị Uyên Nhi
88 p |
59 |
3
-
Đề cương chi tiết học phần Khai thác dữ liệu (Data mining)
7 p |
57 |
3
-
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 1 - Tổng quan về lưu trữ và xử lý dữ liệu lớn
43 p |
22 |
2


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
