intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai thác dữ liệu: Chương 4 - ThS. Dương Phi Long

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:36

1
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Khai thác dữ liệu: Chương 4 - Dãy phổ biến" bao gồm các nội dung chính sau: Các khái niệm cơ bản về dãy phổ biến và ứng dụng trong khai thác dữ liệu; phương pháp khai thác dãy phổ biến, bao gồm thuật toán Apriori cho chuỗi, thuật toán PrefixSpan; các ứng dụng thực tiễn của khai thác dãy phổ biến trong các lĩnh vực như phân tích giao dịch, dự báo, và phân tích hành vi người dùng. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 4 - ThS. Dương Phi Long

  1. TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 4: Dãy phổ biến (Episode) ThS. Dương Phi Long – Email: longdp@uit.edu.vn
  2. NỘI DUNG BÀI HỌC 01 Các khái niệm 02 Phương pháp WINEPI 2
  3. 1. Luật Episode Các khái niệm 2. Dữ liệu cho bài toán 3. Dãy phổ biến (Episode) 3
  4. 1. Luật Episode - Luật kết hợp trong bài toán dùng Episode mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu. - Các luật Episode mô tả quan hệ thời gian giữa các sự vật, hiện tượng. - VD: sẽ có một tổ hợp các một tổ hợp các IF THEN tín hiệu báo nguy khác tín hiệu báo nguy xảy ra sẽ xảy ra trong một khoảng trong một khoảng thời gian thời gian xác định khác “Thâm đông, hồng tây, dựng may, Ai ơi đợi đến ba ngày hãy đi” 4
  5. 2. Dữ liệu bài toán - Tập R các loại sự kiện, loại biến cố. VD: R={A,B,C,D} - Mỗi sự kiện là một cặp (A, t) với • A: loại sự kiện, A Î R • t: thời điểm xuất hiện của loại sự kiện, số nguyên - Chuỗi sự kiện S trên R là bộ ba (s, Ts, Te) • Ts : thời điểm bắt đầu chuỗi sự kiện, số nguyên • Te: thời điểm kết thúc chuỗi sự kiện, số nguyên • Ts < Te • s = á (A1, t1), (A2, t2), …, (An, tn) ñ • Ai Î R và Ts £ ti < Te với i = 1, … , n 5
  6. 2. Dữ liệu bài toán VD1: Cho 1 chuỗi tín hiệu báo động D C A B D A B C A D C A B D A 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 - A, B, C, D: các loại sự kiện báo động - 10, 20, …, 150: các thời điểm xảy ra - s = á (D, 10), (C, 20), …, (A, 150) ñ - Thời điểm bắt đầu: Ts = 10 - Thời điểm kết thúc: Te = 150 6
  7. 3. Dãy phổ biển (Episode) - Episode: cặp (V, £) • V: tập hợp các loại sự kiện. VD: loại tín hiệu báo động • £: thứ tự riêng phần trên V - Episodes: Chứa các tín hiệu báo động có các tính chất nào đó và xảy ra theo một thứ tự riêng phần nào đó. 7
  8. 3. Dãy phổ biển (Episode) - Phân loại: • Episode tuần tự (có thứ tự) A B A • Episode song song B A • Episode vừa song song vừa tuần tự C B 8
  9. 1. Cách tiếp cận & nguyên tắc Phương pháp 2. Tìm Episode phổ biến WINEPI 3. Luật Episode và độ tin cậy 9
  10. 1. WINEPI: Cách tiếp cận & nguyên tắc - Cách tiếp cận: Kỹ thuật sử dụng cửa sổ trượt • Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện • Mỗi cửa sổ là một “khung ảnh" giống như một dòng của CSDL • Tập các “khung ảnh" tạo thành các dòng của CSDL 10
  11. 1. WINEPI: Cách tiếp cận & nguyên tắc - Nguyên tắc: • Cửa sổ có độ rộng cố định • Cửa sổ đầu tiên (W1) chỉ chứa 1 sự kiện đầu tiên • Cửa sổ trượt sang phải lần lượt từng sự kiện • Cửa sổ cuối (Wcuối) chỉ chứa 1 sự kiện cuối cùng 11
  12. 1. WINEPI: Cách tiếp cận & nguyên tắc VD2: Chuỗi tín hiệu báo động Độ rộng cửa sổ: 40 giây Số lượng cửa sổ: 11 U1, U2,…, U11 … U2 U1, U11 chỉ có 1 sự kiện U1 U11 D C A B D A B C -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 12
  13. 1. WINEPI: Cách tiếp cận & nguyên tắc VD2: Chuỗi tín hiệu báo động Cửa số Ui Nội dung cửa sổ U1[-20,20) _,_,_,D U2[-10,30) _,_,D,C U3[0,40) _,D,C,A … U2 U4[10,50) D,C,A,B U11 U1 U5[20,60) C,A,B,D D C A B D A B C U6[30,70) A,B,D,A -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 U7[40,80) B,D,A,B U8[50,90) D,A,B,C U9[60,100) A,B,C,_ U10[70,110) B,C_,_ U11[80,120) C,_,_,_ 13
  14. 2. WINEPI: Tìm Episode phổ biến - Tìm Episode phổ biến: • Tìm các Episode theo độ rộng của cửa sổ trượt • Tính độ phổ biến của từng Episode • Episode phổ biến là Episode thỏa ngưỡng min_fr cho trước 14
  15. 2. WINEPI: Tìm Episode phổ biến - Độ phổ biến (tần suất) của Episode 𝜶 : 𝑆! ∈ 𝑊 𝑆, 𝑊 : 𝛼 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑆! 𝑓𝑟 𝛼, 𝑆, 𝑊 = 𝑊 𝑆, 𝑊 (1) 𝑆ố 𝑐ửa 𝑠ổ 𝑐ℎứa 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝛼 = 𝛼: episode 𝑇ổ𝑛𝑔 𝑠ố 𝑐ửa 𝑠ổ 𝑐ủa 𝑐ℎuỗ𝑖 𝑆 S: chuỗi các sự kiện W: bề rộng cửa sổ trượt 𝑆! : cửa sổ của chuỗi S 𝑊 𝑆, 𝑊 : tập các cửa sổ 𝑆! của chuỗi S 15
  16. 2. WINEPI: Tìm Episode phổ biến - Episode 𝛼 là phổ biến nếu 𝑓𝑟 𝛼, 𝑆, 𝑊 ³ min_fr - F(S, W, min_fr): tập hợp các episodes phổ biến trong chuỗi sự kiện S ứng với độ rộng W và ngưỡng min_fr - Apriori: Nếu episode 𝛼 là phổ biến trong chuỗi sự kiện S, thì tất cả các episodes con β ≺ 𝛼 là phổ biến. 16
  17. 3. WINEPI: Luật Episode và độ tin cậy - Luật episode là biểu thức 𝜷 → 𝜸, với: • 𝜷, 𝜸: episode • 𝜷 là episode con 𝜸 (𝜷 ≺ 𝜸) - 𝛽 ≺ 𝛾: đồ thị biểu diễn 𝛽 là con của đồ thị biểu diễn 𝛾 A A 𝜷: 𝜸: C B B 17
  18. 3. WINEPI: Luật Episode và độ tin cậy - Độ tin cậy (conf): Xác suất điều kiện của toàn bộ của g xảy ra trong cửa sổ khi b xảy ra trước trong cửa sổ đó. 𝑃 b∪g fr( ∪ g, S, W) 𝑐𝑜𝑛𝑓 b → g = 𝑃 g|b = = 𝑃 b fr( , S, W) (2) độ 𝑝ℎổ 𝑏𝑖ến 𝑐ủa 𝑡𝑜àn 𝑏ộ 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝑡𝑟𝑜𝑛𝑔 𝑙𝑢ậ𝑡 = độ 𝑝ℎổ 𝑏𝑖ến 𝑐ủa 𝑒𝑝𝑖𝑠𝑜𝑑𝑒 𝑣ế 𝑡𝑟á𝑖 𝑡𝑟𝑜𝑛𝑔 𝑙𝑢ậ𝑡 18
  19. 3. WINEPI: Luật Episode và độ tin cậy - Các luật Episode giống luật kết hợp nhưng có thêm yếu tố thời gian - Nếu sự kiện thỏa vế trái của luật xuất hiện theo thứ tự bên phải trong phạm vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải của luật), nó xuất hiện ở vị trí được mô tả bởi quan hệ thứ tự £, trong phạm vi W đơn vị thời gian. - Ký hiệu: 𝜷 → 𝜸 𝑾 𝒇𝒓 𝜸, 𝑺, 𝑾 , 𝒄𝒐𝒏𝒇 b → g 19
  20. WINEPI: Tìm Episode phổ biến song song VD3: Chuỗi tín hiệu báo động. Giả sử W = 40, min_fr= 40%. Tìm Episode phổ biến song song và một số luật Episode Độ rộng cửa sổ: 40 giây … Bước di chuyển: 10 giây U2 U11 Chiều dài chuỗi: 70 (10, …, 80) U1 Số lượng cửa sổ: 11 U1, U2,…, U11 D C A B D A B C -20 -10 0 10 20 30 40 50 60 70 80 90 100 110 120 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2