Bài giảng Khai phá dữ liệu: Bài 4 - Văn Thế Thành
lượt xem 4
download
Bài giảng "Khai phá dữ liệu - Bài 4: Phân lớp Classification" giới thiệu tới người đọc các kiến thức tổng quan phân lớp là gì, dự báo là gì, giới thiệu cây quyết định, phân lớp kiểu Bayes, những phương pháp phân lớp khác, độ chính xác trong phân lớp. Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu: Bài 4 - Văn Thế Thành
- Bài 4: Phân lớp - Classification Phân Khai phá dữ liệu 1 Phân lớp và dự báo Tổng quan • Phân lớp là gì? Dự báo là gì? • Giới thiệ Giớ thiệu cây quyế quyết định • Phân lớp kiể kiểu Bayes • Những phương phá Nhữ pháp phân lớp khá khác • Độ chí ch í nh x á c trong phân l ớ p • Tóm tắt Khai phá dữ liệu 2 Phân lớp là gì? • Mục đích: ch: để dự đoán những nhãn phân lớp cho các bộ dữ liệu/mẫu mới • Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu • Đầu ra: ra: mô hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp Khai phá dữ liệu 3 1
- Một số số ứng dụng phân lớp tiêu biểu tiêu biể • dụng Tín dụ • Tiếp thị Tiế thị • Chẩn đoá Chẩ đoán y khoa • Phân hiệu quả Phân tích hiệ quả điề điều trị trị Khai phá dữ liệu 4 Dự đoá đoán là gì? • Tương tự với phân lớp o xây dựng một mô hình o sử dụng mô hình để dự đoán cho những giá trị chưa biết • Phương thứ thức chủ chủ đạo: Giậ Giật lùi o hồi quy tuyến tính và nhiều cấp o hồi quy không tuyến tính Khai phá dữ liệu 5 Phân lớp so với dự báo • Phân lớp: o dự đoán các nhãn phân lớp o phân lớp dữ liệu dựa trên tập huấn luyện và các giá trị trong một thuộc tính phân lớp và dùng nó để xác định lớp cho dữ liệu mới • Dự báo: o xây dựng mô hình các hàm giá trị liên tục o dự đoán những giá trị chưa biết Khai phá dữ liệu 6 2
- Phân lớp - tiế tiến trì trình hai bứơc Bước 1: 1. Bướ dựng mô hình từ tập huấn luyện Xây dự Bước 2: 2. Bướ Sử dụng mô hình - kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới Khai phá dữ liệu 7 Xây dựng mô hình • Mỗi bộ bộ/mẫ /mẫu dữ dữ liệ liệu được phân vào một lớp được xác định trước • Lớp của một bộ/mẫu dữ liệu được xác B ướ c 1 thuộc tí định bởi thuộ tính gá lớp gán nhãn lớ • Tập các bộ/mẫu dữ liệu huấn luyện - tập huấ huấn luyệ luyện - được dùng để xây dựng mô hì hình luật • Mô hình được biểu diễn bởi các luậ phân lớp, các cây quyế quyết định hoặc thức toá các công thứ toán học Khai phá dữ liệu 8 Sử dụng mô hình • Phân lớlớp cho nhữ những đố đối tượ tượng mớ mới hoặc chưa đượ hoặ được phân lớ lớp B ướ c 2 • Đánh giá độ chí giá độ chính xá của mô hì xác củ hình o lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình o tỉ lệ chính xác = phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra Khai phá dữ liệu 9 3
- Ví dụ: xây dựng mô hì xây dự hình Các thuật toán phân lớp Dữ liệu huấn luyện NAME RANK YEARS TENURED Bộ phân lớp Mary Assistant Prof 3 no (Mô hình) James Assistant Prof 7 yes Bill Professor 2 no John Associate Prof 7 yes IF rank = ‘professor’ Mark Assistant Prof 6 no OR years > 6 Annie Associate Prof 3 no THEN tenured = yes Khai phá dữ liệu 10 Ví dụ: sử sử dụng mô hì hình Bộ phân lớp Dữ liệu Dữ liệu chưa kiểm tra phân lớp (Jeff, Professor, 4) NAME RANK YEARS TENURED Tom Assistant Prof 2 no Tenured? Lisa Associate Prof 7 no Jack Professor 5 yes Yes Ann Assistant Prof 7 yes Khai phá dữ liệu 11 Chuẩn bị dữ liệ Chuẩ liệu sạch dữ • Làm sạ dữ liệ liệu o nhiễu o các giá trị trống • Phân tí sự liên tích sự quan (chọn đặc trưng) Biến đổ • Biế đổi dữ dữ liệ liệu Khai phá dữ liệu 12 4
- Đánh giá pháp phân lớp giá các phương phá • Độ chí chính xá xác • Tốc độ độ • Bền vữ vững • Co dãn (scalability) • thể biể Có thể biểu diễ diễn đượ được • Dễ làm Khai phá dữ liệu 13 Qui nạp cây quyế quyết định A? quyết định là một cây Cây quyế trong đó B? C? • nút trong = một phép kiểm tra trên một thuộc tính D? Yes • nhánh của cây = đầu ra của một phép kiểm tra • nút lá = nhãn phân lớp hoặc sự phân chia vào lớp Khai phá dữ liệu 14 Tạo cây quyế quyết đị định Hai giai đoạ đoạn tạ tạo cây quyế quyết đị định: dựng cây • xây dự o bắt đầu, tất cả các mẫu huấn luyện đều ở gốc o phân chia các mẫu dựa trên các thuộc tính được chọn o kiểm tra các thuộc tính được chọn dựa trên một độ đo thống kê hoặc heuristic gọn cây • thu gọ o xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm Khai phá dữ liệu 15 5
- quyết đị Cây quyế định – Ví dụ tiêu biể biểu: play tennis? Thời tiết Nhiệt độ Độ ẩm Gió Lớp nắng nóng cao không N nắng nóng cao không N u ám nóng cao không P Tập huấ huấn mưa ấm áp cao không P luyện trí luyệ trích mưa mát vừa không P từ mưa mát vừa có N Quinlan’ Quinlan’s u ám mát vừa có P ID3 nắng ấm áp cao không N nắng mát vừa không P mưa ấm áp vừa không P nắng ấm áp vừa có P u ám ấm áp cao có P u ám nóng vừa không P mưa ấm áp cao có N Khai phá dữ liệu 16 quyết đị Cây quyế định thu đượ được vớ với ID3 (Quinlan 86) thời tiết nắng u ám mưa độ ẩm P gió cao vừa có không N P N P Khai phá dữ liệu 17 luật phân lớ Rút luậ lớp từ từ cây quyế quyết đị định thời tiết • Mỗi một đường dẫn từ nắng mưa gốc đến lá trong cây tạo u ám thành một luật độ ẩm P gió • Mỗi cặp giá trị thuộc tính cao vừa có không trên một đường dẫn tạo N P N P nên một sự liên • Nút lá giữ quyết định phân IF thời tiết=nắng lớp dự đoán AND độ ẩm=vừa • Các luật tạo được dễ hiểu THEN play tennis hơn các cây Khai phá dữ liệu 18 6
- thuật toá Các thuậ quyết định toán trên cây quyế Thuật toá • Thuậ toán căn bản o xây dựng một cây đệ quy phân chia và xác định đặc tính từ trên xuống o các thuộc tính được xem là rõ ràng, rời rạc o tham lam (có thể có tình trạng cực đại cục bộ) Nhiều dạng khá • Nhiề khác nhau: nhau ID3, C4.5, CART, CHAID o điểm khác biệt chính: tiêu chuẩn/thuộc tính phân chia, độ đo để chọn lựa Khai phá dữ liệu 19 Các độ độ đo để để lựa chọ chọn thuộ thuộc tí tính • Độ lợi thông tin (Information gain) • Gini index • χ2 – số thố thống kê bảng ngẫngẫu nhiên (contingency table statistic) thống kê (statistic) • G- thố Khai phá dữ liệu 20 Độ lợi thông tin (1)) • Chọn thuộc tính có chỉ số có độ lợi thông tin lớn nhất • Cho P và N là hai lớp và S là một tập dữ liệu có p phần tử lớp P và n phần tử lớp N • Khối lượng thông tin cần thiết để quyết định một mẫu tùy ý có thuộc về lớp P hay N hay không là p p n n I ( p, n) = − log 2 − log 2 p+n p+n p+n p+n Khai phá dữ liệu 21 7
- Độ lợi thông tin (2) • Cho các tập {S1, S2 , …, Sv} là một phân hoạch trên tập S, khi sử dụng thuộc tính A • Cho mỗi Si chứa pi mẫu lớp P and ni mẫu lớp N • entropy, hay thông tin mong muốn cần thiết để phân lớp các đối tượng trong tất cả các cây con Si là ν p +n E ( A) = ∑ i i I ( pi , ni ) i =1 p+n • Thông tin có được bởi việc phân nhánh trên thuộc tính A là Gain ( A ) = I ( p , n ) − E ( A ) Khai phá dữ liệu 22 Độ lợi thông tin – Ví dụ (1) Thừa nhậ Thừ nhận: • Lớp P: plays_tennis = “yes” • Lớp N: plays_tennis = “no” • Thông tin cần thiết để phân lớp một mẫu được cho là: I ( p, n) = I (9,5) = 0.940 Khai phá dữ liệu 23 Độ lợi thông tin – Ví dụ (2) Tính entropy cho thuộc thời tiết pi ni I(pi, ni) tính thời tiết: nắng 2 3 0.971 u ám 4 0 0 mưa 3 2 0.971 Ta có 4 5 E (thoitiet ) = I ( 2,3) + I ( 4,0) + I (3,2) = 0.694 14 14 14 Do đó Gain (thoitiet ) = I (9,5) − E (thoitiet ) = 0.246 Tương tự Gain ( nhietdo ) = 0.029 Gain ( doam ) = 0.151 Gain ( gio ) = 0.048 Khai phá dữ liệu 24 8
- Những tiên chuẩ Nhữ chuẩn khá dùng để khác dù để dựng cây quyế xây dự quyết • Các điề điều kiệ kiện để ngừ ngừng phân chia o tất cả các mẫu thuộc về cùng một lớp o không còn thuộc tính nào nữa để phân chia o không còn mẫu nào để phân lớp Chiến lượ • Chiế lược rẽ nhá nhánh o nhị phân và k-phân o các thuộc tính rời rạc, rõ ràng và các thuộc tính liên t ục Luật đá • Luậ đánh nhãn: một nút lá được đánh nhãn vào một lớp mà phần lớn các mẫu tại nút này thuộc về lớp đó Khai phá dữ liệu 25 Overfitting trong phân lớp bằng quyết định cây quyế • Cây tạo đượ được có thểthể overfit dữ liệ liệu huấn luyệ huấ luyện o quá nhiều nhánh o độ chính xác kém cho những mẫu chưa biết • Lý do overfit o dữ liệu nhiễu và tách rời khỏi nhóm o dữ liệu huấn luyện quá ít o các giá trị tối đa cục bộ trong tìm kiếm tham lam (greedy search) Khai phá dữ liệu 26 Cách nào để trá tránh overfitting? overfitting? hướng: Hai hướ ng: • rút gọn trướ trước: ngừng sớm • rút gọn sau: sau: loại bỏ bớt các nhánh sau khi xây xong toàn bộ cây Khai phá dữ liệu 27 9
- Phân lớp trong các cơ sở dữ liệ liệu lớn • Tính co dãn: phân lớp các tập dữ liệu có hàng triệu mẫu và hàng trăm thuộc tính với tốc độ chấp nhận được • Tại sao sử dụng cây quyế quyết định trong khai thá thác dữ liệu? liệ o tốc độ học tương đối nhanh hơn các phương pháp khác o có thể chuyển đổi thành các luật phân lớp đơn giản và dễ hiểu o có thể dùng các truy vấn SQL phục vụ truy cập cơ sở dữ liệu o độ chính xác trong phân lớp có thể so sánh Khai phá dữ liệu 28 pháp sử dụng cây quyế Các phương phá quyết định trong các nghiên cứu về khai phá dữ liệ phá liệu • SLIQ (EDBT’96 — Mehta et al.) • SPRINT (VLDB’96 — J. Shafer et al.) • PUBLIC (VLDB’98 — Rastogi & Shim) • RainForest (VLDB’98 — Gehrke, Ramakrishnan & Ganti) Khai phá dữ liệu 29 Phân lớp Bayes: Bayes: Tại sao? sao? (1) • Học theo xác suấ suất: o tính các xác suất rõ ràng cho các giả thiết o một trong những hướng thiết thực cho một số vấn đề thuộc loại học trưởng: • Có tăng trưở o mỗi mẫu huấn luyện có thể tăng/giảm dần khả năng đúng của một giả thiết o tri thức ưu tiên có thể kết hợp với dữ liệu quan sát Khai phá dữ liệu 30 10
- Phân lớp Bayes: Bayes: Tại sao? sao? (2) • Dự đoá suất: đoán theo xác suấ o dự đoán nhiều giả thiết, trọng số cho bởi khả năng xảy ra của chúng Chuẩn: • Chuẩ o Ngay cả khi các phương pháp Bayes khó trong tính toán, chúng vẫn có thể cung cấp một chuẩn để tạo quyết định tới ưu so những phương pháp khác Khai phá dữ liệu 31 Phân lớp Bayes Phân lớ suất • Bài toán phân lớp có thể hình thức hóa bằng xác suấ a-posteriori: P(C|X) = xác suất mẫu X= thuộc về lớp C • Ví dụ P(class=N | outlook=sunny,windy=true,…) tưởng: • Ý tưở ng: gán cho mẫu X nhãn phân lớp là C sao cho P(C|X) là lớn nhất Khai phá dữ liệu 32 Tính xá suất a-posteriori xác suấ • Định lý Bayes: P(C|X) = P(X|C)· P(C) / P(X) • P(X) là hằng số cho tất cả các lớp • P(C) = tần số liên quan của các mẫu thuộc lớp C • C sao cho P(C|X) lớn nhất = C sap cho P(X|C)· P(C) lớn nhất • Vấn đề: tính P(X|C) là không khả thi! Khai phá dữ liệu 33 11
- Phân lớp Naï Phân lớ Naïve Bayesian • Thừa nhận Naïve: sự độ độc lậ lập thuộ thuộc tí tính P(x1,…,xk|C) = P(x1|C)·…·P( ·…· P(xk|C) • Nếu thuộc tính thứ i là rời rạ rạc: P(xi|C) được ước lượng bởi tần số liên quan của các mẫu có giá trị xi cho thuộc tính thứ i trong lớp C • Nếu thuộc tính thứ i là liên tục: liên tụ P(xi|C) được ước lượng thông qua một hàm mật độ Gaussian • Tính toán dễ dàng trong cả hai trường hợp Khai phá dữ liệu 34 Phân lớp Naï Phân lớ Naïve Bayesian – Ví dụ (1) • Ứơc lượng P(xi|C) P(p p) = 9/14 P(n n) = 5/14 Thời tiết P(nắng | p) = 2/9 P(nắng | n) = 3/5 Độ ẩm P(u ám | p) = 4/9 P(u ám | n) = 0 P(cao | p) = 3/9 P(cao | n) = 4/5 P(mưa | p) = 3/9 P(mưa | n) = 2/5 P(vừa | p) = 6/9 P(vừa | n) = 1/5 Nhiệt độ P(nóng | p) = 2/9 P(nóng | n) = 2/5 Gió P(ấm áp | p) = 4/9 P(ấm áp | n) = 2/5 P(có | p) = 3/9 P(có | n) = 3/5 P(mát | p) = 3/9 P(mát | n) = 1/5 P(không | p) = 6/9 P(fkhông | n) = 2/5 Khai phá dữ liệu 35 Phân lớp Naï Phân lớ Naïve Bayesian – Ví dụ (2) • Phân lớp X: o một mẫu chưa thấy X = o P(X|p)· P(p) = P(mưa|p)· P(nóng|p)· P(cao|p)· P(không|p)· P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 o P(X|n)· P(n) = P(mưa|n)· P(nóng|n)· P(cao|n)· P(không|n)· P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 o Mẫu X được phân vào lớp n (không chơi tennis) Khai phá dữ liệu 36 12
- Phân lớp Naï Phân lớ Naïve Bayesian – giả thuyế giả thuyết độ độc lậ lập • … làm cho có thể tính toán • … cho ra bộ phân lớp tối ưu khi thỏa yêu cầu • … nhưng yêu cầu ít khi được thỏa trong thực tế vì các thuộc tính (các biến) thường có liên quan với nhau. • Những cố gắng khắc phục điểm hạn chế này: mạng Bayes (Bayesian networks), kết hợp lý o Các mạ luận Bayes với các mối quan hệ nhân quả giữa các thuộc tính quyết đị o Các cây quyế định, lý luận trên một thuộc tính tại một thời điểm, xét những thuộc tính quan trọng nhất trước Khai phá dữ liệu 37 Các phương phá lớp khá pháp phân lớ khác Các • Mạng Neural phương phá pháp lớp k lá • Phân lớ giềng gầ láng giề gần nhất nhấ khá khác luận dự • Suy luậ dựa và trường hợ vào trườ hợp Thuật toá • Thuậ truyền toán di truyề Hướng tậ • Hướ tập thô hướng tậ • Các hướ tập mờ mờ Khai phá dữ liệu 38 Độ chí chính xá lớp xác trong phân lớ Ước lượ lượng tỉ tỉ lệ sai: hoạch: huấn luyện và kiểm tra (những tập dữ liệu • Phân hoạ lớn) o dùng hai tập dữ liệu độc lập , tập huấn luyện (2/3), tập kiểm tra (1/3) Kiểm tra ché • Kiể chéo (những tập dữ liệu vừa) o chia tập dữ liệu thành k mẫu con o sử dụng k-1 mẫu con làm tập huấn luyện và một mẫu con làm tập kiểm tra --- kiểm tra chép k thành phần • Bootstrapping: xóa đi một - leave-one-out (những tập dữ liệu nhỏ) Khai phá dữ liệu 39 13
- tắt (1) Tóm tắ lớp là • Phân lớ là một vấ vấn đề đề nghiên cứ cứu bao quá quát lớn có • Phân lớ khả năng là có khả là một trong nhữ những kỹ kỹ thuậ thuật phá dữ liệ khai phá liệu đượ được dù rộng rãi nhấ dùng rộ nhất vớ với rấ rất nhiều mở nhiề mở rộng Khai phá dữ liệu 40 tắt (2) Tóm tắ uyển chuyể • Tính uyể chuyển vẫ vẫn đang là là một vấ vấn đề đề quan trọng củ trọ của tấ tất cá các ứng dụ dụng cơ sở sở dữ liệ liệu hướng nghiên cứ • Các hướ cứu: phân lớlớp dữ dữ liệ liệu không- không- hệ, ví quan hệ ví dụ như text, text, không gian và và đa tiện phương tiệ Khai phá dữ liệu 41 14
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 492 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 110 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 107 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 145 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 62 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn