![](images/graphics/blank.gif)
Khai Phá Dữ Liệu-Các kỹ thuật phân lớp và dự đoán
lượt xem 69
download
![](https://tailieu.vn/static/b2013az/templates/version1/default/images/down16x21.png)
Đối với một tập các ví dụ/bản ghi ( instances/records) – gọi là tậộ ập ụ g ) gọ ập huấn luyện/học (training/learning set). Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong đó có một thuộc tính phân lớp (class attribute). Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối với các giá trị của các thuộc tính khác.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Khai Phá Dữ Liệu-Các kỹ thuật phân lớp và dự đoán
- Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011
- Nội dung môn học: Giới thiệu về Khai phá dữ liệu Giới thiệu về công cụ WEKA Tiền xử lý dữ liệu Phát hiện các luật kết hợp Các kỹ thuật phân lớp và dự đoán thu phân và Phân lớp bằng phương pháp học Bayes Học cây quyết định Các kỹ thuật phân nhóm Khai Phá Dữ Liệu 2
- Bài toán phân lớp Bài toán phân lớp (Classification) Đối với một tập các ví dụ/bản ghi (instances/records) – gọi là tập huấn luyện/học (training/learning set) Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong đó có một thuộc tính phân lớp (class attribute) Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối với các giá trị của các thuộc tính khác Sử dụng một tập các ví dụ khác với các ví dụ học để kiểm tra độ chính xác của hàm phân lớp học được – gọi là là tập kiểm thử (test set) ki th (test set) Thông thường, tập dữ liệu ban đầu được chia thành 2 tập (không giao nhau): training set (để học hàm phân lớp) và test set (để ki kiểm thử hàm phân lớp học được) th hàm phân đượ Khai Phá Dữ Liệu 3
- Phân lớp vs. Dự đoán Bài toán phân lớp (Classification problem) Học một hàm mục tiêu có giá trị rời rạc (a discrete-valued target hà tiê di function) Miền giá trị: một tập các nhãn lớp (class labels) xác địn trước Với mỗi ví dụ cần phân loại, hệ thống xác định nhãn lớp của nó Bài toán dự đoán/hồi quy (Prediction/regression problem) Học một hàm mục tiêu có giá trị liên tục (a continuous-valued target function) Mi Miền giá trị: tập các giá trị số thực (real numbers) th Với mỗi ví dụ cần dự đoán, hệ thống xác định giá trị dự đoán của nó Khai Phá Dữ Liệu 4
- Học có vs. không có giám sát Học có giám sát (supervised learning) Mỗi ví dụ học gồm 2 phần: mô tả (biểu diễn) của ví dụ học, và ph mô và nhãn lớp (hoặc giá trị đầu ra mong muốn) của ví dụ học đó Bài toán học phân lớp (classification problem) D_train = {(, )} {(< Bài toán học dự đoán/hồi quy (prediction/regression problem) D_train = {(, )} Học không có giám sát (unsupervised learning) Mỗi ví dụ học chỉ chứa mô tả (biểu diễn) của ví dụ học đó - mà không có bất kỳ thông tin nào về nhãn lớp hay giá trị đầu ra mong nào giá muốn của ví dụ học đó Bài toán học phân cụm (Clustering problem) Tập học D_train = {()} {(< Khai Phá Dữ Liệu 5
- Các khái niệm cơ bản về xác suất Giả sử chúng ta có một thí nghiệm (ví dụ: đổ một quân xúc sắc) mà kết quả của nó mang tính ngẫu nhiên (phụ thuộc vào khả năng có thể xảy ra) Không gian các khả năng S. Tập hợp tất cả các kết quả có thể xảy ra Ví dụ: S= {1,2,3,4,5,6} đối với thí nghiệm đổ quân xúc sắc thí nghi đổ quân xúc {1 Sự kiện E. Một tập con của không gian các khả năng Ví dụ: E= {1}: kết quả quân súc xắc đổ ra là 1 Ví dụ: E= {1,3,5}: kết quả quân súc xắc đổ ra là một số lẻ Không gian các sự kiện W. Không gian (thế giới) mà các kết quả của sự kiện có thể xảy ra Ví dụ: W bao gồm tất cả các lần đổ súc xắc Biến ngẫu nhiên A. Một biến ngẫu nhiên biểu diễn (diễn đạt) một sự ki kiện, và có một mức độ về khả năng xảy ra sự kiện này và có độ kh ra ki này Khai Phá Dữ Liệu 6
- Biểu diễn xác suất P(A): “Phần của không gian (thế giới) mà trong đó A là đúng” Không gian sự kiện (không gian của tất cả các giá trị có thể xảy ra Không gian mà trong đó A là của A) đúng Không gian mà gian mà trong đó A là sai [http://www.cs.cmu.edu/~awm/tutorials] Khai Phá Dữ Liệu 7
- Các biến ngẫu nhiên Bool Một biến ngẫu nhiên Bool có thể nhận một trong 2 giá trị đúng (true) hoặc sai (false) ho sai Các tiên đề • 0 ≤ P(A) ≤ 1 • P(true)= 1 • P(false)= 0 • P(A V B)= P(A) + P(B) - P(A ∧ B) Các hệ quả qu • P(not A)≡ P(~A)= 1 - P(A) • P(A)= P(A ∧ B) + P(A ∧ ~B) P(A P(A B) Khai Phá Dữ Liệu 8
- Các biến ngẫu nhiên nhiều giá trị Một biến ngẫu nhiên nhiều giá trị có thể nhận một trong số k (>2) giá trị {v1,v2,…,vk} P ( A = vi ∧ A = v j ) = 0 if i ≠ j P(A=v1 V A=v2 V ... V A=vk) = 1 i P( A = v1 ∨ A = v2 ∨ ... ∨ A = vi ) = ∑ P( A = v j ) j =1 k ∑ P( A = v ) = 1 j j =1 i P(B ∧ [A = v1 ∨ A = v2 ∨ ... ∨ A = vi ]) = ∑ P( B ∧ A = v j ) j =1 [http://www.cs.cmu.edu/~awm/tutorials] Khai Phá Dữ Liệu 9
- Xác suất có điều kiện (1) P(A|B) là phần của không gian (thế giới) mà trong đó A là đúng, với điều kiện (đã biết) là B đúng ki bi là Ví dụ •A: Tôi sẽ đi đá bóng vào ngày mai •B: Trời sẽ không mưa vào ngày mai •P(A|B): Xác suất của việc tôi sẽ đi đá bóng vào ngày mai nếu (đã biết rằng) trời sẽ không mưa (vào ngày mai) Khai Phá Dữ Liệu 10
- Xác suất có điều kiện (2) P( A, B) Định nghĩa: ngh P( A | B) = P( B) Không Các hệ quả: gian gian mà trong P(A,B)=P(A|B).P(B) đó B đúng P(A|B)+P(~A|B)=1 Không gian mà k trong đó A đúng ∑ P( A = v | B) = 1 i i =1 Khai Phá Dữ Liệu 11
- Các biến độc lập về xác suất (1) Hai sự kiện A và B được gọi là độc lập về xác suất nếu xác suất của sự kiện A là như nhau đối với các trường hợp: • Khi sự kiện B xảy ra, hoặc • Khi sự kiện B không xảy ra, hoặc ki ra ho • Không có thông tin (không biết gì) về việc xảy ra của sự kiện B Ví dụ •A: Tôi sẽ đi đá bóng vào ngày mai •B: Tuấn sẽ tham gia trận đá bóng ngày mai •P(A|B) = P(A) → “Dù Tuấn có tham gia trận đá bóng ngày mai hay không cũng không ảnh hưởng tới quyết định của tôi về việc đi đá bóng ngày mai.” đị tôi bó Khai Phá Dữ Liệu 12
- Các biến độc lập về xác suất (2) Từ định nghĩa của các biến độc lập về xác suất P(A|B)=P(A), chúng ta thu được các luật như sau chúng ta thu đượ các lu nh sau P(A|B) • P(~A|B) = P(~A) • P(B|A) = P(B) • P(A,B) = P(A). P(B) • P(~A,B) = P(~A). P(B) • P(A,~B) = P(A). P(~B) • P(~A,~B) = P(~A). P(~B) Khai Phá Dữ Liệu 13
- Xác suất có điều kiện với >2 biến P(A|B,C) là xác suất của A đối với (đã biết) B và C B C Ví dụ • A: Tôi sẽ đi dạo bờ sông vào sáng mai A • B: Thời tiết sáng mai rất đẹp P(A|B P(A|B,C) • C: Tôi sẽ dậy sớm vào sáng mai Tôi • P(A|B,C): Xác suất của việc tôi sẽ đi dạo dọc bờ sông vào sáng mai, nếu (đã biết rằng) thời tiết sáng mai rất đẹp và tôi sẽ dậy sớm vào sáng mai Khai Phá Dữ Liệu 14
- Độc lập có điều kiện Hai biến A và C được gọi là độc lập có điều kiện đối với bi biến B, nếu xác suất của A đối với B bằng xác suất của A xác su xác su đối với B và C Công thức định nghĩa: P(A|B,C) = P(A|B) Ví dụ • A: Tôi sẽ đi đá bóng vào ngày mai • B: Trận đá bóng ngày mai sẽ diễn ra trong nhà • C: Ngày mai trời sẽ không mưa • P(A|B,C)=P(A|B) → Nếu biết rằng trận đấu ngày mai sẽ diễn ra trong nhà, thì xác suất của việc tôi sẽ đi đá bóng ngày mai không phụ thuộc vào th ti vào thời tiết Khai Phá Dữ Liệu 15
- Các quy tắc quan trọng của xác suất Quy tắc chuỗi (chain rule) • P(A,B) = P(A|B).P(B) = P(B|A).P(A) P(A|B) P(B|A) • P(A|B) = P(A,B)/P(B) = P(B|A).P(A)/P(B) • P(A,B|C) = P(A,B,C)/P(C) = P(A|B,C).P(B,C)/P(C) P(A P(A|B = P(A|B,C).P(B|C) Độ Độc lập về xác suất và độc lập có điều kiện xác su và độ có ki • P(A|B) = P(A); nếu A và B là độc lập về xác suất • P(A,B|C) = P(A|C).P(B|C); nếu A và B là độc lập có điều độ có P(A|C).P(B|C) kiện đối với C • P(A1,…,An|C) = P(A1|C)…P(An|C); nếu A1,…,An là độc lập có có điều kiện đối với C ki đố Khai Phá Dữ Liệu 16
- Định lý Bayes P ( D | h).P(h) P(h | D) = P( D) P(h): Xác suất trước (prior probability) của giả thiết (vd: phân lớp) h P(D): Xác suất trước của sự kiện tập dữ liệu D được quan sát P(D|h): Xác suất của sự kiện tập dữ liệu D được quan sát, nếu biết rằng giả thiết h là đúng P(h|D): Xác suất (có điều kiện) của giả thiết h là đúng, nếu Xác su (có ki gi thi biết rằng tập dữ liệu D được quan sát → Các phương pháp suy diễn dựa trên xác suất sẽ sử dụng xác suất có điều kiện (posterior probability) này! xác su có ki probability này! Khai Phá Dữ Liệu 17
- Định lý Bayes – Ví dụ (1) Giả sử chúng ta có tập dữ liệu sau (dự đoán 1 người có chơi tennis)? Ngày Ngoài trời Nhiệt độ Độ ẩm Gió Chơi tennis N1 Nắng Nóng Cao Yếu Không N2 Nắng Nóng Cao Mạnh Không N3 Âm u Nóng Cao Yếu Có N4 Mưa Bình thường Cao Yếu Có N5 Mưa Mát mẻ Bình thường Yếu Có N6 Mưa Mát mẻ Bình thường Mạnh Không N7 Âm u Mát mẻ Bình thường Mạnh Có N8 Nắng Bình thường Cao Yếu Không N9 Nắng Mát mẻ Bình thường Yếu Có N10 Mưa Bình thường Bình thường Yếu Có N11 Nắng Bình thường Bình thường Mạnh Có N12 Âm u Bình thường Cao Mạnh Có [Mitchell, 1997] Khai Phá Dữ Liệu 18
- Định lý Bayes – Ví dụ (2) Giả thiết h: Anh ta chơi tennis Tập dữ liệu D: Ngoài trời là nắng và Gió là mạnh li Ngoài tr Gió Xác suất P(h): Xác suất rằng anh ta chơi tennis (bất kể Ngoài trời như thế nào và Gió ra sao) Xác suất P(D): Xác suất rằng Ngoài trời là nắng và Gió là mạnh P(D|h): Xác suất rằng Ngoài trời là nắng và Gió là mạnh, nếu biết rằng anh ta chơi tennis P(h|D) Xác su P(h|D): Xác suất rằng anh ta chơi tennis, nếu biết rằng anh ta ch tennis bi Ngoài trời là nắng và Gió là mạnh Giá trị xác suất có điều kiện này sẽ được dùng để dự đoán xem anh ta có chơi tennis hay không? Khai Phá Dữ Liệu 19
- Cực đại hóa xác suất có điều kiện Với một tập các giả thiết (các phân lớp) có thể H, hệ thống học sẽ tìm giả thiết có thể xảy ra nhất (the most probable hypothesis) h(∈H) đối với các dữ liệu quan sát được D Giả thiết h này được gọi là giả thiết cực đại hóa xác suất có điều kiện (maximum a posteriori – MAP) hMAP = arg max P(h | D) h∈H P( D | h).P (h) (bởi định lý Bayes) = arg max hMAP P( D) h∈H (P(D) là như nhau hMAP = arg max P( D | h).P(h) đối với các giả thiết h) h∈H Khai Phá Dữ Liệu 20
![](images/graphics/blank.gif)
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tìm hiểu về Data Mining
5 p |
323 |
116
-
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 5. Phân lớp
63 p |
205 |
89
-
Cách khai Phá Dữ Liệu-Các kỹ thuật phân lớp và dự đoán
78 p |
237 |
67
-
, luật kết hợp, khai phá luật kết hợp-Các kỹ thuật phân nhóm
35 p |
155 |
40
-
Bài giảng Khai phá dữ liệu: Chương 1 - Phan Mạnh Thường
18 p |
123 |
33
-
Công nghệ phần mềm - Chương 4 kiểm thử PM
10 p |
247 |
31
-
Chapter 1: Tổng quan về công nghệ phần mềm
30 p |
168 |
29
-
Kỹ thuật lập trình - Ngôn ngữ lập trình C - Quản lý tập tin
19 p |
126 |
27
-
Công nghệ phần mềm - Chương 3 thiết kế hệ thống
11 p |
350 |
22
-
Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại - Nguyễn Tuấn Minh
6 p |
102 |
11
-
Mạng Internet2 đột phá về tốc độ
2 p |
89 |
8
-
Bài giảng Kỹ thuật phần mềm ứng dụng: Chương 3 (Phần 4) - ĐH Bách khoa Hà Nội
36 p |
28 |
4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p |
68 |
4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p |
73 |
4
-
Bài giảng Kỹ thuật lập trình (Programming technique): Chương 4.1 - Vũ Đức Vượng
74 p |
27 |
4
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Ngọc Duy
125 p |
46 |
3
-
Bài giảng Khai phá dữ liệu: Chương 5 - Trường ĐH Phan Thiết
64 p |
16 |
2
![](images/icons/closefanbox.gif)
![](images/icons/closefanbox.gif)
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
![](https://tailieu.vn/static/b2013az/templates/version1/default/js/fancybox2/source/ajax_loader.gif)