intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu - Chương 4: Phân lớp và dự báo

Chia sẻ: Kệ Tui | Ngày: | Loại File: PDF | Số trang:47

129
lượt xem
13
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chương 4 trình bày các kiến thức về phân lớp và dự báo. Các vấn đề chính được thảo luận trong chương này gồm: Phân lớp là gì? Dự báo là gì? Giới thiệu cây quyết định, phân lớp kiểu Bayes, những phương pháp phân lớp khác, độ chính xác trong phân lớp. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu - Chương 4: Phân lớp và dự báo

  1. Chương 4: Phân lớp và dự báo Tổng quan • Phân lớp là gì? • Dự báo là gì? • Giới thiệu cây quyết định • Phân lớp kiểu Bayes • Những phương pháp phân lớp khác • Độ chính xác trong phân lớp
  2. Chương 4: Phân lớp và dự báo Phân lớp là gì? • Mục đích: dự đoán những nhãn phân lớp cho các bộ dữ liệu/mẫu mới • Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu • Đầu ra: mô hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp
  3. Chương 4: Phân lớp và dự báo Ứng dụng phân lớp • Tín dụng • Tiếp thị • Chẩn đoán y khoa • Phân tích hiệu quả điều trị • ....
  4. Chương 4: Phân lớp và dự báo Dự đoán là gì? • Tương tự với phân lớp: - Xây dựng một mô hình - Sử dụng mô hình để dự đoán cho những giá trị chưa biết • Phương thức chủ đạo: - Hồi quy tuyến tính và nhiều cấp - Hồi quy không tuyến tính
  5. Chương 4: Phân lớp và dự báo Quy trình phân lớp • Bước 1: Xây dựng mô hình - Mô tả các lớp xác định trước - Tìm luật phân lớp • Bước 2: Sử dụng mô hình - Phân lớp các đối tượng chưa biết - Xác định độ chính xác của mô hình
  6. Chương 4: Phân lớp và dự báo Các kỹ thuật phân lớp • Phương pháp sử dụng cây quyết định • Phương pháp phân lớp xác suất Bayes • Mạng Nơron • Tập thô • ......
  7. Chương 4: Phân lớp và dự báo Phân lớp dựa trên cây quyết định Cây quyết định: là một cấu trúc phân cấp của các nút và các nhánh biểu diễn dưới dạng cây. 1. Dữ liệu dạng các bản ghi: (x,y)=(x1,x2,x3,..,xk,y) Trong đó: - y: là biến phụ thuộc cần phân loại - xi: là các biến độc lập giúp phân loại 2. Có 3 loại nút: - Nút gốc: đỉnh trên cùng của cây - Nút trong: biểu diễn một thuộc tính - Nút lá: lớp quyết định 3. Nhánh: biểu diễn giá trị có thể có của thuộc tính
  8. Chương 4: Phân lớp và dự báo Các kiểu cây quyết định  Cây hồi quy (Regression tree): Uớc lượng các hàm có giá trị là số thực Ví dụ: ước tính giá một ngôi nhà, khoảng thời gian một bệnh nhân nằm viện  Cây phân loại (Classification tree): Phân loại theo các thuộc tính quyết định Ví dụ: kết quả của một trận đấu (thắng hay thua).
  9. Chương 4: Phân lớp và dự báo Ví dụ cây quyết định Tập dữ liệu huấn luyện Dữ liệu chơi golf Các biến độc lập Biến phụ thuộc Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Âm u Mát Trung bình Mạnh Có Nắng Ấm áp Cao Nhẹ Không Nắng Mát Trung bình Nhẹ Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
  10. Chương 4: Phân lớp và dự báo Ví dụ cây quyết định
  11. Chương 4: Phân lớp và dự báo Giải thuật quy nạp cây ID3  Đầu vào: Một tập hợp các tập huấn luyện. Mỗi tập huấn luyện bao gồm các thuộc tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó. Ví dụ: - Thuộc tính mô tả (Quang cảnh, Gió,..) - Thuộc tính phân loại (Chơi Tennis?)  Đầu ra: Cây quyết định - Có khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện - Phân loại đúng cho cả các ví dụ chưa gặp trong tương lai.
  12. Chương 4: Phân lớp và dự báo Giải thuật quy nạp cây ID3 Function Induce_tree(tập_ví_dụ, tập_thuộc_tính) if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đó else if tập_thuộc_tính là rỗng then return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ else - chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại; - xóa P ra khỏi tập_thuộc_tính; For mỗi giá trị V của P - tạo một nhánh của cây gán nhãn V; - Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P; - Gọi Induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh V End For End If End Function
  13. Chương 4: Phân lớp và dự báo Thuộc tính dùng để phân loại tốt nhất? Độ đo độ hỗn loạn Entropy: Gọi S là tập ví dụ  Thành viên của S là một ví dụ Trong đó: mỗi ví dụ thuộc một lớp quyết định hay có một giá trị phân loại. • 0
  14. Chương 4: Phân lớp và dự báo Thuộc tính dùng để phân loại tốt nhất? Độ đo độ hỗn loạn Entropy: Tập S là tập dữ liệu rèn luyện. Giả sử thuộc tính phân loại có hai giá trị (Y/N) Ta gọi: - pY là phần các ví dụ có thuộc tính Y trong tập S. - pN là phần các ví dụ có thuộc tính N trong tập S. Khi đó: Entropy(S) = -pYlog2pY – pNlog2pN Tổng quát cho tập S có nhiều hơn n thuộc tính phân loại (n>2): C Entropy(S) =   p log i 1 i 2 pi
  15. Chương 4: Phân lớp và dự báo Thuộc tính dùng để phân loại tốt nhất? Độ đo độ lợi thông tin Information Gain: - Phép đo này gọi là lượng thông tin thu được - Lượng giảm entropy bị gây ra bởi việc phân chia các ví dụ theo thuộc tính này. Tập S là tập dữ liệu rèn luyện Độ lợi thông tin Gain(S,A) của thuộc tính A trên tập S, được định nghĩa như sau: | Sv | Gain(S, A)  Entropy(S)   Entropy(Sv ) vValues(A) | S | Trong đó: - Values(A) là tập hợp có thể có các giá trị của thuộc tính A - SV là tập con của S chứa các ví dụ có thuộc tính A mang giá trị v.
  16. Chương 4: Phân lớp và dự báo Xây dựng cây quyết định 1. Độ hỗn loạn của tập dữ liệu: 𝟗 𝟗 𝟓 𝟓 Entropy(S) = - ( ) log2 ( ) - ( ) log2( ) = 0.940 𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒 Tập dữ liệu huấn luyện Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Âm u Mát Trung bình Mạnh Có Nắng Ấm áp Cao Nhẹ Không Nắng Mát Trung bình Nhẹ Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
  17. Chương 4: Phân lớp và dự báo Xây dựng cây quyết định 2. Tính Gain cho từng thuộc tính: Thuộc tính “Quang cảnh” Gain(S, Quang cảnh) 𝟓 𝟒 𝟓 = Entropy(S) – (𝟏𝟒)Entropy(SNắng) – (𝟏𝟒)Entropy(SÂm u) – (𝟏𝟒) Entropy(SMưa) 𝟓 𝟐 𝟐 𝟑 𝟑 𝟒 𝟓 𝟑 𝟑 𝟐 𝟐 = 0.940 – (𝟏𝟒)(- (𝟓)log2(𝟓) – (𝟓)log2(𝟓)) - (𝟏𝟒)(0) - (𝟏𝟒)(- (𝟓)log2(𝟓) – (𝟓)log2(𝟓)) = 0.246 Quang cảnh Tập dữ liệu huấn luyện Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Nắng Âm u Mưa Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Chơi: 2 Chơi: 4 Chơi: 3 Âm u Nắng Mát Ấm áp Trung bình Cao Mạnh Nhẹ Có Không Không: 3 Không: 0 Không: 2 Nắng Mát Trung bình Nhẹ Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
  18. Chương 4: Phân lớp và dự báo Xây dựng cây quyết định 2. Tính Gain cho từng thuộc tính: Thuộc tính “Nhiệt độ” Gain(S, Nhiệt độ) 𝟒 𝟔 𝟒 = Entropy(S) – (𝟏𝟒)Entropy(SNóng) – (𝟏𝟒)Entropy(SẤm áp) – (𝟏𝟒) Entropy(SMát) 𝟒 𝟔 𝟒 𝟒 𝟐 𝟐 𝟒 𝟑 𝟑 𝟏 𝟏 = 0.940 – (𝟏𝟒)(1) - (𝟏𝟒)(- (𝟔)log2(𝟔) – (𝟔)log2(𝟔)) - (𝟏𝟒)(- (𝟒)log2(𝟒) – (𝟒)log2(𝟒)) = 0.029 Nhiệt độ Tập dữ liệu huấn luyện Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Nóng Ấm áp Mát Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Chơi: 2 Chơi: 4 Chơi: 3 Âm u Nắng Mát Ấm áp Trung bình Cao Mạnh Nhẹ Có Không Không: 2 Không: 2 Không: 1 Nắng Mát Trung bình Nhẹ Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
  19. Chương 4: Phân lớp và dự báo Xây dựng cây quyết định 2. Tính Gain cho từng thuộc tính: Thuộc tính “Gió” Gain(S, Gió) 𝟔 𝟖 = Entropy(S) – (𝟏𝟒)Entropy(SMạnh) – (𝟏𝟒)Entropy(SNhẹ) 𝟔 𝟖 𝟔 𝟔 𝟐 𝟐 = 0.940 – (𝟏𝟒)(1) - (𝟏𝟒)(- (𝟖)log2(𝟖) – (𝟖)log2(𝟖)) = 0.048 Gió Tập dữ liệu huấn luyện Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Mạnh Nhẹ Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Chơi: 3 Chơi: 6 Âm u Nắng Mát Ấm áp Trung bình Cao Mạnh Nhẹ Có Không Nắng Nhẹ Không: 3 Không: 2 Mát Trung bình Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
  20. Chương 4: Phân lớp và dự báo Xây dựng cây quyết định 2. Tính Gain cho từng thuộc tính: Thuộc tính “Độ ẩm” Gain(S, Độ ẩm) 𝟕 𝟕 = Entropy(S) – (𝟏𝟒)Entropy(SCao) – (𝟏𝟒)Entropy(ST.Bình) 𝟕 𝟑 𝟑 𝟒 𝟒 𝟕 𝟔 𝟔 𝟏 𝟏 = 0.940 – (𝟏𝟒)(- (𝟕)log2(𝟕) – (𝟕)log2(𝟕)) - (𝟏𝟒)(- (𝟕)log2(𝟕) – (𝟕)log2(𝟕)) = 0.151 Độ ẩm Tập dữ liệu huấn luyện Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Cao T.bình Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Chơi: 3 Chơi: 6 Âm u Nắng Mát Ấm áp Trung bình Cao Mạnh Nhẹ Có Không Nắng Nhẹ Không: 4 Không: 1 Mát Trung bình Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh Không
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2