intTypePromotion=1

Bài giảng Trí tuệ nhân tạo - Chương 10: Học máy

Chia sẻ: Đinh Gấu | Ngày: | Loại File: PDF | Số trang:23

0
34
lượt xem
6
download

Bài giảng Trí tuệ nhân tạo - Chương 10: Học máy

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Học (learning) là bất cứ sự thay đổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác từ cùng một quần thể đó. (Herbert Simon). Để nắm bắt được nội dung chi tiết mời các bạn cùng tham khảo "Bài giảng Trí tuệ nhân tạo - Chương 10: Học máy".

Chủ đề:
Lưu

Nội dung Text: Bài giảng Trí tuệ nhân tạo - Chương 10: Học máy

  1. Chương 10: Máy Học 1
  2. Học Máy (Machine Learning)  Học (learning) là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác từ cùng một quần thể ñó. (Herbert Simon)  Học liên quan ñến vấn ñề khái quát hóa từ kinh nghiệm (dữ liệu rèn luyện) => bài toán quy nạp (induction)  Vì dữ liệu rèn luyện thường hạn chế, nên thường khái quát hóa theo một số khía cạnh nào ñó (heuristic) => tính thiên lệch quy nạp (inductive bias)  Có ba tiếp cận học:  Các phương pháp học dựa trên ký hiệu (symbol-based): ID3  Tiếp cận kết nối: Các mạng neuron sinh học  Tiếp cận di truyền hay tiến hóa: giải thuật genetic 2
  3. Cây quyết ñịnh (ID3)  Là một giải thuật học ñơn giản nhưng thành công  Cây quyết ñịnh (Qð) là một cách biểu diễn cho phép chúng ta xác ñịnh phân loại của một ñối tượng bằng cách kiểm tra giá trị của một số thuộc tính.  Giải thuật có:  ðầu vào: Một ñối tượng hay một tập hợp các thuộc tính mô tả một tình huống  ðầu ra: thường là quyết ñịnh yes/no, hoặc các phân loại.  Trong cây quyết ñịnh:  Mỗi nút trong biểu diễn một sự kiểm tra trên một thuộc tính nào ñó, mỗi giá trị có thể của nó tương ñương với một nhánh của cây  Các nút lá thể hiện sự phân loại.  Kích cỡ của cây Qð tùy thuộc vào thứ tự của các kiểm tra trên các thuộc tính. 3
  4. Ví dụ Cây Qð: Chơi Tennis  Mục ñích: học ñể xem có chơi Tennis không?  Cây quyết ñịnh: Quang cảnh nắng Âm u mưa ðộ ẩm Yes Gió cao Trung bình mạnh nhẹ No Yes No Yes 4
  5. Quy nạp cây Qð từ các ví dụ  Ví dụ (hay dữ liệu rèn luyện cho hệ thống) gồm: Giá trị của các thuộc tính + Phân loại của ví dụ Ngày Quang cảnh Nhiệt ñộ ðộ ẩm Gió Chơi Tennis D1 Nắng Nóng Cao nhẹ Không D2 Nắng Nóng Cao Mạnh Không D3 Âm u Nóng Cao Nhẹ Có D4 Mưa ấm áp Cao nhẹ Có D5 Mưa Mát TB nhẹ Có D6 Mưa Mát TB Mạnh Không D7 Âm u Mát TB Mạnh Có D8 Nắng ấm áp Cao nhẹ Không D9 Nắng Mát TB nhẹ Có D10 Mưa ấm áp TB nhẹ Có D11 Nắng ấm áp TB Mạnh Có D12 Âm u ấm áp Cao Mạnh Có D13 Âm u Nóng TB nhẹ Có 5 D14 Mưa ấm áp Cao Mạnh không
  6. Làm sao ñể học ñược cây Qð  Tiếp cận ñơn giản  Học một cây mà có một lá cho mỗi ví dụ.  Học thuộc lòng một cách hoàn toàn các ví dụ.  Có thể sẽ không thực hiện tốt trong các trường hợp khác.  Tiếp cận tốt hơn:  Học một cây nhỏ nhưng chính xác phù hợp với các ví dụ  Occam’s razor – cái ñơn giản thường là cái tốt nhất! Giả thuyết có khả năng nhất là giả thuyết ñơn giản nhất thống nhất với tất cả các quan sát. 6
  7. Xây dựng cây Qð: Trên - xuống Vòng lặp chính: 1. A
  8. Các khả năng có thể của nút con  Các ví dụ có cả âm và dương:  Tách một lần nữa  Tất cả các ví dụ còn lại ñều âm hoặc ñều dương  trả về cây quyết ñịnh  Không còn ví dụ nào  trả về mặc nhiên  Không còn thuộc tính nào (nhiễu)  Quyết ñịnh dựa trên một luật nào ñó (luật ña số) 8
  9. +: D3, D4, D5, D7, D9, D10, D11, D12, D13 -: D1, D2, D6, D8, D14 Quang cảnh? Nắng Âm u Mưa +: D9, D11 +: D3, D7, D12, D13 +: D4, D5, D10 -: D1, D2, D8 -: -: D6, D14 +: D3, D4, D5, D7, D9, D10, D11, D12, D13 -: D1, D2, D6, D8, D14 ðộ ẩm? Cao Trung bình +: D3, D4, D12 +: D5, D9, D10, D11, D13 -: D1, D2, D8, D14 -: D6 9
  10. +: D3, D4, D5, D7, D9, D10, D11, D12, D13 -: D1, D2, D6, D8, D14 Quang cảnh? Nắng Âm u Mưa +: D9, D11 +: D3, D7, D12, D13 +: D4, D5, D10 -: D1, D2, D8 -: -: D6, D14 ðộ ẩm? Yes Gió? Cao Mạnh Nhẹ TB +: +: D9, D11 +: +: D4, D5, D10 -: D1, D2, D8 -: -: D6, D14 -: No Yes No Yes 10
  11. ID3 xây dựng cây Qð theo giải thuật sau: 11
  12. ðánh giá hiệu suất  Chúng ta muốn có một cây Qð có thể phân loại ñúng một ví dụ mà nó chưa từng thấy qua.  Việc học sử dụng một “tập rèn luyện” (traning set), và  Việc ñánh giá hiệu suất sử dụng một “tập kiểm tra” (test set): 1. Thu thập một tập hợp lớn các ví dụ 2. Chia thành tập rèn luyện và tập kiểm tra 3. Sử dụng giải thuật và tập rèn luyện ñể xây dựng giả thuyết h (cây Qð) 4. ðo phần trăm tập kiểm tra ñược phân loại ñúng bởi h 5. Lặp lại bước 1 ñến 4 cho các kích cỡ tập kiểm tra khác nhau ñược chọn một cách nhẫu nhiên. 12
  13. Sử dụng lý thuyết thông tin  Chúng ta muốn chọn các thuộc tính có thể giảm thiểu chiều sâu của cây Qð.  Thuộc tính tốt nhất: chia các ví dụ vào các tập hợp chứa toàn ví dụ âm hoặc ví dụ dương.  Chúng ta cần một phép ño ñể xác ñịnh thuộc tính nào cho khả năng chia tốt hơn. Thuộc tính nào tốt hơn? [29+, 36-] A1 = ? [29+, 36-] A2 = ? [21+, 6-] [8+, 30-] [18+, 34-] [11+,2-] 13
  14. Entropy  Entropy(S) = số lượng mong ñợi các bit cần thiết ñể mã hóa một lớp (+ hay – ) của một thành viên rút ra một cách ngẫu nhiên từ S (trong trường hợp tối ưu, mã có ñộ dài ngắn nhất).  Theo lý thuyết thông tin: mã có ñộ dài tối ưu là mã gán –log2p bits cho thông ñiệp có xác suất là p. • S là một tập rèn luyện • p⊕ là phần các ví dụ dương trong tập S • pΘ là phần các ví dụ âm trong tập S • Entropy ño ñộ pha trộn của tập S: Entropy ( S ) = − p⊕ log 2 p⊕ − pΘ log 2 pΘ c Entropy ( S ) = ∑ − pi log 2 pi i =1 14
  15. Lượng thông tin thu ñược Information Gain  Gain(S,A) = Lượng giảm entropy mong ñợi qua việc chia các ví dụ theo thuộc tính A | Sv | Gain( S , A) = Entropy ( S ) − ∑ Entropy ( S v ) v∈Values ( A ) | S | [29+, 36-] A1 = ? [29+, 36-] A2 = ? [21+, 6-] [8+, 30-] [18+, 34-] [11+,2-] 15
  16. Chọn thuộc tính kế tiếp S: [9+,5 – ] S: [9+,5 – ] E = 0.940 E = 0.940 ðộ ẩm Gió Cao TB Nhẹ Mạnh [3+,4 – ] [6+,1 – ] [6+,2 – ] [3+,3 – ] E = 0.985 E = 0.592 E = 0.811 E = 1.0 Gain(S, ðộ ẩm) Gain(S, Gió) = .940 – (7/14).985 – (7/14).592 = .940 – (8/14).811 – (6/14)1.0 = .151 = .048 16
  17. Tìm kiếm KG giả thuyết trong ID3 (1)  KG giả thuyết ñầy ñủ =>giả thuyết chắc chắn thuộc KG này  ðầu ra là một giả thuyết (cây Qð) =>Cây nào? Không thể chọn cây với 20 câu hỏi  Không quay lui => cực tiểu ñịa phương  Lựa chọn tìm kiếm dựa trên thống kê => chịu ñược dữ liệu nhiễu  Thiên lệch quy nạp: thích cây ngắn hơn. 17
  18. Chuyển cây về thành các luật Quang cảnh nắng Âm u mưa ðộ ẩm Yes Gió cao Trung bình mạnh nhẹ No Yes No Yes If (Quang-cảnh =nắng) ∧ (ðộ ẩm = Cao) Then Chơi-Tennis = No If (Quang-cảnh =nắng) ∧ (ðộ ẩm = TB) Then Chơi-Tennis = Yes If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes … 18
  19. Khi nào nên sử dụng cây Qð  Các ví dụ ñược mô tả bằng các cặp “thuộc tính – giá trị”, vd: Gió - mạnh, Gió - nhẹ  Kết quả phân loại là các giá trị rời rạc, vd: Yes, No  Dữ liệu rèn luyện có thể chứa lỗi (bị nhiễu)  Dữ liệu rèn luyện có thể thiếu giá trị thuộc tính Ví dụ:  Phân loại bệnh nhân theo các bệnh của họ  Phân loại hỏng hóc thiết bị theo nguyên nhân  Phân loại người vay tiền theo khả năng chi trả 19
  20. Table 13.1: Data from credit history of loan applications. Ví dụ: ước lượng ñộ an toàn của một tài khoản tín dụng 20

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản