Bài giảng Học máy: Giới thiệu chung - Nguyễn Nhật Quang
lượt xem 6
download
Bài giảng Học máy: Giới thiệu chung đã giới thiệu về học máy, quá trình học máy, các thành phần chính của bài toán học máy, các vấn đề trong học máy, vấn đề over-fitting, các môi trường chính,.... Mời các bạn cùng tham khảo nội dung chi tiết.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Học máy: Giới thiệu chung - Nguyễn Nhật Quang
- Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011-2012
- Nội d dung môn ô hhọc: Giới thiệu chung • Học máy • Công cụ WEKA Đánh giá hiệu năng hệ thống ố học máy Các phương pháp học dựa trên xác suất Các phương pháp học có giám sát Các p phương gppháp p học ọ không gggiám sát Lọc cộng tác Học tăng cường Học Máy – IT 4862 2
- Giới thiệu về Học máy Học máy (Machine Learning – ML) là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo (Artificial Intelligence – AI) Các định nghĩa về học máy → Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [Simon, 1983] → Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997] → Việc ệ lập ập trình các máyy tính để tối ưu hóa một ộ tiêu chí hiệu ệ suất dựa ự trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin, 2004] Biểu diễn một bài toán học máy [Mitchell, 1997] H máy Học á = Cải thiệ thiện hiệu hiệ quảả một ột công ô việc iệ thông thô qua ki kinh h nghiệm hiệ • Một công việc (nhiệm vụ) T • Đối với các tiêu chí đánh giá hiệu năng P • Thông qua (sử dụng) kinh nghiệm E Học Máy – IT 4862 3
- Ví dụ bài toán học máy (1) Lọc thư rác – Email spam filtering • T: Dự đoán (để lọc) những thư điện tử nào là thư rác ((spam p email)) • P: % of các thư điện tử gửi đến được phân loại chính xác Thư rác? • E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn Thư Thư bằng một tập thuộc tính (vd: tập từ thường rác khó ) và khóa) à nhãn hã lớp lớ (thư (th thường/thư th ờ /th rác) tương ứng Học Máy – IT 4862 4
- Ví dụ bài toán học máy (2) Phân loại các trang Web T: Phân loại các trang Web theo các chủ đề ề đã định trước P: Tỷ lệ (%) các trang Web được phân loại chính xác E: Một tập E tậ các á trang t W b trong Web, t đó mỗi ỗi trang t W b gắn Web ắ với ới một ột chủ đề Chủ đề? Học Máy – IT 4862 5
- Ví dụ bài toán học máy (3) Nhận dạng chữ viết tay T: Nhận dạng và phân loại các từ trong các ảnh chữ viết tay P: Tỷ lệ (%) các từ được nhận dạng và phân loại đúng Từ nào? E: Một tập các ảnh chữ viết tay, trong đó mỗi ảnh được gắn với một định danh của một từ we do in the right way Học Máy – IT 4862 6
- Ví dụ bài toán học máy (4) Dự đoán rủi ro cho vay tài chính al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj • T: Xác định mức độ rủi ro (vd: al al al al al kjasgsdfogsdjgfopjkhdrgfopjkhal kjasgsdfogsdjgfopjkhdrgfopjkhal kjasgsdfogsdjgfopjkhdrgfopjkhal kjasgsdfogsdjgfopjkhdrgfopjkhal kjasgsdfogsdjgfopjkhdrgfopjkhal kj kj kj kj kj cao/thấp) đối với các hồ sơ xin vay al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj tài chính al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj al kjasgsdfogsdjgfopjkhdrgfopjkhal kj • P: Tỷ lệ % các hồ sơ xin vay có al kjasgsdfogsdjgfopjkhdrgfopjkhal kj mức độ rủi ro cao (không trả lại tiền vay)) đ được xác á định đị h chính hí h xác á Rủi ro? • E: Một tập các hồ sơ xin vay; mỗi hồ Cao Thấp sơ được biểu diễn bởi một tập p các thuộc tính và mức độ rủi ro Từ chối Chấp nhận (cao/thấp) Học Máy – IT 4862 7
- Quá trình học máy Tập học (Training set) Huấn luyện Tập dữ liệu hệ thống (Dataset) Tập tối ưu (Validation set) Tối ưu hóa các tham số của hệ thống Tập thử nghiệm (Test set) Thử nghiệm hệ thống đã học Học Máy – IT 4862 8
- Các thành phần chính của bài toán học máy (1) Lựa chọn các ví dụ học (training/learning examples) • Các thông tin hướng dẫn quá trình học (training feedback) được chứa ngay trong các ví dụ học, hay là được cung cấp gián tiếp (vd: từ môi trường hoạt động) • Các ví dụ học theo kiểu có giám sát (supervised) hay không có giám sát (unsupervised) • Các ví dụ học phải tương thích với (đại diện cho) các ví dụ sẽ được sử dụng ụ g bởi hệ ệ thống g trong g tươngg lai ((future test examples) p ) Xác định hàm mục tiêu (giả thiết, khái niệm) cần học • F: X → {0,1} • F: X → Một tập các nhãn lớp • F: X → R+ (miền các giá tri số thực dương) • … Học Máy – IT 4862 9
- Các thành phần chính của bài toán học máy (2) Lựa chọn cách biểu diễn cho hàm mục tiêu cần học • Hàm đa thức (a polynomial function) • Một tập các luật (a set of rules) • Một cây quyết định (a decision tree) • Một mạng nơ nơ-ron ron nhân tạo (an artificial neural network) • … Lựa ự chọn ọ một ộ g giải thuật ậ học ọ máyy có thể học ọ ((xấp p xỉ)) được ợ hàm mục tiêu • Phương pháp học hồi quy (Regression-based) • Phương pháp học quy nạp luật (Rule induction) • Phương pháp học cây quyết định (ID3 hoặc C4.5) • Phương pháp học lan truyền ngược (Back-propagation) • … Học Máy – IT 4862 10
- Các vấn đề trong Học máy (1) Giải thuật học máy (Learning algorithm) • Những giải thuật học máy nào có thể ể học (xấp ấ xỉ) một hàm mục tiêu cần học? • Với những hữ điều điề kiệ kiện nào, à một ột giải iải th thuật ật học h máy á đã chọn h sẽ hội tụ (tiệm cận) hàm mục tiêu cần học? • Đối với một lĩnh vực bài toán cụ thể và đối với một cách biểu diễn các ví dụ (đối tượng) cụ thể, giải thuật học máy nào thực hiện tốt nhất? Học Máy – IT 4862 11
- Các vấn đề trong Học máy (2) Các ví dụ học (Training examples) • Bao nhiêu ví dụ học là đủ? • Kích thước của tập học (tập huấn luyện) ảnh hưởng thế nào à đối với ới độ chính hí h xác á củaủ hà hàm mục tiê tiêu h học đ được? ? • Các ví dụ lỗi (nhiễu) và/hoặc các ví dụ thiếu giá trị thuộc tính (missing-value) (missing value) ảnh hưởng thế nào đối với độ chính xác? Học Máy – IT 4862 12
- Các vấn đề trong Học máy (3) Quá trình học (Learning process) • Chiến ế lược tốiố ưu cho việc lựa chọn thứ tự sử dụng (khai thác) các ví dụ học? • Cá Các chiến hiế llược llựa chọn h này à là làm th thay đổi mức ứ độ phức hứ tạp của bài toán học máy như thế nào? • Các tri thức cụ thể của bài toán (ngoài các ví dụ học) có thể đóng góp thế nào đối với quá trình học? Học Máy – IT 4862 13
- Các vấn đề trong Học máy (4) Khả năng/giới hạn học (Learning capability) • Hàm mục ụ tiêu nào mà hệ ệ thống g cần học? ọ Biểu diễn hàm mục tiêu: Khả năng biểu diễn (vd: hàm tuyến tính / hàm phi tuyến) vs. Độ phưc tạp của giải thuật và quá trình học ọ • Các giới hạn (trên lý thuyết) đối với khả năng học của các giải thuật học máy? • Khả năng ă khái quát át hóa hó (generalize) ( li ) của ủ hệ thống thố từ các á víí dụ d học? h ? Để tránh vấn đề “over-fitting” (đạt độ chính xác cao trên tập học, nhưng đạt độ chính xác thấp trên tập thử nghiệm) • Khả năng hệ thống ố tự động thay đổi ổ (thích nghi) biểu ể diễn ễ (cấu ấ trúc) bên trong của nó? Để cải thiện khả năng (của hệ thống đối với việc) biểu diễn và học hà mục tiêu hàm tiê Học Máy – IT 4862 14
- Vấn đề over-fitting g ((1)) Một hàm mục tiêu (một giả thiết) học được h sẽ được gọi là quá khớp/quá phù hợp (over (over-fit) fit) với một tập học nếu tồn tại một hàm mục tiêu khác h’ sao cho: • h’ kém phù hợp hơn (đạt độ chính xác kém hơn) h đối với tập h học, nhưng h • h’ đạt độ chính xác cao hơn h đối với toàn bộ tập dữ liệu (bao gồm cả những ví dụ được sử dụng sau quá trình huấn luyện) Vấn đề over-fitting thường do các nguyên nhân: • Lỗi ((nhiễu)) trong g tập ập huấn luyện yệ (do ( qquá trình thu thập/xây ập y dựng ự g tập dữ liệu) • Số lượng các ví dụ học quá nhỏ, không đại diện cho toàn bộ tập (phân bố) của các ví dụ của bài toán học Học Máy – IT 4862 15
- Vấn đề over-fitting g ((2)) Giả sử gọi D là tập toàn bộ các ví dụ, và D_train là tập các ví dụ học Giả sử gọi ErrD(h) là mức lỗi mà giả thiết h sinh ra đối với tập D, D và ErrD_train D t i (h) là mức lỗi mà giả thiết h sinh ra đối với tập D_train Giả thiết h quá khớp (quá phù hợp) tập học D_train D train nếu tồn tại một giả thiết khác h’: • ErrD_train(h) < ErrD_train(h’), và • ErrD(h) > ErrD(h’) Học Máy – IT 4862 16
- Vấn đề over-fitting g ((3)) Trong số các giả thiết (hàm mục tiêu) học được, giả thiết (hàm mục tiêu) nào Hàm mục tiêu f(x) nào khái quát hóa tốt nhất từ các ví dụ học? ấ đạt độ chính xác cao nhất Lưu ý: Mục tiêu của học máy là để đối với các ví dụ sau này? đạt ạ được ợ độ ộ chính xác cao trong g dự đoán đối với các ví dụ sau này, f(x) không phải đối với các ví dụ học Occam’s O ’ razor: Ưu Ư tiên tiê chọn h hà hàm mục tiêu đơn giản nhất phù hợp (không nhất thiết hoàn hảo) với các ví dụ học → Khái quát át hó hóa tốt hơn h → Dễ giải thích/diễn giải hơn x → Độ p phức tạp p tính toán ít hơn Học Máy – IT 4862 17
- Vấn đề over-fitting g – Ví dụ ụ Tiếp tục quá trình học cây quyết định sẽ làm giảm độ chính xác đối với tập thử nghiệm mặc dù tăng độ chính xác đối với tập học [Mitchell, 1997] Học Máy – IT 4862 18
- WEKA – Giới thiệu WEKA là một công cụ phần mềm viết bằng Java, Java phục vụ lĩnh vực học máy và khai phá dữ liệu Có thểể tải về ề từ địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/ Các tính năng chính • Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ liệu, và các phương pháp thí nghiệm đánh giá • Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu) • Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu p ệ Học Máy – IT 4862 19
- WEKA – Các môi trườngg chính Simple CLI Giao diện đơn giản kiể kiểu dòng lệnh (như (nh MS-DOS) MS DOS) Explorer (chúng ta sẽ chủ yếu sử dụng môi trường này!) Môi trường cho phép sử dụng tất cả các khả năng của WEKA để khám phá dữ liệu Experimenter Môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê (statistical tests) giữa các mô hình học máy K KnowledgeFlow l d Fl Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm Học Máy – IT 4862 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Chương 1: Giới thiệu chung về Công nghệ thông tin
118 p | 127 | 11
-
Bài giảng Học sâu và ứng dụng - Bài 7: Một số ứng dụng học sâu trong thị giác máy (Phần 1)
64 p | 28 | 8
-
Bài giảng Học máy: Các phương pháp học có giám sát (P6) - Nguyễn Nhật Quang
47 p | 42 | 8
-
Bài giảng Học sâu và ứng dụng: Bài 7 - ĐH Bách khoa Hà Nội
64 p | 39 | 7
-
Bài giảng Học máy: Các phương pháp học có giám sát (P7) - Nguyễn Nhật Quang
11 p | 52 | 7
-
Bài giảng học phần Mạng máy tính: Phần 7 - ThS. Huỳnh Quốc Bảo
16 p | 112 | 7
-
Bài giảng Mạng máy tính: Chương 4 - Phạm Văn Nam
38 p | 94 | 7
-
Bài giảng Học máy (IT 4862): Chương 4.6 - Nguyễn Nhật Quang
11 p | 42 | 5
-
Bài giảng Học máy: Các phương pháp học không giám sát (P1) - Nguyễn Nhật Quang
23 p | 52 | 5
-
Bài giảng Học máy (IT 4862): Chương 1 - Nguyễn Nhật Quang
35 p | 59 | 5
-
Bài giảng Học máy: Bài 1 - Nguyễn Hoàng Long
0 p | 33 | 5
-
Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long
0 p | 31 | 4
-
Bài giảng Mạng máy tính - Chương 1: Giới thiệu
22 p | 77 | 4
-
Bài giảng Học máy (IT 4862): Chương 4.4 - Nguyễn Nhật Quang
68 p | 47 | 4
-
Bài giảng Mạng máy tính (Computer Networking) - Chương 1: Giới thiệu mạng máy tính
35 p | 48 | 4
-
Bài giảng Học máy (IT 4862): Chương 5 - Nguyễn Nhật Quang
16 p | 60 | 3
-
Bài giảng Học máy (IT 4862): Chương 11 - Nguyễn Nhật Quang
23 p | 50 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn