Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1: Giới thiệu về Học máy và khai phá dữ liệu
lượt xem 5
download
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.1: Giới thiệu về Học máy và khai phá dữ liệu. Chương này cung cấp cho học viên những nội dung về: học máy và khai phá dữ liệu; quy trình thực hiện - hướng tìm tri thức; quy trình thực hiện - hướng sản phẩm; phát triển sản phẩm - kinh nghiệm từ IBM;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1: Giới thiệu về Học máy và khai phá dữ liệu
- 1
- Nhập môn Học máy và Khai phá dữ liệu (IT3190) 2
- Nội dung môn học • Lecture 1: Giới thiệu về Học máy và khai phá dữ liệu • Lecture 2: Thu thập và tiền xử lý dữ liệu • Lecture 3: Hồi quy tuyến tính (Linear regression) • Lecture 4+5: Phân cụm • Lecture 6: Phân loại và Đánh giá hiệu năng • Lecture 7: dựa trên láng giềng gần nhất (KNN) • Lecture 8: Cây quyết định và Rừng ngẫu nhiên • Lecture 9: Học dựa trên xác suất • Lecture 10: Mạng nơron (Neural networks) • Lecture 11: Máy vector hỗ trợ (SVM) • Lecture 12: Khai phá tập mục thường xuyên và các luật kết hợp • Lecture 13: Thảo luận ứng dụng học máy và khai phá dữ liệu trong thực tế 3
- Tại sao nên biết Học Máy & Khai phá dữ liệu? • “The most important general-purpose technology of our era is artificial intelligence, particularly machine learning” – Harvard Business Review https://hbr.org/cover-story/2017/07/the-business-of-artificial-intelligence • Nhu cầu lớn về Data Science • “Data scientist: the sexiest job of the 21st century” – Harvard Business Review. http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ • “The Age of Big Data” – The New York Times http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the- world.html?pagewanted=all&_r=0 4
- Tại sao? Industry 4.0 https://www.pwc.com/ca/en/industries/industry-4-0.html 5
- Tại sao? AI & DS & Industry 4.0 Artificial Intelligence Machine Learning Industry 4.0 Data Science 6
- Vài thành công: IBM’s Watson • Application IBM's Watson Supercomputer © Data Destroys Science Laboratory, Humans SOICT, in Jeopardy (2011) HUST, 2017 7
- Vài thành công: Amazon’s secret “The company reported a 29% sales increase to $12.83 billion during its second fiscal quarter, up from $9.9 billion during the same time last year.” – Fortune, July 30, 2012 8
- Vài thành công: GAN (2014) Tạo Trí tưởng tượng (Imagination) Ian Goodfellow Artificial faces Goodfellow, Ian, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. "Generative adversarial nets." In NIPS, pp. 2672-2680. 2014. 9
- Vài thành công: AlphaGo (2016) http://www.wired.com/2016/01/in-a-huge-breakthrough-googles-ai-beats-a-top-player-at-the-game-of-go/ 10
- Học máy -- Khai phá dữ liệu • Machine Learning Data Mining (ML - Học máy) (DM - Khai phá dữ liệu) To build computer systems that can To find new and useful knowledge improve themselves by learning from datasets. from data. (Xây dựng những hệ thống mà (Tìm ra/Khai phá những tri thức có khả năng tự cải thiện bản mới và hữu dụng từ các tập dữ thân bằng cách học từ dữ liệu.) liệu lớn.) • Some venues: NeurIPS, ICML, IJCAI, AAAI, ICLR, ACML, ECML Some venues: KDD, PKDD, PAKDD, ICDM, CIKM 11
- Dữ liệu Phi cấu trúc Có cấu trúc – relational (table-like) texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, … 12
- Quy trình thực hiện: hướng tìm tri thức Data Analysis, Insight & Data Data vizualization hypothesis processing & testing, & Policy collection Grasping ML Decision 70-90% tổng thời gian (John Dickerson, University of Maryland) 13
- Quy trình thực hiện: hướng sản phẩm Business Analytic understanding approach Data Feedback requirements Data Deployment collection Data Evaluation understanding Data Modeling preparation 14 (http://www.theta.co.nz/)
- Phát triển sản phẩm: kinh nghiệm từ IBM IBM Research DeepQA: Incremental Progress in Answering Precision • on Application the Jeopardy Challenge: 6/2007-11/2010 IBM Watson Playing in the Winners Cloud 100% 90% v0.8 11/10 80% V0.7 04/10 70% v0.6 10/09 v0.5 05/09 60% Precision v0.4 12/08 50% v0.3 08/08 v0.2 05/08 40% v0.1 12/07 30% 20% 10% Baseline 12/06 0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% © Data Science % Laboratory, Answered SOICT, HUST, 2017 15
- Machine Learning? • Học máy (ML - Machine Learning) là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo (Artificial Intelligence) • Câu hỏi trung tâm của ML: [Mitchell, 2006] How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes? • Vài quan điểm về học máy: Build systems that automatically improve their performance [Simon, 1983]. Program computers to optimize a performance objective at some task, based on data and past experience [Alpaydin, 2020] 16
- Máy học • Ta nói một máy tính có khả năng học nếu nó tự cải thiện hiệu suất hoạt động P cho một công việc T cụ thể, dựa vào kinh nghiệm E của nó. • Như vậy một bài toán học máy có thể biểu diễn bằng 1 bộ (T, P, E) • T: một công việc (nhiệm vụ) • P: tiêu chí đánh giá hiệu năng • E: kinh nghiệm 17
- Ví dụ thực tế (1) • Lọc thư rác (email spam filtering) • T: Dự đoán (để lọc) những thư điện tử nào là thư rác (spam email) • P: số lượng thư điện tử gửi đến được phân loại chính xác • E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một Spam? tập thuộc tính (vd: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng No Yes 18
- Ví dụ thực tế (2) Gán nhãn ảnh ◼ T: đưa ra một vài mô tả ý nghĩa của 1 bức ảnh ◼ P: ? ◼ E: Một tập các bức ảnh, trong đó mỗi ảnh đã được gán một tập các từ mô tả ý nghĩa của chúng 19
- Máy học gì? Học một ánh xạ (hàm): • x: quan sát (dữ liệu), kinh nghiệm • y: phán đoán, tri thức mới, kinh nghiệm mới, … Hồi quy (regression): nếu y là một số thực Phân loại (classification): nếu y thuộc một tập rời rạc (tập nhãn lớp) Anh ta thích nghe + →Trẻ hay Già? 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang
19 p | 26 | 9
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
48 p | 19 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 p | 24 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
24 p | 21 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 4+5: Phân cụm
32 p | 15 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang
21 p | 31 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 6: Phân loại và đánh giá hiệu năng
30 p | 24 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 10 - Nguyễn Nhật Quang
42 p | 25 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 1 - Nguyễn Nhật Quang
54 p | 32 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 8 - Nguyễn Nhật Quang
69 p | 21 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 p | 14 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 p | 29 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 p | 24 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.2: Giới thiệu về Học máy và khai phá dữ liệu
29 p | 19 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 p | 21 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 12: Khai phá tập mục thường xuyên và các luật kết hợp
28 p | 21 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 11: Máy vector hỗ trợ (SVM)
52 p | 17 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn