Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long
lượt xem 4
download
Bài giảng "Học máy - Bài 7: Học máy không giám sát" cung cấp cho người học các kiến thức: Phân tích cụm, phương pháp phân cấp, thuật toán K-means, khởi tạo tâm cụm, phân đoạn, nén ảnh,... Mời các bạn cùng tham khảo nội dung chi tiết.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long
- Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016/ Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1
- Học máy không giám sát • Học không giám sát: tập các công cụ thống kê xử lý dữ liệu chỉ có biến đầu vào, không có biến đích – Ta chỉ có X’s mà không có các nhãn Y – Mục tiêu: phát hiện các mẫu/các đặc tính của dữ liệu • vd. trực quan hóa hoặc diễn giải dữ liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 2
- Học có giám sát vs. không giám sát Học máy có giám sát: cả X và Y đều đã biết Học máy không giám sát: chỉ biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 3
- Học không giám sát • Ví dụ ứng dụng: – Biết các mô ung thư của n bệnh nhân bị ung thư vú, cần xác định các nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm về biểu diễn Gen chứa hàng ngàn biến Figure1.3, ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 4
- Học không giám sát • Ví dụ ứng dụng: – Cho một tập các tài liệu văn bản, cần xác định tập các tài liệu có chung chủ đề như thể thao, chính trị, ca nhạc,.. – Cho các ảnh khuôn mặt có số chiều cao, tìm một biểu diễn đơn giản/thu gọn của các ảnh này để đưa vào bộ phân lớp nhận dạng khuôn mặt (AT&T Laboratories Cambridge) CSE 445: Học máy | Học kỳ 1, 2016-2017 5
- Học không giám sát • Tại sao học không giám sát luôn thách thức lớn? – Phân tích khám phá dữ liệu (Exploratory data analysis) – mục tiêu không được định nghĩa rõ ràng – Khó đánh giá hiệu năng – không biết được đáp án đúng (“right answer” unknown) – Xử lý dữ liệu với số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 6
- Học không giám sát • Hai cách tiếp cận: – Phân tích cụm (Cluster analysis) • Xác định các nhóm mẫu đồng nhất (có các đặc tính chung) – Giảm chiều dữ liệu (Dimensionality Reduction) • Tìm cách biểu diễn với số chiều thấp hơn dựa trên tính chất và trực quan hóa dữ liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 7
- Phân tích cụm & K--means CSE 445: Học máy | Học kỳ 1, 2016-2017 8
- Phân cụm • Phân cụm: là tập các phương pháp nhằm tìm ra các nhóm con trong dữ liệu – Các mẫu có đặc điểm chung trong cùng 1 nhóm nhưng khác với các mẫu ở ngoài nhóm – Việc gom nhóm là phân tích cấu trúc dữ liệu nội tại, điều này khác với phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 9
- Phân cụm vs. Phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 10
- Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 10 11
- Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 11 12
- Phân cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 13
- Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 14
- Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 15
- Phân cụm • Các kiểu mô hình phân cụm – Hai mô hình phân cụm thông dụng: – Phương pháp dựa trên tâm cụm (Centroid-based) – Phương pháp phân cấp (Hierarchical) – Các mô hình khác: – Phân cụm dựa trên mô hình (Model-based) • Mỗi cụm được thể hiện bằng một phân bố thống kê tham số • Dữ liệu là một hỗn hợp các phân bố – Khái niệm phân cụm fuzzy cứng vs. mềm • Cứng (Hard): Các mẫu được chia thành các cụm riêng biệt • Mềm (Soft): Các mẫu có thể thuộc nhiều hơn 1 cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 16
- Phương pháp phân cấp • Phương pháp phân cấp (phân cụm cây) – Các cụm dựa trên khoảng cách giữa các mẫu – Hiển thị theo phân cấp mà không theo cách phân hoạch dữ liệu Sørlie, Therese, et al. (2003) "Repeated observation of breast tumor subtypes in independent gene expression data sets," PNAS. Figure 10.9 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 17
- PhâncụmK--means • Gom nhóm dữ liệu thành K cụm riêng biệt – Mỗi cụm K được định nghĩa bởi 1 véc tơ tâm cụm (centroid) • Tâm cụm: giá trị trung bình của tất cả các đối tượng trong cụm – Mỗi đối tượng gán cho 1 cụm đơn (tâm cụm gần nhất) – Yêu cầu số lượng cụm đầu vào K – “Phân cụm tốt” cực tiểu sự biến đổi giữa các cụm • “Tính tương tự (Similarity)” đo theo khoảng cách Euclidean CSE 445: Học máy | Học kỳ 1, 2016-2017 18
- PhâncụmK--means *Một số hình vẽ trong bài trình bày này được lấy từ cuốn "An Introduction to Statistical Learning, with applications in R" (Springer, 2013) với sự đồng ý của các tác giả: G. James, D. Witten, T. Hastie and R. Tibshirani Figure 10.5 , ISL 2013* CSE 445: Học máy | Học kỳ 1, 2016-2017 19
- PhâncụmK--means Figure 10.5 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng mạng máy tính (ĐH FPT) - Chương 7 Các ứng dụng trong mạng máy tính
22 p | 227 | 69
-
Bài giảng IC3 GS4 - Bài 7: Các tính năng phổ biến
50 p | 180 | 42
-
Bài giảng Mạng máy tính căn bản: Chương 7 - Phan Vĩnh Thuần
81 p | 111 | 17
-
Bài giảng Mạng máy tính - Bài số 7: User và Group
22 p | 105 | 12
-
Bài giảng Mạng máy tính: Bài 7 - Trường TCN Tôn Đức Thắng
23 p | 109 | 10
-
Bài giảng Mạng máy tính và truyền thông - Chương 7: Quản trị mạng máy tính
9 p | 33 | 8
-
Bài giảng Học sâu và ứng dụng - Bài 7: Một số ứng dụng học sâu trong thị giác máy (Phần 1)
64 p | 28 | 8
-
Bài giảng Mạng máy tính (Computer Networking) - Bài 7: Thiết bị mạng
22 p | 42 | 7
-
Bài giảng Học sâu và ứng dụng: Bài 7 - ĐH Bách khoa Hà Nội
64 p | 39 | 7
-
Bài giảng học phần Mạng máy tính: Phần 7 - ThS. Huỳnh Quốc Bảo
16 p | 112 | 7
-
Bài giảng Mạng máy tính - Trường đại học Thương Mại
21 p | 48 | 6
-
Bài giảng Mạng máy tính (Computer Networking) - Chương 7: Mạng con và siêu mạng
9 p | 35 | 5
-
Bài giảng Mạng máy tính: Chương 7 - Phạm Văn Nam
81 p | 92 | 5
-
Bài giảng Mạng máy tính (Computer Network): Chương 2 - Lưu Đức Trung
11 p | 34 | 4
-
Bài giảng Mạng máy tính (Computer Network): Chương 6 - Lưu Đức Trung
28 p | 29 | 4
-
Bài giảng Mạng máy tính (Computer Network): Chương 7 - Lưu Đức Trung
18 p | 18 | 4
-
Bài giảng CAD/CAM - Chương 7: Điều khiển số nhờ máy tính - CNC
23 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn