Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
lượt xem 8
download
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9, chương này cung cấp cho học viên những nội dung về: phân lớp; máy vectơ hỗ trợ (Support vector machine); mặt siêu phẳng phân tách; mặt siêu phẳng có lề cực đại; dữ liệu phân tách được tuyến tính (SVM); tính toán mức lề;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
- Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021
- Nội dung môn học: Giới thiệu về Học máy và Khai phá dữ liệu Tiền xử lý dữ liệu Đánh giá hiệu năng của hệ thống Hồi quy Phân lớp Máy vectơ hỗ trợ (Support vector machine) Phân cụm Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2
- Máy vectơ hỗ trợ - Giới thiệu (1) ◼ Máy vectơ hỗ trợ (Support vector machine - SVM) được đề cử bởi V. Vapnik và các đồng nghiệp của ông vào những năm 1970s ở Nga, và sau đó đã trở nên nổi tiếng và phổ biến vào những năm 1990s ◼ SVM là một phương pháp phân lớp tuyến tính (linear classifier), với mục đích xác định một siêu phẳng (hyperplane) để phân tách hai lớp của dữ liệu – ví dụ: lớp các ví dụ có nhãn dương (positive) và lớp các ví dụ có nhãn âm (negative) ◼ Các hàm nhân (kernel functions), cũng được gọi là các hàm biến đổi (transformation functions), được dùng cho các trường hợp phân lớp phi tuyến Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3
- Máy vectơ hỗ trợ - Giới thiệu (2) ◼ SVM có một nền tảng lý thuyết chặt chẽ – dựa trên nhiều định lý toán học ◼ SVM là một phương pháp tốt (phù hợp) đối với những bài toán phân lớp có không gian biểu diễn thuộc tính lớn – các đối tượng cần phân lớp được biểu diễn bởi một tập rất lớn các thuộc tính ◼ SVM đã được biết đến là một trong số các phương pháp phân lớp tốt nhất đối với các bài toán phân lớp văn bản (text/document classification) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 4
- Máy vectơ hỗ trợ - Giới thiệu (3) ◼ Các vectơ được ký hiệu bởi các chữ đậm nét! ◼ Biểu diễn tập r các ví dụ huấn luyện (training examples) {(x1, y1), (x2, y2), …, (xr, yr)}, ❑ xi là một vectơ đầu vào được biểu diễn trong không gian X Rn ❑ yi là một nhãn lớp (giá trị đầu ra), yi {1,-1} ❑ yi=1: lớp dương (positive); yi=-1: lớp âm (negative) 1 nêu w x i + b 0 [Eq.1] ◼ Đối với một ví dụ xi: yi = − 1 nêu w x i + b 0 ◼ SVM xác định một hàm phân tách tuyến tính f(x) = w x + b [Eq.2] ❑ w là vectơ trọng số các thuộc tính; b là một giá trị số thực Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 5
- Mặt siêu phẳng phân tách ◼ Mặt siêu phẳng phân tách các ví dụ huấn luyện lớp dương và các ví dụ huấn luyện lớp âm: w x + b = 0 ◼ Còn được gọi là ranh giới (bề mặt) quyết định ◼ Tồn tại nhiều mặt siêu phẳng phân tách. Chọn cái nào? [Liu, 2006] Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 6
- Mặt siêu phẳng có lề cực đại ◼ SVM lựa chọn mặt siêu phẳng phân tách có lề (margin) lớn nhất ◼ Lý thuyết học máy đã chỉ ra rằng một mặt siêu phẳng phân tách như thế sẽ tối thiểu hóa giới hạn lỗi (phân lớp) mắc phải [Liu, 2006] Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 7
- SVM – Dữ liệu phân tách được tuyến tính ◼ Giả sử rằng tập dữ liệu (tập các ví dụ huấn luyện) có thể phân tách được một cách tuyến tính ◼ Xét một ví dụ của lớp dương (x+,1) và một ví dụ của lớp âm (x-,-1) gần nhất đối với siêu phẳng phân tách H0 (+b=0) ◼ Định nghĩa 2 siêu phẳng lề song song với nhau ❑ H+ đi qua x+, và song song với H0 ❑ H- đi qua x-, và song song với H0 H+: +b = 1 [Eq.3] H-: +b = -1 sao cho: +b ≥ 1, nếu yi = 1 +b ≤ -1, nếu yi = -1 Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 8
- Tính toán mức lề (1) ◼ Mức lề (margin) là khoảng cách giữa 2 siêu phẳng lề H+ và H-. Trong hình vẽ nêu trên: ❑ d+ là khoảng cách giữa H+ và H0 ❑ d- là khoảng cách giữa H- và H0 ❑ (d+ + d−) là mức lề ◼ Theo lý thuyết đại số vectơ, khoảng cách (trực giao) từ một điểm xi đến mặt siêu phẳng (w x + b = 0) là: | w xi + b | [Eq.4] trong đó ||w|| là độ dài của w: || w || || w || = w w = w1 + w2 + ... + wn 2 2 2 [Eq.5] Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 9
- Tính toán mức lề (2) ◼ Tính toán d+ – khoảng cách từ x+ đến (w x + b = 0) ❑ Áp dụng các biểu thức [Eq.3-4]: | w x+ + b | |1| 1 d+ = = = [Eq.6] || w || || w || || w || ◼ Tính toán d- – khoảng cách từ x- đến (w x + b = 0) ❑ Áp dụng các biểu thức [Eq.3-4]: | w x − + b | | −1 | 1 d− = = = [Eq.7] || w || || w || || w || ◼ Tính toán mức lề 2 margin = d + + d − = [Eq.8] || w || Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 10
- Học SVM – Cực đại hóa mức lề Định nghĩa (Linear SVM – Trường hợp phân tách được) ◼ Tập gồm r ví dụ huấn luyện có thể phân tách tuyến tính D = {(x1,y1), (x2,y2), …, (xr,yr)} ◼ SVM học một phân lớp nhằm cực đại hóa mức lề ◼ Tương đương với việc giải quyết bài toán tối ưu bậc hai sau đây 2 ❑ Tìm w và b sao cho: margin = đạt cực đại w ❑ Với điều kiện: w x i + b 1, nêu y i = 1 ; với mọi ví dụ huấn luyện xi (i=1..r) w x i + b −1, nêu y i = -1 Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 11
- Cực đại hóa mức lề – Bài toán tối ưu ◼ Học SVM tương đương với giải quyết bài toán cực tiểu hóa có ràng buộc sau đây w w Cực tiểu hóa: [Eq.9] 2 Với điều kiện: w x i + b 1, if yi = 1 w x i + b −1, if yi = −1 ◼ …tương đương với w w Cực tiểu hóa: [Eq.10] 2 Với điều kiện: yi ( w x i + b) 1, i = 1..r Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 12
- Lý thuyết tối ưu có ràng buộc (1) ◼ Bài toán cực tiểu hóa có ràng buộc đẳng thức: Cực tiểu hóa f(x), với điều kiện g(x)=0 ◼ Điều kiện cần để x0 là một lời giải: ( f(x) + αg (x)) =0 x x=x0 ; với là một hệ số nhân g(x) = 0 (multiplier) Lagrange ◼ Trong trường hợp có nhiều ràng buộc đẳng thức gi(x)=0 (i=1..r), cần một hệ số nhân Lagrange cho mỗi ràng buộc: r x f(x) + i =1 α g i i (x) x=x0 =0 ; với i là một hệ số nhân g (x) = 0 Lagrange i Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 13
- Lý thuyết tối ưu có ràng buộc (2) ◼ Bài toán cực tiểu hóa có các ràng buộc bất đẳng thức: Cực tiểu hóa f(x), với các điều kiện gi(x)≤0 ◼ Điều kiện cần để x0 là một lời giải: r x f(x) + i =1 α g i i (x) x=x0 =0 ; với i 0 g (x) 0 i ◼ Hàm r L = f(x) + αi g i(x) i =1 được gọi là hàm Lagrange Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 14
- Giải bài toán cực tiểu hóa có ràng buộc ◼ Biểu thức Lagrange r 1 LP (w, b, α ) = w w − i [ yi ( w x i + b) − 1] [Eq.11] 2 i =1 trong đó i (0) là các hệ số nhân Lagrange ◼ Lý thuyết tối ưu chỉ ra rằng một lời giải tối ưu cho [Eq.11] phải thỏa mãn các điều kiện nhất định, được gọi là các điều kiện Karush-Kuhn-Tucker – là các điều kiện cần (nhưng không phải là các điều kiện đủ) ◼ Các điều kiện Karush-Kuhn-Tucker đóng vai trò trung tâm trong cả lý thuyết và ứng dụng của lĩnh vực tối ưu có ràng buộc Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 15
- Tập điều kiện Karush-Kuhn-Tucker LP r = w − αi y i x i = 0 [Eq.12] w i =1 LP r = − αi y i = 0 [Eq.13] b i =1 yi ( w x i + b ) − 1 0, x i (i = 1..r ) [Eq.14] αi 0 [Eq.15] αi ( yi ( w x i + b ) − 1) = 0 [Eq.16] ◼ [Eq.14] chính là tập các ràng buộc ban đầu ◼ Điều kiện bổ sung [Eq.16] chỉ ra rằng chỉ những ví dụ (điểm dữ liệu) thuộc các mặt siêu phẳng lề (H+ và H-) mới có i>0 – bởi vì với những ví đụ đó thì yi(wxi+b)-1=0 →Những ví dụ (điểm dữ liệu) này được gọi là các vectơ hỗ trợ! ◼ Đối với các ví dụ khác (không phải là các vectơ hỗ trợ) thì i=0 Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 16
- Giải bài toán cực tiểu hóa có ràng buộc ◼ Trong trường hợp tổng quát, các điều kiện Karush-Kuhn- Tucker là cần đối với một lời giải tối ưu, nhưng chưa đủ ◼ Tuy nhiên, đối với bài toán cực tiểu hóa đang xét có hàm mục tiêu lồi (convex) và các ràng buộc tuyến tính, thì các điều kiện Karush-Kuhn-Tucker là cần và đủ đối với một lời giải tối ưu ◼ Giải quyết bài toán tối ưu này vẫn là một nhiệm vụ khó khăn – do sự tồn tại của các ràng buộc bất đẳng thức! ◼ Phương pháp Lagrange giải quyết bài toán tối ưu hàm lồi dẫn đến một biểu thức đối ngẫu (dual) của bài toán tối ưu → Dễ giải quyết hơn so với biểu thức cần tối ưu ban đầu (primal) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 17
- Biểu thức đối ngẫu ◼ Để thu được biểu thức đối ngẫu từ biểu thức ban đầu: →Gán giá trị bằng 0 đối với các đạo hàm bộ phận của biểu thức Lagrange trong [Eq.11] đối với các biến ban đầu (w và b) →Sau đó, áp dụng các quan hệ thu được đối với biểu thức Lagrange ❑ Tức là: áp dụng các biểu thức [Eq.12-13] vào biểu thức Lagrange ban đầu ([Eq.11]) để loại bỏ các biến ban đầu (w và b) ◼ Biểu thức đối ngẫu LD r 1 r LD (α ) = i − i j yi y j x i x j [Eq.17] i =1 2 i , j =1 ◼ Cả hai biểu thức LP và LD đều là các biểu thức Lagrange ❑ Dựa trên cùng một hàm mục tiêu – nhưng với các ràng buộc khác nhau ❑ Lời giải tìm được, bằng cách cực tiểu hóa LP hoặc cực đại hóa LD Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 18
- Bài toán tối ưu đối ngẫu r 1 r Cực đại hóa: LD (α ) = i − i j yi y j x i x j i =1 2 i , j =1 [Eq.18] r Với điều kiện: i y i = 0 i =1 i 0, i = 1..r ▪ Đối với hàm mục tiêu là hàm lồi và các ràng buộc tuyến tính, giá trị cực đại của LD xảy ra tại cùng các giá trị của w, b và i giúp đạt được giá trị cực tiểu của LP ▪ Giải quyết biểu thức [Eq.18], ta thu được các hệ số nhân Lagrange i (các hệ số i này sẽ được dùng để tính w và b) ▪ Giải quyết biểu thức [Eq.18] cần đến các phương pháp số học (để giải quyết bài toán tối ưu hàm lồi bậc hai có các ràng buộc tuyến tính) → Chi tiết các phương pháp này nằm ngoài phạm vi của bài giảng! Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 19
- Tính các giá trị w* và b* ◼ Gọi SV là tập các vectơ hỗ trợ ❑ SV là tập con của tập r các ví dụ huấn luyện ban đầu →i>0 đối với các vectơ hỗ trợ xi →i=0 đối với các vectơ không phải là vectơ hỗ trợ xi ◼ Sử dụng biểu thức [Eq.12], ta có thể tính được giá trị w* r w* = i yi x i = y x ; i i i bởi vì xi SV: i=0 i =1 x i SV ◼ Sử dụng biểu thức [Eq.16] và (bất kỳ) một vectơ hỗ trợ xk, ta có ❑ k(yk(+b*)-1)=0 ❑ Nhớ rằng k>0 đối với mọi vectơ hỗ trợ xk ❑ Vì vậy: (yk(+b*)-1)=0 ❑ Từ đây, ta tính được giá trị b*= yk- Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang
19 p | 28 | 9
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 p | 24 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
24 p | 22 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang
21 p | 33 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 1 - Nguyễn Nhật Quang
54 p | 39 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 6: Phân loại và đánh giá hiệu năng
30 p | 27 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 10 - Nguyễn Nhật Quang
42 p | 27 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 8 - Nguyễn Nhật Quang
69 p | 25 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 p | 16 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 p | 29 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 p | 21 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 p | 26 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.2: Giới thiệu về Học máy và khai phá dữ liệu
29 p | 19 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 3: Hồi quy tuyến tính (Linear regression)
24 p | 32 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1: Giới thiệu về Học máy và khai phá dữ liệu
38 p | 25 | 5
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 2: Thu thập và tiền xử lý dữ liệu
20 p | 30 | 5
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 11: Máy vector hỗ trợ (SVM)
52 p | 18 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn