Bài giảng Lý thuyết học thống kê (statistical learning theory)
lượt xem 7
download
Bài giảng Lý thuyết học thống kê (statistical learning theory) trình bày về mô hình tổng quát của học từ ví dụ; sai số và sai số thực nghiệm; nguyên lý quy nạp cực tiểu sai số thực nghiệm; phân lớp bayes và hàm hồi quy; đánh giá một giả thuyết; sai số thực nghiệm điều chỉnh và một số nội dung khác.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Lý thuyết học thống kê (statistical learning theory)
- LÝ THUYẾT HỌC THỐNG KÊ (statistical learning theory)
- MÔ HÌNH TỔNG QUÁT CỦA HỌC TỪ VÍ DỤ • Giả sử có một quan hệ hàm giữa hai tập X và Y f:X Y • Mục đích : tìm ra quan hệ hàm này khi được cho tập ví dụ D = { (x i , yi ) / i = 1, 2,..., N} • Hàm f : hàm học hay hàm mục tiêu.
- • Mỗi đối tượng x biểu diễn bởi vectơ đặc trưng x = ( x1 , x 2 ,..., x d ) • Hàm học giá trị thực : vấn đề hồi quy (regression). • Hàm học giá trị rời rạc : vấn đề phân lớp (classification). • Học với tập ví dụ gắn nhãn : học có giám sát (supervised learning).
- Giả thiết của lý thuyết học thống kê • Tồn tại một phân phối xác suất p(x,y) cố định và chưa biết trên X x Y. • Các ví dụ (x,y) được lấy mẫu độc lập theo cùng một phân phối p(x,y) Giả thiết i.i.d (independent and identically distributed). • Mục tiêu : sử dụng tập ví dụ huấn luyện để đưa ra một hàm là xấp xỉ của hàm mục tiêu. Học là vấn đề xấp xỉ hàm.
- SAI SỐ VÀ SAI SỐ THỰC NGHIỆM. Hàm sai lệch (loss function). • Giả sử (x,y) là một ví dụ, h : X Y. • Ký hiệu L(y,h(x)) là độ đo sự sai khác giữa y và h(x) L : hàm sai lệch (loss function). • Trường hợp hồi quy: Lôĩ bình phương (squared loss) L(y, h(x)) = (y − h(x)) 2 • Đối với phân lớp : lỗi phân lớp (classification error) L(y,h(x)) = 0 nếu y = h(x) và =1 nếu khác
- • Sai số kỳ vọng hay lỗi kỳ vọng (expected risk / expected loss) của hàm h: R(h) = � �L(y, h(x))p(x, y)dxdy Hàm xấp xỉ tốt nhất của hàm mục tiêu là hàm có sai số kỳ vọng nhỏ nhất. • Sai số thực nghiệm. Sai số thực nghiệm (empirical risk) của hàm h: N 1 R emp (h) = L(yi , h(x i )) N i =1
- • Ví dụ. Hàm lỗi tổng bình phương (sum-of-squares error function): N 1 R emp (h) = (yi − h(x i )) 2 N i =1 Lỗi phân lớp: N 1 R emp (h) = δ(y i , h(x i )) N i =1
- NGUYÊN LÝ QUY NẠP CỰC TIỂU SAI SỐ THỰC NGHIỆM • Hàm mục tiêu cần học f được xấp xỉ bằng hàm g: g = arg min R emp (h) h Hai đường xấp xỉ từ 5 ví dụ.
- • Giả sử H là một lớp hàm nào đó. H : không gian các giả thuyết ( space of hypotheses). • Nguyên lý quy nạp : xấp xỉ hàm mục tiêu bởi hàm g g = arg min R emp (h) h H Nguyên lý quy nạp cực tiểu lỗi thực nghiệm (empirical risk minimization inductive principle)
- • Câu hỏi : Hàm g là xấp xỉ tốt của hàm cần học không? Cụ thể hơn : sai số R(g) nhỏ không? • Hàm g phụ thuộc vào lớp các hàm H, nó đóng vai trò như là hướng quy nạp. • Hàm mục tiêu không thuộc lớp hàm H, khó có thể g là xấp xỉ tốt. • Lớp hàm H chứa hàm mục tiêu, không có gì đảm bảo hàm g có sai số nhỏ.
- • Chúng ta hoàn toàn không biết gì về hàm mục tiêu, chỉ có các thông tin trong tập huấn luyện D. • Đưa ra lớp hàm H thích hợp cho một nhiệm vụ học ? • Câu hỏi khác : ta không thể tính được sai số R(g) , làm thế nào đánh giá được khả năng tiên đoán chính xác của nó ở ngoài tập ví dụ huấn luyện?
- Thiết kế các thuật toán học dựa trên nguyên lý quy nạp • Đưa vào lớp các hàm H. Chẳng hạn: H = { h(x) = w 0 + w1x1 + ... + w d x d } w = (w 0 , w1 ,..., w d ) • Tìm vectơ tham biến sao cho sai số thực nghiệm nhỏ nhất. Học từ các ví dụ là vấn đề tìm kiếm tối ưu .
- PHÂN LỚP BAYES VÀ HÀM HỒI QUY Lý thuyết xác suất và thống kê + Lý thuyết quyết định (decision theory) khung làm việc để thiết kế và phân tích các thuật toán học
- Phân lớp Bayes Hàm mục tiêu cần học : f :X C = { c1 ,..., c k } • P(c ) : xác suất tiên nghiệm (prior probability) • P(c / x): xác suất hậu nghiệm (posterior probability) • p(x) : Hàm mật độ xác suất của các đối tượng x • p(x / c) : Hàm mật độ xác suất của các đối tượng trong lớp c :mật độ xác suất điều kiện trên lớp (class- conditional probability density function).
- Luật quyết định Bayes Phân lớp Bayes (Bayes classifier) : đối tượng x được phân vào lớp c có xác suất hậu nghiệm lớn nhất : c = arg max P ( ci / x ) ci = c1 ,...,c k
- Phân lớp Bayes là phân lớp tối ưu • Phân lớp Bayes cho sai số kỳ vọng nhỏ nhất. • Phân lớp Bayes cho xác suất lỗi nhỏ nhất.
- Phân lớp Bayes : Cách khác : đối tượng x được phân vào lớp c sao cho tích P(x / c)P(c) là lớn nhất: c = arg max p ( x / ci ) P ( ci ) i =1,...,k . Ví dụ . Phân các bệnh nhân thành hai lớp ung thư và không ung thư theo kết quả xét nghiệm (dương/âm) Giả sử: P(cancer)=0,008), P(noncancer)=0,992 P ( �/ cancer ) = 0, 98; P ( �/ nocancer ) = 0, 03
- Các cách tiếp cận phân lớp Bayes 1. Các mô hình sinh (generative models): • Đưa ra mô hình mô tả các mật độ xác suất p(x /c) và các xác suất P(c ) . Đánh giá các đại lượng đó từ các dữ liệu huấn luyện. • Tương đương, đưa ra mô hình mô tả phân phối kết hợp p(x,c) và đánh giá nó từ dữ liệu. 2. Các mô hình phân biệt (discriminative models): Mô hình hoá trực tiếp các xác suất hậu nghiệm P(c / x) và đánh giá chúng từ dữ liệu.
- Hàm hồi quy • Cần đánh giá một hàm mục tiêu thực: f: X Y=R • Giả sử h là một hàm xấp xỉ của hàm mục tiêu, lỗi kỳ vọng của hàm h là: R ( h) = �h ( x ) − y� �p ( x, y ) dxdy 2 �� � • Mục đích : tìm hàm h sao cho lỗi kỳ vọng trên là nhỏ nhất.
- • Từ các kết quả cơ bản của phép tính biến phân (the calculus of variations), h(x) = yp(y / x)dy = E[y / x] Trong đó p ( x, y ) p( y / x) = p( x) p( x) = p ( x, y ) dy Hàm h(x) : hàm hồi quy (regression function).
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Lý thuyết đồ thị: Chương 0 - Giới thiệu môn học
12 p | 104 | 7
-
Bài giảng Lý thuyết xác suất và thống kê toán - ĐH Sư Phạm Kỹ Thuật Nam Định
162 p | 61 | 7
-
Bài giảng Lý thuyết xác suất và thống kê toán: Chương 4 - Đại học Kinh tế Quốc dân
16 p | 180 | 6
-
Bài giảng Lý thuyết xác suất và thống kê toán - Chương 1: Khái niệm cơ bản của lý thuyết xác suất
69 p | 27 | 5
-
Bài giảng Lý thuyết xác suất và thống kê toán: Bài 1 - ĐH Kinh tế Quốc dân
40 p | 76 | 5
-
Bài giảng Lý thuyết xác suất và thống kê toán: Chương 7 - Đại học Kinh tế Quốc dân
31 p | 94 | 4
-
Bài giảng Lý thuyết xác suất và thống kê toán - Chương 4: Lý thuyết mẫu
41 p | 18 | 4
-
Bài giảng Lý thuyết xác suất và thống kê toán - Chương 6: Kiểm định giả thuyết thống kê
35 p | 18 | 4
-
Bài giảng Lý thuyết xác suất - Chương 4: Mối quan hệ giữa Lý thuyết xác suất với Thống kê ứng dụng, Kinh tế lượng và Dự báo kinh tế
39 p | 42 | 4
-
Bài giảng Lý thuyết xác suất và thống kê toán: Phần 2 - Cao Tấn Bình
50 p | 21 | 4
-
Bài giảng Lý thuyết thống kê – Bài 3: Trình bày dữ liệu thống kê
18 p | 106 | 3
-
Bài giảng Lý thuyết xác suất và thống kê toán học: Chương 6 - Phan Văn Tân
23 p | 35 | 3
-
Bài giảng Lý thuyết thống kê - CĐ Công nghiệp và xây dựng
34 p | 62 | 3
-
Bài giảng Lý thuyết xác suất và thống kê toán: Chương 8 - Đại học Kinh tế Quốc dân
39 p | 92 | 3
-
Bài giảng Lý thuyết xác suất và thống kê toán - ThS. Nguyễn Thị Thùy Trang
89 p | 61 | 2
-
Bài giảng Lý thuyết xác suất và thống kê - TS. Nguyễn Như Lân
8 p | 24 | 2
-
Bài giảng Lý thuyết thống kê - Trường đại học Sư phạm Hà Nội
77 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn