LÝ THUYẾT HỌC THỐNG KÊ
(statistical learning theory)
MÔ HÌNH T NG QUÁT C A H C T VÍ D
Giả sử có một quan hệ hàm giữa hai tập XY
f : X Y
Mục đích : tìm ra quan hệ hàm này khi được cho
tập ví dụ
Hàm f : hàm học hay hàm mục tiêu.
{ }
i i
D (x , y ) / i 1, 2,..., N= =
Mỗi đối tượng x biểu diễn bởi vectơ đặc trưng
Hàm học giá trị thực : vấn đề hồi quy
(regression).
Hàm học giá trị rời rạc : vấn đề phân lớp
(classification).
Học với tập ví dụ gắn nhãn : học có giám sát
(supervised learning).
( )
1 2 d
x x , x ,..., x=
Giả thiết của lý thuyết học thống kê
Tồn tại một phân phối xác suất p(x,y) cố
định và chưa biết trên X x Y.
Các ví dụ (x,y) được lấy mẫu độc lập theo
cùng một phân phối p(x,y)
Giả thiết i.i.d (independent and
identically distributed).
Mục tiêu : sử dụng tập ví dụ huấn luyện
để đưa ra một hàm là xấp xỉ của hàm mục
tiêu.
Học là vấn đề xấp xỉ hàm.
SAI SỐ VÀ SAI SỐ THỰC NGHIỆM.
Đối với phân lớp : lỗi phân lớp (classification error)
L(y,h(x)) = 0 nếu y = h(x) và =1 nếu khác
Hàm sai lệch (loss function).
Giả sử (x,y) là một ví dụ, h : X Y.
Ký hiệu L(y,h(x)) là độ đo sự sai khác giữa y và h(x)
L : hàm sai lệch (loss function).
Trường hợp hồi quy: Lôĩ bình phương (squared loss)
2
L(y, h(x)) (y h(x))=