Kỹ thuật kiểm tra chéo, hiệu chỉnh mô hình, mô hình thưa

Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn

Website môn học: https://sites.google.com/a/wru.vn/cse445spring2016/

Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California

CSE 445: Học máy | Học kỳ 1, 2016-2017

1

Các dạng giải thuật Học máy

Do you have labeled data?

Yes

No

Unsupervised

Supervised

What do you want to predict?

Do you want to group the data?

Category

Quantity

Yes

No

Classification

Regression

Cluster Analysis

Dimensionality Reduction

SVM

KNN

LASSO

CART

K-means

ICA

PCA

Logistic Regression

Linear Regression

CSE 445: Học máy | Học kỳ 1, 2016-2017

2

Nhắc lại Hồi quy tuyến tính đơn giản

Figure 3.1 , ISL 2013

CSE 445: Học máy | Học kỳ 1, 2016-2017

3

Nhắc lại Bình phương nhỏ nhất

Sử dụng phương pháp bình phương nhỏ nhất để đo lường độ xấp xỉ của mô hình áp dụng trên dữ liệu

• Phần dư (Residual): sai số giữa giá trị quan sát được và giá trị dự đoán.

(cid:1)(i) = (cid:7)(i) (cid:8) (cid:7)ˆ(i)

• Tổng phần dư bình phương-Residual sum of squares (RSS): 2

2

(cid:10)(cid:11)(cid:11) = (cid:1)(1)

+ (cid:1)(2)

+ ⋯ + (cid:1)(n) 2 Lỗi bình phương trung bình-Mean squared error (MSE):

CSE 445: Học máy | Học kỳ 1, 2016-2017

4

Hàm tổn thất Loss Functions

CSE 445: Học máy | Học kỳ 1, 2016-2017

5

Loss Functions ˆ L(q ,q ) i

i

CSE 445: Học máy | Học kỳ 1, 2016-2017

6

Loss Functions ˆ L(q ,q ) i

i

Lỗi bình phương (Squared error)

(q - q ) 2

ˆ i

i

i

Lỗi tuyệt đối (Absolute error)

q - qˆ

i

i

i

Lỗi điều hướng (Indicator error)

I(q „

i

ˆ q ) i

i

CSE 445: Học máy | Học kỳ 1, 2016-2017

7

Học máy chỉ để giải 1 vấn đề

CSE 445: Học máy | Học kỳ 1, 2016-2017

8

Kỹ thuật kiểm tra chéo Cross-validation

CSE 445: Học máy | Học kỳ 1, 2016-2017

9

Kỹ thuật kiểm tra chéo

“Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗi dự đoán”

err = E[L(Y, fˆ(X))]

CSE 445: Học máy | Học kỳ 1, 2016-2017

10

Kỹ thuật kiểm tra chéo

Tập huấn luyện-Training Set

Tập kiểm thử-Test Set

Tập kiểm chứng-Validation Set

Training Data

Testing Data

CSE 445: Học máy | Học kỳ 1, 2016-2017

11

Kỹ thuật kiểm tra chéo K--fold

Vídụ5--fold

Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.

10

CSE 445: Học máy | Học kỳ 1, 2016-2017

12

Kỹ thuật kiểm tra chéo 5-fold và 10-fold thường được ưa dùng (lỗi bias cao, phương sai thấp)

CSE 445: Học máy | Học kỳ 1, 2016-2017

13

Kỹ thuật kiểm tra chéo N-fold gọi là kỹ thuật kiểm tra chéo “leave one out-LOOCV” (lỗi bias thấp, phương sai cao)

CSE 445: Học máy | Học kỳ 1, 2016-2017

14

Kỹ thuật kiểm tra chéo

• Dùng để ước lượng lỗi dự đoán • Dùng để chọn các giá trị tham số phù hợp cho mô hình (vd: tham số k trong k--láng giềng gần nhất)

CSE 445: Học máy | Học kỳ 1, 2016-2017

15

Auto Data: LOOCV vs. K-fold CV

Hình trái: Sai số LOOCV Hình phải: 10-fold CV được chạy nhiều lần, đồ thị biểu diễn sai khác nhỏ về lỗi CV LOOCV là trường hợp đặc biệt của k-fold, khi k = n

Cả hai đều ổn định, tuy nhiên LOOCV mất nhiều thời gian tính toán hơn!

CSE 445: Học máy | Học kỳ 1, 2016-2017

16

Thách thức: Overfitting

• Overfitting: Kết quả tốt trên tập huấn luyện nhưng cho kết quả

kém trên tập kiểm thử

Figures 2.4 and 2.6 ,ISL 2013

CSE 445: Học máy | Học kỳ 1, 2016-2017

17

Overfitting

Sai số trên tập kiểm thử

“With four parameters I can fit an elephant, and with five I can make him wiggle his trunk”

--John von Neumann according to Enrico Fermi

Sai số trên tập huấn luyện

Figure2.9 , ISL 2013

CSE 445: Học máy | Học kỳ 1, 2016-2017

18

Kỹ thuật kiểm tra chéo (đường cong của hàm học)

Ta cần thêm biến (mô hình mới) hoặc thêm dữ liệu?

CSE 445: Học máy | Học kỳ 1, 2016-2017

19

Mô hình có điều chỉnh

CSE 445: Học máy | Học kỳ 1, 2016-2017

20

Nhắc lại: Hồi quy tuyến tính đa biến

+ b

+ b

Y = b

(cid:215) X1

1

(cid:215) X2

2

0

Figure3.4 , ISL 2013

CSE 445: Học máy | Học kỳ 1, 2016-2017

21

Trường hợp quá nhiều biến

khi có quá nhiều biến đầu vào

1

2

0

3

4

5

6

7

8

khi có tương tác giữa các biến đầu vào

2

2

+ b

+ b

+ b

+ b

+ b

Y = b

(cid:215) X1

1

(cid:215) X2

2

0

(cid:215) (X1X2 ) + b

3

4

(cid:215) X1

(cid:215) X 2

5

(cid:215) log(X1 / X2 ) + b

(cid:215) sin(X1

- X2 )

7

6

CSE 445: Học máy | Học kỳ 1, 2016-2017

22

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X2 (cid:215) X3 (cid:215) X4 (cid:215) X5 (cid:215) X6 (cid:215) X7 (cid:215) X8

Trường hợp quá nhiều biến

Hai mẫu xác định 1 đường thẳng

Ba mẫu xác định 1 mặt phẳng

1

0

1

2

0

CSE 445: Học máy | Học kỳ 1, 2016-2017

23

+ b + b + b Y = b Y = b (cid:215) X1 (cid:215) X1 (cid:215) X2

Trường hợp quá nhiều biến

Hai mẫu không xác định một mặt phẳng duy nhất

1

2

0

CSE 445: Học máy | Học kỳ 1, 2016-2017

24

+ b + b Y = b (cid:215) X1 (cid:215) X2

Trường hợp quá nhiều biến

1

2

0

3

4

5

6

7

8

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X3 (cid:215) X5 (cid:215) X4 (cid:215) X6 (cid:215) X7 (cid:215) X8

CSE 445: Học máy | Học kỳ 1, 2016-2017

25

(cid:215) X2 Gene expression arrays

Điều gì xảy ra?

1

2

0

3

4

5

6

7

8

Câu hỏi: Ta có 8 biến và có hàng trăm mẫu. Hai biến (X3 và X4) có tương quan yếu với Y (do đó cũng hữu dụng nhỏ cho dự đoán), tuy nhiên chúng có tương quan cao với các biến khác. Điều gì xảy ra khi diễn giải các hệ số β của hai biến X3 và X4?

CSE 445: Học máy | Học kỳ 1, 2016-2017

26

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X2 (cid:215) X3 (cid:215) X4 (cid:215) X5 (cid:215) X6 (cid:215) X7 (cid:215) X8

Đa cộng tuyến (Multi-collinearity)

1

2

0

3

4

5

6

7

8

CSE 445: Học máy | Học kỳ 1, 2016-2017

27

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X2 (cid:215) X3 (cid:215) X4 (cid:215) X5 (cid:215) X6 (cid:215) X7 (cid:215) X8

Ta cần phải làm gì?

Phạt các hệ số β lớn.

CSE 445: Học máy | Học kỳ 1, 2016-2017

28

Hồi quy tuyến tính đa biến

Quay lại hồi quy tuyến tính, ta cố gắng để cực tiểu hóa lỗi bình phương

1

1

0

2

2

các mẫu

30

CSE 445: Học máy | Học kỳ 1, 2016-2017

29

[Y - (b + b (cid:215) X + b (cid:215) X )]2

Hồi quy Ridge

Tìm giá trị β để cực tiểu lỗi phạt “penalized”, tương đương với

2

1

1

0

2

2 1

2 0

2

2 2

samples

L2

CSE 445: Học máy | Học kỳ 1, 2016-2017

30

[Y - (b + b (cid:215) X + b (cid:215) X )] + l (cid:215) (b + b + b )

Hiệu chỉnh mô hình (Regularization)

2

Hồi quy Ridge Tìm giá trị β để cực tiểu lỗi phạt “penalized”, tương đương với (cid:215) X )] + l (cid:215) (b + b + b

0

1

1

2

2

2 1

2 0

2 2

các mẫu

L2

hoặc viết ở dạng khác,

CSE 445: Học máy | Học kỳ 1, 2016-2017

31

(b + b (cid:215) X + b [Y - )

Hồi quy Ridge

0 6

60

0 5

50

r o r r

0 4

Error 40

0 3

30

0 2

Đường cong nào là lỗi bias, đâu là phương sai, và đâu là lỗi dự đoán trên tập dữ liệu kiểm thử?

Squared 20

0 1

E d e r a u q S n a e M

Mean 10

0

0

1e−01

1e+01

1e+03

0.0

0.2

0.8

1.0

0.6 ˆ

0.4 ∥ˆ βR

λ

λ ∥2/∥β∥2

Hastie, Trevor, et al. Introduction to statistical learning.

CSE 445: Học máy | Học kỳ 1, 2016-2017

32

Hồi quy Ridge

0 6

60

0 5

50

r o r r

0 4

Error 40

0 3

30

0 2

Squared 20

0 1

E d e r a u q S n a e M

Mean 10

0

0

1e−01

1e+01

1e+03

0.0

0.2

0.8

1.0

0.6 ˆ

0.4 ∥ˆ βR

λ

λ ∥2/∥β∥2

Hastie, Trevor, et al. Introduction to statistical learning.

CSE 445: Học máy | Học kỳ 1, 2016-2017

33

Hiệu chỉnh mô hình

Ta đã xử lý:

•Underdetermined •Overfitting •Đa cộng tuyến (Multi--collinearity)

Vậy mô hình thưa là gì (sparsity)?

1

2

0

3

4

5

6

7

8

0

0

0

CSE 445: Học máy | Học kỳ 1, 2016-2017

34

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X2 (cid:215) X3 (cid:215) X4 (cid:215) X5 (cid:215) X6 (cid:215) X7 (cid:215) X8

Mô hình thưa (Sparsity)

1

2

0

3

4

5

6

7

8

0

0

0

• Dùng cho lựa chọn biến (Feature selection) • Thời gian tính toán lâu (computational

efficiency)

CSE 445: Học máy | Học kỳ 1, 2016-2017

35

+ b + b + b + b + b + b + b + b Y = b (cid:215) X1 (cid:215) X2 (cid:215) X3 (cid:215) X4 (cid:215) X5 (cid:215) X6 (cid:215) X7 (cid:215) X8

Mô hình thưa (Sparsity)

Lasso

“Least absolute shrinkage and selection operator”

2

1

2

0

2

1

0

2 )

L1

samples

Mô hình giống như hồi quy Rigde nhưng khác hàm phạt

Tibshirani, Robert. "Regression shrinkage and selection via the lasso." Journal of the Royal Statistical Society. Series B (Methodological)(1996): 267--288.

CSE 445: Học máy | Học kỳ 1, 2016-2017

36

+ b +b [Y - (b + b + b (cid:215) X1 (cid:215) X )] + l (cid:215) (b

Lasso

“Least absolute shrinkage and selection operator”

2

b + b + b

1

2

2

0

0

1

2

samples

hoặc viết ở dạng khác,

CSE 445: Học máy | Học kỳ 1, 2016-2017

37

+ b +b (cid:215) X )] + l (cid:215) ( ) [Y - (b (cid:215) X1

Phương thức phạt (Penalties)

x2

Đường bậc 2 thô

x

2

1.8

L2

1.6

L1

1.4

0.1

1.2

0.09

1

s i x A Y

0.08

0.8

0.07

0.6

0.06

0.4

0.05

0.2

s i x A Y

0.04

0

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0.03

X Axis

0.02

L2

0.01

Kiểu đường bậc 2.

0

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

X Axis

CSE 445: Học máy | Học kỳ 1, 2016-2017

38

Các độ đo khoảng cách

5

4

3

2

1

x2 + x2

0

-4

-3

-2

-1

1

2

3

4

5

-1

1

2

x1

+ x2

CSE 445: Học máy | Học kỳ 1, 2016-2017

39

x = x 2

Các độ đo khoảng cách được gọi là

chuẩn - Norms

L1

L2

CSE 445: Học máy | Học kỳ 1, 2016-2017

40

Distance measures are called Norms

CSE 445: Học máy | Học kỳ 1, 2016-2017

41

Các chuẩn, “Norms”

Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.

CSE 445: Học máy | Học kỳ 1, 2016-2017

42

Mục tiêu khác: Mô hình thưa

Lasso

Ridge

50

CSE 445: Học máy | Học kỳ 1, 2016-2017

43

Mục tiêu khác: Mô hình thưa

Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009.

CSE 445: Học máy | Học kỳ 1, 2016-2017

44

Các chuẩn với các góc nhọn trên các trục

tạo các giải pháp thưa

CSE 445: Học máy | Học kỳ 1, 2016-2017

45

L1 (lasso) tính nhanh hơn và thưa

i

0 0 4 0 0 3 0 0 2 0 0 1

i

0

s t n e c i f f e o C d e z d r a d n a t S

0 0 2 −

20

50

100 200

500

2000

5000

λ

Hastie, Trevor, et al. Introduction to statistical learning.

CSE 445: Học máy | Học kỳ 1, 2016-2017

46

Ridge vs. Lasso: Mô hình thưa

5 . 1

5 . 1

Ridge Least Squares

Lasso Least Squares

e t a m

e t a m

5 . 0

5 . 0

i t s E

i t s E

i

i

5 . 0 −

5 . 0 −

t n e c i f f e o C

t n e c i f f e o C

5 . 1 −

5 . 1 −

−1.5

−0.5 0.0

0.5

1.0

1.5

−1.5

−0.5 0.0

0.5

1.0

1.5

yj

yj

Hastie, Trevor, et al. Introduction to statistical learning.

CSE 445: Học máy | Học kỳ 1, 2016-2017

47

Câu hỏi?

CSE 445: Học máy | Học kỳ 1, 2016-2017

48