intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Hồi quy - Nguyễn Thanh Tùng

Chia sẻ: Nguyễn Toàn | Ngày: | Loại File: PDF | Số trang:32

79
lượt xem
24
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Hồi quy cung cấp cho người học những kiến thức như: Các dạng giải thuật học máy; Giới thiệu mô hình hồi quy; Hồi quy tuyến tính; Hồi quy phi tuyến. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Hồi quy - Nguyễn Thanh Tùng

  1. Nội dung Regression 1. Giới thiệu mô hình hồi quy 2. Hồi quy tuyến tính (Hồi quy) 3. Hồi quy phi tuyến Nguyễn Thanh Tùng Bài giảng của DSLab Viện nghiên cứu cao cấp về Toán (VIASM) https://www.facebook.com/tungntdhtl 2 Các dạng giải thuật học máy Mô hình Hồi quy Do you have Yes labeled data? No • Xét: Supervised Unsupervised • Các phương pháp học giám sát: What do you want to predict? Do you want to group the data? – Học bởi các ví dụ (quan sát)-“Learn by example” Category Quantity Yes No – Xây dựng mô hình sử dụng tập các quan sát đã Classification Regression Cluster Dimensionality được gắn nhãn Analysis Reduction SVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA – Y có kiểu dữ liệu liên tục 3 4
  2. Ví dụ về hồi quy Ví dụ về hồi quy Cho bảng dữ liệu thông tin nhiên liệu như sau: VNA392=read.csv("data/VNA392_ HANSGN_2016_1.csv") Bài toán đặt ra: liệu có thể dự đoán nhiên liệu do phi attach(VNA392) công lựa chọn (FUEL_ORDER) plot(BLOCK_FUEL, FUEL_ORDER, của mỗi chuyến bay dựa vào pch=16) nhiên liệu do máy tính cung cấp (BLOCK_FUEL)? 5 6 Mô hình Hồi quy Hàm tổn thất • Giải thuật học L(qi ,qˆi ) – Lấy hàm ước lượng “tốt nhất” trong tập các hàm Sai số bình phương (Squared å(q -qˆ )i i 2 • Ví dụ: Hồi quy tuyến tính error) i – Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập các hàm tuyến tính Sai số tuyệt đối (Absolute error) å q - qˆ i i i 7 8
  3. Đo hiệu năng bài toán hồi quy Bài toán Hồi quy • Hàm tổn thất (Loss function): loại hàm dùng để đo lường sai số của mô hình • Vd: Sai số bình phương trung bình (Mean squared error - MSE) – Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy argument minimum: Cho giá trị nhỏ nhất của 1 hàm số trong miền xác định – Tập trung đo các sai số lớn hơn là các sai số nhỏ 9 10 Nội dung Hồi quy tuyến tính 1. Giới thiệu mô hình hồi quy • Hồi quy tuyến tính: là phương pháp học máy có giám sát đơn giản, được sử dụng để dự đoán giá trị biến đầu ra 2. Hồi quy tuyến tính dạng số (định lượng) 3. Hồi quy phi tuyến – Nhiều phương pháp học máy là dạng tổng quát hóa của hồi quy tuyến tính – Là ví dụ để minh họa các khái niệm quan trọng trong bài toán học máy có giám sát 11 12
  4. Hồi quy tuyến tính Hồi quy tuyến tính đơn giản • Tại sao dùng hồi quy tuyến tính? • Biến đầu ra Y và biến đầu vào X có mối – Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luật hàm bậc nhất quan hệ tuyến tính giữa X và Y như sau: – Tìm một mô hình (phương trình) để mô tả một mối liên quan giữa X và Y – Ta có thể biến đổi các biến đầu vào để tạo ra mối quan hệ • Các tham số của mô hình: tuyến tính – Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sử hệ số chặn (khi các xi=0) dụng cho bài toán suy diễn độ dốc 13 14 Hồi quy tuyến tính đơn giản Hồi quy tuyến tính đơn giản y-axis y-axis (x2, y2) (x2, y2) (x1, y1) (x1, y1) x-axis x-axis 0 Cho hai điểm (x1, y1) và (x2, y2) 0 • Tìm gradient (slope): độ dốc. Làm sao để "phát triển" một phương trình nối 2 điểm này? • Tìm hệ số chặn (intercept) (hệ số khởi đầu của y khi x=0) 15 Tuan V. Nguyen 16 Tuan V. Nguyen
  5. Hồi quy tuyến tính đơn giản Hồi quy tuyến tính đơn giản hệ số chặn y = f ( x ) = b1 x + b 0 • β0 và β1 chưa biết àTa ước tính giá trị của độ dốc chúng từ dữ liệu đầu vào • Lấy sao cho mô hình đạt “xấp xỉ tốt nhất” (“good fit”) đối với tập huấn luyện Figure 3.1 , ISL 2013 17 18 Các giả định Đường thẳng phù hợp nhất • Mối liên quan giữa X và Y là tuyến tính (linear) về tham số Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các • X không có sai số ngẫu nhiên tham số của phương trình đường thẳng ? 14 ? • Giá trị của Y độc lập với nhau (vd, Y1 không liên quan với Y2) ; 12 ? 10 • Sai số ngẫu nhiên (ε): phân bố chuẩn, trung bình 0, phương 8 sai bất biến 6 4 2 ε ~ N(0, s2) 0 0 2 4 6 8 10 19 20
  6. Bình phương nhỏ nhất Đường thẳng phù hợp nhất Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu, • Thông thường, để đánh giá độ phù hợp của mô do vậy luôn tồn tại lỗi gắn liền với đường thẳng hình từ dữ liệu quan sát ta sử dụng phương pháp Đường thẳng phù hợp nhất là đường giảm thiểu độ dao bình phương nhỏ nhất (least squares) động của các lỗi này • Lỗi bình phương trung bình (Mean squared error): 14 12 ˆ y 10 8 6 ( yi - yˆ i ) 4 2 0 0 2 4 6 8 10 21 22 Phần dư (lỗi) Ước lượng tham số Biểu thức (yi - yˆ ) được gọi là lỗi hoặc phần dư • Các ước số tính được bằng cách cực tiểu hóa MSE ei = (yi- yˆ ) Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi là nhỏ nhất SS n • Hệ số chặn của đường thẳng bˆ1 = xy SS x SSE = å ( yi - yˆ ) 2 n n i =1 trong đó: SS xy = å ( xi - x )( yi - y ) và SS x = å ( xi - x ) 2 i =1 i =1 23 24
  7. Ước lượng tham số Hồi quy tuyến tính đơn giản Hệ số chặn của đường thẳng bˆ0 = y - bˆ1 x trong đó n n å yi åx i y= i =1 x= i =1 n n 25 26 Phương pháp đánh giá Ví dụ X Y kilograms cost $ , 7 x = 37.83 SS xy 891.83 1 1 17 132 bˆ1 = = = 0.533 !"#$ = ((.) − .0) )2 ; "4$ = ( |Y6 − Y :6 | 21 150 y = 153.83 SS x 1612.83 ' N )*+ 6*+ 35 160 SS xy = 891 .83 39 162 bˆ0 = y - bˆ1 x = 153.83 - 0.553´ 37.83 = 132.91 2 và ! = 1 − ∑, )*+(.) − .0) )⁄∑, )*+(.) − .?) ) . 50 149 SS x = 1612.83 65 170 phương trình tìm được là Y = 132.91 + 0.553*X 27 28
  8. Diễn giải tham số Diễn ˆ giải tham số b 0 là hệ số chặn của Y. Nghĩa là, điểm mà đường Trong ví dụ trước, tham số ước lượng bˆ1 của độ dốc là 0.553. Điều thẳng cắt trục tung Y. Trong ví dụ này là $132.91 này có nghĩa là khi thay đổi 1 kg của X, giá của Y thay đổi 0.553 $ $132.91 Đây là giá trị của Y khi X = 0 29 30 Ước tính bằng R Phân tích bằng R • Chúng ta muốn ước tính mối liên quan giữa # Phân tích hồi qui tuyến tính lượng nhiên liệu cung cấp bởi máy tính m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) (Block_Fuel) và nhiên liệu do phi công lựa chọn summary(m1) (Fuel_order). • Mô hình hồi qui tuyến tinh: # vẽ biểu đồ Fuel_order= β0 + β1 *Block_Fuel + ε plot(VNA392$BLOCK_FUEL, VNA392$FUEL_ORDER, •R pch=16, col="blue", xlab = "Block_fuel", ylab = lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) "Fuel_Order") abline(m1, col="red") 31 32
  9. Diễn giải kết quả m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) Phân tích bằng R summary(m1) Residuals: Min 1Q Median 3Q Max Coefficients: -1057.4 -326.2 -100.2 274.8 1820.0 Estimate Std. Error t value Pr(>|t|) Coefficients: (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 *** Estimate Std. Error t value Pr(>|t|) BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 *** (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 *** BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 • Nhớ rằng mô hình là: Residual standard error: 556.8 on 52 degrees of freedom FUEL_ORDER= β0 + β1 * BLOCK_FUEL Multiple R-squared: 0.7422, Adjusted R-squared: 0.7372 F-statistic: 149.7 on 1 and 52 DF, p-value: < 2.2e-16 • Phương trình: R2 (hệ số xác định): là chỉ số rất có ích trong mô hình hồi qui tuyến Enh. FUEL_ORDER = 3680 + 0.711* BLOCK_FUEL R2 ×100 có nghĩ là phần trăm variaPon của biến y có thể giải thích bởi biến x • Ý nghĩa: phi công tăng 1000 kg mỗi khi chương trình máy R2 =1: tất cả dữ liệu có mối liên hệ xác định tính tăng 711 kg nhiên liệu cho từng chuyến bay. R2 =0: Không có mối quan hệ nào giữa X và Y. Mối tương quan này có ý nghĩa thống kê (P < 0.0001) 33 34 Hồi quy tuyến tính đa biến Hồi quy tuyến tính đa biến • Hồi quy tuyến tính đa biến: mô hình có nhiều hơn 1 biến dùng để dự đoán biến đích Figure 3.4 , ISL 2013 35 36
  10. Hồi quy tuyến tính đa biến Bình phương nhỏ nhất • Diễn giải hệ số βj : • Tìm các ước số bằng phương pháp bình phương nhỏ khi tăng Xj lên một đơn vị è Y sẽ tăng trung bình một lượng là βj nhất • Giải phương trình để tìm : 37 38 Hồi quy tuyến tính đa biến Ví dụ Cho é6 ù é1 3 9 16 ù ê1 é bˆ0 ù ê9 ú ê 6 13 13úú ê ú ê ú ê bˆ ú ê12 ú ê1 4 3 17 ú ˆ X =ê ú β =ê 1ú y=ê ú ê5 ú ê1 8 2 10 ú ê bˆ2 ú ê13 ú ê1 3 4 9 ú êˆ ú ê ú ëb3 û ê ú êë1 2 4 7 úû ëê2 ûú Figure 3.4 , ISL 2013 39 40
  11. Ví dụ Ví dụ é 47 ù é 2.59578 - 0.15375 - 0.01962 - 0.13737 ù ê- 0.15375 ê203ú 0.03965 - 0.00014 - 0.00144 úú é1 1 1 1 1 1ù b = (X X ) X y = ê ˆ T -1 T ê ú ê3 6 ê- 0.01962 - 0.00431 ú ê277ú 8 3 2úú - 0.00014 0.01234 4 ê ú ê ú X T =ê ë- 0.13737 - 0.00144 - 0.00431 0.01406 û ë598û ê 9 13 3 2 4 4ú ê ú é 3.20975 ù ê- 0.07573ú ë16 13 17 10 9 7 û =ê ú ê- 0.11162ú ê ú é6 26 35 72 ù é 47 ù ë 0.46691 û ê26 ê203ú 138 153 315 úú X X =ê T XTy = ê ú bˆ0 = 3.20975 bˆ1 = -0.07573 bˆ2 = -0.11162 bˆ3 = 0.46691 ê35 153 295 448 ú ê277ú ê ú ê ú ë72 315 448 944û ë598 û yˆ = 3.20975 - 0.07573 x1 - 0.11162 x2 + 0.46691x3 41 42 Hồi quy tuyến tính • Ưu điểm: m2
  12. Nội dung 1. Giới thiệu mô hình hồi quy 2. Hồi quy tuyến tính Q?&A! 3. Hồi quy phi tuyến 45 46 Phương pháp kết Cây phân loại và hồi quy hợp các mô hình Classification and Regression Trees (ensemblem models) (CART) 47 48
  13. Xây dựng cây CART thế nào? Mô hình liên tục từng đoạn(piecewise) Có 2 dạng: • Dự đoán liên tục trong mỗi vùng 1.Hồi quy 2.Phân loại (lớp) Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. 49 50 Mô hình liên tục từng đoạn Minh họa cây CART own_rent_family=1,3 Hồi quy persons_in_house>=2.5 persons_under_18>=0.5 income>=2.5 persons_in_house>=3.5 job=1,2,3,4,5,6,8,9 1.241 job=1,2,3,4,5,6,8,9 1.908 2.461 residence_time>=2. 1.446 2.651 1.843 3.8 2.421 3.8 Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. 51 52
  14. Minh họa cây CART Cây hồi quy Phân lớp Giá trị dự đoán lưu tại lá của cây hồi quy. Nó được >nh bằng giá trị trung bình của tất cả các mẫu (bản ghi) tại lá đó. 53 54 Cây hồi quy Cây hồi quy • Giả sử ta có 2 vùng R1 và R2 với Yˆ1 = 10, Yˆ2 = 20 • Cho 2 biến đầu vào và 5 vùng • Với các giá trị của X mà X Î R1 ta sẽ có giá trị • Tùy theo từng vùng dự đoán là 10, ngược lại X Î R2 ta có kết quả dự của giá trị mới X ta đoán là 20. sẽ có dự đoán 1 trong 5 giá trị cho Y. 55 56
  15. Tách các biến X Tách các biến X Ta tạo ra các phân 1. Đầu tiên tách vùng bằng cách tách trên X1=t1 lặp đi lặp lại một trong các biến X thành hai vùng 57 58 Tách các biến X Tách các biến X 1. Đầu tiên tách 1. Đầu tiên tách trên X1=t1 trên X1=t1 2. Nếu X1
  16. Tách các biến X Tách các biến X 1. Đầu tiên tách trên X1=t1 2. Nếu X1t1, • Khi ta tạo các vùng theo tách trên X1=t3 phương pháp này, ta có thể 4. Nếu X1>t3, biểu diễn chúng dùng cấu trúc tách X2=t4 cây. • Phương pháp này dễ diễn giải mô hình dự đoán, dễ diễn giải kết quả 61 62 Ưu điểm của CART Nhược điểm của CART • Dễ xử lý dữ liệu thiếu (surrogate splits) • Mạnh trong xử lý dữ liệu chứa thông tin rác • Cây không ổn định (Instability of trees) (non-informative data) • Thiếu Hnh trơn (Lack of smoothness) • Cho phép tự động lựa chọn thuộc tính (variable selection) • Khó nắm bắt độ cộng Hnh (Hard to capture • Dễ giải thích, lý tưởng để giải thích “tại sao” đối với addiRvity) người ra quyết định • Xử lý được tính tương tác cao giữa các thuộc tính 63 64
  17. Random forest Ensemble Models Fernández-Delgado, Manuel, et al. "Do we need hundreds of classifiers to solve real world classification problems?." The Journal of Machine Learning Research15.1 (2014): 3133-3181. Kết luận của nghiên cứu trên của nhóm Manuel là phương 65 66 pháp Random Forests hầu hết cho kết quả tốt nhất. Bootstrap là gì? Bootstrap là gì? • Giả sử ta có 5 quả bóng gắn nhãn A,B,C,D, E và bỏ tất cả chúng vào trong 1 • Bootstrap là phương cái giỏ. pháp lấy mẫu có hoàn lại • Lấy ra ngẫu nhiên 1 quả từ giỏ và ghi lại nhãn, sau đó bỏ lại quả bóng vừa (sampling with bốc được vào giỏ. replacement)-> một • Tiếp tục lấy ra ngẫu nhiên một quả bóng và lặp lại quá trình trên cho đến khi mẫu có thể xuất hiện việc lấy mẫu kết thúc. Việc lấy mẫu này gọi là lấy mẫu có hoàn lại. nhiều lần trong một lần • Kết quả của việc lấy mẫu như trên có thể như sau (giả sử kích thước mẫu là lấy mẫu 10): C, D, E, E, A, B, C, B, A, E Nguồn: bis.net.vn/forums 67 68
  18. Bootstrap là gì? • Là kỹ thuật rất quan trọng trong thống kê Các phương pháp kết hợp: Bagging • Lấy mẫu có hoàn lại từ tập dữ liệu ban đầu để tạo ra các tập dữ liệu mới 69 70 Bagging là gì? Bagging là gì? “Bootstrap Aggregation” “Bootstrap Aggregation” + + 71 72
  19. Bagging Bagging Giải quyết được tính thiếu ổn định của CART • Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. + + 73 74 Bagging Bagging • Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. HasCe, Trevor, et al. The elements of staCsCcal learning. Vol. 2. No. 1. New York: Springer, 2009. … Hastie, Trevor, et al. The elements of statistical • Lấy trung bình (hoặc bình chọn theo số đông- majority vote) các bộ dự đoán learning. Vol. 2. No. 1. New York: Springer, 2009. độc lập. • Bagging giảm phương sai (variance) và giữ bias. 75 76
  20. Bagging Original Data 1 2 3 4 5 6 7 8 9 10 Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9 Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2 Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7 • Lấy mẫu có hoàn lại Bonus! Out-of-bag cross-validation • Xây dựng bộ phân lớp trên mỗi mẫu bootstrap • Mỗi mẫu bootstrap chứa xấp xỉ 63.2% số lượng mẫu trong tập dữ liệu ban đầu • Số lượng mẫu còn lại (36.8%) được dùng để kiểm thử 77 78 Các mẫu Out-of-bag (OOB) Dự đoán mẫu OOB • Quá trình Bootstrapping: • Với mỗi mẫu, tìm các cây mà nó là OOB. … • Dự đoán giá trị của chúng từ các cây này. • Ước lượng lỗi dự đoán của cây (bagged trees) dùng tất cả • Mỗi cây chỉ sử dụng một tập con các mẫu huấn luyện (trung bình số mẫu ~2/3). các dự đoán OOB. • Số mẫu cho OOB khoảng ~1/3 của cây quyết định. • Tương tự như kỹ thuật kiểm tra chéo (cross-validation). 79 80
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2