intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Chương 3: Hồi qui dữ liệu

Chia sẻ: Tan Gia | Ngày: | Loại File: PDF | Số trang:52

105
lượt xem
16
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Định nghĩa - Hồi qui (regression) J. Han et al (2001, 2006): Hồi qui là kỹ thuật thống kê cho phép dự đoán các trị (số) liên tục. Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biế R. D. Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay...

Chủ đề:
Lưu

Nội dung Text: Chương 3: Hồi qui dữ liệu

  1. Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 3: Hồi qui dữ liệu Cao Học Ngành Khoa Học Máy Tính Giáo trình điện tử Biên soạn bởi: TS. Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) 1 Học kỳ 1 – 2011-2012 1
  2. Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009. [6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006. [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008. [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010. 2 2
  3. Nội dung Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu Chương 3: Hồi qui dữ liệu Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệu Chương 8: Ứng dụng khai phá dữ liệu Chương 9: Các đề tài nghiên cứu trong khai phá dữ liệu Chương 10: Ôn tập 3 3
  4. Chương 3: Hồi qui dữ liệu 3.1. Tổng quan về hồi qui 3.2. Hồi qui tuyến tính 3.3. Hồi qui phi tuyến 3.4. Ứng dụng 3.5. Các vấn đề với hồi qui 3.6. Tóm tắt 4 4
  5. 3.0. Tình huống 1 Ngày mai giá cổ phiếu STB sẽ là bao nhiêu??? 5 5
  6. 3.0. Tình huống 2 y Y1 y=x+1 Y1’ x X1 Mô hình phân bố dữ liệu của y theo x??? 6 6
  7. 3.0. Tình huống 3 Bài toán phân tích giỏ hàng thị trường (market basket analysis) sự kết hợp giữa các mặt hàng? 7 7
  8. 3.0. Tình huống 4 Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam Sự giải trí cảm nhận (+0.209) Chất lượng thông tin (+0.261) Chất lượng thông tin cảm nhận (+0.199) Sự khó chịu cảm nhận (-0.175) Sự tin cậy cảm nhận Thái độ về tính riêng tư Sự tương tác (+0.373) Chuẩn chủ quan (+0.254) Nhận thức kiểm soát hành vi (+0.377) 8 8
  9. 3.0. Tình huống … Hồi qui (regression) Khai phá dữ liệu có tính dự báo (Predictive data mining) Tình huống ??? Khai phá dữ liệu có tính mô tả (Descriptive data mining) Tình huống ??? 9 9
  10. 3.1. Tổng quan về hồi qui Định nghĩa - Hồi qui (regression) J. Han et al (2001, 2006): Hồi qui là kỹ thuật thống kê cho phép dự đoán các trị (số) liên tục. Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến R. D. Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu. R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics, 10 Vol. 19, No. 4. (Nov., 1977), pp. 415-428. 10
  11. 3.1. Tổng quan về hồi qui Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng (responses/dependent variables). Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables) β: các hệ số hồi qui (regression coefficients) 11 11
  12. 3.1. Tổng quan về hồi qui Phương trình hồi qui: Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables) β: các hệ số hồi qui (regression coefficients) X dùng để giải thích sự biến đổi của các đáp ứng Y. Y dùng đề mô tả các hiện tượng (phenomenon) được quan tâm/giải thích. Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X. β mô tả sự ảnh hưởng của X đối với Y. 12 12
  13. 3.1. Tổng quan về hồi qui Phân loại Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Hồi qui đơn biến (single) và đa biến (multiple) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric) 13 13
  14. 3.1. Tổng quan về hồi qui Phân loại Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Linear in parameters: kết hợp tuyến tính các thông số tạo nên Y Nonlinear in parameters: kết hợp phi tuyến các thông số tạo nên Y [Regression and Calibration.ppt] 14 14
  15. 3.1. Tổng quan về hồi qui Phân loại Hồi qui đơn biến (single) và đa biến (multiple) Single: X = (X1) Multiple: X = (X1, X2, …, Xk) y = 6 .3 9 7 2 + 2 0 .4 9 2 1 x 1 + 0 .2 8 0 5 x 2 ˆ y = 26.89 + 4.06 x ˆ 15 [Chapter 6 Regression and Correlation.ppt] 15
  16. 3.1. Tổng quan về hồi qui Phân loại Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Parametric: mô hình hồi qui với hữu hạn thông số Nonparametric: mô hình hồi qui với vô hạn thông số Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm Types of (Additive) Model Mathematical Form Y = β0 + β1*X Parametric Y = β0 + f(X) Nonparametric Y = β0 + β1*X1 + f(X2) Semiparametric [Wikipedia] [GAM - nonparameteric regression technique.ppt] P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003. 16 16
  17. 3.1. Tổng quan về hồi qui Phân loại Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric) Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg. log-linear models) The objective of the analysis is descriptive – to describe the associative structure among the variables. Asymmetric: mô hình hồi qui có tính dự báo (predictive) (eg. linear regression models, logistic regression models ) The variables are divided in two groups, response and explanatory – to predict the responses on the basis of the explanatory variables. Generalized linear models: symmetric vs. asymmetric 17 P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003. 17
  18. 3.2. Hồi qui tuyến tính Hồi qui tuyến tính đơn biến Đường hồi qui (regression line) Hồi qui tuyến tính đa biến Mặt phẳng hồi qui (regression plane) 18 18
  19. 3.2.1. Hồi qui tuyến tính đơn biến Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y không được giải thích từ X: -Dạng đường thẳng -Dạng parabola 19 19
  20. 3.2.1. Hồi qui tuyến tính đơn biến •Y= β0 + β1*X1 → Y = 0.636 + 2.018*X •Dấu của β1 cho biết sự ảnh hưởng của X đối với Y. 20 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2