intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

HỒI QUI TUYẾN TÍNH (Linear regression)

Chia sẻ: Nguyen Uyen | Ngày: | Loại File: PDF | Số trang:11

276
lượt xem
38
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích hồi qui (Regression) là kỹ thuật rất thường dùng trong thống kê y học nhằm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác. Như vậy, phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt. Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo đường thẳng). Sở dĩ gọi là hồi đơn biến (simple linear regression) vì chỉ dùng 1 biến số này (gọi...

Chủ đề:
Lưu

Nội dung Text: HỒI QUI TUYẾN TÍNH (Linear regression)

  1. HỒI QUI TUYẾN TÍNH (Linear regression) I. GIỚI THIỆU Phân tích hồi qui (Regression) là k ỹ thuật rất thường dùng trong thống kê y học nh ằm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác. Như vậy, phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt. Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo đường thẳng). Sở dĩ gọi là hồi đơn biến (simple linear regression) vì chỉ dùng 1 biến số n ày (g ọi là biến số độc lập – independent variable hay biến số giải thích – explanatory variable) để tiên đoán (hay ước lượng) ra biến số kia (biến số phụ thuộc – dependent variable). Trong hồi qui đa biến – multiple regression có nhiều hơn 1 independent variable được sử dụng để tiên đoán. II. THIẾT LẬP PHƯƠNG TRÌNH HỒI QUI MẪU (Sample regression equation) Phương trình (pt) hồi qui mẫu là pt được thiết lập từ số liệu của 1 mẫu (rút ra từ dân số) và sẽ được suy diễn như 1 pt hồi qui cho dân số (nếu thích hợp).
  2. Khái niệm về đường thẳng vừa khít nhất (line of best fit) Giống như trường hợp với Pearson r, giả định quan trọng nhất trong hồi qui tuyến tính là 2 biến số được xem xét có mối liên quan tuyến tính với nhau . Nghĩa là một đường thẳng có thể đ ược sử dụng để mô tả mối liên quan này. Công thức đại số của pt đường thẳng là: y = a + bx theo đó b là độ dốc (slope) của đư ờng thẳng và a là điểm cắt (intercept) của đường thẳng vào trục y. Độ dốc cho biết sự thay đổi trung b ình ở y có đư ợc khi x thay đổi. Độ dốc càng nhiều (đư ờng thẳng dựng đứng hơn) thì y cũng thay đổi nhiều hơn tương ứng với mỗi thay đổi của x, và mối tương quan của 2 biến số cũng mạnh hơn. Giá trị tại điểm cắt a cho biết giá trị trung b ình của y khi x = 0. y
  3. x Với 2 điểm bất kỳ, rất dễ để xác định ph ương trình đường thẳng. Tuy nhiên, khi có nhiều điểm hơn (≥ 3 điểm), khó có thể tìm thấy 1 đường thẳng đi qua các điểm này cùng 1 lúc n goại trừ khi có mối tương quan tuyệt đối ± 1. Như vậy, trong hồi qui tuyến tính, cần phải tìm một đ ường thẳng “vừa khít nh ất” với các điểm. Đó cũng chính là đường hồi qui (regression line). Công thức của pt đ ường thẳng cho thấy tương ứng với mỗi giá trị của x, chỉ có 1 giá trị của Y, và đây cũng là phép đo chính xác, nghĩa là không có sai số. Trong thực tế, hầu hết các khảo sát về mối tương quan đều không chính xác. Do vậy, pt hồi qui lẽ ra nên được viết là: y = a + bx + e theo đó e (error) là sai số. Chính điều này đ ã thừa nhận là pt tiên đoán không thể giúp tiên đoán y chính xác tuyệt đối được. Như vậy, với một x cho trước, có thể có nhiều hơn một y. Thí dụ chứng minh: x Y x Y 0 4 3 10
  4. 0 5 3 11 0 6 3 12 1 6 4 12 1 7 4 13 1 8 4 14 2 8 5 14 2 9 5 15 2 10 5 16 Với mỗi giá trị của x biết trước, có 3 giá trị khác nhau của y. Như vậy, đường hồi qui không th ể đi qua tất cả các điểm có tọa độ (x, y).
  5. Đường thẳng trong đồ thị phân tán là đường “vừa khít nhất” cho tất cả các điểm. Khoảng cách giữa các điểm và đường hồi qui tiêu biểu cho sai số (e) trong công thức. Khoảng cách giữa các điểm và đường “vừa khít nhất” đ ược tính:   là giá trị tiên đoán được của Y từ x di = yi – y y là số trung bình của dân số (bao gồm) các Y có thể có tương ứng với một x đ ã cho trước. Tính tổng độ lệch (từ đường hồi qui) b ình phương (sum of the squared deviations) đ ể đo tổng độ vừa khít của đường hồi qui:  d i2  ( yi  y ) 2 (Sum of Squared Errors) SSE = Đường hồi qui đi qua các số trung bình của các giá trị Y có thực (observed) tương ứng với x đã cho trước.
  6. Phương trình hồi qui mẫu Pt hồi qui mẫu có thể được viết như sau:   Y là giá trị ước lượng được của Y cho bởi đ ường Y   0  1 x hồi qui   0 là hằng số chỉ nơi đường hồi qui cắt trục Y, và ước lượng giá trị trung bình của Y khi x=0   1 là số ước lượng độ dốc, cho biết sự thay đổi trung bình của Y đi kèm với 1 sự thay đổi ở x.
  7.    0 và  1 đ ều được suy diễn cho hệ số hồi qui dân số (thay đổi từ mẫu này qua mẫu khác).    1  xy / x 2 Công thức tính:  0  Y  1 x Thí dụ minh họa X2 Y2 Y XY b/n X Cao (inches) Cân nặng (lbs) 1 60 135 3 .600 18.225 8.100 2 60 120 3 .600 14.400 7.200
  8. 3 62 140 3 .844 19.600 8.680 4 62 130 3 .844 16.900 8.060 5 62 135 3 .844 18.225 8.370 6 64 145 4 .096 21.025 9.280 7 66 150 4 .356 22.500 9.900 8 68 150 4 .624 22.500 10.200 9 68 160 4 .624 25.600 10.880 Total 572 1.265 36.432 178.975 80.670 X 2  36.432 Y 2  178.975 XY  80.670 x = 63,6 y = 104,6 xy  272, 2 x 2  78, 2 y 2  1.172, 2 sx = 3,13 sy = 1 2,1 Pearson r = 0,973
  9.    1  xy / x 2  0  Y  1 x = 272,2/78,2 = 140,6 – 3,48(63,3) = 3,48 = –80,7 Như vậy, để tiên đoán trọng lượng từ chiều cao, pt hồi qui là:  Y  80, 7  3,84 X III. KIỂM ĐỊNH GIẢ THUYẾT Trước khi sử dụng pt hồi qui để tiên đoán, cần phải tiến hành kiểm định để xem độ dốc của đường hồi qui (thuộc dân số) có khác không (zero) hay không. Kiểm định H0: β1 = 0 với số TKKĐ t (t statistic) + Số liệu: (sử dụng thí dụ minh họa) + Giả định: 1 Đối với mỗi giá trị của X có 1 tiểu dân số (các giá trị) Y. Các tiểu dân số Y phân phối b ình thường 2 Các tiểu dân số Y có phương sai bằng nhau 3 Số trung b ình của các tiểu dân số Y cùng nằm trên 1 đường thẳng 4 Các giá trị của Y độc lập về mặt thống kê.
  10. + Giả thuyết H0 : 1  0 α = 0,05 HA: 1  0 + Số TKKĐ:  t   1 / ( s yx / x 2 ) + Phân phối của số TKKĐ: PP. t với df = n–2 khi H0 đúng và các giả định đư ợc thỏa. + Qui tắc quyết định: giá trị tới hạn của t ở 7 df bằng 2,365. syx = sy 1  r 2 =12,1 1  0,808 =5,30 + Tính số TKKĐ: Standard error t  3, 48 / (5,30 / 78, 2)  3,84 / 0, 60 = 5,84 + Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 5,84 (> 2,365). + Kết luận: Độ dốc của đường hồi qui không phải bằng zero. Kiểm định H0: β1 = 0 với số TKKĐ F (F statistic) Dùng ANOVA với số TKKĐ là tỉ số phương sai V.R.
  11. ---------------------------------------------------------------------------------------------------- ---- ------------------------------------------------------------
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2