HỒI QUI TUYẾN TÍNH
(Linear regression)
I. GIỚI THIỆU
Phân tích hi qui (Regression) là k thuật rất thường dùng trong thống kê y học
nhm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác.
Như vậy, phân tích hồi qui ch giúp tn đoán (hoặc ước ng) khi 2 biến số mối
tương quan khá tt.
Sdĩ gọi là hồi qui tuyến tính vì k thuật chỉ giúp đo đạc các mối liên quan tuyến tính
(theo đường thẳng). Sở gi là hồi đơn biến (simple linear regression) vì chdùng 1
biến số này (gọi là biến số độc lập independent variable hay biến số giải thích
explanatory variable) để tiên đoán (hay ướcợng) ra biến số kia (biến số phụ thuộc
dependent variable). Trong hồi qui đa biến multiple regression nhiu hơn 1
independent variable được s dụng đ tiên đoán.
II. THIẾT LẬP PHƯƠNG TRÌNH HI QUI MẪU (Sample regression equation)
Phương trình (pt) hi qui mẫu pt được thiết lập từ số liệu của 1 mẫu (rút ra từ
dân s) và sẽ được suy diễn như 1 pt hi qui cho dân số (nếu thích hp).
Khái niệm về đường thẳng vừa khít nht (line of best fit)
Giống như trường hợp với Pearson r, giđịnh quan trọng nhất trong hồi qui tuyến tính
2 biến số được xem xét có mối liên quan tuyến tính với nhau. Nghĩa là một đường
thẳngthể được sử dụng đ mô tả mối liên quan này. Công thức đại số ca pt đưng
thẳng là:
y = a + bx
theo đó b độ dốc (slope) của đường thẳng a điểm cắt (intercept) của đường
thẳng vào trục y.
Độ dốc cho biết sự thay đổi trung bình y được khi x thay đổi. Độ dốc càng nhiu
(đưng thẳng dng đứng hơn) thì y cũng thay đổi nhiều n tương ứng với mỗi thay
đổi của x, và mối tương quan của 2 biến số cũng mnh hơn.
Giá trị tại điểm cắt a cho biết g trị trung bình của y khi x = 0.
y
x
Với 2 điểm bất k, rất dễ để xác định phương trình đường thng. Tuy nhiên, khi có
nhiu điểm hơn (≥ 3 điểm), khó thể tìm thy 1 đưng thẳng đi qua các điểm này
cùng 1 lúc ngoại trừ khi mối tương quan tuyệt đối ± 1. Như vậy, trong hồi qui
tuyến tính, cần phải tìm mt đường thẳng “va khít nhất” với các điểm. Đó cũng
chính là đường hồi qui (regression line).
Công thức của pt đường thẳng cho thấy tương ứng với mỗi giá trcủa x, chỉ 1 giá
trcủa Y, và đây ng là phép đo chính xác, nghĩa là không sai số. Trong thực tế,
hầu hết các khảo sát về mối tương quan đều không cnh xác. Do vy, pt hồi qui lra
nên được viết là:
y = a + bx + e
theo đó e (error) sai s. Chính điềuy đã tha nhn là pt tiên đoán không thgp
tiên đoán y chính xác tuyt đối được. Như vậy, với một x cho trước, th nhiều
hơn một y.
Thí dchứng minh:
x Y x Y
0 4 3 10
0 5 3 11
0 6 3 12
1 6 4 12
1 7 4 13
1 8 4 14
2 8 5 14
2 9 5 15
2 10 5 16
Với mỗi giá trị của x biết trước, có 3 giá trị khác nhau ca y. Như vy, đường hồi qui
không thể đi qua tất c các điểm tọa độ (x, y).
Đường thẳng trong đồ thphân tán đường va khít nhất” cho tất cả các điểm.
Khoảng cách giữa các đimđường hi qui tiêu biu cho sai số (e) trong công thức.
Khoảng cách giữa các điểm và đường “vừa khít nhất” đượcnh:
di = yi
y
y
giá trị tiên đoán được của Y từ x
strung bình của dân số (bao gồm) các Y có th
tương ứng với một x đã cho
trước.
Tính tổng đlệch (từ đường hồi qui) bình phương (sum of the squared deviations) đ
đo tổng độ vừa khít của đưng hồi qui:
(Sum of Squared Errors) SSE =
2 2
( )
i i
d y y
Đường hồi qui đi qua các số trung bình của các giá tr Y thực (observed)
tương ứng với x đã cho trước.