
1
H
Hồ
ồi
iquy
quy v
và
àtương
tương quan
quan
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FEV (lít)
M
MỤ
ỤC TIÊU
C TIÊU
•Đánh giá sựliên quan giữa hai biếnđịnh
lượng thông qua biểuđồ
•Xây dựng và phiên giảiđường hồi quy
•Tính và phiên giảiđược hệsốtương quan
•Kiểmđịnh đường hồi quy
T
TẠ
ẠI SAO C
I SAO CẦ
ẦN?
N?
–Dựđoán các giá trịcủa các biến phụthuộc (y)
dựa trên các giá trịcủa các độc lập (x1,
x2,…xk.).
•ví dụ: dựđoán huyết áp dựa trên tuổi, cân nặng, ....
–Phân tích mối quan hệgiữa các biếnđộc lập
và biến phụthuộc:
•ví dụ: mối quan hệgiữa mứcđộmỡtrong máu và
tuổi
MÔ HÌNH H
MÔ HÌNH HỒ
ỒI QUI
I QUI
•Biểuđồchấmđiểm thểhiện quan hệgiữachiều cao và
dung tích thởgắng sức(FEV)
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FEV (lít)
MÔ HÌNH H
MÔ HÌNH HỒ
ỒI QUI (
I QUI (ti
tiế
ếp
p)
)
•Nhận xét gì?
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FEV (lít)
•FEV tăng cùng với Chiều cao
•Vậy FEV tăng nhưthếnào?
•Tăng bao nhiêu khi chiều cao tăng thêm xcm?
MÔ HÌNH H
MÔ HÌNH HỒ
ỒI QUI (
I QUI (ti
tiế
ếp
p)
)
•Mô hình tuyến tính
y= a+ bx + e
•Trong đó
y = biến phụthuộc
x = biếnđộc lập
a= giao điểm
b= độdốc
e= giá trịsai sốx
y
a
b
y= a+ bx + e

2
C
CÁ
ÁC BƯ
C BƯỚ
ỚC TI
C TIẾ
ẾN H
N HÀ
ÀNH XÂY
NH XÂY
D
DỰ
ỰNG ĐƯ
NG ĐƯỜ
ỜNG H
NG HỒ
ỒI QUI
I QUI
1. Đánh giá các giảthuyết
2. Xác định các hệsố
3. Đánh giá các hệsốhồi quy
4. Sửdụng đểước lượng/dựđóan
Đ
ĐÁ
ÁNH GI
NH GIÁ
ÁC
CÁ
ÁC GI
C GIẢ
ẢTHUY
THUYẾ
ẾT
T
•Biến x, y là biến ngẫu nhiên
•Giá trịcủa biến y có phân bốchuẩn
•Tập hợp các giá trịcủa y có
phương sai nhưnhau
X
XÁ
ÁC Đ
C ĐỊ
ỊNH C
NH CÁ
ÁC H
C HỆ
ỆS
SỐ
Ố
•Các hệsốđượcước lượng:
–trên một mẫu rút ra từquần thể
–tính tóan các giá trịthống kê mẫu
–xây dựng phương trình đường thẳng tốt nhất
mô tảđược mối quan hệgiữa hai biến?
Vậyđường thẳng tốt
nhất là đường nào?
w
w
w
ww w w w
w
w w
w
w w
w
x
y
ĐƯ
ĐƯỜ
ỜNG (H
NG (HỒ
ỒI QUI)
I QUI)
TRUNG BÌNH T
TRUNG BÌNH TỐ
ỐI THI
I THIỂ
ỂU
U
Là mộtđường thẳng mà từđó tổng
bình phương trung tớiđường thẳng
trung bình là nhỏnhất (tối thiểu)
ĐƯ
ĐƯỜ
ỜNG (H
NG (HỒ
ỒI QUI)
I QUI)
TRUNG BÌNH T
TRUNG BÌNH TỐ
ỐI THI
I THIỂ
ỂU
U
3
3
w
w
w
w
41
1
4
(1,2)
2
2
(2,4)
(3,1.5)
Tổng bình phương = (2 - 1)2+(4 - 2)2 +(1.5 - 3)2+
(4,3.2)
(3.2 - 4)2= 6.89
Tổng bình phương = (2 -2.5)2+ (4 - 2.5)2 + (1.5 - 2.5)2+ (3.2 - 2.5)2= 3.99
2.5
Hãy so sánh hai đường thẳng
Tổng bình phương càng
nhỏthì đường thẳng phù
hợp với bộsốliệu tốt
hơn.
T
TÍ
ÍNH H
NH HỆ
ỆS
SỐ
ỐH
HỒ
ỒI QUI
I QUI
Tính các hệsốhồi quy từmẫu
åå
åå å
å
å
=
=
=
= =
=
=
-
-
=
-
--
=
n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
i
i
n
i
ii
n
x
x
n
yx
yx
xx
yyxx
b
1
1
2
2
1
1 1
1
2
1
)(
))((
)(
))((
xbya -=
Đường hồi quy
xbby
ˆ10 +=
Đường hồi quy quần thể
exy ++= ba

3
•Chiều cao và FEV của 20 sinh viên
V
VÍ
ÍD
DỤ
Ụ
3.60162.0
3.20161.3
3.42161.2
2.85161.2
3.19160.4
3.54157.0
3.54154.0
FEVheight
Biến phụthuộc, Y
Biếnđộc lập, X
T
TÍ
ÍNH TAY
NH TAY
Sy2
Sx2
SxySxSx
...........................
38.028.42209577635724776
0.713.42916722545905485
10.05.42500624139505079
(y-y)2
(x-x)2
y2
x2
xyyx
Lập bảng sốliệu
ĐƯ
ĐƯỜ
ỜNG H
NG HỒ
ỒI QUI
I QUI
;86,3
38,165
=
=
y
x
n = 20.
xbxay 0744,045,8
ˆ+-=+=
å=6,3307xå=1,77y
å=2,547587
2
xå=0,12797xy
å=8,306
2
y
20
)6,3307(
2,547587
20
)1,77)(6,3307(
0,12797
2
-
-
=b= 0,0744. 38,165*0744,086,3 -=a= -8,45
• Đường hồi quy mô tảmối quan hệgiữa FEV
và chiều cao sẽlà:
FEV=
FEV=-
-8,45 + 0,0744*
8,45 + 0,0744*chi
chiề
ề
u
ucao
cao
Tính đường hồi qui bằng MS EXCEL
Tools > Data Analysis > Regression >
[bôi đen khỏang y và khỏang x] > OK
ĐƯ
ĐƯỜ
ỜNG H
NG HỒ
ỒI QUI
I QUI
K
KẾ
ẾT QU
T QUẢ
ẢT
TỪ
ỪEXCEL
EXCEL
0.12600.02280.00723.03090.02450.0744X Variable 1
0.0856-16.97860.0521-2.07984.0611-8.4465Intercept
Upper 95%Lower 95%P-valuet StatSECoef.
9.438719Total
0.34726.249318Residual
0.00729.18653.18943.18941Regression
Sig. FFMSSSdf
ANOVA
20Observations
0.5892Standard Error
0.3011Adjusted R Square
0.3379R Square
0.5813Multiple R
Regression Statistics
SUMMARY OUTPUT
xy 0744,045,8
ˆ+-=
PHIÊN GI
PHIÊN GIẢ
ẢI ĐƯ
I ĐƯỜ
ỜNG H
NG HỒ
ỒI QUI
I QUI
2.00
3.00
4.00
5.00
6.00
150.0 155.0 160.0 165.0 170.0 175.0
Chiều cao (cm)
FEV (lít)
heightFEV 0744,045,8 +-=
Đây là giá trịđộdốc, với mỗi một cm cao
lên thì FEV sẽtăng 0,0744 lít
giá trịđiểm cắt

4
Đ
ĐÁ
ÁNH GI
NH GIÁ
Á ĐƯ
ĐƯỜ
ỜNG H
NG HỒ
ỒI QUI
I QUI
•Phương pháp bình phương tối thiểu sẽcho
chúng ta đường hồi qui kểcảkhi không có mối
quan hệtuyến tính giữa x và
•Chúng ta cần phảiđánh giá xem đường hồi qui
có phải là tốt nhất hay không?
•Chúng ta đánh giá độdốc (slope) củađường hồi
qui (ít khi đánh giá điểm cắt–Intercept)
Đ
ĐÁ
ÁNH GI
NH GIÁ
Á Đ
ĐỘ
ỘD
DỐ
ỐC
C
–Khi không có mối quan hệtuyến tính giữa
hai biến, đường hồi qui sẽnằm ngang
q
q
q
q
q
q
q
qq
q
q
q
q
các giá trị(x) khác nhau cho
kết quảkhác nhau ở(y)
độdốc khác không (0)
q
q
q
q
q
qq
q
q
q
q
Kh. Có mối quan hệtuyến tính
các giá trị(x) khác nhau cho kết
quảkhông khác nhau ở(y)
độdốc bằng không (0)
Có mối quan hệtuyến tính
•Chúng ta có thểsuy luậnbtừb bằng cách kiểm
định:
H0: b= 0
H1: b≠0 (or < 0,or > 0)
–The test statistic is
–Nếu sai sốcó phân bốchuẩn thì thống kê này sẽcó
phân bốt-student với df=n-2
b
s
b
tb-
=
sai sốchuẩn của b.
å-
=2
2
)( xx
s
s
i
b
trong đó
KI
KIỂ
ỂM Đ
M ĐỊ
ỊNH Đ
NH ĐỘ
ỘD
DỐ
ỐC
C
( )
åå ---
-
=2222 )()(
2
1xxbyy
n
sii
•Kiểmđịnh giảthuyết thống kê vềmối quan
hệtuyết tính giữa chiều cao và dung tích
thởgắng sức của các sinh viên trường y,
sửdụng a= 5%.
V
VÍ
ÍD
DỤ
Ụ
•đểtính t, chúng ta cần:
•b=0,0744
•sb=0,025
•vùng bác bỏt > t.025 or t < -t.025 with n= n-2 =
18; khỏang, t.025 = 2,1
•kết luận: độdốcđường hồi qui khác 0 có ý
nghĩa TK, đường hồi qui là mô tảtốt nhất.
031,3
025
00744,0 =
-
=
-
=.
s
b
t
b
b
V
VÍ
ÍD
DỤ
ỤKi
Kiể
ểm
mđ
đị
ịnh
nh đ
độ
ộd
dố
ốc
c:
: k
kế
ết
t
qu
quả
ảt
từ
ừEXCEL
EXCEL
0.12600.02280.00723.03090.02450.0744X Variable 1
0.0856-16.97860.0521-2.07984.0611-8.4465Intercept
Upper 95%Lower 95%P-valuet StatSECoef.
9.438719Total
0.34726.249318Residual
0.00729.18653.18943.18941Regression
Sig. FFMSSSdf
ANOVA
20Observations
0.5892Standard Error
0.3011Adjusted R Square
0.3379R Square
0.5813Multiple R
Regression Statistics
SUMMARY OUTPUT
có đủbằng chứng đểkết
luận chiều cao có khảnăng
dựđoán FEV

5
Ph
Phầ
ầ
n
n2
2
–Đểđo lường độmạnh của mối quan hệ
tuyến tính chúng ta dùng hệsốxác định
SST
SSR
yy
yy
R=
-
-
=
å
å
2
2
2
)(
)
ˆ
(
H
Hệ
ệs
số
ốx
xá
ác
cđ
đị
ịnh
nh
H
Hệ
ệs
số
ốx
xá
ác
cđ
đị
ịnh
nh
•Sựbiến thiên của các giá trịquan sát và
giá trịtrung bình:
Tổng biến thiên của y (SST)
Mô hình hồi qui (SSR)
còn lạ
i, chư
alý giả
i
Sai số(SSE)
lý giả
imộ
tphầ
n
H
Hệ
ệs
số
ốx
xá
ác
cđ
đị
ịnh
nh
x1x2
y1
y2
y
Hai điểm sốliệu (x1,y1) và (x2,y2)
=-+- 2
2
2
1)yy()yy( 2
2
2
1)yy
ˆ
()yy
ˆ
(-+- 2
22
2
11 )y
ˆ
y()y
ˆ
y( -+-+
Tổng biến thiên y = Biến thiên lý giải bằng
đường hồi qui
+ Phần chưa lý giải (sai số)
biến thiên của y = SSR + SSE
H
Hệ
ệs
số
ốx
xá
ác
cđ
đị
ịnh
nh
•R2 đo lường tỷlệbiến thiên của y được lý giải bằng
sựbiến thiên của x
åå
åå
å-
-
=
-
=
n
y
y
n
x
xb
yy
SSR
R
i
i
i
i
i
2
2
2
22
2
2
)(
)(
(
)(
•R2 có giá trịtừ0 đến 1
R2= 1: lý tưởng, đường hồi qui trùng với các điểm số
liệu.
R2= 0: không có mối liên hệgiữa x và y.
V
Ví
íd
dụ
ụ:
:
3379,0
)(
)(
(
2
2
2
22
2=
-
-
=
åå
åå
n
y
y
n
x
xb
R
i
i
i
i