1
CHƯƠNG 6
HIỆN TƯỢNG ĐA CỘNG TUYẾN
(MULTICOLLINEARITY)
2
1. Hiu bn cht hu quca
đa cng tuyến
2. Biết cách phát hin đa cng
tuyến bin pháp khc phc
MC
TIÊU
ĐA CỘNG TUYẾN
NỘI DUNG
3
Bản chất, nguyên nhân của đa cộng tuyến
1
Ước lượng các tham số
2
3
Phát hiện đa cộng tuyến4
Khắc phục đa cộng tuyến
5
Hậu quả
4
Thu nhập Sự giàu Chi tiêu
80 810 70
100 1009 65
120 1273 90
140 1425 95
160 1633 110
180 1876 115
200 2052 120
220 2201 140
240 2435 155
260 2686 150
Nguồn: Ramu Ramanathan
5
6
1
2
3
4
5
6
2
7
8
Khi lập mô hình hồi quy bội
Có sự phụ thuộc tuyến tính cao giữa các biến
giải thích gọi là đa cộng tuyến.
a. Đa cộng tuyến hoàn hảo
Tồn tại
2
,
3
,…
k
không đồng thời bằng 0
sao cho
2
X
2
+
3
X
3
+ …+
k
X
k
= 0
Nói cách khác là xảy ra trường hợp một biến
giải thích nào đó được biểu diễn dưới dạng một
tổ hợp tuyến tính của các biến còn lại.
kikiii
XXXY
ˆ
...
ˆˆˆ
ˆ
33221
6.1 Bản chất của đa cộng tuyến
9
b. Đa cộng tuyến không hoàn hảo
2
X
2
+
3
X
3
+ …+
k
X
k
+ v
i
= 0
Với v
i
là sai số ngẫu nhiên thì ta có hiện tượng đa
cộng tuyến không hoàn hảo giữa các biến giải
thích.
Nói cách khác là một biến giải thích nào đó có
tương quan với một số biến giải thích khác.
6.1 Bản chất của đa cộng tuyến
10
X
3i
= 5X
2i
, vì vậy cộng tuyến hoàn hảo giữa
X
2
X
3
; r
23
= 1
X
2
X
3
* không cộng tuyến hoàn hảo,
nhưng hai biến này tương quan chặt
chẽ.
X
2
10 15 18 24 30
X
3
50 75 90 120 150
X
*3
V
52
2
75
0
97
7
129
9
152
2
6.1 Bản chất của đa cộng tuyến
VD
11
6.1 Bản chất của đa cộng tuyến
Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
12
Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
6.1 Bản chất của đa cộng tuyến
7
8
9
10
11
12
3
13
Một số nguyên nhân gây ra hiện tượng
đa cộng tuyến
- Khi chọn các biến độc lập mối quan có
quan hệ nhân quả hay có tương quan
cao vì đồng phụ thuộc vào một điều kiện
khác.
- Khi số quan sát nhỏ hơn số biến độc lập.
- Cách thu thập mẫu: mẫu không đặc
trưng cho tổng thể
- Chọn biến X
i
có độ biến thiên nhỏ.
6.1 Nguyên nhân của đa cộng tuyến
6.2 Ước lượng khi có đa cộng tuyến
1. Trường hợp có đa cộng tuyến hoàn hảo
Xét mô hình hồi qui 3 biến dưới dạng sau:
Y
i
=
2
X
2i
+
3
X
3i
+ e
i
giả sử X
3i
= X
2i
, mô hình được biến đổi thành:
Y
i
= (
2
+ 
3
)X
2i
+ e
i
=
0
X
2i
+ e
i
Phương pháp OLS
14
2
2
2
32
)
ˆˆ
(
ˆ
i
ii
o
x
yx
Không thể tìm được lời giải duy nhất cho
32
ˆ
,
ˆ
6.2 Ước lượng khi có đa cộng tuyến
Các hệ số ước lượng không xác định
Phương sai và sai số chuẩn của
2
3
là vô hạn
15
2
32
2
3
2
2
323
2
32
2
)(
ˆ
iiii
iiiiiii
xxxx
xxxyxxy
0
0
ˆ
2
3
2
3
22
3
2
3
2
333
2
33
2
iiii
iiiiiii
xxxx
xxxyxxy
6.2 Ước lượng các tham số khi có đa cộng tuyến
Các hệ số ước lượng không xác định: chúng ta không
tách rời tác động của từng biến X
i
lên Y do không thể
giả định X
2
thay đổi trong khi X
3
không đổi.
16
2
32
2
3
2
2
323
2
32
2
)(
ˆ
iiii
iiiiiii
xxxx
xxxyxxy
0
0
ˆ
2
3
2
3
22
3
2
3
2
333
2
33
2
iiii
iiiiiii
xxxx
xxxyxxy
6.2 Ước lượng các tham số khi có đa cộng tuyến
2. Trường hợp có đa cộng tuyến không hn hảo
Đa cộng tuyến hoàn hảo thường không xảy ra trong
thực tế.
Xét mô hình hồi qui 3 biến dưới dạng sau:
y
i
=
2
x
2i
+
3
x
3i
+ e
i
Giả định x
3i
= x
2i
+ v
i
Với 0 và v
i
là sai số ngẫu nhiên.
Trong trường hợp này, các hệ số hồi qui
2
3
có thể ước lượng được:
17
Ta có thể ước lượng được các này nhưng s.e.
sẽ rất lớn.
6.2 Ước lượng các tham số khi có đa cộng tuyến
18
ˆ
13
14
15
16
17
18
4
6.3 Hậu quả của đa cộng tuyến
Nếu cócộng tuyến gần hoàn hảo:
Các ước lượng vẫn BLUE, nhưng:
1. Phương sai vàhiệp phương sai của các ước
lượng OLS lớn.
19
r
23
là hệ số tương
quan giữa X
2
X
3
.
Khi r
23
1, các giá
trị trên
6.3 Hậu quả của đa cộng tuyến
Nếu cócộng tuyến gần hoàn hảo:
2. Khoảng tin cậy rộng hơn.
Khoảng tin cậy của
2
và
3
(với độ tin cậy 1 )
là:
2
= t
/2
se ( );
3
= t
/2
se ( );
trong đó:
se ( ) = se ( ) =
20
^
2
^
2
^
3
^
2
^
3
2
2
2
23
)1(
i
xr
^
3
2
3
2
23
)1(
i
xr
21
Giá trị của r23 Khoảng tin cậy 95% của B2
0
0.5
0.95
0.995
0.999
A*96.1
ˆ
2
A*33.1*96.1
ˆ
2
A*26.10*96.1
ˆ
2
A*100*96.1
ˆ
2
A*500*96.1
ˆ
2
2
2
2
i
x
A
6.3 Hậu quả của đa cộng tuyến
Nếu cócộng tuyến gần hoàn hảo:
3. Tỉ số t "không cóý nghĩa".
Khi kiểm định giả thuyết H0:
2
= 0, chúng ta sử
dụng tỷ số t.
vàso sánh giátrị ước lượng của t với giátrị tra bảng
(tới hạn) của t.
Trong trường hợp cộng tuyến cao thìsai số chuẩn
sẽ rất lớn vàdo đólàm cho giátrị t sẽ nhỏ đi, kết
quả làsẽ làm tăng chấp nhận giả thuyết H0.
22
)
ˆ
(
ˆ
2
2
se
t
6.3 Hậu quả của đa cộng tuyến
Nếu cócộng tuyến gần hoàn hảo:
4. R
2
cao nhưng tỉ số t ít cóý nghĩa.
Đa cộng tuyến cao:
- một hoặc một số tham số tương quan (hệ
số góc riêng) không cóý nghĩa về mặt thống
- R
2
trong những trường hợp này lại rất cao
(trên 0,9).
- kiểm định F thìcóthể bác bỏ giả thuyết cho
rằng
2
=
3
= =
k
= 0.
23
6.3 Hậu quả của đa cộng tuyến
Nếu cócộng tuyến gần hoàn hảo:
5. Các ước lượng OLS vàsai số chuẩn của chúng
trở nên rất nhạy với những thay đổi nhỏ trong
dữ liệu.
6. Dấu của các ước lượng của các hệ số hồi qui có
thể sai
7. Thêm vào hay bớt đi các biến cộng tuyến với các
biến khác, mô hình sẽ thay đổi về dấu hoặc
thay đổi về độ lớn của các ước lượng.
24
19
20
21
22
23
24
5
Ví dụ: Bảng 2 do nhập sai số liệu nên
xảy ra đa cộng tuyến
25
Bảng 1
YX2 X3
1 2 4
2 0 2
3 4 12
46 0
5 8 16
Bảng 2
YX2 X3
1 2 4
2 0 2
3 4 0
46 12
5 8 16
00868.0)
ˆ
,
ˆ
cov(;5523.0;81.0
003.0446.0193.1
ˆ
3223
2
32
rR
XXY
iii
Se (0.7736) (0.1848) (0.0850)
t (1.543) (2.415) (0.0358)
0282.0)
ˆ
,
ˆ
cov(;8285.0;81.0
027.0401.0210.1
ˆ
3223
2
32
rR
XXY
iii
Se (0.7480) (0.2720) (0.1252)
t (1.618) (1.4752) (0.2152)
26
Đa cộng tuyến là một hiện tượng theo
mẫu, nghĩa là cho dù các biến độc lập
X
i
không tương quan tuyến tính trong
tổng thể nhưng chúng có thể tương
quan tuyến tính trong một mẫu cụ thể
nào đó. Do đó cỡ mẫu lớn thì hiện
tượng đa cộng tuyến ít nghiêm trọng
hơn cỡ mẫu nhỏ
27
1. Hệ số R
2
lớn nhưng tỷ số t nhỏ
2. Tương quan cặp giữa các biến giải thích cao
3. Sử dụng mô hình hồi qui phụ
4. Sử dụng yếu tố phóng đại phương sai (VIF)
6.4 Cách phát hiện đa cộng tuyến
28
1. R
2
lớn nhưng tỷ số t nhỏ
Nếu R
2
cao, chẳng hạn, >0,8 và F test bác bỏ giả
thuyết
2
=
3
= … =
k
= 0, nhưng t test cho
từng
i
lại chấp nhận H
0
.
2. Tương quan cặp giữa các biến giải thích cao
Trong đó X, Z là 2 biến giải thích trong hình
22
)()(
))((
ZZXX
ZZXX
r
ii
ii
XZ
6.4 Cách phát hiện đa cộng tuyến
29
3. Sử dụng mô hình hồi quy phụ
Hồi qui một biến giải thích X nào đó theo các biến
còn lại.
Tính R
2
và F cho mỗi mô hình theo công thức:
Lập giả thiết H
0
: R
2
= 0 ~ H
0:
không có đa cộng tuyến
Nếu F > F
(m-1,n-m): bác bỏ H
0
=> có đa cộng tuyến
Nếu F < F
(m-1,n-m): chấp nhận H
0
=> không có đa
cộng tuyến
mikii
XXX
ˆ
...
ˆˆ
ˆ
3312
)1)(1(
)(
2
2
mR
mnR
F
6.4 Cách phát hiện đa cộng tuyến
30
VD: Cho doanh số bán (Y), chi phí chào hàng (X
2
)
chi phí quảng cáo (X
3
) trong năm 2001 ở 12
khu vực bán hàng của 1 công ty. hiện tượng
đa cộng tuyến không?
Hồi quy biến chi phí chào hàng với chi phí quảng
cáo, ta kết quả
X
2
=42,012 + 0,387 *X
3
R
2
= 0,22922 F= 2,9738
Với mức ý nghĩa α=5%, tra bảng F
0.05
(1,10)=
4,96. Ta thấy F < F
0.05
(1,10) nên chấp nhận Ho
hay không đa cộng tuyến.
6.4 Cách phát hiện đa cộng tuyến
25
26
27
28
29
30