22/8/2015<br />
<br />
Khái niệm đa cộng tuyến<br />
Xét mô hình hồi quy bội:<br />
Y = β1 + β2X1 + … + βkXk-1 + u<br />
Mô hình lý tưởng là các biến độc lập không có<br />
tương quan với nhau. Khi đó ta nói không có<br />
hiện tượng đa cộng tuyến.<br />
Nếu ∃ ít nhất 2 biến độc lập cùng chứa đựng<br />
một số thông tin chung về Y thì ta nói có hiện<br />
tượng đa cộng tuyến (multicollinearity).<br />
<br />
Đa cộng tuyến<br />
Lê Minh Tiến<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
4<br />
<br />
Mục tiêu của chương<br />
<br />
Ghi chú<br />
<br />
Sau khi học xong chương này, bạn có thể:<br />
Hiểu được các nguyên nhân gây ra đa cộng<br />
tuyến<br />
Biết được hậu quả của đa cộng tuyến<br />
Thực hiện được các phương pháp phát hiện đa<br />
cộng tuyến<br />
Thực hiện được các biện pháp khắc phục đa<br />
cộng tuyến<br />
<br />
Mô hình lý tưởng là các biến độc lập không có<br />
tương quan với nhau, mỗi biến chứa đựng một<br />
số thông tin riêng về Y và thông tin đó không có<br />
trong biến độc lập khác, khi đó hệ số hồi quy<br />
riêng cho biết ảnh hưởng của từng biến độc lập<br />
đối với biến phụ thuộc khi giả định các biến độc<br />
lập còn lại không đổi. Trong trường hợp này ta<br />
nói không có hiện tượng đa cộng tuyến.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
2<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
5<br />
<br />
Nội dung<br />
<br />
Các loại đa cộng tuyến<br />
<br />
<br />
<br />
<br />
<br />
<br />
Nếu tồn tại các số thực λ1,…, λk-1 không đồng<br />
thời bằng 0 sao cho:<br />
λ1X1 +…+ λk-1Xk-1 = 0<br />
thì ta nói giữa các biến Xj (j = 1,…, k-1) xảy ra hiện<br />
tượng đa cộng tuyến hoàn hảo (perfect<br />
multicollinearity).<br />
Nói cách khác: Xj= λ1X1 +…+ λk-1Xk-1<br />
<br />
Nguyên nhân gây ra đa cộng tuyến<br />
Hậu quả của đa cộng tuyến<br />
Các phương pháp phát hiện đa cộng tuyến<br />
Các biện pháp khắc phục đa cộng tuyến<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
3<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
6<br />
<br />
1<br />
<br />
22/8/2015<br />
<br />
Các loại đa cộng tuyến<br />
<br />
Hậu quả của đa cộng tuyến hoàn hảo<br />
<br />
Nếu tồn tại các số λj,…, λk-1 không đồng thời<br />
bằng 0 sao cho:<br />
λ1X1 +…+ λk-1Xk-1 + v = 0<br />
với v là sai số ngẫu nhiên thì ta có đa cộng tuyến<br />
không hoàn hảo (imperfect multicollinearity) giữa<br />
các biến Xi.<br />
Nói cách khác: Xj= λ1X1 +…+ λk-1Xk-1 + v<br />
<br />
Không xác định được duy nhất các hệ số hồi<br />
quy riêng βj^ ứng với mẫu cụ thể.<br />
Không thể tách riêng ảnh hưởng của từng biến<br />
Xj đến biến phụ thuộc Y, chỉ có thể ước lượng<br />
ảnh hưởng chung của các biến cộng tuyến đối<br />
với biến phụ thuộc.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
7<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
10<br />
<br />
Nguyên nhân gây ra đa cộng tuyến<br />
<br />
Ghi chú<br />
<br />
<br />
<br />
<br />
<br />
<br />
Điều này là hợp lý vì trong trường hợp có đa<br />
cộng tuyến hoàn hảo, khi một biến độc lập thay<br />
đổi thì sẽ kéo theo sự thay đổi của những biến<br />
có cộng tuyến với nó, nên giả định cố định các<br />
biến độc lập còn lại là không hợp lý. Trong thực<br />
tế thì trường hợp đa cộng tuyến hoàn hảo hiếm<br />
khi xảy ra, mà ta thường gặp đa cộng tuyến<br />
không hoàn hảo với các mức độ khác nhau.<br />
<br />
Phương pháp thu thập số liệu<br />
Do bản chất của mối quan hệ giữa các biến<br />
Đặc trưng mô hình<br />
Mô hình xác định quá mức<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
8<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
11<br />
<br />
Ghi chú<br />
<br />
Hậu quả của đa cộng tuyến không hoàn hảo<br />
<br />
• Phương pháp thu thập số liệu: Mẫu không đặc trưng cho<br />
tổng thể.<br />
• Do bản chất của các mối quan hệ giữa các biến đã ngầm<br />
chứa hiện tượng đa cộng tuyến: Thí dụ như hồi quy lượng<br />
điện năng tiêu thụ (Y) theo thu nhập (X1) và diện tích nhà ở<br />
(X2). Trong mối quan hệ này ẩn chứa đa cộng tuyến vì<br />
thông thường những gia đình có thu nhập cao thì có nhà<br />
rộng hơn những gia đình có thu nhập thấp.<br />
• Đặc trưng mô hình: Thí dụ khi bổ sung những biến có luỹ<br />
thừa bậc cao vào mô hình, đặc biệt khi phạm vi dữ liệu của<br />
biến độc lập là nhỏ.<br />
• Một mô hình xác định quá mức: xảy ra khi số biến giải<br />
thích nhiều hơn cỡ mẫu. Trong trường hợp này ta không<br />
xác định được duy nhất các hệ số hồi quy.<br />
<br />
Các hệ số hồi quy ước lượng có phương sai và<br />
hiệp phương sai của lớn.<br />
Khoảng tin cậy của các hệ số hồi quy có khuynh<br />
hướng rộng hơn.<br />
Khả năng mắc sai lầm loại 2 khi kiểm định giả<br />
thuyết H0: βj = βj* sẽ cao.<br />
Mặc dù tỉ số |tqs| bé, nhưng hệ số xác định R2 có<br />
thể rất cao.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
9<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
12<br />
<br />
2<br />
<br />
22/8/2015<br />
<br />
Ghi chú<br />
<br />
Ghi chú<br />
<br />
•<br />
<br />
* Khi hệ số xác định R2 cao, kinh nghiệm cho thấy R2 > 0.8,<br />
thì thường giả thiết về các hệ số hồi quy đồng thời bằng 0<br />
bị bác bỏ, nói cách khác thừa nhận có ít nhất một hệ số hồi<br />
quy riêng khác 0.<br />
* Tuy nhiên tỷ số |t| thấp thì ta có xu hướng chấp nhận giả<br />
thiết hệ số hồi quy riêng bằng 0.<br />
<br />
Như được trình bày ở mục 2.6, các ước lượng OLS có tính chất<br />
BLUE khi 5 giả thiết của mô hình hồi quy tuyến tính cổ điển được<br />
thoả mãn. Các giả thiết này không đề cập đến sự tương quan giữa<br />
các biến độc lập, nên tính chất BLUE của các hệ số ước lượng vẫn<br />
được bảo toàn khi xảy ra hiện tượng cộng tuyến.<br />
• Phương sai và hiệp phương sai của các hệ số hồi quy lớn bất<br />
thường, nghĩa là các giá trị ước lượng thay đổi nhiều từ mẫu này sang<br />
mẫu khác, điều này làm cho việc xác định giá trị ước lượng chính xác<br />
trở nên khó khăn.<br />
• Khoảng tin cậy của các hệ số hồi quy có khuynh hướng rộng hơn,<br />
điều này dẫn đến độ chính xác của ước lượng khoảng cho tham số hồi<br />
quy βj giảm đi.<br />
• Khi kiểm định giả thuyết H0: βj = βj* ta có thể sử dụng thống kê<br />
tqs=(βj^-βj*)/se(βj^). Trong trường hợp có đa cộng tuyến cao, sai số<br />
chuẩn của các ước lượng có xu hướng tăng mạnh, dẫn đến giá trị |tqs|<br />
có khuynh hướng nhỏ đi. Do đó ta có xu hướng chấp nhận giả thiết H0.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
13<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
16<br />
<br />
Hậu quả của đa cộng tuyến không hoàn hảo<br />
<br />
Phát hiện đa cộng tuyến<br />
<br />
Các ước lượng OLS của βj và các se(βj^) trở<br />
nên rất nhạy với những thay đổi nhỏ trong số<br />
liệu.<br />
Dấu của các hệ số ước lượng βj^ có thể sai.<br />
Thêm vào hay bớt đi các biến cộng tuyến với<br />
các biến khác, mô hình sẽ thay đổi về độ lớn<br />
của các ước lượng hoặc dấu của chúng.<br />
<br />
Hệ số tương quan giữa các cặp biến độc lập<br />
cao<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
14<br />
<br />
Mô hình 2 biến độc lập:<br />
Kinh nghiệm: ĐCT cao ⇔ rXjXs > 0.8<br />
<br />
Mô hình ≥3 biến độc lập:<br />
Kinh nghiệm: rXjXs > 0.8 ⇒ ĐCT cao<br />
Lưu ý: Với mô hình ≥3 biến độc lập thì rXjXs> 0.8 là điều kiện<br />
đủ chứ không phải là điều kiện cần.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
17<br />
<br />
Phát hiện đa cộng tuyến<br />
<br />
Ghi chú<br />
<br />
Dấu của hệ số hồi quy ngược với kì vọng<br />
Hệ số xác định R2 cao nhưng tồn tại tỉ số |tqs |<br />
thấp<br />
<br />
* Trong một số tình huống đặc biệt ta có đa cộng<br />
tuyến cao giữa các biến độc lập nhưng hệ số tương<br />
quan cặp giữa các biến có thể thấp.<br />
<br />
Thí dụ : Xét mô hình hồi quy có ba biến độc lập<br />
X1, X2, X3, với số liệu mẫu như sau :<br />
<br />
X1 = (1,0,0,0)<br />
<br />
X2 = (0,1,0,0)<br />
<br />
X3 = (1,1,0,0)<br />
<br />
Nhận thấy ta có đa cộng tuyến hoàn hảo vì X3 =<br />
X1 + X2, nhưng hệ số tương quan cặp tương ứng<br />
là : r12 = - 0.333, r13 = r23 = 0.57 không cao.<br />
<br />
Kinh nghiệm: R2 > 0.8 đồng thời |tqs| 10 (tức Rj2 > 0.9) ⇒ ĐCT cao<br />
<br />
R2 / k 2<br />
j<br />
<br />
1 R / n k 1<br />
2<br />
j<br />
<br />
Quy tắc bác bỏ H0 là: Fj > Fα;(k–2, n–k+1)<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
19<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
22<br />
<br />
Ghi chú<br />
<br />
Ghi chú<br />
<br />
* Bởi vì đa cộng tuyến đề cập tới quan hệ tuyến<br />
tính giữa các biến độc lập, nghĩa là một biến độc<br />
lập có thể được biểu diễn xấp xỉ dưới dạng tổ<br />
hợp tuyến tính của các biến độc lập khác, do đó<br />
ta có thể đánh giá mức độ đa cộng tuyến bằng<br />
cách hồi quy một biến độc lập Xj theo các biến<br />
độc lập còn lại dưới dạng mô hình tuyến tính,<br />
gọi là hồi quy phụ (auxiliary regression).<br />
<br />
* Rj2 càng gần 1, nghĩa là mức độ cộng tuyến giữa Xj<br />
với những biến độc lập còn lại càng cao, thì VIFj càng<br />
lớn, Rj2→1 thì VIFj →∞.<br />
• Tuy nhiên việc đánh giá mức độ cộng tuyến thông<br />
qua giá trị VIF cũng có ý nghĩa tương đối. Tức là giá trị<br />
VIF cao thì không có nghĩa là phương sai và sai số<br />
của các ước lượng cao. Nhắc lại công thức tính<br />
phương sai của các ước lượng trong mô hình hồi quy<br />
có hai biến độc lập :<br />
Var(βj^)=(1/Σxji2).(1/1-Rj2)=(1/Σxji2).VIFj<br />
Phương sai của βj^ phụ thuộc vào 3 thành phần<br />
σ2,Σxji2 và VIFj. Như vậy một giá trị VIF cao chưa đủ<br />
để xác định phương sai của ước lượng là cao.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
20<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
23<br />
<br />
Phát hiện đa cộng tuyến<br />
<br />
Vài điều về đa cộng tuyến<br />
<br />
Trên nguyên tắc ta cần kiểm định giá trị Rj2 của<br />
tất cả các hồi quy phụ.<br />
Ta có thể áp dụng “Rule of Thumb” của Klein:<br />
Đa cộng tuyến trở thành vấn đề nghiêm trọng<br />
nếu như ∃ R2phụ > R2.<br />
<br />
Trong thực tế hầu như các biến độc lập đều có<br />
đa cộng tuyến với nhau, chỉ là với mức độ cao<br />
hay thấp mà thôi<br />
Khi có đa cộng tuyến thì các ước lượng thu<br />
được vẫn có tính chất BLUE: là ước lượng<br />
tuyến tính, không chệch, có phương sai bé nhất<br />
trong lớp các ước lượng tuyến tính không chệch<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
21<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
24<br />
<br />
4<br />
<br />
22/8/2015<br />
<br />
Vài điều về đa cộng tuyến<br />
<br />
Bỏ bớt biến độc lập<br />
<br />
Trong thực nghiệm, người ta quan tâm đến mức<br />
độ ảnh hưởng của đa cộng tuyến đối với kết quả<br />
ước lượng hơn là việc xác định đa cộng tuyến<br />
có tồn tại hay không.<br />
Khi ảnh hưởng của đa cộng tuyến được xem là<br />
nghiêm trọng, người ta có thể dùng nhiều công<br />
cụ khác nhau để tìm cách hạn chế ảnh hưởng<br />
của nó, và mỗi công cụ tỏ ra thích hợp trong<br />
những hoàn cảnh cụ thể.<br />
<br />
Bỏ bớt một trong các biến có cộng tuyến với<br />
nhau có thể làm cho hệ số hồi quy của những<br />
biến còn lại trong mô hình từ kết quả ban đầu là<br />
≠ 0 không có ý nghĩa chuyển thành ≠ 0 có ý<br />
nghĩa về mặt thống kê.<br />
Nên bỏ cùng lúc hay bỏ lần lượt?<br />
Nên bỏ lần lượt vì nếu bỏ cùng lúc thì mô hình bị<br />
thiếu biến quan trọng -> ước lượng bị chệch-> không<br />
tốt<br />
<br />
Nếu bỏ lần lượt thì bỏ biến nào trước?<br />
Bỏ biến có p-value lớn nhất hoặc có R2f lớn nhất<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
25<br />
<br />
28<br />
<br />
Bỏ bớt biến độc lập<br />
<br />
Vài điều về đa cộng tuyến<br />
Khi vấn đề đa cộng tuyến được đánh giá là ảnh<br />
hưởng không nghiêm trọng đến kết quả nghiên<br />
cứu, đôi khi người ta có thể bỏ qua, bởi vì việc<br />
khắc phục đa cộng tuyến có thể gây ra những<br />
hậu quả khác nghiêm trọng hơn.<br />
Có thể bỏ qua đa cộng tuyến khi:<br />
∀ |tstat|>2<br />
R2 > ∀R2phụ<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
26<br />
<br />
!<br />
Việc bỏ bớt biến có thể dẫn đến hậu quả là ước<br />
lượng của các hệ số trong mô hình bị chệch<br />
Trong một số tình huống, việc bỏ bớt biến nhằm tránh<br />
vấn đề đa cộng tuyến lại gây ra hậu quả nghiêm trọng<br />
hơn. (Tại sao?)<br />
bởi vì, đa cộng tuyến có thể làm cho sai số của các ước<br />
lượng lớn nhưng vẫn là ước lượng không chệch, trong khi<br />
đó bỏ bớt biến có thể dẫn đến ước lượng chệch nhiều so với<br />
giá trị tham số thực.<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
29<br />
<br />
Khắc phục đa cộng tuyến<br />
<br />
Hồi quy sai phân cấp 1<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Dưới góc độ thời gian, các biến số kinh tế<br />
thường chịu tác động ảnh hưởng của xu hướng<br />
và do đó dễ tương quan (cộng tuyến) với nhau<br />
Sử dụng sai phân cấp 1 có thể làm giảm những<br />
hậu quả nghiêm trọng của đa cộng tuyến<br />
<br />
Bỏ bớt biến độc lập<br />
Sử dụng sai phân cấp 1<br />
Thay đổi dạng hàm<br />
Hồi quy độ lệch (khi hàm hồi quy đa thức)<br />
Kết hợp số liệu chéo và số liệu chuỗi thời gian<br />
Thu thập thêm số liệu hoặc lấy thêm mẫu mới<br />
Sử dụng thông tin tiên nghiệm<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
27<br />
<br />
Bài giảng Kinh tế lượng © Tien M. Le<br />
<br />
30<br />
<br />
5<br />
<br />