Chương 6: KIỂM ĐỊNH MÔ HÌNH
Nguyễn Phương
Bộ môn Toán kinh tế Đại học Ngân hàng TPHCM Email: nguyenphuong0122@gmail.com
1
Ngày 22 tháng 12 năm 2022
NỘI DUNG
1 Kỳ vọng của sai số ngẫu nhiên khác không
2 Phương sai sai số thay đổi (Heteroscedasticity)
Nguyên nhân Hậu quả của kỳ vọng sai số ngẫu nhiên khác không Phát hiện về sự khác không của kỳ vọng sai số ngẫu nhiên Một số biện pháp khắc phục
3 Đa cộng tuyến (Multicollinearity)
Nguyên nhân Hậu quả của phương sai sai số thay đổi Phát hiện phương sai sai số thay đổi Khắc phục hiện tượng phương sai sai số thay đổi
4 Sai số ngẫu nhiên không tuân theo quy luật chuẩn
2
Bản chất đa cộng tuyến Nguyên nhân và hậu quả Cách phát hiện đa cộng tuyến cao Khắc phục hiện tượng đa cộng tuyến
Kỳ vọng của sai số ngẫu nhiên khác không Nguyên nhân
Giả thiết 2 của mô hình hồi quy tuyến tính là
E(u|X2, ..., Xk) = 0.
Nếu giả thiết này thỏa mãn thì có
E(u) = 0 và cov(Xj, u) = 0, ∀j = 2, ..., k.
Nguyên nhân ➤ Mô hình "thiếu biến quan trọng" (omit variable). Mô hình được cho là thiếu biến quan trọng Z nếu:
3, nhưng ta lại thực hiện
Biến Z có tác động đến biến phụ thuộc Y. Biến Z có tương quan với Xj, j = 2, 3, ..., k Khi đó Z là một thành phần của u và cov(Xj, u) (cid:44) 0. ➤ Dạng hàm sai (functional form misspecification)
3
Ví dụ: Giả sử E (Y|X) = β1 + β2X2 + β3X3 + β4X2 hồi quy E (Y|X) = β1 + β2X2 + β3X3. ➤ Tính tác động đồng thời của số liệu ➤ Sai số đo lường của các biến độc lập.
Kỳ vọng của sai số ngẫu nhiên khác không Hậu quả của kỳ vọng sai số ngẫu nhiên khác không
4
Hậu quả của kỳ vọng sai số ngẫu nhiên khác không ➤ Ước lượng OLS sẽ là ước lượng chệch, tức là E(ˆβj) (cid:44) βj. ➤ Nếu mô hình thiếu biến quan trọng Z thì UL OLS không vững. ➤ Các suy diễn thống kê không còn đáng tin cậy
Kỳ vọng của sai số ngẫu nhiên khác không Phát hiện về sự khác không của kỳ vọng sai số ngẫu nhiên
Kiểm định mô hình bỏ sót biến quan trọng:
Giả sử muốn biết mô hình
Y = β1 + β2X2 + ... + βkXk + u
có bỏ sót "biến quan trọng Z" hay không ta hồi quy mô hình
Y = β1 + β2X2 + ... + βkXk + αk+1Z + u.
Sau đó kiểm định cặp giả thuyết:
H0 : αk+1 = 0; H1 : αk+1 (cid:44) 0.
5
Nếu bác bỏ H0 thì chấp nhận biến Z có tác động đến Y và mô hình đã thiếu "biến quan trọng Z".
Kỳ vọng của sai số ngẫu nhiên khác không Phát hiện về sự khác không của kỳ vọng sai số ngẫu nhiên
Ví dụ 1.1
Sử dụng bộ số liệu ch5vd3.wf1 thu được kết quả ước lượng sau:
CT = 42, 73 + 0, 85TN + e
Hình: Kiểm định thiếu biến
6
Để kiểm định xem mô hình có khuyến tật bỏ sót biến TS hay không, ta thực hiện kiểm định.
Kỳ vọng của sai số ngẫu nhiên khác không Phát hiện về sự khác không của kỳ vọng sai số ngẫu nhiên
Kiểm định mô hình có dạng hàm sai
Kiểm định Ramsey (1969) dùng để phát hiện dạng hàm sai – trường hợp mô hình thiếu biến là hàm dạng đa thức của các biến có sẵn trong mô hình.
1 Bước 1: Ước lượng mô hình hồi quy:
Kiểm định Ramsey
2 Bước 2: Ước lượng mô hình hồi quy:
(1) Yi = β1 + β1X2i + . . . + βkXki + u
3 Bước 3: Kiểm định cặp giả thuyết:
(2) Yi = β1 + β1X2i + . . . + βkXki + βk+1( (cid:98)Yi)2 + βk+2( (cid:98)Yi)3 + v
k+1 + β2
k+2
(cid:44) 0 H0 : βk+1 = βk+2 = 0; H1 : β2
7
Nếu bác bỏ H0 thì mô hình (1) có dạng hàm sai.
Kỳ vọng của sai số ngẫu nhiên khác không Phát hiện về sự khác không của kỳ vọng sai số ngẫu nhiên
Ví dụ 1.2
Trong ví dụ trước, ta thấy mô hình bỏ sót biến tài sản (TS). Khi thêm biến TS vào mô hình: CT = β1 + β2TN + β3TS + u
Hình: Kiểm định Ramsey RESET
8
Câu hỏi: có vấn đề về dạng hàm sai hay không?
Kỳ vọng của sai số ngẫu nhiên khác không Một số biện pháp khắc phục
Một số biện pháp khắc phục khi mô hình có kỳ vọng của sai số ngẫu nhiên khác 0
Trường hợp 1: Nếu mô hình thiếu biến quan trọng Z (đã biết) được phát hiện từ kiểm định t thì ta thêm biến Z vào mô hình. Trường hợp 2: Nếu mô hình có dạng hàm sai được phát hiện từ kiểm định Ramsey thì xét các mô hình thay thế. Trường hợp 3: Nếu mô hình thiếu biến không quan sát được thì có thể sử dụng hai phương pháp: - Sử dụng biến đại diện (proxy varable): Nếu thiếu biến Z nhưng có Z∗ là đại diện cho Z và có tương quan với Z thì dùng để thay thế. - Sử dụng biến công cụ (instrumental variable)
Ví dụ 1.3
Xét mô hình: NS = β1 + β2KN + β3HV + β4NL + u
9
trong đó: NL là năng lực bẩm sinh cá nhân. NL không thể đo lường được và thường có tương quan dương với trình độ học vấn. Thường chọn chỉ số IQ để đại diện cho năng lực bẩm sinh cá nhân.
Phương sai sai số thay đổi (Heteroscedasticity)
Xét mô hình hồi quy:
Y = β1 + β2X2 + ... + βkXk + u.
Định lý Gauss-Markov khẳng định rằng để ước lượng OLS là tốt nhất thì phương sai sai số trong mô hình hồi quy phải bằng nhau tại mọi quan sát.
var(ui|X2i, X3i, ..., Xki) = σ2, i = 1, 2, ..., n;
Khi giả thiết này không thỏa mãn thì mô hình có hiện tượng phương sai sai số thay đổi, tức là:
, i = 1, 2, ..., n; var(ui|X2i, X3i, ..., Xki) = σ2 i
10
nghĩa là tại các bộ giá trị (X2i, X3i, ..., Xki) khác nhau thì phương sai của sai số ngẫu nhiên ui nhận các giá trị khác nhau, nói cách khác là phương sai của U phụ thuộc vào giá trị của biến độc lập.
Phương sai sai số thay đổi (Heteroscedasticity) Nguyên nhân
Nguyên nhân ➤ Do bản chất của số liệu ✓ Số liệu theo không gian có quy mô khác nhau −→ quan sát các doanh nghiệp có quy mô quá lớn - quá nhỏ ✓ Số liệu theo thời gian qua các giai đoạn có mức biến động khác nhau −→ giai đoạn kinh tế ổn định - giai đoạn khủng hoảng ✓ Mối quan hệ sẵn có hiện tượng PSSS thay đổi −→ mối quan hệ của thu nhập – chi tiêu, chỉ số thị trường chứng khoán
11
➤ Do việc thu thập số liệu chưa chuẩn xác ➤ Do dạng hàm hồi quy sai ➤ Do mô hình thiếu biến quan trọng
Phương sai sai số thay đổi (Heteroscedasticity) Hậu quả của phương sai sai số thay đổi
Hậu quả của phương sai sai số thay đổi
✓ Các ước lượng vẫn ước lượng tuyến tính không chệch tức là E(ˆβj) = βj nhưng không tốt nhất, vì các ước lượng này không hiệu quả.
12
✓ Phương sai của các hệ số ước lượng là chệch ✓ Khoảng tin cậy và kiểm định giả thuyết về các hệ số không còn giá trị sử dụng do var(ˆβj) bị chệch.
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
Dựa vào bản chất của vấn đề nghiên cứu.
Trong thực tế thường thì số liệu chéo liên quan đến những đơn vị không thuần nhất −→ xảy ra hiện tượng phương sai thay đổi. Ví dụ: Nghiên cứu mối quan hệ giữa chi phí sản xuất và lượng sản phẩm được sản xuất ra dựa vào mẫu gồm những doanh nghiệp có qui mô khác nhau −→ xảy ra hiện tượng phương sai thay đổi.
i theo một biến Xj nào đó.
Sử dụng đồ thị phần dư
13
- Vẽ đồ thị phần dư ei hoặc e2 - Hoặc vẽ đồ thị phân tán giữa (Xi, Yi). - Có thể thay thế Xi bằng ( ˆYi) với mô hình đa biến.
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
14
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
i có phụ thuộc vào X2i, X3i, . . . , Xki ?
Phương pháp phân tích định lượng
i = α1 + α2X2i + . . . + αkXki + vi
−→ σ2 , |ui| có phụ thuộc vào X2i, X3i, . . . , Xki ? , |ui| = f (X2i, X3i, . . . , Xki)? , |ei| = (cid:98)f (X2i, X3i, . . . , Xki) , |ui|phụ thuộc vào X2i, X3i, . . . , Xki Ý tưởng: Var(Ui) = σ2 i −→ u2 i −→ u2 i −→ Mô hình hồi quy mẫu: e2 i −→ Kiểm định giả thiết H1 : u2 i
2 + . . . + α2
k
> 0 Kiểm định Breusch-Pagan (BP): e2 −→ Kđgt: H0 : α2 = . . . = αk = 0; H1 : α2
i ) = α1 + α2 log(X2i) + . . . + αk log(Xki) + vi 2 + . . . + α2
k
> 0 Kiểm định Park: log(e2 −→ Kđgt: H0 : α2 = . . . = αk = 0; H1 : α2
i = α1 + α2X2i + α3X3i + α4X2 e2
2i + α5X2
3i + α6X2iX3i + vi
Kiểm định White (3 biến):
2 + . . . + α2
6
15
> 0 −→ Kđgt: H0 : α2 = . . . = α6 = 0; H1 : α2
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
Kiểm định Breusch-Pagan (Kiểm định BP)
➤ Bước 1: Hồi quy mô hình Y = β1 + β2X2 + ... + βkXk + u −→ thu được phần dư ei. ➤ Bước 2: Hồi quy e2
i theo các biến độc lập trong mô hình
i = α1 + α2X2i + ... + αkXki + vi e2 .
(cid:44) 0.
H1 : α2
thu được hệ số xác định R2 e ➤ Bước 3: Kiểm định cặp giả thuyết H0 : α2 = ... = αk = 0
2 + ... + α2 k
> χ2
α(m) thì bác bỏ H0, với
Kết luận dựa vào p − value Kiểm định LM(Lagrange Multiplier Test): Nếu LM = n.R2 e m là số ràng buộc trong giả thuyết H0.
Ví dụ 2.1
Với số liệu trong workfile ch4bt8, hãy ước lượng mô hình hồi quy sau:
wage = β1 + β2.age + β3.edu + u
trong đó wage, age và edu lần lượt là lương, tuổi và số năm đi học của người lao động. Sau đó dùng kiểm định BP để kiểm định giả thuyết về phương sai sai số không đổi.
16
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
(a) Mô hình hồi quy
(b) Kiểm định BP
17
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
i theo các biến độc lập trong mô hình
Kiểm định White ➤ Bước 1: Hồi quy mô hình: Y = β1 + β2X2 + β3X3 + u −→ thu được phần dư ei và ˆY.
2i + α5X2
3i + α6X2iX3i + vi
➤ Bước 2: Hồi quy e2 i = α1 + α2X2i + α3X3i + α4X2 e2 . thu được hệ số xác định R2 e
2 + ... + α2
6
(cid:44) 0. ➤ Bước 3: Kiểm định cặp giả thuyết H1 : α2
α(m) thì
> χ2 H0 : α2 = ... = α6 = 0 Kết luận dựa vào p − value Kiểm định LM(Lagrange Multiplier Test): Nếu LM = n.R2 e bác bỏ H0, với m là số ràng buộc trong giả thuyết H0.
Ví dụ 2.2
Với số liệu trong workfile ch4bt8, hãy ước lượng mô hình hồi quy sau:
18
wage = β1 + β2.age + β3.edu + u
trong đó wage, age và edu lần lượt là lương, tuổi và số năm đi học của người lao động. Sau đó dùng kiểm định BP để kiểm định giả thuyết về phương sai sai số không đổi.
Phương sai sai số thay đổi (Heteroscedasticity) Phát hiện phương sai sai số thay đổi
(c) Mô hình hồi quy
(d) Kiểm định White
19
Phương sai sai số thay đổi (Heteroscedasticity) Khắc phục hiện tượng phương sai sai số thay đổi
i = σ2X2
2i
Khắc phục hiện tượng phương sai sai số thay đổi ➤ Do mô hình thiếu biến hoặc dạng hàm sai −→ cần xem xét vấn đề thiếu biến hoặc dạng hàm sai. ➤ Dùng phương pháp bình phương bé nhất tổng quát (GLS-Generalized least squares)
i
+ = + β2 + . . . + βk
2i = 1 X2i
i = Yi X2i
Xét mô hình hồi quy: Y = β1 + β2X2 + ... + βkXk + u Giả sử phương sai thay đổi theo dạng: σ2 Chia hai vế của phương trình hồi quy cho X2i, ta được: ui X2i ki + u∗ . , X∗ với Y∗ β1 Yi X2i X2i Y∗ i = α1 + α2X∗ , . . . , X∗ ki = Xki X2i Xki X2i 2i + ... + αkX∗ , u∗ i = ui X2i
✓ Thực chất là gán trọng số X2i cho quan sát thứ i −→ phương pháp này
20
còn được gọi là phương pháp ước lượng bình phương bé nhất có trọng số. ✓ Nhược điểm: Khi mô hình có nhiều biến, xác định dạng thức của phương sai rất khó −→ không khả khi.
✓ Áp dụng kỹ thuật ước lượng sai số chuẩn vững (robust standard error).
Phương sai sai số thay đổi (Heteroscedasticity) Khắc phục hiện tượng phương sai sai số thay đổi
➤ Phương pháp sai số chuẩn vững: Vẫn sử dụng UL OLS vì ước lượng chỉ
mất hiệu quả nhưng không mất tính vững, nhưng ta sẽ làm cho kiểm định hệ số đáng tin cậy hơn bằng cách tính lại sai số chuẩn của các hệ số hồi quy.
i
Xét mô hình hồi quy đơn: Yi = β1 + β2X2i + ui Ước lượng OLS của β2 là: (cid:98)β2 = (cid:80) xiyi (cid:80) x2 Khi phương sai của ui thay đổi thì
i
i
(cid:17) (cid:16) = var (cid:98)β2 (cid:80) x2 σ2 i (cid:80) x2
White đề xuất thay bằng công thức
i
i
21
(cid:17) (cid:16) = var (cid:98)β2 (cid:80) x2 i e2 (cid:80) x2
Đa cộng tuyến (Multicollinearity) Bản chất đa cộng tuyến
Xét mô hình hồi quy bội
Y = β1 + β2X2 + ... + βkXk + αk+1Z + u.
Để có thể thực hiện được các ước lượng OLS, ta cần Giả thiết 4: không có hiện tượng đa cộng tuyến giữa các biến độc lập. Nếu giả thiết này bị vi phạm ta nói mô hình bị đa cộng tuyến. Khi mô hình bị đa cộng tuyến có hai trường hợp: ➤ Mô hình bị đa cộng tuyến hoàn hảo khi các biến độc lập trong mô hình phụ thuộc tuyến tính lẫn nhau, tức là
α1 + α2X2 + α3X3 + ... + αkXk = 0.
➤ Mô hình bị đa cộng tuyến không hoàn hảo nếu tồn tại λj, j = 1, 2, ..., k không đồng thời bằng 0, sao cho
trong đó v là sai số ngẫu nhiên. α1 + α2X2 + α3X3 + ... + αkXk + v = 0,
22
≈ 1 thì mô hình có hiện tượng đa cộng , khi đó nếu R2 j Nếu αj (cid:44) 0 thì hồi quy mô hình Xj theo các biến độc lập còn lại ta có hệ số xác định R2 j tuyến cao.
Đa cộng tuyến (Multicollinearity) Nguyên nhân và hậu quả
Nguyên nhân gây ra đa cộng tuyến:
σ2
✓ Do bản chất mối quan hệ giữa các biến độc lập ✓ Mô hình có dạng đa thức, gồm các biến độc lập X, X2 hay X3 thường có quan hệ tuyến tính khá chặt đặc biệt khi X nhận giá trị trong khoảng nhỏ. ✓ Mẫu không mang tính đại diện.
(1−R2 j )
x2 ji
n(cid:80) i=1
≈ ∞ ≈ 1 −→ var(ˆβj) = Hậu quả của đa cộng tuyến cao ➤ Mô hình có đa cộng tuyến hoàn hảo −→ không ước lượng được mô hình. ➤ Mô hình có đa cộng tuyến cao: R2 j
−→ se(ˆβj) rất lớn
23
✧ Khoảng tin cậy cho βj sẽ rộng −→ ước lượng trở nên kém chính xác. ✧ Hệ số ước lượng βj dễ mất ý nghĩa thống kê. ✧ Dấu của hệ số ước lượng của biến Xj có thể ngược với kỳ vọng ✧ Một sự thay đổi dù bé trong mẫu có thể gây ra sự thay đổi lớn trong kết quả ước lượng.
Đa cộng tuyến (Multicollinearity) Cách phát hiện đa cộng tuyến cao
Cách phát hiện đa cộng tuyến cao ➤ Căn cứ vào các kết luận của kiểm định t và F: Nếu các kết luận mâu thuẫn với nhau thì đó có thể là dấu hiệu của đa cộng tuyến.
➤ Căn cứ vào hệ số tương quan của các biến độc lập: Nếu hệ số tương quan cặp giữa hai biến độc lập nào đó lớn (có trị tuyệt đối lớn hơn 0,9) thì có thể xem như mô hình có đa cộng tuyến cao. ➤ Dùng hồi quy phụ: Hệ số xác định các mô hình hồi quy phụ cao ≥ 0, 9) (R2 j
✓ Bước 1: Xác định mô hình hồi quy phụ giữa các biến độc lập trong mô hình hồi quy gốc: Hồi quy biến Xj với các biến độc lập còn lại
✓ Bước 2: Kiểm định cặp giả thiết
24
H0 : mô hình không có đa cộng tuyến H1 : mô hình có đa cộng tuyến
Đa cộng tuyến (Multicollinearity) Cách phát hiện đa cộng tuyến cao
➤ Dùng nhân tử phóng đại phương sai VIF (variance inflation factor)
✓ Bước 1: Xác định mô hình hồi quy phụ giữa các biến độc lập trong mô hình hồi quy gốc: Hồi quy biến Xj với các biến độc lập còn lại −→ tìm được R2 j . ✓ Bước 2: Xác định đại lượng
(j = 2 ÷ k) VIF(Xj) = 1 1 − R2 j
25
✓ Nếu VIF(Xj) > 10 thì Xj có thể cộng tuyến với các biến độc lập còn lại.
Đa cộng tuyến (Multicollinearity) Khắc phục hiện tượng đa cộng tuyến
✓ Nếu mục đích của phân tích hồi quy là dự báo thì trong một số trường hợp ta không cần khắc phục đa cộng tuyến.
✓ Nếu biến bị đa cộng tuyến cao ˆβj có se(ˆβj) là không quá lớn so với βj làm cho Xj có ý nghĩa thống kê và không bị đổi dấu, các hậu quả trên không xảy ra thì ta không bận tâm đến đa cộng tuyến nữa.
✓ Nếu mô hình với 3 biến độc lập X2, X3, X4 có X2, và X3 tương quan tuyến tính chặt với nhau, X4 không có quan hệ tuyến tính chặt với X2, X3. Mặt khác mối quan tâm chính trong phân tích hồi quy là đánh giá tác động của X4 lên biến phụ thuộc thì việc có đa cộng tuyến cao cũng không làm ảnh hưởng đến chất lượng phân tích của mô hình.
26
Khắc phục đa cộng tuyến ➤ Thu thập thêm số liệu hoặc lấy mẫu mới. ➤ Bỏ bớt biến độc lập ra khỏi mô hình nếu có thể. ➤ Sử dụng thông tin tiên nghiệm. ➤ Đổi dạng hàm: hồi quy đa thức, sử dụng sai phân cấp 1, phân tích nhân tố,...
Sai số ngẫu nhiên không tuân theo quy luật chuẩn
Hậu quả
✓ Các thống kê t và F không tuân theo quy luật Student và quy luật Fisher. ✓ Khi kích thước mẫu nhỏ thì các suy diễn thống kê không đáng tin cậy. ✓ Khi kích thước mẫu lớn thì các suy diễn thống kê vẫn có giá trị.
➤ Xem xét đồ thị phần dư. ➤ Kiểm định Jacque - Bera (JB)
Xét mô hình Y = β1 + β2X2 + ... + βkXk + u. Kiểm định cặp giả thuyết
/n
i
/n)3/2 và hệ số nhọn
i
/n
i
H0 : ui có phân phối chuẩn; H1 : ui không có phân phối chuẩn
(cid:80) e3 ((cid:80) e2 /n)2 của các phần dư ei.
i
S2
6 + (K−3)2
24
(Kurtoris) K = ✓ Ước lượng mô hình hồi quy −→ thu được ei. ✓ Tìm hệ số bất đối xứng (Skewness) S = (cid:80) e4 ((cid:80) e2 (cid:21) (cid:20) ✓ Tính giá trị quan sát của tiêu chuẩn kiểm định JB = n
α(2) thì bác bỏ H0.
27
✓ Nếu JB > χ2
Sai số ngẫu nhiên không tuân theo quy luật chuẩn
Ví dụ 4.1
Sử dụng số liệu trong workfile ch1-5vidu/salary để hồi quy mô hình sau: TN = β1 + β2KN + u
Hướng dẫn: Trên cửa sổ màn hình Equation, ta chọn: View/Residual Diagnostics/Histogram - Normality Test 28