TRƢỜNG ĐẠI HỌC QUY NHƠN

KHOA KINH TẾ & KẾ TOÁN

CAO TẤN BÌNH

BÀI GIẢNG KINH TẾ LƢỢNG

Quy Nhơn, 9/2017

1

Chƣơng 1 KHÁI QUÁT VỀ KINH TẾ LƢỢNG

1.1 Giới thiệu về môn học kinh tế lƣợng

Kinh tế lượng có tên tiếng Anh là Econometrics, do nhà kinh tế học người Na uy A. K Ragnar Frisch sử dụng lần đầu tiên vào khoảng 1930.

Kinh tế lượng là một môn khoa học về đo lường các mối quan hệ kinh tế diễn ra trong thực tế, là sự kết hợp giữa các lý thuyết kinh tế hiện đại, thống kê toán học và máy vi tính nhằm định lượng các mối quan hệ kinh tế, dự báo khả năng phát triển của hiện tượng kinh tế và phân tích các chính sách kinh tế.

Nền tảng của kinh tế lượng:

 Lý thuyết kinh tế: Nêu lên bản chất các mối quan hệ kinh tế dưới dạng định tính. Chẳng hạn mối quan hệ giữa lượng cầu và giá cả, sản lượng và số lượng công nhân, thu nhập và chi tiêu, năng suất cây trồng và lượng phân bón, doanh thu và chi phí quảng cáo, giá nhà và hướng nhà, sự chi tiêu và sự giàu có,…

 Mô hình toán kinh tế: Sử dụng công cụ toán học để mô hình hóa lý thuyết kinh tế dưới dạng mô hình toán học, chưa quan tâm đến việc kiểm chứng xem liệu những mô hình toán học này có đúng đắn về mặt thực nghiệm hay không.

 Thống kê: Có vai trò quan trọng trong việc thu thập, xử lý số liệu, và những số

liệu sơ cấp ban đầu này không thể thiếu cho một nhà kinh tế lượng.

Mục đích của kinh tế lượng

 Thiết lập mô hình toán học để nêu ra các giả thiết cũng như các giả định về mối

quan hệ giữa các biến số kinh tế với nhau.

 Thực hiện việc ước lượng tham số để xem xét mức độ ảnh hưởng giữa các biến số.  Kiểm định giả thuyết.  Đưa ra dự báo và mô phỏng hiện tượng kinh tế.  Đề xuất giải pháp, chính sách dựa trên kết quả của được phân tích từ mô hình kinh

tế lượng.

1.2 Phƣơng pháp luận nghiên cứu của kinh tế lƣợng

 Nêu vấn đề nghiên cứu và các giả thuyết: Nghiên cứu quan hệ giữa thu nhập và tiêu dùng, mức lãi suất thay đổi và cầu về tiền, năng suất lao động với vốn, lao động và khoa học công nghệ,…

 Thiết lập mô hình: Dựa vào lý thuyết kinh tế để định dạng các mô hình cụ thể cho các bài toán cụ thể. Chẳng hạn, người ta có thể sử dụng hàm tuyến tính để mô tả mối quan hệ giữa thu nhập Y và tiêu dùng X như sau:

2

Tuy nhiên trong thực tế, với cùng một mức thu nhập thì chi tiêu tiêu dùng có thể khác nhau. Do vậy mô hình toán học thuần túy như trên chưa phản ánh được tình huống kinh tế này. Mô hình kinh tế lượng được đề xuất một cách hợp lý với nhiễu ngẫu nhiên U như sau:

 Thu thập và xử lý số liệu: Quan tâm đến số liệu của mẫu và số liệu của tổng thể.  Ước lượng các tham số của mô hình: Sử dụng các phương pháp như phương pháp bình phương tối thiểu OLS (Ordinary Least Squares), phương pháp ước lượng hàm hợp lý tối đa MLE (Maximum Likelihood Estimation),… Chẳng hạn, phương trình mô tả quan hệ giữa tiêu dùng Y và thu nhập X từ chuỗi số liệu của Mỹ giai đoạn 1982-1996 bằng phương pháp OLS là:

Nhìn vào kết quả hồi quy này, ta thấy xu hướng tiêu dùng cận biên của nền kinh tế

Mỹ giai đoạn 1982-1996 là .

 Kiểm định mô hình: Mục đích của kiểm định là kiểm chứng lại mô hình hoặc lý thuyết kinh tế. Theo ví dụ trên, ta có trị số về xu hướng tiêu dùng cận biên là

phù hợp với lý thuyết kinh tế của Keynes về Thu nhập-Tiêu

dùng. Tuy nhiên, ta cũng cần xác định thêm giá trị này có thỏa mãn với

ý nghĩa thống kê hay không.

 Dự báo và sử dụng mô hình để quyết định chính sách: Dựa vào kết quả của mô hình trên, có thể dự báo tác động của chính sách kinh tế. Ngoài ra, kết quả hồi quy này có thể giúp ích cho Chính phủ trong việc phân tích chính sách đầu tư, chính sách thuế (giảm thuế -> tăng thu nhập khả dụng -> tăng tiêu dùng -> tăng tổng cầu).

1.3 Số liệu cho nghiên cứu kinh tế lƣợng

Có ba dạng dữ liệu kinh tế có bản: Dữ liệu theo thời gian (Time Series Data), dữ liệu theo không gian (dữ liệu chéo) (Cross Data) và dữ liệu hỗn hợp (dữ liệu bảng) (Panel Data). Nguồn số liệu:

 Các cơ quan nhà nước: Tổng cục thống kê, Uỷ ban Nhân dân thành phố,…  Các cơ quan quốc tế: Ngân hàng thế giới (WB), Qũy tiền tệ thế giới (IMF),…

3

 Các cơ quan và tổ chức tư nhân.  Wedsite.

1.4 Chất lƣợng của số liệu

Chất lượng của số liệu kinh tế-xã hội thường không tốt bởi các nguyên nhân sau đây:

 Bỏ sót số liệu.  Sai sót về kỹ thuật thu thập thông tin (bảng câu hỏi không phù hợp, nội dung câu

hỏi không chính xác,…).

 Nhầm lẫn khi quan sát, ghi nhận thông tin.  Sai số do dụng cụ đo lường.  Sai số khi chọn mẫu không có tính đại diện cao.  Mức độ tổng hợp và bảo mật của số liệu sử dụng.  Đối tượng cung cấp thông tin thiếu trung thực, không đầy đủ hoặc từ chối trả lời.

1.5 Vai trò của máy vi tính và phần mềm chuyên dụng

Hầu hết các bài toán trong kinh tế lượng liên quan đến việc xử lý một khối lượng số liệu rất lớn, do đó cần đến sự trợ giúp của máy vi tính và các chương trình hỗ trợ tính toán, chẳng hạn như: Excel, EVIEWS, SPSS, STATA, R,…

4

Chƣơng 2 MÔ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN

2.1 Mô hình và một số khái niệm

2.1.1 Mô hình hồi quy

Mô hình hồi quy tuyến tính hai biến:

(2.1.1)

 Y: Biến phụ thuộc hay biến được giải thích (explained variable)  X: Biến độc lập hay biến giải thích (explanatory variable)  U: Sai số ngẫu nhiên, giả thiết

 : Các hằng số

2.1.2 Hàm hồi quy tổng thể

Khi , từ (2.1.1) ta có

(2.1.2)

Phương trình (2.1.2) được gọi là hàm hồi quy tổng thể PRF (Population Regression Function).

 : Hệ số chặn, bằng giá trị trung bình của biến khi = 0.

 : Hệ số góc, thể hiện quan hệ giữa và .

: Khi tăng (giảm) một đơn vị thì tăng (giảm) đơn vị.

: Khi tăng (giảm) một đơn vị thì giảm (tăng) đơn vị.

2.1.3 Hàm hồi quy mẫu

Để phản ánh hàm hồi quy tổng thể cho tổng thể, cần xây dựng hàm hồi quy mẫu trên mẫu. Nếu hàm hồi quy tổng thể mô tả xu thế biến động về mặt trung bình của biến phụ thuộc theo biến độc lập trong tổng thể, thì hàm hàm hồi quy mẫu là hàm số mô tả xu thế biến động đó nhưng trong mẫu. Vì hàm hồi quy mẫu dùng để phản ánh cho hàm hồi quy tổng thể nên phải có dạng giống hàm hồi quy tổng thể.

Giả sử là mẫu ngẫu nhiên kích thước n của . Khi đó ta có biểu diễn

dưới đây được gọi là hàm hồi quy mẫu SRF (Sample Regression Function)

(2.1.3)

5

Trong đó , được gọi là các hệ số số hồi quy mẫu hay hệ số ước lượng, là các ước

lượng điểm lần lượt của , thông qua mẫu kích thước n ở trên.

Dạng hàm hồi quy mẫu cho từng quan sát:

(2.1.4)

Dạng ngẫu nhiên:

(2.1.5)

(2.1.6)

Nhận xét: Hàm hồi quy mẫu có các tính chất sau đây

 Đường hồi quy mẫu đi qua điểm

2.1.4 Tính tuyến tính trong mô hình hồi quy

Tính tuyến tính của mô hình hồi quy được hiểu là tuyến tính theo tham số. Dưới đây là một số mô hình hồi quy dạng tuyến tính thường gặp:

Ví dụ về dạng không tuyến tính (phi tuyến):

6

Trong một số trường hợp, sử dụng phép biến đổi phù hợp, ta có thể biến đổi mô hình hồi quy phi tuyến về mô hình hồi quy tuyến tính.

2.2 Phƣơng pháp ƣớc lƣợng OLS (Ordinary Least Squares)

Xét mô hình hồi quy tổng thể:

(2.2.1)

Để ước lượng các hệ số ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng thể:

. Khi đó ta có

(2.2.2)

(2.2.3)

Ký hiệu phần dư (Residuals):

(2.2.4)

Chúng ta muốn xác định , sao cho tổng bình phương các phần dư là bé nhất, có

nghĩa là

Đây là bài toán cực trị hai biến không có điều kiện ràng buộc, do đó , sẽ là nghiệm

của hệ phương trình sau:

với

7

Ví dụ 2.2.1: Xét mẫu số liệu sau đây

8 9 10 11 12 15 15 16 17 20

Dependent Variable: CHITIEU Method: Least Squares Date: Time: 09:51 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

0.673035 1.848641

0.042320 0.584110

15.90340 3.164883

0.0000 0.0133

Variable THUNHAP C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.969339 Mean dependent var 0.965506 S.D. dependent var 0.493715 Akaike info criterion 1.950037 Schwarz criterion -6.015701 Hannan-Quinn criter. 252.9182 Durbin-Watson stat 0.000000

10.80000 2.658320 1.603140 1.663657 1.536753 2.400147

7 8 9 9 10 12 11 13 14 15 Thu nhập (triệu đồng/tháng) Chi tiêu (triệu đồng/tháng)

Ta có kết quả hồi quy .

Ý nghĩa các hệ số ước lượng:

: Chi tiêu dự định trung bình của mẫu gồm 10 hộ gia đình khi không 

có thu nhập.

: Khuynh hướng tiêu dùng trung bình bằng , có nghĩa là 

khi thu nhập tăng thêm 1 triệu đồng thì chi tiêu trung bình tăng thêm khoảng

triệu đồng.

8

2.3 Tính không chệch và độ chính xác của ƣớc lƣợng OLS

2.3.1 Các giả thiết của phƣơng pháp OLS

Xét mô hình hồi quy tuyến tính hai biến (2.1.1):

thỏa mãn các giả thiết sau đây:

Giả thiết 1: Mô hình được ước lượng trên mẫu ngẫu nhiên

Giả thiết 2: Kỳ vọng có điều kiện bằng 0

Giả thiết 3: Phương sai có điều kiện không đổi

2.3.2 Tính không chệch

Giả sử mô hình hồi quy tuyến tính hai biến (2.1.1) có hàm hồi quy mẫu là

Ta có định lý sau đây:

Định lý: Khi giả thiết 2 được thỏa mãn thì các ước lượng điểm , lần lượt là các

ước lượng không chệch của , , có nghĩa là

2.3.3 Độ chính xác của các ƣớc lƣợng

Độ chính xác của các ước lượng được đo bởi phương sai của các ước lượng đó. Khi phương sai càng bé thì độ chính xác của ước lượng càng cao. Phương sai của các ước lượng được thể hiện qua định lý dưới đây.

9

Định lý: Khi các giả thiết 1, giả thiết 2 và giả thiết 3 được thỏa mãn thì phương sai của các hệ số ước lượng được xác định bởi

Trong thực tế ta thường không biết , do đó ta thay bởi ước lượng điểm không

chệch, tốt nhất của nó trong các công thức ở trên:

Như vậy các sai số chuẩn (Standard error) của , là

Trở lại ví dụ 2.2.1, ta có

, ,

10

Do đó

.

2.4 Độ phù hợp của hàm hồi quy mẫu

Hàm SRF được gọi là phù hợp tốt với số liệu mẫu quan sát nếu gần .

Quan sát hai hình vẽ dưới đây, nhận thấy rằng hàm hồi quy mẫu trong Hình 2.4.1 tốt hơn so với hàm hồi quy mẫu trong Hình 2.4.2.

Hình 2.4.1 Hình 2.4.2

Ký hiệu

(Total sum of squares)

(Explained sum of squares)

(Residual sum of squares)

11

Ta có

Với một mẫu cụ thể và sử dụng phương pháp OLS, TSS là giá trị cố định, nhưng ESS và RSS có giá trị thay đổi tùy thuộc vào dạng hàm hồi quy.

Ký hiệu

được gọi là hệ số xác định (Coefficient of determination) của hàm hồi quy.

Vì nên thường đổi thành tỷ lệ % cho thuận tiện trong phân tích. Chẳng hạn, khi tính được hệ số xác định bằng 0,8 thì có thể nói rằng mô hình và biến độc lập giải thích được 80% sự biến động của biến phụ thuộc và 20% là do yếu tố ngẫu nhiên khác giải thích.

Nhận xét:

 Nếu hàm hồi quy mẫu thích hợp tốt với số liệu quan sát thì ESS càng lớn hơn RSS

( càng gần ), có nghĩa là càng gần 1.

 Nếu hàm hồi quy mẫu kém thích hợp với số liệu quan sát thì ESS càng nhỏ hơn

RSS ( càng xa ), có nghĩa là càng gần 0.

 Nếu , tức là RSS=0 thì đường hồi quy thích hợp hoàn hảo,

biến độc lập giải thích toàn bộ cho biến phụ thuộc, không còn yếu tố ngẫu nhiên.

12

 Nếu , tức là RSS=TSS thì SRP không thích hợp, biến độc lập không giải thích được cho biến phụ thuộc.

hay mà chỉ có

 Trong thực tế rất hiếm khi  Theo kinh nghiệm, với số liệu chuỗi thời gian thì

liệu chéo thì

gần 0 hay gần 1. được xem là tốt, với số được xem là tốt. Để xem xét một mô hình tốt hay không ta không nên chỉ căn cứ vào mà còn dựa trên các yếu tố khác như: dấu của hệ số hồi quy, kinh nghiệm thực tế, khả năng dự báo chính xác,…

 Đối với hai mô hình hồi quy tuyến tính hai biến, mô hình nào có hệ số xác định

lớn hơn sẽ được coi là tốt hơn.

Xét ví dụ 2.2.1, ta có

,

Như vậy

nên mô hình được sử dụng là

Vì chuỗi số liệu thời gian đang xét có tốt.

2.5 Mô hình hồi quy qua gốc tọa độ

Khi , mô hình hồi quy tổng thể (2.1.1)

trở thành

(2.5.1)

và được gọi là mô hình hồi quy qua gốc tọa độ.

Khi đó, các hàm hồi quy tổng thể, hàm hồi quy mẫu được viết lại như sau:

(2.5.2)

13

(2.5.3)

Sử dụng phương pháp OLS, ta tính được

, ,

Đối với mô hình hồi quy qua gốc tọa độ, nếu áp dụng công thức tính hệ số xác định

thì hay có thể âm, không có ý nghĩa. Do vậy người ta đưa ra các hệ số mới, chẳng hạn

để thay thế cho . mà vẫn thỏa mãn điều kiện

Thông thường người ta hay sử dụng mô hình hồi quy có hệ số chặn, sau đó kiểm định hệ số chặn.

Ví dụ 2.5.1: Trong lý thuyết danh mục đầu tư hiện đại, mô hình định giá tài sản vốn (CAPM-Capital Asset Pricing Model) có dạng mô hình hồi quy tuyến tính qua gốc tọa độ:

Trong đó là suất sinh lợi kỳ vọng của chứng khoán i,

mục đầu tư thị trường,

là suất sinh lợi của danh là hệ số Beta, công là suất sinh lợi của đầu tư không rủi ro, cụ đo lường rủi ro có tính hệ thống (những rủi ro không thể loại trừ bằng cách đa dạng hóa danh mục đầu tư).

2.6 Đơn vị đo lƣờng trong phân tích hồi quy

Với mô hình hồi quy tổng thể ban đầu

14

có hàm hồi quy mẫu

Khi nhân các biến với hằng số, ta thu được các biến mới

Xét mô hình mới như sau:

Khi đó

, , ,

,

Khi cộng các biến với hằng số, ta thu được các biến mới

Xét mô hình mới:

Khi đó

, , ,

15

,

2.7 Hồi quy với phần mềm Eviews

Dependent Variable: CHITIEU Method: Least Squares Date: Time: 08:27 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

0.673035 1.848641

0.042320 0.584110

15.90340 3.164883

0.0000 0.0133

Variable THUNHAP C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.969339 Mean dependent var 0.965506 S.D. dependent var 0.493715 Akaike info criterion 1.950037 Schwarz criterion -6.015701 Hannan-Quinn criter. 252.9182 Durbin-Watson stat 0.000000

10.80000 2.658320 1.603140 1.663657 1.536753 2.400147

Dưới sự hỗ trợ của phần mềm Eviews, bài toán về mô hình hồi quy được giải quyết một cách nhanh chóng và gọn nhẹ. Từ ví dụ 2.2.1, sử dụng phần mềm Eviews, ta có bảng sau đây:

Chú thích cho bảng kết quả như sau:

 Dependent Variable: Biến phụ thuộc Y.  Method: Least Squares: Sử dụng phương pháp bình phương tối thiểu OLS.  Date, Time: Ngày, giờ thực hiện.  Sample: Phạm vi của mẫu quan sát.  Included observations: Tống số quan sát (cỡ mẫu).  Variable: Danh sách các biến độc lập trong mô hình hồi quy, trong đó C chính là

hệ số .

 Coefficient: Các ước lượng hệ số của mô hình ( , ).

 Std. Error: Sai số chuẩn của và ( , ).

 t-Statistic: Giá trị (quan sát) của thống kê T.

16

Prob.: Giá trị p-value của thống kê T.

(   R-squared: Hệ số xác định (hệ số tương quan toàn phần) ).

(  Adjusted R-squared: Hệ số xác định đã được hiệu chỉnh ).

).

).

).

 S.E. of regression: Sai số tiêu chuẩn của hàm hồi quy (  Sum squared resid: Tổng bình phương sai số RSS (  Log likelihood: Logarit cơ số e của hàm hợp lý.  F-statistic: Giá trị thống kê của thống kê F (  Prob(F-statistic): .

).

 Mean dependent var: Trung bình của biến phụ thuộc (  S.D. dependent var: Độ lệch chuẩn của biến phụ thuộc.  Akaike info criterion: Tiêu chuẩn Akaike.  Schwarz criterion: Tiêu chuẩn Schwarz.  Hannan-Quinn criter.: Tiêu chuẩn Hannan-Quinn.  Durbin-Watson stat: Thống kê Durbin-Watson.

17

Chƣơng 3 MÔ HÌNH HỒI QUY BỘI

Trong thực tế, các mối quan hệ kinh tế thường phức tạp, một biến số kinh tế có thể chịu sự tác động của nhiều biến số kinh tế khác nhau. Chẳng hạn, khi nghiên cứu nhu cầu về một loại hàng hóa nào đó thì nhu cầu này phụ thuộc đồng thời vào nhiều yếu tố như thu nhập của người tiêu dùng, giá bán của hàng hóa đó, thị hiếu người tiêu dùng,… Do đó cần thiết phải nghiên cứu mô hình hồi quy nhiều hơn hai biến, còn gọi là mô hình hồi quy bội (multiple regression).

3.1 Mô hình hồi quy bội tuyến tính

Dạng mô hình:

(3.1.1)

 Y: Biến phụ thuộc

: Biến độc lập 

: Hệ số hồi quy bội 

 : Sai số ngẫu nhiên, đại diện cho các yếu tố khác ngoài có tác động đến

nhưng không được đưa vào mô hình với lý do chúng ta không có quan sát về nó, hoặc không muốn đưa nó vào mô hình, hoặc không thể đưa nó vào mô hình.

Các giả thiết cho mô hình (3.1.1):

Giả thiết 1: Mô hình được ước lượng trên mẫu ngẫu nhiên

Giả thiết 2: Kỳ vọng có điều kiện bằng 0

Giả thiết 3: Phương sai có điều kiện không đổi

18

Giả thiết 4: Giữa các biến độc lập không có mối quan hệ đa cộng tuyến

hoàn hảo, có nghĩa là không tồn tại các hằng số không đồng thời bằng không

sao cho .

Ví dụ 3.1.1: Để xem tác động của các hình thức đầu tư lên GDP, người ta sử dụng hàm hồi quy bội tuyến tính

với GI, DI, FDI, I lần lượt là đầu tư của khu vực nhà nước, đầu tư từ khu vực tư nhân, đầu tư trực tiếp từ nước ngoài và tổng đầu tư.

nên mô hình này vi phạm Giả thiết 4 do

Vì giữa các biến độc lập GI, DI, FDI, I có quan hệ đa cộng tuyến hoàn hảo.

Với Giả thiết 2 được thỏa mãn thì từ mô hình (3.1.1) ta được

 : Hệ số chặn

 : Hệ số hồi quy riêng (partial coefficient), cho biết

khi thay đổi một đơn vị, các biến khác cố định thì trung bình của Y

thay đổi đơn vị.

Nếu có nào đó bằng 0, ta nói biến Y không phụ thuộc vào biến độc lập , có nghĩa

là biến không giải thích cho Y. Nếu tất cả đều bằng 0, ta nói các biến độc lập đều

không giải thích cho biến phụ thuộc Y, và hàm hồi quy trong trường hợp này được gọi là không phù hợp. Ngược lại, chỉ cần có ít nhất một biến độc lập giải thích cho biến phụ thuộc Y thì hàm hồi quy được gọi là phù hợp.

Ví dụ 3.1.2: Giả sử ta có mô hình hồi quy bội về lạm phát như sau

Trong đó LP, m, gdp lần lượt là tỷ lệ lạm phát, mức tăng trưởng cung tiền và mức tăng trưởng GDP (đơn vị %). Khi đó ta có phiên giải từ mô hình trên như sau:

19

 Khi mức tăng trưởng cung tiền và GDP bằng 0 thì mức lạm phát trung bình là

0,01.

 Khi cung tiền tăng (giảm) 1% và mức tăng trưởng GDP không thay đổi thì lạm

phát trung bình sẽ tăng (giảm) 0,2 đơn vị.

 Nếu GDP tăng 1% và cung tiền không thay đổi thì lạm phát trung bình sẽ giảm

0,15 đơn vị.

3.2 Phƣơng pháp ƣớc lƣợng OLS (Ordinary Least Squares)

Xét mô hình hồi quy tổng thể:

(3.2.1)

Để ước lượng các hệ số ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng

thể: . Khi đó ta có

(3.2.2)

(3.2.3)

Ký hiệu phần dư (Residuals):

(3.2.4)

Chúng ta muốn xác định ,…, sao cho tổng bình phương các phần dư là bé nhất, có

nghĩa là

Từ đó có được

(3.2.5)

20

với

,

Ví dụ 3.2.1: Có số liệu quan sát của 15 cửa hàng khác nhau thuộc cùng một công ty kinh doanh cùng loại sản phẩm về lượng hàng bán được (tấn/tháng), chi phí quảng cáo

(triệu đồng/tháng) và giá bán (ngàn đồng/kg) như sau:

20 8 18 7 17 6 12 18,5 19 7 3 15 16 5.7 5.5 13 4

14 5 4 19 21 9 8 2.2 2.4 2.8 2.8 18 8 3 17 6 3.1 3.3 3.7 3.9 4.1 4.3 2.7 2.5 22 8.2 9.5 2

Khi đó

21

,

Vậy hàm hồi quy mẫu là

Từ đó có nhận xét về ý nghĩa kinh tế của các tham số hồi quy:

 : Khi doanh nghiệp không quảng cáo và ngay cả khi bán giá cực thấp

( ) thì lượng hàng bán được tối thiểu bình quân khoảng 19.87 tấn/tháng.

 : Nếu giữ nguyên giá bán, khi tăng (giảm) mức quảng cáo một triệu

đồng/tháng thì sản lượng tiêu thụ tăng (giảm) bình quân khoảng 0.67 tấn/tháng.

 : Nếu giữ nguyên chi phí quảng cáo, khi tăng (giảm) giá bán một

ngàn đồng/kg thì sản lượng hàng bán được giảm (tăng) bình quân khoảng 2.25 tấn/tháng.

Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient

2.694140 0.187374 0.473382

7.374756 3.573835 -4.758751

0.0000 0.0038 0.0005

Variable C X2 X3

19.86862 0.669642 -2.252705

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.983684 Mean dependent var 0.980965 S.D. dependent var 0.396969 Akaike info criterion 1.891008 Schwarz criterion -5.752028 Hannan-Quinn criter. 361.7403 Durbin-Watson stat 0.000000

17.30000 2.877251 1.166937 1.308547 1.165429 1.755206

Sử dụng phần mềm Eviews, ta có bảng như sau:

22

Để đo mức độ dao động và tương quan giữa các hệ số ước lượng được, sử dụng ma trận hiệp phương sai của hệ số hồi quy dạng tổng quát:

Trong thực tế, thường không biết , do đó thay bởi ước lượng điểm không chệch,

tốt nhất của nó trong các công thức ở trên:

Các sai số chuẩn của là

Từ số liệu của Ví dụ 3.2.1, dễ dàng tính được:

Ma trận hiệp phương sai của là:

Cũng có .

23

Sử dụng Eviews, ta được

C X2 X3 C 7.25838 -0.49728 -1.26153 X2 -0.49728 0.03510 0.08444 X3 -1.26153 0.08444 0.22409

Định lý Gauss-Markov: Khi các giả thiết 1-4 được thỏa mãn thì các ước lượng thu được từ phương pháp OLS là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch (tính chất BLUE-Best Linear Unbiased Estimator).

3.3 Độ phù hợp của hàm hồi quy mẫu

Tương tự như hồi quy hai biến, ta có định nghĩa các tổng bình phương độ lệch và hệ số xác định như sau:

Ký hiệu

Ta có

Hệ số xác định của hàm hồi quy bội cũng được định nghĩa là:

Chú ý rằng hệ số xác định trong mô hình hồi quy tuyến tính k biến là một hàm tăng theo số biến độc lập. Thật vậy, TSS không phụ thuộc vào số biến độc lập trong mô hình với bậc tự do là (n-1), RSS là hàm giảm theo số biến độc lập trong mô hình với bậc tự do là

24

(n-k), do đó khi số biến độc lập càng tăng thì hệ số xác định càng lớn và mô hình sẽ phức tạp hơn, khó phân tích hơn. Ngoài ra, khi số biến độc lập tăng lên sẽ làm tăng mối tương quan giữa các biến độc lập, đồng thời làm giảm bậc tự do của ESS, RSS. Do vậy cần cân nhắc cẩn thận trước khi thêm biến độc lập vào mô hình.

Với những chú ý trên, người ta điều chỉnh hệ số xác định bằng cách đưa thêm bậc tự do

(Adjustted

của các tổng bình phương vào công thức để được hệ số xác định hiệu chỉnh R-Squared) sau đây:

Người ta sử dụng để xem xét có nên đưa thêm biến độc lập vào mô hình hay không.

trong mô hình mới Việc đưa thêm biến độc lập vào mô hình là cần thiết khi trị số của tăng lên, đồng thời hệ số hồi quy của biến độc lập đưa vào khác 0 và có ý nghĩa thống kê.

Trở lại Ví dụ 3.2.1, sử dụng phần mềm Eviews để kiểm tra sự thay đổi của hệ số xác định (tấn/tháng) chỉ phụ thuộc vào giá bán trong hai trường hợp: (a) Lượng hàng bán được (tấn/tháng) phụ thuộc (ngàn đồng/kg)

Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient -3.863273 29.35341

0.200042 0.639968

-19.31231 45.86703

0.0000 0.0000

Variable X3 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.966318 Mean dependent var 0.963727 S.D. dependent var 0.547984 Akaike info criterion 3.903718 Schwarz criterion -11.18817 Hannan-Quinn criter. 372.9654 Durbin-Watson stat 0.000000

17.30000 2.877251 1.758423 1.852830 1.757417 1.411550

Trường hợp (a)

(ngàn đồng/kg): vào cả chi phí quảng cáo (triệu đồng/tháng), (b) Lượng hàng bán được (triệu đồng/tháng) và giá bán

25

Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient

2.694140 0.187374 0.473382

7.374756 3.573835 -4.758751

0.0000 0.0038 0.0005

Variable C X2 X3

19.86862 0.669642 -2.252705

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.983684 Mean dependent var 0.980965 S.D. dependent var 0.396969 Akaike info criterion 1.891008 Schwarz criterion -5.752028 Hannan-Quinn criter. 361.7403 Durbin-Watson stat 0.000000

17.30000 2.877251 1.166937 1.308547 1.165429 1.755206

Trường hợp (b)

< . Do đó để xem việc đưa thêm biến X2 vào mô Ta có

hình có phù hợp hay không, ta cần kiểm tra liệu có bác bỏ giả thuyết hay

không.

3.4 Một số dạng mô hình hồi quy tuyến tính nhiều biến

3.4.1 Mô hình logarit kép (log-log)

Xét mô hình hồi quy mũ (cho từng quan sát ):

(3.4.1.1)

Vì mô hình (3.4.1.1) không tuyến tính theo cả tham số và biến số nên ta không thể ước lượng nó theo phương pháp OLS. Để ước lượng được các tham số của mô hình này, ta cần chuyển về dạng tuyến tính theo tham số như sau:

Lấy logarit hai vế của (3.4.1.1), ta được

(3.4.1.2)

Đặt , (3.4.1.2) trở thành

,

26

gọi là mô hình log-log hay logarit kép. Đây là mô hình tuyến tính theo các tham số và

nên có thể ước lượng chúng bằng phương pháp OLS.

Nếu đặt thì

Đặc điểm: Độ co giãn của đối với được định nghĩa là

Lấy vi phân hai vế của (3.4.1.2), khi đó

.

Như vậy biểu thị hệ số co giãn của đối với , do đó mô hình logarit kép còn được

gọi là mô hình hệ số co giãn không đổi.

Mộ cách tổng quát, mô hình hồi quy dạng logarit kép có dạng như sau:

Với mỗi , ta có , có nghĩa là nếu tăng (giảm) 1% và các yếu tố

khác trong mô hình không đổi thì trung bình tăng (giảm) %, và được gọi là hệ

số co giãn của theo

Ví dụ 3.4.1.1: Chẳng hạn có hàm cầu về thịt lợn như sau

Khi đó hệ số co giãn về nhu cầu thịt lợn theo giá là -0.6, điều này có nghĩa là khi giá thịt lợn tăng 1% thì cầu trung bình về thịt lợn giảm 0.6%.

3.4.2 Mô hình bán logarit

27

Trong thực tế, có những trường hợp mô hình logarit kép không còn phù hợp, chẳng hạn quan hệ giữa tiền lương và số năm kinh nghiệm của người lao động, hoặc tiền lương và trình độ học vấn,…Khi đó người ta có thể sử dụng các mô hình bán logarit dưới đây:

Mô hình log-lin

Dạng mô hình:

(3.4.2.1)

Trong mô hình này, hệ số được giải thích như sau: Khi tăng 1 đơn vị thì trung

bình tăng %.

Trong nghiên cứu thực nghiệm, mô hình log-lin thích hợp với những tình huống như khảo sát tốc độ tăng trưởng hay giảm sút của các biến kinh tế tầm vĩ mô như: Dân số, lượng lao động, GDP, GNP, lượng cung tiền, năng suất, thâm hụt thương mại,…

Chú ý thêm rằng mô hình log-lin chỉ thích hợp nếu số liệu chuỗi thời gian là dừng.

Ví dụ 3.4.2.1: Giả sử quan hệ giữa thu nhập (TN) và trình độ học vấn (Ed) là

Khi đó ta có thể nói rằng cứ thêm mỗi năm đi học, mức thu nhập trung bình tăng 5.6%.

Ví dụ 3.4.2.2: Từ công thức tính lãi gộp

Lấy logarit hai vế

Đặt . Hơn nữa, nếu có thêm yếu tố ngẫu nhiên vào, ta được mô

hình log-lin là

Mô hình lin-log

Dạng mô hình:

(3.4.2.2)

28

Trong mô hình này, hệ số được giải thích như sau: Khi tăng 1% thì trung bình

tăng đơn vị.

Trong nghiên cứu thực nghiệm, ta có thể vận dụng mô hình này để khảo sát một số quan hệ như: lượng cung tiền ảnh hưởng tới GDP, diện tích trồng trọt tác động tới sản lượng cây trồng, diện tích sử dụng của căn nhà tác động tới giá nhà,…

Ví dụ 3.4.2.3: Có mô hình lin-log về quan hệ giữa số giờ mà người lao động muốn làm (L) và mức trả cho một giờ lao động (TL) như sau:

Kết quả trên cho thấy rằng khi mức trả cho một giờ lao động tăng 1% thì người lao động sẽ vui lòng làm thêm 0.6 giờ.

Nhận xét:

 Dạng hàm logarit thường được lựa chọn khi có gợi ý từ lý thuyết kinh tế về mối

quan hệ giữa các biến số, chẳng hạn như dạng hàm Cobb-Douglas,…

 Dạng hàm logarit cũng thường được sử dụng khi các biến số đều nhận giá trị dương, hoặc biến số có phân phối đuôi lệch (thu nhập, mức lương, giá cổ phiếu,…). Việc lấy logarit giúp làm cho phân phối của sai số ngẫu nhiên gần với phân phối chuẩn, và do đó giúp tăng tính đối xứng của phân phối.

 Việc sử dụng mô hình dạng logarit có ưu thế là kết quả của ước lượng không phụ thuộc vào đơn vị đo của các biến số. Tuy nhiên, với những biến số mang cả giá trị âm (lợi nhuận công ty, lợi nhuận cổ phiếu) thì việc lấy logarit một cách trực tiếp là không thực hiện được.

3.4.3 Mô hình nghịch đảo

Dạng mô hình:

(3.4.3.1)

Đặc điểm:

 Khi biến độc lập tăng ra vô hạn thì dần về 0, và khi đó biến phụ thuộc sẽ

dần về , gọi là tiệm cận ngang.

29

 Nếu thì là hàm giảm theo ; nếu thì là hàm tăng theo ;

còn khi thì .

Một số áp dụng:

X(Sản lượng)

 Quan hệ giữa đường chi phí sản xuất cố định trung bình AFC (Average Fixed Cost) và sản lượng: Theo lý thuyết kinh tế, khi sản lượng tăng thì chi phí sản xuất cố định trung bình trên một sản phẩm có khuynh hướng giảm dần nhưng không vượt quá mức tối thiểu. Y (AFC)

 Quan hệ giữa tỷ lệ thay đổi tiền lương Y và tỷ lệ thất nghiệp X biểu diễn bằng đường cong Phillips: Khi tỷ lệ thất nghiệp tăng nhưng vẫn ở dưới mức tỷ lệ thất nghiệp tự nhiên thì tiền lương tăng (Y>0) nhưng mức tăng lương có khuynh hướng giảm dần. Khi tỷ lệ thất nghiệp tăng vượt quá mức tỷ lệ thất nghiệp tự nhiên thì tiền lương sẽ giảm (Y<0) nhưng mức giảm của tiền lương có khuynh hướng tăng dần, và tỷ lệ giảm sút tiền lương không vượt quá .

% thay đổi tiền lương Y

% thất nghiệp X

30

 Quan hệ chi tiêu của người tiêu dùng đối với một loại hàng Y với tổng chi tiêu hay tổng thu nhập X biểu diễn bằng đường cong Engel: Lý thuyết kinh tế khẳng định rằng chi tiêu hàng hóa tăng khi thu nhập hoặc tổng chi tiêu tăng. Tuy nhiên, đối với một số loại hàng hóa thì thu nhập của người tiêu dùng phải đạt ở mức tối thiểu mà ta gọi là thu nhập tới hạn hay ngưỡng thu nhập thì người tiêu dùng

Chi tiêu của một loại hàng Y Bão hòa

mới sử dụng loại hàng này. Mặt khác nhu cầu về loại hàng này là hữu hạn, ta xác định mức tiêu dùng bảo hòa của loại hàng này lập độc lập .

Thu nhập X

3.4.4 Mô hình hồi quy đa thức

Dạng mô hình:

(3.4.4.1)

Đây là mô hình tuyến tính theo các tham số nên nó được ước lượng bằng phương

pháp OLS. Mô hình hồi quy dạng đa thức thường được dùng để nghiên cứu hàm chi phí hoặc tiền lương.

3.4.5. Ví dụ

Ví dụ 3.4.5.1: Để tìm hiểu giá bán thịt lợn (ngàn) và giá bán thịt gà (ngàn) có ảnh hưởng lên mức tiêu thụ thịt lợn hay không (kg/ngày), người ta khảo sát về mức tiêu thụ thịt lợn bình quân một ngày tại một siêu thị như sau:

Giá thị lợn Giá thịt gà Thịt lợn tiêu thụ

45 49 54 85 81 76 1200 1176 1152

31

58 63 69 72 73 76 80 83 86 73 70 72 68 63 59 55 54 52 1087 1045 1023 985 942 915 845 810 759

Ước lượng hàm hồi quy dạng:

Dependent Variable: LUONGLONTIEUTHU Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Coefficient -5.174643 6.969852 874.0393

1.989065 2.480846 298.9491

-2.601546 2.809466 2.923706

0.0287 0.0204 0.0169

Variable GIATHITLON GIATHITGA C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.983099 Mean dependent var 0.979344 S.D. dependent var 20.91355 Akaike info criterion 3936.388 Schwarz criterion -51.78594 Hannan-Quinn criter. 261.7614 Durbin-Watson stat 0.000000

994.9167 145.5125 9.130989 9.252216 9.086107 0.999101

+ Mô hình lin-log:

Dependent Variable: LUONGLONTIEUTHU Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

89.26039 116.0147 849.9657

-2.389680 5.331799 -0.832822

0.0406 0.0005 0.4265

Variable LOGX1 LOGX2 C

Coefficient -213.3038 618.5673 -707.8697

994.9167

R-squared

0.984665 Mean dependent var

+ Tuyến tính:

32

Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.981257 S.D. dependent var 19.92154 Akaike info criterion 3571.810 Schwarz criterion -51.20279 Hannan-Quinn criter. 288.9389 Durbin-Watson stat 0.000000

145.5125 9.033798 9.155025 8.988916 1.227190

+ Mô hình log-log:

Dependent Variable: LOGY Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Coefficient -0.111773 0.768074 4.136796

0.118087 0.153482 1.124465

-0.946533 5.004325 3.678903

0.3686 0.0007 0.0051

Variable LOGX1 LOGX2 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.974658 Mean dependent var 0.969027 S.D. dependent var 0.026355 Akaike info criterion 0.006251 Schwarz criterion 28.33188 Hannan-Quinn criter. 173.0717 Durbin-Watson stat 0.000000

6.892549 0.149752 -4.221979 -4.100753 -4.266862 1.072395

33

Chƣơng 4 SUY DIỄN THỐNG KÊ VÀ DỰ BÁO TỪ MÔ HÌNH HỒI QUY

4.1 Quy luật phân phối xác suất của một số thống kê mẫu

Xét mô hình hồi quy tuyến tính:

(4.1.1)

Để ước lượng các hệ số ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng

thể: . Khi đó ta có

(4.1.2)

(4.1.3)

Từ kết quả ước lượng, để đưa ra các suy diễn thống kê cho các hệ số hồi quy tổng thể, ta

cần biết quy luật phân phối của các , và do đó cần giả thiết sau đây:

Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật chuẩn, tức là .

Khi giả thiết 1-5 thỏa mãn thì phương pháp OLS là phương pháp ước lượng tốt nhất (BLUE) cho mô hình hồi quy (4.1.1).

Định lý: Khi các giả thiết 1-5 được thỏa mãn, các tính chất sau đây đúng

(i) (4.1.4)

(ii) (4.1.5)

(iii) (4.1.6)

với a, b không đồng thời bằng 0.

4.2 Khoảng tin cậy cho các hệ số hồi quy

4.2.1 Khoảng tin cậy cho một hệ số hồi quy

34

Thừa hưởng kết quả của môn học Lý thuyết xác suất và thống kê toán, với độ tin cậy

cho trước, ta có các khoảng tin cậy của như sau:

 Khoảng tin cậy đối xứng:

Ý nghĩa: với độ tin cậy , khi biến tăng 1 đơn vị và các yếu tố khác không

đổi thì trung bình của biến tăng trong khoảng này.

 Khoảng tin cậy trên trái:

 Khoảng tin cậy bên phải:

Khoảng tin cậy bên trái và bên phải được sử dụng để ước lượng giá trị lớn nhất và nhỏ nhất tương ứng cho .

Ví dụ 4.2.1.1: Giả sử có số liệu về doanh số bán hàng Y (triệu đồng/tháng), chi phí chào (triệu đồng/tháng) tại 12 doanh hàng (triệu đồng/tháng) và chi phí quảng cáo

nghiệp của một công ty như sau:

Quan sát Doanh số bán hàng Chi phí chào hàng Chi phí quảng cáo

1 2 3 4 5 6 7 8 9 10 11 12 1269 1490 1058 1625 1020 1805 1610 1285 1390 1442 1590 1383 100 102 60 160 72 175 142 118 116 120 140 154 181 246 191 235 154 262 260 161 171 230 221 147

35

Dependent Variable: DOANHSOBANHANG Method: Least Squares Date: Time: 07:15 Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Coefficient

2.571877 4.554520 333.1426

0.395324 0.479784 77.32351

6.505743 9.492861 4.308425

0.0001 0.0000 0.0020

Variable CHIPHIQUANGCAO CHIPHICHAOHANG C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.962815 Mean dependent var 0.954552 S.D. dependent var 49.56187 Akaike info criterion 22107.41 Schwarz criterion -62.13983 Hannan-Quinn criter. 116.5173 Durbin-Watson stat 0.000000

1413.917 232.4824 10.85664 10.97787 10.81176 2.307457

Hàm hồi quy mẫu:

Từ Eviews, ta có bảng kết quả:

với

Ngoài ra, và .

+ Ý nghĩa kinh tế của các hệ số hồi quy:

 : Cho biết biến DOANHSOBANHANG đồng

biến với các biến CHIPHIQUANGCAO và CHIPHICHAOHANG.

cáo ( : Cho biết khi doanh nghiệp không chào hàng và thực hiện quảng ) thì doanh số bán hàng bình quân của một doanh nghiệp là

triệu đồng/tháng.

: Cho biết khi chi phí quảng cáo không đổi, doanh số bán hàng bình triệu đồng/tháng nếu chi phí

quân của một doanh nghiệp sẽ tăng (giảm) chào hàng tăng (giảm) 1 triệu đồng/tháng.

36

 : Khi chi phí chào hàng không đổi, doanh số bán hàng bình quân của

nếu chi phí quảng cáo tăng (giảm) 1

một doanh nghiệp sẽ tăng (giảm) triệu đồng/tháng.

Khoảng tin cậy cho các hệ số hồi quy:

Với độ tin cậy , ta có , và .

 Khoảng tin cậy cho :

Hay

đến

Ý nghĩa kinh tế: Khi chi phí quảng cáo không đổi, doanh số bán hàng bình quân của một cửa hàng tăng trong khoảng từ triệu đồng khi chi phí chào hàng tăng 1 triệu đồng/tháng.

 Khoảng tin cậy cho :

Hay

đến

Ý nghĩa kinh tế: Khi chi phí chào hàng không đổi, doanh số bán hàng bình quân triệu đồng khi chi phí của một cửa hàng tăng trong khoảng từ quảng cáo tăng 1 triệu đồng/tháng.

4.2.2 Khoảng tin cậy cho biểu thức của hai hệ số hồi quy

Trong nhiều tình huống, ta muốn biết tác động đồng thời hai biến độc lập lên biến phụ thuộc, chẳng hạn như doanh nghiệp muốn biết sự gia tăng trong sản lượng đầu ra khi mua thêm 1 máy sản xuất và thuê thêm 5 lao động để vận hành máy này. Khi đó chúng ta cần xây dựng khoảng tin cậy cho tác động tổng hợp của hai biến số.

37

Với mô hình (4.1.1), giả sử và cùng tăng (giảm) 1 đơn vị, khi đó giá trị trung

bình của tăng (giảm) đơn vị, do đó để ước lượng mức tăng của trung bình của

ta cần xây dựng khoảng tin cậy cho .

 Với độ tin cậy cho trước, khoảng tin cậy cho là:

 Với a, b là là hai số thực bất kỳ, khoảng tin cậy cho mức tăng của trung bình của tăng b đơn vị là: tăng a đơn vị và khi

với

Ví dụ 4.2.2.1: Cũng với số liệu trong ví dụ 4.2.1.1, khi chi phí chào hàng giảm 2 triệu đồng và chi phí quảng cáo tăng 7 triệu đồng thì doanh số bán hàng bình quân thay đổi như thế nào với độ tin cậy 95%?

Để trả lời cho câu hỏi trên, ta cần tìm khoảng tin cậy cho hệ số sau đây:

với

,

Vậy

38

đến

Có nghĩa là với độ tin cậy 95%, doanh số bán hàng bình quân của một cửa hàng tăng lên trong khoảng từ triệu đồng khi chi phí quảng cáo tăng 7 triệu đồng và chi phí chào hàng giảm 2 triệu đồng/tháng.

4.2.3 Khoảng tin cậy của phƣơng sai nhiễu (sai số ngẫu nhiên)

Với giả thiết , ta có

Với độ tin cậy , ta có các khoảng tin cậy của phương sai như sau:

 Khoảng tin cậy hai phía:

 Khoảng tin cậy bên trái:

 Khoảng tin cậy bên phải:

Với là ước lượng điểm của -phương sai của sai số ngẫu nhiên U.

Ví dụ 4.2.3.1: Từ kết quả hồi quy trong ví dụ 4.2.1.1, ta được

Với độ tin cậy 95%, giá trị tới hạn của phân phối với là

Do đó khoảng tin cậy hai phía của là

. Hay

39

4.2.4 Ý nghĩa của khoảng tin cậy

Với độ tin cậy %, khoảng tin cậy của được hiểu như sau: Nếu lấy nhiều

lần các mẫu một cách ngẫu nhiên từ cùng một tổng thể thì có khoảng % số

khoảng tin cậy được xây dựng từ các mẫu này có chứa . Trong thực tế phân tích hồi

quy, thường chỉ lấy một mẫu duy nhất và thu được một khoảng tin cậy cụ thể tương ứng, % khoảng tin cậy có chứa ta hy vọng rằng khoảng tin cậy này nằm trong số

.

Khi độ tin cậy chứa càng lớn thì xác suất để mẫu được chọn có khoảng tin cậy tương ứng càng lớn, tuy nhiên đổi lại là độ chính xác càng giảm. Khi độ tin cậy 100% , tức

, thì khoảng tin cậy là , và nó không có giá trị thông tin nào cả. Trong

thực tế, ta thường lấy = 95%.

Khi độ tin cậy được cố định, ta quan tâm đến độ dài khoảng tin cậy đối xứng

. Khi số bậc tự do (n-k) càng bé, càng lớn và khoảng tin cậy càng

rộng. Do vậy với cùng một kích thước mẫu n, số biến độc lập đưa vào mô hình càng nhiều thì sẽ làm giảm độ chính xác của ước lượng. Tuy nhiên tác động này sẽ giảm dần và trở nên không đáng kể khi kích thước mẫu khá lớn. Ngoài ra, mối tương quan tuyến ; mối tương quan tính giữa và các biến độc lập còn lại trong mô hình được đo bởi

tuyến tính càng chặt thì càng cao, làm cho lớn và khoảng tin cậy đối xứng sẽ

rộng ra; khi gần 1, khoảng tin cậy sẽ rất rộng và trở nên mất ý nghĩa thực tế của việc

ước lượng.

4.3 Kiểm định giả thuyết thống kê về hệ số hồi quy

Việc kiểm định các giả thuyết liên quan tới mức độ tác động của biến độc lập lên biến phụ thuộc trong mô hình hồi quy cũng là bài toán thường được quan tâm trong phân tích hồi quy. Chẳng hạn liệu chi phí quảng cáo có giúp tăng lợi nhuận hay không, số năm kinh nghiệm có ảnh hưởng đến năng suất lao động hay không,…

4.3.1 Kiểm định giả thuyết một hệ số hồi quy

Xét mô hình hồi quy:

(4.3.1.1)

40

Giả định rằng các giả thiết 1-5 được thỏa mãn. Vấn đề đặt ra: liệu có biến nào đó

không tác động đến biến hay không, có nghĩa là liệu có nào đó bằng 0 hay không.

Để trả lời câu hỏi này, người ta xét cặp giả thuyết thống kê như sau:

Nếu bác bỏ thì ta thừa nhận , có nghĩa là có tác động đến biến . Nếu ngược

lại chưa có cơ sở bác bỏ thì tạm thời vẫn chấp nhận và xem như không hề tác

động đến .

Trong nhiều trường hợp, ta cũng muốn kiểm định các giả thuyết về độ lớn của để giúp ra quyết định trong các hoạt động kinh tế và sản xuất kinh doanh. Khi đó với mỗi

, xét thống kê toán

Ký hiệu và giá trị xác suất .

Khi đó ta có quy tắc kiểm định như sau:

Giả thuyết Phương pháp Quy tắc bác bỏ

Loại kiểm định Hai phía Khoảng tin cậy

Giá trị tới hạn

Một phía Giá trị p-value Khoảng tin cậy

Giá trị tới hạn

Một phía Giá trị p-value Khoảng tin cậy

Giá trị tới hạn

Giá trị p-value

41

Ví dụ 4.3.1.1: Cũng với số liệu của ví dụ 4.2.1.1, ta tiến hành kiểm định các cặp giả thuyết sau đây:

Ta có thống kê .

Với độ tin cậy 95%,

Vậy trong cả hai cặp giả thuyết (a) và (b), giả thuyết bị bác bỏ, có nghĩa là chi phí

chào hàng và chi phí quảng cáo thực sự ảnh hưởng đến doanh số bán hàng. Chúng ta cũng có những kết luận như trên nếu sử dụng giá trị xác suất p-value từ bảng kết quả hồi quy, cả hai giá trị xác suất này đều bé hơn mức ý nghĩa .

4.3.2 Kiểm định giả thuyết về một ràng buộc các hệ số hồi quy

Xét mô hình hồi quy:

(4.3.2.1)

42

Bài toán đặt ra: Hãy kiểm định xem liệu tác động của các biến và nào đó trong

có khác nhau hay không. Để làm điều này, người ta xét cặp giả

mô hình lên biến thuyết thống kê

Nếu bác bỏ thì ta thừa nhận , có nghĩa là và tác động khác nhau lên biến

. Nếu ngược lại chưa có cơ sở bác bỏ thì tạm thời vẫn chấp nhận và có thể xem

và tác động như nhau lên .

Một cách tống quá, các bài toán kiểm định giả thuyết về ràng buộc giữa hai hệ số hồi quy có thể được tóm tắt trong bảng sau:

Quy tắc bác bỏ

Loại kiểm định Giả thuyết Hai phía

Một phía

Một phía

Trong đó

Ví dụ 4.3.2.1: Tiếp tục xét ví dụ 4.2.1.1, với độ tin cậy 95%, có thể cho rằng chi phí chào hàng hiệu quả hơn chi phí quảng cáo đối với doanh số bán hàng hay không?

Xét cặp giả thuyết thống kê:

43

Ta có thống kê

,

Kết luận: Bác bỏ giả thuyết , thừa nhận , có nghĩa là thông tin của mẫu đủ cơ sở để

cho rằng chi phí chào hàng hiệu quả hơn chi phí quảng cáo đối với doanh thu bán hàng.

4.3.3 Kiểm định giả thuyết về nhiều ràng buộc các hệ số hồi quy (kiểm định Wald)

Xét hai mô hình hồi quy:

(U) (4.3.2.1)

(R) (4.3.2.2)

(U) được gọi là mô hình không ràng buộc hay mô hình không giới hạn (Unrestricted Model), còn (R) được gọi là mô hình ràng buộc hay mô hình giới hạn (Restricted Model).

Điều kiện ràng buộc trong mô hình (R) chính là hệ số hồi quy của các biến độc lập đồng thời bằng 0. Để kiểm định điều kiện ràng buộc trên, ta lập giả

thuyết như sau:

Các bước thực hiện kiểm định Wald:

 Hồi quy mô hình (U) gồm k tham số, tính có (n-k) bậc tự do.

 Hồi quy mô hình (R) gồm m tham số, tính có (n-m) bậc tự do.

 Sử dụng thống kê toán

44

.

 Với mức ý nghĩa , tra bảng ta có giá trị tới hạn .

 Nếu hoặc thì bác bỏ .

Chú ý rằng, nếu giả thuyết là thì kết luận của kiểm định Wald tương đương

với kết luận theo kiểm định T. Kiểm định Wald được sử dụng với nhiều mục đích khác nhau liên quan đến hệ số hồi quy như kiểm định tổ hợp tuyến tính, kiểm định thừa biến.

Ví dụ 4.3.3.1: Giả sử có mẫu số liệu về 12 doanh nghiệp về lợi nhuận ròng Y, chi phí ) của một công ty cùng sản NVL A ( ) và chi phí NVL C ( ), chi phí NVL B (

xuất một loại sản phẩm như sau:

Quan sát Chi phí NVL A (ngàn đồng/sp) 16 15 17 13 11 12 20 22 24 19 21 22 1 2 3 4 5 6 7 8 9 10 11 12 Chi phí NVL B (ngàn đồng/sp) 15 15 13 16 17 14 17 18 19 25 27 29 Chi phí NVL C (ngàn đồng/sp) 12 13 13 11 15 17 15 16 18 19 20 19 Lợi nhuận ròng (ngàn đồng/sp) 11 12 13 10 12 11 15 16 18 19 21 23

Xét hai mô hình hồi quy:

(U)

(R)

Kiểm định Wald cho cặp giả thuyết:

45

Dependent Variable: LOINHUANRONG Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Coefficient

0.067634 0.074023 0.130729 1.309052

5.551292 5.867202 2.349275 -3.441038

0.0005 0.0004 0.0467 0.0088

Variable CHIPHINVLA CHIPHINVLB CHIPHINVLC C

0.375454 0.434309 0.307119 -4.504498

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.977016 Mean dependent var 0.968398 S.D. dependent var 0.767277 Akaike info criterion 4.709715 Schwarz criterion -11.41559 Hannan-Quinn criter. 113.3583 Durbin-Watson stat 0.000001

15.08333 4.316108 2.569264 2.730900 2.509421 2.196034

Kết quả hồi quy cho (R):

Dependent Variable: LOINHUANRONG Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Coefficient

0.807818 0.811889

0.186722 3.387694

4.326304 0.239658

0.0015 0.8154

Variable CHIPHINVLA C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.651773 Mean dependent var 0.616950 S.D. dependent var 2.671282 Akaike info criterion 71.35749 Schwarz criterion -27.72404 Hannan-Quinn criter. 18.71691 Durbin-Watson stat 0.001498

15.08333 4.316108 4.954006 5.034824 4.924084 0.751064

Kết quả hồi quy cho (U):

Nhận thấy các hệ số hồi quy đều có ý nghĩa thống kê (trừ hằng số C trong mô hình (R)).

Ta có

46

Với mức ý nghĩa 5%, ta có . Bác bỏ giả thuyết ,

nghĩa là .

4.3.4 Kiểm định sự phù hợp của mô hình hồi quy

Xét một trường hợp đặc biệt của kiểm định giả thuyết về nhiều ràng buộc của các hệ số hồi quy như sau:

Nếu đúng thì mô hình được gọi là không phù hợp. Tương tự như các bước kiểm định

F ở mục 4.3.3, ta lần lượt ước lượng hai mô hình sau:

 Mô hình gốc không có điều kiện ràng buộc:

Ta sẽ thu được .

 Mô hình với điều kiện ràng buộc:

Mô hình này không có biến độc lập nên hệ số xác định bằng 0.

Vì hai mô hình trên đều cùng biến phụ thuộc nên giá trị quan sát được tính theo công thức

Với mức ý nghĩa cho trước , tra giá trị tới hạn của phân phối F là .

Nếu thì bác bỏ giả thuyết , và hàm hồi quy khi đó được gọi là phù hợp.

Ngược lại, hàm hồi quy được gọi là không phù hợp.

47

Nhận xét:

 Khi kiểm định cặp giả thuyết dạng

,

ta có thể sử dụng cả hai loại kiểm định F và kiểm định T và cho kết luận hoàn toàn giống nhau.

 Khi kiểm định giả thuyết đồng thời bằng 0 của nhiều hệ số, việc sử dụng kiểm định T cho từng hệ số thay vì sử dụng kiểm định F là không đáng tin cậy trong một số trường hợp.

4.4 Kiểm định giả thuyết về phƣơng sai của nhiễu

Ký hiệu và . Khi đó ta có bảng tóm tắt về quy

tắc kiểm định giả thuyết về phương sai của nhiễu như sau:

Giả thuyết Phƣơng pháp Quy tắc bác bỏ

Loại kiểm định Hai phía Khoảng tin cậy

Giá trị tới hạn

hoặc hoặc

Một phía Giá trị p-value Khoảng tin cậy

Giá trị tới hạn

Một phía Giá trị p-value Khoảng tin cậy

Giá trị tới hạn

Giá trị p-value

48

4.5. Một số kiểm định khác

Khi Giả thiết 5 thỏa mãn, các kiểm định T và F là đủ để thực hiện các kiểm định cần thiết và điều này đúng cho mọi cỡ mẫu.

Trong trường hợp Giả thiết 5 bị vi phạm thì các thống kê T và F như đã sử dụng sẽ không tuân theo quy luật phân phối Student và quy luật Fisher tương ứng. Tuy nhiên, người ta đã chỉ ra rằng khi cõ mẫu lớn thì các thống kê T và F xấp xỉ quy luật phân phối Student và quy luật phân phối Fisher tương ứng. Như vậy khi cỡ mẫu lớn, nếu nhiễu không tuân theo quy luật chuẩn thì các kết luận nhận được từ các mục 4.2 và 4.3 vẫn có giá trị.

Khi cỡ mẫu lớn, ngoài các kiểm định T và F, người ta còn có thể sử dụng các kiểm định khác như kiểm định Wald, kiểm định tỷ số hợp lý LR, kiểm định nhân tử Lagrange LM.

Các kiểm định T và F chỉ được sử dụng cho mô hình hồi quy tuyến tính, còn các kiểm định Wald, LR, và LM đều có thể áp dụng được cho cả mô hình tuyến tính lẫn phi tuyến. Với các mô hình tuyến tính, các kết luận thu được từ các kiểm định này trùng với kiểm định F.

4.6 Dự báo giá trị của biến phụ thuộc và sai số dự báo

4.6.1 Dự báo giá trị của biến phụ thuộc

Dự báo giá trị trung bình có điều kiện:

Giả sử ta quan tâm mô hình hồi quy:

Với , giá trị dự báo của sẽ là

Khi đó

 Dự báo điểm (ước lượng điểm) của là , tức là

 Dự báo khoảng (ước lượng khoảng) của với độ tin cậy là

49

Với

,

Dự báo giá trị riêng biệt

Với độ tin cậy , khoảng tin cậy của khi là

Với

,

Ví dụ 4.6.1.1: Với số liệu của ví dụ 4.2.1.1, hãy dự báo giá trị bình quân và giá trị riêng biệt cho doanh số bán hàng của một doanh nghiệp khi chi phí chào hàng là 150 triệu đồng/tháng và chi phí quảng cáo là 220 triệu đồng/tháng với độ tin cậy 95%?

Ta có

, ,

,

 Dự báo khoảng cho doang số bán trung bình:

 Dự báo giá trị riêng biệt:

4.6.2 Đánh giá sai số dự báo

Với mô hình hồi quy, độ chính xác của dự báo được phản ánh thông qua sai số dự báo, được xác định bằng các cách sau đây:

 Căn bậc hai của trung bình bình phương sai số

50

 Sai số trung bình tuyệt đối

 Sai số trung bình tuyệt đối theo phần trăm

Trong nghiên cứu thực nghiệm với các số liệu kinh tế, sai số dự báo được yêu cầu nhỏ hơn 5%. Một vài loại chỉ số được yêu cầu sai số phải khá bé, chẳng hạn như chỉ số VN- index hay chỉ số giá CPI theo tháng.

51

Chƣơng 5 MÔ HÌNH HỒI QUY VỚI BIẾN ĐỊNH TÍNH

5.1 Khái niệm biến định tính, biến giả

Biến định tính (categorical variable) hay biến chỉ tiêu là những biến kinh tế xã hội không có giá trị đo lường cụ thể bằng các con số, không lượng hóa qua các đại lượng đo lường thông thường được. Biến định tính thường có một số thuộc tính mà một cá thể sẽ có một trong các thuộc tính đó. Do đó biến định tính không có đơn vị đo.

Một biến định tính có ít nhất hai thuộc tính khác nhau, một cá thể có thể có một và chỉ một trong các thuộc tính đó. Do đó có thể phân chia tổng thể thành những phần gọi là trạng thái tương ứng với những thuộc tính của biến định tính. Chẳng hạn, với tổng thể là người lao động, biến định tính giới tính có hai thuộc tính nam và nữ, do đó phân chia tổng thể thành hai trạng thái là lao động nam và lao động nữ; biến định tính tình trạng hôn nhân gồm các thuộc tính: chưa có gia đình, đang có gia đình, đã ly hôn, do đó phân chia tổng thể này thành ba trạng thái; đánh giá mức độ hài lòng của khách hàng với giá trị 0 nếu không hài lòng, 1 nếu ít hài lòng, 2 nếu hài lòng, 3 nếu rất hài lòng, thì đại lượng này không có đơn vị đo lường và mức độ chênh lệch giữa hai giá trị bằng số thể hiện sự hài lòng hơn, tuy nhiên ta không đo lường cụ thể được, do đó các phép toán tổng và hiệu không có ý nghĩa, và yếu tố hài lòng được xem là biến định tính.

Biến định tính có thể là biến độc lập cũng có thể là biến phụ thuộc. Chẳng hạn, với người lao động, biến thu nhập phụ thuộc vào giới tính, trình độ, chuyên ngành, do đó biến độc lập là định tính; với doanh nghiệp, mối quan hệ giữa đã cổ phần hóa và chưa cổ phần hóa phụ thuộc vào lượng vốn, thị phần, quy mô, do đó phụ thuộc là định tính.

nếu là cử nhân, và

, khi ta xét từng trạng thái cụ thể của nó Trong mô hình hồi quy có chứa biến định tính thì biến này không còn xuất hiện nữa. Biến định tính chỉ tạm thời xuất hiện và không thể mô tả trực tiếp qua các biến định lượng thông thường, do đó là biến thay thế, và được gọi là biến giả (dummy variable). Chẳng hạn, muốn khảo sát lương của giáo viên theo là biến phụ thuộc biểu thị lương của giáo viên, trình độ cử nhân hay thạc sỹ, ta đặt như sau: biến độc lập biểu thị cho trình độ của giáo viên được lượng hóa bằng biến giả nếu là thạc sĩ. Khi đó mô hình hồi quy có dạng: không còn chưa biến thì , và nếu ta xét từng trạng thái cụ thể cho

này nữa.

5.2 Mô hình có chứa biến độc lập là biến giả

Xét tình huống: Để xem tác động của phân bón lên sản lượng lúa ở 1 vùng, người ta thu thập số liệu từ các mảnh ruộng khác nhau gồm năng suất lúa, lượng phân bón sử dụng và

52

các yếu tố khác liên quan. Ta biết rằng sản lượng lúa không chỉ phụ thuộc vào lượng phân bón mà còn phụ thuộc vào giống lúa sử dụng gieo trồng: cao sản hay không cao sản. Khi đó người ta sử dụng mô hình hồi quy thể hiện mối liên hệ giữa năng suất lúa NS với giống lúa GL và lượng phân bón PB như sau:

Trong đó

Vì GL là biến định tính nên không thể giải thích như phương pháp thông thường đã làm ở những chương trước, mà lý luận như sau:

 Với ruộng lúa thuộc giống cao sản:

 Với ruộng lúa thuộc giống không cao sản:

 Vẫn với giả thiết , ta có các kết luận là: Khi lượng phân bón bằng 0

thì năng suất trung bình của giống lúa không phải cao sản là đơn vị; khi lượng

phân bón trên 1ha tăng 1 đơn vị thì năng suất lúa trung bình của giống lúa không đơn vị; khi lượng phân bón như nhau thì năng suất lúa trung phải cao sản tăng

bình của giống lúa cao sản cao hơn so với giống lúa không cao sản là đơn vị;

nếu thì năng suất lúa trung bình của giống cao sản cao hơn so với giống

không cao sản khi cùng lượng phân bón; nếu thì yếu tố giống lúa không tác

động tới năng suất lúa; còn nếu thì yếu tố giống lúa có tác động tới năng

suất lúa.

Một cách tổng quát, giả sử biến định tính Z có hai phạm trù và có tác động đến biến phụ thuộc Y. Gọi D là biến giả thể hiện biến định tính Z được xác định như sau:

Xét mô hình hồi quy bội với biến giả D như sau:

53

Khi đó hệ số thể hiện sự khác biệt giữa giá trị trung bình của Y trong nhóm các quan

sát thuộc nhóm 1 với giá trị này trong nhóm các quan sát thuộc nhóm còn lại khi các biến là như nhau. Chú ý rằng mô hình trên vẫn tuyến tính theo các biến số (bao gồm D)

nên phương pháp OLS vẫn cho các ước lượng tốt nhất khi các giả thiết được thỏa mãn.

Ví dụ 5.2.1: Có số liệu khảo sát ngẫu nhiên tại 12 của hàng thuộc các điểm bán hàng ở vùng nông thôn và thành phố như sau

Giá bán (1000 đ) Địa điểm bán hàng

Số lượng hàng bán (kg sản phẩm/tháng) 1350 750 820 1540 890 780 1280 1420 1400 1500 780 850 1 0 0 1 0 0 1 1 1 1 0 0 TP NT NT TP NT NT TP TP TP TP NT NT 42 46 41 44 40 45 43 40 42 44 45 43

Hỏi với cùng mức giá, doanh số bán hàng có khác nhau hay không giữa thành thị và nông thôn?

Ta đưa vào biến giả D như sau:

Dependent Variable: SOLUONGHANGBAN Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12

Std. Error

t-Statistic

Prob.

Variable DIEMBAN GIABAN

Coefficient 597.4490 -7.061224

47.10327 12.45371

12.68381 -0.566998

0.0000 0.5846

Bảng kết quả hồi quy từ phần mềm Eviews:

54

1117.653

540.6377

2.067287

0.0687

C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.950483 Mean dependent var 0.939479 S.D. dependent var 79.58039 Akaike info criterion 56997.35 Schwarz criterion -67.82238 Hannan-Quinn criter. 86.37791 Durbin-Watson stat 0.000001

1113.333 323.4848 11.80373 11.92496 11.75885 1.591562

Mô hình hồi quy từ số liệu mẫu:

Kết quả hồi quy cho thấy:

 Hệ số xác định

biến DIEMBAN hưởng rằng ảnh chỉ có ra

chứng tỏ mô hình có mức độ phù hợp cao, các giá trị p-value lên chỉ SOLUONGHANGBAN, biến GIABAN không tác động lên biến phụ thuộc SOLUONGHANGBAN.

 : Cho thấy với cùng mức giá, lượng hàng bán được bình quân ở

thành thị cao hơn ở nông thôn 597.4490 kg/tháng.

đồng/kg, lượng hàng bán được bình

 Giả sử ứng với cùng một mức giá quân trong một tháng như sau:

- Điểm bán ở thành thị:

- Điểm bán ở nông thôn:

5.3 Mô hình với biến độc lập bao gồm biến định lƣợng và định tính

5.3.1 Mô hình với một biến định lƣợng và một biến định tính

Trƣờng hợp biến định tính có hai phạm trù (xem mục 5.2)

Trƣờng hợp biến định tính có nhiều hơn hai phạm trù

Giả sử muốn ước lượng mức thu nhập của nhân viên được quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn, ta làm như sau:

Gọi Y là tiền lương, X là số năm kinh nghiệm, D là trình độ học vấn (học vấn được phân loại thành 3 phạm trù: tốt nghiệp phổ thông, tốt nghiệp đại học và tốt nghiệp sau đại học).

55

Đặt bộ biến giả: : Phổ thông,

: Đại học

: Sau đại học

Mô hình hồi quy:

Đối với nhân viên tốt nghiệp phổ thông:

Đối với nhân viên có trình độ đại học:

Đối với nhân viên có trình độ sau đại học:

So sánh tung độ gốc, ta có mức chênh lệch về thu nhập của các nhân viên có cùng số năm kinh nghiệm, cụ thể như sau:

 Chệnh lệch giữa nhân viên có bằng đại học so với người tốt nghiệp phổ thông là

 Chênh lệch giữa nhân viên có bằng sau đại học so với người tốt nghiệp phổ thông

 Chênh lệch giữa nhân viên có bằng sau đại học so với người có bằng đại học là

So sánh hệ số góc: Hệ số góc bằng nhau trong mọi trường hợp và bằng . Điều này cho

thấy số năm kinh nghiệm tăng lên như nhau dẫn đến mức tăng thu nhập như nhau từ lương.

5.3.2 Hồi quy với một biến định lƣợng và hai biến định tính

Cũng với ví dụ trên và câu hỏi đặt ra là liệu có sự phân biệt đối xử mức lương giữa nam và nữ không. Để giải quyết bài toán này, ta đặt thêm biến giới tính:

56

Mô hình hồi quy là:

Thu nhập của nữ:

 Có trình độ phổ thông:

 Có trình độ đại học:

 Có trình độ sau đại học:

Thu nhập của nam:

 Có trình độ phổ thông:

 Có trình độ đại học:

 Có trình độ sau đại học:

Như vậy, ta có 3 trường hợp so sánh như sau:

 So sánh cùng giới tính, khác trình độ văn hóa:

Giữa nhân viên nữ có bằng đại học so với nhân viên nữ tốt nghiệp phổ thông, chênh lệch

;

Giữa nhân viên nam có trình độ sau đại học so với nhân viên nam có trình độ đại học, chênh lệch

.

 So sánh khác giới tính, cùng trình độ văn hóa:

Giữa nhân viên nữ và nhân viên nam có cùng trình độ đại học, chênh lệch

57

;

Giữa nhân viên nam và nhân viên nữ cùng có bằng đại học, chênh lệch

.

 So sánh khác giới tính, khác trình độ văn hóa:

Giữa nhân viên nam có bằng sau đại học với nhân viên nữ có bằng đại học, chênh lệch

Trong đó chênh lệch do trình độ là , do giới tính là .

Chú ý:

a/ Nếu biến định tính có m phạm trù thì ta đưa vào mô hình m-1 biến giả làm biến giải thích.

b/ Quy ước gọi phạm trù được gán giá trị 0 là phạm trù cơ sở.

c/ Những trường hợp được trình bày trong các mục 5.3.1 và 5.3.2 cho thấy chỉ có tung độ gốc giữa các mô hình khác nhau, hệ số góc luôn bằng nhau. Thực tế, có những trường hợp (a) tung độ gốc giữa các mô hình không đổi và hệ số góc khác nhau hoặc (b) cả tung độ gốc và hệ số góc khác nhau.

Ví dụ xảy ra trƣờng hợp (a): Giả sử hồi quy thu nhập Y của nhân viên nam và nữ có và thâm niên công tác X, trong đó thâm niên công tác như cùng mức lương khởi điểm

nhau nhưng tốc độ tăng lương có thể khác nhau giữa nam và nữ. Để khảo sát xem mức thu nhập có khác nhau hay không giữa nam và nữ, ta đưa thêm vào biến giả D mô tả cho biến định tính giới tính như sau:

Mô hình hồi quy có dạng:

Trong đó

với

58

Mô hình trên trở thành

Với nhân viên nam:

Với nhân viên nữ:

Nhận thấy có sự khác nhau giữa hệ số góc của hai mô hình đối với nam và nữ, chênh lệch

Kết luận: Nếu thì tốc độ tăng thu nhập của nhân viên nam nhanh hơn nhân viên

nữ; ngược lại thì tốc độ tăng thu nhập của nhân viên nam chậm hơn nhân viên nữ; đặc biệt nếu thì không có sự khác nhau về tốc độ tăng thu nhập của nam và nữ.

Ví dụ xảy ra trƣờng hợp (b): Giả sử mức lương khởi điểm và tốc độ tăng lương của nhân viên nam và nữ đều khác nhau. Khi đó mô hình hồi quy sẽ là:

Trong đó

với

Mô hình trên trở thành

Với nhân viên nam:

59

Với nhân viên nữ:

Nhận thấy có sự khác nhau giữa hệ số góc và tung độ gốc của hai mô hình đối với nam và

nữ, chênh lệch về hệ số góc và về tung độ gốc.

Kết luận: Nếu thì lương khởi điểm của nam cao hơn nữ; ngược lại thì lương khởi

điểm của nam thấp hơn nữ; nếu thì tốc độ tăng lương của nam nhanh hơn nữ,

ngược lại tốc độ tăng lương của nam chậm hơn nữ.

gọi là biến

Cần chú ý rằng, khi khai triển các mô hình trên thấy xuất hiện biến tích tương tác, thể hiện tác động đồng thời của biến lên biến và .

Tung độ lệch , hệ số góc bằng nhau Tung độ bằng nhau , hệ số góc khác nhau

Tung độ lệch , hệ số góc lệch

60

5.3.3 Kiểm định sự khác biệt giữa hàm hồi quy của hai nhóm

Nhiều khi ta muốn biết các hệ số hồi quy của hai nhóm của một tổng thể có đặc tính khác nhau (nam/nữ, thành thị/nông thôn,…) có bằng nhau hay không? Nếu các hệ số bằng nhau, ta nói các hệ số là ổn định. Để kiểm tra về tính ổn định này, có thể sử dụng hai phương pháp: Kiểm định Chow và kiểm định sử dụng biến giả.

Kiểm định Chow

Giả sử muốn khảo sát hành vi chi tiêu Y theo thu nhập X của nam giới giữa hai thời kỳ trước khi lập gia đình và sau khi lập gia đình có sự khác nhau hay không, ta lập luận như sau: Nếu việc chi tiêu giữa hai thời kỳ không có sự khác biệt thì ta chỉ cần sử dụng một hàm hồi quy; còn nếu có sự khác biệt thì sử dụng hai hàm hồi quy cho thời kỳ trước khi lập gia đình (PRF1) và sau khi lập gia đình (PRF2) theo các bước dưới đây:

Y

Quan hệ giữa chi tiêu và thu nhập qua hai thời kỳ của nam giới

 Bước 1: Hồi quy riêng từng thời kỳ với thời kỳ trước khi lập gia đình có quan

sát và thời kỳ sau khi lập gia đình có quan sát.

+ Trước khi lập gia đình, hàm hồi quy dạng:

Tính với bậc tự do.

+ Sau khi lập gia đình, hàm hồi quy dạng:

Tính với bậc tự do.

Khí đó có bậc tự do.

61

 Bước 2: Kết hợp các quan sát của cả hai thời kỳ ta được và ước lượng

mô hình sau:

Tính của mô hình này có bậc tự do.

 Bước 3:

+ Xét cặp giả thuyết

: Hồi quy của hai thời kỳ là như nhau

: Hồi quy của hai thời kỳ là khác nhau

+ Tính giá trị quan sát của phân phối F

+ Với mức ý nghĩa cho trước, nếu thì bác bỏ giả thuyết ,

còn ngược lại chưa có cơ sở bác bỏ .

Chú ý: Có thể mở rộng kiểm định Chow cho nhiều thời kỳ.

Ví dụ 5.3.3.1: Có số liệu của Mexico giai đoạn 1955-1974, trong đó sản lượng Y đo bằng GDP thực (đơn vị tính Pesos của năm 1960), X được đo bằng tổng lao động (ngàn người), X được đo bằng vốn cố định (triệu Pesos của năm 1960).

Lượng lao động Vốn cố định

Năm 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 GDP 114043 120410 129187 134705 139960 150511 157897 165286 178491 199457 212323 226977 241194 260881 277498 296530 8310 8529 8738 8952 9171 9569 9527 9662 10334 10981 11746 11521 11540 12066 12297 12955 182113 193749 205192 215130 225021 237026 248897 260661 275466 295378 315715 337642 363599 391847 422382 455049

62

1971 1972 1973 1974 306712 329030 354057 374977 13338 13738 15924 14154 484677 520553 561531 609825

Thực hiện thủ tục kiểm định Chow cho hai giai đoạn 1955-1964 và 1965-1974, được kết quả như sau:

Coefficient

Std. Error

t-Statistic

0.711856 0.742188 -3.777963

0.189157 0.104530 0.528148

3.763313 7.100261 -7.153231

Dependent Variable: LOG(GDP) Method: Least Squares Date: Time: Sample: 1955 1964 Included observations: 10 Variable LOG(LUONGLAODONG) LOG(VONCODINH) C

Prob. 0.0070 0.0002 0.0002

11.89745 0.176759 -6.208638 -6.117862 -6.308218 1.719946

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.997701 Mean dependent var 0.997044 S.D. dependent var 0.009610 Akaike info criterion 0.000647 Schwarz criterion 34.04319 Hannan-Quinn criter. 1518.806 Durbin-Watson stat 0.000000

Giai đoạn 1965-1974:

Coefficient

Std. Error

t-Statistic

0.013197 0.856308 1.308925

0.067314 0.032029 0.316382

0.196047 26.73541 4.137168

Dependent Variable: LOG(GDP) Method: Least Squares Date: Time: Sample: 1965 1974 Included observations: 10 Variable LOG(LUONGLAODONG) LOG(VONCODINH) C

Prob. 0.8501 0.0000 0.0044

12.55465 0.189885 -6.323336 -6.232561 -6.422917 1.698737

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.998224 Mean dependent var 0.997716 S.D. dependent var 0.009075 Akaike info criterion 0.000576 Schwarz criterion 34.61668 Hannan-Quinn criter. 1966.811 Durbin-Watson stat 0.000000

+ Giai đoạn 1955-1964:

63

+ Cả thời kỳ 1955-1974:

Coefficient

Std. Error

t-Statistic

0.339732 0.845997 -1.652419

0.185692 0.093352 0.606198

1.829548 9.062488 -2.725873

Dependent Variable: LOG(GDP) Method: Least Squares Date: 10/28/17 Time: 16:59 Sample: 1955 1974 Included observations: 20 Variable LOG(LUONGLAODONG) LOG(VONCODINH) C

Prob. 0.0849 0.0000 0.0144

12.22605 0.381497 -4.155221 -4.005861 -4.126064 0.425667

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.995080 Mean dependent var 0.994501 S.D. dependent var 0.028289 Akaike info criterion 0.013604 Schwarz criterion 44.55221 Hannan-Quinn criter. 1719.231 Durbin-Watson stat 0.000000

Xét cặp giả thuyết

: Hồi quy của hai thời kỳ là như nhau

: Hồi quy của hai thời kỳ là khác nhau

Ta có:

,

Với mức ý nghĩa 5%, . Bác bỏ giả thuyết , có

nghĩa là sản lượng GDP thực ở hai thời kỳ là khác nhau.

Kiểm định sử dụng biến giả

Gộp tất cả các quan sát của hai thời kỳ và đặt biến giả D như sau:

64

Mô hình hồi quy:

Trong đó biểu thị sự chênh lệch về tung độ gốc, biểu thị sự chênh lệch về độ dốc .

Việc kiểm định giả thuyết chính là kiểm định giả thuyết không có sự khác

nhau về mặt cấu trúc hồi quy giữa hai thời kỳ.

Ví dụ 5.3.3.2: Có bảng số liệu về thu nhập X và tiết kiệm Y của Mỹ giai đoạn 1970-1995 như sau:

Quan sát Tiết kiệm Thu nhập Quan sát Tiết kiệm Thu nhập

1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 61.0 68.6 63.6 89.6 97.6 104.4 96.4 92.5 112.6 130.1 161.8 199.1 205.5 727.1 790.2 855.3 965.0 1054.2 1159.2 1273.0 1401.4 1580.1 1769.5 1973.3 2200.2 2347.3 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 167.0 235.7 206.2 196.5 168.4 189.1 187.8 208.7 246.4 272.6 214.4 189.4 249.3 2522.4 2810.0 3002.0 3187.6 3363.1 3640.8 3894.5 4166.8 4343.7 4613.7 4790.2 5021.7 5320.8

+ Vào năm 1982, Mỹ rơi vào khủng hoảng kinh tế, do đó để kiểm định về cấu trúc trong mối quan hệ giữa tiết kiệm và thu nhập, ta có thể đưa vào biến giả với mốc thời gian là năm 1982.

Mô hình hồi quy với biến giả dạng:

65

Cặp giả thuyết thống kê:

: Hồi quy của hai thời kỳ là như nhau

: Hồi quy của hai thời kỳ là khác nhau

Dependent Variable: CHITIEU Method: Least Squares Date: Time: Sample: 1970 1995 Included observations: 26

Std. Error

t-Statistic

Prob.

Coefficient 152.4786 -0.065469 0.080332 1.016117

33.08237 0.015982 0.014497 20.16483

4.609058 -4.096340 5.541347 0.050391

0.0001 0.0005 0.0000 0.9603

Variable BIENGIA BIENGIA*THUNHAP THUNHAP C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.881944 Mean dependent var 0.865846 S.D. dependent var 23.14996 Akaike info criterion 11790.25 Schwarz criterion -116.4125 Hannan-Quinn criter. 54.78413 Durbin-Watson stat 0.000000

162.0885 63.20446 9.262501 9.456055 9.318238 1.648454

Kết quả hồi quy bằng Eviews:

Từ kết quả hồi quy, ta nhận thấy các hệ số hồi quy thống kê. Do vậy có sự khác biệt về cấu trúc của mô hình giữa hai giai đoạn.

và đều khác 0 và có ý nghĩa

F-statistic Log likelihood ratio Wald Statistic

0.0006 0.0001 0.0000

Chow Breakpoint Test: 1982 Null Hypothesis: No breaks at specified breakpoints Varying regressors: All equation variables Equation Sample: 1970 1995 10.69006 17.65293 21.38012

Prob. F(2,22) Prob. Chi-Square(2) Prob. Chi-Square(2)

+ Ngoài ra, ta có thể kiểm định Chow với mốc 1982 (Mỹ khủng hoảng kinh tế) bằng Eviews như sau:

Kết quả kiểm định cho thấy giá trị xác suất Prob. F(2,22)=0.006 < 0.05, bác bỏ , có

nghĩa là cuộc khủng hoảng kinh tế 1982 có ảnh hưởng đến cấu trúc của hàm hồi quy.

66

5.4 Hồi quy tuyến tính từng khúc

Khi khảo sát nghiên cứu một số hiện tượng kinh tế, nhận thấy rằng giá trị của biến độc có mức biến động nhanh chậm khác nhau. Do đó, người ta chia tập giá trị của biến độc lập này thành nhiều khoảng, trong đó mỗi khoảng tương ứng với một hàm hồi quy khác nhau.

Chẳng hạn, trong quá trình sản xuất, ta xem biến phụ thuộc Y là tổng chi phí, biến độc lập X là sản lượng sản xuất. Theo quy luật lợi suất giảm dần, sản lượng sản xuất sẽ tăng đều đặn cùng với sự tăng đều đặn của tổng chi phí. Tuy nhiên, đến một lúc nào đó, tốc độ tăng của sản lượng sẽ chậm hơn so với tốc độ tăng tổng chi phí. Ta gọi giá trị của X mà tại đó bắt đầu làm thay đổi tốc độ tăng của nó là điểm giới hạn, ký hiệu . Khi đó mô hình hồi quy có dạng:

Với biến giả được xác định như sau:

Với phân khúc đầu tiên, ta có

Với phân khúc thứ hai, ta có

Qua phân tích ở trên, hệ số góc của mô hình phân khúc đầu tiên là , mô hình phân

khúc thứ hai là . Ngoài ra, tung độ gốc của hai mô hình trên từng phân khúc là

khác nhau.

Trong trường hợp có hai điểm tới hạn và , ta xác định mô hình hồi quy dạng:

Với biến giả , được xác định như sau:

67

Với phân khúc đầu tiên , ta có

Với phân khúc thứ hai , ta có

Với phân khúc còn lại , ta có

5.5 Sử dụng biến giả trong phân tích mùa

Thực tế nhiều chuỗi thời gian trong kinh tế có tính chất thời vụ, biểu hiện theo tháng, theo quý hoặc theo mùa trong năm. Chẳng hạn số lượng máy điều hòa bán ra thường tăng cao vào mùa hè; nhu cầu về bánh mứt và quần áo tăng mạnh vào tháng kề tết; áo mưa bán

68

chạy vào mùa mưa; số lượng vé tàu xe, vé máy bay bán ra tăng đáng kể trong những dịp lễ, tết… Dữ liệu chuỗi thời gian TS của một chỉ tiêu nghiên cứu được thu thập qua thời gian, có thể được kết hợp từ bốn thành phần: Thành phần xu thế T (Trend), thành phần mùa S (Season), thành phần chu kỳ C (Cyclical), và thành phần ngẫu nhiên U (Random). Do vậy ta có biểu diễn:

Giả sử ta tiến hành nghiên cứu về lượng điện tiêu thụ theo nhiệt độ bằng cách sử dụng mô hình hồi quy:

Khi nhiệt độ môi trường thấp (mùa đông) người ta vẫn có thể phải sử dụng nhiều năng lượng điện (sưởi ấm), cũng như thế khi nhiệt độ môi trường cao (mùa hè) người ta sử . dụng quạt hay máy lạnh. Điều này có thể dẫn đến mâu thuẫn về dấu của hệ số góc

Nghĩa là, trong phương trình hồi quy trên, ngoài biến nó còn phải chứa thêm biến thể

hiện yếu tố mùa nữa và có dạng như sau:

Trong đó

, ,

Tuy nhiên mô hình trên vẫn chưa tỏ ra thuyết phục vì nhiệt độ và mùa có thể liên hệ chặt chẽ với nhau nên ảnh hưởng của nhiệt độ đối với lượng điện tiêu thụ giữa các mùa khác nhau cũng có thể khác nhau. Do vậy mô hình sau đây là phù hợp:

Vậy hàm hồi quy ước lượng điện tiêu thụ theo nhiệt độ ứng với từng mùa như sau:

Mùa thu:

Mùa đông:

69

Mùa xuân:

Mùa hè:

Sử dụng mô hình trên có thể giúp ta tiến hành kiểm định nhiều giả thuyết khác nhau về sự ảnh hưởng của yếu tố mùa đối với lượng điện tiêu thụ.

là giả thuyết cho rằng không có sự khác nhau về lượng điện tiêu thụ giữa

mùa xuân và mùa thu. Nếu chưa có cơ sở để bác bỏ giả thuyết này thì yếu tố mùa chỉ còn ba thuộc tính, khi đó mô hình được thu gọn chỉ còn hai biến giả.

là giả thuyết cho rằng không có gì khác biệt về lượng điện tiêu

thụ giữa ba mùa đông, xuân và thu. Hay nói cách khác, ta chỉ chú ý đến ảnh hưởng của mùa hè đến lượng điện tiêu thụ. Để biết mùa hè có thực sự tác động đến lượng điện tiêu thụ hay không, ta cần kiểm định giả thuyết về hệ số và .

5.6 Hồi quy với biến giả

5.6.1 Mô hình tuyến tính

Giả sử xét mô hình về khảo sát lương giáo viên Y theo trình độ và số năm giảng dạy X dạng:

Trong đó

: Biểu thị lương khởi điểm trung bình của giáo viên có bằng cử nhân.

: Biểu thị chênh lệch về lương khởi điểm trung bình của giáo viên có bằng thạc sĩ so

với cử nhân.

70

: Biểu thị mức thay đổi tiền lương trung bình của giáo viên có bằng cử nhân theo số

năm giảng dạy.

: Biểu thị chênh lệch về mức thay đổi tiền lương trung bình theo số năm giảng dạy của

giáo viên có bằng thạc sĩ so với cử nhân.

5.6.2 Mô hình log-lin

Nếu mô hình về khảo sát lương giáo viên Y theo trình độ và số năm giảng dạy X dạng:

Trong đó

: Biểu thị lương khởi điểm trung bình của giáo viên có bằng cử nhân.

: Biểu thị phần trăm chênh lệch về tiền lương trung bình của giáo viên có bằng

thạc sĩ so với cử nhân.

: Biểu thị % thay đổi tiền lương trung bình theo số năm giảng dạy.

5.6.3 Mô hình lin-log

Giả sử có nhu cầu khảo sát lượng cầu của hai loại trà xanh Thái Nguyên và trà Ô long Lâm Đồng theo giá với mô hình hồi quy:

: Biểu thị sự thay đổi lượng cầu trung bình của trà khi giá thay đổi 1%.

: Biểu thị sự chênh lệch về lượng cầu giữa hai loại trà trà xanh Thái Nguyên và trà Ô

long Lâm Đồng tại cùng một mức giá.

71

Chƣơng 6 PHÂN TÍCH ĐẶC TRƢNG VÀ LỰA CHỌN MÔ HÌNH

6.1 Các thuộc tính của mô hình tốt

Tính đơn giản (Parsimony): Mô hình càng đơn giản càng tốt nhưng phải chứa các biến chủ yếu liên quan với biến phụ thuộc nhằm giải thích bản chất của vấn đề cần nghiên cứu.

Tính phù hợp (Goodness of fit): Hệ số xác định càng cao càng tốt. Tuy nhiên không nên chỉ căn cứ vào hệ số này để kết luận mô hình có phù hợp hay không, bởi vì trong nhiều trường hợp hệ số xác định rất lớn nhưng mô hình không phù hợp do thiếu biến quan trọng hoặc xảy ra các khuyết tật (đa cộng tuyến, tự tương quan,…).

Tính nhất quán về mặt lý thuyết (Theoretical consistency): Mô hình phải phù hợp với cơ sở lý thuyết khoa học.

Tính đồng nhất (Identifiability): Với một tập dữ liệu cho trước, các tham số ước lượng phải duy nhất.

Có khả năng dự báo tốt (Predictive power): Một mô hình được đánh giá là tốt nếu cho kết quả dự báo sát với thực tế.

6.2 Phƣơng pháp chọn lựa mô hình

Các bước để chọn lựa được mô hình tốt và phù hợp:

Bước 1: Xác định số biến độc lập trong mô hình

 Từ đơn giản đến tổng quát: Bổ sung dần dần biến độc lập vào mô hình nhằm tránh

việc bỏ sót biến quan trọng (có thể sử dụng kiểm định Wald).

 Từ tổng quát đến đơn giản: Thiết lập mô hình hồi quy với các biến độc lập đã được xác định. Tiếp theo tiến hành lọc những biến không quan trọng ra khỏi mô hình (có thể sử dụng kiểm định t hoặc giá trị xác suất p-value).

Bước 2: Kiểm tra xem mô hình có khuyết tật hay không (có vi phạm ít nhất các giả thiết đảm bảo thực hiện được phương pháp OLS hay không) và tìm cách khắc phục chúng.

Bước 3: Chọn dạng hàm hồi quy (dựa vào cơ sở lý thuyết kinh tế).

Bước 4: Các tiêu chuẩn thông dụng để chọn mô hình tốt.

.

 Hệ số xác định  Giá trị hàm hợp lý log-likelihood L:

72

L càng lớn mô hình càng phù hợp.  Tiêu chuẩn AIC (Akaike info criterion):

Giá trị AIC càng bé mô hình càng phù hợp.

 Tiêu chuẩn SIC (Schwarz Information Criterion):

Giá trị SIC càng bé mô hình càng phù hợp.

Ngoài việc căn cứ vào các tiêu chuẩn để xem xét việc chọn lựa một mô hình tốt, tính chất tốt của một mô hình đôi khi phụ thuộc nhiều vào quan điểm của nhà kinh tế lượng.

6.3 Hậu quả khi chọn mô hình không phù hợp

thấp.

 Ước lượng chệch các hệ số hồi quy, sai dấu các hệ số hồi quy.  Có rất ít hệ số hồi quy có ý nghĩa thống kê.   Phần dư của các quan sát có giá trị tuyệt đối lớn.  Các ước lượng bị chệch, phương sai của các ước lượng không phải là tốt nhất.  Phương pháp kiểm định thông thường không còn hiệu lực.

6.4 Cách phát hiện các sai số đặc trƣng của mô hình

Kiểm định biến bị bỏ sót: Giả sử cần thực hiện mô hình hồi quy tuyến tính dạng

(6.4.1)

Một câu hỏi tự nhiên được đặt ra là: Ngoài biến độc lập X, còn có biến nào khác cũng nào đó bị bỏ sót giải thích cho Y. Khi đó ta nghĩ đến việc kiểm tra xem liệu biến

trong mô hình sau đây hay không:

(6.4.2)

Trường hợp 1: Có số liệu về biến

 Cách 1: Hồi quy mô hình (6.4.2), kiểm định cặp giả thuyết , ,

và so sánh giá trị của hai mô hình.

73

 Cách 2: Sử dụng kiểm định Wald để đưa dần dần các biến độc lập vào mô hình.

Trường hợp 2: Không có số liệu về biến

 Sử dụng kiểm định RESET (Regression Specification Error Test) của RAMSEY:

.

Bước 1: Hồi quy mô hình (6.4.1) (old), được Bước 2: Hồi quy mô hình (new)

Bước 3: Kiểm định giả thuyết

Nếu thì bác bỏ .

Trong đó m: số biến độc lập mới được đưa thêm vào mô hình (m = 3), k: số hệ số của mô hình mới (k = 5).

 Kiểm định Durbin-Watson:

Bước 1: Hồi quy mô hình old.

Bước 2: Giả sử nghi ngờ biến bị bỏ sót. Sắp xếp phần dư theo thứ tự tăng

của . Nếu số liệu của chưa có thì sắp xếp theo thứ tự tăng của một biến độc

lập. Bước 3: Tính (không phải là thống kê Durbin-Watson)

Bước 4: Dựa vào bảng tra Durbin-Watson để kiểm định giả thuyết : Dạng hàm đúng (không có ).

Kiểm định thừa biến: Có thể thực hiện một trong các cách sau

 Cách 1: Kiểm định t (bỏ bớt một biến).  Cách 2: Kiểm định Wald (được sử dụng để kiểm định bỏ một hay nhiều biến).

Kiểm định dạng hàm của mô hình hồi quy: Việc lựa chọn giữa dạng hàm tuyến tính và tuyến tính dạng logarit trong nghiên cứu thực nghiệm là vấn đề quan trọng. Ta có thể kiểm định việc lựa chọn này theo J. Mackinnon, H. White, R. Davidson (MWD test).

74

6.5 Các ví dụ

Ví dụ 6.5.1: Có số liệu về GNP thực Y (triệu $ Đài Loan), lượng lao động (người

người), lượng vốn thực (triệu $ Đài Loan) và xu hướng thời gian từ năm 1958

đến 1972 của Đài Loan như sau:

Y Năm 1958 281.5 8911.4 1959 10873.2 284.4 1960 11132.5 289.0 1961 12086.5 375.8 1962 12767.5 375.2 1963 16347.1 402.5 1964 19542.7 478.0 1965 21075.9 553.4 1966 23052.0 616.7 1967 26128.2 695.7 1968 29563.7 730.3 1969 33373.6 816.0 1970 38354.3 848.4 1971 46868.3 873.1 1972 54308.0 999.2 120753 122242 125263 128539 131427 134267 139038 146450 153714 164783 176864 188146 205814 221748 239715 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Theo lý thuyết kinh tế, hàm hồi quy có dạng Cobb-Douglas:

Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient

1.257567 2.069560

0.066516 0.417743

18.90615 4.954143

0.0000 0.0003

Variable LOG(X2) C

R-squared Adjusted R-squared S.E. of regression Sum squared resid

0.964907 Mean dependent var 0.962207 S.D. dependent var 0.110088 Akaike info criterion 0.157552 Schwarz criterion

9.949171 0.566287 -1.451508 -1.357101

+ Trước hết ta tiến hành hồi quy GNP chỉ theo lượng lao động :

75

Log likelihood F-statistic Prob(F-statistic)

12.88631 Hannan-Quinn criter. 357.4424 Durbin-Watson stat 0.000000

-1.452513 1.146262

Từ giá trị xác suất Prob., ta thấy các hệ số hồi quy đều có ý nghĩa thống kê, hơn nữa R- squared = 0.964907 cho thấy mức độ phù hợp của mô hình hồi quy khá cao. Tuy nhiên mà còn phụ theo lý thuyết kinh tế thì GNP không chỉ phụ thuộc vào lượng lao động

thuộc nhiều yếu tố khác. Do vậy mô hình hồi quy hai biến dạng log-log như trên có thể bị bỏ sót biến quan trọng.

Omitted Variables Test Null hypothesis: LOG(X3) are jointly significant Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: LOG(X3)

Value 3.722689 13.85842 11.51594

df 12 (1, 12) 1

Probability 0.0029 0.0029 0.0007

t-statistic F-statistic Likelihood ratio

Nhận thấy p-value của thống kê F và tỷ số log-likelihood đều bé, nên bác bỏ giả thuyết

+ Kiểm định bỏ sót biến:

: không bỏ sót biến, thừa nhận bỏ sót biến LOG(X3).

t-statistic F-statistic Likelihood ratio

Ramsey RESET Test Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: Squares of fitted values df 12 (1, 12) 1

Value 2.223393 4.943477 5.174644

Coefficient Std. Error

t-Statistic

Prob.

Probability 0.0462 0.0462 0.0229

Unrestricted Test Equation: Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable LOG(X2)

-5.007947

2.818599

-1.776751

0.1009

+ Giả sử không có số liệu của X3, sử dụng kiểm định RESET của Ramsey:

76

6.450680 0.112985

2.540641 2.223393

0.0259 0.0462

C FITTED^2

16.38886 0.251211

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.975146 Mean dependent var 0.971003 S.D. dependent var 0.096430 Akaike info criterion 0.111584 Schwarz criterion 15.47363 Hannan-Quinn criter. 235.4070 Durbin-Watson stat 0.000000

9.949171 0.566287 -1.663150 -1.521540 -1.664659 1.382327

Với mức ý nghĩa 5%, bác bỏ giả thuyết

, thừa nhận bỏ sót biến.

Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient

0.153259 0.299153 2.679864

4.663444 3.722689 -2.927618

0.0005 0.0029 0.0127

Variable LOG(X2) LOG(X3) C

0.714716 1.113655 -7.845616

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.983714 Mean dependent var 0.981000 S.D. dependent var 0.078057 Akaike info criterion 0.073114 Schwarz criterion 18.64428 Hannan-Quinn criter. 362.4251 Durbin-Watson stat 0.000000

9.949171 0.566287 -2.085904 -1.944294 -2.087412 1.416595

+ Kết quả hồi quy cho cả ba biến

+ Kết quả hồi quy cho cả hai biến và :

Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient -0.121776 0.403551 0.118095 4.941959

0.256286 0.289230 0.032785 4.024545

-0.475155 1.395261 3.602141 1.227955

0.6440 0.1905 0.0042 0.2451

Variable LOG(X2) LOG(X3) X4 C

, và :

77

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.992528 Mean dependent var 0.990490 S.D. dependent var 0.055223 Akaike info criterion 0.033545 Schwarz criterion 24.48778 Hannan-Quinn criter. 487.0638 Durbin-Watson stat 0.000000

9.949171 0.566287 -2.731704 -2.542891 -2.733716 1.496257

+ Nhận xét về các kết quả hồi quy:

 Giá trị của hệ số hồi quy thay đổi đáng kể khi sử dụng các mô hình khác nhau. Điều này cho dấu hiệu nhận biết việc bỏ sót biến quan trọng. Mặt khác, hệ số xác định của các mô hình vẫn rất cao, điều này cho biết có hiện tượng đa cộng tuyến rất cao trong mô hình, các biến độc lập cũng chịu tác động của biến xu hướng.

Dependent Variable: X4 Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15

Std. Error

t-Statistic

Prob.

Coefficient

0.954714 1.863547 16.69395

7.419203 3.226638 -6.486313

0.0000 0.0073 0.0000

Variable LOG(X2) LOG(X3) C

7.083219 6.012992 -108.2822

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.989867 Mean dependent var 0.988178 S.D. dependent var 0.486247 Akaike info criterion 2.837236 Schwarz criterion -8.794930 Hannan-Quinn criter. 586.1255 Durbin-Watson stat 0.000000

8.000000 4.472136 1.572657 1.714267 1.571149 1.414452

 Hồi quy phụ giữa , và để chỉ ra hiện tượng đa cộng tuyến:

Nhìn vào kết quả hồi quy thấy có hiện tượng đa cộng tuyến khá cao.

 Sự phù hợp của mô hình: Ta sử dụng để xem xét mức độ phù hợp của các mô

cao nhất, tuy nhiên ta không chọn mô hình hình. Mô hình chứa cả 4 biến có này vì trong kết quả hồi quy, các hệ số hồi quy của LOG(X2) và LOG(X3) không có ý nghĩa thống kê (p-value > 0,05), và dấu hệ số hồi quy của LOG(X2) âm- không phù hợp với cơ sở lý thuyết kinh tế. Mô hình hai biến Y và LOG(X2) lại thiếu biến nghiêm trọng. Vậy mô hình chứa 3 biến Y, LOG(X2) và LOG(X3) là phù hợp nhất.

78

 Dựa trên một số tiêu chuẩn khác:

Log-likelihood 12.88631 18.64294 24.48686 AIC -1.451508 -2.085725 -2.731582 SIC -1.357101 -1.944115 -2.542769 0.962207 0.980997 0.990489

Mô hình 2 biến Mô hình 3 biến Mô hình 4 biến Nhìn vào bảng tóm tắt trên, nhận thấy mô hình ba biến tỏ ta phù hợp nhất.

79

Chƣơng 7 MÔ HÌNH VI PHẠM CÁC GIẢ THIẾT

Trong những chương trước, khi nghiên cứu mô hình hồi quy tuyến tính cổ điển, ta luôn giả định rằng các mô hình này thỏa mãn 5 giả thiết cổ điển. Vậy câu hỏi tự nhiên được đặt ra là khi những giả thiết này không được thỏa mãn thì sẽ ảnh như thế nào đến kết quả hồi quy? Nội dung chương này sẽ trình bày bản chất, nguyên nhân, hậu quả, cách phát hiện cũng như biện pháp khắc phục các giả thiết bị vi phạm. Tuy nhiên, cần lưu ý rằng không có cách tổng quát để khắc phục sự vi phạm đồng thời các giả thiết mà chỉ có thể giải quyết từng vi phạm một. Trong một số trường hợp, khi khắc phục vi phạm này thì vi phạm khác lại phát sinh. Do vậy ta phải cân nhắc mức độ nghiêm trọng của các giả thiết vi phạm mà chọn hướng khắc phục cho phù hợp.

7.1 Đa cộng tuyến

7.1.1 Bản chất của đa cộng tuyến

Xét mô hình hồi quy:

(7.1.1.1)

Như đã biết, khi các biến được giả định là không tương quan nhau (độc lập nhau),

ảnh hưởng riêng lên biến phụ thuộc tuyến. Tùy theo mức độ tương quan giữa các biến độc lập , ta nói mô hình không có hiện tượng đa cộng mà xảy ra đa cộng tuyến

hoàn hảo hay đa cộng tuyến không hoàn hảo.

Các biến được gọi là đa cộng tuyến không hoàn hảo nếu tồn tại các số thực

không đồng thời bằng 0 sao cho , với là nhiễu ngẫu

nhiên. Điều này có nghĩa là (giả sử ).

Vậy hiện tượng đa cộng tuyến không hoàn hảo xảy ra khi có một biến biểu diễn tuyến tính qua các biến còn lại và một nhiễu ngẫu nhiên.

7.1.2 Nguyên nhân gây ra hiện tƣợng đa cộng tuyến

Có một số nguyên nhân chủ yếu như sau:

a/ Các biến độc lập có quan hệ tương quan cao vì cùng phụ thuộc vào một điều kiện khác:

Ví dụ như các biến thu nhập và mức độ giàu có sẽ gây ra hiện tượng đa cộng tuyến hoàn hảo vì một cá nhân có thu nhập càng cao đồng nghĩa với càng giàu có và ngược lại.

80

b/ Khi kích thước mẫu quá bé: Ví dụ như số quan sát nhỏ hơn số biến độc lập.

c/ Mẫu thu thập được không có tính đại diện cao cho tổng thể: Chẳng hạn như khảo sát thu nhập của công nhân thuộc một xí nghiệp lớn có nhiều chi nhánh, mỗi chi nhánh có nhiều phân xưởng nhưng ta chỉ thu thập số liệu tại một vài phân xưởng.

d/ Chọn các biến có độ biến động nhỏ.

7.1.3 Hậu quả của đa cộng tuyến

a/ Phương sai và hiệp phương sai của các ước lượng bằng phương pháp OLS có giá trị lớn, có nghĩa là các giá trị ước lượng của hệ số hồi quy biến động mạnh qua các mẫu khác nhau. Điều này khiến cho các ước lượng bằng OLS vẫn có tính chất BLUE nhưng không hiệu quả. Thật vậy, xét mô hình hồi quy với hai biến độc lập dạng:

Khi đó

Từ các công thức trên, nhận thấy rằng khi càng dần về 1 thì hiện tượng đa cộng tuyến

càng tăng mạnh dần và phương sai sẽ càng tăng theo. Khi , xảy ra hiện tượng đa

cộng tuyến hoàn hảo.

Tốc độ gia tăng của phương sai và hiệp phương sai khi có hiện tượng đa cộng tuyến được mô tả qua thừa số phóng đại phương sai VIF (Variance-inflating factor), được xác định bởi

.

Nếu thì Cộng tuyến cao.

81

Nếu thì Không có đa cộng tuyến.

Tổng quát, với mô hình hồi quy với k-1 biến giải thích dạng:

Ta có

trong đó là hệ số tương quan trong mô hình của theo k-2 biến giải thích còn lại.

Trong nghiên cứu thực nghiệm, khi được xem là cộng tuyến cao.

b/ Gia tăng độ rộng khoảng tin cậy của các hệ số hồi quy: Khi hiện tượng đa cộng tuyến gia tăng làm cho phương sai bị phóng đại và sai số chuẩn của các tham số hồi quy cũng tăng theo, dẫn đến độ rộng khoảng tin cậy của các hệ số hồi quy gia tăng, kết quả là dự báo không còn chính xác nữa.

c/ Giá trị thống kê trong kiểm định T có khuynh hướng nhỏ đi do tăng lên.

Hậu quả là dễ chấp nhận giả thuyết .

d/ Hệ số có thể rất cao.

e/ Giá trị ước lượng của các và rất nhạy đối với việc tăng thêm hay bớt đi một

quan sát hay loại bỏ biến có mức ý nghĩa thấp.

7.1.4 Cách phát hiện đa cộng tuyến

a/ Hệ số xác định nghiên cứu thực nghiệm nếu quy đồng thời bằng 0 trong kiểm định F. Trong khi đó giá trị cao nhưng giá trị kiểm định của T thấp: Thông thường, trong thì người ta bác bỏ giả thuyết rằng các hệ số hồi của kiểm định T thường

rất bé trong trường hợp đa cộng tuyến xảy ra, và xu hướng là chấp nhận giả thuyết về các hệ số hồi quy đều bằng 0. Như vậy các kết quả thu được từ kiểm định T và F là mâu thuẫn nhau.

82

Ví dụ 7.1.4.1: Khảo sát một công ty kinh doanh máy vi tính tại 10 cửa hàng để nghiên cứu ảnh hưởng của doanh số bán hàng và tiền thưởng cho bộ phận kinh doanh lên lợi nhuận sau thuế có số liệu như sau:

Quan sát Tiền thưởng

Kết quả hồi quy bằng phần mềm EVIEWS như sau:

Dependent Variable: Y Method: Least Squares Date: Time: 23:42 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

3.580084 0.082479 0.037509

2.093329 0.015532 1.317284

1.710235 5.310149 0.028475

0.1310 0.0011 0.9781

Variable X2 X3 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.991695 Mean dependent var 0.989322 S.D. dependent var 1.562194 Akaike info criterion 17.08315 Schwarz criterion -16.86692 Hannan-Quinn criter. 417.9181 Durbin-Watson stat 0.000000

35.10000 15.11769 3.973385 4.064160 3.873804 2.347840

(triệu đồng) 1.5 2.6 1.9 1.4 2.1 3.7 1.1 2.5 4.3 3 Doanh số (triệu đồng) 200 340 245 180 275 459 146 320 550 490 Lợi nhuận sau thuế Y (triệu đồng) 22 35 28 20 31 49 16 36 63 51 1 2 3 4 5 6 7 8 9 10

Hàm hồi quy lợi nhuận sau thuế theo doanh số bán hàng và tiền thưởng như sau:

83

Nhận thấy đối với

là rất lớn, trong khi giá trị nên không có ý nghĩa thống kê, biến tiền lương là rất bé và không

và doanh số

có ảnh hưởng lên lợi nhuận. Vậy có khả năng hai biến tiền thưởng xảy ra cộng tuyến cao. Thật vậy, tiếp tục hồi quy bằng phần mềm EVIEWS cho và

t-Statistic 11.36521 0.466049

Dependent Variable: X2 Method: Least Squares Date: Time: 00:00 Sample: 1 10 Included observations: 10 Coefficient Std. Error Variable 0.007200 0.000634 X3 0.102308 0.219523 C 0.941677 R-squared Adjusted R-squared 0.934387 0.263847 S.E. of regression 0.556923 Sum squared resid 0.250183 Log likelihood 129.1680 F-statistic 0.000003 Prob(F-statistic)

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat

Prob. 0.0000 0.6536 2.410000 1.030049 0.349963 0.410480 0.283576 1.798079

Nhìn vào bảng này ta có thể kết luận rằng tiền thưởng luôn bẳng khoảng 0.7% trên doanh số bán hàng.

ta được kết quả là:

X2 X3 Y

X2 1 0.9704006195719436 0.9788968259970111

X3 0.9704006195719436 1 0.994094763546283

Y 0.9788968259970111 0.994094763546283 1

b/ Hệ số tương quan giữa các biến độc lập cao: Cũng với ví dụ trên, ma trận tương quan (Correlation matrix) là:

chứng tỏ có hiện tượng đa cộng tuyến cao đã Nhận thấy

xảy ra.

c/ Sử dụng hồi quy phụ: Để xem xét mức độ cộng tuyến giữa các biến độc lập với nhau, ta có thể sử dụng phương pháp hồi quy phụ như sau:

Mô hình hồi quy k biến:

84

Mô hình hồi quy phụ của biến :

Tính hệ số xác định , sau đó kiểm định giả thuyết:

(không có đa cộng tuyến)

bằng cách sử dụng thống kê F:

Nếu thì bác bỏ giả thuyết .

Trở lại ví dụ trên, xét bảng kết quả hồi quy của đối với , ta có ,

với . Điều này cho kết luận

rằng: bác bỏ giả thuyết , nghĩa là có xảy ra cộng tuyến giữa hai biến tiền lương và

doanh số bán hàng.

d/ Sử dụng thừa số phóng đại phương sai VIF: Theo như lưu ý ở phần trên, xảy ra hiện tượng đa cộng tuyến cao. Tuy nhiên, việc đánh giá mức

độ cộng tuyến qua VIF có những hạn chế nhất định. Thật vậy, ta biết

Nhìn vào công thức trên, nhận thấy rằng khi VIF cao nhưng nếu quá bé và lớn

thì có thể làm cho giá trị của VIF bị nhỏ lại. Do đó giá trị lớn của VIF chưa hẳn làm cho phương sai của các tham số hồi quy tăng cao.

7.1.5 Cách khắc phục đa cộng tuyến

a/ Sử dụng thông tin có trước (thông tin tiên nghiệm): Các thông tin này có được từ những cuộc điều tra thống kê thực hiện trước đó hoặc từ lý thuyết kinh tế có liên quan đến lĩnh vực nghiên cứu rằng hiện tượng cộng tuyến có ảnh hưởng ít nghiêm trọng nếu chúng xảy ra.

Chẳng hạn, khi hồi quy hàm sản xuất Cobb-Douglas:

85

ta sẽ gặp hiện tượng đa cộng tuyến do K và L cùng tăng theo quy mô sản xuất. Tuy . nhiên, nếu biết hiệu suất không đổi theo quy mô thì ta có thêm thông tin:

Khi đó mô hình ban đầu trở thành:

b/ Thu thập thêm số liệu hoặc lấy mẫu mới: Khi tiến hành trên mẫu số liệu mới, có thể làm cho hiện tượng đa cộng tuyến trở nên ít nghiêm trọng hơn so với mẫu ban đầu. Ngoài ra, việc tăng kích thước mẫu cũng có thể làm giảm đáng kể tính nghiêm trọng đa cộng tuyến trong mô hình. Chẳng hạn, xét mô hình hồi quy với hai biến độc lập dạng:

Khi đó

Nếu không đổi, thì . Kết quả là việc kiểm định cũng như

ước lượng liên quan tới sẽ chính xác hơn.

Cũng cần lưu ý thêm rằng việc bổ sung số liệu nhằm giảm tính nghiêm trọng của đa cộng tuyến đôi khi gặp khó khăn vì chi phí cao hoặc cấu trúc kinh tế của các quan sát mới có thể khác so với quan sát trước đó.

c/ Kết hợp số liệu chéo và số liệu chuỗi thời gian: Đối với số liệu chuỗi thời gian, hiện tượng đa cộng tuyến thường xảy ra giữa các biến. Trong khi tại cùng một thời điểm, giá trị các biến thường không thay đổi nhiều đối với số liệu chéo. Do đó việc kết hợp hai dạng số liệu trên có thể giúp khắc phục một phần về tính chất nghiêm trọng của hiện tượng đa cộng tuyến.

d/ Loại bỏ biến độc lập có đa cộng tuyến: Sau khi bỏ đi biến giải thích có hiện tượng đa cộng tuyến, các hệ số hồi quy của các biến còn lại từ chỗ không có ý nghĩa thống kê có thể trở nên có ý nghĩa thống kê. Đây là cách làm đơn giản nhất. Tuy nhiên nếu biến bị loại bỏ lại là biến cần phải có trong mô hình hồi quy thì chúng ta sẽ gặp phải vấn đề khó khăn khác như ước lượng sẽ chệch đối với các hệ số còn lại.

86

e/ Chuyển dạng dữ liệu bằng cách sử dụng sai phân bậc nhất: Đối với số liệu chuỗi thời gian, các biến giải thích thường dễ có xu hướng tương quan với nhau do cùng tăng tăng hoặc cùng giảm theo thời gian, gây ra hiện tượng đa cộng tuyến. Xét mô hình hồi quy trên số liệu chuỗi thời gian như sau:

Giả sử xảy ra hiện tượng cộng tuyến giữa và . Để giảm thiểu hiện tượng cộng

tuyến này, có thể sử dụng kỹ thuật hồi quy trên mô hình sai phân bậc nhất như sau:

Tuy nhiên, nhiễu trong mô hình mới có thể xảy ra hiện tượng tự tương quan,

không tuân theo một các giả định của mô hình hồi quy tuyến tính cổ điển. Nếu hiện tượng tự tương quan là nghiêm trọng thì mô hình này còn kém hiệu quả hơn mô hình ban đầu trong dự báo.

Ví dụ 7.1.5.1: Khảo sát chi tiêu của người tiêu dùng, thu nhập và sự giàu có với số liệu như sau:

Quan sát Chi tiêu cho tiêu dùng Thu nhập Sự giàu có

($) ($)

80 100 120 140 160 180 200 220 240 260 810 1009 1273 1425 1633 1876 2052 2201 2435 2686 1 2 3 4 5 6 7 8 9 10 Y ($) 70 65 90 95 110 115 120 140 155 150

Theo lý thuyết kinh tế, chi tiêu cho tiêu dùng có xu hướng tăng theo thu nhập và sự giàu có nên dấu của các hệ số hồi quy là dương.

Dependent Variable: Y Method: Least Squares

Kết quả hồi quy bằng EVIEWS như sau:

87

Date: 10/18/17 Time: 07:41 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient 0.941537 -0.042435 24.77473

0.822898 0.080664 6.752500

1.144172 -0.526062 3.668972

0.2902 0.6151 0.0080

Variable X2 X3 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.963504 Mean dependent var 0.953077 S.D. dependent var 6.808041 Akaike info criterion 324.4459 Schwarz criterion -31.58705 Hannan-Quinn criter. 92.40196 Durbin-Watson stat 0.000009

111.0000 31.42893 6.917411 7.008186 6.817830 2.890614

Y X2 X3

Y 1 0.9808473685985793 0.9780997080416731

X2 0.9808473685985793 1 0.9989623917139848

X3 0.9780997080416731 0.9989623917139848 1

Dựa vào kết quả hồi quy, nhận thấy không phù hợp với lý thuyết kinh

tế (chi tiêu tăng theo sự giàu có). Ngoài ra, đối với và

đối với nên và không có ý nghĩa thống kê (bằng 0).

rất lớn. Điều này khiến ta dự đoán hiện tượng cộng tính có thể

Tuy nhiên xảy ra giữa và .

Để kiểm tra điều này, ta áp dụng các phương pháp phát hiện khác nhau như sau:

 rất gần 1: hiện tượng cộng tuyến hoàn hảo.

Dependent Variable: Y Method: Least Squares Date: Time: 08:03 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

0.509091 24.45455

0.035743 6.413817

14.24317 3.812791

0.0000 0.0051

Variable X2 C

111.0000 31.42893

R-squared Adjusted R-squared

0.962062 Mean dependent var 0.957319 S.D. dependent var

 Hồi quy của Y theo từng biến giải thích:

88

S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

6.493003 Akaike info criterion 337.2727 Schwarz criterion -31.78092 Hannan-Quinn criter. 202.8679 Durbin-Watson stat 0.000001

6.756184 6.816701 6.689797 2.680127

Dependent Variable: Y Method: Least Squares Date: Time: 08:04 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

0.049764 24.41104

0.003744 6.874097

13.29166 3.551164

0.0000 0.0075

Variable X3 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.956679 Mean dependent var 0.951264 S.D. dependent var 6.938330 Akaike info criterion 385.1233 Schwarz criterion -32.44428 Hannan-Quinn criter. 176.6681 Durbin-Watson stat 0.000001

111.0000 31.42893 6.888856 6.949373 6.822469 2.417419

Nhận thấy đều có ý nghĩa thống kê cao, hơn nữa dấu của dương

cũng phù hợp với lý thuyết kinh tế.

Dependent Variable: X3 Method: Least Squares Date: Time: 08:11 Sample: 1 10 Included observations: 10

Std. Error

t-Statistic

Prob.

Coefficient

10.19091 7.545455

0.164262 29.47581

62.04047 0.255988

0.0000 0.8044

Variable X2 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.997926 Mean dependent var 0.997667 S.D. dependent var 29.83972 Akaike info criterion 7123.273 Schwarz criterion -47.03207 Hannan-Quinn criter. 3849.020 Durbin-Watson stat 0.000000

1740.000 617.7312 9.806415 9.866932 9.740028 2.077534

 Hồi quy phụ của theo :

89

 Kiểm định F:

không có cộng tuyến, có cộng tuyến

Do đó bác bỏ .

 Ta có rất lớn. Vậy khẳng định có đa cộng

tuyến rất cao giữa và .

Khắc phục hậu quả của đa cộng tuyến cao trong mô hình:

 Loại bỏ bớt biến: Nhìn vào các bảng trên , ta thấy

và R-squared của Y theo lớn hơn R-squared của Y theo , nghĩa là mô hình

hồi quy Y theo có mức độ phù hợp cao hơn là mô hình hồi quy Y theo .

Vậy ta có thể loại bỏ biến ra khỏi mô hình.

Std. Error

t-Statistic

Prob.

Dependent Variable: DY Method: Least Squares Date: Time: 08:50 Sample (adjusted): 2 10 Included observations: 9 after adjustments

Coefficient

0.009547 0.344944

0.093171 0.989017

0.102467 0.348775

0.9213 0.7375

Variable DX3 DX2

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.001498 Mean dependent var -0.141146 S.D. dependent var 11.26028 Akaike info criterion 887.5576 Schwarz criterion -33.43107 Hannan-Quinn criter. 2.356369

8.888889 10.54093 7.873570 7.917398 7.778990

Nhận thấy R-squared trong mô hình này rất thấp, chỉ bằng 0.001498, hơn nữa

 Sử dụng sai phân bậc nhất:

90

và rất lớn so với 0.05 nên cách

khắc phục bằng phương pháp sai phân là không thích hợp. Do vậy cách loại bớt biến ra khỏi mô hình là hợp lý nhất.

7.2 Tự tƣơng quan của nhiễu

7.2.1 Bản chất của tự tƣơng quan

Tự tương quan (Autocorrelation) được hiểu là sự tương quan giữa các thành phần của dãy quan sát theo thời gian (đối với số liệu chuỗi thời gian) hoặc không gian (đối với số liệu chéo).

Mối quan hệ tương quan giữa các nhiễu trong mô hình hồi quy tuyến tính cổ điển được

biểu diễn bằng hệ số hiệp phương sai . Nếu thì ta nói

xảy ra hiện tượng tự tương quan đối với nhiễu và . Ngược lại, nếu

thì ta nói không có tự tương quan giữa các nhiễu.

Ví dụ 7.2.1.1: (Đối với số liệu chuỗi thời gian)

Khi khảo sát sản lượng của quý theo vốn và lao động, nếu xảy ra hiện tượng đình công trong một quý nào đó thì có thể dẫn đến một trong hai tình huống sau đây: Hoặc việc đình công chỉ ảnh hưởng đến sản lượng của quý này và không có cơ sở để nói nó ảnh hưởng đến các quý sau thì ta xem như không có tự tương quan xảy ra, hoặc việc đình công xảy ra ở quý này và có thể tiếp tục tác động cho các quý sau thì ta nói có tự tương quan xảy ra.

Ví dụ 7.2.1.2: (Đối với số liệu chéo)

Khi xem xét mối quan hệ giữa chi tiêu cho tiêu dùng và thu nhập của các hộ gia đình ở cùng khu vực, có thể ta bắt gặp tình huống sau đây: Việc chi tiêu cho tiêu dùng tăng lên của một hộ gia đình nào đó dẫn đến việc tăng chi tiêu tiêu dùng của những hộ gia đình khác. Nguyên nhân có thể do tâm lý các hộ gia đình không muốn thua kém nhau. Khi đó ta nói có tự tương quan xảy ra.

91

Các hình (a), (b) và (c) thể hiện tự tương quan của nhiễu, hình (d) không có sự tương quan giữa các nhiễu.

7.2.2 Nguyên nhân của tự tƣơng quan

a/ Tính chất quán tính (inertia): Hầu hết các chuỗi dữ liệu thời gian trong kinh tế có tính quán tính. Chẳng hạn như GDP, chỉ số giá, tỷ lệ thất nghiệp thường có tính chu kỳ. Khi nền kinh tế thoát khỏi suy thoái thì các chỉ số này có khuynh hướng gia tăng và sẽ tiếp diễn cho đến khi có một nhân tố nào đó xảy ra tác động đến nền kinh tế, làm chậm hoặc thay đổi khuynh hướng biến thiên của chuỗi dữ liệu. Vì vậy trong hồi quy chuỗi thời gian, các quan sát kế tiếp nhau có nhiều khả năng tương quan với nhau.

phụ . Chẳng hạn mô hình hồi quy của chi tiêu cho tiêu

b/ Hiện tượng trễ (lags): Hiện tượng trễ xảy ra khi biến phụ thuộc tại thời điểm thuộc vào chính nó ở thời điểm dùng phụ thuộc vào thu nhập theo thời gian tuân theo mô hình có trễ:

c/ Hiện tượng mạng nhện (cobweb phenomenon): Thông thường, lượng cung của một số mặt hàng phản ứng lại sự thay đổi của giá chậm trễ hơn một khoảng thời gian, do quyết định cung đòi hỏi phải có thời gian để thực hiện:

92

d/ Xử lý số liệu: Trong nghiên cứu thực nghiệm, các số liệu sơ cấp thường được xử lý trước khi phân tích hồi quy. Chẳng hạn, phương pháp bình quân trượt làm trơn số liệu chuỗi thời gian có thể dẫn đến sai số hệ thống trong các nhiễu và gây ra tự tương quan.

e/ Phép nội suy (interpolation) và ngoại suy (extrapolation).

f/ Sai số do thiết lập mô hình: Do bỏ sót biến quan trọng hoặc chỉ định dạng hàm không phù hợp.

7.2.3 Hậu quả của tự tƣơng quan

a/ Các hệ số hồi quy ước lượng không còn tính chất BLUE:

Xét mô hình hồi quy hai biến với số liệu chuỗi thời gian

(7.2.3.1)

Giả sử có hiện tượng tự tương quan (bậc nhất) xảy ra, tức là

(7.2.3.2)

với gọi là hệ số tự tương quan bậc nhất và thỏa mãn các điều kiện:

Mô hình (7.2.3.2) được gọi là mô hình tự tương quan bậc nhất (tự hồi quy bậc nhất) Markov, ký hiệu AR(1).

Khi đó các hệ số ước lượng vẫn như trước, nhưng phương sai đúng của chúng sẽ là:

Ta không có cơ sở nào để xác định phương sai này là nhỏ nhất trong tất cả các ước lượng, do đó vi phạm tính chất phương sai bé nhất trong BLUE.

Chú ý: Nếu nhiễu thỏa mãn:

93

(7.2.3.3)

với thì ta nói có tự tương quan bậc p Markov, ký hiệu AR(P).

b/ Ước lượng của phương sai bị chệnh, làm mất hiệu lực khi thực hiện các kiểm định T

và F: Thông thường ta sử dụng là ước lượng của với . Tuy nhiên khi

có tự tương quan bậc nhất xảy ra thì

với

Khi thì

.

c/ Có khả năng được ước lượng quá lớn: Rõ ràng rằng khi là ước lượng thấp của

thì là ước lượng thấp của , dẫn đến được ước lượng

quá lớn.

d/ Sai số các giá trị dự báo không còn hiệu quả: Bắt nguồn từ công thức

với

.

94

7.2.4 Cách phát hiện tự tƣơng quan

a/ Phương pháp đồ thị: Ta có thể thực hiện theo các bước sau đây để giúp phát hiện tự tương quan

 Bước 1: Khảo sát đồ thị phần dư hoặc theo t.

 Bước 2: Khảo sát theo (lược đồ AR(1)).

 Bước 3: Khảo sát đồ thị theo t (đồ thị chuẩn hóa).

 Bước 4: Nếu đồ thị có dạng ngẫu nhiên thì không có tự tương quan. Ngược lại, nếu đồ thị không có dạng ngẫu nhiên, sự biến thiên có tính chất hệ thống thì kết luận có tự tương quan xảy ra.

b/ Kiểm định Durbin Watson:

Giả sử xét mô hình hồi quy dạng

trong đó thành phần nhiễu có tự tương quan bậc p

với thỏa mãn các giả thiết của OLS. Sử dụng thống kê d được xác định bởi

(7.2.4.1)

với

(7.2.4.2)

là ước lượng của trong mô hình AR(1).

Dễ thấy rằng . Hơn nữa ta có một số kết luận sau đây:

95

hoặc thì xảy ra tự tương quan hoàn hảo.  Nếu

 Nếu thì tự tương quan không xảy ra.

 Nếu  Nếu thì khả năng tự tương quan âm. thì khả năng tự tương quan dương.

Dưới đây là bảng thống kê Durbin-Watson:

Tự tương quan dương Không quyết định được Không quyết định được Tự tương quan âm

Không có tự tương quan bậc nhất 2 4

Hạn chế của kiểm định Durbin Watson là tồn tại hai miền không thể ra quyết định được. Để khắc phục hạn chế này, ta áp dụng quy tắc kiểm định Durbin Watson cải biên:

 Giả thuyết bên phải với mức ý nghĩa : .

Tự tương quan dương Không có tự tương quan dương 4

 Giả thuyết bên trái với mức ý nghĩa : .

Không có tự tương quan âm Tự tương quan âm 4

 Giả thuyết hai phía với mức ý nghĩa : .

Không có tự tương quan Tự tương quan âm

Tự tương quan dương 4

Ngoài ra vẫn còn một số khuyết điểm khác của kiểm định Durbin Watson như:

 Cỡ mẫu lớn thì không có giá trị trong bảng tra.  Có một số mâu thuẫn khi tra bảng để tìm , .

Trong nghiêm cứu thực nghiệm, người ta còn sử dụng kiểm định Durbin Watson theo kinh nghiệm:

96

Tự tương quan âm

Tự tương quan dương Không có tự tương quan 4

Chú ý: Để sử dụng được kiểm định Durbin Watson, cần có các điều kiện sau đây

 Mô hình hồi quy phải có hệ số chặn, nếu không có hệ số chặn thì trước tiên phải

ước lượng mô hình có hệ số chặn để có , sau đó thực hiện phương

pháp kiểm định như thông thường.  Các biến độc lập là không ngẫu nhiên.  Nhiễu ngẫu nhiên có tự tương quan bậc nhất.  Mô hình không chứa biến Y như là biến độc lập (hiện tượng trễ).  Không có quan sát bị mất trong dữ liệu.

c/ Kiểm định BG (Breusch-Godfrey):

Giả sử xét mô hình hồi quy dạng

(7.2.4.3)

trong đó thành phần nhiễu có tự tương quan bậc p

(7.2.4.4)

với thỏa mãn các giả thiết của OLS.

Xét giả thuyết gốc:

.

Ta tiến hành thủ tục kiểm định theo các bước sau:

.

 Bước 1: Ước lượng mô hình (7.2.4.3) bằng OLS và tính được phần dư  Bước 2: Ước lượng mô hình

(7.2.4.5)

và tính .

 Bước 3: Nếu thì ta bác bỏ , thừa nhận có tự tương quan

bậc p.

97

Đặc điểm của kiểm định BG:

 Áp dụng cho bài toán có cỡ mẫu lớn.  Có thể áp dụng cho mô hình có trễ.  Áp dụng kiểm định tự tương quan với bậc bất kỳ.  Kiểm định BG đòi hỏi phải xác định trước bậc của tự tương quan p. Thường thì

phải thử kiểm định với nhiều giá trị p khác nhau.

 Kiểm định BG có thể được áp dụng cho mô hình MA(q) (Moving Average).

d/ Kiểm định chuỗi dấu: Dựa vào dấu hiệu nếu dấu của nhiễu thay đổi ngẫu nhiên thì có thể nhận định không có tự tương quan.

Xét mô hình hồi quy dạng

(7.2.4.6)

 Bước 1: Ước lượng mô hình (7.2.4.6) bằng OLS và tính được phần dư .

.

 Bước 2: Xác định dấu của phần dư  Bước 3: Xác định các thông số

: Tổng số dấu (+) trong dãy dấu.

: Tổng số dấu (-) trong dãy dấu.

: Tổng số quan sát.

: Số chuỗi dấu trong dãy.

 Bước 4: Lập giả thuyết : Không có sự tương quan giữa các phần dư, giả sử

thêm rằng và thì số chuỗi dấu là đại lượng ngẫu nhiên, có phân

phối gần chuẩn với

 Khoảng tin cậy của với độ tin cậy là:

Nếu nằm trong khoảng tin cậy thì chấp nhận , ngược lại bác bỏ .

98

7.2.5 Cách khắc phục tự tƣơng quan

a/ Trường hợp biết cấu trúc của tự tương quan: Đưa về phương trình sai phân cấp một.

Giả sử xét mô hình hồi quy dạng

(7.2.5.1)

trong đó thành phần nhiễu có tự tương quan bậc nhất

(7.2.5.2)

Ta có phương trình sai phân cấp một:

(7.2.5.3)

Vì thỏa mãn các giả thiết của mô hình hồi quy tuyến tính cổ điển nên

các ước lượng của (7.2.5.3) có tính chất BLUE.

b/ Trường hợp chưa biết cấu trúc của tự tương quan:

+ Ước lượng bằng thống kê d:

Ta có

Trong trường hợp cỡ mẫu nhỏ, ta có thể áp dụng thống kê d cải biên để tính

với k là số hệ số hồi quy. Khi có ước lượng , ta thực hiện hồi quy phương trình sai phân

tổng quát với được thay thế bằng .

+ Phương pháp Durbin Watson hai bước:

Phương trình sai phân được viết lại như sau

(7.2.5.4)

99

 Bước 1: Hồi quy (7.2.5.4) theo OLS được là ước lượng chệnh, vững của .

 Bước 2: Hồi quy

+ Thủ tập lặp Cochrane-Orcutt (CORC) hai bước:

Giả sử xét mô hình hồi quy dạng

(7.2.5.5)

trong đó thành phần nhiễu có tự tương quan bậc nhất

(7.2.5.6)

Các bước thực hiện:

 Bước 1: Ước lượng mô hình (7.2.5.5) bằng phương pháp OLS được phần dư .

 Bước 2: Sử dụng các phần dư để ước lượng (7.2.5.6) thu được .

 Bước 3: Thay vào phương trình sai phân cấp một.

là ước lượng tốt nhất của nên người

Vì không có cơ sở nào để biết chắc chắn rằng ta tiến hành thủ tục Cochrane-Orcutt nhiều bước như sau:

 Bước 1: Ước lượng mô hình (7.2.5.5) bằng phương pháp OLS được phần dư .

 Bước 2: Sử dụng các phần dư để ước lượng (7.2.5.5) thu được (ước lượng

vòng lặp thứ nhất của ).

 Bước 3: Sử dụng để ước lượng phương trình sai phân cấp một

thu được các ước lượng và của và tương ứng.

 Bước 4: Thay và vào (7.2.5.5) được phần dư mới

(7.2.5.7)

 Bước 5: Ước lượng (7.2.5.7) thu được (ước lượng vòng lặp thứ hai của ).

100

 Bước 6: Sử dụng để ước lượng phương trình sai phân cấp một

thu được các ước lượng và của và tương ứng.

 Bước 7: Tiếp tục thay và vào (7.2.5.5) để thu được phần dư mới và thực

khác nhau một hiện lại vòng lặp cho tới khi các ước lượng kế tiếp theo của lượng rất nhỏ (bé hơn 0.01 hoặc 0.005). Thông thường thủ tục Cochrane-Orcutt kết thúc sau 3 hoặc 4 bước lặp.

+ Kiểm định Berenblutt-Webb:

.

Nếu đúng, ta có phương rình sai phân cấp 1:

 Bước 1: Hồi quy (7.2.5.5), được .

 Bước 2: Hồi quy phương trình sai phân cấp một ở trên, được .

 Bước 3: Tính thống kê

 Bước 4: Sử dụng thống kê Durbin Watson để quyết định bác bỏ hay thừa nhận giả

thuyết .

Ví dụ 7.2.5.1: Cho số liệu chuỗi thời gian về mối quan hệ giữa tiền lương thực tế và năng suất lao động ở khu vực kinh doanh tại Mỹ từ năm 1959-2002 với số liệu như sau:

Năm 1959 1960 1961 1962 1963 Tiền lương NSLĐ Năm Tiền lương NSLĐ 81.9 1981 81.6 1982 84.5 1983 86.8 1984 88.5 1985 89.0 90.5 90.4 90.7 92.1 59.2 60.7 62.5 64.6 66.1 48.6 49.5 51.3 53.6 55.7

101

95.2 95.6 97.0 95.5 96.3 97.4 100 99.9 99.7 99.4 99.8 100.7 104.8 107.2 111.0 112.1 113.5 91.2 91.6 93.0 93.9 95.3 96.4 100 100.5 101.7 102.3 105.1 107.4 110.2 113.0 116.5 118.8 125.1 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 67.7 69.1 71.7 73.6 76.0 77.2 78.6 80.1 82.3 84.1 83.1 83.9 86.2 87.4 88.9 89.1 88.9 57.6 59.7 62.1 63.5 65.5 65.8 67.1 70.0 72.2 74.5 73.2 75.8 78.4 79.7 80.6 80.5 80.3 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

+ Phát hiện tự tương quan:

Dependent Variable: Y Method: Least Squares Date: 10/22/17 Time: 14:12 Sample: 1959 2002 Included observations: 44

Std. Error

t-Statistic

Prob.

Coefficient

0.0000 0.0000

0.700589 29.57497

0.017122 1.460515

40.91818 20.24968

Variable X C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

87.70000 14.22579 4.505654 4.586754 4.535730 0.213684

0.975529 Mean dependent var 0.974946 S.D. dependent var 2.251719 Akaike info criterion 212.9500 Schwarz criterion -97.12439 Hannan-Quinn criter. 1674.298 Durbin-Watson stat 0.000000

Kết quả hồi quy giữa tiền lương và năng suất lao động:

Nhìn vào cột Prob. của kết quả trên, thấy rằng các hệ số hồi quy đều có ý nghĩa thống kê.

Hệ số tương quan chứng tỏ mô hình khá phù hợp. Tuy nhiên, vì đây là

102

chuỗi số liệu thời gian nên rất dễ xảy ra hiện tượng tự tương quan. Để kiểm tra tính chất này ta có thể sử dụng các phương pháp sau đây:

 Dựa vào đồ thị:

Nhìn vào đồ thị dự đoán có hiện tượng tự tương quan dương xảy ra.

 Kiểm định Durbin Watson:

103

Với , tra bảng thống kê DW có . Hơn

nữa kết quả hồi quy cho thấy . Vậy có tự tương quan dương bậc

nhất trong các phần dư.

Breusch-Godfrey Serial Correlation LM Test:

F-statistic Obs*R-squared

0.0000 0.0000

102.5723 Prob. F(1,41) 31.43490 Prob. Chi-Square(1)

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 10/22/17 Time: 14:51 Sample: 1959 2002 Included observations: 44 Presample missing value lagged residuals set to zero.

Std. Error

t-Statistic

Prob.

Coefficient -0.006486 0.464022 0.876877

0.009283 0.791270 0.086581

-0.698742 0.586427 10.12780

0.4887 0.5608 0.0000

Variable X C RESID(-1)

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.714429 Mean dependent var 0.700499 S.D. dependent var 1.217877 Akaike info criterion 60.81225 Schwarz criterion -69.55253 Hannan-Quinn criter. 51.28613 Durbin-Watson stat 0.000000

1.10E-14 2.225382 3.297842 3.419492 3.342956 1.420151

 Kiểm định BG (Breusch-Godfrey):

đều có rất bé. Điều này cho thấy xảy ra hiện tượng

Giá trị các thống kê F và tự tương quan bậc nhất trong chuỗi phần dư.

+ Khắc phục tự tương quan:

Dependent Variable: DY Method: Least Squares Date: 10/22/17 Time: 15:28 Sample (adjusted): 1960 2002 Included observations: 43 after adjustments

Std. Error

t-Statistic

Prob.

Coefficient

Variable DX C

0.467621 0.430861

0.121333 0.265087

3.854012 1.625358

0.0004 0.1117

 Kiểm định Berenblutt-Webb cho giả thuyết:

104

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.265936 Mean dependent var 0.248032 S.D. dependent var 1.008975 Akaike info criterion 41.73924 Schwarz criterion -60.37455 Hannan-Quinn criter. 14.85341 Durbin-Watson stat 0.000401

1.262791 1.163538 2.901142 2.983058 2.931350 1.539179

nên bác bỏ giả thuyết .

 Ước lượng bằng thống kê d:

Ta có

 Phương pháp Durbin Watson hai bước:

Dependent Variable: Y Method: Least Squares Date: 10/22/17 Time: 15:51 Sample (adjusted): 1960 2002 Included observations: 43 after adjustments

Std. Error

t-Statistic

Prob.

Coefficient 0.421166 -0.312189 0.829531 6.426753

0.123316 0.150227 0.070515 2.141585

3.415330 -2.078109 11.76395 3.000933

0.0015 0.0443 0.0000 0.0047

Variable X X(-1) Y(-1) C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic

0.995699 Mean dependent var 0.995369 S.D. dependent var 0.931627 Akaike info criterion 33.84923 Schwarz criterion -55.86975 Hannan-Quinn criter. 3009.867 Durbin-Watson stat

88.36279 13.68950 2.784640 2.948472 2.845056 1.613401

Thực hiện hồi quy mô hình:

105

Prob(F-statistic)

0.000000

Từ kết quả trên, ta được .

7.3 Phƣơng sai của nhiễu thay đổi

7.3.1 Nguyên nhân

Một trong những giả định của mô hình hồi quy tuyến tính cổ điển là phương sai của nhiễu không đổi qua các quan sát (phương sai thuần hay phương sai đồng nhất):

.

Trong những bài toán thực tế, có thể thay đổi theo sự thay đổi của :

.

Sau đây là một số nguyên nhân dẫn đến phương sai không đồng nhất:

 Do bản chất của hiện tượng kinh tế: Chẳng hạn như trong mô hình hồi quy của tiết

kiệm hay chi tiêu theo thu nhập thấy có phương sai không đồng nhất.  Do sai số đo lường và sai số tính toán ngày càng được cải thiện dần.  Do tích lũy kinh nghiệm và sai số theo thời gian ngày càng giảm: Chẳng hạn như khi số giờ tác nghiệp của một thợ học việc càng lớn thì số phế phẩm làm ra sẽ càng ít dần bởi thao tác của người thợ này ngày một hoàn hảo hơn.

 Do trong mẫu xuất hiện các giá trị rất nhỏ hoặc rất lớn so với các giá trị quan sát khác (outlier): Chẳng hạn như khi điều tra trên một mẫu nhỏ về thu nhập và chi tiêu, đôi khi có những quan sát rất khác biệt: thu nhập thấp nhưng chi tiêu rất cao hoặc ngược lại.

 Do xác định sai dạng mô hình hồi quy: Chẳng hạn như xác định sai dạng hàm, bỏ

sót biến quan trọng.

 Phương sai không đồng nhất thường xuất hiện trong các dữ liệu chéo và dữ liệu

bảng.

7.3.2 Hậu quả

 Ước lượng OLS không cho phương sai bé nhất (không còn là ước lượng hiệu quả).  Phương sai và hiệp phương sai của các ước lượng OLS bị chệch.  Việc sử dụng thống kê t và F để kiểm định giả thuyết không còn đáng tin cậy nữa.

106

 Kết quả dự báo không còn hiệu quả khi sử dụng các ước lượng OLS có phương sai

không bé nhất.

7.3.3 Cách phát hiện

Việc phát hiện phương sai thay đổi không hề dễ dàng bởi một số lý do sau đây:

 Không biết tất cả các giá trị của biến phụ thuộc ứng với từng giá trị của biến độc lập. Do đó không thể ước lượng phương sai của nhiễu từ những giá trị riêng biệt này.

 Công cụ được sử dụng để phát hiện phương sai thay đổi thường là đồ thị của các

phần dư . Khi cỡ mẫu càng lớn, là ước lượng tốt của .

Phương pháp định tính:

+ Dựa vào kinh nghiệm từ những cuộc nghiên cứu trước đó hoặc do suy đoán hoặc dựa vào bản chất của hiện tượng nghiên cứu. + Dựa vào việc xem xét đồ thị của phần dư: Nếu không có thông tin tiên nghiệm nào cho thấy có phương sai thay đổi, có thể tiến hành phân tích hồi quy với giả định phương sai

đồng đều để xác định phần dư , sau đó khảo sát đồ thị của nó để xem xét thay đổi

có tính hệ thống hay không. Chẳng hạn ta có một số dạng biến thiên của dưới đây:

+ Để củng cố thêm nhận định về hiện tượng phương sai thay đổi, người ta thường kết hợp phương pháp định tính với các phương pháp định lượng.

107

Phương pháp định lượng:

+ Kiểm định Park:

 Park giả định rằng phương sai của nhiễu thay đổi dưới dạng hàm mũ như sau:

.

 Vì chưa biết nên ta sử dụng ước lượng để thay thế và tiến hành theo các

bước sau đây:

Bước 1: Hồi quy mô hình gốc để ước lượng và .

Bước 2: Hồi quy mô hình .

Bước 3: Kiểm định giả thuyết

Chú ý: Hạn chế của kiểm định Park là việc giả sử các nhiễu thỏa mãn các giả

thiết cổ điển. Nếu vi phạm giả thiết này thì kết quả kiểm định ở bước 3 không

còn đáng tin cậy nữa.

+ Kiểm định Glejser: Thực hiện tương tự như kiểm định Park nhưng sử dụng các dạng hàm sau:

Hạn chế của kiểm định Glejser:

 có thể không thỏa mãn các giả thiết cổ điển.

108

 Mô hình và không có dạng tuyến tính,

do đó không thể áp dụng phương pháp OLS.

 Ngoại trừ mô hình , các mô hình còn lại được đòi hỏi điều kiện

về biến độc lập để biểu thức được xác định (biểu thức dưới mẫu khác 0 hoặc biểu

thức trong căn bậc hai phải không âm).

+ Kiểm định Goldfeld-Quandt: Kiểm định này giả thiết rằng phương sai của tương

quan thuận với biến độc nào đó. Giả sử rằng ( : hằng số).

Bước 1: Sắp xếp mẫu theo thứ tự tăng dần của biến .

Bước 2: Loại bỏ c quan sát ở giữa, n-c quan sát còn lại được chia làm hai nhóm, mỗi nhóm chứa (n-c)/2 quan sát.

Bước 3: Thực hiện hồi quy OLS cho với (n-c)/2 quan sát thu

được phương sai . Mỗi có bậc tự do là df = (n-c-2k)/2, k: tham số trong

mô hình.

Bước 4: Thực hiện kiểm định F cho giả thuyết : Phương sai không đổi.

Xét thống kê

Nếu thì bác bỏ .

Hạn chế của kiểm định Goldfeld-Quandt:

 Không có nguyên tắc chung để xác định số quan sát bị loại bỏ, độ tin cậy phụ thuộc vào số quan sát bị loại bỏ này. Theo kinh nghiệm, với cỡ mẫu khoảng 30 thì chọn c = 4 hoặc c = 8; với cỡ mẫu khoảng 60 thì chọn c = 10 hoặc c = 16.

 Kiểm định Goldfeld-Quandt thích hợp cho những mẫu cỡ nhỏ.

+ Kiểm định White: Kiểm định này khảo sát phần dư theo biến độc lập.

Xét mô hình hồi quy gốc:

109

Bước 1: Hồi quy mô hình gốc trên, thu được .

Bước 2: Hồi quy mô hình phụ

có được hệ số xác định .

Bước 3: Thực hiện kiểm định cho giả thuyết : Phương sai không đổi.

Ta có . Nếu thì bác bỏ .

7.3.4 Biện pháp khắc phục

+ Trường hợp đã biết phương sai của thổng thể:

Khi có thông tin về phương sai thay đổi, ta có thể sử dụng phương pháp GLS (thực chất là phương pháp OLS áp dụng cho các biến đã được biến đổi từ một mô hình vi phạm giả thiết cổ điển thành mô hình mới thỏa mãn các giả thiết này) để thực hiện hồi quy. Các tham số ước lượng được từ mô hình mới có tính chất BLUE.

Xét mô hình

với .

Suy ra

với .

+ Trường hợp chưa biết phương sai của tổng thể:

Cũng sử dụng phương pháp GLS nhưng cần đòi hỏi thêm một số giả thiết về phương sai của tổng thể như sau:

110

 Giả thiết 1: Phương sai của tổng thể tỷ lệ với bình phương của biến độc lập:

 Giả thiết 2: Phương sai của tổng thể tỷ lệ với biến độc lập:

 Giả thiết 3: Có thể sử dụng phép biến đổi logarit

7.3.5 Các ví dụ

Ví dụ 7.3.5.1: Khảo sát số liệu về chi phí cho việc nghiên cứu và phát triển của 18 ngành công nghiệp ở Mỹ trong năm 1988 như sau:

Lợi nhuận

Nhóm ngành công nghiệp 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Doanh thu (X2) 6375.3 11626.4 14655.1 21869.2 26408.3 32405.6 35107.7 40295.4 70761.6 80552.8 95294.0 101314.1 116141.3 122315.7 141649.9 175025.8 241434.8 293543.0 Đầu tư cho nghiên cứu và phát triển (Y) 62.5 92.9 178.3 258.4 494.7 1083 1620.6 421.7 509.2 6620.1 3918.6 1595.3 6107.5 4454.1 3163.8 13210.7 1703.8 9528.2 185.1 1569.5 276.8 2828.1 2225.9 3751.9 2884.1 4645.7 5036.4 13869.9 4487.8 10278.9 8787.3 16438.8 9761.4 19774.5 23168.5 18415.4

Để xem xét tác động của doanh thu lên đầu tư cho nghiên cứu và phát triển, ta ước lượng mô hình:

111

Nhìn vào biểu đồ phân tán của biến doanh thu và biến khoản đầu tư cho nghiên cứu và phát triển, nhận thấy hai biến này có quan hệ cùng chiều phù hợp với cơ sở kinh tế học, kỳ vọng rằng khi doanh thu tăng thì khoản đầu tư cho nghiên cứu và phát triển cũng sẽ tăng vì việc nghiên cứu và phát triển tác động tích cực tới các nhóm ngành công nghiệp, làm tăng lợi nhuận.

Ngoài ra khi biến có giá trị càng lớn thì các điểm phân tán càn rộng. Điều này cho

Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

Coefficient

0.030878 266.1917

0.008346 1002.961

3.699582 0.265406

0.0019 0.7941

Variable X2 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.461042 Mean dependent var 0.427357 S.D. dependent var 2804.428 Akaike info criterion 1.26E+08 Schwarz criterion -167.3820 Hannan-Quinn criter. 13.68690 Durbin-Watson stat 0.001944

3056.856 3705.973 18.82023 18.91916 18.83387 3.020747

thấy có dấu hiệu phương sai thay đổi. Để có nhìn nhận chính xác hơn về hiện tượng này, ta khảo sát biểu đồ phần dư:

112

Nhìn vào hai đồ thị trên về phần dư, ta nhận thấy có hiện tượng phương sai sai số thay đổi về mẫu số liệu quan sát.

Sử dụng phương pháp định lượng để kiểm chứng hiện tượng trên:

113

Dependent Variable: LOG(PHANDUBINHPHUONG) Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

Coefficient

0.937739 3.411791

0.452026 4.972480

2.074524 0.686135

0.0545 0.5025

Variable LOG(X2) C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.211964 Mean dependent var 0.162712 S.D. dependent var 2.024705 Akaike info criterion 65.59091 Schwarz criterion -37.17848 Hannan-Quinn criter. 4.303650 Durbin-Watson stat 0.054525

13.67970 2.212710 4.353165 4.452095 4.366806 1.661072

Nhận thấy p-value cho biến LOG(X2) bằng 0.0545 > 0.05 nên chấp nhận giả thuyết rằng phương sai không đổi ứng với mức ý nghĩa 5%.

 Kiểm định Park:

Dependent Variable: ABS(PHANDU) Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

Coefficient

0.012405 573.4053

0.005606 673.6986

2.212694 0.851130

0.0418 0.4073

Variable X2 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.234304 Mean dependent var 0.186448 S.D. dependent var 1883.761 Akaike info criterion 56776901 Schwarz criterion -160.2193 Hannan-Quinn criter. 4.896013 Durbin-Watson stat 0.041804

1694.540 2088.493 18.02437 18.12330 18.03801 1.764230

.

 Kiểm định Glejser: Sử dụng một số dạng hàm hồi quy mà Glejser đề xuất

, Thu được

114

Dependent Variable: ABSPHANDU Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

3.338921 1003.769

2.448301 -0.520870

0.0263 0.6096

Variable SQR(X2) C

Coefficient 8.174684 -522.8336

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.272535 Mean dependent var 0.227068 S.D. dependent var 1836.131 Akaike info criterion 53942043 Schwarz criterion -159.7583 Hannan-Quinn criter. 5.994177 Durbin-Watson stat 0.026262

1694.540 2088.493 17.97315 18.07208 17.98679 1.797692

Dependent Variable: ABSPHANDU Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

Coefficient -19862635 2315.658

12455985 611.4543

-1.594626 3.787132

0.1304 0.0016

Variable 1/X2 C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.137133 Mean dependent var 0.083204 S.D. dependent var 1999.722 Akaike info criterion 63982185 Schwarz criterion -161.2946 Hannan-Quinn criter. 2.542831 Durbin-Watson stat 0.130356

1694.540 2088.493 18.14384 18.24277 18.15748 1.495854

Thu được , .

Thu được , .

Các hệ số góc trong kết quả kiểm định Glejser ở mô hình 1 và 2 đều có ý nghĩa thống kê với mức ý nghĩa 5%, còn mô hình 3 không có ý nghĩa thống kê với cùng mức ý nghĩa này. Với cỡ mẫu không phải là lớn n = 18 sử dụng cho kiểm định Glejser, ta cần phải thận trọng trong việc nhận định về hiện tượng phương sai thay đổi.

115

Heteroskedasticity Test: White

0.0788 0.0753 0.0102

F-statistic Obs*R-squared Scaled explained SS

3.024901 Prob. F(2,15) 5.173276 Prob. Chi-Square(2) 9.164166 Prob. Chi-Square(2)

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: Time: Sample: 1 18 Included observations: 18

Std. Error

t-Statistic

Prob.

Coefficient -6096911. -0.000498 224.3497

6717947. 0.000464 131.4379

-0.907556 -1.073878 1.706887

0.3785 0.2998 0.1085

Variable C X2^2 X2

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

0.287404 Mean dependent var 0.192391 S.D. dependent var 13689244 Akaike info criterion 2.81E+15 Schwarz criterion -319.6782 Hannan-Quinn criter. 3.024901 Durbin-Watson stat 0.078763

6990948. 15232775 35.85313 36.00153 35.87359 1.705242

Kết quả kiểm định White cho thấy p-value = 0.0753 >0.05 nên chưa có cơ sở để bác bỏ giả thuyết phương sai đồng nhất.

 Kiểm định White:

Ngoài các khuyết tật như đã trình bày ở trên, mô hình hồi quy có thể còn có những khuyết tật khác như: Kỳ vọng của sai số ngẫu nhiên khác không (vi phạm giả thiết 2 không trong các giả thiết cổ điển của phương pháp OLS), nhiễu ngẫu nhiên không tuân theo quy luật chuẩn (vi phạm giả thiết 5 trong các giả thiết cổ điển của phương pháp OLS).

116

[1] GS.TS. Nguyễn Quang Dong, TS. Nguyễn Thị Minh, Giáo trình Kinh tế lượng, NXB Đại học kinh tế Quốc dân, 2012.

[2] ThS. Phạm Trí Cao, ThS. Vũ Minh Châu, Kinh tế lượng ứng dụng, NXB Thống kê Thành phố Hồ Chí Minh, 2010.

[3] PGS.TS. Nguyễn Cao Văn (chủ biên), Giáo trình lý thuyết xác suất và thống kê toán, NXB Đại học kinh tế Quốc Dân, 2012.

[4] Damodar, N. Basic econometrics. The Mc-Graw Hill, 2004.

[5] Kennedy, Peter. A guide to econometrics. MIT press, 2003.

Tài liệu tham khảo

117

PHỤ LỤC

Bảng phân phối chuẩn

118

Bảng phân phối t-student

119

Bảng phân phối Fisher

120

121

122

123

124

125

Bảng phân phối Chi-bình phƣơng

126

127

Bảng thống kê d (Durbin-Watson) với mức ý nghĩa 0.05

128

129

Bảng thống kê d (Durbin-Watson) với mức ý nghĩa 0.01

130

131