intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

BÀI 7: LỰA CHỌN MÔ HÌNH HỒI QUY

Chia sẻ: Hoàng Quang Thỏa | Ngày: | Loại File: PDF | Số trang:24

1.314
lượt xem
125
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây: • Các thuộc tính của một mô hình tốt. • Các loại sai lầm về định dạng của mô hình. • Hậu quả khi chọn mô hình định dạng sai. • Kiểm định phát hiện mô hình định dạng sai. • Giới thiệu mô hình dạng lôga tuyến tính. • Giới thiệu mô hình với biến giả.

Chủ đề:
Lưu

Nội dung Text: BÀI 7: LỰA CHỌN MÔ HÌNH HỒI QUY

  1. Bài 7: Lựa chọn mô hình hồi quy BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY Mục tiêu Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây: • Các thuộc tính của một mô hình tốt. • Các loại sai lầm về định dạng của mô hình. • Hậu quả khi chọn mô hình định dạng sai. • Kiểm định phát hiện mô hình định dạng sai. • Giới thiệu mô hình dạng lôga tuyến tính. • Giới thiệu mô hình với biến giả. Nội dung Hướng dẫn học • Tiêu chuẩn cho một mô hình tốt. • Ôn lại các bài học trước để hiểu được • Các loại sai lầm định dạng của mô hình. các loại mô hình hồi quy. • Hậu quả nếu một mô hình định dạng sai. • Tập trung phân biệt các hậu quả xảy • Các kiểm định phát hiện sai lầm định dạng. ra khi có một loại sai lầm định dạng nào đó. • Các loại mô hình với biến giả. • Tập trung vào các phương pháp kiểm định để phát hiện các sai lầm định dạng. Thời lượng • Tập trung hiểu rõ bản chất của việc đưa biến giả vào mô hình và các loại • 12 tiết mô hình có biến giả. • Xem xét kỹ các ví dụ trong giáo trình và bài giảng. 93
  2. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ TÌNH HUỐNG DẪN NHẬP Tình huống Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng mô hình nào tốt hơn để phân tích trong tình huống này? Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy E(TN/Di) = β1 + β2Di trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ. Câu hỏi • Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập hay không? • Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không. 94
  3. Bài 7: Lựa chọn mô hình hồi quy ơ Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì càng tốt hay không, hay một mô hình phải có phương trình hồi quy thật phức tạp, thật đẹp về mặt toán học mới là tốt? 7.1. Các thuộc tính của một mô hình tốt BÀI TOÁN Xét hai mô hình hồi quy tuyến tính Yi = β1 + β2 X 2i + β3 X 3i + ... + βk X ki + u i , (7.1) Yi = β1 + β2 X 2i + β3 X 3i + ... + βm X mi + vi , (7.2) trong đó m < k (do vậy sai số u i có xu thế nhỏ hơn sai số vi ). Có thể kết luận là mô hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không? Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn? Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận dụng rộng rãi trong thực tế, bao gồm: • Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy nhiên phải chứa đựng những biến độc lập chủ yếu ảnh hưởng đến biến phụ thuộc để giải thích được các hiện tượng cần nghiên cứu. Việc đánh giá biến độc lập nào ảnh hưởng một cách có ý nghĩa đến biến phụ thuộc, một mặt phải dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể dựa vào phép kiểm định về các hệ số trong phương trình hồi quy. • Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với một tập số liệu cho trước. Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô hình hồi quy có tính xác định. • Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc càng nhiều càng tốt. Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá tính thích hợp của mô hình so với số liệu. 95
  4. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ • Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng. Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi quy tuyến tính cổ điển. • Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết quả dự báo càng sát với thực tế càng tốt. 7.2. Cách tiếp cận lựa chọn mô hình Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta có thể tiến hành lần lượt theo các bước sau: • Bước 1: Xác định danh sách các biến độc lập có thể có trong mô hình. Dựa vào ý nghĩa thực tế của bài toán đã được đặt ta, ta cần liệt kê tất cả những biến độc lập có thể có của mô hình, là những biến có khả năng ảnh hưởng đến giá trị của biến phụ thuộc. Những biến này có thể đã có sẵn trong danh sách các biến của bộ số liệu, song cũng có thể là biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi. • Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi, tự tương quan, phân bố không chuẩn của sai số, ... và khắc phục các vi phạm phát hiện được. • Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc lập và biến phụ thuộc. Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi quy phi tuyến thích hợp. • Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa chọn mô hình. Hệ số xác định là một thước đo thường được dùng đầu tiên để đánh giá chất lượng của mô hình hồi quy. Nếu hệ số xác định có giá trị lớn hơn 50% thì có thể coi mô hình khá phù hợp với tập số liệu. Còn nếu hệ số xác định nhỏ hơn 30% thì có thể khẳng định mô hình không phù hợp và nên tìm mô hình khác. Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các mô hình hồi quy như: o Tiêu chuẩn log-hợp lý (log-likelihood): n n 1 n L = − ln σ2 − ln(2π) − ∑ u i2 . 2 2 2 i =1 96
  5. Bài 7: Lựa chọn mô hình hồi quy ơ Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương. Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình cho rằng không hề có quan hệ giữa các biến độc lập và biến phụ thuộc). Trong thực hành, giá trị của hàm L được ước lượng bằng công thức: n RSS L = − (1 + ln(2π) + ln( )) . 2 n o Tiêu chuẩn AIC (Akaike info criterion): RSS 2k / n AIC = ( ).e , n trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì mô hình càng phù hợp với số liệu. o Tiêu chuẩn Schwarz (Schwarz criterion): RSS k / n SC = ( ).n n trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô hình càng phù hợp với số liệu. Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây: Nếu hai mô hình hồi quy chứa danh sách các biến độc lập khác nhau thì hệ xác định của hai mô hình đó (có thể bằng nhau) không giúp kết luận được mô hình nào tốt hơn; Có thể việc loại bỏ bớt một số biến nào đó ra khỏi phương trình hồi quy tuy làm giảm hệ số xác định, song về thực chất lại không làm giảm đáng kể chất lượng của mô hình. Mặt khác, trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế” hơn, mặc dù sai số ước lượng có thể lớn hơn. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy: o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 1 ⎧H 0 : β2 = β3 = ... = βk = 0 ⎨ ⎩H1 : ∃βi ≠ 0 Việc chấp nhận giả thuyết H 0 có nghĩa là tất cả các biến độc lập không hề ảnh hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô hình hồi quy phù hợp với số liệu ở một mức độ nhất định. 97
  6. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số: R2 / k F= , (1 − R 2 ) /(n − k − 1) trong đó R 2 là hệ số xác định của mô hình hồi quy, k là số tham số trong mô hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0 . Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài D88 và biến độc lập là tổng sản phẩm quốc nội Y88 . Thực hiện hồi quy D88 theo Y88 , ta có kết quả trong bảng sau: Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000 (rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và log - hợp lý. 7.3. So sánh hai mô hình hồi quy Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của 98
  7. Bài 7: Lựa chọn mô hình hồi quy ơ mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 2 ⎧H 0 : βm +1 = βm + 2 = ... = βk = 0 ⎨ ⎩H1 : ∃βi ≠ 0,i ∈ {m + 1, m + 2,..., k} Việc chấp nhận giả thuyết H 0 có nghĩa các biến độc lập X m +1 , X m + 2 ,..., X k không có vai trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa mô hình (7.1) với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho biến phụ thuộc. Trong thực hành, nếu giả thuyết H 0 được chấp nhận thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho kết quả thực sự chính xác hơn. Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số n − k R2 − R2 F= × k m , k − m 1− R2 k trong đó R 2 là hệ số xác định của mô hình (7.1) với k tham số, R 2 là hệ số xác định k m của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0 . 7.4. Hậu quả của việc chọn mô hình không phù hợp Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một trong những nguyên nhân sau gây ra: • Chọn dạng hàm không thích hợp. Dạng hàm hồi quy không thích hợp có thể dẫn đến các hậu quả sau: o Các hệ số hồi quy bị ước lượng chệch, thậm chí dấu của hệ số hồi quy bị sai, dẫn đến những diễn giải mâu thuẫn với thực tế; o Hệ số xác định thể hiện độ phù hợp của mô hình với số liệu có thể không cao; 99
  8. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê; o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ bản của mô hình hồi quy. • Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô hình phù hợp thực sự phải là Y = β0 + β1X1 + β2 X 2 + u , nhưng ta lại sử dụng mô hình Y = α 0 + α1X1 + v nghĩa là biến X 2 bị thiếu, trong khi biến này thực sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác nhau. Nếu biến X 2 tương quan với biến X1 thì các ước lượng α 0 và α1 của α 0 và α1 sẽ là những ước lượng chệch và không vững của β0 và β1 , tức là E(α 0 ) ≠ β0 ; E(α1 ) ≠ β1 . Thực vậy, vì hai biến X1 và X 2 tương quan với nhau nên ta có X 2 = γ 0 + γ1X1 + ε , với γ 0 , γ1 và ε lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến X 2 theo biến X1 . Lúc đó, E(α1 ) = β1 + β2 γ1 ; E(α 0 ) = β0 + β2 (X 2 − γ1X1 ) . Do vậy, tùy theo dấu của β2 γ1 mà α1 sẽ cho ước lượng quá cao hoặc quá thấp so với giá trị thực của β1 . Trong trường hợp X 2 và X1 không tương quan với nhau thì γ1 = 0 và khi đó α1 là ước lượng không chệch của β1 , nhưng α 0 lại là ước lượng chệch của β0 , nếu X2 ≠ 0 . Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm định thông thường không còn hiệu lực. • Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là Y = β0 + β1X1 + u , (7.3) nhưng ta lại sử dụng mô hình Y = α 0 + α1X1 + α 2 X 2 + v (7.4) 100
  9. Bài 7: Lựa chọn mô hình hồi quy ơ nghĩa là dùng thừa biến X 2 . Khi đó các hệ số hồi quy ước lượng được từ mô hình (7.4) vẫn là các ước lượng vững, không chệch, nghĩa là ta vẫn có E(α 0 ) = β0 ; E(α1 ) = β1 và E(α 2 ) = β2 = 0 . Đồng thời, phương sai của của sai số vẫn được ước lượng một cách không chệch, do đó khoảng tin cậy vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động một cách có ý nghĩa lên biến phụ thuộc). 7.5. Kiểm định phát hiện sự bỏ sót biến Với một tập số liệu cho trước, giả sử ta sử dụng mô hình hồi quy Yi = β0 + β1X i + u i . (7.5) Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến phụ thuộc Y, còn có biến độc lập nào khác có ảnh hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần giải quyết bài toán kiểm định sau: BÀI TOÁN KIỂM ĐỊNH 3 H 0 : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) H1 : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) Việc chấp nhận giả thuyết H 0 có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa là mô hình (7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình. Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W Yi = α 0 + α1X i + α 2 Wi + vi . (7.6) Với mô hình này, ta xét hai trường hợp như sau: • Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như: 101
  10. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô hình (7.6) và kiểm định giả thuyết α 2 = 0 . Lúc đó, nếu giả thuyết này bị bác bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết α 2 = 0 được chấp nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau. o Cách 2: Sử dụng hàm log-hợp lý. Xét thống kê LR = −2(l1 − l0 ) , trong đó l1 và l0 tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.6) và (7.5). Khi giả thuyết H 0 đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với 1 bậc tự do ( χ 2 (1) ). Nếu LR ≥ χ α (1) ( α thường được lấy 2 bằng 5%) thì ta bác bỏ H 0 và kết luận có hiện tượng bỏ sót biến độc lập W. o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định 2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1) và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy. Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc bỏ sót một nhóm biến độc lập trong mô hình. Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1 biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2) hay không. Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng cách lập thống kê LR = −2(lk − lm ) , trong đó lk và lm tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết H 0 đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do ( χ 2 (k − m) ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không. • Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước như sau: 102
  11. Bài 7: Lựa chọn mô hình hồi quy ơ o ˆ ˆ Bước 1: Dùng số liệu để ước lượng các giá trị β0 và β1 của các hệ số hồi quy trong mô hình (7.5); o ˆ ˆ Bước 2: Dùng các hệ số β0 và β1 và các giá trị quan sát được của biến độc lập để ước lượng các giá trị của biến phụ thuộc ˆ ˆ ˆ Yi = β0 + β1X i . ˆ Biến Y với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập ˆ ˆ ˆ thêm các biến phụ Y 2 , Y 3 và Y 4 . Có thể thấy ˆ biến Y chứa phần thông tin của biến phụ thuộc được thể hiện qua biến độc lập X. Đồng thời có ˆ ˆ ˆ thể cho rằng các biến Y 2 , Y 3 và Y 4 có thể còn chứa một phần thông tin khác của biến phụ thuộc chưa được mô tả qua biến X. Như vậy, để kiểm tra xem mô hình (7.5) có bỏ sót biến độc lập nào đó hay không, ta có thể tiến hành kiểm ˆ ˆ ˆ định để biết liệu các biến Y 2 , Y 3 và Y 4 đúng là nhóm biến bị bỏ sót hay không. Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như: o Bước 3: Ta kiểm định giả thuyết H 0 : γ 2 = γ 3 = γ 4 = 0 bằng cách dùng thống kê n − k R2 − R2 F= × k m k − m 1− R2 k với n là số quan sát có trong số liệu, k=5, m=2, còn R 2 và R 2 lần lượt là hệ k m số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với bậc tự do n – 5 và k − m = 3 , qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0 . Việc chấp nhận giả thuyết cho phép khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì có nghĩa trong mô hình (7.5) còn sót biến độc lập. Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như: o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến Y , Yˆ2 ˆ3 ˆ và Y 4 đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình hồi quy (7.5), Yi = β0 + β1X i + u i , và mô hình ˆ ˆ ˆ Yi = γ 0 + γ1X i + γ 2 Yi2 + γ 3 Yi3 + γ 4 Yi4 + vi . (*) o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành, bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ: 103
  12. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ ˆ ˆ Thứ nhất: Dùng các hệ số β0 và β1 và các giá trị quan sát được của biến ˆ ˆ ˆ ˆ độc lập để thu ước lượng biến phụ thuộc Y và biến phụ Y 2 , Y 3 , Y 4 , đồng thời xác định các giá trị của biến phần dư ˆ u i = Yi − Yi ; i = 1, 2,..., n . ˆ Thứ hai: Xét phương trình hồi quy ˆ ˆ ˆ u i = γ 0 + γ1X i + γ 2 Yi2 + γ 3 Yi3 + γ 4 Yi4 + vi ˆ và dùng số liệu để ước lượng hệ số xác định R 2 của phương trình hồi quy đó; Thứ ba: Lập giả thuyết H 0 : γ 2 = γ 3 = γ 4 = 0 và dùng thống kê nR 2 để kiểm định giả thuyết ấy. Thống kê này có phân phối khi bình phương với 3 bậc tự do, qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0 . Việc chấp nhận giả thuyết này đồng nghĩa với việc khẳng định không có hiện tượng bỏ sót biến. Ngược lại, nếu giả thuyết bị bác bỏ thì mô hình (7.5) còn bỏ sót biến độc lập. Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ sót để cải tiến mô hình. 7.6. Kiểm định phát hiện hiện tượng thừa biến Ta thấy bài toán kiểm định phát hiện hiện tượng thừa biến độc lập trong mô hình hồi quy chính là một phần của bài toán “ngược” đối với bài toán kiểm định 3 nhằm phát hiện sự bỏ sót biến độc lập trong mô hình, với giả thuyết của bài toán này được đổi thành đối thuyết của bài toán kia, và ngược lại, đối thuyết được chuyển tương ứng thành giả thuyết, hơn nữa đã có số liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để phát hiện hiện tượng thừa biến. 7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu 104
  13. Bài 7: Lựa chọn mô hình hồi quy ơ người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người” (incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải với dạng của phân bố chuẩn. Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình Y = α 0 + α1X + v , (7.7) ta nên dùng mô hình log10 (Y) = β0 + β1X + u . (7.8) ˆ ˆ Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy β0 và β1 của phương trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y qua biểu thức: ˆ ˆ ˆ ˆ ˆ Y = 10β0 +β1X = 10β0 .(10X )β1 . (7.9) Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương log10 (Y) = γ 0 + γ1 log10 (X) + W . (7.10) Với các giá trị γ 0 và γ1 của phương trình hồi quy tuyến ˆ ˆ tính trên ước lượng được bằng phương pháp bình phương bé nhất, ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y như sau: ˆ ˆ ˆ ˆ ˆ Y = 10β0 +β1 log(X) = 10β0 .(X)β1 . (7.11) Trên đây, các mô hình (7.8)-(7.11) được trình bày cho trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập. Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn tương tự. 105
  14. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước. 7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập, yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc tính, tính chất, đặc điểm, ... nào đó của đối tượng. Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi, giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng. Như vậy, trước tiên ta cần mã hóa lại các biến định tính để có các biến nhận các giá trị số đại diện cho biến định tính trong phương trình. Có thể dùng các biến giả nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các biến định tính. Cách mã hoá bằng các biến giả như vậy khá đơn giản và có thể giúp diễn giải các hệ số ước lượng được của phương trình hồi quy một cách rất rõ ràng. Chẳng hạn, ta có thể mã hóa biến giới tính thành biến giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy Y = α 0 + α1GT + u , trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn α 0 chính bằng giá trị chi phí trung bình của nhóm khách hàng nữ, α 0 = E(Y GT = 0) . Đồng thời, hệ số dốc α1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng α 0 + α1 của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách hàng nữ, α 0 + α1 = E(Y GT = 1) . Phép kiểm định giả thuyết H 0 : α1 = 0 về sự bằng không của hệ số dốc trong mô hình này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam có ngang bằng với chi phí của nhóm khách hàng nữ hay không. 106
  15. Bài 7: Lựa chọn mô hình hồi quy ơ Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến giả D1 , D2 , D3 , D4 và D5 để mã hóa biến định tính “quốc tịch” như trong bảng sau: Quốc tịch D1 D2 D3 D4 D5 Pháp 1 0 0 0 0 Nga 0 1 0 0 0 Nhật 0 0 1 0 0 Mỹ 0 0 0 1 0 Trung Quốc 0 0 0 0 1 Việt Nam 0 0 0 0 0 Trong bảng trên, biến D1 ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến D2 ứng với nhóm khách mang quốc tịch Nga, nhận giá trị 1 đối với quan sát của khách đến từ nước Nga, nhận giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối với nhóm quan sát ứng với khách nội địa Việt Nam, tất cả các biến giả từ D1 đến D5 đều nhận giá trị bằng 0. Nhóm này được lấy làm nhóm “nền” (hay còn gọi là nhóm “chứng”), với các kết quả được lấy làm mức cơ sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy Y = β0 + β1D1 + β2 D 2 + β3 D3 + β4 D 4 + β5 D5 + u. (7.12) để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả ước lượng được của hệ số chặn β0 cho biết mức chi phí trung bình của nhóm khách nội địa β0 = E(Y D1 = D 2 = D3 = D 4 = D5 = 0) Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm khách Pháp được ước lượng bằng β0 + β1 β0 + β1 = E(Y D1 = 1) chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng bằng β1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng β0 + β2 β0 + β2 = E(Y D 2 = 1) chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng bằng β2 ; ... 107
  16. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ Các phép kiểm định H1 : β1 = 0 , H 0 : β2 = 0 , H3 : β3 = 0 , H 0 : β4 = 0 và H5 : β5 = 0 sẽ 0 2 0 4 0 lần lượt cung cấp các kết luận so sánh chi phí trung bình của từng nhóm khách phân theo quốc tịch với chi phí trung bình của nhóm khách nội địa. Chú ý: Các phép kiểm định trên chỉ so sánh chi phí trung bình của các nhóm khách nước ngoài với chi phí của nhóm “nền” (khách nội địa), chứ không so sánh được chi phí trung bình của các nhóm khách nước ngoài với nhau. 7.9. Mô hình hồi quy với một biến lượng và một biến chất Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch. Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã trình bày trên đây. Ta xét phương trình hồi quy Y = β0 + β1D1 + β2 D 2 + β3 D3 + β4 D 4 + β5 D5 + γTG + u . (7.13) Ta thấy trong mô hình này, hệ số dốc γ cho biết chi phí hàng ngày của khách du lịch, không phân biệt người khách đó đến từ nước nào. Như vậy hệ số này đại diện cho tính chất chung của tất cả các khách về mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ số còn lại thể hiện đặc thù riêng của các nhóm khách du lịch đến từ các nước khác nhau. Có thể nói mô hình (7.13) là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự báo chi phí của khách du lịch nội địa theo phương trình ˆ ˆ ˆ Y = β0 + γTG ; chi phí của khách Pháp bằng ˆ ˆ ˆ Y = (β0 + β1 ) + γTG ; ˆ chi phí của khách Nga bằng ˆ ˆ ˆ Y = (β0 + β2 ) + γTG ; ˆ chi phí của khách Nhật bằng ˆ ˆ ˆ Y = (β0 + β3 ) + γTG ; ˆ ˆ ˆ ˆ chi phí của khách Mỹ bằng: Y = (β0 + β4 ) + γTG ; ˆ ˆ ˆ ˆ chi phí của khách Trung Quốc bằng: Y = (β0 + β5 ) + γTG . ˆ 108
  17. Bài 7: Lựa chọn mô hình hồi quy ơ Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau. Y β0 + βk β0 + β1 β0 TG Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn, nên các phép kiểm định H1 : β1 = 0 , H 0 : β2 = 0 , H3 : β3 = 0 , H 0 : β4 = 0 và 0 2 0 4 H5 : β5 = 0 về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự 0 báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của nhóm khách nội địa. Nếu giả thuyết H 0 : βk = 0 được chấp nhận thì hai mô hình k ˆ ˆ ˆ ˆ ˆ ˆ Y = (β0 + βk ) + γTG và Y = β0 + γTG được coi là như nhau, chi phí của khách du lịch ˆ của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy. 7.10. Mô hình hồi quy với một biến lượng và hai biến chất Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau: Y = α 0 + α1GT + β1D1 + β2 D 2 + β3 D3 + β4 D 4 + β5 D5 + γTG + u . (7.14) Với mô hình này, hệ số dốc γ vẫn thể hiện quy luật chung về chi phí hàng ngày của khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số α1 cho biết sự khác nhau giữa khách nam và khách nữ; các hệ số β1 , β2 , β3 , β4 , β5 biểu diễn sự khác biệt về chi phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số α 0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu. Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và nữ nội địa, Y = α 0 + γTG + u (đối với nam), Y = α 0 + α1 + γTG + u (đối với nữ); 109
  18. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp, Y = (α 0 + β1 ) + γTG + u (đối với nam), Y = (α 0 + α1 + β1 ) + γTG + u (đối với nữ); ... và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người Trung Quốc, Y = (α 0 + β5 ) + γTG + u (đối với nam), Y = (α 0 + α1 + β5 ) + γTG + u (đối với nữ). Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung. Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12 mô hình trên đây. Cụ thể, phép kiểm định giả thuyết H 0 : α1 = 0 cho phép chúng ta đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định H1 : β1 = 0 ; H 0 : β2 = 0 ; H3 : β3 = 0 ; H 0 : β4 = 0 và H5 : β5 = 0 sẽ lần lượt cung cấp 0 2 0 4 0 các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn của mô hình ứng với nhóm khách nội địa). 7.11. Sử dụng biến giả trong phân tích mùa Tại các thời điểm khác nhau trong năm, có sự khác nhau về giá phòng của các khách sạn và giá các dịch vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây dựng mô hình biểu diễn được đặc điểm “mùa” của quy luật. Trong thực tế, đối với các địa phương, các mùa “cao điểm”, “thấp điểm” đối với du lịch thường kéo dài khác nhau và vào quãng thời gian khác nhau trong năm. Tuy nhiên, để tiện trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”, “Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả M1 , M 2 và M 3 để mã hóa biến “Mùa” theo bảng sau: Mùa M1 M2 M3 Xuân 1 0 0 Hạ 0 1 0 Thu 0 0 1 Đông 0 0 0 Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là TG1 = M1 *TG , TG 2 = M 2 *TG và TG 3 = M 3 *TG , từ đó xây dựng và tiến hành phân tích mô hình Y = α + γ 0 TG + γ1TG1 + γ 2 TG 2 + γ 3TG 3 + u . (7.15) 110
  19. Bài 7: Lựa chọn mô hình hồi quy ơ Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn α , chỉ khác nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành Y = α + ( γ 0 + γ1 )TG + u . Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là: Y = α + ( γ 0 + γ 2 )TG + u (mùa Hạ); (7.15b) Y = α + ( γ 0 + γ 3 )TG + u (mùa Thu) (7.15c) và Y = α + γ 0 TG + u (mùa Đông). (7.15d) Các phép kiểm định H1 : γ1 = 0 , H 0 : γ 2 = 0 và 0 2 H3 : γ 3 = 0 được thực hiện khi phân tích mô hình 0 (7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với hệ số dốc của mô hình (7.15d), cho biết chi phí hàng ngày của khách du lịch vào mỗi mùa Xuân, Hạ và Thu có khác biệt một cách có ý nghĩa thống kê so với chi phí hàng ngày của khách du lịch vào mùa Đông hay không. Chú ý: • Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả M1 , M2 và M3 nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại nhóm nền và lập các biến giả một cách thích hợp, hoàn toàn có thể tiến hành kiểm định so sánh các cặp hệ số dốc tùy ý nào đó. • Có thể kết hợp mô hình (7.15) với mô hình (7.13) hoặc (7.14) để có một mô hình diễn tả được cả quy luật chung và các quy luật riêng cho các nhóm khách du lịch và cho các mùa trong năm. Chẳng hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình Y = α0 + α1GT +β1D1 +β2 D2 +β3D3 +β4D4 +β5D5 + γ0TG + γ1TG1 + γ2TG2 + γ3TG3 + u biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách du lịch. • Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp. 111
  20. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 7.12. Hồi quy tuyến tính từng khúc Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù hợp. Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh viên sau khi ra trường phụ thuộc vào thâm niên công tác, trong đó có xét đến ảnh hưởng của chính sách điều chỉnh mức lương tối thiểu được nhà nước tiến hành hàng năm. Trong mô hình này, thu nhập Y được ấn định là biến phụ thuộc cùng với biến độc lập chính là TN (thâm niên), số liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến giả N1 , N 2 , N3 , N 4 và N5 để biểu diễn khoảng thời gian của các năm như trong bảng sau: Năm N1 N2 N3 N4 N5 2005 1 0 0 0 0 2006 0 1 0 0 0 2007 0 0 1 0 0 2008 0 0 0 1 0 2009 0 0 0 0 1 2004 0 0 0 0 0 Ta thành lập các biến định lượng mới là TN1 = N1 *TN , TN 2 = N 2 *TN , TN3 = N3 *TN , TN 4 = N 4 *TN và TN5 = N5 *TN , từ đó xây dựng và tiến hành phân tích mô hình Y = α 0 + α1 N1 + α 2 N 2 + α 3 N 3 + α 4 N 4 + α5 N 5 + + γ 0 TN + γ1TN1 + γ 2TN 2 + γ 3TN 3 + γ 4TN 4 + γ 5TN 5 + u . Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau: Y = α 0 + γ 0 TN + u (năm 2004); Y = (α 0 + α1 ) + ( γ 0 + γ1 )TN + u (năm 2005); Y = (α 0 + α 2 ) + ( γ 0 + γ 2 )TN + u (năm 2006); Y = (α 0 + α 3 ) + ( γ 0 + γ 3 )TN + u (năm 2007); Y = (α 0 + α 4 ) + ( γ 0 + γ 4 )TN + (năm 2008); Y = (α 0 + α 5 ) + ( γ 0 + γ 5 )TN + u (năm 2009). 112
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2