intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Báo cáo nghiên cứu khoa học: " CHỌN BIẾN TRONG HÀM HỒI QUI TUYẾN TÍNH BẰNG THỦ TỤC ĐƯA DẦN VÀO"

Chia sẻ: Nguyễn Phương Hà Linh Linh | Ngày: | Loại File: PDF | Số trang:6

79
lượt xem
24
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Lựa chọn những biến thích hợp để đưa vào mô hình hồi qui là rất quan trọng và có ảnh hưởng đến chất lượng phân tích. Để lựa chọn biến, chúng ta có thể thực hiện bằng nhiều thủ tục. Tuy nhiên, bài viết chỉ trình bày thủ tục đưa dần vào. Sau khi nêu cách thức thực hiện của thủ tục, bài viết minh họa thủ tục bằng ví dụ. Đồng thời bài viết trình bày cách thực hiện thủ tục này bằng phần mềm SPSS....

Chủ đề:
Lưu

Nội dung Text: Báo cáo nghiên cứu khoa học: " CHỌN BIẾN TRONG HÀM HỒI QUI TUYẾN TÍNH BẰNG THỦ TỤC ĐƯA DẦN VÀO"

  1. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 CHỌN BIẾN TRONG HÀM HỒI QUI TUYẾN TÍNH BẰNG THỦ TỤC ĐƯA DẦN VÀO LINEAR REGRESSION VARIABLE SELECTION BY MEANS OF FORWARD PROCEDURE LÊ DÂN Trường Đại học Kinh tế, Đại học Đà Nẵng TÓM TẮT Lựa chọn những biến thích hợp để đưa vào mô hình hồi qui là rất quan trọng và có ảnh hưởng đến chất lượng phân tích. Để lựa chọn biến, chúng ta có thể thực hiện bằng nhiều thủ tục. Tuy nhiên, bài viết chỉ trình bày thủ tục đưa dần vào. Sau khi nêu cách thức thực hiện của thủ tục, bài viết minh họa thủ tục bằng ví dụ. Đồng thời bài viết trình bày cách thực hiện thủ tục này bằng phần mềm SPSS. ABSTRACT It is very important to select suitable variables in regression model s that influence analysis quality. To choose variables, we can use many procedures. However, this article only represents the forward procedure. After pointing out how to adopt this procedure, the author will illustrate it through a number of examples. In addition, the article also presents how to use the procedure by means of SPSS software. 1. Giới thiệu hàm hồi qui Cho nguồn số liệu gồm n quan sát về k biến, trong đó gồm1 biến phụ thuộc (Y) và k-1 biến độc lập (Xj). Với nguồn số liệu này có thể thiết lập mô hình hồi qui như sau: Theo dạng tổng thể Yi= β1+ β2X2i+ β3X3i+ …+βkXki+ui Hay theo dạng E(Yi)= β1+ β2X2i+ β3X3i+ …+βkXki Theo dạng mẫu Yi= b1+ b2X2i+ b3X3i+ …+bkXki+ui Hay theo dạng Ŷi= b1+ b2X2i+ b3X3i+ …+bkXki Với βj là các tham số hồi qui, ui là sai số ngẫu nhiên; bj là các hệ số hồi qui được dùng để ước các tham số βj, ûi là các phần dư và được dùng để ước lượng ui. 2. Thủ tục Đưa dần vào (Forward) Hiện nay có nhiều thủ tục chọn biến trong mô hình hồi qui tuyến tính, như: thủ tục chỉ định (Enter), thủ tục đưa dần vào (Forward), thủ tục Loại dần ra (Backward), thủ tục Đưa vào-Loại ra (Stepwise). Bài viết chỉ trình bày thủ tục đưa dần vào. Trong khi chọn biến, ngoài những biến phải có trong mô hình, chúng ta nên sử dụng một số tiêu chuẩn mang tính “kỹ thuật” để tuyển chọn các biến. Trong những trường hợp này, chúng ta có thể sử dụng thủ tục đưa dần vào. Thủ tục này đưa lần lượt từng biến vào mô hình, cụ thể gồm các bước sau: Bước 1: Thực hiện k-1 mô hình hồi qui 1 biến độc lập (Biến này chưa chắc được chọn để giữ lại trong mô hình nên để thuận tiện, gọi biến này là biến đề xuất đưa vào). Tính toán các giá trị thống kê F cho k-1 mô hình hồi qui 1 biến độc lập theo công thức 102
  2. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 như sau: ESS1 F RSS1 (n  2) Trong đó, ESS1 và RSS1 tương ứng là tổng bình phương từ hàm hồi qui và tổng bình phương từ các phần dư được tính từ mô hình hồi qui có 1 biến độc lập. Cụ thể, các đại lượng này được tính như sau:   ˆ ˆ n n ESS  (Y  Y) 2 , RSS  (Y  Y ) 2 i 1 i 1 1 i 1 i i Chọn mô hình có giá trị thống kê F lớn nhất. Cho mức ý nghĩa α, kiểm định sự tồn tại của biến đề xuất đưa vào trong mô hình. Nếu F≤Fα(1, n-2): biến đề xuất đưa vào không tồn tại có ý nghĩa, thủ tục chọn biến dừng và kết luận rằng không có biến độc lập nào ảnh hưởng đến biến phụ thuộc. Nếu FC > Fα(1, n-2): biến đề xuất đưa vào tồn tại có ý nghĩa, hãy giữ lại biến này trong mô hình. Tiếp qua bước 2. Bước 2: Thực hiện (k-2) mô hình hồi qui gồm 2 biến độc lập, trong đó gồm 1 biến do được chọn từ bước 1 và 1 biến đề xuất đưa vào. Tính giá trị thống kê F cho tất cả mô hình hồi qui 2 biến này theo công thức sau: ESS 2 F RSS 2 (n  3) Trong đó, ESS2 và RSS2 tương ứng là tổng bình phương độ lệch giữa giá trị nhận từ đường hồi qui của biến phụ thuộc và giá trị bình quân của nó và tổng bình phương các phần dư được tính từ mô hình hồi qui gồm 2 biến độc lập. Cụ thể, các đại lượng này được tính như sau:   ˆ ˆ n n ESS  (Y  Y) 2 , RSS  (Y  Y ) 2 i 1 i 1 2 i 2 i i Chọn mô hình hồi qui 2 biến có giá trị F lớn nhất. Cho mức ý nghĩa α, thực hiện kiểm định sự tồn tại của biến đề xuất đưa vào bằng thống kê thống kê FC. Chúng ta tính thống kê FC như sau: (RSS1  RSS 2 ) FC  RSS 2 (n  3) Trong đó, RSS1 và RSS2 tương ứng là tổng bình phương các phần dư được tính từ mô hình hồi qui gồm 1 biến độc lập (Từ mô hình đã được chọn ở bước 1) và 2 biến độc lập. FC gọi là giá trị thống kê F thay đổi do đưa thêm biến vào mô hình. Nếu FC ≤ Fα(1, n-3): biến đề xuất để chọn không tồn tại có ý nghĩa, thủ tục chọn biến dừng và kết luận rằng chỉ có 1 biến độc lập ảnh hưởng đến biến phụ thuộc. Nếu FC > Fα(1, n-3) biến để xuất đưa vào tồn tại có ý nghĩa, hãy giữ lại biến này trong mô hình. Thủ tục tiếp tục… Bước r: Lúc này, trong mô hình sẽ có r biến, gồm r-1 biến độc lập đã được chọn và 1 biến đề xuất đưa vào. Như vậy, ở bước này chúng ta phải thực hiện (k -r) mô hình hồi qui r biến. Tính thống kê F cho mỗi mô hình theo công thức sau: 103
  3. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 ESS r F RSS r (n  r  1) Trong đó, ESSr và RSSr tương ứng là tổng bình phương độ lệch giữa giá trị nhận từ đường hồi qui của biến phụ thuộc và giá trị bình quân của nó và tổng bình phương các phần dư được tính từ mô hình hồi qui gồm r biến độc lập. Chọn mô hình nào có giá trị F lớn nhất. Cho mức ý nghĩa α, thực hiện kiểm định sự tồn tại của biến đề x uất đưa vào bằng thống kê t hay thống kê FC. Giá trị thống kê FC được tính như sau: (RSS r 1  RSS r ) FC  RSS r (n  r  1) Trong đó, RSSr-1 và RSSr tương ứng là tổng bình phương từ các phần dư được tính từ mô hình hồi qui gồm r-1 biến độc lập (Từ mô hình đã được chọn ở bước r-1) và r biến độc lập. Nếu FC ≤ F(1, n-r-1): biến đề xuất đưa vào không tồn tại có ý nghĩa, thủ tục chọn biến dừng và kết luận rằng chỉ có r-1 biến độc lập ảnh hưởng đến biến phụ thuộc. Nếu FC > F(1, n-r-1) biến để xuất đưa vào tồn tại có ý nghĩa, hãy giữ lại biến này trong mô hình. Thủ tục được tiếp tục cho đến khi không tìm được biến nào để đưa vào mô hình. Chú ý: 1. Trong khi kiểm định sự tồn tại của từng biến, thay vì so sánh giá trị tra bảng thống kê F với giá trị thống kê F đã tính được như trên, chúng ta có thể so sánh mức ý nghĩa α với giá trị P-Value. 2. Từ bước 2, để chọn mô hình phục vụ cho việc đánh giá sự tồn tại thống kê của biến đề xuất đưa vào, chúng ta tính tất cả các thống kê FC và dùng tiêu chuẩn FC lớn nhất thay vì dùng F lớn nhất. 3. Để kiểm định giả thuyết về sự tồn tại của biến đề xuất đưa vào mô hình, chúng ta có thể sử dụng tiêu chuẩn t hay tiêu chuẩn F. Giá trị thống kê F bằng bình phương giá trị thống kê t. 3. Ví dụ minh họa Chọn dữ liệu trong tệp Word95 có sẵn trong thư mục cài đặt SPSS 13.0. Trong tệp này, chúng ta dùng biến phụ thuộc lifeexpf và các biến độc lập: babymort, fertilty, lit_male, và urban. Để thuận tiện xử lý cần loại bỏ các quan sát bị thiếu dữ liệu. Bước 1: Thực hiện 4 mô hình hồi qui 1 biến độc lập Mô hình gồm 1 biến Giá trị thống kê F P-Value * 864,7205399375 0,000 1. Babymort 165,7553643368 0,000 2. Fertilty 126,4015794691 0,000 3. Lit_male 105,2790122829 0,000 4. Urban * Biến này sẽ được chọn để giữ lại trong mô hình. Trong 4 mô hình này, chúng ta chọn mô hình 4, tức chọn biến Babymort vì có 104
  4. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 giá trị thống kê F lớn. Theo giá trị P-value =0,000 chứng tỏ biến này tồn tại thống kê với mức ý nghĩa 5% Bước 2: Thực hiện 3 mô hình hồi qui 2 biến độc lập Giá trị thống kê Mô hình gồm 2 biến Giá trị thống kê F P-Value F thay đổi (1) (2) (3) (4) 1. Babymort, Fertilty 458,6413869191 5,515746186 0,02125350526899 2. Babymort, Lit_male 427,406682752 0,044765371 0,8329610287672 3. Babymort, Urban* 465,8440168769 6,777338103 0,01095577761544 * Biến này sẽ được chọn để giữ lại trong mô hình. Trong 3 mô hình này, chúng ta chọn mô hình 3, tức chọn biến Urban vì có giá trị thống kê F lớn nhất (F=465,8440168769). Chúng ta thực hiện tính toán giá trị thống kê F thay đổi (kết quả trong cột 3). Chúng ta chọn mô hình 3 vì giá trị thống kê F thay đổi của mô hình 3 lớn nhất. (FC=6,777338103). Theo giá trị P-value =0,01095577761544 chứng tỏ biến Urban tồn tại thống kê với mức ý nghĩa 5%. Bước 3: Thực hiện 2 mô hình hồi qui 3 biến độc lập Giá trị thống kê Mô hình gồm 3 biến Giá trị thống kê F P-Value F thay đổi (1) (2) (3) (4) 1. Babymort, Urban, Fertilty* 334,6256189879 6,758658787 0,01108416781192 2. Babymort, Urban, Lit_male 306,9553552241 0,04368864 0,8349587324312 * Biến này sẽ được chọn để giữ lại trong mô hình. Trong 2 mô hình này, chúng ta chọn mô hình 1, tức chọn biến Fertilty vì có giá trị thống kê F lớn nhất (F=334,6256189879). Chúng ta thực hiện tính toán giá trị thống kê F thay đổi (kết quả trong cột 3). Chúng ta chọn mô hình 1 vì giá trị thống kê F thay đổi của mô hình 1 lớn nhất. (FC=6,758658787). Theo giá trị P-value =0,01108416781192 chứng tỏ biến Fertilty tồn tại thống kê với mức ý nghĩa 5%. Bước 4: Thực hiện 1 mô hình hồi qui 4 biến độc lập Giá trị thống Mô hình gồm 4 biến Giá trị thống kê F P-Value kê F thay đổi (1) (2) (3) (4) 1. Babymort, Urban, 250,752252663 0,860541268 0,3563776235301 Fertilty, Lit_male Chúng ta thực hiện tính toán giá trị thống kê F thay đối (kết quả trong cột 3). Vì chỉ 1 mô hình nên chọn mô hình này. Theo giá trị P-value =0,3563776235301chứng tỏ biến Lit_male không tồn tại thống kê với mức ý nghĩa 5%. Vậy, chúng ta không chọn biến Lit_male. 105
  5. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 Như vậy, mô hình cuối cùng gồm các biến độc lập: Babymort, Urban, Fertilty. a Coefficients Unstandardiz ed Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 78. 742 1.659 47. 475 .000 babymort -.212 .017 -.756 -12.209 .000 urban .055 .019 .125 2.833 .006 fert ilty -.765 .294 -.134 -2. 600 .011 a. Dependent Variable: lifeexpf 4. Hướng dẫn sử dụng thủ tục đưa dần vào trong SPSS SPSS là gói phần mềm thống kê chuyên nghiệp. SPSS hỗ trợ phân tích hồi qui rất tốt. Khi xây dựng hàm hồi qui nhiều biến, SPSS có nhiều thủ tục chọn biến. Trong đó thủ tục Đưa dần vào được thực hiện như sau: Từ menu hãy chọn: Analyze Regression Linear... Hộp thoại Linear Regression sẽ xuất hiện. Khi đó hãy chọn biến phụ thuộc và các biến độc lập và chuyển vào những khoang thích hợp. Tiếp theo trong khoang Methods, hãy chọn Forward. Tiếp theo, chọn Statistics…, hộp thoại Linear Regression Statistics sẽ xuất hiện. Trong hộp thoại này, hãy chọn  R squared change. Chọn OK. Tiếp theo, chọn Options…, hộp thoại Linear Regression Options sẽ xuất hiện. Trong hộp thoại này, hãy chọn nhập những thông tin thích hợp. Trong khoang Stepping Method Criteria, hãy nhập lựa chọn một trong hai cách sau: + Nhập giá trị xác suất của F (Probability of F) cho việc chọn (Entry) hay loại (Removal) biến: Một biến đưa vào mô hình nếu mức ý nghĩa của giá trị F nhỏ hơn giá trị Entry và một biến bị loại ra nếu mức ý nghĩa lớn hơn giá trị Removal. Giá trị Entry phải nhỏ hơn Removal, và cả hai giá trị này phải dương. Để đưa nhiều biến vào trong mô hình hãy tăng giá trị Entry. Để loại nhiều biến ra khỏi mô hình, hãy nhập giá trị Removal nhỏ hơn. + Nhập giá trị của F (F Value) cho việc chọn (Entry) hay loại (Removal) biến: Một biến đưa vào mô hình nếu giá trị F của nó lớn hơn giá trị Entry và một biến bị loại ra nếu giá trị F nhỏ hơn giá trị Removal. Giá trị của Entry phải lớn hơn Removal, và cả hai giá trị này phải dương. Để đưa nhiều biến vào trong mô hình hãy nhập giá trị Entry nhỏ hơn. Để loại nhiều biến ra khỏi mô hình, hãy tăng giá trị Removal. Với số liệu ở trên, kết quả thực hiện bằng SPSS như sau: 106
  6. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(27).2008 ANOVAd Sum of Model Squares df Mean S quare F Sig. .000a 1 Regress ion 8814.893 1 8814.893 864.721 Residual 846.095 83 10. 194 Tot al 9660.988 84 .000b 2 Regress ion 8879.484 2 4439.742 465.844 Residual 781.504 82 9.531 Tot al 9660.988 84 .000c 3 Regress ion 8939.671 3 2979.890 334.626 Residual 721.317 81 8.905 Tot al 9660.988 84 a. Predictors: (Cons tant), babymort b. Predictors: (Cons tant), babymort, urban c. Predictors: (Cons tant), babymort, urban, fertilty d. Dependent V ariable: lifeexpf a Coefficients Unstandardiz ed Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 81. 528 .581 140.339 .000 babymort -.268 .009 -.955 -29.406 .000 2 (Constant) 77. 506 1.644 47. 151 .000 babymort -.243 .013 -.869 -19.102 .000 urban .052 .020 .118 2.603 .011 3 (Constant) 78. 742 1.659 47. 475 .000 babymort -.212 .017 -.756 -12.209 .000 urban .055 .019 .125 2.833 .006 fert ilty -.765 .294 -.134 -2. 600 .011 a. Dependent V ariable: lifeexpf TÀI LIỆU THAM KHẢO [1] Guijarati (1988), Basic Econometrics, Mc Graw Hill Publishing, NewYork. [2] Paul Newbold (1995), Statistics for Business& Economics, Fourth Edition, Prentice-Hall International, Inc. [3] Sabine Landau, Brian S.Everitt (2004), A handbook of Statistical Analyses Using SPSS, Chapman & Hall/CRC Press LLC. [4] Robert L.Mason, Richard F. Gunst, James L.Hess (2003), Statistical Design and Analysis of Experiments With Application to Engineering and Science, 2rd, John Wiley & Sons, Inc. [5] John O.Rawlings, Sastry G. Pantula, David A. Dicckey (1998), Applied Regression Analysis : A Research Tool, Second Edition, Springer – Verlag NewYork, Inc. 107
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2