Tạp chí Khoa học - Công nghệ Thủy sản<br />
<br />
Số 2/2015<br />
<br />
VAÁN ÑEÀ TRAO ÑOÅI<br />
<br />
GIẢI PHÁP LỰA CHỌN MÔ HÌNH HỒI QUY ĐƠN BIẾN<br />
SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL<br />
Phạm Văn Thông1<br />
Ngày nhận bài: 27/8/2014; Ngày phản biện thông qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015<br />
<br />
TÓM TẮT<br />
Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một<br />
biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc<br />
trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa<br />
đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình<br />
hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn<br />
biến phù hợp nhất cho nghiên cứu của mình.<br />
Từ khóa: Hồi quy đơn biến<br />
<br />
ABSTRACT<br />
In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a<br />
dependent variable) on another variable (an explanatory variable). Then they can estimate or predict the average value of<br />
dependent variables basing on known-value of the explanatory variables. Scientists have carried out in this way frequently;<br />
however, they have not shown scientific foundations of their univariate regression models. The author have studied and<br />
introduced 11 types of univariate regression models, and provided scientific foundations in order to help scientists and<br />
students choose the best univariate regression models in their researches .<br />
Keyword: Univariate Regression<br />
I. MỞ ĐẦU<br />
Hồi quy đơn biến là mô hình thống kê được sử dụng<br />
để dự đoán giá trị của biến phụ thuộc (dependence<br />
variable) hay còn gọi là biến kết quả dựa vào những<br />
giá trị của một biến độc lập (independence variable)<br />
hay còn gọi là biến nguyên nhân.<br />
Hiện nay, các nhà nghiên cứu, các học viên cao<br />
học… thường hồi quy theo mô hình đường thẳng<br />
(linear) mà chưa đưa ra được cơ sở lý luận khoa<br />
học để giải thích vì sao chọn mô hình đường thẳng<br />
hay bất kỳ dạng mô hình nào khác. Một số khác đưa<br />
ra dẫn chứng chưa thuyết phục như dạng mô hình<br />
này đơn giản, dễ tính toán.<br />
Bài báo này cung cấp cho các nhà nghiên cứu,<br />
các học viên cao học và độc giả nói chung cơ sở lý<br />
luận khoa học đúng đắn giải thích cho việc lựa mô<br />
hình hồi quy của mình.<br />
<br />
1<br />
<br />
II. NỘI DUNG<br />
1. Phân tích các dạng mô hình<br />
Với sự phát triển mạnh mẽ của công nghệ<br />
thông tin, việc hồi quy không cần nhiều thời gian<br />
tính toán như trước mà nó được trợ giúp bởi rất<br />
nhiều phần mềm từ đơn giản như Microsoft Excel<br />
đến phần mềm PASW Statistics 18 hay phần mềm<br />
R, phần mềm Eview, phần mềm Stata… Tuy nhiên<br />
trong bài báo này tôi muốn đề cập một số khía cạnh<br />
của hai phần mềm đơn giản và thông dụng hiện nay<br />
là Microsoft Excel 2010 và PASW Statistics 18.<br />
- Microsoft Excel 2010 là công cụ phổ thông,<br />
đơn giản trong tính toán, có hỗ trợ hồi quy đơn biến,<br />
tuy nhiên số lượng mô hình mà Excel 2010 đưa ra ít<br />
(chỉ 6 dạng mô hình). Khi hồi quy từ Excel 2010, kết<br />
quả chỏ có phương trình hồi quy với hệ số tương<br />
quan giữa biến độc lập và biến phụ thuộc mà chưa<br />
cung cấp được các chỉ số để đánh giá mô hình<br />
<br />
ThS. Phạm Văn Thông: Viện Khoa học và Công nghệ khai thác thủy sản - Trường Đại học Nha Trang<br />
<br />
194 • TRƯỜNG ĐẠI HỌC NHA TRANG<br />
<br />
Tạp chí Khoa học - Công nghệ Thủy sản<br />
<br />
Số 2/2015<br />
9. Logistic: Y = 1 / (1/u + (b0 * (b1X)) hoặc ln(1/y-1/u)=<br />
ln (b0) + (ln(b1)*X). u là giá trị giới hạn trên, nó mang<br />
giá trị dương và lớn hơn giá trị lớn nhất của biến<br />
phụ thuộc. Ví dụ giá trị lớn nhất của biến phụ thuộc<br />
là 100 thì u chọn là 101 (u=101).<br />
10. Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X)<br />
11. Exponential: Y = b0 * (e(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)<br />
Chú giải: b0 là các hằng số; b1 là hệ số hồi quy<br />
được; X là biến độc lập; Y là biến phụ thuộc.<br />
Tiêu chí đánh giá [1,2]:<br />
- Tham số R bình phương hiệu chỉnh (adjusted<br />
R square) cho biết mức độ % sự biến thiên của biến<br />
phụ thuộc được giải thích bởi biến độc lập. R bình<br />
phương hiệu chỉnh càng cao càng tốt vì biến độc lập<br />
giải thích được nhiều cho biến phụ thuộc.<br />
- Giá trị Sig (P-value) của bảng anova dùng để<br />
đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị<br />
Sig nhỏ (thường