CHƯƠNG 4
PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN
NHỮNG CHỦ ĐỀ CHÍNH
1. Mối liên hệ giữa các hiện tượng KT-XH và phương pháp hồi quy tương quan
2. Xác định mô hình hồi quy tuyến tính đơn
3. Đánh giá cường độ của mối liên hệ và sự
4. Ước lượng giá trị trong tương lai dựa vào
phù hợp của mô hình
5. Mô hình hồi quy bội
mô hình hồi quy
1. Mối quan hệ giữa các hiện KT – XH • Phân tích hồi quy được sử dụng đầu tiên và phương pháp hồi quy tương để dự đoán quan Một mô hình thống kê được sử dụng để dự đoán giá trị của biến phụ thuộc (biến kết quả) dựa trên những giá trị của ít nhất một biến độc lập (biến nguyên nhân)
•
Phân tích tương quan được sử dụng làm thước đo độ lớn trong mối liên hệ giữa các biến định lượng.
Biểu đồ phân tán (Scatter)
(
)
• Đồ thị gồm tất cả các cặp
iX Y ,i
Y
X
Các loại mô hình hồi quy
Mối liên hệ phi tuyến
Mối liên hệ tuyến tính thuận
Không có mối liên hệ
Mối liên hệ tuyến tính nghịch
2. Xác định mô hình hồi quy tuyến tính đơn • Mối liên hệ giữa các biến là một phương
• Đường thẳng là phù hợp nhất với dữ liệu
=
b
+ b
+
X
Y i
e i
i
0
1
Y: biến phụ thuộc;
X: biến độc lập; b 0: Hệ số chặn b 1 : Hệ số góc (độ dốc của đường hồi quy)
trình đường thẳng
: Sai số mô hình
e i
Giả định
• Mối quan hệ giữa X và Y là tuyến tính
• X và Y là biến định lượng
• X không có sai số ngẫu nhiên;
• Các giá trị của Y độc lập với nhau ( ví dụ
(cid:0)
,0(
)
Ni ~ • Sai số ngẫu nhiên
Y1 không liên quan tới Y2) 2(cid:0)
Mô hình hồi quy của tổng thể chung
Y
=
b
+ b
+
(cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0)
i
Y Y i i
i
0 0
e X X i 1 i 1
Giá trị quan sát
(cid:0) i : Sai số ngẫu nhiên
(cid:0)
Y i
i
i
b 0
Xb 1
(cid:0) (cid:0) (cid:0)
X
Giá trị quan sát
EPI 809/Spring 2008
8
Tổng thể và mô hình hồi quy mẫu
Tổng thể
EPI 809/Spring 2008
9
Tổng thể và mô hình hồi quy mẫu
Tổng thể
Unknown Relationship
(cid:0)
(cid:0)
(cid:0)
X
Y i
i
i
0
1
(cid:0) (cid:0) (cid:0)
EPI 809/Spring 2008
10
Tổng thể và mô hình hồi quy mẫu
Mẫu ngẫu nhiên
Tổng thể
Unknown Relationship
(cid:0)
(cid:0)
(cid:0)
X
Y i
i
i
0
1
(cid:0) (cid:0) (cid:0)
EPI 809/Spring 2008
11
Tổng thể và hàm hồi quy mẫu
Mẫu ngẫu nhiên
Tổng thể
i
i
(cid:0) (cid:0) (cid:0) (cid:0) Y i b 0 Xb 1
Unknown Relationship
(cid:0)
(cid:0)
(cid:0)
X
Y i
i
i
0
1
(cid:0) (cid:0) (cid:0)
EPI 809/Spring 2008
12
Ước lượng mô hình hồi quy
• Mô hình được ước lượng bằng cách
– Thu thập mẫu từ tổng thể
– Tính toán các giá trị thống kê của tổng thể
mẫu. y
w
– Xác định đường thẳng đi qua tập dữ liệu
w
đường thẳng nào là tốt nhất?
w
w
w
w w w w
w
w w
w w
w
x
13
Phương pháp bình phương tối thiểu Đường hồi quy tìm được là đường thẳng (Ordinary Least Square ) sao cho tổng bình phương sai số từ điểm quan sát tới đường thẳng đó là nhỏ nhất
Phương pháp bình phương tối thiểu
(3.2 - 4)2 = 6.89
4
(2,4) w
Sum of squared differences =(2 - 1)2 +(4 - 2)2 +(1.5 - 3)2 + Sum of squared differences =(2 -2.5)2 +(4 - 2.5)2 +(1.5 - 2.5)2 +(3.2 - 2.5)2 = 3.99 Let us compare two lines The second line is horizontal
(4,3.2)
w
3 2.5 2
w
(1,2)
(3,1.5)
w
1
1
2
3
4
The smaller the sum of squared differences the better the fit of the line to the data.
15
Phương pháp bình phương tối thiểu
n
sao cho
2
e
)
min
2 i
i
i
b X 1
=
=
i
i
1
1
ỏ
th a mãn
Suy ra
1,b b 0 = � � Y b ( 0 b b , 1
2
n
C n ầ n tìm - - (cid:0)
e
(cid:0)
2 i
n
i
(cid:0) (cid:0) (cid:0)
=
2(
)( 1) 0
i
- = i
Y b 0
b X 1
= 1 b
=
i
1
1
(cid:0) - - (cid:0) (cid:0) (cid:0)
n
(cid:0)
e
2 i
n
i
=
(cid:0) (cid:0) (cid:0) (cid:0)
= X
2(
)(
) 0
i
i
i
Y b 0
b X 1
= 1 b
=
i
1
2
- - - (cid:0) (cid:0) (cid:0) (cid:0)
Ước lượng hệ số hồi quy
SS
xy
=
b 1
SS = -
b 0
1
=
Ta thu được công thức sau:
)
)
SS
X
( n XY X Y .
xy
i
2
=
2 =
- - - (cid:0)
xx Y b X ( (
) ( = X Y Y i )
X
x
SS
)
n X (
2 i
xx
x i Hàm hồi quy có dạng =
- - (cid:0)
+
ˆ Y i
i
b 0
b X 1
17
Ví dụ 1
• Giả sử cần nghiên cứu chi tiêu tiêu dùng
Y 70
65
90
95
110 115 120 140 155 150
X 80
100 120 140 160 180 200 220 240 260
– Y: Chi tiêu của hộ gia đình (USD/Tuần)
– Thu nhập của hộ gia đình (USD/Tuần)
của hộ gia đình phụ thuộc thế nào vào thu nhập của họ, người ta tiến hành điều tra, thu được một mẫu gồm 10 hộ gia đình với số liệu như sau :
Thuyết minh kết quả
Y = 24.46 + 0.509 X
Hệ số chặn: 24.46 dù không có thu nhập thì mỗi gia đình cũng phải tiêu ít nhất 24.46 usd/tuần
Độ dốc: 0.509 mỗi khi thu nhập tăng lên 10 usd thì trung bình mỗi gia đình sẽ tiêu thêm khoảng 5 usd một tuần
Ước tính bằng R
• Chúng ta muốn ước tính mối liên quan giữa việc thích mua sắm và xu hướng mua hàng ngẫu nhiên của người tiêu dùng
+
+
e
i
• Mô hình hồi quy tuyến tính = IB b 0
b ShopEnjoy 1
• R: lm(IB~ShopEnjoy)
>library(foreign)
>ibdata = read.spss("DataIBforpractice.sav", to.data.frame=T)
# Tạo biến trung gian
>ibdata$ShopEnjoy = (ibdata$Shopenjoy1+ ibdata$Shopenjoy2+ ibdata$Shopenjoy3+ ibdata$Shopenjoy4+ ibdata$Shopenjoy5+ ibdata$Shopenjoy6)/6
>ibdata$IB = (ibdata$IB1+ibdata$IB2)
>attach(ibdata)
# Phân tích hồi quy
>f = lm(IB~ShopEnjoy)
>summary (f)
Diễn giải kết quả
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.74330 0.10349 16.85 <2e-16 *** ShopEnjoy 0.34936 0.02953 11.83 <2e-16***
Mô hình mô tả tương quan giữa IB và ShopEnjoy
IB = 1.7433 + 0.34936*ShopEnjoy
Diễn giải kết quả
Residual standard error: 0.8295 on 784 degrees of freedom Multiple R-squared: 0.1515, Adjusted R-squared: 0.1504 F-statistic: 140 on 1 and 784 DF, p-value: < 2.2e-16
• Ý nghĩa của
– R square
– Adjusted R-squared
– F- test
Câu hỏi?
• Mô hình này tốt hay xấu
• Tiêu chí để định nghĩa là tốt
• Tốt có nghĩa là mô hình phản ảnh giá trị
– Giá trị tiên lượng (predicted values) gần với
giá trị quan sát (observed values)
quan sát
Kết luận về hệ số hồi quy kiểm định t
• Kiểm định t về hệ số hồi quy của tổng thể chung Có mối liên hệ tuyến
tính giữa X và Y không?
• Giả thiết “không” và giả thiết đối
H0: b1 = 0
H1: b1 ≠ 0 (or < 0,or > 0)
• Giá trị thống kê
b
b 1
1
=
t
sb
1
-
)
e
S
ˆ Y Y i i
2
=
=
b =
s
e
S
1
- (cid:0)
SS
( n
SSE n 2
2
XX
Với df = n-2 và - -
3. Đánh giá cường độ của mối liên hệ và sự phù hợp của mô hình
3. Đánh giá cường độ của mối liên hệ và sự phù hợp của mô hình
Các mức độ biến đổi
Xác định hệ số xác định
2
=
=
R
= - 1
SSR regression sum of squares SST
total sum of squares
SSE SST
2
2R Miền xác định của R(cid:0)
(cid:0)
0
1
R 1 hàm hồi quy càng phù hợp R 0 hàm hồi quy càng không phù hợp
Hệ số tương quan Thước đo cường độ của mối • Trả lời câu hỏi “Mối liên hệ tuyến tính giữa liên hệ
hai biến mạnh như thế nào”?
i
i
=
r
2
2
- - (cid:0)
(Y Y)
(X X) i
i
(X X)(Y Y) �
�
• Chứng minh được
2
R=
r
- -
tương quan mạnh
(cid:0) r(cid:0) > 0,8 :
tương quan yếu
(cid:0) r(cid:0) = 0,4 - 0,8 : tương quan trung bình (cid:0) r(cid:0) < 0,4 : (cid:0) r(cid:0) càng lớn thì tương quan giữa X và Y
1 gọi là tương quan tuyến tính thuận
r < 0 gọi là tương quan tuyến tính
càng mạnh 0 < r (cid:0) (X(cid:0) , Y(cid:0) ) -1 (cid:0)
nghịch (X(cid:0) , Y(cid:0) )
r = 0 : giữa X và Y không có mối quan hệ
tuyến tính
Kiểm định sự phù hợp của mô hình hồi quy • Sử dụng kiểm định t sự phù hợp của hệ
• Sử dụng kiểm định F: Sự phù hợp của mô
số hồi quy
2
hình (mô hình có giải thích được hiện tượng hay không):
=
F
-
R (n 2) 2 (1 R )
• Trong thực tế F>2 hàm hồi quy có ý nghĩa
-
4. Ước lượng các giá trị trong tương lai dựa vào mô hình hồi quy
• Ước lượng giá trị trung bình cho Y khi X
2
đạt giá trị cá biệt nào đó
X
)
0
+
-
t a
S . e
n
ˆ Y 0
/2,
2
( n
2
1 n
(cid:0) -
X (
-
)
X
X
i
i
= 1
(cid:0)
Ước lượng khoảng tin cậy của Y tại một giá trị cá biệt của X
2
X
)
0
-
e
t
S .
1
n
ˆ Y 0
2
( n
2
1 + + n
(cid:0) -
-
)
X (
X
X
i
i
= 1
(cid:0)
4. Ước lượng các giá trị trong tương lai dựa vào mô hình hồi quy
5. Mô hình hồi quy bội
5.1 Mô hình hồi bội
5.2 Xác định hệ số hồi quy
5.3 Xây dựng mô hình
5.1 Mô hình hồi quy bội
• Mỗi liên hệ giữa 1 biến phụ thuộc với 2
=
b
+ b
+
+
X
X
e X
+ + b ...
pi
pi
i
0
1
2
b i 1 +
=
+
i 2 + + ...
Y i ˆ Y i
i
b X pi
pi
b 0
b X 1
i 1
b X 2
2
hoặc hơn 2 biến độc lập
5.1 Mô hình hồi quy bội
Ví dụ
• Kết quả chạy mô hình
=
X
X
562.270 5.438
20.027
ˆ iY
1
2
- -
Sử dụng mô hình để dự đoán
X
X
562.270 5.438
20.027
- -
1
=
Ước lượng nhiên liệu bình quân một tháng cho mỗi hộ gia đình nếu nhiệt độ trung bình là 30 độ F và độ dày tấm cách nhiệt là 6 inches = ˆ iY
=
2 562.270 5.438.30 20.012.6 278.969
- -
Xác định hệ số xác định bội
Kiểm định mức ý nghĩa chung
• Chỉ ra có mối liên hệ giữa tất cả các biến
=
=
=
b
.....
p
• Sử dụng kiểm định F = H b : 0 1
X với Y hay không
b 0 2 (Không có mối quan hệ tuyến tính) 0
i
H b$ 1 :
(cid:0)
Có ít nhất 1 biến độc lập ảnh hưởng tới Y
F>2 Hàm hồi quy có nghĩa
Kiểm định ý nghĩa cá biệt
Ước lượng khoảng tin cậy cho độ dốc
5.3 Xây dựng mô hình
• 1. Mục đích để xây dưng mô hình với số
– Dễ dàng thuyết minh
– Xác suất cộng tuyến nhỏ hơn
• Thực hiện hồi quy từng bước
– Nhằm lựa chọn mô hình phù hợp
• Tiếp cận tập hợp con một cách tốt nhất
biến nguyên nhân ít nhất
Nghiên cứu các yếu tố ảnh hưởng đến hành vi mua hàng ngẫu hứng
>Modern = (Modern1+ Modern2+ Modern3+ Modern4+ Modern5)/5
>Trad =(Trad1 +Trad2+Trad3+Trad4+Trad5)/5
>Indiv =(Indiv1+Indiv2+Indiv3+Indiv4+Indiv5+Indiv6+Indiv7)/7
ạ ế #T o các bi n trung gian
#phân tích
>f2 = lm(IB~ShopEnjoy+Modern+Trad+Indiv+Age)
>summary(f2)
Phân tích kết quả
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.615644 0.279454 9.360 < 2e16 ***
ShopEnjoy 0.325801 0.030045 10.844 < 2e16 ***
Modern 0.125704 0.054355 2.313 0.02101 *
Trad 0.232754 0.052500 4.433 1.06e05 ***
Indiv 0.064620 0.060412 1.070 0.28511
Age 0.008635 0.003124 2.764 0.00584 **
Tóm tắt
• Các loại mô hình hồi quy
• Xác định mô hình hồi quy tuyến tính đơn
• Các mức độ biến đổi trong hồi quy tương
• Ước lượng các giá trị dự đoán
• Xác định mô hình hồi quy bối
quan

