CHƯƠNG 4

PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN

NHỮNG CHỦ ĐỀ CHÍNH

1. Mối liên hệ giữa các hiện tượng KT-XH và phương pháp hồi quy tương quan

2. Xác định mô hình hồi quy tuyến tính đơn

3. Đánh giá cường độ của mối liên hệ và sự

4. Ước lượng giá trị trong tương lai dựa vào

phù hợp của mô hình

5. Mô hình hồi quy bội

mô hình hồi quy

1. Mối quan hệ giữa các hiện KT – XH • Phân tích hồi quy được sử dụng đầu tiên và phương pháp hồi quy tương để dự đoán quan Một mô hình thống kê được sử dụng để dự đoán giá trị của biến phụ thuộc (biến kết quả) dựa trên những giá trị của ít nhất một biến độc lập (biến nguyên nhân)

Phân tích tương quan được sử dụng làm thước đo độ lớn trong mối liên hệ giữa các biến định lượng.

Biểu đồ phân tán (Scatter)

(

)

• Đồ thị gồm tất cả các cặp

iX Y ,i

Y

X

Các loại mô hình hồi quy

Mối liên hệ phi tuyến

Mối liên hệ tuyến tính thuận

Không có mối liên hệ

Mối liên hệ tuyến tính nghịch

2. Xác định mô hình hồi quy tuyến tính đơn • Mối liên hệ giữa các biến là một phương

• Đường thẳng là phù hợp nhất với dữ liệu

=

b

+ b

+

X

Y i

e i

i

0

1

Y: biến phụ thuộc;

X: biến độc lập; b 0: Hệ số chặn b 1 : Hệ số góc (độ dốc của đường hồi quy)

trình đường thẳng

: Sai số mô hình

e i

Giả định

• Mối quan hệ giữa X và Y là tuyến tính

• X và Y là biến định lượng

• X không có sai số ngẫu nhiên;

• Các giá trị của Y độc lập với nhau ( ví dụ

(cid:0)

,0(

)

Ni ~ • Sai số ngẫu nhiên

Y1 không liên quan tới Y2) 2(cid:0)

Mô hình hồi quy của tổng thể chung

Y

=

b

+ b

+

(cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0)

i

Y Y i i

i

0 0

e X X i 1 i 1

Giá trị quan sát

(cid:0) i : Sai số ngẫu nhiên

(cid:0)

Y i

i

i

b 0

Xb 1

(cid:0) (cid:0) (cid:0)

X

Giá trị quan sát

EPI 809/Spring 2008

8

Tổng thể và mô hình hồi quy mẫu

Tổng thể

 

EPI 809/Spring 2008

9

Tổng thể và mô hình hồi quy mẫu

Tổng thể

Unknown Relationship

(cid:0)

(cid:0)

(cid:0)

X

Y i

i

i

0

1

(cid:0) (cid:0) (cid:0)

 

EPI 809/Spring 2008

10

Tổng thể và mô hình hồi quy mẫu

Mẫu ngẫu nhiên

Tổng thể

Unknown Relationship

(cid:0)

(cid:0)

(cid:0)

X

Y i

i

i

0

1

(cid:0) (cid:0) (cid:0)

 

 

EPI 809/Spring 2008

11

Tổng thể và hàm hồi quy mẫu

Mẫu ngẫu nhiên

Tổng thể

i

i

(cid:0) (cid:0) (cid:0) (cid:0) Y i b 0 Xb 1

Unknown Relationship

(cid:0)

(cid:0)

(cid:0)

X

Y i

i

i

0

1

(cid:0) (cid:0) (cid:0)

 

 

EPI 809/Spring 2008

12

Ước lượng mô hình hồi quy

• Mô hình được ước lượng bằng cách

– Thu thập mẫu từ tổng thể

– Tính toán các giá trị thống kê của tổng thể

mẫu. y

w

– Xác định đường thẳng đi qua tập dữ liệu

w

đường thẳng nào là tốt nhất?

w

w

w

w w w w

w

w w

w w

w

x

13

Phương pháp bình phương tối thiểu Đường hồi quy tìm được là đường thẳng (Ordinary Least Square ) sao cho tổng bình phương sai số từ điểm quan sát tới đường thẳng đó là nhỏ nhất

Phương pháp bình phương tối thiểu

(3.2 - 4)2 = 6.89

4

(2,4) w

Sum of squared differences =(2 - 1)2 +(4 - 2)2 +(1.5 - 3)2 + Sum of squared differences =(2 -2.5)2 +(4 - 2.5)2 +(1.5 - 2.5)2 +(3.2 - 2.5)2 = 3.99 Let us compare two lines The second line is horizontal

(4,3.2)

w

3 2.5 2

w

(1,2)

(3,1.5)

w

1

1

2

3

4

The smaller the sum of squared differences the better the fit of the line to the data.

15

Phương pháp bình phương tối thiểu

n

sao cho

2

e

)

min

2 i

i

i

b X 1

=

=

i

i

1

1

th a mãn

Suy ra

1,b b 0 = � � Y b ( 0 b b , 1

2

n

C n ầ n tìm - - (cid:0)

e

(cid:0)

2 i

n

i

(cid:0) (cid:0) (cid:0)

=

2(

)( 1) 0

i

- = i

Y b 0

b X 1

= 1 b

=

i

1

1

(cid:0) - - (cid:0) (cid:0) (cid:0)

n

(cid:0)

e

2 i

n

i

=

(cid:0) (cid:0) (cid:0) (cid:0)

= X

2(

)(

) 0

i

i

i

Y b 0

b X 1

= 1 b

=

i

1

2

- - - (cid:0) (cid:0) (cid:0) (cid:0)

Ước lượng hệ số hồi quy

SS

xy

=

b 1

SS = -

b 0

1

=

Ta thu được công thức sau:

)

)

SS

X

( n XY X Y .

xy

i

2

=

2 =

- - - (cid:0)

xx Y b X ( (

) ( = X Y Y i )

X

x

SS

)

n X (

2 i

xx

x i Hàm hồi quy có dạng =

- - (cid:0)

+

ˆ Y i

i

b 0

b X 1

17

Ví dụ 1

• Giả sử cần nghiên cứu chi tiêu tiêu dùng

Y 70

65

90

95

110 115 120 140 155 150

X 80

100 120 140 160 180 200 220 240 260

– Y: Chi tiêu của hộ gia đình (USD/Tuần)

– Thu nhập của hộ gia đình (USD/Tuần)

của hộ gia đình phụ thuộc thế nào vào thu nhập của họ, người ta tiến hành điều tra, thu được một mẫu gồm 10 hộ gia đình với số liệu như sau :

Thuyết minh kết quả

Y = 24.46 + 0.509 X

Hệ số chặn: 24.46  dù không có thu nhập thì mỗi gia đình cũng phải tiêu ít nhất 24.46 usd/tuần

Độ dốc: 0.509  mỗi khi thu nhập tăng lên 10 usd thì trung bình mỗi gia đình sẽ tiêu thêm khoảng 5 usd một tuần

Ước tính bằng R

• Chúng ta muốn ước tính mối liên quan giữa việc thích mua sắm và xu hướng mua hàng ngẫu nhiên của người tiêu dùng

+

+

e

i

• Mô hình hồi quy tuyến tính = IB b 0

b ShopEnjoy 1

• R: lm(IB~ShopEnjoy)

>library(foreign)

>ibdata = read.spss("DataIBforpractice.sav", to.data.frame=T)

# Tạo biến trung gian

>ibdata$ShopEnjoy = (ibdata$Shopenjoy1+ ibdata$Shopenjoy2+ ibdata$Shopenjoy3+ ibdata$Shopenjoy4+ ibdata$Shopenjoy5+ ibdata$Shopenjoy6)/6

>ibdata$IB = (ibdata$IB1+ibdata$IB2)

>attach(ibdata)

# Phân tích hồi quy

>f = lm(IB~ShopEnjoy)

>summary (f)

Diễn giải kết quả

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.74330 0.10349 16.85 <2e-16 *** ShopEnjoy 0.34936 0.02953 11.83 <2e-16***

Mô hình mô tả tương quan giữa IB và ShopEnjoy

IB = 1.7433 + 0.34936*ShopEnjoy

Diễn giải kết quả

Residual standard error: 0.8295 on 784 degrees of freedom Multiple R-squared: 0.1515, Adjusted R-squared: 0.1504 F-statistic: 140 on 1 and 784 DF, p-value: < 2.2e-16

• Ý nghĩa của

– R square

– Adjusted R-squared

– F- test

Câu hỏi?

• Mô hình này tốt hay xấu

• Tiêu chí để định nghĩa là tốt

• Tốt có nghĩa là mô hình phản ảnh giá trị

– Giá trị tiên lượng (predicted values) gần với

giá trị quan sát (observed values)

quan sát

Kết luận về hệ số hồi quy kiểm định t

• Kiểm định t về hệ số hồi quy của tổng thể chung  Có mối liên hệ tuyến

tính giữa X và Y không?

• Giả thiết “không” và giả thiết đối

H0: b1 = 0

H1: b1 ≠ 0 (or < 0,or > 0)

• Giá trị thống kê

b

b 1

1

=

t

sb

1

-

)

e

S

ˆ Y Y i i

2

=

=

b =

s

e

S

1

- (cid:0)

SS

( n

SSE n 2

2

XX

Với df = n-2 và - -

3. Đánh giá cường độ của mối liên hệ và sự phù hợp của mô hình

3. Đánh giá cường độ của mối liên hệ và sự phù hợp của mô hình

Các mức độ biến đổi

Xác định hệ số xác định

2

=

=

R

= - 1

SSR regression sum of squares SST

total sum of squares

SSE SST

2

2R Miền xác định của R(cid:0)

(cid:0)

0

1

R  1 hàm hồi quy càng phù hợp R 0 hàm hồi quy càng không phù hợp

Hệ số tương quan Thước đo cường độ của mối • Trả lời câu hỏi “Mối liên hệ tuyến tính giữa liên hệ

hai biến mạnh như thế nào”?

i

i

=

r

2

2

- - (cid:0)

(Y Y)

(X X) i

i

(X X)(Y Y) �

• Chứng minh được

2

R=

r

- -

tương quan mạnh

(cid:0) r(cid:0) > 0,8 :

tương quan yếu

(cid:0) r(cid:0) = 0,4 - 0,8 : tương quan trung bình (cid:0) r(cid:0) < 0,4 : (cid:0) r(cid:0) càng lớn thì tương quan giữa X và Y

1 gọi là tương quan tuyến tính thuận

r < 0 gọi là tương quan tuyến tính

càng mạnh 0 < r (cid:0) (X(cid:0) , Y(cid:0) ) -1 (cid:0)

nghịch (X(cid:0) , Y(cid:0) )

r = 0 : giữa X và Y không có mối quan hệ

tuyến tính

Kiểm định sự phù hợp của mô hình hồi quy • Sử dụng kiểm định t  sự phù hợp của hệ

• Sử dụng kiểm định F: Sự phù hợp của mô

số hồi quy

2

hình (mô hình có giải thích được hiện tượng hay không):

=

F

-

R (n 2) 2 (1 R )

• Trong thực tế F>2 hàm hồi quy có ý nghĩa

-

4. Ước lượng các giá trị trong tương lai dựa vào mô hình hồi quy

• Ước lượng giá trị trung bình cho Y khi X

2

đạt giá trị cá biệt nào đó

X

)

0

+

-

t a

S . e

n

ˆ Y 0

/2,

2

( n

2

1 n

(cid:0) -

X (

-

)

X

X

i

i

= 1

(cid:0)

Ước lượng khoảng tin cậy của Y tại một giá trị cá biệt của X

2

X

)

0

-

e

t

S .

1

n

ˆ Y 0

2

( n

2

1 + + n

(cid:0) -

-

)

X (

X

X

i

i

= 1

(cid:0)

4. Ước lượng các giá trị trong tương lai dựa vào mô hình hồi quy

5. Mô hình hồi quy bội

5.1 Mô hình hồi bội

5.2 Xác định hệ số hồi quy

5.3 Xây dựng mô hình

5.1 Mô hình hồi quy bội

• Mỗi liên hệ giữa 1 biến phụ thuộc với 2

=

b

+ b

+

+

X

X

e X

+ + b ...

pi

pi

i

0

1

2

b i 1 +

=

+

i 2 + + ...

Y i ˆ Y i

i

b X pi

pi

b 0

b X 1

i 1

b X 2

2

hoặc hơn 2 biến độc lập

5.1 Mô hình hồi quy bội

Ví dụ

• Kết quả chạy mô hình

=

X

X

562.270 5.438

20.027

ˆ iY

1

2

- -

Sử dụng mô hình để dự đoán

X

X

562.270 5.438

20.027

- -

1

=

Ước lượng nhiên liệu bình quân một tháng cho mỗi hộ gia đình nếu nhiệt độ trung bình là 30 độ F và độ dày tấm cách nhiệt là 6 inches = ˆ iY

=

2 562.270 5.438.30 20.012.6 278.969

- -

Xác định hệ số xác định bội

Kiểm định mức ý nghĩa chung

• Chỉ ra có mối liên hệ giữa tất cả các biến

=

=

=

b

.....

p

• Sử dụng kiểm định F = H b : 0 1

X với Y hay không

b 0 2 (Không có mối quan hệ tuyến tính) 0

i

H b$ 1 :

(cid:0)

Có ít nhất 1 biến độc lập ảnh hưởng tới Y

F>2 Hàm hồi quy có nghĩa

Kiểm định ý nghĩa cá biệt

Ước lượng khoảng tin cậy cho độ dốc

5.3 Xây dựng mô hình

• 1. Mục đích để xây dưng mô hình với số

– Dễ dàng thuyết minh

– Xác suất cộng tuyến nhỏ hơn

• Thực hiện hồi quy từng bước

– Nhằm lựa chọn mô hình phù hợp

• Tiếp cận tập hợp con một cách tốt nhất

biến nguyên nhân ít nhất

Nghiên cứu các yếu tố ảnh hưởng đến hành vi mua hàng ngẫu hứng

>Modern =  (Modern1+ Modern2+ Modern3+ Modern4+ Modern5)/5

>Trad =(Trad1 +Trad2+Trad3+Trad4+Trad5)/5

>Indiv =(Indiv1+Indiv2+Indiv3+Indiv4+Indiv5+Indiv6+Indiv7)/7

ạ ế #T o các bi n trung gian

#phân tích

>f2 =  lm(IB~ShopEnjoy+Modern+Trad+Indiv+Age)

>summary(f2)

Phân tích kết quả

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept)  2.615644   0.279454   9.360  < 2e­16 ***

ShopEnjoy    0.325801   0.030045  10.844  < 2e­16 ***

Modern       0.125704   0.054355   2.313  0.02101 *

Trad        ­0.232754   0.052500  ­4.433 1.06e­05 ***

Indiv       ­0.064620   0.060412  ­1.070  0.28511

Age         ­0.008635   0.003124  ­2.764  0.00584 **

Tóm tắt

• Các loại mô hình hồi quy

• Xác định mô hình hồi quy tuyến tính đơn

• Các mức độ biến đổi trong hồi quy tương

• Ước lượng các giá trị dự đoán

• Xác định mô hình hồi quy bối

quan