Chöông 5 Hoài quy boäi
ñeå öôùc löôïng vaø döï baùo
(cid:132) Moâ hình hoài quy boäi (cid:132) Phöông phaùp bình phöông beù nhaát (cid:132) Heä soá xaùc ñònh boäi (cid:132) Caùc giaû ñònh cuûa moâ hình (cid:132) Kieåm ñònh yù nghóa (cid:132) Söû duïng phöông trình hoài quy öôùc löôïng
(cid:132) Bieán ñoäc laäp ñònh tính (cid:132) Phaân tích phaàn dö
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
1
Moâ hình hoài quy boäi
y = β0 + β1x1 + β2x2 + . . . + βpxp + ε
(cid:132) Moâ hình hoài quy boäi
E(y) = β0 + β1x1 + β2x2 + . . . + βpxp
(cid:132) Phöông trình hoài quy boäi
^ y = b0 + b1x1 + b2x2 + . . . + bpxp
(cid:132) Phöông trình hoài quy boäi öôùc löôïng
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
2
Quy trình ước lượng
Dữ liệu mẫu: x1 x2 . . . xp y . . . . . . . .
Mô hình hồi quy bội E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp + ε Phương trình hồi quy bội E(y) = β0 + β1x1 + β2x2 +. . .+ βpxp Các tham số không biết là β0, β1, β2, . . . , βp
+ + + + ... ...
ˆ ˆ y y
b x b x 2 2 2 2
b b 0 0
b0, b1, b2, . . . , bp đưa ra các ước lượng cho β0, β1, β2, . . . , βp
Phương trình hồi quy bội ước lượng + + = + + = b x b x b x b x 1 1 p p 1 1 p p Các số thống kê mẫu là b0, b1, b2, . . . , bp
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
3
Phöông phaùp bình phöông beù nhaát
)2 )2
min min
∑ ∑
( iy ( iy
(cid:132) Tieâu chuaån bình phöông beù nhaát ^ yi− yi−
Caùc coâng thöùc tính caùc heä soá hoài quy b0, b1, b2, . . . bp
lieân quan ñeán vieäc söû duïng ñaïi soá ma traän. Chuùng ta seõ döïa vaøo caùc goùi phaàn meàm maùy tính ñeå thöïc hieän caùc tính toaùn.
(cid:132) Tính toaùn giaù trò cuûa caùc heä soá
bi laø öôùc löôïng cuûa söï thay ñoåi trong y töông öùng vôùi
moät ñôn vò thay ñoåi trong xi khi taát caû caùc bieán ñoäc laäp khaùc ñöôïc giöõ khoâng thay ñoåi.
(cid:132) Löu yù veà vieäc giaûi thích caùc heä soá
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
4
Heä soá xaùc ñònh boäi
SST = SSR + SSE
− −
= =
− −
+ +
− −
( (
y y
y y
2 2 ) )
^ y ( ( y
y y
2 2 ) )
( (
y y
∑ ∑
∑ ∑
∑ ∑
i i
i i
2^ 2 y ) y ) i i
i i
(cid:132) Moái lieân heä giöõa SST, SSR, SSE
R 2 = SSR/SST
(cid:132) Heä soá xaùc ñònh boäi
− −
= − = − 1 1
( (
1 1
2 2 R R
) )
2 2 R R a a
− − 1 n 1 n − − − − n p n p
1 1
(cid:132) Heä soá xaùc ñònh boäi ñieàu chænh
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
5
Caùc giaû ñònh cuûa moâ hình
(cid:132) Caùc giaû ñònh veà soá haïng sai soá ε
moïi giaù trò cuûa caùc bieán ñoäc laäp. (cid:121) Caùc giaù trò cuûa ε ñoäc laäp vôùi nhau. (cid:121) Sai soá ε laø moät bieán ngaãu nhieân coù phaân phoái chuaån
phaûn aùnh ñoä leäch giöõa giaù trò y vaø giaù trò kyø voïng cuûa y ñöôïc cho bôûi β0 + β1x1 + β2x2 + . . . + βpxp
(cid:121) Sai soá ε laø moät bieán ngaãu nhieân coù trung bình baèng 0. (cid:121) Phöông sai cuûa ε, kyù hieäu baèng σ 2, laø baèng nhau vôùi
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
6
Kieåm ñònh yù nghóa: Kieåm ñònh F
H0: β1 = β2 = . . . = βp = 0 Ha: Khoâng phaûi taát caû βj = 0 (coù ít nhaát moät βj ≠ 0).
(cid:132) Caùc giaû thuyeát
F = MSR/MSE
(cid:132) Thoáng keâ kieåm ñònh
Söû duïng thoáng keâ kieåm ñònh: Baùc boû H0 neáu F > Fα
Söû duïng giaù trò p:
Baùc boû H0 neáu giaù trò p < α
trong ñoù Fαdöïa vaøo phaân phoái F vôùi p baäc töï do ôû töû soá vaø n - p - 1 baäc töï do ôû maãu soá
(cid:132) Quy taéc baùc boû
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
7
Kieåm ñònh yù nghóa: Kieåm ñònh F
Source of Sum of Degrees of Mean Variation Squares Freedom Squares F
Regression
SSR
p
= =
MSR MSR
F = F =
MSR MSR MSE MSE
Error
SSE
n - p - 1
= =
MSE MSE
SSR SSR p p SSE SSE − − − − n p n p
1 1
Total
SST
n - 1
(cid:132) Baûng ANOVA (giaû söû coù p bieán ñoäc laäp)
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
8
Kieåm ñònh yù nghóa: Kieåm ñònh t
H0: βi = 0 Ha: βi = 0
(cid:132) Caùc giaû thuyeát
= =t t
b b i i s s bi bi
(cid:132) Thoáng keâ kieåm ñònh
Söû duïng thoáng keâ kieåm ñònh: Baùc boû H0 neáu ⎜t⎟ > tα/2
Söû duïng giaù trò p:
Baùc boû H0 neáu giaù trò p < α
trong ñoù tα/2 döïa vaøo phaân phoái t vôùi n - p - 1 baäc töï do
(cid:132) Quy taéc baùc boû
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
9
Ña coäng tuyeán
töông quan giöõa caùc bieán ñoäc laäp.
(cid:132) Thuaät ngöõ ña coâng tuyeán (multicollinearity) noùi ñeán söï
x1 = b0 + b1x2
vôùi caùc soá thöïc b0 vaø b1 naøo ñoù.
(cid:132) Ví duï nhö caùc bieán x1 vaø x2 coäng tuyeán hoaøn haûo neáu
hai bieán hoaøn toaøn xaùc ñònh bieán khaùc. Khoâng coù thoâng tin môùi veà y thu ñöôïc baèng caùch theâm x2 vaøo phöông trình hoài quy ñaõ bao goàm x1 (hay ngöôïc laïi).
(cid:132) Hai bieán naøy naèm treân moät ñöôøng thaúng, vaø moät trong
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
10
Moät ví duï soá cuï theå
18 90 97
24 120 129
30 150 152
10 50 52
15 75 75
X1 X2 * X2
= =
(cid:132) Haõy xem döõ lieäu coù tính giaû thuyeát sau:
x xr x xr
1 2 1 2
(cid:132) Coù theå thaáy roõ raøng laø x2i = 5x1i. Vì vaäy coù söï coäng tuyeán hoaøn haûo giöõa x1 vaø x2 bôûi vì heä soá töông quan . 1 1
*. Tuy nhieân, hai bieán naøy töông quan chaët
=* =*
.
0,9959 0,9959
* ñöôïc taïo thaønh töø x2 ñôn giaûn baèng caùch coäng theâm caùc soá sau, nhöõng soá naøy ñöôïc laáy töø baûng soá ngaãu nhieân: 2, 0, 7, 9, 2. Baây giôø, khoâng coøn coù söï coäng tuyeán hoaøn haûo giöõa bieán x1 vaø x2 x xr bôûi vì x xr
1 2 1 2
(cid:132) Bieán x2
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
11
Haäu quaû cuûa ña coäng tuyeán
ñöôïc kyø voïng.
(cid:132) Phöông sai cuûa caùc heä soá hoài quy bò phoùng ñaïi. (cid:132) Ñoä lôùn cuûa caùc heä soá hoài quy coù theå khaùc vôùi nhöõng gì
khaùc taïo ra nhöõng thay ñoåi lôùn veà caùc heä soá.
(cid:132) Daáu cuûa caùc heä soá hoài quy coù theå khoâng nhö kyø voïng. (cid:132) Theâm vaøo hay bôùt ñi caùc bieán coäng tuyeán vôùi caùc bieán
öôùc löôïng hay daáu cuûa caùc heä soá.
(cid:132) Boû moät ñieåm döõ lieäu coù theå gaây ra nhöõng thay ñoåi lôùn veà
caùc tyû soá t thì khoâng.
(cid:132) Trong moät soá tröôøng hôïp, tyû soá F coù theå coù yù nghóa nhöng
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
12
Caùch phaùt hieän ña coäng tuyeán
kinh nghieäm laø khi |r| > 0,7.
thì möùc ñoä coäng tuyeán
(cid:132) Heä soá xaùc ñònh R 2 cao nhöng tyû soá |t| thaáp (cid:132) Heä soá töông quan giöõa caùc caëp bieán ñoäc laäp cao. Quy taéc
jR >2 >2 jR
laø khi VIFj > 10 <=> ñöôïc xem laø cao.
(cid:132) Söû duïng hoài quy phuï (cid:132) Nhaân töû phoùng ñaïi phöông sai VIF. Quy taéc kinh nghieäm 0,9 0,9
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
13
Caùch phaùt hieän ña coäng tuyeán: Nhaân töû phoùng ñaïi phöông sai
Nhaân töû phoùng ñaïi phöông sai lieân heä vôùi xh:
=
( VIF x
)
h
1 R −
2 h
1 laø giaù trò R2 nhaän ñöôïc khi hoài quy x, nhö laø bieán
hR2 2 hR
vớiù ñoäc laäp, theo caùc bieán ñoäc laäp coøn laïi.
2 Moái lieân heä giöõa VIF vaø Rh
VIF
100
50
2
Rh
0
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
1,0 0,0 0,5 14
Caùch giaûi quyeát vaán ñeà ña coäng tuyeán
ngoaøi phaïm vi ña coäng tuyeán
(cid:132) Boû moät bieán coäng tuyeán khoûi moâ hình (cid:132) Thay ñoåi keá hoaïch laáy maãu ñeå ñöa vaøo nhöõng phaàn töû
(cid:132) Bieán ñoåi caùc bieán (transformations of variables) (cid:132) Hoài quy daïng soùng (ridge regression)
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
15
Ña coäng tuyeán vaø döï baùo
(cid:132) Khi xaûy ra ña coäng tuyeán ta khoâng theå xaùc ñònh ñöôïc taùc ñoäng rieâng bieät cuûa baát cöù bieán ñoäc laäp cuï theå naøo leân bieán phuï thuoäc. Tuy nhieân, neáu phöông trình hoài quy öôùc löôïng seõ ñöôïc söû duïng chæ cho caùc muïc ñích döï baùo, thì ña coäng tuyeán thöôøng khoâng phaûi laø moät vaán ñeà quan troïng.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
16
Söû duïng phöông trình hoài quy öôùc löôïng ñeå öôùc löôïng vaø tieân ñoaùn
ñoaùn moät giaù trò caù bieät cuûa y trong hoài quy boäi töông töï vôùi caùc thuû tuïc trong hoài quy ñôn.
(cid:132) Thuû tuïc ñeå öôùc löôïng giaù trò trung bình cuûa y vaø tieân
(cid:132) Chuùng ta thay caùc giaù trò ñaõ cho cuûa x1, x2, . . . , xp vaøo phöông trình hoài quy öôùc löôïng vaø söû duïng caùc giaù trò töông öùng cuûa y laøm öôùc löôïng ñieåm.
khoaûng cho giaù trò trung bình cuûa y vaø cho moät giaù trò caù bieät cuûa y vöôït ngoaøi phaïm vi cuûa baøi giaûng naøy.
(cid:132) Caùc coâng thöùc caàn thieát ñeå xaây döïng caùc öôùc löôïng
caùc öôùc löôïng khoaûng naøy.
(cid:132) Caùc goùi phaàn meàm cho hoài quy boäi thöôøng seõ cung caáp
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
17
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
Moät coâng ty phaàn meàm ñaõ thu thaäp soá lieäu cho moät maãu goàm 20 laäp trình vieân maùy tính. Moät ñeà xuaát ñöôïc ñöa ra laø phaân tích hoài quy coù theå ñöôïc söû duïng ñeå xaùc ñònh xem tieàn löông (Salary) coù lieân heä vôùi soá naêm kinh nghieäm (Exper.) vaø soá ñieåm ñaït ñöôïc döïa treân traéc nghieäm naêng khieáu laäp trình vieân cuûa coâng ty (Score).
Soá naêm kinh nghieäm, soá ñieåm ñaït ñöôïc döïa treân traéc
nghieäm naêng khieáu vaø tieàn löông theo naêm töông öùng (1.000$) cho moät maãu goàm 20 laäp trình vieân ñöôïc cho ôû slide keá tieáp.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
18
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
Exper. 4 7 1 5 8 10 0 1 6 6
Score 78 100 86 82 86 84 75 80 83 91
Salary 24 43 23,7 34,3 35,8 38 22,2 23,1 30 33
Exper. 9 2 10 5 6 8 4 6 3 3
Score 88 73 75 81 74 87 79 94 70 89
Salary 38 26,6 36,2 31,6 29 34 30,1 33,9 28,2 30
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
19
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
Giaû söû ta tin laø tieàn löông (y) coù lieân quan vôùi soá naêm kinh nghieäm (x1) vaø soá ñieåm ñaït ñöôïc döïa treân traéc nghieäm naêng khieáu laäp trình vieân (x2) theo moâ hình hoài quy sau:
y = β0 + β1x1 + β2x2 + ε
trong ñoù
y = tieàn löông haøng naêm (000$) x1 = soá naêm kinh nghieäm x2 = soá ñieåm ñaït ñöôïc döïa treân traéc nghieäm naêng
khieáu laäp trình vieân
(cid:132) Moâ hình hoài quy boäi
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
20
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
Söû duïng giaû ñònh E(ε) = 0, ta coù
E(y) = β0 + β1x1 + β2x2
(cid:132) Moâ hình hoài quy boäi
b0, b1, b2 laø caùc öôùc löôïng theo phöông phaùp bình phöông beù nhaát cuûa β0, β1, β2 Do ñoù
^ y = b0 + b1x1 + b2x2
(cid:132) Phöông trình hoài quy öôùc löôïng
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
21
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
Nhaäp lieäu
Xuaát lieäu theo bình phöông beù nhaát
y
x1
x2
b0 = b1 = b2 = R2 =
Goùi phaàn meàm ñeå giaûi caùc baøi toaùn hoài quy boäi
v.v…
4 78 24 7 100 43 . . . . . . 3 89 30
(cid:132) Giaûi tìm caùc öôùc löôïng cuûa β0, β1, β2
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
22
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính coâng thöùc (trình baøy döõ lieäu ñöôïc nhaäp vaøo)
A
B
C
D
1 Programmer Experience (yrs) Test Score Salary ($K) 2 3 4 5 6 7 8 9
24.0 43.0 23.7 34.3 35.8 38.0 22.2 23.1
78 100 86 82 86 84 75 80
4 7 1 5 8 10 0 1
1 2 3 4 5 6 7 8
Löu yù: Caùc doøng 10-21 khoâng ñöôïc trình baøy.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
23
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
Böôùc 1 Choïn menu keùo xuoáng Tools Böôùc 2 Choïn duøng Data Analysis Böôùc 3 Choïn duøng Regression töø danh saùch Analysis
Tools
… coøn nöõa
(cid:132) Thöïc hieän phaân tích hoài quy boäi
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
24
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
Böôùc 4 Khi hoäp thoaïi Regression hieän ra:
(cid:132) Thöïc hieän phaân tích hoài quy boäi
Nhaäp D1:D21 vaøo hoäp Input Y Range Nhaäp B1:C21 vaøo hoäp Input X Range Choïn Labels Choïn Confidence Level Nhaäp 95 vaøo hoäp Confidence Level Choïn Output Range vaø nhaäp A24 vaøo hoäp Output Range Nhaép chuoät vaøo OK
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
25
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Statistics)
B
C
Regression Statistics
0.913334059 0.834179103 0.814670762 2.418762076 20
A 23 24 SUMMARY OUTPUT 25 26 27 Multiple R 28 R Square 29 Adjusted R Square 30 Standard Error 31 Observations 32
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
26
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (ANOVA Output)
B
C
D
E
F
A
df
SS
F
MS 2 500.3285 250.1643 42.76013
Significance F 2.32774E-07
5.85041
17 99.45697 19 599.7855
32 33 ANOVA 34 35 Regression 36 Residual 37 Total 38
Giaù trò Significance F ôû oâ F35 laø giaù trò p (p-value) ñöôïc duøng ñeå kieåm ñònh möùc yù nghóa toaøn boä.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
27
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Equation Output)
A
B
C
D
E
Coeffic. Std. Err. t Stat P-value 3.17394 6.15607 0.5156 0.61279 1.4039 0.19857 7.0702 1.9E-06 0.25089 0.07735 3.2433 0.00478
38 39 40 Intercept 41 Experience 42 Test Score 43
Giaù trò P (P-value) ôû oâ E41 ñöôïc duøng ñeå kieåm ñònh möùc yù nghóa rieâng cuûa Experience.
Löu yù: Caùc coät F-I khoâng ñöôïc trình baøy.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
28
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Equation Output)
A
B
C
D
E
t Stat P-value Coeffic. Std. Err. 3.17394 6.15607 0.5156 0.61279 1.4039 0.19857 7.0702 1.9E-06 0.25089 0.07735 3.2433 0.00478
38 39 40 Intercept 41 Experience 42 Test Score 43
Löu yù: Caùc coät F-I khoâng ñöôïc trình baøy.
Giaù trò P (P-value) ôû oâ E42 ñöôïc duøng ñeå kieåm ñònh möùc yù nghóa rieâng cuûa Test Score.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
29
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Phöông trình hoài quy öôùc löôïng
SALARY = 3,174 + 1,404(EXPER) + 0,2509(SCORE)
Löu yù: Tieàn löông döï baùo seõ tính theo ngaøn ñoâ la
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
30
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Equation Output)
A
B
F
G
H
I
Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0% 16.1621 3.17394 -9.814248 16.1621 1.82284 1.4039 0.984962 1.82284 0.41409 0.25089 0.087682 0.41409
-9.814248 0.984962 0.087682
38 39 40 Intercept 41 Experience 42 Test Score 43
Löu yù: Caùc coät C-E ñaõ ñöôïc giaáu ñi.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
31
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
(cid:132) Kieåm ñònh F
Ha: Moät hoaëc caû hai tham soá khoâng
baèng 0.
• Caùc giaû thuyeát H0: β1 = β2 = 0
Vôùi α= 0,05 vaø df = 2; 17: F0,05; 2; 17 = 3,59 Baùc boû H0 neáu F > 3,59.
• Quy taéc baùc boû
F = MSR/MSE = 250,16/5,85 = 42,76
• Giaù trò thoáng keâ kieåm ñònh
Ta coù theå baùc boû H0.
• Keát luaän
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
32
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân
(cid:132) Kieåm ñònh t veà yù nghóa cuûa töøng tham soá
H0: βi = 0 Ha: βi = 0
• Caùc giaû thuyeát
Vôùi α= 0,05 vaø df = 17, t0,025; 17 = 2,11
Baùc boû H0 neáu t > 2,11
3, 24 3, 24
= =
= =
7, 07 7, 07
= =
= =
0, 25089 0, 25089 0, 07735 0, 07735
• Quy taéc baùc boû
b b 2 2 s s b b 2 2
b b 1 1 s s b b 1 1
• Giaù trò thoáng keâ kieåm ñònh 1, 4039 1, 4039 0,1986 0,1986
Baùc boû H0: β1 = 0
Baùc boû H0: β2 = 0
• Keát luaän
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
33
Bieán ñoäc laäp ñònh tính
(cid:132) Trong nhieàu tình huoáng ta phaûi laøm vieäc vôùi caùc bieán ñoäc laäp ñònh tính nhö giôùi tính (nam, nöõ), phöông thöùc thanh toaùn (tieàn maët, seùc, theû tín duïng), v.v…
x2 = 1 chæ nöõ.
(cid:132) Ví duï nhö x2 coù theå laø giôùi tính trong ñoù x2 = 0 chæ nam vaø
bieán chæ baùo.
(cid:132) Trong tröôøng hôïp naøy, x2 ñöôïc goïi laø moät bieán giaû hay
bieán giaû, moãi bieán giaû ñöôïc maõ hoaù laø 0 hoaëc 1.
(cid:132) Neáu moät bieán ñònh tính coù k möùc ñoä thì ta caàn coù k - 1
(cid:132) Ví duï nhö moät bieán coù caùc möùc ñoä A, B, vaø C seõ ñöôïc bieåu thò baèng caùc giaù trò x1 vaø x2 moät caùch töông öùng laø (0, 0), (1, 0), vaø (0,1).
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
34
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
Nhö laø moät söï môû roäng cuûa vaán ñeà lieân quan ñeán khaûo
saùt tieàn löông cuûa laäp trình vieân maùy tính, giaû söû laø ban giaùm ñoác coøn tin raèng tieàn löông naêm coù quan heä vôùi vieäc laäp trình vieân coù baèng toát nghieäp ñaïi hoïc veà khoa hoïc maùy tính hay heä thoáng thoâng tin hay khoâng.
Soá naêm kinh nghieäm, ñieåm ñaït ñöôïc trong kyø thi traéc nghieäm naêng khieáu laäp trình vieân, coù baèng ñaïi hoïc coù lieân quan hay khoâng, vaø tieàn löông haøng naêm (000$) cho töøng ngöôøi trong soá 20 laäp trình vieân ñöôïc laáy maãu ñöôïc trình baøy trong slide tieáp theo.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
35
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
Exp. Score Degr. Salary
Exp. Score Degr. Salary
4 7 1 5 8 10 0 1 6 6
78 100 86 82 86 84 75 80 83 91
No Yes No Yes Yes Yes No No No Yes
24 43 23,7 34,3 35,8 38 22,2 23,1 30 33
9 2 10 5 6 8 4 6 3 3
88 73 75 81 74 87 79 94 70 89
Yes No Yes No No Yes No Yes No No
38 26,6 36,2 31,6 29 34 30,1 33,9 28,2 30
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
36
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
E(y) = β0 + β1x1 + β2x2 + β3x3
(cid:132) Phöông trình hoài quy boäi
^ y = b0 + b1x1 + b2x2 + b3x3
trong ñoù
y = tieàn löông naêm (000$) x1 = soá naêm kinh nghieäm x2 = soá ñieåm ñaït ñöôïc döïa treân traéc nghieäm naêng
khieáu laäp trình vieân
x3 = 0 neáu laäp trình vieân khoâng coù baèng ñaïi hoïc 1 neáu laäp trình vieân coù baèng ñaïi hoïc
Löu yù: x3 ñöôïc xem nhö laø moät bieán giaû.
(cid:132) Phöông trình hoài quy öôùc löôïng
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
37
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính coâng thöùc (trình baøy döõ lieäu)
A Pro- grammer 1 2 3 4 5 6 7
B Experience (years) 4 7 1 5 8 10 0
1 2 3 4 5 6 7 8
C Test Score 78 100 86 82 86 84 75
D Grad. Degree 0 1 0 1 1 1 0
E Salary ($000) 24.0 43.0 23.7 34.3 35.8 38.0 22.2
Löu yù: Caùc haøng 9-21 khoâng ñöôïc trình baøy.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
38
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Statistics)
B
C
Regression Statistics
0.920215239 0.846796085 0.818070351 2.396475101 20
A 23 24 SUMMARY OUTPUT 25 26 27 Multiple R 28 R Square 29 Adjusted R Square 30 Standard Error 31 Observations 32
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
39
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (ANOVA Output)
B
C
D
E
F
A
SS
F
df 3
MS 507.896 169.2987 29.47866
Significance F 9.41675E-07
16 91.88949 5.743093 19 599.7855
32 33 ANOVA 34 35 Regression 36 Residual 37 Total 38
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
40
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Equation Output)
E
B
C
A
D
38 t Stat P-value Coeffic. Std. Err. 39 0.2977 7.3808 1.0764 7.94485 40 Intercept 0.2976 3.8561 0.0014 41 Experience 1.14758 0.0899 2.1905 0.04364 0.19694 42 Test Score 43 Grad. Degr. 2.28042 1.98661 1.1479 0.26789
Löu yù: Caùc coät F-I khoâng ñöôïc trình baøy.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
41
Söû duïng coâng cuï Regression cuûa Excel ñeå xaây döïng phöông trình hoài quy boäi öôùc löôïng
(cid:132) Baûng tính giaù trò (Regression Equation Output)
F
B
A
G
H
I
0.19694
38 39 Coeffic. Low. 95% Up. 95% Low. 95.0% Up. 95.0% 7.94485 -7.701739 23.5914 -7.7017385 23.591436 40 Intercept 41 Experience 1.14758 0.516695 1.77847 0.51669483 1.7784686 0.00635 0.38752 0.00634964 0.3875243 42 Test Score 43 Grad. Degr. 2.28042 -1.931002 6.49185 -1.9310017 6.4918494
Löu yù: Caùc coät C-E ñaõ ñöôïc daáu ñi.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
42
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
• b1 = 1,15
Tieàn löông ñöôïc kyø voïng taêng 1.150$ cho moãi naêm kinh nghieäm taêng theâm (khi taát caû caùc bieán ñoäc laäp khaùc ñöôïc giöõ khoâng thay ñoåi)
(cid:132) Giaûi thích caùc tham soá
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
43
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
• b2 = 0,197
Tieàn löông ñöôïc kyø voïng taêng 197$ cho moãi ñieåm taêng theâm ñaït ñöôïc trong traéc nghieäm naêng khieáu laäp trình vieân (khi taát caû caùc bieán ñoäc laäp khaùc ñöôïc giöõ khoâng thay ñoåi)
(cid:132) Giaûi thích caùc tham soá
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
44
Ví duï: Khaûo saùt tieàn löông cuûa laäp trình vieân (B)
• b3 = 2,28
Tieàn löông ñöôïc kyø voïng cao hôn 2.280$ ñoái vôùi ngöôøi coù baèng ñaïi hoïc so vôùi ngöôøi khoâng coù baèng ñaïi hoïc (khi taát caû caùc bieán ñoäc laäp khaùc ñöôïc giöõ khoâng thay ñoåi)
(cid:132) Giaûi thích caùc tham soá
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
45
Phaân tích phaàn dö
ˆyˆy thoâng tin.
ˆyˆy
(cid:132) Ñoái vôùi hoài quy tuyeán tính ñôn bieåu ñoà phaàn dö döïa vaøo vaø bieåu ñoà phaàn dö döïa vaøo x cung caáp cuøng moät
(cid:132) Trong phaân tích hoài quy boäi söû duïng bieåu ñoà phaàn dö döïa vaøo ñeå quyeát ñònh xem caùc giaû ñònh cuûa moâ hình coù ñöôïc thoaû maõn khoâng thì thích hôïp hôn.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
46
Phaân tích phaàn dö
bieåu ñoà phaàn dö nhaèm muïc ñích: • Nhaän bieát caùc phaàn töû baát thöôøng (thoâng thöôøng, caùc
phaàn dö chuaån hoaù < -2 hoaëc > +2).
• Cung caáp moät söï hieåu bieát saâu saéc veà caùc giaû ñònh
raèng soá haïng sai soá ε coù phaân phoái chuaån.
(cid:132) Caùc phaàn dö chuaån hoaù thöôøng ñöôïc söû duïng trong caùc
hoài quy boäi thì quaù phöùc taïp ñeå thöïc hieän baèng tay. (cid:132) Coâng cuï Regression cuûa Excel coù theå ñöôïc söû duïng.
(cid:132) Vieäc tính toaùn caùc phaàn dö ñaõ chuaån hoaù trong phaân tích
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
47
Söû duïng Excel ñeå xaây döïng bieåu ñoà phaàn dö chuaån hoaù
(cid:132) Baûng tính giaù trò (Residual Output)
A
B
C
D
Residuals
Standard Residuals
28 29 RESIDUAL OUTPUT 30 31 Observation 32 33 34 35 36
1 2 3 4 5
Predicted Y 27.89626052 -3.89626052 37.95204323 5.047956775 26.02901122 -2.32901122 32.11201403 2.187985973 36.34250715 -0.54250715
-1.771706896 2.295406016 -1.059047572 0.994920596 -0.246688757
Löu yù: Caùc doøng 37-51 khoâng ñöôïc trình baøy.
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
48
Söû duïng Excel ñeå xaây döïng bieåu ñoà phaàn dö chuaån hoaù
Outlier
Standardized Residual Plot
3
2
1
d r a d n a t
0
S
s l a u d i s e R
0
10
20
30
40
50
-1
-2
Predicted Salary
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
49
Nghiên cứu tính hợp lý (validity) của hồi quy: Các phần tử bất thường và quan sát có ảnh hưởng
Regression line without outlier
*
Point with a large value of xi
y
y
. . .
. ..
Regression line when all data are included
.
Regression line with outlier
.
. .
.
.
. .
. .
. .
. . . .. . . . . ... .
No relationship in this cluster
x
* Outlier x
Outliers
Influential Observations
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
50
Hồi quy đa thức
Mô hình hồi quy đa thức một biến:
Y= β0+β1 X + β2X2 + β3X3 +. . . + βmXm +ε
trong đó m là the bậc của đa thức – lũy thừa cao nhất của X xuất hiện trong mô hình. Bậc của đa thức là bậc của mô hình.
Y
Y
(cid:3)y
b X
=
b +0
1
(cid:3)y
b X
=
b +0
1
2
1
2
0
2
3
(cid:3)y
b
b X
=
+
b X b X +
+
0
1
2
3
(cid:3) b X b X b y + + = ) ( b 0
<
2
X1
X1
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
51
Mô hình hồi quy bội cho tính mùa cộng tính
Muøa Thu Ñoâng Xuaân Haï
1 3497 3484 3553 3837
2 3726 3589 3742 4050
Naêm 3 3989 3870 3996 4327
4 4248 4105 4263 4544
5 4443 4307 4466 4795
h n
) g ân o l a g (
ì b g n u r t ùn a b g ên a x
øy a g n g øn a h
g ïn ô ö L
5000 4800 4600 4400 4200 4000 3800 3600 3400 3200 3000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Thôøi ñoaïn
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
52
Mô hình hồi quy bội cho tính mùa cộng tính
y
F
=
+
+
+
W + β β β β 3
t 1
2
0
S β ε + t
4
trong đó:
t = β0 = β1 = β2 = β3 = β4 = F =
W =
số thời đoạn mức độ của chuỗi thời gian độ dốc (xu hướng) của chuỗi thời gian nhân tố mùa cho mùa thu nhân tố mùa cho mùa đông nhân tố mùa cho mùa xuân biến chỉ báo cho mùa thu biến chỉ báo cho mùa đông biến chỉ báo cho mùa xuân số hạng ngẫu nhiên ở thời đoạn t
S = εt =
(cid:132) Mô hình cộng tính (bỏ qua thành phần chu kỳ) là:
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
53
Nhập liệu
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
54
Xuất liệu từ Excel
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
55
Các giai đoạn xây dựng mô hình
Đặc trưng mô hình
Ước lượng hệ số
Kiểm tra mô hình
Diễn giải và suy diễn
GV: Th.S Traàn Kim Ngoïc Ñaïi hoïc Coâng ngheä Saøi Goøn
56