PHÂN TÍCH PHƯƠNG SAI
(ANALYSIS OF VARIANCE/ANOVA)
I. GIỚI THIỆU
ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh số trung
bình của ≥ 3 nhóm. Kỹ thuật này chia phưong sai của 1 quan sát (observation) thành 2
phần: 1phương sai giữa các nhóm (between groups) và 2phương sai nội nhóm (within
group). Do phưong sai là độ phân tán tương đối của các quan sát so với số trung bình
nên việc phân tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc
so sánh các phương sai).
Phần này chỉ đề cập đến ANOVA một chiều (one-way ANOVA) theo đó các nhóm
được so sánh dựa trên 1 biến số (yếu tố).
II. NGUYÊN LÝ CỦA ANOVA
Thí dụ minh họa: Thời gian nằm viện của các bệnh nhân đã được tiểu phẫu không có
biến chứng được so sánh với nhau theo ba bác sĩ điều trị (A, B, C). Chọn 1 mẫu ngẫu
nhiên bao gồm 8 bệnh án cho từng bác sĩ, số liệu như sau:
Bảng 1. Thời gian nằm viện của bệnh nhân theo bác sĩ điều trị
A A2 B B2 C C2
16 5 25 16 4 4
25 3 9 25 5 5
16 3 9 25 4 5
9 3 9 16 3 4
16 3 9 36 4 6
25 3 9 36 5 6
9 4 16 16 3 4
9 5 25 25 3 5
∑A = 39 ∑A2 = 195 ∑B = 31 ∑B2 = 125 ∑C = 29 ∑C2 = 111
A
4,875
B
3,875
C
3, 625
X
4,125
Biến số (yếu tố) để so sánh chỉ độc nhất là thời gian nằm viện của bệnh nhân (tính
bằng ngày). Số liệu được phân bố với các ký hiệu như sau:
B/n của BS. A: x1A = 4, x2A = 5, …………………………….., x8A = 5
B/n của BS. B: x1B = 4, x2B = 5, …………………………….., x8B = 3
B/n của BS. C: x1C = 5, x2C = 3, …………………………….., x8C = 5
ijx :
X :
quan sát thứ i thuộc nhóm j
đại trung bình (số trung bình tính được từ 24 b/n)
,A B C :
,
số trung bình của các nhóm A, B, và C (tính từ 8 b/n của mỗi nhóm)
Chọn x2A làm mẫu:
(x2A – X ) = (5 – 4,125) = 0,875
Hiệu 0,875 có thể được tách ra làm 2:
) = (5 – 4,875) + (4,875 – 4,125) (x2A – X ) = (x2A – A ) + ( A X
Biến thiên giữa trung bình của nhóm A và đại trung bình
Biến thiên giữa 1 quan sát thuộc nhóm A và trung bình của nhóm A
Biến thiên giữa 1 quan sát thuộc nhóm A và đại trung bình
= (0,125) + (0,750) = 0,875
ANOVA xem xét biến thiên của tất cả các quan sát với số đại trung bình và phân
chúng ra làm 2: biến thiên nội nhóm và biến thiên giữa các nhóm. Nếu số trung bình
của các nhóm khác nhau nhiều thì sự biến thiên giữa chúng và đại trung bình (biến
thiên giữa các nhóm) sẽ đáng kể hơn so với các biến thiên giữa các quan sát trong 1
nhóm với trung bình của nhóm (biến thiên nội nhóm). Nếu số trung bình của các
nhóm không khác nhau nhiều thì biến thiên giữa các nhóm sẽ không lớn hơn so với
biến thiên nội nhóm. Phép kiểm định giả thuyết về 2 phương sai, F test, có thể được sử
dụng để kiểm định tỉ số phương sai giữa các nhóm và phương sai nội nhóm. Giả
thuyết trống của F test cho rằng 2 phương sai này bằng nhau; nếu H0 đúng thì có nghĩa
là biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm. Trong tình
huống này, không thể kết luận là các trung bình khác lẫn nhau (không có 1 cặp trung
bình nào khác nhau). Ngược lại, nếu từ chối được H0 thì kết luận được là không phải
tất cả các trung bình đều bằng nhau (có ít nhất 1 cặp trung bình khác nhau).
III. CÁCH TÍNH TRONG ANOVA
+ Tính phương sai giữa các số trung bình nhóm so với đại trung bình:
Tổng bình phương giữa các nhóm (Sum of Squares Between–SSB)
2
j
X
)
═
Ước lượng phương sai giữa các nhóm
jn x ( j
1
SSB 1 j
Trung bình bình phương giữa các nhóm (Mean square between groups – MSB)
+ Tính phương sai giữa các quan sát trong từng nhóm so với số trung bình của
nhóm:
Tổng bình phương nội nhóm (Sum of Squares Within – SSW)
Ước lượng phương sai nội nhóm
(
n
1 )
s
2 j
═
(
1 )
j n
S S W N
j
j
Trung bình bình phương nội nhóm (Mean square within groups – MSW)
MSB MSW
+ Lập tỉ số phương sai (VR = F ratio): V.R =
IV. PHÉP KIỂM ANOVA
Với thí dụ minh họa trên: Thời gian nằm viện của b/n theo các bác sĩ A, B, C có khác
nhau?
1/ Số liệu: bao gồm 1 biến số liên tục (như đã cho)
2/ Giả định: + Thời gian nằm viện (theo 3 BS) phân phối bình thường.
+ Phương sai của các dân số (thời gian nằm viện theo A, B, C) bằng nhau
+ Các mẫu được rút ngẫu nhiên và độc lập.
3/ Giả thuyết:
H0: µA = µB = µC HA: Có ít nhất 1 cặp µ khác nhau
(µA ≠ µB hoặc µB ≠ µC hoặc µA ≠ µC)
α = 0,05
j – 1 df
4/ Số TKKĐ:
N– j df
MSB MSW
V.R = với
5/ PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù phaân phoái F vôùi (3 – 1)
ñoä töï do töû
soá vaø (24 – 3) ñoä töï do maãu soá.
6/ Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa F (tra baûng) baèng
3,47. Töø choái
H0 neáu V.R. 3,47.
MSB MSW
2
j
X
)
MSB
7/ Tính số TKKĐ : V.R =
SSB j 1
jn x ( j
1
2 [8(4,875 4,125) ]
2 [8(3, 625 4,125) ]
MSB
3, 5
2 [8(3,875 4,125) ] 3 1
4,5 0,5 2, 0 2
(
n
1 )
s
2 j
M S W
Tính
(
1 )
j n
S S W N
j
j
2
2
2
[ ( 8
1 ) 0 , 8 3 4 5 ]
[ ( 8
[ ( 8
1 ) 0 , 9 1 6 1 ]
M S W
1) 0 , 8 3 4 5 ] 3 2 4
Tính
MSW
0, 74
4,875 4,875 5,875 21
4, 73
3, 5 0, 74
V.R =
8/ Quyết định thống kê: Từ chối H0 vì V.R = 4,73 >3,47
9/ Kết luận: Có ít nhất 1 cặp µ khác nhau. p = 0,021
Cách trình bày kết quả ANOVA
Bảng 2. Kết quả so sánh thời gian nằm viện trung bình của b/n thuộc các BS điều trị
A, B, C
Tổng bình Độ tự Trung bình F Giá
phương (Sum of do bình phương (V.R) trị
Squares) (df) (Mean p
square)
Giữa các nhóm 7,000 2 3,500 4,704 0,021
(Between
groups)
Nội nhóm 15,625 21 0,744
(Within groups)
Tổng 22,625 23
(Total)
V. KỸ THUẬT HẬU KIỂM (Post hoc procedures)
Kết quả của ANOVA không cho biết cặp nào của µ khác nhau. Việc tiến hành
các kỹ thuật hậu kiểm sẽ giúp kết luận về việc này. Phần này sẽ giới thiệu 2 phép hậu
kiểm: Tukey’s HSD test (Honestly Significant Difference) sử dụng cho trường hợp
các mẫu bằng nhau, và Scheffé test sử dụng cho trường hợp các mẫu không bằng
nhau.
1/ Tukey’s HSD test
HSD Multiplier
q a (
)
Số TKKĐ của HSD:
MSW n
MSW: Trung bình bình phương giữa các nhóm
a: số lượng số trung bình cần so sánh
q: df của MSW
Tính số TKKĐ:
+ Với 3 số trung bình cần so sánh và 21 df (của SMW) ở ngưỡng α = 0,05, tra
bảng để có multiplier (bội số) là khoảng 3,55;
+ MSW = 0,74;
HSD
3,55
1, 08
0, 74 8
+ n = 8
Hiệu giữa 2 số trung bình ít nhất phải bằng 1,08 thì mới được xem là có sự khác biệt
có ý nghĩa thống kê (ở ngưỡng 0,05).
A B
4,875 3,875 1, 000
B C
3,875 3, 625 0, 250
Như vậy: µA = µB
A C
4,875 3, 625 1, 250
µB = µC
µA ≠ µC
Kết luận: Thời gian nằm viện trung bình của b/n thuộc BS. A khác có ý nghĩa thống
kê với
thời gian nằm viện trung bình của b/n thuộc BS. C.
2/ Scheffé test
2
F
) 2 ) /
X ( 1 MSW n ( 1
X n 2
n n 1 2
2
F
5, 41
Số TKKĐ:
(4,875 3,875) 0, 74(8 8) / 64
2
F
0,34
Với A và B :
(3,875 3, 625) 0, 74(8 8) / 64
2
F
8, 45
Với B và C :
(4,875 3, 625) 0, 74(8 8) / 64
Với A và C :
Giá trị tới hạn của F được tính bằng cách lấy số nhóm trừ 1 (3-1) rồi nhân cho giá trị
tới hạn của F đã tính được trong phép kiểm ANOVA (4,73).
F (tới hạn) = 2 x 3,47 = 6,94
Sự khác biệt giữa 2 số trung bình được xem là có ý nghĩa thống kê khi F tính được lớn
hơn 6,94. Như vậy chỉ có cặp A và C thỏa điều kiện này. Kết luận tương tự như kết
luận trong Tukey’s HSD test.
--------------------------------------------------------------------------------------------------------
-----------------------------------------