Chng trình hun luyn y khoa – YKHOA.NET Training – Nguyn Vn Tun 1
Lâm sàng thng kê
Kim nh t và hoán chuyn s liu
Hi: Tôi nghe nói rng khi ánh giá s khác bit gia hai nhóm bng t-test cn
phi chuyn i s liu. Ti sao?
 ánh giá  khác bit gia hai nhóm, chúng ta thưng s dng phương pháp
kim nh t (hay t-test). Kim nh t l mt trong nhng phương pháp ơn gin
nht trong thng hc, th tính toán mt cách th công, không cn n y
tính hay phn mm phân tích s liu (nhưng nu có thì tt hơn!)
Tuy ơn gin, nhưng phương pháp kim nh t cng rt d sai lm. Sai lm thông
thưng nht không  ý n nhng gi nh ng sau phương pháp y. Phương pháp
kim nh t ch thích hp nu s liu áp ng nhng iu kin hay gi nh sau ây:
Hai nhóm so sánh phi hoàn toàn c lp nhau;
Bin so sánh phi tuân theo lut phân phi chun (Gaussian distribution);
Phương sai ca hai nhóm bng nhau, hay gn bng nhau; và
Các i tưng phi ưc chn mt cách ngu nhiên (random sample).
Th nào c lp”? Khi nói n c lp ây nói n hai nhóm không có
tương quan nhau. Ch!ng h"n như mt nhóm 1 g#m bnh nhân A, B, C D; nhóm 2
g#m bnh nhân E, F, G H, thì hai nhóm này c lp nhau. Nhưng nu mt nhóm
bnh nhân o hai ln, thì hai bin s ca hai ln o ó không c lp v$i nhau. c
lp cng ngh%a không liên h nhau. Ch!ng h"n như nu 2 bnh nhân trong nhóm 1
(A và C) có liên h huyt thng, và nu bin mà chúng ta phân tích yu t di truyn thì
o lưng ca hai bnh nhân không ưc xem là c lp.
1. Lí thuyt ca kim nh t
Cho hai qun th c lp 1 2, v$i ch s trung bình
1
µ
2
µ
, phương sai
2
σ
. Chúng ta mun ánh giá  khác bit gia hai qun th. Nhưng chúng ta không bit
các giá tr này.
 tìm hiu xem
1
µ
2
µ
khác nhau hay không, chúng ta ly mu t& hai
qun th ó. Gi s chúng ta ly ngu nhiên
1
i tưng t& qun th 1, và
2
n
i tưng
t& qun th 2. Sau khi o lưng bin s, chúng ta có kt qu như sau:
Chng trình hun luyn y khoa – YKHOA.NET Training – Nguyn Vn Tun 2
Nhóm 1 Nhóm 2
S i tưng
1
2
n
Trung bình
1
x
2
x
Phương sai
2
1
s
2
2
s
 lch chun
1
s
2
s
Xin nh'c l"i, chúng ta mun m hiu  khác bit gia hai qun th (ch không
phi gia hai nhóm mu). Mc ích này có th phát biu bng hai gi thuyt như sau:
Gi thuyt vô hiu Ho:
1 2
µ µ
=
Gi thuyt chính H1:
1 2
µ µ
Gi
=
1
µ
(
2
µ
, hai gi thuyt trên cng có th phát biu như sau:
Ho: = 0
H1: ) 0
Trong iu kin không bit các gtr ca qun th
1
µ
2
µ
, ư$c s thích hp nht
qun th chính hai s trung bình
1
x
2
x
tính t& mu 1 mu 2. Và, ư$c tính 
khác bit chính là  khác bit gia hai s trung bình:
d =
1
x
(
2
x
[1]
Nhưng ly mu, cho nên d th bin thiên t& mu này sang mu khác, vn
tìm phương sai ca d. thuyt xác sut cho chúng ta bit rng phương sai ca khác bit
gia hai bin bng t*ng phương sai ca hai bin tr& cho 2 ln hip bin, tc là:
var(a – b) = var(a) + var(b) – 2×cov(a,b)
Trong ó, “var” là vit t't ca variance (phương sai), và “covar” là vit t't ca covariance
(hip bin). Hip bin phn nh  tương quan gia hai bin. Nhưng nu hai bin hoàn
toàn c lp, thì hip bin s là 0, và công thc trên ơn gin thành:
var(a – b) = var(a) + var(b)
Chng trình hun luyn y khoa – YKHOA.NET Training – Nguyn Vn Tun 3
Áp dng công thc y, chúng ta th ư$c tính phương sai cho d trong [1] như sau
(Tôi s kí hiu phương sai bng s bình phương):
2
2
2
1
2sssd+= [2]
T& ó,  lch chun ca d là:
2
2
2
1sssd+= [3]
Nhưng vì nhng ư$c s u d+a vào s c, mu, cho nên chúng ta phiiu chnh” bng
cách chia phương sai cho s c, mu:
2
2
2
1
2
1
n
s
n
s
SEd+= [4]
Nu phương sai ca hai nhóm bng nhau (tc
2 2 2
1 2
sss
= =
), phương trình [4] ơn gin
thành:
1 2
1 1
d
SE s
n n
= + [5]
Kim nh t ơn gin là t s ca d trên SEd, hay c th hơn:
2
2
2
1
2
1
n
s
n
s
d
t
+
= [6]
th xem công thc [5] như t s ca “tín hiu” (signal) “nhiu” (SEd).
Tht vy, d phn nh  khác bit gia hai nhóm, SEd phn nh nhiu ca d.
Thành ra, nu t s t cao, chúng ta bng chng  nói tín hiu nhiu hơn nhiu (tc
ý ngh%a thng kê); nu t s t thp dư$i 1 ch!ng h"n, chúng ta có bng chng  phát biu
tín hiu thp hơn nhiu và do ó  khác bit không có ý ngh%a thng kê.
Nhưng “cao” là cao bao nhiêu  có th nói là có ý ngh%a thng kê?  tr li câu
hi này, chúng ta quay tr v v$i gi thuyt. Nu gi thuyt hiu Ho s+ tht (tc
không có khác bit gia 2 qun th), thì s+ phân phi ngu nhiên ca t như th nào. May
m'n thay, ã nhà thng hc tr li câu hi này: ó ông William Gossett, ngưi
phát kin kim nh t. Theo chng minh ca Gossett, nu hai qun th không khác nhau,
thì giá tr ca t tùy thuc vào s c, mu (hay nói theo ngôn ng thng kê hc là bc t do
– degrees of freedom). S bc t+ do (kí hiu) ưc tính bng công thc sau ây:
Chng trình hun luyn y khoa – YKHOA.NET Training – Nguyn Vn Tun 4
df =
1
+
2
n
( 2
Bng 1 sau ây trình bày t s t cho t&ng bc t+ do khong xác sut t s t th
dao ng ngu nhiên:
Bng 1. T s t cho tng bc t do nu gi thuyt vô hiu Ho úng
Bc t do (df) Xác sut 95% t s t s
dao ng trong khong
Xác sut 99% t s t s
dao ng trong khong
5 -2.57 n 2.57 -4.03 n 4.03
10 -2.23 n 2.23 -3.17 n 3.17
14 -2.14 n 2.14 -2.98 n 2.98
16 -2.12 n 2.12 -2.92 n 2.92
18 -2.10 n 2.10 -2.88 n 2.88
20 -2.08 n 2.08 -2.84 n 2.84
24 -2.06 n 2.06 -2.80 n 2.80
30 -2.04 n 2.04 -2.75 n 2.75
34 -2.03 n 2.03 -2.73 n 2.73
40 -2.02 n 2.02 -2.70 n 2.70
50 -2.01 n 2.01 -2.68 n 2.68
60 -2.00 n 2.00 -2.66 n 2.66
70 -2.00 n 2.00 -2.65 n 2.65
80 -2.00 n 2.00 -2.64 n 2.64
90 -1.99 n 1.99 -2.64 n 2.64
100 -1.98 n 1.98 -2.62 n 2.62
500 -1.96 n 1.96 -2.58 n 2.58
1000 -1.96 n 1.96 -2.58 n 2.58
Do ó, nu t s t tính toán t& công thc [6] nm ngoài khong tin cy trên ây, chúng ta
có th nói rng  khác bit gia hai qun th có ý ngh%a thng kê (thut ng ting Anh là
“statistically significant”).
2. Kim nh t vi bin c hoán chuyn logarít
d 1. Mt nghiên cu nhm so sánh n#ng  lysozyme gia hai nhóm bnh
nhân (t"m gi nhóm 1 nhóm 2). Nhóm 1 g#m 29 bnh nhân, nhóm 2 g#m 30
bnh nhân, tu*i t& 20 n 60. N#ng  lysozyme (mg/L) như sau th tóm lưc
trong Bng 2:
Chng trình hun luyn y khoa – YKHOA.NET Training – Nguyn Vn Tun 5
Nhóm 1: 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8, 4.5, 4.8, 4.9, 5.0, 5.3,
7.5, 9.8, 10.4, 10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7, 24.0, 25.4,
40.0, 42.2, 50.0, 60.0
Nhóm 2: 0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0, 2.4, 2.5, 2.8, 3.6,
4.8, 4.8, 5.4, 5.7, 5.8, 7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,
16.7, 20.0, 20.7, 33.0
Bng 2. Nng  lysozyme bnh nhân nhóm 1 và nhóm 2
Nhóm 1 Nhóm 2
S i tưng
1
= 29
2
n
= 30
Trung bình
1
x
= 14.31
2
x
= 7.68
Phương sai
2
1
s
= 247.8
2
2
s
= 61.6
 lch chun
1
s
= 15.7
2
s
= 7.8
Áp dng công thc [6], chúng ta có t s t như sau:
2
2
2
1
2
1
n
s
n
s
d
t
+
= =
14.31 7.68
14.31 7.68
29 30
+
= 2.03
V$i bc t+ do df = 29+30-2 = 57, nu hai nhóm không khác nhau, chúng ta vng
rng t s t dao ng t& -2.00 n 2.00 (theo Bng 1). Nhưng t s t quan sát ưc nm
ngoài khong tin cy này, nên chúng ta th phát biu rng  lysozyme ca hai nhóm
khác nhau.
Nhưng kt qu và kt lun trên th sai! Nhìn qua tóm t't trình y trong Bng
2, chúng ta chú ý phương sai ca nhóm 1 cao gp 4 ln so v$i nhóm 1. Ngoài ra, phương
sai xu hư$ng bin thiên theo s trung bình: nhóm s trung bình cao cng nhóm
có phương sai cao.  lch chun ca nhóm 1 cao hơn nhóm 2 gp hai ln.
Chúng ta cng chú ý rng  lch chun ca hai nhóm cao hơn s trung bình.
iu này hàm ý cho bit s liu lysozyme không tuân theo lut phân phi chun, phân
tích trên ã vi ph"m gi nh thng kê. Chúng ta th xem qua phân phi ca lysozyme
trong nhóm 1 và nhóm 2 như sau: