Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 1
Lâm sàng thng kê
Khong tin cy 95% ca trung v
Nguyn Văn Tun
Hi: “Em đo mt biến s lâm sàng, nhưng biến s này không tuân theo lut
phân phi chun, n em phi dùng s trung v để t biến s. Em mun biết cách
tính khong tin cy 95% ca nó. Tìm trong sách giáo khoa không thy sách nào ch cách
tính này. Mong thy ch cách tính khong tin cy 95% ca s trung v.”
Đây là mt vn đề thú v! Đối vi các biến không tuân theo lut phân phi chun,
chúng ta không th s dng s trung nh độ lch chun để t biến. Thay vào đó,
chúng ta phi áp dng các phương pháp thng kê phi tham s (non-parametric statistics)
để tính. Mt trong nhng ch s để mô t trung bình ca biến là s trung v (median).
Đúng như bn đọc viết, các sách giáo khoa không t cách tính khong tin cy
95% ca s trung v. Đơn gin không công thc nào đ tính. Tuy nhiên, trong
ba thp niên tr li đây, vi s phát trin ca máy tính, mt cuc cách mng thng đã
xy ra. Phương pháp cách mng đó tên “bootstrap method” do nhà thng hc
Bradley Efron phát trin vào năm 1979. Phương pháp bootstrap đã được ng dng rng
rãi trong nhiu lĩnh vc khoa hc, đến nay có th xem mt phương pháp chun.
Trong bài này, tôi s “li dng” câu hi để gii thiu phương pháp này. phi s dng
máy tính, cho nên bn đọc cn phi biết qua mt ngôn ng thng kê, chng hn như R để
tin vic theo dõi. Chúng ta s bt đầu bng mt ví d c th.
Phương pháp ước tính s trung v
Ví d 1. S liu v ch s đau (pain index) 11 bnh nhân thp khp như sau:
0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 0.30, 0.05, và 0.25
(Chú ý ch s càng cao, độ đau càng nghiêm trng). S trung bình ca 11 bnh nhân
0.163 và độ lch chun 0.112. Vì s trung bình thp hơn 2 ln độ lch chun, chúng ta
th kết lun rng biến s này không tuân theo lut phân phi chun. Cách tính median có
th tiến hành qua hai bước đơn gin sau đây:
Bước 1: Sp xếp d liu theo th t t thp nht đến cao nht:
0.05, 0.05, 0.05, 0.05, 0.10, 0.15, 0.20, 0.25, 0.25, 0.30, 0.35
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11)
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 2
Chú ý: hàng th 2 (s trong ngoc) là s th t t thp đến cao.
Bước 2: Xác định s gia. Vì có 11 bnh nhân, s gia phi là s hàng th 6. S
hàng th 6 là 0.15 và đây chính là s trung v:
0.05, 0.05, 0.05, 0.05, 0.10, 0.15, 0.20, 0.25, 0.25, 0.30, 0.35
Phương pháp bootstrap
Vn đề y gi xác định khong tin cy 95% ca s trung v. Nói cách khác,
nếu nghiên cu được lp li 1000 ln, mi ln chn 11 đối tượng, thì khong tin cy
ca s trung v ra sao. Phương pháp bootstrap rt ích để gii quyết vn đề. Phương
pháp này được tiến hành như sau:
Bước 1: Bt đầu bng mu gc x1, x2, x3, …, xn. Trong ví d trên:
0.05, 0.05, 0.05, 0.05, 0.10, 0.15, 0.20, 0.25, 0.25, 0.30, 0.35
Bước 2: Chn ngu nhiên n cá nhân t mu gc vi qui trình ly mu có hoàn li
(replacement sample). Mi ln chn mu, tính s trung v và tm gi s này là mi.
Cn gii thích thêm đây v phương pháp ly mu có hoàn li nghĩa là mt
nhân th được hơn mt ln trong mt ln chn mu. Chng hn như t qun
th 2, 3, 4, 5, ly mu có hoàn li có nghĩa là ln chn mu th nht có th là 2, 4,
5, 2 (tc đối tượng th hai được chn hai ln); ln th hai th 4, 4, 2, 2, 5
(tc đối tượng th hai th tư được chn hai ln); ln th ba có th 2, 5, 2, 3;
v.v...
Bước 3: Lp li bước hai N ln (N thường 1000 hay 10000 hay thm chí 1 triu
– tùy theo nhu cu). Trong trường hp trên, 10 mu đầu tiên có th là:
Mu 1: 0.05 0.05 0.10 0.05 0.20 0.20 0.05 0.25 0.10 0.10 0.30 0.10
Mu 2: 0.05 0.25 0.30 0.05 0.30 0.30 0.05 0.05 0.25 0.05 0.35 0.25
Mu 3: 0.35 0.10 0.05 0.25 0.05 0.05 0.20 0.25 0.15 0.25 0.10 0.15
Mu 4: 0.05 0.05 0.10 0.25 0.15 0.05 0.20 0.05 0.10 0.25 0.05 0.10
Mu 5: 0.30 0.25 0.05 0.25 0.25 0.05 0.20 0.05 0.25 0.05 0.05 0.20
Mu 6: 0.05 0.25 0.10 0.05 0.05 0.15 0.25 0.05 0.05 0.05 0.05 0.05
Mu 7: 0.05 0.15 0.25 0.05 0.05 0.30 0.20 0.25 0.30 0.05 0.35 0.20
Mu 8: 0.05 0.05 0.20 0.05 0.10 0.05 0.05 0.10 0.20 0.10 0.05 0.05
Mu 9: 0.05 0.05 0.10 0.25 0.20 0.25 0.25 0.20 0.35 0.25 0.35 0.25
Mu 10: 0.05 0.05 0.05 0.25 0.35 0.25 0.25 0.15 0.20 0.20 0.15 0.20
v.v…
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 3
(Chú ý: s phía sau có nghĩa là s trung v cho tng mu)
Bước 4: Đến đây chúng ta có N s trung v. Sp xếp N s t thp đến cao và đánh
s: 1, 2, 3, …, N. Chn s trung v hng 2.5% 97.5% ca N s trung v,
đó chính khong tin cy 95%. Chng hn như nếu N = 1000 ln, thì khong tin
cy 95% chính là s trung v hàng th 25 và 975.
Các bước tính toán trên có th thc hin bng ngôn ng R (hay mt ngôn ng hay
phn mm nào bn đọc quen thuc) rt d dàng. Đối vi R, các s dng (và gii
thích kèm theo) như sau:
# nhp các s liu gc vào mt vector có tên là x
x <- c(0.05,0.15,0.35,0.25,0.20,0.05,0.10,0.05,0.30,0.05,0.25)
# bước 2 – xác định xem có bao nhiêu s liu trong vector x
n = length(x)
# mun ly 1000 mu t s liu gc
B = 1000
# to mt vector mi để cha s trung v
median = numeric(B)
# bt đầu ly B mu và mi mu tính toán s trung v
for (i in 1:B)
{
bs.sample <- sample(x, n, replace=T)
median[i] = median(bs.sample)
}
# ước tính khong tin cy 95%
quantile(median, probs=c(0.025, 0.975))
Chương trình trên s báo cho chúng ta biết khong tin cy 95% ca s trung v
0.05 đến 0.25.
Tóm tt
Phương pháp bootstrap có th áp dng để tính toán khong tin cy 95% (hay bt
c độ tin cy nào) cho nhiu thông s “bt thườngkhác, ch chng riêng s trung v.
Đây mt phương pháp rt hu hiu và, như đ cp trên, được đánh giá mt cuc
cách mng quan trng trong khoa hc thng kê.
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 4
phương pháp bootstrap đòi hi máy tính, do đó, người s dng phi am
hiu mt ngôn ng hay phn mm thng kê. Trong bài y, tôi s dng ngôn ng R để
thc hin phương pháp bootstrap, R mt ngôn ng tương đối d s dng nhưng rt
linh hot để tính toán các vn đề khó trong thc tế nghiên cu lâm sàng. Bn đọc mun
biết thêm v ngôn ng R có th tìm đọc cun sách “Phân tích s liu to biu đồ bng
R” ca tôi, do Nhà xut bn Khoa hc K thut phát hành đầu năm 2007. Trong đó
phn hướng dn cách chn mu như s dng trong bài viết này.
Thut ng s dng trong bài viết
Tiếng Vit Tiếng Anh
Thng kê phi tham s Non-parametric statistics
Trung v Median
Khong tin cy 95% 95% confidence interval