Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 1
Lâm sàng thng kê
Chn biến trong phân tích hi qui logistic:
mt sai lm ph biến
Nguyn Văn Tun
Hi: “Trong mt bài viết trước đây, Thy viết rng cách chn biến cho mt
hình hi qui logistic đa biến t các phân tích đơn biến sai lm. Xin Thy gii thích
thêm ti sao?”
Mt nghiên cu y hc tiêu biu thường đo lường nhiu yếu t lâm sàng để nhm
tiên lượng mt biến c nào đó, chng hn như t vong, gãy xương, đái tháo đường, v.v...
Ly d mt nghiên cu v nguy cơ t vong, nhà nghiên cu th thu thp các thông
tin như độ tui, chiu cao, cân nng, tin s bnh tt, li sng, hay th đo lường các
hormone, các ch s sinh hóa, v.v… (s gt tt là “biến” hay variable) câu hi đặt ra
trong nhng biến y, biến nào liên quan đến t vong. Đây mt vn đề không đơn
gin, và câu tr li thường phi da vào kết qu phân tích thng kê và kiến thc sinh hc.
Mt hình th tiên đoán rt chính xác, nhưng hoàn toàn dng không ý
nghĩa lâm sàng hay sinh hc; ngược li, mt hình ý nghĩa lâm sàng nhưng không
phù hp vi các gi định thng kê cũng ch là mt trò chơi con s!
Mt trong nhng khó khăn th nói vn đề nan gii trong các nghiên cu
đa biến các biến tiên lượng (predictor variables) thường mi liên quan sinh hc vi
nhau. Chng hn như chiu cao cân nng liên quan vi nhau, hay các ch s sinh
hóa biến chuyn theo tng độ tui. Và, nhng mi tương quan này làm cho vn đề chn
mô hình thêm rc ri, nht là trong điu kin nghiên cu da vào mt mu.
Vn đề chn mô hình
Để bn đọc hiu vn đề, tôi s ly mt d đơn gin: mt nghiên cu lâm
sàng nhm mc đích phát trin mt hình để tiên lượng nguy cơ t vong (hay “kh
năng sng sót” cho “tích cc” hơn) các bnh nhân cp cu (ICU) da vào các ch s
lâm sàng thu thp được t lúc bnh nhân nhp vin. Tiêu chí lâm sàng t l bnh nhân
sng sót sau 30 ngày xut vin (và để tiết kim ch nghĩa, gi biến y Y). Các biến
thu thp lúc nhp vin gm độ tui, cân nng, và khong 8 ch s sinh hóa khác (gi tt là
x1, x2, x3, …., x10). Để tiên lượng kh năng sng sót chúng ta có rt nhiu mô hình kh dĩ,
chng hn như:
Y = b0 + b1×x1 + e
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 2
Y = b0 + b1×x1 + b2×x2 + e
Y = b0 + b1×x1 + b2×x2 + b3×x3 + e
Y = b0 + b1×x1 + b2×x2 + b6×x6 + e
v.v…
trong đó, b0, b1, b3, v.v… nhng thông s liên quan đến tng biến cn ước tính, e
là phn ngu nhiên ca hình. Tht ra, các hình trên đây còn đơn gin, chúng ta
chưa xem xét đến các nh hưởng tương tác, nh hưởng phi tuyến tính, v.v… th nói
không ngoa rng, vi 10 biến s, con s hình kh dĩ th lên đến hàng trăm ngàn,
thm chí bt tn. Nhưng trong nhng hình y, hình nào th tiên lượng
chính xác nht và đơn gin nht?
Đây mt câu hi đã làm tn biết bao công sc ca nhiu nhà khoa hc thng
kê, nhà toán hc và biết bao giy mc để tr li, nhưng cho đến nay vn đ vn chưa n
ngũ. Rt nhiu phương pháp đã được phát trin, nhưng chưa mt phương pháp nào
hoàn chnh. Rt nhiu nhà thng hc toán hc mun gii quyết vn đề, đôi khi
h cũng phát trin mt vài phương pháp, nhưng rt tiếc là các phương pháp y khi áp
dng vào môi trường y hc thì rt vô nghĩa, vô duyên, và không th s dng được. Tôi s
không bàn chi tiết ti sao vn đề vn chưa nngũ (tôi s quay li ch đ y trong mt
bài viết khác), ch nhân cơ hi này để bàn v mt sai lm ph biến trong vic đi tìm
mt mô hình tiên lượng.
Mt sai lm ph biến
Đọc mt bài báo khoa hc trên mt tp san y hc trong nước trước đây, tôi các
thy tác gi viết: Các biến liên quan vi t vong trong phân tích đơn biến vi mc ý
nghĩa p<0.05 s được đưa vào phân tích hi qui đa biến logistic”. Nói cách khác, các tác
gi tiến hành phân tích hai giai đon:
Giai đon 1, phân tích tng biến mt lưu ý các biến ý nghĩa thng (tc p
< 0.05);
Giai đon 2, cho tt c các biến ý nghĩa thng kê trong giai đon 1 vào mt
hình đa biến.
Đây mt sai lm rt “vô tưkhá ph biến trong y văn, không ch nước ta
mà còn rt ph biến c nước Tây phương. Thm chí, theo kinh nghim ca người viết
bài này, các nhà thng chuyên nghip cũng sai! Sai lm này không hn do tác gi
c ý, nhưng do hiu lm (hay chưa thông hiu) cơ chế ca các mô hình thng kê.
Vn đề chính ca cách chn hình theo hai giai đọan trên khi phân tích tng
biến mt (giai đon 1), hình hi qui logistic không xem xét đến nh hưởng ca các
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 3
biến khác cùng mt lúc. Chng hn như nếu biến x1 x2 tương quan vi nhau, thì
phân tích giai đon 1 th chn c hai biến, nhưng trong hình đa biến (giai đon 2),
th ch có x1 ý nghĩa thng kê, còn x2 thì không (hay ngược li), bi thông tin
ca biến này đã hàm cha trong thông tin ca biến kia (do hai biến có liên quan nhau).
Mt vn đế khác, tinh vi hơn “tế nhhơn, nh hưởng ca mt biến trung
gian, rt khó hay không th kim soát trong giai đon 1. (Tôi s bàn qua v vn đề nh
hưởng ca biến trung gian trong mt bài khác). Trong trường hp này, có th hai biến
th hai biến x1 x5 (chng hn) trong thc tế đều có nh hưởng đến Y, nhưng nh hưởng
này ch tn ti khi chúng xut hin bên nhau (cng hưởng); do đó, khi phân tích riêng l,
chúng ta không phát hin được nh hưởng ca chúng, do đó phân tích đơn gin trong
giai đon 1 có th b qua c hai biến!
d 1: Gii, th dc, t vong. Mt nghiên cu (mô phng) mt thi đim
(cross-sectional study) nhm đánh gi mi liên h ca gii nguy cơ t vong bnh
nhi máu cơ tim. Các nhà nghiên cu còn thu thp thông tin liên quan đến thói quen tp
th dc vn động cơ th tng đối tượng. Kết qu nghiên cu th tóm lược như
sau:
Bng 1. S đối tượng t vong và còn sng chia theo gii và thói quen tp th dc
Biến T vong Sng Odds ratio và tr s P
Gii
N
Nam
113
94
2000
2000
OR = 1.21
p = 0.176
Tp th dc
Không
164
43
2000
2000
OR = 4.06
p = 0.0001
Trong nghiên cu trên, nếu chúng ta áp dng phương pháp phân tích hi qui logistic cho
tng biến riêng l, chúng ta s có:
OR (odds ratio) cho n là 1.21 vi tr s p = 0.176, tc không ý nghĩa thng
kê.
OR cho nhóm không thường xuyên tp th dc 4.06 vi p = 0.0001, tc ý
nghĩa thng kê.
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 4
Như vy, nếu da vào phân tích này, chúng ta ch chn biến tp th dc vào mô hình đa
biến. Nhưng kết qu này th sai. Quay li vi s liu ca nghiên cu trên, chúng ta
th xác định tn s t vong và sng sót theo c hai biến cùng mt lúc như sau:
Bng 2. S đối tượng t vong còn sng chia theo thói quen tp th dc cùng vi
gii
Tp th dc và gii T vong Sng OR và tr s P
Không tp th dc
N
Nam
80
84
800
1200
OR = 1.43
p = 0.028
Tp th dc
N
Nam
33
10
1200
800
OR = 2.20
p = 0.026
Kết qu phân tích, như trình bày trong ct s 3 ca bng trên, rt khác vi kết qu
phân tích trong bng 1. đây, chúng ta thy, gii nh hưởng đến nguy cơ t vong
trong c hai nhóm không tp th dc tp th dc thường xuyên. Trong nhóm không
tp th dc thường xuyên, OR t vong n là 1.43 vi p = 0.028; trong nhóm tp th dc
thường xuyên, OR là 2.20 vi p = 0.026.
Do đó, phương pháp phân tích đúng cho trường hp y là chúng ta phi xem xét
đến nh hưởng ca hai biến cùng mt lúc trong mô hình đa biến. Mô hình này có th viết
như sau:
Y = b0 + b1×x1 + b2×x2+ e [1]
Trong đó, Y log ca odd t vong, x1 gii, x2 tp th dc, b0, b1, b2 các
thông s cn ước tính. Ước s ca mô hình này có th tóm lược như sau:
Biến H s ca phương trình hi
qui logistic
OR và tr s P
Gii (N) b1 = 0.434 OR = 1.54, p = 0.003
Tp th dc (Không) b2 = 1.425 OR = 4.16, p < 0.0001
Kết qu phân ch đa biến trên cho chúng ta mt “bc tranh” rt khác vi phân
tích đơn biến trong bng 1. Đến đây, chúng ta th kết lun rng nh hưng ca c hai
biến (gii tp th dc) đều ý nghĩa thng kê, nhưng nh hưởng ca tp th dc
v cao hơn nh hưởng ca gii.
Chương trình hun luyn y khoa – YKHOA.NET Training – Nguyn Văn Tun 5
Mt s nhà nghiên cu cho rng cách truy tm biến ý nghĩa thng cho phân
tích đa biến th da vào kết qu ca phân tích đơn biến bng cách nâng tr s p lên
0.15 (thay 0.05). Nói cách khác, thay lưu gi nhng biến tr s p < 0.05 trong
giai đon 1, th nâng cao tiêu chun này thành p < 0.15 để lưu gi nhng biến th
b sót tiêu chun p < 0.05. Tuy nhiên, phương pháp y cũng sai nt! Để chng
minh cho sai lm này, tôi s ly mt ví d dưới đây.
d 2: Vn vi ch đ ca d 1, nhưng ln y, tôi thay đổi vài s liu để
chng minh khiếm khuyết va nêu như sau:
Bng 3. S đối tượng t vong còn sng chia theo thói quen tp th dc cùng vi
gii
Biến T vong Sng Odds ratio và tr s P
Gii
N
Nam
107
91
1935
1935
OR = 1.18
p = 0.267
Tp th dc
Không
107
91
1984
1886
OR = 3.71
p = 0.0001
Trong nghiên cu trên, nếu phân tích tng biến riêng l, mt ln na, nh hưởng ca yếu
t gii không ý nghĩa thng (p = 0.267). Do đó, nếu da vào tiêu chun p < 0.15,
chúng ta phi loi b yếu t gii trong phân ch đa biến. Tuy nhiên, bng s liu dưới
đây (Bng 4) cho thy nếu phân tích nh hưởng ca gii trong tng nhóm tp th dc,
chúng ta thy nh hưởng ca gii có ý nghĩa thng kê.
Bng 4. S lượng đối tượng t vong còn sng chia theo thói quen tp th dc
cùng vi gii
Tp th dc và gii T vong Sng OR và tr s P
Không tp th dc
N
Nam
75
81
774
1161
OR = 1.39
p = 0.048
Tp th dc
N
Nam
32
10
1161
774
OR = 2.13
p = 0.034