intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Lâm sàng thống kê: Bài 8. Chọn biến trong phân tích hồi quy logistic : một sai lầm phổ biến - Nguyễn Văn Tuấn

Chia sẻ: To Thi Ly | Ngày: | Loại File: PDF | Số trang:7

132
lượt xem
19
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Một trong những khó khăn và có thẻ nói là vấn đề nan giải trong các nghiên cứu đa biến và các biến tiên lượng (predictor variables) thường có mối liên quan sinh học với nhau. Chẳng hạn như chiều cao và cân nặng có liên quan với nhau, hay các chỉ số sinh hóa biến chuyển theo từng độ tuổi.

Chủ đề:
Lưu

Nội dung Text: Lâm sàng thống kê: Bài 8. Chọn biến trong phân tích hồi quy logistic : một sai lầm phổ biến - Nguyễn Văn Tuấn

  1. Lâm sàng th ng kê Ch n bi n trong phân tích h i qui logistic: m t sai l m ph bi n Nguy n Văn Tu n H i: “Trong m t bài vi t trư c ây, Th y vi t r ng cách ch n bi n cho m t mô hình h i qui logistic a bi n t các phân tích ơn bi n là sai l m. Xin Th y gi i thích thêm t i sao?” M t nghiên c u y h c tiêu bi u thư ng o lư ng nhi u y u t lâm sàng nh m tiên lư ng m t bi n c nào ó, ch ng h n như t vong, gãy xương, ái tháo ư ng, v.v... L y ví d m t nghiên c u v nguy cơ t vong, nhà nghiên c u có th thu th p các thông tin như tu i, chi u cao, cân n ng, ti n s b nh t t, l i s ng, hay có th o lư ng các hormone, các ch s sinh hóa, v.v… (s g t t t là “bi n” hay variable) và câu h i t ra là trong nh ng bi n này, bi n nào có liên quan n t vong. ây là m t v n không ơn gi n, và câu tr l i thư ng ph i d a vào k t qu phân tích th ng kê và ki n th c sinh h c. M t mô hình có th tiên oán r t chính xác, nhưng hoàn toàn vô d ng vì không có ý nghĩa lâm sàng hay sinh h c; ngư c l i, m t mô hình có ý nghĩa lâm sàng nhưng không phù h p v i các gi nh th ng kê cũng ch là m t trò chơi con s ! M t trong nh ng khó khăn và có th nói là v n nan gi i trong các nghiên c u a bi n là các bi n tiên lư ng (predictor variables) thư ng có m i liên quan sinh h c v i nhau. Ch ng h n như chi u cao và cân n ng có liên quan v i nhau, hay các ch s sinh hóa bi n chuy n theo t ng tu i. Và, nh ng m i tương quan này làm cho v n ch n mô hình thêm r c r i, nh t là trong i u ki n nghiên c u d a vào m t m u. V n ch n mô hình b n c hi u rõ v n , tôi s l y m t ví d ơn gi n: m t nghiên c u lâm sàng nh m m c ích phát tri n m t mô hình tiên lư ng nguy cơ t vong (hay “kh năng s ng sót” cho “tích c c” hơn) các b nh nhân c p c u (ICU) d a vào các ch s lâm sàng thu th p ư c t lúc b nh nhân nh p vi n. Tiêu chí lâm sàng là t l b nh nhân s ng sót sau 30 ngày xu t vi n (và ti t ki m ch nghĩa, g i bi n này là Y). Các bi n thu th p lúc nh p vi n g m tu i, cân n ng, và kho ng 8 ch s sinh hóa khác (g i t t là x1, x2, x3, …., x10). tiên lư ng kh năng s ng sót chúng ta có r t nhi u mô hình kh dĩ, ch ng h n như: Y = b0 + b1×x1 + e Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 1
  2. Y = b0 + b1×x1 + b2×x2 + e Y = b0 + b1×x1 + b2×x2 + b3×x3 + e Y = b0 + b1×x1 + b2×x2 + b6×x6 + e v.v… trong ó, b0, b1, b3, v.v… là nh ng thông s liên quan n t ng bi n c n ư c tính, và e là ph n ng u nhiên c a mô hình. Th t ra, các mô hình trên ây còn ơn gi n, vì chúng ta chưa xem xét n các nh hư ng tương tác, nh hư ng phi tuy n tính, v.v… Có th nói không ngoa r ng, v i 10 bi n s , con s mô hình kh dĩ có th lên n hàng trăm ngàn, th m chí … b t t n. Nhưng trong nh ng mô hình này, mô hình nào có th tiên lư ng chính xác nh t và ơn gi n nh t? ây là m t câu h i ã làm t n bi t bao công s c c a nhi u nhà khoa h c th ng kê, nhà toán h c và bi t bao gi y m c tr l i, nhưng cho n nay v n v n chưa ngã ngũ. R t nhi u phương pháp ã ư c phát tri n, nhưng chưa có m t phương pháp nào hoàn ch nh. R t nhi u nhà th ng kê h c và toán h c mu n gi i quy t v n , và ôi khi h cũng phát tri n m t vài phương pháp, nhưng r t ti c là các phương pháp này khi áp d ng vào môi trư ng y h c thì r t vô nghĩa, vô duyên, và không th s d ng ư c. Tôi s không bàn chi ti t t i sao v n v n chưa ngã ngũ (tôi s quay l i ch này trong m t bài vi t khác), mà ch nhân cơ h i này bàn v m t sai l m ph bi n trong vi c i tìm m t mô hình tiên lư ng. M t sai l m ph bi n c m t bài báo khoa h c trên m t t p san y h c trong nư c trư c ây, tôi các th y tác gi vi t: “Các bi n có liên quan v i t vong trong phân tích ơn bi n v i m c ý nghĩa p
  3. bi n khác cùng m t lúc. Ch ng h n như n u bi n x1 và x2 có tương quan v i nhau, thì phân tích giai o n 1 có th ch n c hai bi n, nhưng trong mô hình a bi n (giai o n 2), có th ch có x1 có ý nghĩa th ng kê, còn x2 thì không (hay ngư c l i), b i vì thông tin c a bi n này ã hàm ch a trong thông tin c a bi n kia (do hai bi n có liên quan nhau). M tv n khác, tinh vi hơn và “t nh ” hơn, là nh hư ng c a m t bi n trung gian, r t khó hay không th ki m soát trong giai o n 1. (Tôi s bàn qua v v n nh hư ng c a bi n trung gian trong m t bài khác). Trong trư ng h p này, có th hai bi n có th hai bi n x1 và x5 (ch ng h n) trong th c t u có nh hư ng n Y, nhưng nh hư ng này ch t n t i khi chúng xu t hi n bên nhau (c ng hư ng); do ó, khi phân tích riêng l , chúng ta không phát hi n ư c nh hư ng c a chúng, và do ó phân tích ơn gi n trong giai o n 1 có th b qua c hai bi n! Ví d 1: Gi i, th d c, và t vong. M t nghiên c u (mô ph ng) m t th i i m (cross-sectional study) nh m ánh gi m i liên h c a gi i và nguy cơ t vong vì b nh nh i máu cơ tim. Các nhà nghiên c u còn thu th p thông tin liên quan n thói quen t p th d c và v n ng cơ th t ng i tư ng. K t qu nghiên c u có th tóm lư c như sau: B ng 1. S i tư ng t vong và còn s ng chia theo gi i và thói quen t p th d c Bi n T vong S ng Odds ratio và tr s P Gi i • N 113 2000 OR = 1.21 • Nam 94 2000 p = 0.176 T p th d c • Không 164 2000 OR = 4.06 • Có 43 2000 p = 0.0001 Trong nghiên c u trên, n u chúng ta áp d ng phương pháp phân tích h i qui logistic cho t ng bi n riêng l , chúng ta s có: • OR (odds ratio) cho n là 1.21 v i tr s p = 0.176, t c không có ý nghĩa th ng kê. • OR cho nhóm không thư ng xuyên t p th d c là 4.06 v i p = 0.0001, t c có ý nghĩa th ng kê. Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 3
  4. Như v y, n u d a vào phân tích này, chúng ta ch ch n bi n t p th d c vào mô hình a bi n. Nhưng k t qu này có th sai. Quay l i v i s li u c a nghiên c u trên, chúng ta th xác nh t n s t vong và s ng sót theo c hai bi n cùng m t lúc như sau: B ng 2. S i tư ng t vong và còn s ng chia theo thói quen t p th d c cùng v i gi i T p th d c và gi i T vong S ng OR và tr s P Không t p th d c • N 80 800 OR = 1.43 • Nam 84 1200 p = 0.028 T p th d c • N 33 1200 OR = 2.20 • Nam 10 800 p = 0.026 K t qu phân tích, như trình bày trong c t s 3 c a b ng trên, r t khác v i k t qu phân tích trong b ng 1. ây, chúng ta th y, gi i có nh hư ng n nguy cơ t vong trong c hai nhóm không t p th d c và t p th d c thư ng xuyên. Trong nhóm không t p th d c thư ng xuyên, OR t vong n là 1.43 v i p = 0.028; trong nhóm t p th d c thư ng xuyên, OR là 2.20 v i p = 0.026. Do ó, phương pháp phân tích úng cho trư ng h p này là chúng ta ph i xem xét n nh hư ng c a hai bi n cùng m t lúc trong mô hình a bi n. Mô hình này có th vi t như sau: Y = b0 + b1×x1 + b2×x2+ e [1] Trong ó, Y là log c a odd t vong, x1 là gi i, x2 là t p th d c, và b0, b1, và b2 là các thông s c n ư c tính. Ư c s c a mô hình này có th tóm lư c như sau: Bi n H s c a phương trình h i OR và tr s P qui logistic Gi i (N ) b1 = 0.434 OR = 1.54, p = 0.003 T p th d c (Không) b2 = 1.425 OR = 4.16, p < 0.0001 K t qu phân tích a bi n trên cho chúng ta m t “b c tranh” r t khác v i phân tích ơn bi n trong b ng 1. n ây, chúng ta có th k t lu n r ng nh hư ng c a c hai bi n (gi i và t p th d c) u có ý nghĩa th ng kê, nhưng nh hư ng c a t p th d c có v cao hơn nh hư ng c a gi i. Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 4
  5. M t s nhà nghiên c u cho r ng cách truy t m bi n có ý nghĩa th ng kê cho phân tích a bi n có th d a vào k t qu c a phân tích ơn bi n b ng cách nâng tr s p lên 0.15 (thay vì 0.05). Nói cách khác, thay vì lưu gi nh ng bi n có tr s p < 0.05 trong giai o n 1, có th nâng cao tiêu chu n này thành p < 0.15 lưu gi nh ng bi n có th b sót vì tiêu chu n p < 0.05. Tuy nhiên, phương pháp này cũng … sai n t! ch ng minh cho sai l m này, tôi s l y m t ví d dư i ây. Ví d 2: V n v i ch c a ví d 1, nhưng l n này, tôi thay i vài s li u ch ng minh khi m khuy t v a nêu như sau: B ng 3. S i tư ng t vong và còn s ng chia theo thói quen t p th d c cùng v i gi i Bi n T vong S ng Odds ratio và tr s P Gi i • N 107 1935 OR = 1.18 • Nam 91 1935 p = 0.267 T p th d c • Không 107 1984 OR = 3.71 • Có 91 1886 p = 0.0001 Trong nghiên c u trên, n u phân tích t ng bi n riêng l , m t l n n a, nh hư ng c a y u t gi i không có ý nghĩa th ng kê (p = 0.267). Do ó, n u d a vào tiêu chu n p < 0.15, chúng ta ph i lo i b y u t gi i trong phân tích a bi n. Tuy nhiên, b ng s li u dư i ây (B ng 4) cho th y n u phân tích nh hư ng c a gi i trong t ng nhóm t p th d c, chúng ta th y nh hư ng c a gi i có ý nghĩa th ng kê. B ng 4. S lư ng i tư ng t vong và còn s ng chia theo thói quen t p th d c cùng v i gi i T p th d c và gi i T vong S ng OR và tr s P Không t p th d c • N 75 774 OR = 1.39 • Nam 81 1161 p = 0.048 T p th d c • N 32 1161 OR = 2.13 • Nam 10 774 p = 0.034 Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 5
  6. Bây gi , chúng ta xem xét mô hình [1] (t c ư c tính nh hư ng c a hai bi n s cùng m t lúc trong m t mô hình a bi n) cho s li u trong B ng 4, k t qu cho th y c hai bi n u có ý nghĩa th ng kê: Bi n H s c a phương trình h i OR và tr s P qui logistic Gi i (N ) b1 = 0.4077 OR = 1.50, p = 0.0064 T p th d c (Không) b2 = 1.3938 OR = 4.03, p < 0.0001 Tóm t t Xây d ng m t mô hình h i qui logistic a bi n là m t v n không ơn gi n, nh t là trong trư ng h p các bi n tiên lư ng có tương quan v i nhau. Các ví d trên ây cho th y phương pháp truy t m bi n có ý nghĩa th ng kê trong mô hình a bi n d a vào phân tích ơn bi n có th d n n sai l m quan tr ng. Ngay c nâng cao tr s p lên 0.15 cũng v n có th ph m sai l m. Hi n nay, các ph n m m th ng kê có s n m t s thu t toán (algorithm) truy t m bi n c l p cho mô hình a bi n, như thu t toán stepwise, backward, và forward. Nhưng ngay c các thu t toán này, nh t là thu t toán stepwise và forward, v n có nhi u khi m khuy t và cho ra nh ng k t qu “dương tính gi ”, t c là nh ng bi n ch ng có liên quan gì n bi n ph thu c. R t nhi u ngư i không hi u các thu t toán này nên v n áp d ng chúng m t cách vô t i v và h qu là có r t nhi u nghiên c u v i nh ng k t qu sai trong y văn. Xây d ng m t mô hình a bi n là m t khoa h c, nhưng cũng là m t ngh thu t. Khoa h c tính liên quan n các tiêu chu n nh lư ng và thu t toán thích h p. Ngh thu t tính liên quan n nh ng y u t có th nói là ch quan, òi h i nhà nghiên c u ph i v n d ng ki n th c chuyên ngành i n m t mô hình có ý nghĩa lâm sàng. M mô hình a bi n n u ch th a m n các tiêu chu n khoa h c v n chưa th là m t mô hình có ích. M t mô hình có ý nghĩa lâm sàng nhưng không áp ng các tiêu chu n khoa h c không th là m t mô hình có tin c y cao. Do ó, phân tích a bi n, dù là mô hình logistic hay h i qui tuy n tính, là m t phương pháp ph c t p, òi h i nhi u th i gian suy nghĩ và tính toán. Không th và không nên cho máy tính suy nghĩ dùm cho chúng ta. Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 6
  7. Chú thích kĩ thu t: Ph n dư i ây là các mã R s d ng cho các ư c tính trình bày trong bài vi t. # Phân tích s li u ví d 1 # phân tích nh hư ng c a gi i sex
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2