intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Lâm sàng thống kê: Bài 5. Kiểm định t và hoán chuyển số liệu - Nguyễn Văn Tuấn

Chia sẻ: To Thi Ly | Ngày: | Loại File: PDF | Số trang:12

117
lượt xem
17
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Để dánh giá độ khác biệt giữa hai nhóm, chúng ta sử dụng phương pháp kiểm định t (hay t-test). Kierm định t có lẽ là một trong những phương pháp đơn giản nhất trong thống kê học, vì có thể tính toán một cách thủ công, mà không cần đến máy tính hay phần mềm phân tích số liệu.

Chủ đề:
Lưu

Nội dung Text: Lâm sàng thống kê: Bài 5. Kiểm định t và hoán chuyển số liệu - Nguyễn Văn Tuấn

  1. Lâm sàng th ng kê Ki m nh t và hoán chuy n s li u H i: “Tôi nghe nói r ng khi ánh giá s khác bi t gi a hai nhóm b ng t-test c n ph i chuy n i s li u. T i sao?” ánh giá khác bi t gi a hai nhóm, chúng ta thư ng s d ng phương pháp ki m nh t (hay t-test). Ki m nh t có l là m t trong nh ng phương pháp ơn gi n nh t trong th ng kê h c, vì có th tính toán m t cách th công, mà không c n n máy tính hay ph n m m phân tích s li u (nhưng n u có thì t t hơn!) Tuy ơn gi n, nhưng phương pháp ki m nh t cũng r t d sai l m. Sai l m thông thư ng nh t là không ý n nh ng gi nh ng sau phương pháp này. Phương pháp ki m nh t ch thích h p n u s li u áp ng nh ng i u ki n hay gi nh sau ây: • Hai nhóm so sánh ph i hoàn toàn c l p nhau; • Bi n so sánh ph i tuân theo lu t phân ph i chu n (Gaussian distribution); • Phương sai c a hai nhóm b ng nhau, hay g n b ng nhau; và • Các i tư ng ph i ư c ch n m t cách ng u nhiên (random sample). Th nào là “ c l p”? Khi nói n c l p ây là nói n hai nhóm không có tương quan nhau. Ch ng h n như m t nhóm 1 g m b nh nhân A, B, C và D; nhóm 2 g m b nh nhân E, F, G và H, thì hai nhóm này c l p nhau. Nhưng n u có m t nhóm b nh nhân mà o hai l n, thì hai bi n s c a hai l n o ó không c l p v i nhau. c l p cũng có nghĩa là không liên h nhau. Ch ng h n như n u 2 b nh nhân trong nhóm 1 (A và C) có liên h huy t th ng, và n u bi n mà chúng ta phân tích có y u t di truy n thì o lư ng c a hai b nh nhân không ư c xem là c l p. 1. Lí thuy t c a ki m nh t Cho hai qu n th c l p 1 và 2, v i ch s trung bình µ1 và µ 2 , và phương sai σ 2 . Chúng ta mu n ánh giá khác bi t gi a hai qu n th . Nhưng chúng ta không bi t các giá tr này. tìm hi u xem µ1 và µ 2 có khác nhau hay không, chúng ta l y m u t hai qu n th ó. Gi s chúng ta l y ng u nhiên n1 i tư ng t qu n th 1, và n2 i tư ng t qu n th 2. Sau khi o lư ng bi n s , chúng ta có k t qu như sau: Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 1
  2. Nhóm 1 Nhóm 2 S i tư ng n1 n2 Trung bình x1 x2 Phương sai s12 2 s2 l ch chu n s1 s2 Xin nh c l i, chúng ta mu n tìm hi u khác bi t gi a hai qu n th (ch không ph i gi a hai nhóm m u). M c ích này có th phát bi u b ng hai gi thuy t như sau: Gi thuy t vô hi u Ho: µ1 = µ 2 Gi thuy t chính H1: µ1 ≠ µ2 G i ∆ = µ1 ─ µ 2 , hai gi thuy t trên cũng có th phát bi u như sau: Ho: ∆ = 0 H1: ∆ ≠ 0 Trong i u ki n không bi t các giá tr c a qu n th µ1 và µ 2 , ư c s thích h p nh t qu n th chính là hai s trung bình x1 và x2 tính t m u 1 và m u 2. Và, ư c tính khác bi t ∆ chính là khác bi t gi a hai s trung bình: d = x1 ─ x2 [1] Nhưng vì l y m u, cho nên d có th bi n thiên t m u này sang m u khác, và v n là tìm phương sai c a d. Lí thuy t xác su t cho chúng ta bi t r ng phương sai c a khác bi t gi a hai bi n b ng t ng phương sai c a hai bi n tr cho 2 l n hi p bi n, t c là: var(a – b) = var(a) + var(b) – 2×cov(a,b) Trong ó, “var” là vi t t t c a variance (phương sai), và “covar” là vi t t t c a covariance (hi p bi n). Hi p bi n ph n nh tương quan gi a hai bi n. Nhưng n u hai bi n hoàn toàn c l p, thì hi p bi n s là 0, và công th c trên ơn gi n thành: var(a – b) = var(a) + var(b) Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 2
  3. Áp d ng công th c này, chúng ta có th ư c tính phương sai cho d trong [1] như sau (Tôi s kí hi u phương sai b ng s bình phương): sd = s12 + s2 2 2 [2] T ó, l ch chu n c a d là: sd = s12 + s2 2 [3] Nhưng vì nh ng ư c s u d a vào s c m u, cho nên chúng ta ph i “ i u ch nh” b ng cách chia phương sai cho s c m u: s12 s2 2 SEd = + [4] n1 n2 N u phương sai c a hai nhóm b ng nhau (t c s12 = s2 = s 2 ), phương trình [4] ơn gi n 2 thành: 1 1 SEd = s + [5] n1 n2 Ki m nh t ơn gi n là t s c a d trên SEd, hay c th hơn: d t= [6] s12 s2 2 + n1 n2 Có th xem công th c [5] như là t s c a “tín hi u” (signal) và “nhi u” (SEd). Th t v y, d ph n nh khác bi t gi a hai nhóm, và SEd ph n nh nhi u c a d. Thành ra, n u t s t cao, chúng ta có b ng ch ng nói tín hi u nhi u hơn nhi u (t c có ý nghĩa th ng kê); n u t s t th p dư i 1 ch ng h n, chúng ta có b ng ch ng phát bi u tín hi u th p hơn nhi u và do ó khác bi t không có ý nghĩa th ng kê. Nhưng “cao” là cao bao nhiêu có th nói là có ý nghĩa th ng kê? tr l i câu h i này, chúng ta quay tr v v i gi thuy t. N u gi thuy t vô hi u Ho là s th t (t c không có khác bi t gi a 2 qu n th ), thì s phân ph i ng u nhiên c a t như th nào. May m n thay, ã có nhà th ng kê h c tr l i câu h i này: ó là ông William Gossett, ngư i phát ki n ki m nh t. Theo ch ng minh c a Gossett, n u hai qu n th không khác nhau, thì giá tr c a t tùy thu c vào s c m u (hay nói theo ngôn ng th ng kê h c là b c t do – degrees of freedom). S b c t do (kí hi u) ư c tính b ng công th c sau ây: Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 3
  4. df = n1 + n2 ─ 2 B ng 1 sau ây trình bày t s t cho t ng b c t do và kho ng xác su t mà t s t có th dao ng ng u nhiên: B ng 1. T s t cho t ng b c t do n u gi thuy t vô hi u Ho úng B c t do (df) Xác su t 95% t s t s Xác su t 99% t s t s dao ng trong kho ng dao ng trong kho ng 5 -2.57 n 2.57 -4.03 n 4.03 10 -2.23 n 2.23 -3.17 n 3.17 14 -2.14 n 2.14 -2.98 n 2.98 16 -2.12 n 2.12 -2.92 n 2.92 18 -2.10 n 2.10 -2.88 n 2.88 20 -2.08 n 2.08 -2.84 n 2.84 24 -2.06 n 2.06 -2.80 n 2.80 30 -2.04 n 2.04 -2.75 n 2.75 34 -2.03 n 2.03 -2.73 n 2.73 40 -2.02 n 2.02 -2.70 n 2.70 50 -2.01 n 2.01 -2.68 n 2.68 60 -2.00 n 2.00 -2.66 n 2.66 70 -2.00 n 2.00 -2.65 n 2.65 80 -2.00 n 2.00 -2.64 n 2.64 90 -1.99 n 1.99 -2.64 n 2.64 100 -1.98 n 1.98 -2.62 n 2.62 500 -1.96 n 1.96 -2.58 n 2.58 1000 -1.96 n 1.96 -2.58 n 2.58 Do ó, n u t s t tính toán t công th c [6] n m ngoài kho ng tin c y trên ây, chúng ta có th nói r ng khác bi t gi a hai qu n th có ý nghĩa th ng kê (thu t ng ti ng Anh là “statistically significant”). 2. Ki m nh t v i bi n ư c hoán chuy n logarít Ví d 1. M t nghiên c u nh m so sánh n ng lysozyme gi a hai nhóm b nh nhân (t m g i là nhóm 1 và nhóm 2). Nhóm 1 g m 29 b nh nhân, và nhóm 2 g m 30 b nh nhân, tu i t 20 n 60. N ng lysozyme (mg/L) như sau và có th tóm lư c trong B ng 2: Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 4
  5. Nhóm 1: 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8, 4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4, 10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7, 24.0, 25.4, 40.0, 42.2, 50.0, 60.0 Nhóm 2: 0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0, 2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8, 7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5, 16.7, 20.0, 20.7, 33.0 B ng 2. N ng lysozyme b nh nhân nhóm 1 và nhóm 2 Nhóm 1 Nhóm 2 S i tư ng n1 = 29 n2 = 30 Trung bình x1 = 14.31 x2 = 7.68 Phương sai s12 = 247.8 2 s2 = 61.6 l ch chu n s1 = 15.7 s2 = 7.8 Áp d ng công th c [6], chúng ta có t s t như sau: d 14.31 − 7.68 t= = = 2.03 s2 1 s 2 2 14.31 7.68 + + n1 n2 29 30 V i b c t do df = 29+30-2 = 57, và n u hai nhóm không khác nhau, chúng ta kì v ng r ng t s t dao ng t -2.00 n 2.00 (theo B ng 1). Nhưng t s t quan sát ư c n m ngoài kho ng tin c y này, nên chúng ta có th phát bi u r ng lysozyme c a hai nhóm khác nhau. Nhưng k t qu và k t lu n trên có th sai! Nhìn qua tóm t t trình bày trong B ng 2, chúng ta chú ý phương sai c a nhóm 1 cao g p 4 l n so v i nhóm 1. Ngoài ra, phương sai có xu hư ng bi n thiên theo s trung bình: nhóm có s trung bình cao cũng là nhóm có phương sai cao. l ch chu n c a nhóm 1 cao hơn nhóm 2 g p hai l n. Chúng ta cũng chú ý r ng l ch chu n c a hai nhóm cao hơn s trung bình. i u này hàm ý cho bi t s li u lysozyme không tuân theo lu t phân ph i chu n, và phân tích trên ã vi ph m gi nh th ng kê. Chúng ta th xem qua phân ph i c a lysozyme trong nhóm 1 và nhóm 2 như sau: Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 5
  6. Histogram of group1 Histogram of group2 15 15 10 10 Frequency Frequency 5 5 0 0 0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 group2 group1 Bi u 1. Phân ph i lysozyme c a nhóm 1 (bi u bên ph i) và nhóm 2 (bi u bên ph i) Rõ ràng lysozyme có xu hư ng l ch v các giá tr nh . V i xu hư ng này, chúng ta có th s d ng hàm logarít hoán chuy n s li u. Sau khi hoán chuy n b ng logarít, chúng ta có s li u m i cho nhóm 1 và 2 như sau (và b ng tóm lư c 3) Nhóm 1: -1.60943791 -1.20397280 -0.91629073 0.09531018 0.69314718 0.74193734 1.19392247 1.33500107 1.50407740 1.56861592 1.58923521 1.60943791 1.66770682 2.01490302 2.28238239 2.34180581 2.38876279 2.42480273 2.51769647 2.78501124 2.86789890 2.93916192 3.03013370 3.17805383 3.23474917 3.68887945 3.74242022 3.91202301 4.09434456 Nhóm 2: -1.6094379 -1.2039728 -0.9162907 -0.3566749 0.1823216 0.4054651 0.4054651 0.6418539 0.6931472 0.8754687 0.9162907 1.0296194 1.2809338 1.5686159 1.5686159 1.6863990 1.7404662 1.7578579 2.0149030 2.1633230 2.1747517 2.2082744 2.3321439 2.7472709 2.7788193 2.8033604 2.8154087 2.9957323 3.0301337 3.4965076 B ng 3. N ng lysozyme b nh nhân nhóm 1 và nhóm 2 Nhóm 1 Nhóm 2 S i tư ng n1 = 29 n2 = 30 Trung bình x1 = 1.92 x2 = 1.41 Phương sai s12 = 2.19 2 s2 = 1.73 l ch chu n s1 = 1.48 s2 = 1.32 Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 6
  7. Bây gi thì hai phương sai tương ương nhau, và chúng ta có th áp d ng ki m nh t qua công th c [6] như sau: d 1.92 − 1.41 t= = = 1.406 s12 s2 2 2.19 1.73 + + n1 n2 29 30 Như v y, t s t n m trong kho ng -2.00 n 2.00, t c là kho ng dao ng hoàn toàn do ng u nhiên. Do ó, chúng ta k t lu n r ng lysozyme c a hai nhóm tương ương nhau. 3. Ki m nh t v i bi n ư c hoán chuy n căn s b c 2 Nhi u nghiên c u lâm sàng, tiêu chí ánh giá k t qu (outcome measure) ch ơn gi n là s m, và trư c khi ti n hành ki m nh t, s li u c n ph i hoán chuy n b ng căn s b c 2 làm cho s li u tuân theo lu t phân ph i chu n. Ví d 2. Trong nghiên c u trình bày dư i ây, các nhà khoa h c m s lư ng vi khu n lactobacilli trong nư c b t c a hai nhóm b nh nhân. Nhóm 1 g m có 7 b nh nhân ư c tiêm v c-xin, và nhóm 2 g m 6 i tư ng không ư c tiêm v c-xin. K t qu nghiên c u như sau: Nhóm 1 Nhóm 2 S vi khu n Hoán chuy n S vi khu n Hoán chuy n lactobacilli (k) k lactobacilli (k) k 7925 89.02 3158 56.20 15643 125.07 3669 60.57 17462 132.14 5930 77.01 10805 103.95 5697 75.48 9300 96.44 8331 91.27 7538 86.82 11822 108.73 6297 79.35 S li u này có th tóm lư c trong B ng 4 sau ây: B ng 4. Tóm lư c s li u lactobacilli Nhóm 1 Nhóm 2 S i tư ng n1 = 7 n2 = 6 Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 7
  8. Trung bình (x) x1 = 10710 x2 = 6434 l ch chu n (sd) s1 = 4266 s2 = 3219 T s sd / x 41.2 40.1 Chúng ta chú ý r ng t s l ch chu n trên căn s b c 2 c a s trung bình c a hai nhóm là kho ng 40 n 41 (t c tương ương nhau). i u này cho th y, chúng ta c n ph i hoán chuy n s li u b ng hàm căn s b c 2, và k t qu ư c trình bày trong c t 2 (màu ) c a t ng nhóm trong b ng s li u g c trên. Sau khi hoán chuy n chúng ta có m t b ng tóm lư c m i như sau: B ng 5. Tóm lư c s li u hoán chuy n lactobacilli b ng căn s b c 2 Nhóm 1 Nhóm 2 S i tư ng n1 = 7 n2 = 6 Trung bình (x) x1 = 101.8 x2 = 78.2 l ch chu n (sd) s1 = 20.0 s2 = 19.5 N u phân tích d a vào s li u hoán chuy n, chúng ta có t s t như sau: d 101.8 − 78.2 t= = = 2.05 2 2 2 2 s 1 + s 2 ( 20 ) + (19.5) n1 n2 7 6 V i b c t do = 7+6-2 = 11, và n u hai nhóm không khác nhau, chúng ta kì v ng t s t s dao ng trong kho ng -2.23 n 2.23 (B ng 1) v i xác su t 95%. ây, chúng ta có t s t quan sát là 2.05, n m trong kho ng xác su t ng u nhiên này, chúng ta ph i k t lu n r ng chưa có b ng ch ng k t lu n r ng hai nhóm b nh nhân khác nhau v s lư ng vi khu n lactobacilli. (B n c có th t làm phân tích trên s li u chưa ư c hoán chuy n và s th y k t qu khác v i k t lu n v a trình bày!) 4. Ki m nh t v i bi n là t l Ví d 3. B ng s li u sau ây là k t qu c a m t nghiên c u lâm sàng i ch ng ng u nhiên, v i m c tiêu so sánh hai phương pháp t p luy n b nh nhân v i ch ng m t trí vì tu i già. Nhóm m t g m 11 b nh nhân ư c t p luy n, và nhóm hai g m 8 b nh nhân i ch ng (không t p luy n). Sau hai tu n t p luy n, m i b nh nhân ư c cho 20 câu h i Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 8
  9. v nh ng vi c trong i s ng hàng ngày (như khóa c a, bu c giây, quét d n, m c qu n áo, v.v…). S câu tr l i úng ư c ghi nh n và chia cho 20 (t c tính t l tr l i úng). T l thành công trong 20 câu h i cho 2 nhóm b nh nhân m t trí Nhóm 1: 0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 0.30, 0.05, 0.25 Nhóm 2: 0.0, 0.15, 0.0, 0.05, 0.0, 0.0, 0.05, 0.10 B ng 6. Tóm lư c s li u c a b nh nhân m t trí Nhóm 1 Nhóm 2 S i tư ng 11 8 Trung bình (x) 0.164 0.044 l ch chu n (sd) 0.112 0.056 Trong trư ng h p này, chúng ta th y l ch chu n b ng hay cao hơn s trung bình, và ó là tín hi u cho th y bi n s không tuân theo lu t phân ph i chu n. M t trong nh ng hàm hoán chuy n khá h u hi u cho các s li u mang tính t l (proportion) là hàm lư ng giác arsin c a căn s b c 2 (t c arcsin x , trong ó x là t l ). Ch ng h n như n u x = 0.05, thì arcsin x = arcsin 0.05 = 0.2255. Sau khi hoán chuy n b ng hàm arcsin x , chúng ta có s li u m i như sau. S li u hoán chuy n b ng hàm arcsin x Nhóm 1: 0.2255134 0.3976994 0.6330518 0.5235988 0.4636476 0.2255134 0.3217506 0.2255134 0.5796397 0.2255134 0.5235988 Nhóm 2: 0.0000000 0.3976994 0.0000000 0.2255134 0.0000000 0.0000000 0.2255134 0.3217506 B ng 7. Tóm lư c s li u c a b nh nhân m t trí sau khi hoán chuy n Nhóm 1 Nhóm 2 S i tư ng 11 8 Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 9
  10. Trung bình (x) 0.395 0.146 l ch chu n (sd) 0.158 0.166 Áp d ng công th [6] cho s li u hoán chuy n, chúng ta có: d 0.395 − 0.146 t= = = 3.30 2 2 2 2 s1 + s 2 ( 0.158) + ( 0.146 ) n1 n2 11 8 V i b c t do 17 (df = 11 + 8 – 2), và n u không có khác bi t gi a hai nhóm b nh nhân, chúng ta kì v ng t s t dao ng trong kho ng -2.10 n 2.10 v i xác su t 95%. Tuy nhiên, ây t s t = 3.30, n m ngoài kho ng dao ng ng u nhiên trên, chúng ta có b ng ch ng phát bi u r ng khác bi t hay nh hư ng c a t p luy n có ý nghĩa th ng kê. Th t ra, tr s P c a t s t trên là 0.005. 5. Tóm lư c Như v a mô t trong 3 ví d trên, chúng ta th y r ng vi c phân tích s li u b ng phương pháp ki m nh t c c kì ơn gi n, không c n n máy tính. Logic ng sau c a phương pháp ki m nh t (cũng như c a nhi u phương pháp khác) là ki m nh m t gi thuy t vô hi u (Ho) như sau: • Gi thuy t Ho : Không có khác nhau gi a hai nhóm; • Tính toán t s t ( khác bi t gi a 2 nhóm chia cho dao ng) • N u Ho úng, xác nh bi n thiên c a t0 trong vòng 95% hay 99% • N u t n m ngoài kho ng bi n thiên c a t0 , chúng ta lo i gi thuy t Ho. Dù phương tính và logic ơn gi n như th , nhưng phương pháp ki m nh t thư ng b áp d ng sai, do không chú ý n các gi nh ng sau c a phương pháp. Trong nhi u trư ng h p, sai phương pháp d n n k t lu n sai. Do ó, nh hư ng c a vi c b t c n trong phân tích có khi r t nghiêm tr ng. Hi v ng qua các ví d này, b n c ã bi t qua vài phương pháp hoán chuy n s li u, và có m t cái nhìn m i hơn v phương pháp ki m nh t. Nguy n Văn Tu n Chú thích: T t c các phân tích trên có th ti n hành r t ơn gi n b ng ngôn ng th ng kê R. Dư i ây là các mã R mà tôi ã dùng cho các phân tích và bi u trên. B n c có th t Chương trình hu n luy n y khoa – YKHOA.NET Training – Nguy n Văn Tu n 10
  11. mình ki m tra b ng cách c t t ng ph n và dán vào R hi u thêm. (Cách h c hay nh t là b t chư c). N u mu n tìm hi u thêm v R, b n c có th tìm mua quy n sách “Phân tích s li u và t o bi u b ng R” c a tôi do Nhà xu t b n Khoa h c Kĩ thu t phát hành năm 2007. # Mã R tìm t s t cho B ng 1 # b c t do – degrees of freedom df
  12. hist(group1) hist(group2) # Hoán chuy n s li u b ng hàm logarít log.group1
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2