intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Phương pháp nghiên cứu khoa học - Bài 3: Ðại cương về phân tích số liệu

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:16

94
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Phương pháp nghiên cứu khoa học - Bài 3: Ðại cương về phân tích số liệu" trình bày các nội dung: Phép ước lượng, ước lượng khoảng tin cậy của trung bình, suy luận thống kê, quan hệ giữa hai biến số định lượng,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Phương pháp nghiên cứu khoa học - Bài 3: Ðại cương về phân tích số liệu

  1. Ðại cương về phân tích số liệu Phép ước lượng Dân số và mẫu Thông thường chúng ta không thể  nghiên cứu toàn bộ  dân số  mà chúng ta quan tâm.   Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là  mẫu (sample) và từ đó ước đoán về những đặc tính của dân số.  Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số ­ variable) để  có được đặc trưng của mẫu (được gọi là thống kê ­ statistics) và từ đặc trưng của mẫu  chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của   dân số (được gọi là tham số ­ parameter) Một loại mẫu thường  được gặp  trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi  lấy   mẫu ngẫu nhiên đơn, chúng ta có thể  tính được   giá trị  trung bình và độ  lệch chuẩn   của mẫu. Rõ ràng là giá trị  trung bình và độ  lệch chuẩn sẽ khác nhau với những mẫu  khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ  có phân phối bình thường và các giá trị  trung bình này sẽ  tập trung tại trung bình của  dân số. Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của  dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình   mẫu xung quanh chung bình dân số  được gọi là sai số  chuẩn (standard error) và sẽ  giảm đi khi cỡ mẫu càng lớn: s s2 s.e.   n n Độ  lệch chuẩn và sai số chuẩn là hai đại lượng thể  hiện sự  phân tán nhưng độ  lệch   chuẩn thể hiện sự phân tán của cá thể  chung quanh giá trình trung bình dân số còn sai   số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ  lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số). Ước lượng khoảng tin cậy của trung bình Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung  tại giá trị  trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính   trung bình của mẫu. Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ  chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí   đâu đó chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường  hợp trung bình dân số  không nằm xa quá 1,96 x SE  so với trung bình mẫu: phạm vi  này được gọi là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của   biến sô định lượng Khoảng tin cậy 95% (95% CI) : x  ±  1,96s/√n Trong trường hợp cỡ  mẫu nhỏ (n 
  2. trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ  mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với  (cỡ mẫu – 1) độ  tự  do. Khoảng tin cậy 95% (95% CI) : x ±  t(1­α/2) ×  s/√n Bài tập: 1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh  ở tỉnh Đồng Tháp cho thấy  trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy   ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ  sơ sinh tỉnh Đồng   Tháp. Sử dụng công thức trên ta tính được: 95%CI=3096.74 ­ 3145.26 gram. 2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy   ước lượng khoảng tin cậy 95% của chiều cao trung bình. Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ  lệch   chuẩn của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9   độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta   tính được khoảng tin cậy 95% 95%CI=164.87 ­ 164.87. Ước lượng khoảng tin cậy của tỉ lệ Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ  lệ  p sau đó dựa  vào p để ước lượng khoảng tin cậy 95% của p p(1- p) p(1- p ) p 1,96 p 1,96 n  đến  n Bài tập Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút  thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá. Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức   trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438 Suy luận thống kê Kiểm định ý nghĩa Phương pháp kiểm định ý nghĩa được Fisher đề  xuất và dựa trên căn bản của phép   phản chứng. Phép phản chứng trong logic học sử  dụng bằng mệnh đề: Nếu A kéo  theo B thì không B sẽ kéo theo không A.  A⇒ B ⇔B⇒A Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột   và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân  không bí trung tiện thì chúng ta sẽ  bác cỏ  chẩn đoán tắc ruột với suy luận sau: Nếu  
  3. bệnh nhân bị  tắc ruột sẽ  bí trung tiện thì bệnh nhân sẽ  bí trung tiện, do bệnh nhân   không bí trung tiện nên bệnh nhân không bị tắc ruột. Một cách tổng quan hơn, khi chúng ta đưa ra giả  thuyết chẩn đoán (thí dụ  như  chẩn   đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh   nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không  có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có   đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) thì chúng  ta có thể  bác bỏ  chẩn đoán. Các biến cố  nằm ngoài các hệ  quả  phổ  biến của giả  thuyết (biến cố không có đau bụng, không có nôn ói, không bị bí trung tiện hay không  có chướng bụng) được gọi là miền bác bỏ của chẩn đoán. Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định  một giả  thuyết thống kê (được gọi là giả  thuyết Ho) cần phải xác định miền xảy ra   phổ  biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống  kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến   thì chúng ta sẽ bác bỏ  giả  thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số  thống kê được gọi miền bác bỏ. Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher.  Đường cong phân phối hình chuông  thể  hiện phân phối của thống kê của z khi µ=0 (giả  thuyết Ho). Vùng diện tích dưới   đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho   là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho  và có  diện tích là xác suất sai lầm loại 1 (5%).  Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau: ­ Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ  chứ  không thể  chứng minh được giả  thuyết Ho. Vì vậy nếu chúng ta muốn  
  4. chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả  th.uyết thống kê Ho là hút thuốc lá không phải là yếu tố  nguy cơ của ung thư  phổi và sử dụng phương pháp kiểm định để bác bỏ điều này. ­ Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1  hay Ho: điểm trung bình về  bệnh lây truyền qua đường tình dục  ở  nam thanh  niên = điểm trung bình về  bệnh lây truyền qua đường tình dục  ở  nữ  thanh  niên ) thì mới có thể  tính được phân phối của thống kê. Giả  thuyết Ho không  thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai) ­ Do diện tích miền bác bỏ là một con số cố  định (thường là 0,05), để  xác định   con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất   xảy ra thống kê cực đoan hơn giá trị  T nếu giả  thuyết Ho là đúng (được thể  hiện bằng công thức: P (>T |Ho) ). Xác suất này được gọi là giá trị  p. Và nếu   giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và   chúng ta có thể bác bỏ giả thuyết Ho. Giá trị  p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ   ở  phần mềm  Epi­Info, giá trị p được kí hiệu là  p­value, ở phần mềm SPSS, giá trị p được kí hiệu là   Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê   được sử dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như  sau: P > |T| (nếu kiểm định t)  P > |z| (nếu kiểm định z)  Prob > chi2 (kiểm định chi bình phương) Prob > F (Kiểm định F; Kiểm định ANOVA) Kiểm định giả thuyết Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ  được giả  thuyết   H0 chúng ta không biết được xác suất H0 đúng là bao nhiêu. Một nhà thống kê học khác  tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm  loại 2.
  5. Phaùt bieån H 0 ;H a Tính soá thoáng keâ 2 (z; t; chi ; F) Thöïc hieän nghieân Xaùc suaát sai Xaùc suaát sai Khoâng nhoû Khoâng nhoû cöùu vôùi côõ maãu laàm loaïi 1 laàm loaïi 2 tra baûng tính p lôùn hôn Nhoû Nhoû Chaáp nhaän giaû Baùc boû giaû thuyeát thuyeát Sai lầm loại một và sai lầm loại hai Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng. Sai lầm loại hai: Không bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai. Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà  nghiên cứu đi đến kết luận bác bỏ  giả  thuyết H0, người nghiên cứu có thể bị sai lầm  (sai lầm loại một ­ với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ  giả  thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai ­ cũng với một xác   suất nào đó). Một điều nên nhớ là  bằng kiểm định thống kê người ta có thể  xác định   được xác suất sai lầm loại một nhưng không thể  tính được xác suất sai lầm loại hai   mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu. Ðôi khi người ta còn sử  dụng khái niệm năng lực (power) của kiểm định thống kê.   Năng lực của kiểm định thống kê = 1 ­ xác suất sai lầm loại 2. Khái niệm năng lực  của thống kê hay được dùng trong tính cỡ mẫu. Bảng 1. Tóm tắt về sai lầm loại 1,  sai lầm loại 2 và giá trị ngưỡng của nó Chân lí là Ho đúng Chân lí là Ha đúng (Không có sự khác biệt) (Không có sự khác biệt) Bác bỏ giả thuyết H0 Sai   lầm   loại   1 Kết   luận   đúng (Xác suất = α) (Xác   suất   =   1­β  = Power của nghiên cứu) Không bác bỏ giả thuyết H0 Kết   luận   đúng Sai   lầm   loại   II (Xác suất = 1­α) (Xác suất = β) Chọn lựa kiểm định phù hợp Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các  kiểm định chỉ  khác nhau việc lựa chọn thống kê xuất phát từ  giả  thuyết H0. Việc lựa  chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
  6. Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu Loại thiết kế nghiên cứu Hai nhóm  Ba (hay  Trước và  Nhiều điều  Liên hệ  điều trị  nhiêù)  sau một  trị trên cùng  giữa hai  gồm các cá  nhóm điều  điều trị  các đối  biến số Thang   đo   của   biến   số  nhân khác  trị gồm các  (hoặc 2  tượng phụ thuộc nhau cá nhân  điều trị) ở  khác nhau trên cùng  các đối  tượng Ðịnh lượng (mẫu rút từ  t­test không  Phân tích  t­test bắt  Phân tích  Hồi quy  một   dân   số   có   phân  bắt cặp phương sai cặp phương sai  tuyến tính  phối   bình   thường   và  đo lường  và tương  phương   sai   hai   nhóm  lập lại quan  đồng nhất pearson Ðịnh tính ­ Danh định χ2 bảng 2 x  χ2 bảng 3 x  test  Cochrance  Hệ số của  n n McNemar Q bảng n x m (phi, OR,  RR) Ðịnh tính ­Thứ tự Kiểm định  Kruskal­ Kiểm định  Friedman hệ số  (hay   biến   định   lượng  tổng sắp  Wallis sắp hạng  tương quan  không bình thường) hạng  có dấu  Spearman Mann­ Wilcoxon Whitney Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ  giữa biến độc lập và  biến phụ thuộc Biến phụ thuộc Biến độc lập Nhị giá Danh định (hoặc thứ  Định lượng, đa  tự) biến (hoặc thứ tự) Định lượng phân phối bình  T­test ANOVA Hồi quy tuyến tính thường Biến định lượng phân phối  Mann­Whitney Kruskal­Wallis TQ Spearman không bình thường – Biến thứ  tự Nhị giá Chi bình phương Chi bình phương Hồi quy logistic Sống còn Wilcoxon tổng quát Wilcoxon tổng quát Hồi quy Cox Logrank Logrank
  7. Phép kiểm t bắt cặp Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ  lệ  tử  vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị  hữu   hiệu.   Tilapur   và   Mir   (Am   J     Med   1984;   77:987)   cho   rằng   chế   độ   ăn   giảm  carbonhydrate có thể  cải thiện tình trạng hô hấp. Các nhà nghiên cứu này tiến hành  thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn, gan lớn, phù  và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân  áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều  trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân   áp oxy động mạch trước và sau khi điều trị. Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng  trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số 1 70 82 12 49 45 -4 2 59 66 7 68 54 -14 3 53 65 12 65 60 -5 4 54 62 8 57 60 3 5 44 74 30 76 59 -17 6 58 77 19 62 54 -8 7 64 68 4 49 47 -2 8 43 59 16 53 50 -3 Thực hành:  Bước 1: Xây dựng giả thuyết Ho: Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi  Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do Bước 3: Tính thống kê t Tính trung bình và độ  lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch  trước và sau điều trị) để tính thống kê t d d 13,5; sd 8,2; t 4,66 s/ n Bước 4: tính xác suất của giá trị thống kê t
  8. Để  tính xác suất của giá trị  thống kê t ta sử  dụng hàm tdist(giá trị  t, độ  tự  do, 2). Cụ  thể  để  tính p tương  ứng với giá trị  t = 4.63  ở  7 độ  tự  do chúng ta đánh công thức  "=tdist(4.63, 7, 2) vào một ô. Kết quả ta được giá trị p= 0.002397687. Bước 5: Kết luận Vì giá trị  p= 0.002397687 nhỏ  hơn 0.05 nên chúng ta bác bỏ  giả  thuyết Ho nghĩa là   phân áp oxy động mạch có cải thiện sau khi điều trị. Phép kiểm t (không bắt cặp) Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain   (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người  có nồng độ  catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu,  huyết áp tâm trương. Kết quả  của nghiên cứu được trình bày trong bảng 2. Hãy so  sánh   nhịp   tim   ở   hai   nhóm,   nhóm   có   tăng   catecholamine   và   nhóm   không   tăng   catecholamine.  Bảng 1. Trung bình và độ  lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim,   huyết   áp   tâm   thu   và   huyết   áp   tâm   trung   ở   13   bệnh   nhân   tăng   huyết   áp   tăng   catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine Tăng catecholamine Không tăng Số bệnh nhân 13 9 catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060 Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2 Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9 Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9 Thực hành:  Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình  ở nhóm bệnh nhân không tăng catecholamine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t với (n1+n2­2) = 20  độ tự do Bước 3: Tính thống kê t Trước tiên chúng ta phải tính độ lệch chuẩn gộp  ( n1 1) s12 (n2 1) s22 sp 12.21 (n1 1) (n2 1) (Để  dễ  nhớ công thức tính độ  lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là   trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó) Sau đó chúng ta tính thống kê t
  9. ( x1 x2 ) t 2.44 s 1 / n1 1 / n2 Bước 4: tính xác suất của giá trị thống kê t Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số  thống kê chúng ta sẽ tìm được p 
  10. Bước 3: Lập bảng ANOVA và Tính thống kê F Chúng ta lập thành bảng phân tích phương sai như sau: Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm      F= ­­­­­­­­­­­­­­­­­­­­­­­­­­­­    MS bên trong nhóm Giữa các nhóm 99,92 2 49,96 50.03 , P
  11. Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do  Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương Lập bảng  2 x 2 như sau Kết quả Mắc bệnh cúm Không mắc Tổng Tiêm chủng Có 20 a 220 b 240 a+b (8,3%) Placebo 80 c 140 d 220 c+d (36,4%) Tổng  100 a+c 360 b+d 460 N Để tính thống kê chi bình phương có hai cách: Phương pháp chính thức: ­ Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô   biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a Ea = (a+b) ×  (a+c) /N,  giá trị  kì vọng của ô c Ec = (a+b) ×  (c+d) /N) ­ Tính giá trị chi bình phương theo công thức 2 (O E ) 2 , d . f . (soáhaøng -1) (soá coät -1) E Trong thí dụ này 2 (20 52,2) 2 (80 47,8) 2 (220 187,8) 2 (140 172,2) 2 52,2 47,8 187,8 172,2 19,86 21,69 5,52 6,02 53,09  Công thức tính tắt cho bảng 2  ×       2  2 (ad bc) 2 N ( a b)(a c)(c d )(b d ) Bước 4: tính xác suất của giá trị thống kê χ 2 Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10 ­13 nghĩa là giá trị của p rất nhỏ.   Sử dụng bảng số chúng ta biết được p 
  12. (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả  sử  số  liệu của bảng 2 x2 nằm  ở  vùng C2:D3 chúng ta có thể  tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta   được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36 So sánh tỉ lệ của biến số nhị giá : Kiểm định chi­bình phương Khi hai biến số  là biến số  nhị  giá người ta sử  dụng giá trị  RR hay OR để  đo lường   mức độ liên hệ (xem lại phần các số đo dịch tễ). Kết quả Mắc bệnh Không   mắc  Tổng bệnh Biến   số   phơi  Phơi nhiễm a1 b1 N1 nhiễm Không   phơi  ao b0 N0 nhiễm Tổng  a1+a0 b1+b0 N=N1+N0 Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm   không phơi nhiễm: RR = (a1/N1)/(a0/N0)  Khoảng tin cậy 95% của tỉ số nguy cơ: 1 1 1 1 1, 96 1, 96 1 a1 N1 a0 N0 2 RR e hay  RR  (test­based  CI) Tỉ  số  số  chênh (OR) là tỉ  số  của số  chênh mắc bệnh của nhóm phơi nhiễm trên số  chênh mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng  tỉ  số  số  chênh là tỉ  số  của số  chênh phơi nhiễm của nhóm bệnh trên số  chênh phơi   nhiễm ở nhóm không chứng. RR = (a1/b1)/(a0/b0)  Khoảng tin cậy 95% của tỉ số số chênh: 1 1 1 1 1, 96 a1 b1 a0 b0 OR e Bài tập Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử  đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị  viêm ruột hoại tử có 50 trường hợp có tiền căn ăn  thịt (gần đây) và trong nhóm chứng  có 16 trường hợp có tiền căn ăn thịt. Hãy tìm  ước lượng số đo liên hệ  giữa ăn thịt và   viêm ruột hoại tử. Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua  New Guinea (OR=11,6)
  13. Ăn thịt trong thời gian gần  Không ăn thịt trong thời gian  Tổng số đây gần đây Nhóm bệnh 50 a1 11 b1 61 Nhóm chứng 16 a0 41 b0 57 Tổng số 66 52 118 Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có  ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm  ruột hoại tử. Đây là bài toán so sánh tỉ  lệ  của một biến số  định tính  ở  hai nhóm và  được giải quyết bằng kiểm định chi bình phương.  Tuy nhiên bằng việc kiểm định giả  thuyết chúng ta chỉ  xác định có mối liên hệ  mà   không biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không   tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức   tính OR và khoảng tin cậy của OR ta được: OR = (a1/b1)/(a0/b0) = (a1 ×  b0)/(a0 ×  b1) = 11.65 và  khoảng tin cậy 95% của OR = 4.87 đến 27.85 Bài tập Có 240 người được tiêm vaccine phòng bệnh cúm và  220 người được tiêm placebo.   Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người  bị  cúm. Hãy so sánh tỉ  lệ  mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm   placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?  Kết quả Mắc bệnh cúm Không mắc Tổng Tiêm chủng Có 20 a1 220 b1 240 N1 (8,3%) Placebo 80 a0 140 d 220 N0 (36,4%) Tổng  100 360 460 N Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0.23 Khoảng tin cậy 95% của tỉ số nguy cơ: 1 1 1 1 1, 96 a1 N1 a0 N0 RR e  =  0.15 đến 0.36 Quan hệ giữa hai biến số định lượng Tương quan Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều 
  14. loại hệ  số  tương quan, nhưng chúng đều có giá trị  từ  ­1 đến 1. Nếu chúng có giá trị  bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có   giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa  là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa   là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ  ít hơn. Khi   trị  tuyệt đối của hệ  số  tương quan bằng một có nghĩa là hoàn toàn không có sai số  ngẫu nhiên. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: ( xi x )( y i y) ( xy ) / n x y n r ( xi x) 2 ( yi y) 2 x y n 1 Lí giải ý nghĩa của hệ số tương quan Pearson ­ Hệ số tương quan luôn luôn nằm trong đoạn [­1,1] ­ Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm   chứng tỏ hai biến số là nghịch biến. ­ Trị số  tuyệt đối của hệ số tương quan r nói lên mức độ  liên quan giữa hai biến số.   Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=­1), quan hệ hoàn toàn tuyến tính nghĩa là tất   cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ  hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e). ­ Bình phương của hệ  số  tương quan (r2) thể  hiện tỉ  lệ  biến thiên của biến số  phụ  thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là  nhân quả) ­ Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1)   không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến  số không phải là tuyến tính (hình 9.2b) ­ Theo quy  ước, quan hệ với  r từ 0,1 đến 0,3 là quan hệ yếu, từ  0,3 đến 0,5 quan hệ  trung bình và trên 0,5 là quan hệ mạnh. Hồi quy Hồi quy là một mô hình toán học mô tả  sự biến đổi của một biến số này theo những   biến số khác. Một phương trình hồi quy có thể có dạng như sau: cân nặng (kg) = 6,85 + 0,18 ×  tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi: cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept) 0,18: hệ số của biến số tháng tuổi. Một cách tổng quát phương trình hồi quy sẽ có dạng:
  15. Y = b0 + b1  x1 + b2 x2 + b3 x3 Với   y là biến số phụ thuộc x1, x2, x3 là các biến số độc lập b0: điểm chặn của phương trình b1, b2, b3 : hệ số của các biến số độc lập Hệ  số  của biến số  độc lập nói lên nếu biến số  độc lập tăng một đơn vị  thì biến số  phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì  biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm). Bài tập  1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng  trong bảng 4. Đối tượng Lượng muối Huyết áp 1 5 110 2 10 120 3 12 110 4 18 120 5 20 140  Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng. Thực hành Để  tìm sự  liên hệ  giữa hai biến số  định lượng chúng ta sử  dụng hệ  số  tương quan.   Dựa vào công thức ta tính được  r = 0,771829. Như  vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên   quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 ×  0.77) sự thay đổi  của huyết áp tâm thu. Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là: Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối. Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của   biến số  lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1   gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg. 2. Lý giải ý nghĩa của phân tán đồ sau Figure 8.  Trọng lượng sơ  sinh theo tuổi thai (tuần) c ủa 641 tr ẻ sinh do th ụ thai trong   ống nghiệm ở Anh quốc
  16. 5000 4000 3000 trong luong tre 2000 1000 0 20 24 28 32 36 40 44 tuoi thai
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2