intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:8

142
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu" cung cấp cho người học các kiến thức: Biên tập số liệu, mô tả số liệu, phân loại biến số, rút gọn số liệu, đo lường tác động,... Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu

  1. Chiến lược phân tích số liệu 1. Giới thiệu Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ  nhất đinh. Trong bối cảnh của một nghiên cứu dịch tễ  thực sự  bao gồm số  liệu của   rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng theo   trình tự  như thế  nào. Trong phần này, chúng ta sẽ  trình bày một số nguyên tắc chiến   lược để phân tích số liệu từ nghiên cứu dịch tễ. 2. Biên tập số liệu Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích  thống kê. Bước đầu tiên là xem sự  phân phối của từng biến số  để  phát hiện các sai  lầm có thể. Đối với biến số phân loại, điều này thực hiện bằng bảng phân phối tần  suất để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất của   mỗi nhóm là hợp lí. Đối với biến số  định lượng, kiểm tra phạm vi   cần được tiến   hành để phát hiện những giá trị nằm ngoài phạm vi mong đợi. Tổ chức đồ cũng có thể  dùng để tìm kiếm các  giá trị bất thường (outliers) không phù hợp với phần số liệu còn   lại. Bước tiếp theo là tiến hành kiểm tra tính hàng định, để  tìm kiếm những trường hợp   mà 2 hay nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số  lần mang thai trong bộ số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không  có người nam giới nào có số lần mang thai là một hay nhiều hơn. Phân tán đồ cũng có   thể được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ  phân tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo  chiều cao. Những giá trị bất thường cũng có thể được phát hiện bằng cách này. Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần   phải điều chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết  (missing value)   nếu chắc chắn rằng số  liệu sai (thí dụ  một bà mẹ  có trọng lượng  trước khi sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai). Trong trường hợp   còn chưa rõ, khi số  liệu là bất thường nhưng không bị  xem là không thể  xảy ra, tốt  nhất là để  số  liệu giữ  nguyên. Một cách chặt chẽ, việc phân tích sau đó phải được   kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá trị cực đoan này.  Trên thực tiễn, giá trị  bằng số  thường được chia thành các nhóm  trước khi phân tích  và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả. Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không  mắc bệnh bởi vì phân phối của 2 nhóm này có thể hoàn toàn  khác nhau. 3. Mô tả số liệu Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại.   Điều này được thực hiện cho 2 mục đích. Thứ  nhất, để  đảm bảo rằng tất cả  các số  liệu đều đã được sắp xếp phù hợp và thứ  hai để  có một cảm giác về  số  liệu. Cảm   giác vế số  liệu là sự hiểu biét về đặc tính của dân số đối với biến số phơi nhiễm và  các giá trị  khác cần đo lường. Khi thực hiện nghiên cứu bệnh chứng, chúng ta cần 
  2. phải xem xét số liệu một cách riêng biệt. 4. Phân loại biến số Nói chung sẽ  rất  hữu ích nếu chúng ta phân biệt các loại biến số  "kết cuộc", "phơi  nhiễm", "gây nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm   là các biến số  trung tâm của nghiên cứu trong đó biến số  kết cuộc mô tả  vấn đề  nghiên cứu và biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước lượng  tác động của nó lên biến số kết cuộc. Biến số gây nhiễu là biến số  làm biến dạng quan hệ giữa biến số phơi nhiễm và két   cuộc. Chúng ta thu thập số  liệu của các biến số  gây nhiễu để  loại bỏ  tác động của  yếu tố gây nhiễu trong khi phân tích. Biến số thay đổi tác động là biến số thay đổi tác  động của biến số phơi nhiễm lên nguy cơ. Chúng ta thu thập số  liệu của các biến số  thay đổi tác động để  xem xét tác động của biến số  phơi nhiễm lên nguy cơ  thay đổi  như thế nào tuỳ theo giá trị của biến số thay đổi tác động. Trên thực tiễn, mối liên hệ giữa các biến số có  thể phức tạp hơn. Thí dụ một biến số  có thể  gây nhiễu tác động của một yếu tố  phơi nhiễm cần quan tâm nhung bản thân  nó có thể là biến số phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một   biến sô phơi nhiễm này nhưng làm thay đổi tác động cho một biến số  phơi nhiễm  khác. Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể  trở  thành biến số  phơi nhiễm quan trọng hoặc nếu nó không trở  thành biến số  phơi  nhiễm quan trọng, nó có thể được xem là biến số gây nhiễu hay thay đổi tác động. 5. Rút gọn số liệu Trước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số.  Bởi vì phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu   của nghiên cứu, việc phân nhóm là quan trọng cho các biến số  liên tục. Việc phân  nhóm cũng cần thiết cho biến số phân loại hay biến số rời rạc nếu các biến số này có  chứa một số lớn các nhóm (thí dụ như nghề nghiệp, số lần mang thai). Số nhóm được   phân chia phụ thuộc vào từng loại biến số: đối với biến số phơi nhiễm cần phân chia  thành nhiều nhóm  hơn đối với biến số gây nhiễu hay biến số thay đổi tác động. Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào  mức độ  phơi nhiễm (quan hệ   liều lượng – đáp  ứng), chúng ta sẽ  mắc sai lầm nếu   chúng ta sử dụng quá ít nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt   riêng (thí dụ  nhóm không hút thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm   (thường là 4 hay 5 nhóm là đủ  để  có thể  xem xét mối quan hệ  liều lượng đáp  ứng).   Đối với biến số liên tục như  tăng huyết áp, có thể  chia các giá trị  của biến số  làm 5   nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều này giúp cho độ  chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm do nếu   có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ  phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các  nghiên cứu trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi   trong từng nhóm.
  3. Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ  đối với phần lớn các yếu tố  gây  nhiễu. Dù vậy nếu biến số  gây nhiễu mạnh (thí dụ  như  tuổi) thì có thể  phân thành   nhiều nhóm hơn. Trước khi quyết định số nhóm cần dùng trong phân tích, chúng ta có   thể đánh giá sức mạnh quan hệ  giữa biến số gây nhiễu và biến số  kết cuộc. Nếu sự  quan hệ này là yếu thì chúng ta có thể kết hợp nhiều nhóm lại với nhau. 6. Đo lường tác động Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa  chọn bao gồm: Thiết kế nghiên cứu Đo lường tần suất bệnh Đo lường tác động Đoàn hệ (người thời gian) Tỉ suất Tỉ số tỉ suất Hiệu số tỉ suất Đoàn hệ  (không có số  liệu  Nguy cơ Tỉ số nguy cơ người thời gian) Hiệu số nguy cơ Số chênh Tỉ số số chênh Hiện mắc Tỉ lệ hiện mắc Tỉ số nguy cơ (hiện mắc) Hiệu số nguy cơ Số chênh Tỉ số số chênh Bệnh chứng Tỉ số số chênh Đối với nghiên cứu đoàn hệ, nếu có số  liệu về  người thời gian phơi nhiễm, tỉ  suất   mới mắc thường là số  đo tần suất được chọn lựa và tỉ  số  tỉ  suất là số  đo tác động   được chọn lựa. Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc, tỉ số  nguy cơ sẽ được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh thường   được sử dụng do tính chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn.   Bởi vì hồi quy logistic thường được sử  dụng để   ước lượng tỉ  số  số  chênh, tỉ  số  số  chênh cũng được sử dụng do nó cho kế quả hằng định với kết quả của phân tích hồi   quy logistic. Trong nghiên cứu bệnh chứng, tỉ  số  số  chênh thưưòng được dung để  đo lường tác  động mặc dù nó có thể   ước lượng cho tỉ số  nguy cơ hay tỉ số tỉ suất, phụ thuộc vào   phương pháp chọn lựa nhóm chứng. 7. Phân tích đơn biến Thông thường nên bắt đầu với phân tích thô đơn biến, sử  dụng các phương pháp cổ  điển để xem xét  sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ  qua các biến số khác. Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp   hơn và có xem xét đến tác động của các biến số  khác, phân tích đơn biến vẫn có ích   lợi vì: i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ 
  4. số liệu; thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một  nhóm phơi nhiễm nhất định. ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết   cuộc iii) Mức độ  thay đổi của ước lượng tho so với  ước lượng khi các biến số  khác được  đưa vào để  sử  dụng trong phân tầng flà một chỉ  số  quan trọng để  đánh giá sự  hiện  diện của yếu tố gây nhiễu. Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức nền.   Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm  ít nhất nếu ai đó đều bị phơi nhiễm ít nhiều). Tuy nhiên nếu nhóm này có ít người thì  ước lượng sẽ có sai số chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm   nền tảng. Phânt ích phơi nhiễm với 2 hoặc hơn các mức độ  (cả  khi phân tích thô và  phân tích phân tầng) sẽ bao gồm: i) Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không? iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để  tìm bằng  chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần. 8. Kiểm soát các yếu tố gây nhiễu Yếu tố  gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực   hiện loại bỏ  các yếu tố  gây nhiễu trong các phân tích của biến số  phơi nhiễm quan   tâm. Chúng ta đã có 2 công cụ  cho nhiệm vụ  này: phương pháp cổ  điển (Mantel­ Haenszel) dựa trên phân tầng và phương pháp mô hình hoá với các phương trình hồi   quy.  Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau: i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ  với số  liệu. Ngược lại,   phương trình hồi quy là một hộp đen có thể  gây ra những sai số  tai họa khi mô hình  hoá. ii) Phương pháp cổ  điển đòi hỏi ít giả  định nên có thể  phát hiện được các mối liên   quan phức tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác. Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu   và khi muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá   nhiều tầng sẽ  khiến cho số  liệu của mỗi tầng trở  thành quá nhỏ  và sẽ  khiến sức  mạnh thống kê bị kém và khoảng tin cậy của ước lượng sẽ rộng ra. Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một   ước lượng có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này đúng   cho hầu hết các loại nghiên cứu ngoại trừ  nghiên cứu bệnh chứng bắt cặp cá nhân   trong đó kĩ thuật phân tầng cổ điển có rất ít giá trị. Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có   giả định giống như giả định trong phương pháp phân tầng và do đó cho kết quả  hoàn  toàn đồng nhất. Phương trình hồi quy ngoài ra còn có một số lợi ích sau: i) Giả  định rằng không có tương tác giữa các biến số  gây nhiễu, chúng ta có thể  làm  
  5. giảm số tham số cần thiết ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của   các biến số khác. iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn. 9. Cách đưa vào biến số gây nhiễu i) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng  (những biến số  này đuợc gọi là biến số  gây nhiễu trù định ­ a priori confounders)   những bCác biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của   bệnh và được cho là có thể  có liên quan đến biến số  phơi nhiễm quan tâm. Theo các  quy tắc chung, những biến số này phải được kiểm soát trong phân tích. ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một  và xem có làm thay đổi con số ước lượng tác động hay không. iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động.   Khi đó phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với  các biến số gây nhiễu bổ sung có tác động. Không cần thiết phải đưa tất cả các biến  số tất cả các biến số gây nhiễu bổ sung vào phân tích cuối cùng bởi vì  một số biến số  gây nhiễu không làm thay đổi  ước lượng tác động của biến số phơi nhiễm quan tâm  nếu đã được kiểm soát cho các biến số gây nhiễu khác. Nếu có 3 hay ít hơn các biến số gây nhiễu thì  chỉ cần sử dụng phương pháp cổ điển  là đủ. Trong trường hợp này, lần lượt phân tầng cho từng biến số  và sau đó phân tầng  cho đồng thời các biến số để xem các ước lượng tác động thay đổi như thế nào. Chiến  lược này đủ để loại bỏ hầu hết các ảnh hưởng gây nhiễu. Khi số  các biến số  gây nhiễu là quá lớn và không thể  kiểm soát bằng phương pháp  phân tầng đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương tác   giữa các biến số gây nhiễu) sẽ có giá trị. Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm   tra xem kết quả  có phù hợp với phân tích phân tầng đơn giản hay không. Điều này  giúp chúng ta tránh được các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Sau đó   có thể xây dựng các mô hình phức tạp hơn bao gồm: ­ Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm ­ Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định) ­ Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động   gây nhiễu đáng kể. Tránh việc đưa vào các biến số không phải là yếu tố  gây nhiễu cho bệnh đặc biệt là  nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số  chuẩn lớn và khiến ước lượng kém chính xác. Cần lưu ý rằng các biến số  được xem là gây nhiễu phụ  thuộc một phần vào quyết   định trù định (a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau  khi kiểm soát cho yếu tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào kết quả của  kiểm định ý nghĩa. Do đó các nhà thống kê và dịch tễ hang đầu thường không khuyến   cáo sử dụng phương pháp  hồi quy từng bước (stepwise) trong phân tích dịch tễ.
  6. 10. Phân tích tương tác Hồi quy là một công cụ  rất phù hợp cho phân tích sự  tương tác. Có 3 loại tương tác  cần được phân biệt i) tương tác giữa các biến số gây nhiễu Sự  khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ  điển là phương  pháp cổ  điển cho phép xem xét sự  tương tác giữa các biến số  gây nhiễu. Điều may   mắn là trên thực thế, hầu như không bao cần xem xét sự  tương tác giữa các biến số  gây nhiễu. ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm: Trên lí thuyết thống kê, việc tính toán con số   ước lượng tác động chính xác, sau khi   hiệu chỉnh cho các yếu tố  gây nhiễu chỉ  cần thiết nếu tác động là đồng nhất  ở  các   mức khác nhau của yếu tố  gây nhiễu. Tuy nhiễn trên thực tế, có thể  là tác động sẽ  thay đổi ít nhiều giữa các nhóm gnhĩa là ít nhiều có sự tương tác của phơi nhiễm quan   tâm  và yếu tố gây nhiễu được kiểm soát trong phân tích. Khi có sự hiện diện đáng kể  của tương tác, tác động đặc hiệu của từng tầng phải được báo cáo. iii) Tương tác giữa các biến số phơi nhiễm quan tâm Nếu có sự  tương tác giữa các biến số  phơi nhiễm quan tâm thì điều này là rất quan   trọng cho việc lí giải khoa học của kết quả  phân tích và cho việc  ứng dụng các can  thiệp dự phòng. Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số  có thể  là không  có ích lợi. Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và   nếu chúng ta lần lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả  các biến   số sẽ dễ dàng bỏ qua những tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo.   Chúng ta cũng nên nhớ rằng mục tiêu của nghiên cứu dịch tễ là tìm ra một bức trạnh   đơn giản nhưng chân thật và hữu dụng của thực tế. Nếu có tương tác yếu, bản thân  điều này  không có ý nghĩa quan trọng lắm cho nên việc tính toán ước lượng gộp của   tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật. Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân   tích và chỉ  nên xem xét tương tác phơi nhiễm­phơi nhiễm và phơi nhiễm­gây nhiễu,   đặc biệt chú ý đến những yếu tố  tương tác trù định đáng được nghiên cứu. Nên xem   xét từng yếu tố  tương tác một để  tránh những mô hình quá phức tạp với nhiều tham  số. 11. Nghiên cứu bệnh chứng bắt cặp Phân tích bệnh chứng đúng cách sẽ  kiểm soát các tác động gây nhiễu do biến số  bắt  cặp. Tuy nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là   biến số gây nhiễu. Việc phân tầng có thể  được sử  dụng để  kiểm soát những yếu tố  gây nhiễu bổ  sung   nếu chúng ta chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất  về  phương diện yếu tố  gây nhiễu quan tâm. Điều này sẽ  khiến cho các tầng này có   rất ít số liệu nên sẽ tạo ra các ước lượng kém tin cậy. Có hai cách để giải quyết vấn   đề này:
  7. 1. Sử  dụng hồi quy logistic có điều kiện. Cách tiếp cận này rất ích lợi cho phép sử  dụng toàn bộ số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc, mặc dù điều   này đòi hỏi thêm các giả định. 2. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số  đã được đo lường trong   nghiên cứu (thí dụ như tuổi và giới), cách tiếp cận khác là phá vỡ việc bắt cặp và phân   tích số liệu như là nghiên cứu bắt cặp tần suất. Trong trường hợp này, tuổi và giới sẽ  được kiểm soát   như  là một tầng trong phân tích. Chúng ta có thể  sử  dụng phương   pháp phân tầng hay  hồi quy logistic không điều kiện để tiếp tục phân tích. 12. Những trở ngại trong phân tích và lí giải số liệu Nếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự so  sánh đã được thiết lập trong đề  cương nghiên cứu và đã được thống nhất trước khi  nghiên cứu được tiến hành. Nếu nghiên cứu đủ  lớn thì việc ngẫu nhiên hoá sẽ  đảm  bảo 2 nhóm cân bằng với nhau về tất cả các biến số  gây nhiễu và việc phân tích kết   quả sẽ rất đơn giản. Nghiên cứu dịch tễ  thường gặp thường có liên quan đến nhiều biến số, ngay cả  khi   chúng ta đã xác định biến số  phơi nhiễm quan tâm từ  trước. Sự  khác biệt trong việc  quyết định phân nhóm số  liệu và chiến lược mô hình hoá sẽ  cho những kết luận có  thể rất khác biệt. Có nhũng quan điểm khác nhau về  cách xử  lí số  liệu từ  các nghiên cứu thăm dò.   Những lí do cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm: (i) Nhiều so sánh: Ngay cả  khi không có sự  liên quan giữa biến phơi nhiễm và kết cuộc, chúng ta sẽ  hi   vọng sẽ có 1 trong 20  so sánh sẽ có ý nghĩa thống kê ở mức 5%. Do đó lí giải mối liên  quan trong nghiên cứu mà tác động nhiều yếu tố  phơi nhiễm được đo lường sẽ  cần  phải cẩn thận hơn trong một nghiên cứu với một giả  thuyết được trù định từ  trước.   Tìm kiếm tất cả các liênq uan với một biến số kết cuộc được các nhà thống kê gọi là   "nạo vét số liệu" (ii) Phân tích từng nhóm nhỏ: Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các   nhóm số liệu, đặc biệt là khi không có bằng chứng về mối liên quan chung. Chúng ta   thường dễ bị cám dỗ và cho rằng đó là một kết quả lí thú của nghiên cứu, nhất là khi   nếu loại bỏ nó ra nghiên cứu này là một nghiên cứu âm tính. (iii) So sánh được chỉ định do kết quả phân tích Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi   lí giải giá trị  p này như  thể  giá trị  p này là của một so sánh có trù định. Thí dụ  nếu  chúng ta có 10 nhóm tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2, nhóm 3, …,  nhóm 10 rồi so sánh nhóm tuổi 1 và 2 với nhóm 3, 4,…10 và tiếp tục. Chúng ta có 9 so  sánh như vậy và sau đó chúng ta sẽ chọn cách so sánh nào có sự khác biệt nhiều nhất   và có ý nghĩa thống kê nhất giữa nhóm trẻ  và nhóm già. Cách này là cách so sánh chỉ  định do kết quả  phân tích. Lẽ  ra chúng ta phải quyết định việc phân nhóm càng sớm   càng tốt trước khi xem sự  khác biệt trong  phân nhóm tuổi  ảnh hưởng đến kết luận 
  8. của nghiên cứu. Điều này không có nghĩa là tất cả  các nghiên cứu dịch tễ  phải có giả  thuyết nghiên  cứu và phương pháp phân tích được chỉ  định từ  trước khi tiến hành thu thập số  liệu.  Việc lí giải kết quả phải bị ảnh hưởng bởi việc phân tích. Nếu chúng ta tìm được một  mối liên quan có ý nghĩa trong 50 mối liên quan được kiểm định thì điều này sẽ  phải  được khẳng định rõ rang. Chúng ta chỉ  nên xem mối liên hệ  này chỉ  nhằm tạo ra giả  thuyết để được kiểm định trong tương lai.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2