PHƯƠNG PHÁP LUẬN TRONG NGHIÊN CỨU KHOA HỌC Y HỌC PHẦN 4

Chia sẻ: Nguyen Trinh | Ngày: | Loại File: PDF | Số trang:14

Thêm vào BST

Báo xấu

255
lượt xem 66
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

VAI TRÒ CỦA TOÁN THỐNG KÊ TRONG NGHIÊN CỨU Y HỌC. Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: PHƯƠNG PHÁP LUẬN TRONG NGHIÊN CỨU KHOA HỌC Y HỌC PHẦN 4

Phần II THỐNG KÊ ỨNG DỤNG TRONG NGHIÊN CỨU Y HỌC 49
VAI TRÒ CỦA TOÁN THỐNG KÊ TRONG NGHIÊN CỨU Y HỌC Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh. Sự khoẻ mạnh của một con người, của một quần thể dân cư nằm trong mối liên quan tổng hợp với các yếu tố môi trường và sinh thái. Các quá trình sinh lý, sinh hoá diễn ra trong cơ thể cũng tuân theo một quy luật toán học về mặt sinh học. Việc sử dụng toán thống kê trong nghiện cứu Y học nói riêng, Y sinh học nói chung sẽ góp phần đánh giá một cách chuẩn xác các vấn đề sức khoẻ và bệnh tật, đồng thời cũng xác định được mối tương quan, quan hệ nhân quả của các yếu tố tác động sinh ra trong môi trường lên sức khoẻ và bệnh tật của cộng đồng. Ngày nay các nghiên cứu điều tra cơ bản, nghiên cứu can thiệp hoặc các giải pháp công nghệ cũng được toán học hoá để tìm ra những quy luật trong sức khoẻ cộng đồng. Các giải pháp ưu tiên và những can thiệp sẽ hữu hiệu hơn nếu như vấn đề được bao quát đủ cả hai mặt định tính và định lượng. Như vậy sự cần thiết phải tập hợp, phân tích và so sánh nhiều số liệu quan trắc, đúc kết thành quy tắc, quy luật định lượng hoá có thể ứng dụng được là điều đương nhiên. Thống kê Y sinh học (Biostatistics): là môn toán ứng dụng, sử dụng toán học để nghiên cứu, phân tích các vấn đề Y học và sinh học, đó chính là sự toán học hoá các vấn đề sinh học và sức khoẻ con người, làm cho nó phổ biến và đặc trưng cũng như sự trừu tượng hoặc cụ thể về nội dung và hình thức được nâng lên một bước rõ rệt và sâu sắc hơn để cho sự hiểu biết cũng tiến dần đến bản chất. Từ một môn học mô tả và định tính, trong quá trình phát triển, thống kê đã trở thành môn khoa học ứng dụng, chính xác hoá với nhiều phương tiện hiện đại trợ giúp con người trong quá trình tính toán, xử lý các số liệu nghiên cứu đã thu được trên thực tế như các thế hệ máy vi tính mới, ngôn ngữ lập trình sâu và rộng có thể giải đáp được nhiều vấn đề nhanh chóng và phức tạp, như các phần mềm EPI- INFO, SPSS... Toán thống kê trong y sinh học được trình bày trong khuôn khổ cuốn tài liệu này bao gồm một số vấn đề cơ bản sau đây: 1. Thu thập số liệu: phần này được trình bày một cách sơ lược và sẽ bổ xung trong quá trình thực hiện các nhiệm vụ nghiên cứu. Đây là giai đoạn quan trọng nhất mà mỗi nhà nghiên cứu cần phải lưu tâm. Các số liệu nghiên cứu cần được thu thập đầy đủ và chính xác, sau đó được kiểm tra một cách khoa học sẽ là cơ sở chắc chắn và đáng tin cậy cho tất cả những giai đoạn kế tiếp. 2. Sắp xếp và trình bày số liệu thu được, tìm ra những tham số đặc trưng. Thông thường việc sắp xếp phải theo những ý tưởng và kỹ thuật phù hợp với mục tiêu nghiên 50
cứu thì mới có được cách giải quyết vấn đề phù hợp, đồng thời cũng nổi rõ.được kết quả. 3. Nghiên cứu các quy luật biến thiên của các trị số quan trắc thực tế, xây dựng thành mô hình lý thuyết, toán học hoá. Đây là yêu cầu bắt buộc đối với những người làm nghiên cứu ở trình độ cao vì qua đó những vấn đề nghiên cứu sẽ được khẳng định một cách khoa học nhất. 4. So sánh các tập hợp số liệu với nhau về bản chất cũng như các vấn đề có liên quan giữa các chùm số liệu được quan trắc. 51
CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN 1. Tập hợp 1.1 Khái niệm Trong nghiên cứu, quan sát một nhóm các số liệu hoặc một nhóm các cá thể ta nới tầng có một tập hợp mà mỗi cá thể trong đó gọi là một phần tử của tập hợp. Ví dụ: Một lớp học 50 người được xem là một tập hợp trong đó mỗi người là một phần tử của tập hợp. 1.2. Sắp xếp các số liệu trong tập hợp Khi nghiên cứu với số lượng càng nhiều các số liệu, việc sắp xếp chúng càng trở nên cần thiết. Cách sắp xếp số liệu cần dựa trên cơ sở định tính và định lượng và phân nhóm cụ thể. Về nguyên tắc ta nên xếp các nhóm dựa vào định tính với thuộc tính đồng khả năng sau đó mới tính đến thuộc tính về lượng và theo thứ bậc từ thấp đến cao hoặc ngược lại. Tuỳ loại hình nghiên cứu mà có cách sắp xếp phù hợp tạo thành chuỗi thống kê. Ví dụ: + Phân nhóm theo lứa tuổi: 0 - 4 tuổi 5 - 9 tuổi 10 - 14 tuổi 15 - 19 tuổi 20 - 29 tuổi 30 - 39 tuổi ………… 60 - 69 tuổi ≥ 70 tuổi Ngay cách phân nhóm này cũng có thể chi tiết hơn hoặc tổng hợp hơn. + Phân nhóm theo thời gian: Trong nghiên cứu bệnh lý lâm sàng ngoại khoa có thể chia ra các nhóm, các trường hợp viêm ruột thừa đến trước 24 giờ, (24 - 28 giờ, 48 - 72 giờ, sau 72 giờ). + Sắp xếp theo khoảng cách: khi đo chiều cao, cân nặng... Ta xếp các nhóm có khoảng cách gần nhau vào các nhóm để số lần ghi chép, tính toán sẽ giảm đi. 52
Ví dụ: Nhóm 141 - 145 cm Nhóm 146 - 150 cm Nhóm 151 - 155 cm Nhóm 156 - 160 cm Nhóm 161 - 165 cm Nhóm 1 66 - 170 cm …………………… 2. Xác suất 2.1. Sự kiện Sự kiện là một vấn đề hoặc kết quả của phép thử. Mỗi sự kiện tương ứng với một tập hợp. Có sự kiện là tất yếu song có sự kiện là ngẫu nhiên thậm chí có sự kiện lại là sự kiện không thể nhưng vẫn được đặt ra để tiến hành phép thử trong quá trình nghiên cứu. 2.2. Xác suất Nếu gọi K là số lần xuất hiện sự kiện A trong n phép thử ta có tần suất của A là K tỷ số: n Khi n tiến dần đến vô hạn (n → ∞) thì tần suất này dao động quanh hằng số p nào đó, hằng số “p” được gọi là xác xuất của A. Ví dụ: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X Bảng: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X năm 2004 Quý Số trẻ sinh Số trẻ trai Tần suất I 100 45 0,45 II 500 219 0,438 III 1000 432 0,432 IV 2000 861 0,4305 Số sản phụ đến đẻ ở bệnh viện nhiều lên, tần suất trẻ trai được sinh ra dao động quanh giá trị 0,43. Do đó nếu A là sự kiện trẻ sơ sinh trai, gọi F (A) là số lần sinh trẻ trai trong n lần sinh của các sản phụ của bệnh viện X năm 2006. Ta sẽ có: 1 Vậy xác suất P (A) bằng xác suất cả một sự kiện ngẫu nhiên A, là giới hạn của tần suất xảy ra sự kiện A khi n tăng đến vô hạn. 53
Ta có: 0 ≤ P (A) ≤ 1 Nếu A là sự kiện tất yếu, P (A) = 1 Nếu A là sự kiện không thể, P(A) = 0 Vậy xác suất P(A) của sự kiện ngẫu nhiên A càng gần 1 thì sự kiện A càng chắc chắn xảy ra và ngược lại. Kết luận với P = 0,999999 xem như chính xác hoàn toàn Kết luận với P = 0,999 coi như chắc chắn Kết luận với P = 0,99 thì kết luận là chắc chắn Kết luận với P = 0,9 thì kết luận này có chiều hướng chắc chắn 3. Quần thể và mẫu 3.1. Quần thể Quần thể bao gồm các loại: Quần thể tổng quát (quần thể toàn bộ), quần thể định danh, quần thể có nguy cơ, quần thể bị đe doạ. Các quần thể này có xu hướng đặc hiệu dần và nhỏ dần. Khi chọn mẫu nghiên cứu (n) cho nhóm chủ cứu trong quần thể N ta có thể chọn trong quần thể nào là tuỳ vào điều kiện và mục đích nghiên cứu. 3.2. Mẫu nghiên cứu Không thể chọn mẫu nghiên cứu là tổng số cá thể trong quần thể toàn bộ N, ví dụ: Toàn thể các cá thể của loài muỗi Aedes aegyty ở Thái Nguyên. Mẫu nghiên cứu n là một tập thể được rút ra từ quần thể N số phần tử nằm trong mẫu (n) gọi là kích thước mẫu. 54
CÁC ĐẠI LƯỢNG VÀ CHỈ SỐ THỐNG KÊ 1. Số trung bình và các giá trị trung tâm khác Khi kết quả nghiên cứu được thu thập và sắp xếp thành các chuỗi thống kê hoặc các phân phối tần số ta cần nhìn nhận một cách chung nhất, có thể tóm gọn lại bằng một số con số để so sánh, đối chứng với nhau hoặc với hằng số hay nghiên cứu tương tự. Đây là sự thể hiện bằng các tham số đặc trưng. Có hai loại tham số đặc trưng thường gặp là: - Các giá trị trung tâm (giá trị điển hình). - Các tham số hoặc chỉ số phân tán. 1.1. Số trung bình (mean) Đây là trung bình số học, là giá trị trung tâm thường dùng để làm nên giá trị điển hình hoặc đặc trưng cho chuỗi thống kê. Thí dụ: Đo hàm lượng glucose huyết lúc đói cg/lít ở 17 người (n = 17) ta thu được các số liệu sau: Bảng: Hàm lượng glucose huyết lúc đói cg/1ít 75 80 85 85 90 95 95 95 100 100 100 100 100 105 105 110 120 Số trung bình ký hiệu bằng ( X ) của chuỗi thống kê được tính như sau: Có thể viết một cách tổng quát nếu đại lượng Xi có n trị số X1, X2, X3,…Xn thì Số trung bình X sẽ được tính như sau: Σ là chữ cái Hy Lạp viết hoa chỉ một tổng gồm nhiều trị số. Muốn thể hiện đầy i=n đủ ta phải viết Σ dưới dạng ∑i =1 mà ta phải đọc như sau: “Tổng (hoặc xích ma) các trị số của đại lượng X từ i = 1 đến i = n”. Ở thí dụ trên ta gặp trị số 85, 95, 100 nhiều lần nên khi tính toán ta có thể nhóm lại cho gọn. Các tần xuất này ta gọi là ni 55
Vậy công thức tổng quát là: Để tính các giá trị mà ni và xi đều lớn người ta có thể đơn giản bằng cách đổi gốc nếu ta chọn được một giá trị xi có tần số n cao nhất gọi là xo như vậy ta sẽ có công thức: Ví dụ: Cách tính cân nặng trung bình của 815 em bé trai 10 tuổi với các số liệu như bảng sau: X1 n1 x1-x0, n1 (x1- x0) 16 4 -5 -20 17 9 -4 -36 18 31 -3 -93 19 75 -2 -150 20 183 -1 -183 21 204 0 0 22 157 1 157 23 97 2 194 24 40 3 120 25 12 4 48 26 3 5 15 n = 815 Σ = 52 Áp dụng công thức ta sẽ có: Nếu giữa các nhóm có khoảng cách K (hằng số) thì công thức sẽ có dạng: xi − x0 Nếu đặt = x i' ta sẽ có công thức: K Ví dụ: Tính huyết áp tối thiểu (mmHg) của 2750 nam giới được phân bố vào 12 nhóm với khoảng cách K = 5. 56
Bảng: Huyết áp trung bình của 2750 nam giới xi − x0 Xi ni xi = xo x i' = ni, xi’ K 40 4 -30 -6 -24 45 8 -25 -5 -40 50 90 -20 -4 -360 55 186 -15 -3 -558 60 397 -10 -2 -794 65 464 -5 -1 -464 70 598 0 0 0 75 431 5 1 431 80 315 10 2 630 85 185 15 3 555 90 46 20 4 184 95 25 25 5 125 N = 2750 Σni,xi’ = -321 Ứng dụng công thức ta có: Số trung bình là một từ số tổng hợp cô đọng, nhưng có đầy đủ giá trị của tất cả những cá thể trong tập hợp. Trung bình cộng không chỉ là một trị số đơn thuần giữa các giá trị khác nhau của xi trong tập hợp mà là một trung bình có trọng lượng bởi lẽ nó được tính ra từ tất cả các cá thể. Số trung bình ( X ) tiêu biểu cho toàn bộ các cá thể của tập hợp, nó đại diện một cách đầy đủ và chặt chẽ nếu tập hợp có độ đồng nhất cao. Số trung bình tiêu biểu cho một đặc điểm căn bản của tập hợp, đó là xu hướng tập trung trên một cái cốt giống nhau. 1.2. Trung vị (median)- Me Trung vị (Me) là số đứng giữa một chuỗi thống kê đã được sắp xếp. Ví dụ: 1 2 2 3 4 6 6 7 9 ở đây Me là số 4 vì nó đứng ở vị trí số 5 trong chuỗi thống kê có n = 9. n +1 Vậy: Me = nếu n là số lẻ. 2 n n +1 Nếu n là số chẵn thì Me là trị số thứ và 2 2 57
1.3. Mốt (Mode) Mốt là trị số của xi ứng với tần suất cao nhất, và nghĩa là trị số của xi này được gặp nhiều lần nhất, tương ứng với giá trị xo mà ta đã nói ở trên (1.1). Mode được ký hiệu là Mo. Ở bảng huyết áp tối thiểu của 2750 nam giới Mo = 70 mmHg. Trên các hình, đặc biệt là biểu đồ đa giác tần số hoặc giản đồ cột ta có thể thấy trực tiếp Mo ở vị trí cao nhất. Mode có giá trị quan trọng về mặt mô tả vì nó cho biết giá trị xi thường gặp nhất, đây là điều cần thiết trong các thống kê ứng dụng. Cho nên trong các trường hợp phân phối không đối xứng ta cần biết nó cùng với số trung bình. Bài tập mẫu: Tính giá trị trung bình đối với các số liệu của các bài toán sau: Chiều cao và cân nặng của sinh viên 2 lớp A và B Chiều cao lớp A Chiều cao lớp B Cân nặng lớp A Cân nặng lớp B xi ni x1 n1 x1 n1 x1 n1 158 2 158 4 16 2 16 4 159 3 159 3 17 3 17 6 160 1 160 5 18 4 18 12 161 4 161 6 19 6 19 48 162 6 162 6 20 16 20 71 163 6 163 7 21 37 21 148 164 4 164 7 22 92 22 270 165 3 165 8 23 1 02 23 308 166 3 166 5 24 79 24 280 167 2 167 6 25 73 25 242 168 2 168 6 26 58 26 152 169 1 169 4 27 35 27 80 170 1 170 3 28 20 28 21 171 2 171 2 29 6 29 17 172 1 172 1 30 1 30 4 Ở bài toán trên có 4 giá trị X ta cần phải tính, như vậy việc cần làm trước hết là chọn công thức nào cho phù hợp? Tiếp theo cần phải lập bảng với số cột tương ứng với số thừa số trong công thức để tính kết quả. 2. Các tham số, số đo chỉ sự phân tán Các tham số đặc trưng cho độ phân tán thường dùng là: Phương sai, độ lệch chuẩn, hệ số biến thiên... Giá trị trung bình chỉ phản ánh được một đặc điểm của chuỗi thống kê, là xu hướng tập trung của số liệu. Trong nhiều trường hợp bản thân hiện tượng hay quá trình đã thay đổi rõ rệt nhưng số trung bình không thay đổi, hoặc thay 58
đổi rất ít. Do đó việc đánh giá mức độ phân tán của các số liệu so với số trung bình là không thể bỏ qua được. 2.1. Khoảng biến thiên (KBT) Khoảng biến thiên biểu thị độ phân tán trong một tập hợp một cách đơn giản nhất. KBT được xác định bằng hiệu số giữa giá trị lớn nhất và nhỏ nhất của chuỗi số liệu, tính bằng công thức: R = Xmax - Xmin Ví dụ: Trọng lượng của hai nhóm thanh niên cùng khu vực được chăm sóc theo chế độ khác nhau và được ghi lại như sau: Nhóm 1: 40 45 50 55 60 65 70 75 80 (kg) Nhóm 2: 56 57 58 59 60 61 62 63 64 (kg) Cả hai nhóm đều có trọng lượng trung bình là 60kg nhưng khoảng biến thiên của hai nhóm khác nhau R1 = 40 kg R2 = 8 kg Như vậy cân nặng nhóm hai đồng đều hơn nhóm một, KBT càng nhỏ, tính đồng nhất của chuỗi thống kê càng cao, giá trị trung bình càng đại diện được cho chuỗi thống kê hơn. 2.2. Phương sai (variance) và độ lệch chuẩn Phương sai của một tập hợp thống kê, là tỷ số giữa tổng bình phương biến sai của các trị số cá thể quanh số trung bình cộng ( X ) với tổng số bậc tự do của tập hợp. Phương sai chỉ có ý nghĩa trong thống kê đơn thuần về mặt toán học. Trong thực tế nhà nghiên cứu chỉ thông qua phương sai để tính độ lệch chuẩn bởi vì không thể tính độ lệch chuẩn trực tiếp bằng toán học. Phương sai của một tập hợp giống như cầu nói cho nhà nghiên cứu xác định độ phân tán của dãy số liệu. Phương sai có thể ký hiệu như sau: δ2 hay S2 δ là chữ xích ma thường trong chữ cái Hy Lạp. S là chữ La Tinh, còn có khi viết là SD. Công thức: nếu n < 30 thì n ở mẫu số sẽ là (n-1) Trong trường hợp có nhiều số liệu được phân nhóm, để tính số trung bình ta sẽ tìm được xo và đơn vị mới K, ta sẽ có công thức mới: 59
Hoặc đơn giản hơn (không phân nhóm K) Độ lệch chuẩn S là trị số bậc một của phương sai hay nói cách khác chính là căn bậc hai của phương sai: S = S2 Độ lệch chuẩn là giá trị được ứng dụng nhiều trong thực hành, nghiên cứu các vấn đề sinh học và y học bởi chính nó mới cho nhà nghiên cứu biết sự phân tán của những số liệu nghiên cứu đã thu thập được xung quanh số trung bình. Khi tính được độ lệch chuẩn của một tập hợp to hay nhỏ người ta biết được sự dao động của các giá trị Xi xung quanh giá trị trung bình nhiều hay ít và từ đó ta dần dần tính được các hằng số. Hiện nay các hằng số sinh học được thiết lập nhờ sự tính toán số mẫu đông và sự kết hợp các giá trị ngoại suy. Ví dụ ở các bảng sau với các số liệu đã cho của hai nhóm A và B ta có thể lập bảng và tính như sau: Bảng: Số liệu A và B 60
Bảng: Trị số huyết áp tối thiểu ở 2750 nam giới 2.3. Hệ số biến thiên Khi so sánh hai mẫu có phương sai khác nhau Pearson đã đưa ra khái niệm: Hệ số biến thiên (Coefflcient ofvariation), ký hiệu là CV Ví dụ: Chiều cao và cân nặng của 217 sinh viên được nghiên cứu và cho các số liệu như sau: + Chiều cao: X = 160,4cm S = 4,2 cm + Cân nặng: X = 51,2kg S = 3,4 kg Ta tính dược chỉ số CV như sau: Chiều cao: CV = 2,62% Cân nặng: CV = 6,64% Như vậy là số liệu về chiều cao ít phân tán hơn số liệu về cân nặng. 2.4. Hiệu chỉnh Sheppard Trường hợp các số liệu được phân lớp, giá trị trung tâm của lớp đại diện cho tất cả các trị số cá thể của lớp do đó đã có một sai số hệ thống. Nếu phân phối gần phân 61
phối chuẩn, việc phân lớp số liệu có chiều hướng làm gia tăng giá trị của S2.Vì vậy để giảm bớt sai số có hệ thống này, Sheppar đưa ra công thức tính như sau: Trong đó K là khoảng cách nhóm 2.5. Đánh giá hết hợp giữa giá trị trung bình và độ lệch chuẩn Nhằm ước lượng xác suất hoặc độ chính xác trong các nghiên cứu, thông thường người ta sử dụng chỉ số kết hợp “ X ± nS” để lượng giá, thông qua các diện tích đặc biệt dưới đường cong chuẩn thuộc hàm phân bố của luật Gauss chuẩn tức là: Đường cong chuẩn thu gọn xác suất dồn có hình dạng như sau: Hình 1.6. Đường cong Gauss (l) Diện tích của X ± 1S cho biết đa số gần với chuẩn mực của quần thể (68,27%). (2) Diện tích X ± 2S cho biết hầu hết các giá trị nằm trong quần thể. Nếu số lượng nghiên cứu với mẫu đủ lớn thì số đo này sẽ là hằng số vì nó đại diện cho 95,45% quần thể. (3) Diện tích X ± 3S cho biết khi này cần hầu hết các giá trị của quần thể đã lọt vào khung này. Độ đại diện đã rất cao song thông thường nghiên cứu khó đạt được vì đòi hỏi mẫu nghiên cứu rất lớn (99,73%), đây chính là hằng số thu được thông qua các cuộc nghiên cứu quy mô lớn. 62