intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:9

126
lượt xem
12
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ giúp sinh viên có thể nêu được hai phương pháp chính sử dụng trong phân tích thống kê - kiểm định và ước lượng, trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ

  1. SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ 1. Mục tiêu Sau khi nghiên cứu chủ đề học viên có khả năng: ­ Nêu được hai phương pháp chính sử dụng trong phân tích thống kê: kiểm định và ước  lượng ­ Trình bày được định nghĩa của sai số  chuẩn và phân biệt sai số  chuẩn và độ  lệch   chuẩn ­ Nhận thức được ý nghĩa của biến thiên mẫu ­ Trình bày được công thức tính sai số chuẩn của tỉ lệ và khoảng tin cậy của tỉ lệ. 2. Biến số định tính, biến số nhị giá Biến số định tính (qualitative variable ­ categorical variable) là những đặc tính thay đổi  từ  người này sang người khác. Trong số  liệu định tính không có sự  đo lường (định  lượng) mà chỉ có sự phân loại một đối tượng thuộc vào một trong hai loại: Trong nghiên cứu quan sát người ta có thể phân loại các đặc tính về lối sống hay bệnh  tật như: a. Thói quen hút thuốc lá: không hút, bỏ hút, đang hút thuốc lá b. Thói quen ăn uống: ăn chay, không ăn chay c. Xét nghiệm máu phát  hiện nhiễm HIV: dương tính, âm tính d. Đo ECG phát hiện tiền sử nhồi máu cơ tim: Không, nghi ngờ, xác định e. Ung thư trong 10 năm theo dõi hay không: Có, không Trong nghiên cứu thử nghiệm lâm sàng, có thể phân loại đối tượng theo f. Sống còn hơn 1 năm sau khi bị nhồi máu: sống, chết g. Kết quả  lâm sàng sau điều trị  kháng sinh viêm họng, amydale: chữa khỏi, thuyên  giảm, không bớt Ðôi khi các đo lường định lượng cũng được chia nhóm để tạo ra biến số định tính: a. Uống rươu: không, uống thỉnh thoảng, uống đều, nghiện nặng b. Tiểu đường: có (đường huyết lúc đói ≥  140 mg/100mL) hay không Như  đã được trình bày phân phối của biến số  định tính được mô tả  bằng (số  giá trị  của biến số  ­ 1) tần suất. Thí dụ, giả  sử chúng ta thu thập thông tin về thói quen hút  thuốc lá (có 3 giá trị không hút, bỏ hút và hút thuốc) trên thanh niên, chúng ta chỉ  cần tỉ  lệ  thanh niên hút thuốc lá và tỉ  lệ  thanh niên bỏ  hút thì chúng ta biết được phân phối  của  số liệu này (tỉ lệ thanh niên không hút thuốc là có thể tính được khi biết hai tỉ lệ  kia).  Trong bài này chúng ta sẽ chỉ tập trung chú ý đến biến số định tính có 2 giá trị. Biến số  này được gọi là biến số nhị giá (binary variable). Như vậy, vì biến số nhị giá chỉ  có 2  giá trị nên chỉ cần mô tả bằng một con số tỉ lệ (hoặc một con số phần trăm). Thí dụ: Vào quý 3, 1994, một cuộc điều tra dinh dưỡng được tiến hành trên 1503 trẻ  em dưới 5 tuổi tại thành phố  Hồ  Chí Minh. Trong số trẻ  được điều tra có 494 trẻ  bị  suy dinh dưỡng nhẹ cân.
  2. Tỉ lệ trẻ bị suy dinh dưỡng nhẹ cân =  Trình bày theo cách khác, phần trăm trẻ em bị suy dinh dưỡng là 32,9 % 4. Ðại cương về mẫu và phương pháp lấy mẫu Trong nghiên cứu, chúng ta thường chỉ có thể  thu thập số liệu trên một tập hợp nhất   định các đối tượng nhưng chúng ta lại muốn khái quát hóa kết quả của các số  liệu và  áp dụng chúng cho một dân số rộng lớn hơn. Trong thống kê, tập hợp các đối tượng  được   thu   thập   số   liệu   được   gọi   là   mẫu   (sample)   hay   dân   số   nghiên   cứu   (study   population). Dân số  mà chúng ta muốn áp dụng kết quả  của nghiên cứu được gọi là  dân số mục tiêu (target population) Dân số mục tiêu: tập hợp các đối tượng mà chúng ta muốn các thành quả  nghiên cứu   được áp dụng vào Dân số nghiên cứu (còn được gọi là mẫu): tập hợp các đối tượng có các đặc tính hay   đại lượng được thu thập trong quá trình nghiên cứu. Có thể nói điểm mấu chốt của nghiên cưú khoa học là làm sao việc áp dụng có giá trị  các kết quả nghiên cứu (với các số liệu của mẫu) lên dân số mục tiêu. Muốn cho việc   áp dụng có giá trị  một trong những điều kiện tiên quyết là cỡ mẫu (sample size) phải   đủ lớn và phương pháp mẫu phải có tính đại diện. Bằng  trực giác chúng ta cảm nhận được rằng nếu số đối tượng trong mẫu càng nhiều   (cỡ  mẫu càng lớn) thì  ước lượng chúng ta càng có tính tin cậy cao hơn. Thí dụ  nếu   chúng ta muốn biến tỉ  lệ  suy dinh dưỡng  ở  trẻ  dưới 5 tuổi  ở TP Hồ Chí Minh. Nếu  chúng ta chỉ  điều tra trên 10 trẻ  thì chúng ta không tin tưởng vào tỉ  lệ  tính được lắm.  Nhưng nếu chúng ta điều tra 1000 trẻ  (nếu 1000 trẻ  này đại diện cho các trẻ  dưới 5   của TP Hồ Chí Minh) thì chúng ta khá tin vào kết quả khảo sát được. Ðó là cảm nhận  trực giác của chúng ta về biến thiên của mẫu. 5. Kí hiệu Giả sử chúng ta tiến hành một cuộc điều tra tỉ lệ suy dinh dưỡng trên dân số  trẻ  em.   Chúng ta kí hiệu  tỉ lệ suy dinh dưỡng trong dân số này  là π. Nếu chúng ta chọn một  cách ngẫu nhiên n trẻ trong dân số đó nhằm tìm hiểu về tình hình suy dinh dưỡng này   thì tập hợp n trẻ em này được gọi là dân số nghiên cứu (hay mẫu). Trong trường hợp   này cỡ mẫu là n. Chúng ta tính tỉ  lệ  suy dinh dưỡng trên n trẻ  được nghiên cứu bằng cách chia số  trẻ  được phát hiện là suy dinh dưỡng cho n. Tỉ lệ này được kí hiệu bằng p. Nói chung tỉ lệ  trong mẫu p sẽ không đồng nhất với tỉ lệ trong dân số π và nếu chúng ta có nhiều mẫu  nghiên cứu chúng ta sẽ có nhiều tỉ lệ mẫu (p1, p2, p3,....) tương ứng với các mẫu khác  nhau. Tóm lại π là tỉ  lệ trong dân số đích, là một tham số hằng định và chúng ta muốn   biết trong khi đó, p là tỉ  lệ trong mẫu luôn luôn dao động và là số liệu để  chúng ta có   thể rút ra các kết luận về tỉ lệ trong dân số đích π. 6. Biến thiên mẫu nhị thức Giả sử trong dân số đích có tỉ lệ suy dinh dưỡng  π = 30.  Nếu chúng ta lấy một mẫu   gồm n trẻ  em và sử  dụng phân phối nhị  thức chúng ta tính được xác suất trong n trẻ  em đó có x trẻ  bị  suy dinh dưỡng. Chúng ta không lập lại tính toán  ở  đây nhưng kết 
  3. quả tính xác suất khảo sát được x trẻ suy dinh dưỡn khi cỡ mẫu tương  ứng là  5, 20,  và 50. Từ kết quả trên chúng ta có nhận xét như sau: ­ Phân phối xác suất số  trẻ  bị  suy dinh dưỡng (đây là biến cố  được quan tâm) có   khuynh hướng tập trung chung quanh tỉ lệ suy dinh dưỡng ở dân số đích = 0,3 ­ Khi cỡ mẫu nhỏ, phân phối xác suất số trẻ bị suy dinh dưỡng có thể  không cân đối   nhưng khi cỡ mẫu đủ  lớn (khi nπ ≥  5) thì phân phối xác suất có tính đối xứng và có  hình chuông úp. Ðiều này cho thấy rằng biến số  X  (số  trẻ  bị  suy dinh dưỡng ­ tần   suất xảy ra biến cố quan tâm) sẽ tiệm cận phân phối bình thường. ­ Nếu chúng  rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ  bằng với tỉ  lệ  suy dinh dưỡng của dân số đích π. Tuy nhiên thông thường chúng ta không may mắn  như vậy và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich.  Chúng ta dùng (p ­ π)2 để đo lường mức độ dao động của p chung quan  π. Và  chúng ta  có thể chứng minh bằng toán học rằng nếu chúng ta lấy nhiều mẫu ngẫu nhiên gồm n   đối tượng thì trung bình của (p ­ π)2 sẽ bằng với π(1­π)/n Con số π(1­π)/n được gọi là phương sai của tỉ lệ và căn bậc hai của nó được gọi là sai   số chuẩn của tỉ lệ (standard error of a proportion) và nó đo lường mức độ  sai số trung  bình của p, nói cách khác, nó cho chúng ta biết chúng ta hi vọng tỉ  lệ  p của chúng ta   khác với (bao nhiêu, tính về mặt trung bình. (1- ) Saisoá chuaån cuûa tæleä(S.E.) n Viết theo ngôn ngữ toán học hình thức p ~ N(π, ) Thí dụ với cỡ mẫu n = 1000 và tỉ lệ suy dinh dưỡng trong dân số đích π = 0,3 thì sai số  chuẩn của tỉ lệ quan sát là:
  4. (1- ) 0,3(1- 0,3) Saisoá chuaån cuûa tæleä(S.E.) 0,0145 n 1000 Nếu chúng ta trình bày theo phần trăm thì với tỉ lệ suy dinh dưỡng trong dân số là 30%  thì sai số chuẩn của tỉ lệ suy dinh dưỡng là 1,45%. Chúng ta có thể có nhận xét: trừ  khi tỉ lệ trong quần thể đích quá gần 0% hay 100%,   sai số chuẩn tương đối ít thay đổi. Một quy tắc tính rợ (rule of thumb)để ánh chừng sai   số chuẩn: cỡ mẫu 100 thì sai số chuẩn là 5%, cỡ mẫu 400 sai số chuẩn vào khoảng 2   % và cỡ mẫu 10000 thì sai số chuẩn vào khoảng 0,5%. Trong trường hợp không biết tỉ  lệ  của dân số  π, sử  dụng   tỉ  lệ  của mẫu p để   ước   lượng sai số chuẩn.Thí dụ giả sử khảo sát 1241 trẻ em, phát hiện được 150 trẻ bị suy   dinh dưỡng nhẹ cân. Tỉ  lệ suy dinh dưỡng là 0,121 và sai số chuẩn của tỉ lệ suy dinh   dưỡng là: (1- ) p(1- p ) 0,121(1- 0,121) S.E. 0.009 n n 1241 Như vậy tỉ lệ suy dinh dưỡng là 12,1% với sai số chuẩn là 0,9% 7. Khoảng tin cậy 95% của tỉ lệ Khi chúng ta quan sát một tỉ  lệ  trong một mẫu ngẫu nhiên, chúng ta mong muốn có   được một khoảng các giá trị  mà giá trị tỉ lệ (thực) của dân số nằm trong đó. Chúng ta   có thể tính được khoảng này sử dụng tính xấp xỉ bình thường của phân phối nhị thức. p ~ N(π, ) Theo tính chất thứ 4 của phân phối bình thường, xác suất giá trị p nằm trong phạm vi  (1- ) 1,96 n là 95%.  Nếu không yêu cầu  chính xác, ta có thể cho rằng 95% các trường hợp nghiên   cứu giá trị π nằm trong khoảng: p(1- p) p(1- p ) p 1,96 p 1,96 n  đến  n hay còn được viết là p ±   1,96 ×  S.E. Khoảng giá trị này được gọi là khoảng tin cậy  95% (95% confident interval). Hai biên của khoảng tin cậy (p + 1,96  ×  S.E và  p ­ 1,96  ×   S.E ) được gọi là giới hạn tin cậy trên và giới hạn tin cậy dưới (upper confident   limit and lower confident limit) Lưu ý nếu chúng ta tính tỉ lệ bằng phần trăm thì công thức khhoảng tin cậy sẽ là p(100- p ) p(100- p ) p 1,96 p 1,96 n  đến  n Ðiều kiện áp dụng khoảng tin cậy của tỉ lệ theo công thức trên là n× p ≥  5. Giả  sử  có 150 trẻ  suy dinh dưỡng được phát hiện khi điều tra 1241 trẻ  dưới 3 tuổi.  Giả  sử  nếu   1241 trẻ  này đại diện cho dân số  đích thì tỉ  lệ  suy dinh dưỡng là p=  
  5. 150/1241 = 12,1%. Vì số trẻ suy dinh dưỡng là 150 = n× p ≥  5 nên chúng ta có thể áp  dụng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng như sau: p(100- p ) 12,1(100- 12,1) p 1,96 12,1% 1,96 12,1% 1,8% n 1241 Khoảng tin cậy của tỉ lệ suy dinh dưỡng là từ 10,3% đến 13,9%. Khoảng tin cậy 95% (hoặc khoảng tin cậy 90% theo một số nhà thống kê) là kĩ thuật  thống kê  phổ biến nhất để thể hiện mức độ  không chắc chắn của ước lượng và nên   sử dụng khoảng tin cậy khi ước lượng bất  kì một tỉ lệ nào. Nên nhớ rằng có xác suất 5% tỉ lệ của dân số đích nằm ngoài khoảng tin cậy 95%. Do   đó trung bình cứ mỗi 20 khoảng tin cậy được tính toán sẽ có 1 khoảng tin  cậy không   chứa giá trị tỉ lệ thực. 8. Trình bày khoảng tin cậy Nếu chúng ta có tỉ lệ của hai hay nhiều nhóm chúng ta có thể thể hiện tỉ lệ và khoảng   tin cậy bằng đồ thị. Một thí dụ được trình bày ở sau: 50% 50% 40% 40% 30% 30% 30% 20% 20% 13% 10% 10% 9% 10% 0% 0% Muøchöõ(n=23) Caáp 1,2 (n=748) Caáp 3 (n=340) ÑH, CÑ (n=130) Hình 2. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo trình độ  học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học Cao Ðẳng hoặc đại học). Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ  theo trình độ văn hóa của người mẹ. Trong nhóm trẻ có mẹ mù chữ (n=28) có 7 trẻ bị  suy dinh dưỡng (r=7),  Trong nhóm có mẹ  học cấp 1,2 (n=748) có 98 trẻ  bị  suy dinh  dưỡng, trong nhóm có mẹ  học cấp 3 (n=340) có 33 trẻ  bị  suy dinh dưỡng và trong  nhóm có mẹ  học đại học trở  lên (n=130) có 12 trẻ  bị  suy dinh dưỡng. Tỉ  lệ suy dinh   dưỡng cùng với khoảng tin cậy 95% của từng nhóm trẻ  được trình bày bằng biểu đồ  thanh đơn như trong hình 19, trong đó thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát  được và đường thẳng đứng thể hiện khoảng tin cậy 95%.
  6. Chúng ta có thể  nhận xét rằng khoảng tin cậy sẽ  hẹp nhất khi cỡ  mẫu là lớn nhất  (nhóm trẻ có mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy  sẽ rộng   nhất khi cỡ mẫu nhỏ (nhóm trẻ có mẹ mù chữ với cỡ mẫu bằng 23). Bài tập Từ tháng 8 đến tháng 10 năm 1994, cuộc điều tra quốc gia về thiếu Vitamin A và suy   dinh dưỡng.  Ðiều tra được tiến hành  trên 37.766 trẻ dưới 6 tuổi  ở 20 tỉnh thành đại   diện cho 7 vùng sinh thái ­ kinh tế của Việt nam với cỡ mẫu trung bình cho một tỉnh   vào khoảng 1500 trẻ. Trong nghiên cứu này, trẻ có cân nặng theo tuổi dưới ­2 độ lệch   chuẩn so với cân nặng chuẩn của tuổi được xếp loại là suy dinh dưỡng. Số  liệu về  dinh dưỡng ở một số tỉnh được trình bày trong bảng sau:
  7. 1 3 6 2 8 5 7 4 9 10 12 13 14 191715 16 212018 Hà nội 11 23 22 25 24 26 27 28 29 Hoàng Sa 30 Huế 31 32 Quảng Nam 34 41 Bình định 40 36 Daklak 37 43 Ninh thuận 46 47 Đồng Tháp 45ồng nai 39 Đ An Giang 50 44 49 TP Hồ Chí Minh 53 55Bến tre 59 CT 56 Sóc trăng 60 61 Trường Sa
  8. Tỉnh Số trẻ được sàng lọc Số trẻ SDD Quảng nam Ðà nẵng 1503 711 Binh Ðịnh 1510 708 Ninh Thuận 1520 707 Ðắc Lắc 1488 705 TP Hồ Chí Minh 1503 494 Sông Bé 1488 579 Ðồng Nai 1500 542 Ðồng Tháp 1498 758 An Giang 1512 556 Bến Tre 1503 522 Cần Thơ 1563 622 Sóc Trăng 1490 590 Minh Hải 1492 573 Các nhóm thực hiện các công việc sau: 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh. 2. Tính khoảng tin cậy 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh. 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin cậy theo cách thích hợp. 4. Lí giải thống kê các kết luận. 5. Giả sử chúng ta chỉ điều tra 50 trẻ ở mỗi tỉnh, theo bạn kết quả sẽ như thế nào? 6. So sánh kết quả  tỉ  lệ  suy dinh dưỡng của 4 tỉnh miền Trung  và 6 tỉnh miền Tây.  Cách so sánh đó có gì không ổn hay không? 7. Nếu bạn đánh giá về  tình trạng dinh dưỡng  ở  trẻ  em, bạn có thể  có những cách  phân tích số liệu nào khác hay không? Cho biết lợi ích của từng cách 8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng.
  9. Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin cậy của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Giới hạn  Giới hạn  Tỉ lệ  tin cậy  tin cậy  Tỉnh Số trẻ Số SDD SDD SE dưới trên Quảng nam Ðà nẵng 1503 711 47.3 1.29 44.8 49.8 Binh Ðịnh 1510 708 46.9 1.28 44.4 49.4 Ninh Thuận 1520 707 46.5 1.28 44.0 49.0 Ðắc Lắc 1488 705 47.4 1.29 44.9 49.9 TP Hồ Chí Minh 1503 494 32.9 1.21 30.5 35.3 Sông Bé 1488 579 38.9 1.26 36.4 41.4 Ðồng Nai 1500 542 36.1 1.24 33.7 38.5 Ðồng Tháp 1498 758 50.6 1.29 48.1 53.1 An Giang 1512 556 36.8 1.24 34.4 39.2 Bến Tre 1503 522 34.7 1.23 32.3 37.1 Cần Thơ 1563 622 39.8 1.24 37.4 42.2 Sóc Trăng 1490 590 39.6 1.27 37.1 42.1 Minh Hải 1492 573 38.4 1.26 35.9 40.9 60 60.0 50 50.0 40 40.0 30 30.0 20 20.0 10 10.0 0 0.0 Quaû ng Binh Ninh Ñaé c Laé c TP Hoà Soâ ng Ñoà ng Ñoà ng An Beá n Tre Caà n Soù c Minh nam Ñaø Ñònh Thuaä n Chí Beù Nai Thaùp Giang Thô Traê ng Haû i naü ng Minh Hình 4. Tỉ lệ suy dinh dưỡng ở 13 tỉnh thành phía Nam năm 1994 và khoảng tin cậy
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2