intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Dạy học khoảng tin cậy cho tỷ lệ với sự hỗ trợ của phần mềm STATA

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

7
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Khoảng tin cậy của tỷ số p là một trong những kiến thức bắt buộc và cần thiết trong giáo trình học phần Xác suất thống kê ở cấp đại học. Bài viết Dạy học khoảng tin cậy cho tỷ lệ với sự hỗ trợ của phần mềm STATA trình bày một số phương pháp thay thế trong dạy học khi điều kiện của Wald CI không đáp ứng được.

Chủ đề:
Lưu

Nội dung Text: Dạy học khoảng tin cậy cho tỷ lệ với sự hỗ trợ của phần mềm STATA

  1. Journal of educational equipment: Applied research, Volume 2, Issue 305 (January 2024) ISSN 1859 - 0810 Dạy học khoảng tin cậy cho tỷ lệ với sự hỗ trợ của phần mềm STATA Đào Hồng Nam TS. Trường Đại học Y Dược TP Hồ Chí Minh Received: 5/12/2023; Accepted: 8/12/2023; Published: 11/12/2023 Abstract: The confidence interval for the ratio p is one of the mandatory and necessary knowledge in the curriculum of the Statistics Probability module at the university level. There are many methods for estimating CIs for different rates, but the CI most used in statistical probability textbooks in Vietnam that we refer to is the Wald CI because of its simplicity in calculation and application in practice. international. However, the conditions for use of the Wald CI must be satisfied, otherwise the estimated CI for the population will be inaccurate and even have no use value such as CI containing negative values or exceeding 1. This article presents some alternative methods in teaching when the conditions of the Wald CI are not satisfied through an illustrative example with the support of Stata 17 software. Keywords: Teaching, confidence interval, rate, accuracy, testing. 1. Đặt vấn đề cần ước lượng trong n phần tử của mẫu, là bài toán Khoảng tin cậy (KTC) cho tỷ lệ nhị thức p được xác định khoảng (p1, p2) sao cho P(p1 ≤ p ≤ p2) = 1 − sử dụng rất phổ biến, nhất là KTC Wald (Brown et α, với (1 − α) = γ là độ tin cậy cho trước. al., 2001, 2002). KTC Wald rất dễ tính toán, ngay Xét biến ngẫu nhiên Y ~ B ( n; p ) có phân phối nhị cả khi thực hiện thủ công không có sự trợ giúp của thức với µ E = np= D = np (1 − p ) . = (Y ) ˆ;σ 2 (Y ) ˆ ˆ các phần mềm thống kê, so với những KTC khác Người ta chứng minh được rằng khi n khá lớn sao như Agresti-Coull (1998), Clopper-Pearson (1934), cho nmin { p,1 − p} ≥ 10 thì tỷ lệ mẫu p sẽ có phân phối ˆ ˆ ˆ Wilson (1927), … do đó, phần lớn các giáo trình đại xấp xỉ PPC với trung bình E ( p ˆ ) = p và phương sai học chuyên ngành khoa học sức khỏe ở Việt Nam p (1 − p )  p (1 − p )  đều chỉ trình bày KTC Wald mà không có những D (p) = ˆ tức là p ∼ N  p, ˆ . n  n  KTC khác thay thế khi những điều kiện của KTC Wald bị vi phạm. Một số tác giả cũng đã chỉ ra Vậy với biến ngẫu nhiên Z ∼ N ( 0,1) thì nhược điểm của KTC Wald và đề xuất thay thế bằng P ( − z1−α /2 ≤ Z ≤ z1−α ) = − α . 1 các khoảng khác như Per Gösta Andersson  (2023), (p − p) n ˆ Do p ∼ N ( p, p (1 − p ) / = ˆ n ) nên Z ∼ N ( 0,1) Brown, L., Cai, T. and DasGupta, A. (2001, 2002). p (1 − p ) Điều này có thể dẫn đến những kết luận sai lầm Khi đó: của sinh viên (SV) trong quá trình học tri thức này     (p − p) n ≤ z ˆ do KTC vượt ra ngoài đoạn [0; 1]. Một trong những P  − z α ≤ Z ≤ z1−α  = α ⇔ P  − z α ≤ 1− α =α 1−  1−   1− 2 p (1 − p ) 1−  sai lầm sẽ xảy ra khi tỷ lệ gần bằng 0 (như khi nghiên 2  2  cứu về các bệnh hiếm) hoặc gần bằng 1 (khi đánh  p (1 − p ) p (1 − p )  ˆ ⇔ Pp − z α ˆ ≤ p ≤ p−z  =1 − α giá độ chính xác của một xét nghiệm: độ nhạy, độ  1− n 1− α n   2 2  đặc hiệu). 2. Nội dung nghiên cứu Vậy với độ tin cậy ( γ = 1 − α ) cho trước, tỷ lệ tổng 2.1.KTC Wald thể p được xác định KTC cho tỷ lệ p dựa trên phân phối xấp xỉ chuẩn p (1 − p ) ˆ ˆ p (1 − p ) ˆ ˆ ˆ p−C ˆ ≤ p ≤ p+C được giới thiệu phổ biến trong các giáo trình đại học n n ở Việt Nam là KTC tiêu chuẩn (KTC Wald). p (1 − p ) ˆ ˆ p (1 − p ) ˆ ˆ Ước lượng KTC của tỷ lệ tổng thể p, thông qua tỷ Với p1 = , p2 = ˆ p−C ˆ p+C n n lệ mẫu p = k trong đó k là số phần tử có đặc tính X ˆ Thông thường KTC cho tỷ lệ p được viết là: n 56 Journal homepage: www.tapchithietbigiaoduc.vn
  2. Journal of educational equipment: Applied research, Volume 2, Issue 305 (January 2024) ISSN 1859 - 0810 p (1 − p ) ˆ ˆ 5  5  ˆ CI s= p ± C (1) p (1 − p )   5 1 − 114  114   n = ± 1.96 = ± 0.038 0.044 5  5  CI AC =C p±  n 114 114 Với C = z1−α /2 là giá trị thỏa1mãn P ( Z > C ) =− α /1 − 114  p ( − p)   5 1 114 2    = ± 0.038 = CI =C p±  và Z là biến ngẫu nhiên có phân phối chuẩn tắc, ký AC = ± 1.96 0.044 [ 0.006;0.082 ] n  114 114 hiệu là Z ~ N ( 0;1) . 2.3. KTC Wilson KTC trong (1) được gọi là KTC Wald vì nó xuất KTC này do Edwin Bidwell Wilson đề xuất vào phát từ thử nghiệm mẫu lớn Wald cho trường hợp năm 1927. Khác với KTC tiêu chuẩn, KTC Wilson nhị thức. KTC Wald rất dễ tính toán ngay cả khi tính là KTC không đối xứng. KTC này được sử dụng với toán thủ công. Mức độ phổ biến của nó trong thống một số ít lần thử nghiệm (n ≤ 40) và/hoặc tỷ lệ của kê hầu như không có tri thức nào có thể so sánh được. biến cố cần quan tâm là những giá trị rất gần 0 hoặc 1. Tuy nhiên, người ta thừa nhận rộng rãi rằng xác KTC Wilson có dạng: suất bao phủ thực tế của KTC Wald là kém khi p gần 2k + C 2 C C2 = CIW ± np (1 − p ) + ˆ ˆ (3) 2(n + C ) n + C 2 0 hoặc 1. Trong các giáo trình giảng dạy đại học, 2 4 KTC Wald thường được trình bày kèm theo lời cảnh Trong ví dụ báo rằng nó chỉ nên được sử dụng khi n.min p (1 − p ) ≥ 5 2 × 3 + 1.962 1.96 3  3  1.962 (hoặc 10) (*) = CIW ± 110 × 1 −  = [ 0.009;0.0 + 2 (110 + 1.96 ) 110 + 1.96 2 2 110  110  4 Ví dụ: Xét nghiệm 2T được thực hiện trên 110 1.962 người trongWquần×thể1.96có±3 người dương tính. − 3  = [0.009;0.077] = CI 2 3+ D 2 1.96 110 × 3  1 + Tìm KTC 95% cho tỷ )lệ dương tính của T. 2 (110 + 1.96 2 110 + 1.96 110 110  4 Nếu không chú ý đến điều kiện (*) mà thực hiện 2.4. KTC Clopper-Pearson ngay KTC Wald sẽ có kết quả: 1 −1   −1  ˆ  3  q+   ˆ  p =ˆ = 0.027 n q 110 1 + Fα (ϑ1 , ϑ2 ) ×  ≤ p ≤ 1 +  ( 4) ˆ p   1 ˆ  Fα (ϑ3 , ϑ4 )  n + p    2 p (1 − p ) ˆ ˆ 0.027 (1 − 0.027 )     CIWald ˆ = p±C = 0.027 ± 1.96 = 0.027 ± 0.03 = [ −0.003;0.057 ]  2 n 110 Fα là giá trị ngưỡng trong phân phối Fisher với 0.027 (1 − 0.027 ) 2 = 0.027 ± 0.03 = [ −0.003;0.057] các bậc tự được tính như sau: 110 ϑ1 = 2 ( nq + 1) ;ϑ2 = 2np;ϑ3 = 2 ( np + 1) ;ϑ4 = 2nq ˆ ˆ ˆ ˆ Rõ ràng đây là một kết quả sai vì KTC cho tỷ lệ chứa khoảng âm. Trong ví dụ Để khắc phục nhược điểm này, nhất là khi tỷ lệ pˆ 3 107 ˆ p= ˆ ˆ ⇒ q =1 − p = rất gần 0 hoặc rất gần 1 thì có thể sử dụng các KTC 110 110  107  3 được đề xuất bao gồm Clopper–Pearson, Wilson và ϑ1 =2 ( nq + 1) =2 110 × ˆ ˆ + 1 =216;ϑ2 =2np =2 ×110 × =6  110  110 Agresti-Coull. 2.2. KTC Agresti-Coull ⇒ Fα (ϑ1 , ϑ2 ) F0.025 ( 216;6 ) 4.88 = = 2 KTC này cũng khá dễ tính toán và có hình thức rất  3  107 giống KTC Wald. Công thức tính KTC là Agresti- ϑ3 =2 ( np + 1) =2 110 × ˆ ˆ + 1 =8;ϑ4 =2nq =2 ×110 × =214  110  110 Coull là: ⇒ Fα (ϑ3 , ϑ4 )= F0.025 ( 8; 214 )= 2.252 p (1 − p )   CI AC= p ± C  ( 2) 2 n  Thay vào công thức (4): X +2 −1 Với n =+ 4; p =  n  và C = z1−α /2 là giá trị thỏa  107 1  −1  107  n+4  +    110 110 110 mãn P ( Z > C ) =− α / 2 và Z là biến ngẫu nhiên có 1 1 + 4.88 × 3  ≤ p ≤ 1 +     2.252  1 + 3   phân phối chuẩn tắc, ký hiệu là Z ~ N ( 0;1) .  110       110 103   Trong ví dụ trên: 0.006 ≤ p ≤ 0.078 X +2 3+ 2 5 n = n + 4 = 110 + 4 = 114; p =   = = Sau đây chúng tôi tóm tắt kết quả tính toán KTC n + 4 110 + 4 114 bằng các phương pháp như đã trình bày ở trên: Thay vào công thức (2) ta có KTC Agresti-Coull là: 57 Journal homepage: www.tapchithietbigiaoduc.vn
  3. Journal of educational equipment: Applied research, Volume 2, Issue 305 (January 2024) ISSN 1859 - 0810 Số lần Cỡ Tỷ lệ Cận Cận Nếu sử dụng KTC Agresti-Coull thì câu lệnh là: Khoảng thành công mẫu mẫu dưới trên cii prop 110 3, agresti Wald 3 110 0.027 - 0.003 0.058 Clopper-Pearson exact 3 110 0.027 0.006 0.078 Wilson 3 110 0.027 0.009 0.077 Agresti-Coull 3 110 0.027 0.006 0.081 Hình 2.4. KTC Agresti-Coull trong Stata 17 Khi dạy học trên lớp và sử dụng trong phòng thi, 3. Kết luận tính đơn giản của KTC trong quá trình tính toán cũng Ước lượng KTC cho tỷ lệ là một trong những nội cần phải xem xét. Đặc biệt là trong phòng thi, nếu dung trong chương trình giảng dạy xác suất thống kê SV chỉ được phép sử dụng máy tính cầm tay (không ở bậc đại học tại Việt Nam. Trong các giáo trình này, sử dụng phần mềm hỗ trợ) thì tính đơn giản càng các tác giả thường chỉ trình bày một phương pháp phải được đặt lên hàng đầu. Xem xét các yếu tố này, ước lượng KTC tiêu chuẩn (KTC Wald) do việc tính một số tác giả (Brown, L. D., Cai, T., & Dasgupta, toán KTC này khá nhanh chóng và dễ dàng ngay cả A, 2001) khuyến nghị rằng đối với n ≤ 40 thì nên khi thực hiện thủ công hoặc phương tiện máy tính sử dụng khoảng Wilson. Đối với n > 40, khoảng cầm tay đơn giản. Tuy nhiên, khi điều kiện của KTC Wilson và Agresti–Coull đều rất giống nhau, và do Wald không được thỏa mãn thì các KTC tìm được có đó dạng đơn giản nhất là khoảng Agresti–Coull sẽ là lựa chọn tốt. Ngay cả đối với cỡ mẫu nhỏ hơn, thể không hợp lệ như tình huống trong bài báo này khoảng Agresti–Coull vẫn được ưa chuộng hơn so đã chỉ ra. Để khắc phục nhược điểm của KTC Wald, với khoảng tiêu chuẩn. chúng tôi đề xuất sử dụng một số KTC thay thế như Để khắc phục những khó khăn khi phải thực Clopper – Pearson, Wilson, Agresti–Coull. Trong các hiện ước lượng KTC Clopper-Pearson, Wilson hoặc khoảng thay thế này, khoảng Agresti–Coull là đơn Agresti–Coull. Giảng viên có thể hướng dẫn sinh giản và dễ thực hiện nhất nên chúng tôi đề xuất đưa viên sử dụng phần mềm Stata 17 để thực hành tính KTC Agresti–Coull vào trong các giáo trình thống kê toán. Cụ thể là các câu lệnh sau đây: cho sinh viên học tập, nghiên cứu nhằm đơn giản hóa Để tìm KTC 95% cho tỷ lệ p, sử dụng lệnh: cii quá trình tính toán và phù hợp với phương pháp học prop 110 3, wald và thi hiện nay khi sinh viên chỉ được phép sử dụng Kết quả như hình 2.1. máy tính cầm tay trong giờ thi có giới hạn. Trong các bài giảng trên lớp hoặc trong các nghiên cứu khoa học, giảng viên có thể hướng dẫn sinh viên sử dụng phần mềm Stata 17 để hỗ trợ tính toán các KTC này. Hình 2.1. KTC tiêu chuẩn (khoảng Wald) trong Stata 17 Ghi chú: Đề tài này được nhận kinh Do KTC cho tỷ lệ chứa khoảng âm nên Stata có phí tài trợ từ Trường Đại học Y Dược TP Hồ Chí cảnh báo về việc cắt bỏ giới hạn dưới của khoảng này. Minh. Nếu sử dụng KTC chính xác (Cloper-Pearson) thì Tài liệu tham khảo sử dụng câu lệnh: cii prop 110 3, exact 1.Agresti, A., & Coull, B. A. (1998). Approximate Kết quả như hình 2.2. Is Better than “Exact” for Interval Estimation of Binomial Proportions. The American Statistician, 52(2), 119–126. 2.Brown, L., Cai, T. and DasGupta, A. (2001). Interval estimation for a binomial Hình 2.2. KTC chính xác (khoảng Cloper-Pearson) proportion. Statistical Science 16, 101–117. trong Stata 3.Brown, L., Cai, T. and DasGupta, A. (2002). Nếu sử dụng KTC Wilson thì câu lệnh là: cii prop Confidence intervals for a binomial proportion and 110 3, wilson asymptotic expansions. The Annals of Statistics 30, Kết quả của KTC Wilson khá giống với kết quả 160–201. của KTC Cloper-Pearson 4.Clopper, C. and Pearson, E. (1934). The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26, 404–413. Hình 2.3. KTC Wilson trong Stata 58 Journal homepage: www.tapchithietbigiaoduc.vn
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2