intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

PHÂN PHỐI MẪU (Sampling Distributions)

Chia sẻ: Nguyen Uyen | Ngày: | Loại File: PDF | Số trang:23

845
lượt xem
26
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê. Việc hiểu biết PPXS nhằm hai mục đích: 1 Tìm lời giải cho các câu hỏi về xác suất của các số thống kê của mẫu 2 Cung cấp nền tảng lý thuyết cần thiết cho việc đưa ra những suy luận thống đúng đắn. kê PP mẫu nhằm vào mục đích thứ nhất. Định nghĩa PP. của tất cả các giá trị được xem là các số thống kê (statistics) tính được từ các mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ cùng một dân số, được...

Chủ đề:
Lưu

Nội dung Text: PHÂN PHỐI MẪU (Sampling Distributions)

  1. PHÂN PHỐI MẪU (Sampling Distributions) I. GIỚI THIỆU Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê. Việc hiểu biết PPXS nhằm hai mục đích: 1 Tìm lời giải cho các câu hỏi về xác suất của các số thống kê của mẫu 2 Cung cấp nền tảng lý thuyết cần thiết cho việc đưa ra những suy luận thống kê đúng đắn. PP mẫu nhằm vào mục đích thứ nhất. Định nghĩa PP. của tất cả các giá trị được xem là các số thống kê (statistics) tính được từ các
  2. mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ cùng một dân số, được gọi là PP. mẫu của số thống kê đó. Các bước thiết lập PP. mẫu + Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu (có thể rút được) có kích thước n. + Tính số thống kê có liên quan cho từng mẫu + Lập bảng phân phối tần số cho các số thống kê tính được này. Đặc điểm quan trọng 03 điều cần được biết về 1 PP. mẫu: số trung bình, phương sai, và dạng hàm số. Việc thiết lập PP. mẫu theo 3 bước nói trên sẽ trở nên rất khó khăn với dân số có kích thước lớn, và trở nên bất khả thi khi gặp dân số vô hạn. Cách tốt nhất để giải quyết 2 vấn đề này là dùng các lý thuyết toán học để tính gần đúng PP. mẫu của 1 số thống kê. II. PP. (CỦA SỐ) TRUNG BÌNH MẪU (Distribution of the Sample Mean) Thí dụ dẫn nhập
  3. Giả sử có 1 dân số có kích thước N = 5 (tuổi của 5 đứa trẻ điều trị ngoại trú tại PKSK Tâm Thần Quận) với x1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14. x 50 i Số trung bình (dân số):    10  5 2  x   40 i 2 Phương sai (dân số):    8 N 5 2  x   40 i 2 Phương sai:    10 S N 1 4 (tính cách khác) Thiết lập PP. mẫu của số trung bình mẫu, x, dựa trên kích thước mẫu n = 2 rút ra từ dân số này. Rút tất cả các mẫu có thể rút được với n = 2 từ dân số này theo cách “để lại” (with replacement), nghĩa là rút ra xem kết quả xong thì trả lại vào dân số; tổng số mẫu rút được bằng Nn = 25
  4. RÚT LẦN 2 6 8 10 12 14 6, 6 8, 6 10, 6 12, 6 14, 6 6 RÚT (6) (7) (8) (9) (10) 6, 8 8, 8 10, 8 12, 8 14, 8 8 LẦN (7) (8) (9) (10) (11) 6, 10 8, 10 10, 10 12, 10 14, 10 10 1 (8) (9) (10) (11) (12)
  5. 6, 12 8, 12 10, 12 12, 12 14, 12 12 (9) (10) (11) (12) (13) 6, 14 8, 14 10, 14 12, 14 14, 14 14 (10) (11) (12) (13) (14) (Số trong ngoặc là số trung bình, x ) Lập bảng phân phối tần số của x Tần số Tần số tương đối x 6 1 1/25
  6. 7 2 2/25 8 3 3/25 9 4 4/25 10 5 5/25 11 4 4/25 12 3 3/25 13 2 2/25 14 1 1/25 25 25/25 Tổng Dạng hàm số của PP. dân số: Phân phối đơn đều
  7. Dạng hàm số của PP. trung bình mẫu: phân phối dạng bình thường f (x) 6 7 8 9 10 11 12 13 14 x Tính thông số của PP. Trung bình mẫu x 6  7  8  ....  14 250 i x     10 n 25 25 N
  8. số trung bình của PP. trung bình mẫu bằng số trung bình của dân số gốc  (x   ) 2 (6  10) 2  (7  10) 2  ...  (14  10) 2 i 2 x    n x 25 N 100 = 4 25 Phương sai của PP. mẫu không bằng phương sai dân số, mà bằng phương sai dân số chia cho kích thước mẫu 2   8 2  4 x n 2  2 Căn số bậc 2 của phương sai của PP. mẫu, , được gọi là sai số chuẩn   x n của số trung bình, hoặc gọi đơn giản là sai số chuẩn (standard error). Đặc điểm của PP. Trung bình mẫu Khi lấy mẫu theo cách “để lại” hoặc lấy mẫu từ 1 dân số vô hạn 1. Từ một dân số phân phối bình thường, PP. Trung bình mẫu có những đặc điểm sau:
  9. + PP. của x sẽ bình thường  + Số trung bình, , của phân phối x sẽ bằng với số trung bình của dân số, x , mà từ đó các mẫu được rút ra. 2 + Phương sai, , của phân phối x sẽ bằng phương sai của dân số chia  x cho kích thước mẫu. 2. Từ một dân số phân phối không bình thường Lý thuyết giới hạn trung tâm (Central Limit Theorem) Cho một dân số có dạng hàm số không bình thường với số trung bình là  và phương sai hữu hạn 2, phân phối mẫu của x (là các số trung bình tính được từ  các mẫu có kích thước n từ dân số này) sẽ có số trung bình =  và phương sai x 2 = 2 / n và sẽ phân phối gần như bình thường khi kích thước mẫu lớn.  x Trong thực tiễn, kích thước mẫu bằng 30 được xem là đủ lớn. Nói chung, PP. Trung bình mẫu càng gần với bình thường hơn khi kích thước mẫu càng lớn. Lấy mẫu “Không để lại” (without replacement)
  10. Trong hầu hết các tình huống thực tế, việc lấy mẫu nhất thiết phải được thực hiện với 1 dân số hữu hạn và PP. Trung bình mẫu trong những điều kiện này cũng có phần nào thay đổi. Với thí dụ dẫn nhập, nếu việc lấy mẫu được tiến hành theo cách “không để lại” và không quan tâm đến thứ tự được rút ra của các giá trị (trong các mẫu), thì chỉ có 10 mẫu (5C2). Số trung bình của phân phối x:   C x 7  8  9  ...  13 100 i    10 10 10 x N n Số trung bình của PP. mẫu cũng bằng với số trung bình dân số. Phương sai của PP. mẫu   x )2  (x 30 i 2    3 x Cn 10 N 2  8 2 Phương sai của PP. Trung bình mẫu, , không bằng mà bằng   4 x n 2
  11. 2  N n 8 52   3 N 1 2 n 3 (Nếu kích thước mẫu lớn, lý thuyết giới hạn trung tâm sẽ đ ược áp dụng và x sẽ phân phối gần như bình thường) N n Yếu tố được gọi là yếu tố điều chỉnh dân số hữu hạn (finite population N 1 correction) và có thể được bỏ qua khi kích thước mẫu tương đối nhỏ so với dân số. (n / N  0,05) TÓM TẮT PHÂN PHỐI TRUNG BÌNH MẪU 1. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối bình thường với phương sai biết trước: x =  a.  b.  / n x Phân phối trung bình mẫu là phân phối bình thường c.
  12. 2. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối không bình thường với phương sai biết trước: a. Số trung bình x =    / n khi n / N  0,05 b. Sai số chuẩn  x Nn   ( / n ) x N 1 Phân phối trung bình mẫu là phân phối gần như bình thường c. Thí dụ áp dụng Giả sử người ta biết được rằng chiều dài hộp sọ của 1 dân số người phân phối gần như bình thường với số trung bình là 185,6 mmm và ĐLC bằng 12,7 mmm. Xác suất để tìm thấy 1 mẫu có n = 10 (rút ra từ dân số này) có số trung bình, x , lớn hơn 190 là bao nhiêu?
  13. + Mẫu khảo sát này (n = 10) chỉ là một trong rất nhiều mẫu có n = 10 rút ra từ dân số, như vậy số trung bình của nó sẽ là 1 trong rất nhiều x cấu tạo nên phân phối trung bình mẫu ((phát xuất từ dân số này) + Dân số khảo sát phân phối gần như bình thường, như vậy PP. Trung bình mẫu cũng phân phối gần như bình thường với  x =  = 185,6 và = 12,7 / 10 = 4,02  x (giả định là dân số tương đối lớn so với mẫu nên có thể bỏ qua hệ số điều chỉnh dân số hữu hạn) + Áp dụng PP. bình thường chuẩn để tính với công thức tính z biến đổi x  x z / n  = 12,7 mm
  14. x  = 185,6 mm   12, 7 /10  4, 02 x 0,1379 190    185,6mm x  =1 0,1379 0 1,09 z 190  185, 6 4, 4 z   1, 09 4, 02 4, 02
  15. P(z > 1,09) = 1 – P(z  1,09) = 1 – 0,8621 = 0,1379 Xác suất để chọn được một mẫu n = 10 có x > 190 là 13,79%. III. PHÂN PHỐI HIỆU CỦA 2 TRUNG BÌNH MẪU (Distribution of the Difference Between Two Sample Means) Giới thiệu Việc khảo sát 2 dân số để tìm hiểu xem số trung bình của chúng có khác nhau không, và độ lớn của sự khác biệt giữa chúng (hiệu số) là bao nhiêu rất thường được tiến hành trong thực tế. Sự hiểu biết về PP. Hiệu của 2 trung bình mẫu rất hữu ích trong trường hợp này. Thí dụ chứng minh: Giả sử có 2 dân số – dân số 1 đã từng mắc một số bệnh có liên quan với chậm phát triển tâm thần (mental retardation), và dân số 2 chưa từng
  16. mắc các bệnh có liên quan này. Hệ số thông minh (HSTM) của hai dân số này được xem là phân phối gần như bình thường với ĐLC bằng 20. Giả sử từ mỗi dân số lấy 1 mẫu có n = 15, tính trung bình HSTM và có kết quả x1 = 92 và x 2 = 105. Nếu không có sự khác biệt giữa 2 dân số, xét về mặt số trung bình thực sự của HSTM, thì xác suất để tìm được 1 hiệu lớn bằng hoặc lớn hơn x   x2 . 1 Thiết lập PP. mẫu của  x 1  x 2  + Rút tất cả các mẫu (có thể rút được) có n1 = 15 từ dân số 1 Rút tất cả các mẫu (có thể rút được) có n2 = 15 từ dân số 2 + Tính trung bình cho tất cả các mẫu trên. + Lấy hiệu của từng cặp số trung bình mẫu (1 từ dân số 1, và 1 từ dân số 2) + Lập phân phối mẫu cho các hiệu đã tính được này. Đặc điểm của PP. hiệu 2 trung bình mẫu
  17. + Phân phối bình thường  + Số trung bình 1 – 2 = x1  x 2 2 2   1 2 + Sai số chuẩn  = x1  x 2 nn 1 2 Thí dụ trên cho thấy phân phối hiệu 2 trung bình mẫu là một phân phối bình thường với Số trung bình : 1  2 = 0 (1 và 2 không khác nhau), và – 2 =  12 / n1     2 / n 2  = [(20)2 / 15 + (20)2 / 15] = 53,33 2 Phương sai :  x1  x 2 (x1  x 2 )  (1   2 ) Chuyển qua z : z= 2 2 1  2  n1 n 2
  18. Phần diện tích dưới đường cong của  x1  x 2  tương ứng với xác suất đang tìm là phần diện tích nằm bên trái của  x1  x 2  = 92 – 105 = –13. Giá trị của z tương ứng với –13 trong trường hợp không có sự khác biệt giữa 2 trung bình dân số được tính  13  0  13 z= = = –1,78 53,3 53,3 Tra bảng tìm xác suất, diện tích dưới đường cong phân phối bình thường chuẩn ở bên trái của –1,73 bằng 0,0375. Nếu không có sự khác nhau giữa hai số trung bình dân số, xác suất để tìm thấy hiệu của 2 số trung bình mẫu lớn bằng hoặc lớn hơn 13 là 0,0375. Lấy mẫu từ các dân số PP. bình thường Tiến trình tính toán nói trên vẫn đúng khi 2 mẫu có kích thước khác nhau n1  n2, và khi phương sai dân số khác nhau 1  2. Lấy mẫu từ các dân số phân phối không bình thường hoặc không biết dạng phân phối: Lấy mẫu lớn để áp dụng lý thuyết giới hạn trung tâm.
  19. IV. PHÂN PHỐI TỈ LỆ MẪU (Distribution of the Sample Proportion) Thí dụ chứng minh: Giả sử trong một dân số có 8% số người bị mù màu (p = 0,08). Nếu chọn ngẫu nhiên 150 người từ dân số này thì xác suất để có được tỉ lệ mù màu (của mẫu) lớn bằng hoặc lớn hơn 0,15 là bao nhiêu. Thiết lập PP. mẫu của p ˆ (Cách tiến hành giống hệt như cách tiến hành thiết lập PP. trung bình mẫu). + Rút tất cả các mẫu (có thể rút được) có n = 150 từ dân số + Tính tỉ lệ mẫu (sample proportion) p cho tất cả các mẫu trên. ˆ + Lập phân phối mẫu cho các p đã tính được này. ˆ Đặc điểm của PP. Tỉ lệ mẫu: khi cỡ mẫu lớn, PP. Tỉ lệ mẫu phân phối gần nh ư bình thường (theo lý thuyết giới hạn trung tâm). Số trung bình của phân phối,  p bằng trung ˆ bình cộng của tất cả các tỉ lệ mẫu), sẽ bằng với tỉ lệ dân số p, và phương sai của phân 2  p sẽ bằng phối p (1 – p) /n. ˆ
  20. Để trả lời câu hỏi, dùng PP. bình thường chuẩn với ˆ 0,07 0,15  0,08 p p z= = = = 3,15 0,0222 p(1  p) 0,00049 n Tra bảng PP.bình thường để tìm được p(z = 3,15) = 1 – 0,9992 = 0,0008. Xác suất để tìm thấy một p  0,15 của một mẫu có n = 150 từ một dân số có p = 0,08 ˆ là 0,08%. Việc rút được một mẫu như thế này, trong thực tế, được xem là hiếm xảy ra. Vấn đề kích thước mẫu lớn để có thể chuyển từ PP. nhị phân sang PP. bình thường Tiêu chuẩn thường được áp dụng là khi cả np và n(1 – p) đều > 5. (Với n = 150 và p của dân số bằng 0,08: np (150 x 0,08) = 12, và nq (150 x 0,92) = 138 đều lớn hơn 5) V. PHÂN PHỐI HIỆU 2 TỈ LỆ MẪU (Distribution of the Difference between Two Sample Proportions) Đặc điểm của phân phối hiệu 2 tỉ lệ mẫu: Nếu 2 mẫu độc lập có kích thước mẫu n1 và n2 được rút ngẫu nhiên từ 2 dân số có các biến số nhị phân với tỉ lệ (đặc điểm
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2