intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 6 - TS. Nguyễn Duy Long

Chia sẻ: Star Star | Ngày: | Loại File: PDF | Số trang:23

70
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phần 6 - Mô hình phân phối mẫu và khoảng tin chắc cho các phần. Chương này trình bày hai nội dung chính: Các mô hình phân phối mẫu (Sampling distribution models), khoảng tin chắc cho các phần (Confidence intervals for proportions). Mời tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 6 - TS. Nguyễn Duy Long

  1. 9/8/2010 Phần 06 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Các mô hình phân phối mẫu  Các khoảng tin chắc cho các phần ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/8/2010 Sampling Distribution Models ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Các khảo sát luôn biểu thị sự biến đổi vì lấy mẫu bởi các cá thể khác nhau.  Chú Chúng t sẽ ta ẽ dự d báo bá sự biến biế đổi này. à Thay Th vìì lặp lặ lại l i nhiều hiề mẫuẫ thực, chúng ta sẽ tưởng tượng điều gì sẽ xảy ra nếu ta thực sự thực hiện nhiều mẫu.  Hãy tưởng tượng: 1. 25% độc giả VnExpress ủng hộ thu phí ôtô vào trung tâm. 2. 64 sinh viên lớp này mỗi người lấy khảo sát 100 thị dân, hỏi họ có ủng hộ phương án thu phí không ◦ Điều gì xảy ra nếu ta xem biểu đồ tần suất tất cả các phần của ủ mẫuẫ cho h cácá khảo khả sátá này. à ◦ Bạn nghĩ gì về biểu đồ tần suất của tất cả các phần của mẫu này? ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/8/2010  Ta kỳ vọng biểu đồ tần suất của các phần trong mẫu thực p, trong quần tập trung ở phần (proportion) thực, thể.  Ta có thể mô phỏng các mẫu ngẫu nhiên mà không thật sự lấy mẫu.  Biểu đồ tần suất là một mốt, đối xứng, và trung tâm là p. ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Dưới đây là hình dạng của phân phối.  Phân phối này nhắc bạn điều gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/8/2010  Dùng mô hình chuẩn là hợp lý!  Với các phần, biết trị trung bình thì sẽ có độ lệch chuẩn: h ẩ pq n  Phân phối của các phần trong mẫu được mô phỏng với mô hình xác suất:  pq  N  p,   n  ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Mô hình chuẩn càng tốt hơn cho phân phối của các phần khi kích thước mẫu càng lớn hơn.  Ta cần kích thước mẫu ra sao? Sẽ trình bày sau… ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/8/2010  Các mô hình chỉ hữu ích khi các giả định của chúng là thật.  Hai giả định trong trường hợp mô hình cho phân phối của các phần trong mẫu: 1. Các giá trị được lấy mẫu là độc lập nhau. 2. Kích thước mẫu, n, phải đủ lớn.  Các giả định là rất khó để kiểm tra.  Cần kiểm tra các giả định là hợp lý bằng cách kiểm ể tra các điều ề kiện cho biếtế thông tin về ề các giả định. ©2010, Nguyễn Duy Long, Tiến Sỹ 9 1. Điều kiện 10% (10% condition): Nếu mẫu không được lấy cùng với sự thay thế, thì kích thước ẫ n, phải không lớn hơn 10% quần mẫu, ầ thể.ể 2. Điều kiện thành công/thất bại (Success/failure condition): Kích thước mẫu phải đủ lớn để cả np và nq lớn hơn 10. ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/8/2010  Ứng viên A có 55% quần thể thích hơn ứng viên còn lại (B), nhưng chỉ kỳ vọng 100 người đi bầu. Ta có thể xác định xác suất ứng viên A có 50% hay ít hơn phiếu bầu, hay thua cuộc. ◦ Trị trung bình:  ( pˆ )  p = 0.55 ◦ Độ lệch chuẩn: SD( pˆ )  pq n = 0.049 ◦ z = (0.50 - 0.55)/0.049 = -1.005 ◦ Pr(bầu < 0.50) = 0.157  Có khkhoảng ả 16% cơ hội ứ ứng viên iê B thắng, hắ dù phần hầ lớn thích ứng viên A hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Một phần không chỉ là sự tính toán từ tập hợp của dữ liệu. ệ Nó có thể là một ộ lượng ợ g ngẫu g nhiên có p phân phối. ◦ Phân phối này được gọi là mô hình phân phối mẫu (sampling distribution model) cho các phần.  Dù ta phụ thuộc vào các mô hình phân phối mẫu, chúng ta không bao giờ thật sự thấy nó.  Các mô hình phân phối mẫu là quan trọng vì: ◦ Chúng đóng vai trò như cầu nối từ thế giới thực của dữ liệu đến thế giới tưởng tượng của thống kê và... ◦ Cho ta biết gì đó về quần thể khi tất cả những gì ta có là dữ liệu từ thế giới thực. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/8/2010  Các phần (proportions) tóm tắt các biến định tính.  Ta có thể làm điều tương tự với các dữ liệu định tính? ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Như bất cứ trị thống kê nào được tính từ mẫu ngẫu nhiên, trị trung bình của mẫu cũng có một phân phối mẫu. ẫ  Có thể dùng mô phỏng để xem phân phối mẫu của trị trung bình mẫu ra sao…  Ví dụ, mô phỏng một con súc sắc 10,000 lần: ung Số lần tu Số nút ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/8/2010  Trung bình số nút của  Trung bình số nút của 2 súc sắc của mô 3 súc sắc của mô phỏng 10,000 lần ầ phỏng 10,000 lần tung: tung: Số lần tung Số lần tung Số nút trung bình của 2 súc sắc Số nút trung bình của 3 súc sắc ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Trung bình số nút của  Trung bình số nút của 5 súc sắc của mô 20 súc sắc của mô phỏng10,000 lần ầ tung: phỏng hỏ 10 000 lần 10,000 lầ tung: ần tung ần tung Số lầ Số lầ Số nút trung bình của 5 súc sắc Số nút trung bình của 20 súc sắc ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/8/2010  Khi mẫu càng lớn (số súc sắc), bình quân của mẫu có khả năng càng gần trị trung bình của quần thể. ◦ Ta sẽ thấy tiếp tục gần 3.5  Phân phối mẫu của trị trung bình trở thành phân phối chuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Định lý giới hạn trung tâm (Central Limit Theorem, CLT) phát biểu rằng trị trung bình của mẫu ngẫu nhiên có phân phối mẫu có hình dạng xấp xỉ mô hình chuẩn. Mẫu càng g lớn,, việc ệ xấp p xỉ càng g tốt.  Phân phối mẫu của bất cứ trị trung bình nào trở thành phân phối chuẩn khi kích thước mẫu lớn.  CLT tốt hơn nếu… ◦ Kích thước mẫu lớn ◦ Mô hình quần thể gần với mô hình chuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/8/2010 Mô hình quần thể 3 mẫu khác nhau, gồm các trị trung bình Biểu đồ tần suất của các trị trung bình từ tất cả các mẫu Biểu đồ tần suất tương tự với phân phối này ©2010, Nguyễn Duy Long, Tiến Sỹ 19  CLT nói rằng phân phối mẫu của bất cứ trị trung bình hay phần nào đều xấp xỉ mô hình chuẩn  Mô hình chuẩn của phần phối mẫu của phần:  ( pˆ )  p SD  pˆ   pq n  Mô hình chuẩn của phân phối mẫu của trị trung bình:   ( y)   SD  y   n σ độ lệch chuẩn của quần thể. ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/8/2010  Dùng CLT đòi hỏi kiểm tra các điều sau: 1. Điều kiện lấy mẫu ngẫu nhiên (Random Sampling Condition): Các giá trị dữ liệu phải lấy mẫu một cách ngẫu nhiên nếu không khái niệm phân phối mẫu không có ý nghĩa. nghĩa 2. Giả định tính độc lập (Independence Assumption): Các giá trị của mẫu phải độc lập nhau. (Khi mẫu lấy ra mà không có sự thay thế, kiểm tra điều kiện 10%…)  CLT không tốt cho các mẫu nhỏ, hay khi dữ liệu bị lệch lớn.  Cho các phần (proportions) điều này có nghĩa là kỳ vọng có ít nhất 10 thành công và 10 thất bại trong mẫu  Không có qui tắc cho các trị trung bình – kinh nghiệm cho các biến cố rời rạc là có ít nhất 10 lần xuất hiện được kỳ vọng cho mỗi biến cố. ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Giả định trọng lượng trung bình của của người Việt Nam là 60 kg và độ lệch chuẩn là 10 kg. Thang máy ở trường ĐH Bách Khoa có giới hạn tối ố đa 15 người hay 1000 kg. Xác suất nếu 15 người dùng thang máy và vượt tải trọng cho phép? ◦ Bạn cần biết trọng lượng của tất cả 15 người hay chỉ cần trọng lượng trung bình của nhóm? ◦ Bạn có cần biết trọng lượng là phân phối chuẩn? ◦ Các giả định của ta là thỏa để có thể dùng CLT? ◦ Hãy tính xác suất ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/8/2010  Độ lệch chuẩn của phân phối mẫu giảm chỉ với căn bậc hai của kích thước mẫu.  T Trong khi ta t luôn l ô muốn ố có ó mẫu ẫ lớn lớ hơn, hơ cănă bậc bậ hai giới hạn mẫu có thể nói về quần thể . (Một ví dụ của qui tắc sự thu lại giảm (Law of Diminishing Returns)  Trở lại với ví dụ kế hoạch thu phí xe hơi vào thành phố ở TP.HCM p ©2010, Nguyễn Duy Long, Tiến Sỹ 23  Có thể dùng các trị thống kê của mẫu để ước lượng các thông số của quần thể.  Bất cứ khi nào ta ước lượng độ lệch chuẩn của phân phối mẫu, mẫu ta gọi nó là sai số chuẩn (standard error). error) ◦ Với phần của mẫu, sai số chuẩn là ˆˆ pq SE  pˆ   n ◦ Với trị trung bình của mẫu, sai số chuẩn là s SE  y   n ◦ Với s là độ lệch chuẩn của mẫu.  Tính sai số chuẩn giống với tính độ lệch chuẩn chỉ khác ký hiệu! ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/8/2010 Confidence Intervals for Proportions ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Mô hình phân phối mẫu của pˆ có trung tâm p, và độ đ lệch l h chuẩn h ẩ là pq n  Vì không biết p, ta không thể tìm độ lệch chuẩn thực của mô hình phân phối mẫu, cần tìm sai số chuẩn: SE( pˆ )  pq ˆˆ n ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/8/2010  Từ qui tắc 68-95-99.7%, ta biết: ◦ Khoảng 68% của tất cả các mẫu có pˆ trong 1 SE của p ◦ Khoảng 95% của tất ấ cả các mẫuẫ có pˆ trong 2 SE của p ◦ Khoảng 99.7% của tất cả các mẫu pˆ trong 3 SE của p  Từ pˆ , thường ước tính phần thực p với một mẫu đã cho… ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Xem xét mức 95%: ◦ Có khoảng 95% cơ hộ p không lớn hơn 2 lần sai số chuẩn (SE) từ p .ˆ ◦ Nếu vươn ra 2 lầnSE, ta có 95% chắc chắn rằng p sẽ trong khoảng đó. Nói cách khác, nếu vươn ra 2 lần SE theo hai hướng của p ˆ , ta có 95% tin rằng khoảng này chứa phần thực. ◦ Phần còn lại hoặc quá lớn (khoảng 2.5% cơ hội) hay quá thấp ấ (khoảng 2.5% cơ hội).  Điều này được gọi là khoảng tin chắc 95% (95% confidence interval). * Hay chính xác hơn là 95.45% cơ hội ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/8/2010 Vươn ra 2 lần SE theo hai bên của pˆ cho ta 95% tin ta sẽ “bẫy” được phần thực p Nguồn: De Veaux, 2006, tr.429) ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Mỗi khoảng tin chắc dùng một trị số thống kê của mẫu để ước lượng tham số của quần thể.  Nhưng vì các mẫu biến đổi, các trị số thống kê ta dùng, và các khoảng tin chắc ta xây dựng cũng biến đổi. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/8/2010  Hình bên chỉ một số khoảng tin chắc thu nạp được phần thực (đường màu xanh nằm ngang), trong khi một số on) Phần (proportio không:  Độ tin chắc là quá trình xây dựng khoảng, chứ không phải một khoảng nào đó.  Vì vậy, ta kỳ vọng 95% của tất cả các khoảng tin chắc 95% chứa tham số quần thể thực đang ước lượng. Mẫu số Nguồn: De Veaux, 2006, tr.431 ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Ta có thể tuyên bố với khoảng 95% tin chắc, khoảng pˆ  2* SE ( pˆ ) chứa phần thực. ◦ Tầm của khoảng cho mỗi bên pˆ được gọi là biên sai số (lỗi) (margin of error (ME)).  Tổng quát, các khoảng tin chắc có dạng: ước lượng (estimate) ± ME.  Càng muốn độ tin chắc lớn, ME càng cần lớn.  Tổng quát, dạng biên sai số (ME), với z* là giá trị tới h hạn ((critical i i l value) l ) ME   z   SE  pˆ  ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/8/2010 • Bây giờ ta tin chắc hơn, nhưng chúng ta thiệt gì? Nguồn: De Veaux, 2006, tr.432) ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Càng tin chắc (confident), càng ít chính xác (precise).  Mọi khoảng tin chắc là sự cân bằng giữa sự chắc chắn (certainty) và chính xác (precision). ◦ Trong hầu hết trường hợp ta có thể vừa chắn chắn một cách đầy đủ và chính xác một cách đầy đủ để có các phát biểu hữu ích.  Lựa chọn mức tin chắc là khá tùy tiện, nhưng nhớ rằng “sức căng” giữa chắc chắn và chính xác khi chọn mức tin chắc.  Các mức tin chắc hay dùng là 90%, 95%, và 99%, nhưng có thể dùng bất cứ phần trăm nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/8/2010 Sự cân bằng giữa chắc chắn (certainty) và chính xác (precision), đây là một thái cực... cực Nguồn: De Veaux, 2006, tr.433) ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Bạn làm việc với phòng tiếp thị của một cửa hiệu bán giầy dép trực tuyến và khảo sát ngẫu nhiên 100 người vềề ý kiến ế của họ đối ố với mẫu ẫ website mới. 60% người được khảo sát thích website mới so với website củ. ◦ Khoảng tin chắc 95% cho phần thực của người mua thích website mới hơn? Biên sai số bao nhiêu? ◦ Khoảng tin chắc 99.7% cho phần thực của người mua thích website ebs te mới ớ hơn? ơ Biên ê sa sai số bây g giờ ờ bao nhiêu? êu ◦ Nếu muốn cả tin chắc và chính xác hơn, theo bạn cần phải làm gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/8/2010  ‘2’ trong pˆ  2*SE( pˆ ) (khoảng tin chắc 95%) là từ qui tắc 68- 95-99.7%.  Bảng z cho giá trị chính xác hơn cho khoảng tin chắc 95% là 1.96 1 96 thay vì 2.2 ◦ Ta gọi 1.96 là giá trị tới hạn (critical value) ký hiệu z*.  Cho mỗi mức tin chắc, có thể tìm giá trị tới hạn tương ứng. ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Với khoảng tin chắc 90%, giá trị tới hạn là 1.645.  Chú ý tính đối xứng! ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/8/2010  Tất cả các mô hình xác suất phụ thuộc và các giả định (assumptions). ◦ Mô hình khác nhau phụ thuộc vào các giả định khác nhau. ◦ Nếu các giả định là không đúng, mô hình có thể không thích hợp và các kết luận dựa vào mô hình có thể sai.  Ta không bao giờ chắc chắn giả định là đúng, nhưng ta thường quyết định giả định có hợp lý không bằng cách kiểm tra điều kiện liên quan. ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Trước khi tạo khoảng tin chắc cho phần, cần kiểm tra  Giả đinh độc lập (independence assumption): Giá trị dữ liệu được giả định độc lập nhau. 1 Điều 1. Điề kiện kiệ độc độ lập lậ hợp h lý (Plausible (Pl ibl Independence I d d Condition): Có lý do gì để tin rằng giá trị dữ liệu ảnh hưởng nhau? 2. Với lấy mẫu không thay thế, kiểm tra điều kiện 10% 3. Điều kiện ngẫu nhiên hóa  Giả định kích thước mẫu (Sample Size Assumption): Mẫu cần khá lớn để có thể dùng CLT. 4. Điều kiện thành công/thất bại (Success/Failure Condition) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2