Giáo trình Xác suất thống kê: Phần 2 - PGS.TS Nguyễn Thị Dung

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:63

Thêm vào BST

Báo xấu

22
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tiếp nội dung phần 1, Giáo trình Xác suất thống kê: Phần 2 cung cấp cho người đọc những kiến thức như: Ước lượng tham số; Kiểm định giả thuyết thống kê; Tương quan và hồi quy. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Giáo trình Xác suất thống kê: Phần 2 - PGS.TS Nguyễn Thị Dung

Chương 4 Ước lượng tham số Ước lượng tham số là một trong những bài toán cơ bản của thống kê toán học. Khi nghiên cứu một dấu hiệu đặc trưng dưới dạng các đặc tính định lượng (chẳng hạn như chiều cao, cân nặng, độ dài, . . . ) của tổng thể thông qua biến ngẫu nhiên X, nếu xác định được quy luật phân phối xác suất của X thì việc đưa ra các đánh giá cũng như các dự báo về sự biến động của tổng thể liên quan đến đặc tính này sẽ chính xác và khách quan. Tuy nhiên không phải lúc nào chúng ta cũng xác định được quy luật phân phối xác suất của X. Trong một số trường hợp, bằng phương pháp phân tích lý thuyết ta có thể biết được dạng toán học của hàm phân phối hoặc hàm mật độ của X. Tuy nhiên, các tham số đặc trưng của nó như kỳ vọng, phương sai, hoặc tỷ lệ . . . (gọi chung là tham số θ) lại chưa biết nên ta cần phải xác định θ. Việc tính chính xác θ là khó có thể thực hiện được mà ta chỉ có thể tính gần đúng. Việc tính gần đúng tham số đặc trưng θ thông qua mẫu cụ thể đã có gọi là ước lượng tham số (estimate for parameters). Chương này sẽ trình bày bài toán ước lượng tham số cho kỳ vọng toán và tỷ lệ. Mục 4.1 sẽ giới thiệu phương pháp ước lượng điểm làm cơ sở quan trọng cho việc giải quyết bài toán ước lượng bằng khoảng tin cậy được trình bày trong Mục 4.2. Nội dung của chương được tham khảo chủ yếu từ các tài liệu [2], [6]-[8], [10] và [12]. 4.1. Phương pháp ước lượng điểm Bài toán. Xét biến ngẫu nhiên X của một tổng thể mà ta đã biết quy luật phân phối xác suất nhưng chưa biết tham số đặc trưng θ của X. Hãy ước lượng θ với độ tin cậy cho trước 1 − α. Phương pháp chung. Từ tổng thể cần nghiên cứu rút ra một mẫu ngẫu nhiên kích thước n và dựa vào mẫu đó mà xây dựng một thống kê G dùng để ước lượng θ. Phương pháp ước lượng điểm (point estimation) chủ trương dùng một giá trị để thay thế cho tham số θ chưa biết về tổng thể, vì bản thân θ là một số xác định. Thông thường giá trị được chọn là một thống kê G nào đó của mẫu ngẫu nhiên. Có nhiều cách chọn thống kê G khác nhau tạo nên những phương pháp ước lượng điểm khác nhau. 97
98 Chương 4: Ước lượng tham số Giả sử cần ước lượng tham số θ của biến ngẫu nhiên X. Đối với phương pháp ước lượng điểm ta có thể tiến hành theo các bước như sau: • Bước 1. Từ tổng thể lập mẫu ngẫu nhiên kích thước n: W = (X1 ,X2 , . . . ,Xn ). • Bước 2. Lập thống kê G = f (X1 ,X2 , . . . ,Xn ) được gọi là hàm ước lượng của θ. Thông thường chọn thống kê mẫu tương ứng với tham số θ cần ước lượng, chẳng hạn, để ước lượng kì vọng toán E(X) của biến ngẫu nhiên X thì người ta thường chọn thống kê là trung bình mẫu X, để ước lượng phương sai V (X), chọn thống kê là phương sai điều chỉnh mẫu S ′2 . • Bước 3. Xác định mẫu cụ thể và tính được giá trị g = f (x1 ,x2 , . . . , xn ) của thống kê G trên mẫu cụ thể đó. Từ đó suy ra ước lượng của θ là giá trị g vừa tính được. Chất lượng của ước lượng không thể đánh giá qua một giá trị cụ thể của G vì như vậy chỉ có cách so sánh trực tiếp g và θ mà θ lại chưa biết. Do đó chỉ có thể đánh giá chất lượng của ước lượng thông qua bản thân thống kê G = f (X1 ,X2 , . . . ,Xn ). Rõ ràng là có vô số cách chọn hàm f , tức là có vô số thống kê G có thể dùng làm ước lượng của θ nên cần đưa ra một tiêu chuẩn để đánh giá chất lượng thống kê G, từ đó lựa chọn được thống kê “xấp xỉ một cách tốt nhất” tham số ước lượng. Có 3 tiêu chuẩn cơ bản để chọn thống kê như sau. Định nghĩa 4.1.1. Thống kê G của mẫu được gọi là (i) ước lượng không chệch của tham số θ của biến ngẫu nhiên X nếu E(G) = θ. Ngược lại, nếu E(G) ̸= θ thì G được gọi là ước lượng chệch của θ. (ii) ước lượng hiệu quả của tham số θ của biến ngẫu nhiên X nếu nó là ước lượng không chệch và có phương sai nhỏ nhất so với mọi ước lượng không chệch khác được xây dựng trên cùng một mẫu. (iii) ước lượng vững của tham số θ của biến ngẫu nhiên X nếu G hội tụ theo xác suất đến θ khi n → ∞, tức là với mọi ε dương bé tùy ý ta luôn có lim P (|G − x→∞ θ| < ε) = 1. Chú ý 4.1.2. (i) G là ước lượng không chệch của tham số θ không có nghĩa là mọi giá trị của G đều trùng khít với θ mà chỉ có nghĩa là trung bình các giá trị của thống kê G bằng θ. Từng giá trị của G có thể sai lệch rất lớn so với θ. (ii) Trung bình mẫu X là ước lượng không chệch của kỳ vọng của biến ngẫu nhiên X, nghĩa là E(X) = E(X). Trung bình mẫu X cũng là ước lượng hiệu quả (vững) của E(X). (iii) Tần suất mẫu f là ước lượng không chệch của xác suất P của biến ngẫu nhiên X, nghĩa là E(f ) = P . Tần suất mẫu f là ước lượng hiệu quả (vững) của xác suất P . (iv) Phương sai điều chỉnh mẫu S ′2 là ước lượng không chệch của phương sai V (X) của biến ngẫu nhiên X, tức là E(S ′2 ) = V (X). Phương sai điều chỉnh mẫu S ′2 cũng là ước lượng hiệu quả (vững) của phương sai V (X). Ví dụ 4.1.3 Giả sử một lô hàng của một nhà máy đã được đóng thùng, mỗi thùng 50 sản phẩm. Kiểm tra ngẫu nhiên số phế phẩm trong 50 thùng hàng ta thu được kết quả như sau:
4.1 Phương pháp ước lượng điểm 99 Số phế phẩm X 0 1 2 3 4 5 6 7 8 9 10 Số thùng (ni ) 0 2 3 7 20 6 4 7 2 1 1 (i) Hãy ước lượng cho số phế phẩm trung bình trong mỗi thùng. (ii) Hãy ước lượng cho tỷ lệ phế phẩm của lô hàng đó. (iii) Tìm ước lượng không chệch cho phương sai của số phế phẩm ở mỗi thùng. Giải. (i) Gọi X là biến ngẫu nhiên chỉ số phế phẩm ở mỗi thùng. Đây là bài toán ước lượng điểm cho kỳ vọng của tổng thể. Ta sẽ dùng trung bình mẫu để ước lượng số phế phẩm trung bình trong mỗi thùng. ni xi n i xi ni x2 i 0 0 0 0 2 1 2 2 3 2 6 12 7 3 21 63 20 4 80 320 6 5 30 150 4 6 24 144 7 7 49 343 2 8 16 128 1 9 9 81 ∑1 10 10 100 50 247 1343 Nhìn vào bảng trên ta thấy: 247 x= = 4,94. 50 Vậy số phế phẩm trung bình ở mỗi thùng hàng là khoảng 5 sản phẩm. (ii) Đây là bài toán ước lượng tỷ lệ của một tổng thể. Ta dùng tần suất mẫu (tỷ lệ phế phẩm của 50 thùng hàng) để ước lượng tỷ lệ phế phẩm của cả lô hàng đó. Tổng số sản phẩm điều tra là n = (50)(50) = 2500. Số phế phẩm phát hiện là 247. Do đó, tỷ lệ phế phẩm trong mẫu gồm 50 thùng hàng là 247 f= = 0,0908. 2500 Vậy tỷ lệ phế phẩm của lô hàng là vào khoảng (0,0908)(100%) = 9,88%. (iii) Ước lượng không chệch cho phương sai của số phế phẩm ở mỗi thùng chính là phương sai điều chỉnh mẫu S ′2 . Ta có: 1343 ′ 50 s2 = − (4,94)2 = 2,4564 ⇒ s 2 = (2,4564) = 2,507. 50 49 Vậy phương sai của số phế phẩm giữa các thùng là vào khoảng 2,507.
100 Chương 4: Ước lượng tham số 4.2. Phương pháp ước lượng bằng khoảng tin cậy 4.2.1. Khái niệm Các phương pháp ước lượng điểm nói trên có một nhược điểm cơ bản là khi kích thước mẫu nhỏ thì ước lượng điểm tìm được có thể sai lệch rất nhiều so với giá trị của tham số cần ước lượng, tức là sai số của ước lượng có thể rất lớn. Mặt khác dùng các phương pháp trên không thể đánh giá được khả năng mắc sai lầm khi ước lượng bằng bao nhiêu. Do đó khi kích thước mẫu nhỏ người ta thường sử dụng phương pháp ước lượng bằng khoảng tin cậy. Định nghĩa 4.2.1. Khoảng (θ1 ,θ2 ) của thống kê G được gọi là khoảng tin cậy (interval confidence) của tham số θ với độ tin cậy 1−α nếu P (θ1 < θ < θ2 ) = 1−α. Tham số 1 − α = γ được gọi là độ tin cậy của ước lượng, α được gọi là mức ý nghĩa, θ1 là cận trái (giá trị tối thiểu), θ2 là cận phải (giá trị tối đa), còn I = |θ1 − θ2 | là độ dài khoảng tin cậy, I/2 là bán kính khoảng. Để giải một bài toán ước lượng tham số bằng khoảng tin cậy, ta tiến hành các bước chính như sau: • Bước 1. Từ tổng thể lập mẫu ngẫu nhiên W = (X1 ,X2 , . . . ,Xn ). • Bước 2. Chọn thống kê G = f (X1 ,X2 , . . . ,Xn ,θ) sao cho quy luật phân phối xác suất của G hoàn toàn xác định. • Bước 3. Với độ tin cậy 1 − α cho trước có thể tìm được cặp giá trị α1 và α2 sao cho α1 + α2 = α và tương đương với chúng tìm được cặp phân vị θ1 = θα1 và θ2 = θα2 thỏa mãn điều kiện P (G < θ1 ) = α1 ; P (G > θ2 ) = α2 ⇒ P (θ1 < G < θ2 ) = 1 − (α1 + α2 ) = 1 − α. Như vậy, với độ tin cậy (1 − α) ta đã xây dựng được khoảng tin cậy (θ1 , θ2 ) cho G. Bằng các phép biến đổi tương đương, công thức trên luôn đưa được về dạng P (G1 < θ < G2 ) = 1−α, với G1 = f (X1 ,X2 , . . . ,Xn ,θ1 ) và G2 = f (X1 ,X2 , . . . ,Xn ,θ2 ). Đó chính là khoảng tin cậy cần tìm. Chú ý 4.2.2. (i) Khi tiến hành một phép thử với mẫu ngẫu nhiên W = (X1 ,X2 , . . . ,Xn ) ta thu được một mẫu cụ thể w = (x1 ,x2 , . . . ,xn ), do đó tính được giá trị của θ1 và θ2 ứng với mẫu cụ thể. Khi đó có kết luận là qua mẫu cụ thể w, với độ tin cậy 1 − α, tham số θ của biến ngẫu nhiên gốc X sẽ nằm trong khoảng (θ1 ,θ2 ). (ii) Với độ tin cậy 1 − α cho trước ta có thể tìm được vô số cặp (θ1 ,θ2 ) thỏa mãn điều kiện α1 + α2 = α. Vì thế có vô số khoảng tin cậy tương ứng với độ tin cậy đã cho. 4.2.2. Ước lượng kỳ vọng toán Trong mục này ta sẽ xét bài toán ước lượng kỳ vọng toán của biến ngẫu nhiên X xét trong hai trường hợp khi X có phân phối chuẩn và khi X không có phân phối chuẩn.
4.2 Phương pháp ước lượng bằng khoảng tin cậy 101 1. Khi biến ngẫu nhiên X có phân phối chuẩn N (a,σ 2 ) Bài toán. Cho biến ngẫu nhiên X có phân phối chuẩn N (a,σ 2 ) với kỳ vọng a chưa biết và phương sai σ 2 có thể đã biết (chưa biết). Hãy ước lượng tham số kỳ vọng a với độ tin cậy 1 − α. Giải. Bước 1. Từ tổng thể lập một mẫu ngẫu nhiên W = (X1 ,X2 , . . . ,Xn ) kích thước n. Các bước tiếp theo của việc giải bài toán trên phụ thuộc vào việc chọn thống kê G sao cho phù hợp với các điều kiện của bài toán. Ta xét hai trường hợp tùy thuộc vào phương sai σ 2 của biến ngẫu nhiên X đã biết hoặc chưa biết. a. Đã biết phương sai σ 2 của biến ngẫu nhiên X Bước 2. Chọn thống kê √ (X − a) n G=U = , σ trong đó X là trung bình mẫu. Khi đó, theo Định lý giới hạn trung tâm, ta có thống kê U xấp xỉ phân phối chuẩn hóa N (0,1). Với độ tin cậy 1 − α cho trước tìm được cặp giá trị α1 và α2 sao cho α1 + α2 = α. Từ đó tìm được hai phân vị chuẩn là uα1 và u1−α2 thỏa mãn điều kiện P (U < uα1 ) = α1 ; P (U > u1−α2 ) = α2 . Suy ra P (uα1 < U < u1−α2 ) = 1 − (α1 + α2 ) = 1 − α. Vì uα1 = −u1−α1 nên thay thống kê U vào biểu thức trên, ta thu được ( √ ) (X − a) n P −u1−α1 < < u1−α2 = 1 − α, hay σ ( ) σ σ P X − √ u1−α2 < a < X + √ u1−α1 = 1 − α. n n Bước 3. Kết luận: với độ tin cậy bằng (1 − α), tham số a của biến ngẫu nhiên X sẽ nằm trong khoảng ( ) σ σ X − √ u1−α2 ; X + √ u1−α1 . (4.1) n n Từ công thức (4.1) , để xác định khoảng tin cậy của a, người ta thường xét các trường hợp đặc biệt của khoảng tin cậy theo cách chọn α1 và α2 như sau. α Khoảng tin cậy đối xứng: Nếu α1 = α2 = thì khoảng tin cậy của a là: 2 ( ) σ σ X − √ u1− α ; X + √ u1− α . (4.2) n 2 n 2 σ Trong (4.2), đặt ε = √ u1− α thì biểu thức có dạng (X − ε; X + ε), ε được gọi n 2 là độ chính xác của ước lượng, nó phản ánh mức độ sai lệch của trung bình mẫu so với trung bình tổng thể với độ tin cậy (1 − α) cho trước.
102 Chương 4: Ước lượng tham số Khoảng tin cậy bên phải (dùng để ước lượng giá trị tối thiểu của a): Nếu α1 = 0, α2 = α thì u1−α1 = +∞. Do đó khoảng tin cậy bên phải của a là: ( ) σ X − √ u1−α ; +∞ . (4.3) n Khoảng tin cậy bên trái (dùng để ước lượng giá trị tối đa của a): Nếu α2 = 0, α1 = α thì u1−α2 = +∞. Do đó khoảng tin cậy bên trái của a là: ( ) σ −∞; X + √ u1−α . (4.4) n Chú ý 4.2.3. (i) Từ mẫu cụ thể, ta xác định được các giá trị cụ thể x, ε. (ii) Với cùng độ tin cậy 1 − α cho trước thì độ dài của khoảng tin cậy đối xứng (x − ε, x + ε) là ngắn nhất với I = 2ε. α (iii) Các giá trị u1− α và u1−α chính là giá trị tới hạn mức 1 − hoặc 1 − α được 2 2 tra ở bảng Phụ lục 2. (iv) Nếu tăng cỡ mẫu n, giữ nguyên 1 − α thì ε giảm đi, do đó độ chính xác cao lên. Còn nếu tăng 1 − α, giữ nguyên cỡ mẫu n thì ε tăng lên, do đó độ chính xác giảm đi. Bài toán. Xác định cỡ mẫu tối thiểu n sao cho thỏa mãn yêu cầu cho trước về độ tin cậy 1 − α và độ chính xác ε. σ Giải. Từ các công thức trên ta có ε = √ u1− α . Do đó với ε0 cho trước ta có thể n 2 xác định được cỡ mẫu n như trong công thức sau: [ 2 ] σ 2 n ≥ 2 u1− α +1. ε0 2 Ví dụ 4.2.4 Trọng lượng của một loại sản phẩm là một biến ngẫu nhiên có phân phối chuẩn, với độ lệch chuẩn là 1. Cần phải điều tra một mẫu có kích thước tối thiểu là bao nhiêu để với độ tin cậy của ước lượng là 0,95 thì sai số cho phép không vượt quá 0,1. Giải. Theo giả thiết ta có ε0 = 0,1; σ = 1 và với 1 − α = 0,95, tra bảng Phụ lục 2 ta có u1− α = 1,96. Khi đó, ta có 2 [ ] [ ] σ2 2 1 n ≥ 2 u1− α +1 = 2 (1,96) +1 = [384,16] + 1 = 385. ε0 2 (0,1)2 Vậy để đáp ứng các yêu cầu của bài ta phải điều tra một mẫu có kích thước tối thiểu n = 385. b. Chưa biết phương sai của biến ngẫu nhiên X Bước 1. Tương tự trường hợp đã biết phương sai.
4.2 Phương pháp ước lượng bằng khoảng tin cậy 103 Bước 2. Dùng độ lệch chuẩn điều chỉnh mẫu S ′ thay cho σ chưa biết và chọn thống kê như sau: X − a√ G=T = n. S′ Khi đó thống kê T tuân theo quy luật phân phối Student với (n − 1) bậc tự do nếu kích thước mẫu n ≤ 30 và T xấp xỉ phân phối chuẩn hóa N (0,1) nếu n ≥ 30. Do đó, ta cần xét hai trường hợp sau. Trường hợp 1. Kích thước mẫu nhỏ, n ≤ 30. Bước 3. Với độ tin cậy (1 − α) cho trước có thể tìm được cặp giá trị α1 và α2 sao (n−1) (n−1) cho α1 + α2 = α, từ đó tìm được hai phân vị Student tương ứng là tα1 và tα2 thỏa mãn điều kiện ( ) ( ) (n−1) P T < t(n−1) = α1 ; P T > t1−α2 = α2 . α1 ( ) (n−1) (n−1) Suy ra P tα1
104 Chương 4: Ước lượng tham số (iii) Nếu cho trước độ tin cậy và sai số cho phép không vượt quá ε0 thì kích thước mẫu n phải đo để thỏa mãn yêu cầu đã cho là [ ] s′ 2 ( (n−1) )2 n ≥ 2 t1− α +1. (4.9) ε0 2 Ví dụ 4.2.6 Phỏng vấn 10 gia đình có 3 người về chi phí hàng tháng cho nhu yếu phẩm ở một huyện vùng cao, thu được các số liệu sau: 160, 175, 180, 190, 190, 190, 200, 200, 250, 300 ngàn đồng. i) Hãy ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm của một hộ dân có 3 người ở huyện này với độ tin cậy 95%. ii) Ước lượng chi phí trung bình tối đa hàng tháng cho nhu yếu phẩm của một hộ dân có 3 người ở địa phương này với độ tin cậy 99%. iii) Phải phỏng vấn thêm tối thiểu bao nhiêu hộ dân có 3 người để với độ tin cậy 95% sai số của việc ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm không vượt quá 25 ngàn đồng. Giả thiết chi phí hàng tháng cho nhu yếu phẩm là biến ngẫu nhiên phân phối chuẩn. Giải. Gọi X là chi phí hàng tháng cho nhu yếu phẩm của hộ dân 3 người của địa phương đang xét. Theo giả thiết X có phân phối chuẩn. Vậy chi phí trung bình chính là giá trị a. (i) Đây là bài toán ước lượng bằng khoảng tin cậy đối xứng cho kỳ vọng toán của biến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với cỡ mẫu nhỏ. Khoảng tin cậy đối xứng của a được tính theo công thức (4.6). Ta có n = 10, 1 − α = 0,95 (n−1) (9) (tra bảng Phụ lục 3) suy ra t1− α = t0,975 = 2,262. 2 Từ mẫu cụ thể ta tính x và s′ bằng phương pháp đổi biến. Dễ thấy các xi cách xi − x0 xi − 190 đều một khoảng h = 5, chọn x0 = 190, đặt ui = = và lập bảng để h 5 tính toán x và s′ như sau: xi ni ui ni ui ni u2 i 160 1 −6 −6 36 175 1 −3 −3 9 180 1 −2 −2 4 190 3 0 0 0 200 2 2 4 8 250 1 12 12 144 300 ∑ 1 22 22 484 10 27 685 Từ bảng ta có kết quả sau: 1∑ 27 1∑ 685 u= ni ui = = 2,7; u2 = ni u 2 = i = 68,5; n 10 n 10 s2 = u2 − (u)2 = 68,5 − (2,7)2 = 61,21. u
4.2 Phương pháp ước lượng bằng khoảng tin cậy 105 Sau khi áp dụng công thức đổi lại về biến x, ta có x = x0 + hu = 190 + (5)(2,7) = 203,5; s2 = h2 s2 = (5)2 (61,21) = 1530,25; x u n 2 10 √ s′2 = sx = (1530,25) = 1700,278; s′ = s′2 = 41,234. n−1 9 s′ 41,234 Ta có ε = √ t(n−1) = √ 1− α (2,262) = 29,495. n 2 10 Suy ra khoảng tin cậy đối xứng của a là (x − ε; x + ε) = (203,5 − 29,495; 203,5 + 29,495) = (174,005; 232,995). Vậy với độ tin cậy 95%, mức chi phí trung bình trên một tháng của một gia đình 3 người ở huyện đó nằm trong khoảng từ 174,005 đến 232,995 ngàn đồng. (ii) Đây là bài toán ước lượng bằng khoảng tin cậy bên trái cho kỳ vọng toán của biến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với cỡ mẫu nhỏ. (n−1) (9) Ta có n = 10; 1 − α = 0,99, suy ra t1−α = t0,99 = 2,821. Thay các giá trị cụ thể của x, s′ và t1−α vào (4.8) ta được (n−1) ( ) 41,234 −∞; 203,5 + √ (2,281) = (−∞; 233,243). 10 Vậy với độ tin cậy 99%, mức chi phí trung bình tối đa cho nhu yếu phẩm của một hộ dân 3 người ở địa phương đó là 233,243 ngàn đồng. (iii) Đây là bài toán xác định kích thước mẫu tối thiểu sao cho thỏa mãn độ tin cậy 1 − α = 95% và độ chính xác ε0 = 25 cho trước. Theo công thức (4.9), ta có [ ′2 ] [ ] s (n−1) 2 1700,278 n ≥ 2 (t1− α ) +1 = 2 (2,262) +1 = 14. ε 2 252 Như vậy phải phỏng vấn thêm 14 − 10 = 4 gia đình nữa. Trường hợp 2. Kích thước mẫu lớn, n ≥ 30. Bước 3. Do T xấp xỉ phân phối chuẩn hóa N (0,1) nên Khoảng tin cậy đối xứng: α Nếu α1 = α2 = thì khoảng tin cậy của a là 2 ( ) S′ S′ X − √ u1− α ; X + √ u1− α . (4.10) n 2 n 2 Khoảng tin cậy bên phải (dùng để ước lượng giá trị tối thiểu của a): Khi α1 = 0, α2 = α thì khoảng tin cậy bên phải của a là ( ) S′ X − √ u1−α ; +∞ . (4.11) n Khoảng tin cậy bên trái (dùng để ước lượng giá trị tối đa của a): Khi α2 = 0, α1 = α thì khoảng tin cậy bên trái của a là ( ) S′ −∞; X + √ u1−α . (4.12) n
106 Chương 4: Ước lượng tham số Chú ý 4.2.7. Nếu cho trước độ tin cậy và sai số cho phép không vượt quá ε0 thì khi đó kích thước mẫu n phải đo để thoả mãn đề bài đã cho là [ ′2 ] s n ≥ 2 (u1− α ) +1. 2 (4.13) ε0 2 Ví dụ 4.2.8 Để khảo sát năng suất của một giống lúa A mới nhập từ Nhật Bản, người ta trồng thử trên 100 thửa ruộng và thu được kết quả sau: Năng suất (tạ/ha) 41 43 45 47 49 51 Số thửa ruộng 7 13 25 35 15 5 (i) Hãy xác định năng suất trung bình tối đa và tối thiểu của giống lúa A nói trên với độ tin cậy 95%. (ii) Nếu muốn độ dài của khoảng tin cậy đối xứng không quá 1, với độ tin cậy 99% thì phải thí nghiệm tối thiểu trên bao nhiêu thửa ruộng. Giải. (i) Gọi năng suất lúa trung bình của giống lúa A là a. Đây là bài toán ước lượng bằng khoảng tin cậy bên phải và bên trái cho kỳ vọng toán của biến ngẫu nhiên tuân theo luật phân phối chuẩn khi chưa biết phương sai với cỡ mẫu lớn. Khi đó, khoảng tin cậy bên phải và bên trái của a được xác định theo các công thức (4.11) và (4.12). Theo giả thiết, ta có n = 100; 1 − α = 0,95 nên tra bảng Phụ lục 2 ta có u1−α = u0,95 = 1,645. xi − 47 Từ mẫu cụ thể, tính x và s′ . Chọn x0 = 47, h = 2, đặt ui = , i = 2 1, 2, . . . , 6 và lập bảng tính toán như sau: xi ni ui ni ui ni u 2 i 41 7 −3 −21 63 43 13 −2 −26 52 45 25 −1 −25 25 47 35 0 0 0 49 15 1 15 15 51 5 2 10 20 100 −47 175 Từ bảng ta có: −47 175 u= = −0,47; u2 = = 1,75; x = x0 + hu = 47 + (2)(−0,47) = 46,06; 100 100 s2 = u2 − (u)2 = 1,75 − (−0,47)2 = 1,5291; s2 = h2 s2 = (2)2 (1,5291) = 6,1164; u u n 2 100 √ s′2 = s = (6,1164) = 6,178; s′ = s′2 = 2,486. n−1 99 s′ (2,486)(1,645) Khi đó ta có: ε = √ u1−α = √ = 0,4089. Do đó, n 100 x − ε = 46,06 − 0,4089 = 45,6511 và x + ε = 46,06 + 0,4089 = 46,4689. Vậy với độ tin cậy 95%, năng suất trung bình tối thiểu và năng suất trung bình tối đa của giống lúa A lần lượt là 45,6511 tạ/ha và 46,4689 tạ/ha.
4.2 Phương pháp ước lượng bằng khoảng tin cậy 107 (ii) Đây là bài toán xác định cỡ mẫu khi cho trước độ dài của khoảng tin cậy đối xứng. Theo giả thiết I0 = 2ε0 1, suy ra ε0 0,5 và do 1 − α = 0,99 nên u1− α = 2,576. Áp dụng công thức (4.13) ta được 2 [ ′2 ] [ ] s (2,4856)2 (2,576)2 n ≥ 2 (u1− α ) +1 = 2 +1 = 164. ε0 2 (0,5)2 Vậy, để độ dài của khoảng tin cậy đối xứng không quá 1 với độ tin cậy 99% thì cần phải thí nghiệm trên tối thiểu là 164 thửa ruộng. 2. Khi biến ngẫu nhiên X không theo quy luật phân phối chuẩn Giả sử ở một tổng thể, dấu hiệu định lượng cần nghiên cứu nào đó được xem như là biến ngẫu nhiên X phân phối theo một quy luật nào đó khác quy luật chuẩn có kì vọng toán là a mà ta cần ước lượng. Ta vẫn chọn các thống kê G như hai trường hợp đã biết phương sai hoặc chưa biết phương sai. Theo Định lý giới hạn trung tâm ở Chương 2, khi kích thước của mẫu đủ lớn thì thống kê G được coi là có phân phối chuẩn hóa N (0,1). Do vậy để ước lượng a ta cần phải chọn mẫu có kích thước lớn và khi đó ta sẽ đi ước lượng a giống như ước lượng a của X có phân phối chuẩn. 4.2.3. Ước lượng tỷ lệ Giả sử kích thước tổng thể là N , trong đó có M phần tử mang đặc tính A và N − M phần tử không mang đặc tính A. Nếu lấy ngẫu nhiên ra một phần tử và gọi X là số phần tử mang đặc tính A được lấy ra thì X là biến ngẫu nhiên phân phối theo quy luật không – một. X 0 1 P q p trong đó p = P (A) là xác suất để lấy ngẫu nhiên được một phần tử trong tổng thể mang đặc tính A và q = P (A). Vì p còn được xem là tần suất của tổng thể nên p = M/N và p + q = 1. Việc tính chính xác p là gặp nhiều khó khăn, do đó ta ước lượng cho tỷ lệ p với độ tin cậy cho trước (p không quá lớn hoặc không quá bé). Ta đã biết trong quy luật phân phối không-một thì E(X) = p và V (X) = pq, như vậy ước lượng kỳ vọng toán của quy luật này cũng chính là ước lượng xác suất p. Vì vậy ta có bài toán ước lượng tỷ lệ p như sau. Bài toán 1. Ước lượng θ = p của biến ngẫu nhiên X có quy luật phân phối không – một A(p). Giải. Bước 1. Từ tổng thể rút ra mẫu ngẫu nhiên W = (X1 ,X2 , . . . , Xn ) kích thước n, trong đó Xi , i = 1, 2,...,n là những biến ngẫu nhiên độc lập với nhau và có phân phối không – một với tham số p. Bước 2. Chọn thống kê f −p √ U=√ n, f (1 − f ) trong đó f là tần suất của mẫu. Theo Định lý giới hạn trung tâm ở Chương 2, khi n đủ lớn (n > 30) và f không quá bé và cũng không quá lớn thì U xấp xỉ phân phối chuẩn hóa N (0,1).
108 Chương 4: Ước lượng tham số Bước 3. Với độ tin cậy 1 − α cho trước tìm được cặp giá trị α1 và α2 sao cho α1 + α2 = α. Từ đó tìm được hai phân vị chuẩn là uα1 và u1−α2 thỏa mãn điều kiện P (U < uα1 ) = α1 ; P (U > u1−α2 ) = α2 . Suy ra P (uα1 < U < u1−α2 ) = 1 − (α1 + α2 ) = 1 − α. Vì uα1 = −u1−α1 nên thay thống kê U vào biểu thức trên và giải ra ẩn p ta thu được ( √ √ ) f (1 − f ) f (1 − f ) P f− √ u1−α2 < p < f + √ u1−α1 = 1 − α. n n Từ đó suy ra với độ tin cậy 1 − α, tham số p của biến ngẫu nhiên X sẽ nằm trong khoảng ( √ √ ) f (1 − f ) f (1 − f ) f− √ u1−α2 ; f + √ u1−α1 . (4.14) n n Từ công thức (4.14), ta có các loại khoảng tin cậy thường dùng như sau: α Khoảng tin cậy đối xứng của p (khi α1 = α2 = ) là: 2 ( √ √ ) f (1 − f ) f (1 − f ) f− √ u1− α ; f + √ u1− α . (4.15) n 2 n 2 Khoảng tin cậy bên phải của p (khi α1 = 0, α2 = α) là: ( √ ) f (1 − f ) f− √ u1−α ; +∞ . (4.16) n Khoảng tin cậy bên trái của p (khi α1 = α, α2 = 0) là: ( √ ) f (1 − f ) −∞; f + √ u1−α . (4.17) n Chú ý 4.2.9. (i) Khoảng tin cậy đối xứng có độ dài ngắn nhất là I = 2ε với √ f (1 − f ) ε= √ u1− α n 2 là độ chính xác của ước lượng. (ii) Kích thước của mẫu n cần phải điều tra đảm bảo cho việc ước lượng tham số p có độ tin cậy 1 − α và sai số cho phép không vượt quá ε0 cho trước là [ ] f (1 − f ) 2 n≥ u1− α +1. (4.18) ε2 0 2
4.2 Phương pháp ước lượng bằng khoảng tin cậy 109 Ví dụ 4.2.10 Để xác định tỷ lệ nảy mầm của hạt giống ngô, người ta gieo thử 400 hạt và thấy có 350 hạt nảy mầm. (i) Tỷ lệ nảy mầm tối đa đạt bao nhiêu, với độ tin cậy 95%? (ii) Để đảm bảo độ chính xác là 0,01 thì cần phải gieo bao nhiêu hạt với cùng độ tin cậy như trên? Giải. (i) Gọi p là tỷ lệ hạt nảy mầm. Đây là bài toán ước lượng tỷ lệ bằng khoảng tin cậy bên trái. Khi đó khoảng tin cậy bên trái của p được tính theo công thức (4.17). 350 Từ mẫu cụ thể, ta có n = 100, m = 350 do đó f = = 0,875. Với độ tin cậy 400 95%, tức là 1 − α = 0,95 tra bảng Phụ lục 2 ta được u1−α = u0,95 = 1,645, suy ra √ √ f (1 − f ) (0,875)(0,125) ε= √ u1−α = √ (1,645) = 0,0272. n 400 Do đó, khoảng tin cậy bên trái của p là (−∞; f + ε) = (−∞; 0,875 + 0,0272) = (−∞; 0,902). Kết luận: Với độ tin cậy 95%, tỷ lệ nảy mầm tối đa là 90,2%. (ii) Đây là bài toán xác định cỡ mẫu tối thiểu khi biết trước độ chính xác ε và độ tin cậy 1 − α của ước lượng. Sử dụng công thức (4.18), ta có [ ] [ ] f (1 − f ) 2 (0,875)(0,125) n≥ u1− α +1 = 2 (1,96) +1 = [4201,75] + 1 = 4202. ε2 0 2 0,012 Do đó, để đảm bảo độ chính xác 0,01 thì cần gieo tối thiểu 4202 hạt. Tiếp theo ta xét một số bài toán thường gặp trong thực tế liên quan đến bài toán ước lượng tỷ lệ, chẳng hạn cần đưa ra ước lượng về số người mắc một loại bệnh trong một khu vực dân cư có N người hoặc cần ước lượng về số phế phẩm trong một kho hàng gồm N sản phẩm, . . . . Bài toán 2. Ước lượng số cá thể có đặc tính A trong tổng thể gồm N cá thể. Giải. Gọi M là số cá thể mang đặc tính A trong tổng thể gồm N cá thể. Lấy từ tổng thể ra một mẫu ngẫu nhiên (không hoàn lại) gồm n cá thể. Gọi X là số cá thể M có đặc tính A trong n cá thể. Khi đó, tỷ lệ p = phần tử mang đặc tính A trong N tổng thể có thể xác định được bằng phương pháp ước lượng khoảng tin cậy cho tỷ lệ. Với N đã biết ta sẽ ước lượng được M từ khoảng tin cậy của p. Tức là √ √ f (1 − f ) M f (1 − f ) f− √ u1− α <
110 Chương 4: Ước lượng tham số Ví dụ 4.2.11 Tại một vùng núi khu vực Tây Nguyên gồm 10000 người. Tiến hành xét nghiệm tìm ký sinh trùng sốt rét của 200 người thấy có 40 người có ký sinh trùng sốt rét trong máu. Hãy tìm khoảng tin cậy của số người có ký sinh trùng sốt rét trong máu với độ tin cậy 95%. Giải. Gọi p và M lần lượt là tỷ lệ người và số người có ký sinh trùng sốt rét trong M 40 máu ở khu vực Tây Nguyên. Suy ra p = . Theo đề bài, ta có f = = 0,2 nên 10000 200 1−f = 0,8. Với độ tin cậy 1−α = 0,95, tra bảng Phụ lục 2 ta có u1− α = u0,975 = 1,96. 2 Suy ra √ √ f (1 − f ) (0,2)(0,8) ε= u1− α = (1,96) = 0,05488. n 2 200 M Do đó f − ε = 0,14512; f + ε = 0,25488, hay 0,14512 < p = < 0,25488. Từ 10000 đây suy ra (0,14512)(10000) < M < (0,25488)(10000) hay 1451,2 < M < 2548,8. Vậy với độ tin cậy 95%, số người có ký sinh trùng sốt rét trong máu ở khu vực Tây Nguyên nằm trong khoảng từ 1452 đến 2549 người. Dựa vào bài toán ước lượng tỷ lệ người ta cũng có thể tiến hành bài toán ước lượng kích thước tổng thể bằng cách tạo ra một dấu hiệu đặc trưng cho một số nhất định các phần tử trong tổng thể sau đó tiến hành ước lượng tỷ lệ phần tử mang dấu hiệu đặc trưng này. Dựa vào tỷ lệ đó người ta ước lượng được kích thước của tổng thể. Chẳng hạn, để xác định số lượng N của một loài vật hoang dã trong một khu rừng hoặc số lượng cá có trong hồ người ta tiến hành theo phương pháp sau: Bắt M cá thể trong N cá thể và đánh dấu từng cá thể này (chẳng hạn mỗi con thú, mỗi con chim hoặc mỗi con cá được gắn với một vòng nhôm), sau đó thả M cá thể vào môi trường mà chúng đã sinh sống. Sau một thời gian ta tìm bắt n cá thể, n < M , từ số cá thể X đã được đánh dấu có mặt trong n cá thể vừa bắt được ta sẽ tìm cách xác định số lượng cá thể N . Bài toán 3. Ước lượng kích thước tổng thể. M Giải. Trước hết, ta đi ước lượng tỷ lệ p = cá thể được đánh dấu trong tổng N thể. Từ đó ước lượng được N vì M đã biết. Tức là M M √
4.2 Phương pháp ước lượng bằng khoảng tin cậy 111 80 f= = 0,2. Với độ tin cậy 1 − α = 0,95, tra bảng Phụ lục 2 ta được u1− α = 1,96, 400 2 suy ra √ (0,2)(0,8) ε= √ (1,96) = 0,0392. 400 Vậy khoảng tin cậy đối xứng của tỷ lệ P là (0,2 − 0,0392; 0,2 + 0,0392). Từ đây 2000 suy ra 0,2608 < < 0,2392 hay 8362 < N < 12348. N Kết luận: Với độ tin cậy 95%, số cá có trong hồ nằm khoảng từ 8362 đến 12348 con. Bài tập Chương 4 1. Biết trọng lượng X (kg) của mỗi con gà tại một trại gà có phân phối chuẩn N (a, σ 2 ). Bắt ngẫu nhiên 20 con gà đem cân ta có kết quả sau: Trọng lượng X (kg) 2,1 2,3 2,4 2,6 2,7 2,9 3,1 3,3 Số con ni 1 2 3 3 5 3 2 1 Với độ tin cậy 95%, hãy ước lượng khoảng tin cậy của kỳ vọng toán a. 2. Sức chịu nén tối đa của một loại vật liệu là một biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Thử 10 mẫu vật liệu nói trên ta có kết quả sau: Sức chịu nén tối đa X(kg/cm2 ) 250 270 300 330 350 Số mẫu ni 1 2 4 2 1 Tìm khoảng tin cậy của sức chịu nén trung bình của loại vật liệu trên với độ tin cậy 95%. 3. Doanh thu hàng tháng X của cửa hàng kinh doanh thóc giống là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Theo dõi doanh thu tại 10 cửa hàng ta có kết quả sau: Doanh thu X (triệu đồng) 29 31 33 35 37 39 41 Số cửa hàng ni 1 1 2 2 2 1 1 Hãy tìm khoảng tin cậy của doanh thu trung bình với độ tin cậy 98%. 4. Cân thử 100 quả trứng, ta có kết quả sau: Trọng lượng X (g) 150 160 165 170 180 185 Số quả ni 4 16 25 30 15 10 (a) Tìm khoảng tin cậy cho trọng lượng trung bình của trứng với độ tin cậy 0,95. (b) Trứng có trọng lượng nhỏ hơn 165g được coi là trứng loại hai. Tìm khoảng ước lượng của tỉ lệ trứng loại hai với độ tin cậy 0,99. Giả thiết trọng lượng trứng gà là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). 5. Giả sử kết quả thi môn xác suất thống kê của một lớp là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Kiểm tra 30 sinh viên ta có bảng số liệu sau:
112 Chương 4: Ước lượng tham số Điểm thi X 3 4 5 6 7 8 9 10 Số sinh viên ni 2 3 5 10 4 3 2 1 (a) Hãy tìm khoảng tin cậy của điểm trung bình của lớp trên với độ tin cậy 95%. (b) Sinh viên đạt điểm thi lớn hơn hay bằng 7 được xếp loại khá giỏi. Hãy tìm khoảng tin cậy của tỷ lệ sinh viên khá giỏi với độ tin cậy 98%. 6. Giả sử trọng lượng sản phẩm là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Kiểm tra ngẫu nhiên trọng lượng của 28 sản phẩm cùng loại do một máy sản xuất, ta thu được kết quả: Trọng lượng sản phẩm X (g) 3,94 3,97 4 4,03 4,06 Số sản phẩm ni 2 7 10 6 3 (a) Với độ tin cậy 95% hãy ước lượng trọng lượng trung bình tối đa và tối thiểu của sản phẩm trên. (b) Hãy ước lượng trọng lượng trung bình của sản phẩm trên bằng khoảng tin cậy đối xứng với độ tin cậy 97%. 7. Giả thiết năng suất lúa là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Điều tra 365 điểm trồng lúa của một huyện người ta thu được bảng số liệu sau: Năng suất X (tạ/ha) 25 30 33 34 35 36 37 39 40 Số điểm ni 6 13 38 74 106 85 30 10 3 (a) Với độ tin cậy 95% có thể khẳng định năng suất lúa trung bình của huyện trên nằm trong khoảng nào. (b) Hãy ước lượng năng suất lúa trung bình tối đa của huyện trên với độ tin cậy 99%. 8. Điều tra doanh số hàng tháng (tính bằng triệu đồng) của 100 hộ kinh doanh một loại mặt hàng người ta thu được bảng số liệu: Doanh số X (triệu đồng) 11,5 11,6 11,7 11,8 11,9 20 Số hộ ni 10 15 20 30 15 10 Bằng khoảng tin cậy đối xứng hãy ước lượng doanh số trung bình hàng tháng của các hộ kinh doanh mặt hàng này với độ tin cậy 95%. Giả thiết doanh số là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). 9. Để xác định chiều cao trung bình của cây bạch đàn trong một lâm trường người ta tiến hành đo 35 cây và thu được bảng số liệu sau: Chiều cao X (m) 6,5 7,0 7,5 8,0 8,5 9,0 7,0 7,5 8,0 8,5 9,0 9,5 Số cây ni 2 4 10 11 5 3 Giả thiết chiều cao của cây bạch đàn là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). (a) Với độ tin cậy 95% có thể nói chiều cao trung bình của cây bạch đàn trong lâm trường trên nằm trong khoảng nào. (b) Hãy ước lượng tỷ lệ cây bạch đàn có chiều cao lớn hơn 8 mét với độ tin cậy 94%.
4.2 Phương pháp ước lượng bằng khoảng tin cậy 113 10. Đo chỉ số mỡ sữa của 100 con bò lai Hà - Ấn F1 , được bảng số liệu sau: Chỉ số mỡ sữa X (g/ml) 3,0 3,6 4,2 4,8 5,4 6,0 6,6 3,6 4,2 4,8 5,4 6,0 6,6 7,2 Số bò lai ni 2 8 30 35 15 7 3 Hãy ước lượng chỉ số mỡ sữa trung bình của giống bò lai trên với độ tin cậy 95%. Giả thiết chỉ số mỡ sữa là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). 11. Đo áp lực X (tính bằng kg/cm2 ) của 18 thùng chứa, người ta thu được bảng số liệu sau: Áp lực X (kg/cm2 ) 19,6 19,5 19,9 20 19,8 20,5 21 18,5 19,7 Số thùng ni 1 2 2 4 2 3 2 1 1 Với độ tin cậy 95%, hãy ước lượng áp lực trung bình của loại thùng chứa trên. Giả thiết áp lực của thùng chứa là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). 12. Để định mức thời gian hoàn thành một chi tiết máy, người ta theo dõi quá trình gia công của 25 chi tiết máy và thu được bảng số liệu: Thời gian gia công 15 − 17 17 − 19 19 − 21 21 − 23 23 − 25 25 − 27 X (phút) Số chi tiết máy ni 1 3 4 12 3 2 Bằng khoảng tin cậy đối xứng, hãy ước lượng thời gian gia công trung bình một chi tiết máy với độ tin cậy 93%. Giả thiết thời gian gia công chi tiết máy là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). 13. Chiều cao của cây keo lai là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Kết quả theo dõi sinh trưởng thông qua chiều cao 30 cây keo lai tại một lâm trường được cho bởi bảng số liệu sau: Đường kính X (cm) 3 4 5 6 7 8 9 10 Số cây ni 2 3 5 10 4 3 2 1 (a) Tìm khoảng tin cậy của chiều cao trung bình của cây keo lai ở lâm trường trên với độ tin cậy 95%. (b) Cây có chiều cao lớn hơn hay bằng 7 được coi là cây sinh trưởng tốt. Tìm khoảng tin cậy của tỷ lệ cây sinh trưởng tốt ở lâm trường trên với độ tin cậy 99%. 14. Số khuyết tật của một sản phẩm của một xí nghiệp đúc là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Sau khi đổi mới thiết bị, kiểm tra ngẫu nhiên 36 sản phẩm thu được kết quả sau: Số khuyết tật X 0 1 2 3 4 5 6 Số sản phẩm ni 7 4 4 6 8 6 1
114 Chương 4: Ước lượng tham số Với độ tin cậy 95% hãy ước lượng số khuyết tật trung bình tối thiểu của mỗi sản phẩm sau khi đổi mới thiết bị. 15. Hàm lượng đường của một loại trái cây là biến ngẫu nhiên có phân phối chuẩn N (a, σ 2 ). Người ta chăm bón bằng một loại phân N và sau một thời gian kiểm tra hàm lượng đường của một số trái cây thu được kết quả sau: Hàm lượng đường 1 5 9 13 17 21 25 29 37 (X(%) 5 9 13 17 21 25 29 33 41 Số trái ni 51 47 39 36 32 8 7 3 2 Ước lượng hàm lượng đường trung bình tối đa của loại trái cây đó với độ tin cậy 99%. 16. Người ta đo chiều cao của 9 cây quế con trong vườn ươm với công thức dàn che 50% và thu được kết quả sau: Thứ tự cây 1 2 3 4 5 6 7 8 9 Chiều cao (cm) 14,5 15,1 15,3 16,2 15,2 14,1 16,3 15,6 16,1 Hãy ước lượng chiều cao trung bình của lô cây quế con với α = 0,05. Nếu sai số của ước lượng không vượt quá 0,03 thì cần quan sát mẫu với kích thước bao nhiêu? Cho biết chiều cao cây quế con là biến ngẫu nhiên tuân theo quy luật phân phối chuẩn N (a, σ 2 ). 17. Một công ty than có 10000 công nhân làm việc trực tiếp tại các hầm lò. Để xác định số công nhân mắc các bệnh về phổi, người ta tiến hành kểm tra 820 người thấy có 120 người mắc bệnh về phổi. Với độ tin cậy 95%, hãy tìm khoảng tin cậy của số công nhân mắc bệnh về phổi trong tổng công ty. 18. Để ước lượng số lượng cò tại một vườn cò lớn ở đồng bằng sông Cửu Long, người ta bắt ngẫu nhiên 800 con cò và cho mỗi con đeo một vòng nhôm nhỏ sau đó thả lại vườn. Một tháng sau bắt lại 320 con thấy có 80 con có đeo vòng nhôm. Hãy ước lượng số cò trong vườn với độ tin cậy 0,95. 19. Kiểm tra 200 con gà tại một trại gà thấy có 80 con mắc bệnh A. Hãy tìm khoảng tin cậy của tỷ lệ gà mắc bệnh A ở trại gà nói trên với độ tin cậy 0,92. 20. Để ước lượng số người nghiện ma túy trong một vùng người ta ghi danh 1000 người được trả về cộng đồng sau khi cai nghiện. Một năm sau tới trung tâm cai nghiện chọn ngẫu nhiên 800 người thấy có 480 người trong số 1000 người được trả về cộng đồng năm trước phải quay lại trại. Hãy ước tính số người nghiện trong vùng với độ tin cậy 0,97.
Chương 5 Kiểm định giả thuyết thống kê Kiểm định giả thuyết thống kê (statistical hypothesis testing) là phương pháp đưa ra quyết định sử dụng dữ liệu, hoặc từ thí nghiệm, hoặc từ nghiên cứu quan sát. Trong thống kê, một kết quả được gọi là đủ độ tin cậy mang tính thống kê nếu nó có ít khả năng diễn ra theo một ngưỡng xác suất cho trước (chẳng hạn 5% hay 10%). Kiểm định giả thuyết đôi khi được gọi là phân tích dữ liệu để khẳng định, để so sánh với phân tích dữ liệu để khám phá. Trong chương này chúng ta xét bài toán kiểm định giả thuyết thống kê về các tham số đặc trưng θ của biến ngẫu nhiên gốc X. • Mục 5.1 trình bày những vấn đề cơ bản nhất về bài toán kiểm định giả thuyết thống kê. • Mục 5.2 giới thiệu bài toán kiểm định giả thuyết thống kê về kỳ vọng toán trường hợp một tổng thể và hai tổng thể. • Mục 5.3 trình bày bài toán kiểm định giả thuyết thống kê về tỷ lệ. Nội dung của chương được tham khảo chủ yếu trong các tài liệu [8]-[10] và [12]. 5.1. Một số khái niệm cơ bản 5.1.1. Giả thuyết thống kê Giả thuyết thống kê (statistical hypothesis) là giả thuyết về dạng phân phối xác suất, về các tham số đặc trưng của biến ngẫu nhiên gốc hoặc về tính độc lập của các biến ngẫu nhiên gốc. Giả thuyết được đưa ra kiểm nghiệm được kí hiệu là H0 , gọi là giả thuyết không (null hypothesis). Đó là giả thuyết mà ta nghi ngờ muốn bác bỏ hoặc giả thuyết ta muốn bảo vệ. Ngoài giả thuyết H0 , ta còn phải định ra một giả thuyết cạnh tranh với H0 được gọi là đối thuyết (alternative hypothesis), kí hiệu là H1 . Cần chú ý rằng đối thuyết H1 không nhất thiết là phủ định của giả thuyết H0 . Chẳng hạn, nhu cầu trung bình của thị trường về một loại hàng hóa là a = 1000 đơn vị/tháng. Nếu ta nghi ngờ rằng ý kiến này không đúng thì đối thuyết H1 là a ̸= 1000, nhưng nếu do tiếp thị tốt, do chính sách hậu mãi tốt người ta nghĩ rằng nhu cầu về loại mặt hàng này tăng lên thì đối thuyết H1 là a > 1000. Quy tắc kiểm định dựa trên hai nguyên lý sau. 115
116 Chương 5: Kiểm định giả thuyết thống kê • Nguyên lý xác suất nhỏ: Nếu một biến cố có xác suất xảy ra rất nhỏ thì trong một hay vài phép thử thì biến cố đó coi như không xảy ra. • Nguyên lý phản chứng: Để bác bỏ A, ta giả sử A đúng thì dẫn đến một điều vô lý. Dựa vào hai nguyên lý này ta đưa ra phương pháp chung để kiểm định một giả thuyết thống kê như sau: Để kiểm định H0 trước hết ta giả sử H0 đúng từ đó tìm ra được biến cố A mà xác suất xuất hiện biến cố A là rất bé và ta có thể xem là A không xảy ra trong một phép thử về biến cố này. Lúc đó nếu trên một mẫu cụ thể quan sát được mà biến cố A xuất hiện thì điều này trái với nguyên lý xác suất nhỏ. Vậy H0 sai và bác bỏ nó. Còn nếu A không xảy ra thì chưa có cơ sở để bác bỏ H0 . 5.1.2. Tiêu chuẩn kiểm định giả thuyết thống kê Lập mẫu ngẫu nhiên W = (X1 , X2 , . . . , Xn ) và chọn thống kê G = f (X1 , X2 , . . . , Xn , θ0 ), (5.1) trong đó θ0 là tham số liên quan đến giả thuyết kiểm định. Nếu H0 đúng thì G có quy luật phân phối xác suất xác định. Thống kê G được gọi là tiêu chuẩn kiểm định. 5.1.3. Miền bác bỏ giả thuyết thống kê Sau khi chọn được tiêu chuẩn kiểm định G, do quy luật phân phối xác suất của G đã biết nên với xác suất khá bé α cho trước, (thường α = 0,05 hoặc 0,01) và với điều kiện H0 đúng có thể tìm được miền Wα sao cho G nhận giá trị trong miền Wα với xác suất bằng α P (G ∈ Wα |H0 ) = α. (5.2) Giá trị α được gọi là mức ý nghĩa của kiểm định và Wα được gọi là miền bác bỏ giả thuyết H0 với mức ý nghĩa α. Miền Wα được gọi là miền không bác bỏ giả thuyết. Điểm giới hạn phân chia miền bác bỏ và miền không bác bỏ được gọi là giá trị tới hạn. 5.1.4. Giá trị quan sát của tiêu chuẩn kiểm định Thực hiện một phép thử đối với mẫu ngẫu nhiên W = (X1 , X2 , . . . , Xn ) ta thu được mẫu cụ thể w = (x1 , x2 , . . . , xn ), thay giá trị này vào tiêu chuẩn kiểm định (5.1) ta được giá trị quan sát của tiêu chuẩn kiểm định Gqs = f (x1 , x2 , . . . , xn , θ0 ). (5.3) 5.1.5. Quy tắc kiểm định giả thuyết Sau khi đã tính được Gqs , so sánh giá trị này với miền bác bỏ Wα và kết luận theo quy tắc sau: