Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả
lượt xem 10
download
Chương 2 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮC Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị nhất định. Tập hợp các số liệu quan trắc của đại...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả
- OPEN (1, FILE = ‘bang1_1.tke’) READ (1, *) READ (1, *) z1, v1 2 READ (1, *) z2, v2 IF (z.GE.z1.AND.z.LE.z2) THEN v = v1+(v2-v1)/(z2-z1)*(z-z1) Chương 2 CLOSE (1) GOTO 1 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT ELSE XỬ LÝ SỐ LIỆU QUAN TRẮC z1 = z2 v1 = v2 GOTO 2 Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật ENDIF phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí ENDIF nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào 1 TraB1_1 = v đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên RETURN X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị END nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập hợp thống kê đơn giản được trình bày dưới dạng bảng. 2.1. Hàm phân bố thống kê Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của sự kiện X < x trong chuỗi thống kê đó F ∗ (x ) = P ∗ ( X < x ) . (2.1) Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x và chia cho tổng số quan trắc đã thực hiện n . Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan 25 26
- trắc n , theo định lý Becnuli, với x bất kỳ tần suất sự kiện X < x tiến p dần tới xác suất (hội tụ về xác suất) của sự kiện đó. Do đó, khi tăng n hàm phân bố thống kê F ∗ ( x ) sẽ tiến tới hàm phân bố thực thụ F ( x ) của đại lượng ngẫu nhiên X . F*(x) 1 x Hình 2.2. Tổ chức đồ thống kê F*(x) x 1 Hình 2.1. Biểu diễn hàm phân bố thống kê Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây x dựng “chuỗi thống kê” dưới dạng bảng như sau: Hình 2.3. Đồ thị gần đúng của hàm phân bố thống kê ... Khoảng trị I i ... x1 ; x2 x2 ; x3 x3 ; x4 xi ; xi +1 x k ; x k +1 ∗ ∗ ∗ ∗ ∗ ∗ Đối với các phân bố thống kê người ta cũng tính được các đặc trưng ... ... Tần suất pi p1 p2 p3 pi pk bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2). Khi nhiên: tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại - Trung bình số học (hay trung bình thống kê) của các giá trị quan lượng ngẫu nhiên X . trắc của đại lượng ngẫu nhiên: Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng n ∑ xi của hàm phân bố thống kê (hình 2.3). m∗ = M ∗ [ X ] = i =1 . (2.2) x n 27 28
- Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết H - Phương sai thống kê: rằng đại lượng ngẫu nhiên X có hàm phân bố F ( x ) . Để chấp nhận hoặc ∑ (xi − m∗ ) n 2 bác bỏ giả thuyết H , người ta xét đại lượng U đặc trưng cho mức độ x Dx = D∗ [ X ] = ∗ i =1 . (2.3) bất phù hợp của phân bố lý thuyết và phân bố thống kê. Đại lượng U có n thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các Khi đã xác định được phân bố thống kê, có thể giải quyết bài toán là bình phương của độ lệch giữa xác suất lý thuyết p i và tần suất tương trơn, tức chọn đường cong phân bố lý thuyết đều đặn về phương diện nào ứng pi∗ hay tổng của những bình phương độ lệch đó nhưng với những hệ đó mô tả tốt nhất phân bố thống kê đó. Biểu thức giải tích của đường cong phân bố được chọn phụ thuộc vào một số tham số, do đó, nhiệm vụ số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê F ∗ ( x ) là trơn là chọn hợp lý các tham số đó. Một trong những phương pháp và hàm lý thuyết F ( x ) ... chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc Giả sử đại lượng U đã chọn được theo một cách nào đó. Rõ ràng trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được U sẽ là một đại lượng ngẫu nhiên. Quy luật phân bố của nó phụ thuộc cho bằng các đặc trưng thống kê tương ứng. Thí dụ, nếu muốn mô tả vào quy luật phân bố của đại lượng ngẫu nhiên X và vào số lượng quan phân bố của đại lượng ngẫu nhiên X bằng phân bố chuẩn trắc n . Giả sử quy luật phân bố này đã được biết. Nhờ dữ liệu thống kê ( x − m )2 − 1 thấy rằng đại lượng đặc trưng mức độ sai khác U nhận giá trị u . Sai 2σ 2 f ( x) = e σ 2π khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết H sai? thì người ta chọn Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết H đúng và m = m ∗ và σ = D = σ∗ = D∗ . tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số x lượng quan trắc còn thiếu mà đại lượng U không nhỏ hơn giá trị u đã 2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê thấy qua quan trắc, tức tính xác suất của sự kiện U ≥ u. Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết H ; nếu xác thuyết f ( x) nào đó. Dù đường cong lý thuyết này được chọn tốt thế nào suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không chăng nữa cũng không tránh khỏi những sai khác nào đó. Vậy xuất hiện mâu thuẫn với giả thuyết H . câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn 2.2.1. Tiêu chuẩn χ 2 sai đường cong lý thuyết. Để trả lời câu hỏi này cần “những tiêu chuẩn phù hợp”. Tư tưởng của việc sử dụng các tiêu chuẩn phù hợp như sau: Trong một số phương pháp chọn U , quy luật phân bố của U có 29 30
- dần tới phân bố χ 2 1. Vậy những tính chất rất đơn giản và khi n đủ lớn thực tế nó không phụ thuộc vào hàm F ( x) . Tiêu chuẩn χ 2 của Pierson là một trong những tiêu (p ) 2 ∗ − pi k = n∑ U=χ 2 , i chuẩn phù hợp được ứng dụng nhiều nhất. pi i =1 Giả sử thực hiện n quan trắc độc lập. Kết quả quan trắc được dẫn mi , mi − số lượng các quan trắc trong các khoảng giá trị hoặc, vì pi∗ = tới k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần n suất). Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với i , nên giả thiết rằng đại lượng ngẫu nhiên X có quy luật phân bố F ( x) đã cho (mi − npi )2 k không. ∑ U = χ2 = . (2.5) npi Biết quy luật phân bố lý thuyết F ( x ) , có thể tính những xác suất lý i =1 Phân bố χ 2 phụ thuộc vào tham số r , gọi là số bậc tự do. thuyết của sự kiện X rơi vào từng khoảng giá trị: p1, p2 , ..., pk . Số bậc tự do r bằng số các khoảng giá trị k trừ đi số các điều kiện liên hệ mà pi∗ phải tuân theo (số các điều kiện ràng buộc). Thí dụ về các Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và thống kê một tổng như sau điều kiện ấy có thể là: ( ) k U = ∑ C i pi∗ − pi k 2 ∑ pi∗ = 1 nếu ta đòi hỏi sao cho tổng các tần số thống kê phải . (2.4) 1) i =1 i =1 bằng đơn vị; Các hệ số tỷ trọng C i (tỷ trọng của các khoảng giá trị) có ý nghĩa là những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là ngang hàng nhau về mức ý nghĩa, cùng một độ lệch p i∗ − p i có thể ít Phân bố χ 2 với r bậc tự do là phân bố của tổng các bình phương của r đại 1 lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố đáng kể khi bản thân xác suất p i lớn nhưng rất đáng kể khi p i nhỏ. chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị. Phân bố này được đặc trưng bởi hàm mật độ Pierson đã chứng minh rằng nếu lấy ⎧ r u −1 − n 1 Ci = ⎪ , u2 2 u>0 e khi ⎪ r pi ⎛r⎞ kr (u) = ⎨ 2 Γ⎜ ⎟ 2 ⎪ ⎝2⎠ thì với n lớn, luật phân bố của U có những tính chất rất đơn giản: nó ⎪0 u
- 2 k Bảng 2.1. Những giá trị χ phụ thuộc vào r và p ∑ ~i pi∗ = m x nếu ta chọn phân bố lý thuyết sao cho các giá trị 2) x i =1 p trung bình lý thuyết và thống kê phải trùng nhau; r 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 ∑( ) k 2 ~ − m∗ pi∗ = D x nếu ngoài ra phương sai lý thuyết và 3) xi x 1 0,000 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,71 3,84 5,41 6,64 10,83 i =1 2 0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,41 3,22 4,60 5,99 7,82 9,21 13,82 phương sai thống kê cũng phải trùng nhau. 3 0,115 0,185 0,352 0,584 1,005 1,424 2,37 3,66 4,64 6,25 7,82 9,84 11,34 16,27 Người ta đã lập sẵn các bảng phân bố χ 2 (bảng 2.1 là một trong số 4 0,297 0,429 0,711 1,064 1,649 2,20 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,46 5 0,554 0,752 1,145 1,610 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,5 các bảng đó). Dùng các bảng này có thể đối với từng giá trị χ 2 và số bậc 6 0,872 1,134 1,635 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,5 tự do r tìm được xác suất p của sự kiện: đại lượng phân bố theo quy 7 1,239 1,564 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,3 8 1,646 2,03 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,1 26,1 luật χ 2 vượt quá giá trị này. 9 2,09 2,53 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,7 27,9 Phân bố χ 2 cho phép đánh giá mức độ phù hợp của phân bố lý 10 2,56 3,06 3,94 4,86 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,2 23,2 29,6 11 3,05 3,61 4,58 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,6 24,7 31,3 thuyết và thống kê. Giả thiết đại lượng X đúng là phân bố theo quy luật 12 3,57 4,18 5,23 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,0 24,1 26,2 32,9 F ( x) . Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự 13 4,11 4,76 5,89 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,4 25,5 27,7 34,6 14 4,66 5,37 6,57 7,79 9,47 10,82 13,34 16,22 18,15 21,1 23,7 26,9 29,1 36,1 kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố 15 5,23 5,98 7,26 8,35 10,31 11,72 14,34 17,32 19,31 22,3 25,0 28,3 30,6 37,7 lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị 16 5,81 6,61 7,96 9,31 11,15 12,62 15,34 18,42 20,5 23,5 26,3 29,6 32,0 39,3 χ 2 mà ta thực thấy trong chuỗi quan trắc. Nếu xác suất này rất nhỏ (nhỏ 17 6,41 7,26 8,67 10,08 12,00 13,53 16,34 19,51 21,6 24,8 27,6 31,0 33,4 40,8 18 7,02 7,91 9,39 10,86 12,86 14,44 17,34 20,6 22,8 26,0 28,9 32,3 34,8 42,3 đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả 19 7,63 8,57 10,11 11,65 13,72 15,35 18,34 21,7 23,9 27,2 30,1 33,7 36,2 43,8 dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết H rằng quy 20 8,26 9,24 10,85 12,44 14,58 16,27 19,34 22,8 25,0 28,4 31,4 35,0 37,6 45,3 luật phân bố của đại lượng X là F ( x ) . Cần phải bác bỏ giả thuyết như 21 8,90 9,92 11,59 13,24 15,44 17,18 20,3 23,9 26,2 29,6 32,7 36,3 38,9 46,8 là một giả thuyết không hiện thực. Nếu xác suất p khá lớn, ta có thể 22 9,54 10,60 12,34 14,04 16,31 18,10 21,3 24,9 27,3 30,8 33,9 37,7 40,3 48,3 23 10,20 11,29 13,09 14,85 17,19 19,02 22,3 26,0 28,4 32,0 35,2 39,0 41,6 49,7 công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không 24 10,86 11,99 13,85 15,66 18,06 19,94 23,3 27,1 29,6 33,2 36,4 40,3 43,0 51,2 đáng kể, ngẫu nhiên. Giả thuyết H có thể xem là hiện thực hoặc ít ra là 25 11,52 12,70 14,61 16,47 18,94 20,9 24,3 28,2 30,7 34,4 37,7 41,7 44,3 52,6 không mâu thuẫn với dữ liệu quan trắc. 26 12,20 13,41 15,38 17,29 19,82 21,8 25,3 29,2 31,8 35,6 38,9 42,9 45,6 54,1 27 12,88 14,12 16,15 18,11 20,7 22,7 26,3 30,3 32,9 36,7 40,1 44,1 47,0 55,5 28 13,56 14,85 16,93 18,94 21,6 23,6 27,3 31,4 34,0 37,9 41,3 45,4 48,3 56,9 29 14,26 15,57 17,71 19,77 22,5 24,6 28,3 32,5 35,1 39,1 42,6 46,7 49,6 58,3 30 14,95 16,31 18,49 20,6 23,4 25,5 29,3 33,5 36,2 40,3 43,8 48,0 50,9 59,7 33 34
- 2.2.2. Sơ đồ ứng dụng tiêu chuẩn χ 2 để đánh giá sự phù hợp ( x −m)2 1 − 2σ 2 f ( x) = e . σ 2π 1) Xác định độ sai khác χ theo công thức (2.5). 2 Tính: trung bình thống kê theo công thức (2.2) được m ∗ = 0,168 , 2) Xác định số bậc tự do r như là số khoảng giá trị k trừ đi số liên x ∗ phương sai thống kê theo công thức (2.3) được D x = 2,098 . Chọn các hệ s : r = k − s . tham số m = m∗ và σ 2 = D x : m = 0,168 và σ = 1,448 . Biểu thức phân ∗ 3) Theo r và χ 2 nhờ bảng 2.1 tìm xác suất p của sự kiện: đại x bố chuẩn sẽ là: lượng có phân bố χ 2 với r bậc tự do vượt quá giá trị χ 2 đã tính được. ( x − 0 ,168 ) 2 Nếu p rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu p nhỏ hơn 0,1 thì − 1 2 (1, 448 2 ) f ( x) = e . nên kiểm tra lại thí nghiệm); nếu p khá lớn, có thể xem giả thuyết không 1,448 2π mâu thuẫn với thực đo. Dùng bảng phân bố chuẩn (bảng 1.1) để tính các trị số của hàm Khi sử dụng tiêu chuẩn χ 2 , không những chỉ tổng số quan trắc n f ( x ) tại các đầu mút của các khoảng giá trị: đủ lớn mà cả số quan trắc m i trong từng khoảng giá trị cũng phải đủ lớn. −4 −3 −2 −1 0 1 2 3 4 x Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 − 0,004 0,025 0,090 0,199 0,274 0,234 0,124 0,041 0,008 f ( x) 10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với Theo số liệu bảng này dựng tổ chức đồ và đường cong là trơn của nhau. nó lên cùng một đồ thị. Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm thành các khoảng giá trị và được ghi vào bảng như sau: 3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống kê: Dùng quy luật chuẩn lý thuyết f ( x ) trên đây, tìm các xác suất rơi vào những khoảng giá trị theo công thức: −4; −3 −3; −2 −2; −1 −1; 0 Khoảng I i ⎛ x − m⎞ ⎛ x − m⎞ 6 25 72 133 mi pi = φ ∗ ⎜ i+1 ⎟ −φ∗⎜ i ⎜ σ ⎟; ⎟ ⎜ ⎟ ∗ σ 0,012 0,050 0,144 0,266 ⎝ ⎠ ⎝ ⎠ pi ở đây xi , xi +1 − biên của các khoảng giá trị. Sau đó lập bảng ( n = 500 ): Khoảng I i 0; 1 1; 2 2; 3 3; 4 −4; −3 −3; −2 −2; −1 −1; 0 Khoảng I i 0; 1 1; 2 2; 3 3; 4 120 88 46 10 mi ∗ 0,240 0,176 0,092 0,020 mi 6 25 72 133 120 88 46 10 pi np i 6,2 26,2 71,2 122,2 131,8 90,5 38,2 10,5 2) Là trơn phân bố này bằng quy luật chuẩn 35 36
- (mi − npi )2 P ( λ ) phụ thuộc vào λ Bảng 2.2. Những giá trị của xác suất 8 ∑ Theo công thức (2.5), tính χ 2 = = 3,94 . npi i =1 P (λ ) λ P (λ ) λ P (λ ) λ Tính số bậc tự do k = 8 , s (số liên hệ) = 3 (ở đây dùng quy luật 0,0 1,000 0,7 0,711 1,4 0,040 chuẩn, lấy cả 3 điều kiện). Vậy r = 8 − 3 = 5 . Theo bảng 2.1 tìm được: 0,1 1,000 0,8 0,544 1,5 0,022 với r = 5 , χ 2 = 3,94 thì p = 0,56 . 0,2 1,000 0,9 0,393 1,6 0,012 Xác suất p = 0,56 không nhỏ. Vậy giả thuyết rằng đại lượng quan 0,3 1,000 1,0 0,270 1,7 0,006 trắc có phân bố chuẩn với m = 0,168 và σ = 1,448 có thể xem là hiện 0,4 0,997 1,1 0,178 1,8 0,003 thực. 0,5 0,964 1,2 0,112 1,9 0,002 0,6 0,864 1,3 0,068 2,0 0,001 2.2.3. Tiêu chuẩn phù hợp của Kolmogorov Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê Kolmogorov A. N. đã dùng giá trị cực đại của mô đun hiệu giữa ∗ F ( x ) và hàm phân bố lý thuyết F ( x ) , xác định D cực đại. Sau đó xác hàm phân bố thống kê F ∗ ( x ) và hàm phân bố lý thuyết định đại lượng λ = D n và theo bảng 2.2 tìm xác suất P ( λ ) . Nếu xác D = max F ∗ ( x ) − F ( x ) suất P ( λ ) rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất P ( λ ) khá lớn thì có thể xem giả thuyết phù hợp với số liệu quan trắc. làm mức độ bất phù hợp giữa chúng. Chọn như vậy có lợi là rất dễ tính Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn χ 2 nên D và D có quy luật phân bố khá đơn giản. Kolmogorov đã chứng minh được rằng dù đại lượng ngẫu nhiên X có hàm phân bố như thế nào thì người ta ưa dùng. Nhược điểm: chỉ dùng trong trường hợp hàm F ( x ) khi tăng không ngừng số quan trắc độc lập n , xác suất của bất đẳng thức hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và D n≥λ những tham số trong nó. Trường hợp này ít gặp trong thực tế. Thường từ suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm F ( x ) , còn sẽ tiến tới giới hạn những tham số bằng số của nó được xác định theo tài liệu thống kê. ∞ − 2 k 2 λ2 ∑ ( −1) P (λ ) = 1 − Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách k . (2.6) e giảm số bậc tự do của phân bố χ 2 . Tiêu chuẩn Kolmogorov không tính k = −∞ Những giá trị của xác suất P ( λ ) tính theo công thức (2.6) dẫn đến điều đó. Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường trong bảng 2.2. hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất P ( λ ) rõ ràng lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết. 37 38
- 2.3. Khái niệm về ước lượng tham số của phân bố công thức (2.2) n ∑x Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ i ~ m = m* = i =1 (2.7) vài trăm quan trắc. Nhưng trong thực tế nhiều khi chúng ta chỉ có những n tài liệu quan trắc khá hạn chế, cỡ vài chục số đo. Khối lượng tài liệu này là ước lượng vững chắc, không chệch và trong trường hợp đại lượng X không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một phân bố chuẩn là hữu hiệu. vài thông tin về đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen Ước lượng của phương sai D là phương sai thống kê D * tính theo bậc cao hơn. công thức (2.3) n Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân ∑ (x − m) ~2 i bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế. Một tham số D∗ = i =1 bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố ngẫu nhiên. n Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số. Thí là vững chắc nhưng không có tính chất không chệch. Vậy nếu dùng D * dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị thay cho D ta sẽ phạm một sai số hệ thống nào đó về phía nhỏ hơn D . quan trắc. Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu n Người ta loại trừ độ chệch này bằng cách nhân D * với , tức có số quan trắc càng ít. Cần phải chọn ước lượng sao cho các sai số có thể n −1 cực tiểu. công thức của ước lượng của D như sau Có những đòi hỏi để đảm bảo cho ước lượng, với một ý nghĩa nào n ∑ ( xi − m) 2 ~ ~ đó, có chất lượng. Thí dụ, nếu ta đòi hỏi sao cho ước lượng a khi tăng ~ i =1 D= (2.8) ~ số quan trắc phải tiến dần tới tham số a thì ước lượng a đó có tính chất n −1 ~ không có xu hướng vượt quá a hay nhỏ vững chắc; nếu ước lượng a hay ~ hơn a một cách hệ thống, thì ước lượng a có tính chất không chệch; ⎛n 2 ⎞ ⎜ ∑ xi ⎟ ~ nếu ước lượng không chệch a có phương sai so với các ước lượng khác ~ ⎜ i =1 ~2⎟ n . D= −m (2.9) ~ là nhỏ nhất thì ước lượng a có tính chất hữu hiệu. ⎜n ⎟ n −1 ⎜ ⎟ ⎝ ⎠ 2.4. Ước lượng của kỳ vọng toán học và phương sai 2.5. Khoảng tin cậy và xác suất tin cậy Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà chúng ta dùng là trung bình số học các giá trị quan trắc m * tính theo Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm. Nhiều khi 39 40
- đại lượng β là xác suất của sự kiện: khoảng ngẫu nhiên I β phủ lên đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số a , mà phải đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a điểm a trên trục số (hình 2.4). ~ bằng ước lượng điểm a thì có thể dẫn tới những sai số nào và có thể hy vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với Iβ mức độ chắc chắn nào. Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan ~ ~ a2 a a trắc nhỏ, ước lượng điểm a ở mức độ lớn sẽ là ngẫu nhiên và phép thay a1 0 ~ thế gần đúng a bằng a có thể dẫn tới những sai số nghiêm trọng. ~ Để có khái niệm về độ chính xác và độ tin cậy của ước lượng a , Hình 2.4. Biểu diễn khoảng tin cậy trong toán học thống kê dùng khoảng tin cậy và xác suất tin cậy. Xác suất β gọi là xác suất tin cậy, còn khoảng I β gọi là khoảng tin ~ Giả sử đối với tham số a đã nhận được ước lượng không chệch a . ~ ~ cậy. Những ranh giới của khoảng I β : a1 = a − ε và a 2 = a + ε gọi là Bây giờ cần đánh giá sai số có thể có khi dùng ước lượng đó. Ta đặt ra một xác suất đủ lớn β nào đó (thí dụ, β = 0,9; 0,95; 0,99 ) sao cho sự những ranh giới tin cậy. kiện với xác suất β có thể xem là thực tế đáng tin, và tìm một giá trị ε Ta xét vấn đề tìm các ranh giới tin cậy a1 và a 2 : sao cho ~ P( a −a < ε)= β . Giả sử đối với tham số a có ước lượng không chệch a . Nếu như ta ~ (2.10) ~ biết trước luật phân bố của đại lượng a , thì bài toán tìm khoảng tin cậy ~ Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay a bằng a sẽ đơn giản: chỉ cần tìm một giá trị ε sao cho P ( a − a < ε)= β . sẽ chỉ là ± ε ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện ~ với xác suất nhỏ α = 1 − β . Viết lại (2.10) thành ~ P (a − ε < a < a + ε ) = β , ~ ~ Khó khăn là ở chỗ luật phân bố của ước lượng a phụ thuộc vào luật (2.11) phân bố của đại lượng X và do đó, phụ thuộc vào những tham số chưa đẳng thức (2.11) có nghĩa là: với xác suất β , giá trị chưa biết của tham biết của nó (cụ thể vào chính tham số a ). số a nằm trong khoảng Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần ~ ~ I β = (a − ε ; a + ε ) . (2.12) đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của Ở đây cần chú ý rằng đại lượng a không ngẫu nhiên, mà chính ε bằng những ước lượng điểm. Khi số lượng quan trắc khá lớn (khoảng ~ khoảng I β ngẫu nhiên ( a ngẫu nhiên, và 2ε ngẫu nhiên vì ε được tính 20 ÷ 30 ), thì phương pháp này thường cho những kết quả tạm thoả mãn. theo các số liệu quan trắc). Vì vậy trong trường hợp này nên giải thích 41 42
- P ( m − m < ε β ) = P (m − ε β < m < m + ε β ) = ~ ~ 2.5.1. Khoảng tin cậy đối với kỳ vọng toán học ⎛ m + εβ − m⎞ ⎛ m −εβ − m⎞ ⎛ε ⎞ ⎛ε ⎞ ⎟ = Φ∗ ⎜ β ⎟ − Φ∗ ⎜ − β ⎟= ⎟ − Φ∗ ⎜ = Φ∗⎜ Giả sử thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên ⎟ ⎜σ ~ ⎟ ⎜ σ~ ⎟ ⎜ ⎟ ⎜ σm σm ⎠ ⎝ m⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ~ ~ X , các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa m ⎛ εβ ⎞ ε ε ∗⎛ β ⎞ ∗⎛ β ⎞ biết. Đối với những tham số này đã nhận được những ước lượng: ⎟ ⎟ ⎜ ⎟ ⎜ = Φ∗ ⎜ ⎜ σ ~ ⎟ − 1 + Φ ⎜ σ ~ ⎟ = 2Φ ⎜ σ ~ ⎟ − 1. ⎝ m⎠ ⎝ m⎠ ⎝ m⎠ n ∑ Xi ∑ ( X i − m) 2 ~ ~ Vậy ~ i =1 i =1 m= D= . ; n −1 n ⎛ εβ ⎞ 2Φ ∗ ⎜ ⎟ −1 = β , Phải dựng khoảng tin cậy I β ứng với xác suất tin cậy β cho kỳ vọng ⎜σ ~ ⎟ ⎝m ⎠ toán học m của đại lượng X . trong đó: Φ ∗ − tích phân xác suất; σ m = D / n − độ lệch bình phương ~ ~ Khi giải bài toán này ta nhớ lại rằng đại lượng m là tổng của n đại ~ trung bình của ước lượng m . lượng ngẫu nhiên X i độc lập và phân bố như nhau, và do đó, theo định Từ đó ta tìm được giá trị của ε β : lý tới hạn trung tâm, khi n đủ lớn luật phân bố của nó gần trùng với luật ⎛1+ β ⎞ phân bố chuẩn. Trong thực tế, thậm chí với số lượng các số hạng không ε β = σ m arg Φ ∗ ⎜ ⎟, (2.13) ~ ⎝2⎠ lớn lắm (khoảng 10 ÷ 20 ), luật phân bố của tổng có thể xem gần đúng là trong đó arg Φ ∗ ( x ) − hàm ngược của hàm Φ ∗ ( x ) , tức giá trị của đối số ~ chuẩn. Vậy ta sẽ xuất phát từ chỗ đại lượng m phân bố theo luật chuẩn. Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng mà ứng với nó hàm phân bố chuẩn bằng x . m và D / n . Giả sử đại lượng D đã biết, và ta tìm đại lượng ε β sao cho P ( m − m < εβ )= β . Bảng 2.3. Những trị số t β tương ứng với xác suất tin cậy β ~ β β β β tβ tβ tβ tβ Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công thức (1.25), (1.26), (1.28) và (1.29): 0,80 1,282 0,86 1,475 0,91 1,694 0,97 2,169 0,81 1,310 0,87 1,513 0,92 1,750 0,98 2,325 0,82 1,340 0,88 1,554 0,93 1,810 0,99 2,576 0,83 1,371 0,89 1,597 0,94 1,880 0,9973 3,000 0,84 1,404 0,90 1,643 0,95 1,960 0,999 3,290 0,85 1,439 0,96 2,053 43 44
- ~ Phương sai D mà qua nó ta biểu diễn σ m chưa được biết trước. Ta Hãy tìm ước lượng m của kỳ vọng toán học m của đại lượng X ~ và dựng khoảng tin cậy ứng với xác suất tin cậy β = 0,8 . ~ có thể dùng ước lượng D thay cho nó, vậy ta có ~ Giải: σm = D/n . (2.14) ~ ~ m = 10,78 Như vậy, bài toán dựng khoảng tin cậy đã được giải một cách gần ~ ~ D = 0,064 ⇒ σ m = D / n = 0,0564. ~ đúng ~ ~ Theo bảng 2.3, với β = 0,8 tìm được t β = 1,282 , I β = (m − ε β ; m + ε β ) . (2.15) ε β = t β .σ m = 0,072 . Để tránh nội suy ngược trong bảng hàm Φ ∗ ( x ) khi tính ε β , người ~ ta lập một bảng chuyên dụng giúp tính các trị số của đại lượng Các ranh giới tin cậy sẽ là: ⎛1+ β ⎞ ~ m1 = m − 0,072 = 10,71; t β = arg Φ ∗ ⎜ ⎟ (2.16) ⎝2⎠ ~ m = m + 0,072 = 10,85. 2 tùy thuộc vào trị số của β (bảng 2.3). Khi đó, khoảng tin cậy được biểu I β = (10,71; 10,85). Vậy khoảng tin cậy: diễn dưới dạng ~ ~ I β = (m − t β σ m ; m + t β σ m ) . (2.17) ~ ~ 2.5.2. Khoảng tin cậy đối với phương sai Như vậy đại lượng t β chính là số lần độ lệch bình phương trung Bài toán về khoảng tin cậy đối vơi phương sai cũng được giải tương bình cần phải đặt về phía bên trái và bên phải kể từ tâm tản mạn để cho tự. Giả sử thực hiện n thí nghiệm độc lập về đại lượng ngẫu nhiên X xác suất rơi vào khoảng đó bằng β . với các tham số m và D chưa biết, đối với phương sai D ta tính được Thí dụ 2.1: Có 20 quan trắc về đại lượng X viết thành bảng như ước lượng không chệch: sau: n ∑ ( X i − m) 2 ~ ~ i i i i xi xi xi xi i =1 D= , (2.18) n −1 1 10,5 6 10,6 11 10,6 16 10,9 trong đó 2 10,8 7 10,9 12 11,3 17 10,8 n 3 11,2 8 11,0 13 10,5 18 10,7 ∑ Xi 4 10,9 9 10,3 14 10,7 19 10,9 i =1 ~ m= . 5 10,4 10 10,8 15 10,8 20 11,0 n 45 46
- Thí dụ, trường hợp thường gặp nhất - đại lượng X phân bố theo Yêu cầu dựng gần đúng khoảng tin cậy cho phương sai. ~ luật chuẩn; khi đó mô men tâm bậc bốn được biểu diễn qua phương sai Từ công thức (2.18) thấy rằng đại lượng D là tổng n đại lượng như sau ~ ( X i − m) 2 . Những đại lượng ấy không phải là độc lập, ngẫu nhiên dạng μ 4 = 3D 2 n −1 ~ vì trong mỗi đại lượng đều có mặt m phụ thuộc vào tất cả X i . Tuy và công thức (2.19) sẽ cho kết quả nhiên, người ta có thể chỉ ra rằng khi tăng n luật phân bố của tổng chúng n−3 3 ~ D [ D] = D 2 − D2 cũng dần tới luật chuẩn. Thực tế với n = 20 ÷ 30 đã có thể xem là chuẩn. n ( n − 1) n Ta cũng giả thiết như vậy và tìm các đặc trưng của luật phân bố này: hay ~ kỳ vọng toán học và phương sai. Vì ước lượng D không chệch, nên 2 ~ D2 . D [ D] = (2.21) ~ M [ D] = D . n −1 ~ Trong (2.21) thay D chưa biết bằng ước lượng của nó, ta được Việc tính D [ D] rất phức tạp nên ở đây chỉ dẫn ra biểu thức cuối cùng: 2 ~2 n−3 ~ 1 ~ D [ D] = D, D [ D] = μ 4 − D2 , (2.19) n −1 n ( n − 1) n từ đó trong đó μ 4 − mô men tâm bậc bốn của đại lượng X . 2~ Để dùng biểu thức này, cần phải đưa vào đó những trị số của μ 4 và σD = D. (2.22) ~ n −1 D (dù là những trị số gần đúng). Thay cho D có thể sử dụng ước lượng ~ Trong một số trường hợp luật phân bố khác, người ta cũng có công của nó D . Về nguyên tắc mô men tâm bậc bốn μ 4 cũng có thể thay thế thức biểu thị μ 4 qua D . Nhưng khi dạng của luật phân bố của đại lượng bằng ước lượng của nó, thí dụ, bằng đại lượng sau: X chưa biết, nếu không có cơ sở đặc biệt nào để khẳng định là nó khác n ∑ ( X i − m) 4 ~ rõ rệt so với luật chuẩn (có độ nhọn dương hoặc âm đáng kể), thì vẫn cứ ∗ i =1 μ4 = nên sử dụng công thức (2.22) để nhận định về σ D . , (2.20) ~ n Tóm lại, nếu giá trị định hướng σ D đã tìm được bằng cách nào đó, ~ nhưng thay thế như vậy sẽ cho độ chính xác không cao, vì nhìn chung với thì có thể dựng khoảng tin cậy cho phương sai tương tự như cho kỳ vọng số lượng thí nghiệm hạn chế, các mô men bậc cao xác định với sai số lớn. toán học. Ta viết Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng ) ( X được biết trước, chỉ không biết trước các tham số của phân bố đó mà ~ P D − D < εβ = β thôi. Khi đó có thể biểu diễn μ 4 qua D . 47 48
- hay, vì m D = D : (0,19; 0,30) . ~ ~ P (D − ε β < D < D + ε β ) = β 2.5.3. Những phương pháp chính xác dựng khoảng tin cậy cho các tham số của đại lượng ngẫu nhiên phân bố chuẩn ⎛ D + ε β − mD ⎛ D − ε β − mD ⎞ ⎞ ~ ~ ⇒ Φ∗ ⎜ ⎟ − Φ∗ ⎜ ⎟=β ⎜ ⎟ ⎜ ⎟ σD σD ⎝ ⎠ ⎝ ⎠ ~ ~ Để tìm chính xác những khoảng tin cậy nhất thiết phải biết trước ⎛ εβ ⎞ dạng của luật phân bố đại lượng ngẫu nhiên X , trong khi đó nếu dùng ⎛1 + β ⎞ ⎟ −1 = β ⇒ 2 Φ∗ ⎜ ε β = σ D arg Φ ∗ ⎜ ⇒ ⎟. ⎜σ ~ ⎟ ~ các phương pháp gần đúng thì điều đó không cần thiết. ⎝2 ⎠ ⎝ D⎠ Ý tưởng của các phương pháp chính xác như sau: Một khoảng tin Vậy khoảng tin cậy của phương sai là ~ cậy bất kỳ của ước lượng a được tìm từ điều kiện biểu thị xác suất thực ~ ~ I β = ( D − tβ σ D ; D + tβ σ D ) , (2.23) ~ hiện những bất đẳng thức nào đó mà ước lượng a có mặt trong đó. Luật ~ ~ ~ phân bố của ước lượng a trong trường hợp tổng quát phụ thuộc vào ⎛1+ β ⎞ ở đây đại lượng t β = Φ ∗ ⎜ ⎟ tuỳ thuộc vào xác suất tin cậy β đã chính những tham số chưa biết của đại lượng X . Tuy nhiên, đôi khi có ⎝2⎠ ~ thể chuyển đổi trong các bất đẳng thức từ đại lượng ngẫu nhiên a sang định cũng được tìm theo bảng 2.3. một hàm nào đó của các giá trị quan trắc x1 , x 2 , ..., x n , và luật phân bố của hàm đó không phụ thuộc vào các tham số chưa biết, mà chỉ phụ thuộc Thí dụ 2.2: Tìm gần đúng khoảng tin cậy 80 % cho phương sai của vào số lượng thí nghiệm n và dạng của luật phân bố của đại lượng X . đại lượng ngẫu nhiên X qua thí dụ trước (thí dụ 2.1), nếu biết rằng đại Những đại lượng ngẫu nhiên kiểu như vậy đóng vai trò quan trọng trong lượng X phân bố theo luật gần với luật chuẩn. toán học thống kê, chúng đã được nghiên cứu kỹ nhất đối với trường hợp Giải: đại lượng t β , cũng giống như trong thí dụ 2.1, được tìm nhờ đại lượng X phân bố chuẩn. bảng 2.3 theo β = 0,8 bằng Thí dụ, người ta chứng minh được rằng nếu đại lượng ngẫu nhiên t β = 1,282 . X phân bố chuẩn, thì đại lượng ngẫu nhiên Theo công thức (2.22) ~ m−m T= n , (2.24) ~ 2 D σD = . 0,064 = 0,0207 . ~ 20 − 1 trong đó Theo công thức (2.23) khoảng tin cậy của phương sai bằng n n ∑ Xi ∑ ( X i − m) 2 ~ I β = (0,037; 0,091) . ~ i =1 i =1 ~ m= D= , ; n −1 n Khoảng tin cậy tương ứng của độ lệch bình phương trung bình là 49 50
- tuân theo luật phân bố Student với n − 1 bậc tự do; mật độ phân bố của Trước hết dựng khoảng tin cậy cho kỳ vọng toán học. Đương nhiên ~ ta lấy khoảng này đối xứng qua m , ký hiệu ε β là nửa độ dài của luật này có dạng khoảng. Đại lượng ε β cần lấy sao cho thoả mãn điều kiện n Γ (n ) − ⎛ t2 ⎞ 2 P ( m − m < εβ )= β . ⎜1 + ⎜ n −1⎟ S n −1 (t ) = 2 ~ , (2.25) ⎟ (n − 1) π Γ ( n2 1 ) (2.28) − ⎝ ⎠ ~ Ta sẽ chuyển từ đại lượng ngẫu nhiên m ở vế trái đẳng thức này thành ở đây Γ ( x) − hàm Gamma: đại lượng ngẫu nhiên T phân bố theo luật Student. Muốn vậy cần nhân ∞ Γ ( x) = ∫ u x −1 e −u d u . n ~ hai vế của bất đẳng m − m < ε β với đại lượng dương : ~ 0 D Cũng đã chứng minh được rằng đại lượng ngẫu nhiên ⎛ ⎞ ~ ⎜ ⎟ (n − 1) D ~ εβ ⎟ n m−m ⎜ V= (2.26) =β < P⎜ ~⎟ D ~ ⎜ D⎟ D có phân bố χ 2 với n − 1 bậc tự do, mật độ biểu thị bằng công thức: ⎜ ⎟ ⎝ n⎠ ⎧ n −1 v 1 hay − v>0 v e2 khi 2 ⎪ n −1 ⎛ ⎞ k n −1 (v) = ⎨ 2 (2.27) 2 Γ ( n2 1 ) ⎜ ⎟ − ⎪ εβ ⎟ ⎜ v < 0. ⎩0 khi P⎜T < =β . (2.29) ~⎟ ⎜ D⎟ Bây giờ ta xét cách sử dụng các luật phân bố trên đây để xây dựng ⎜ ⎟ ⎝ n⎠ ~ ~ khoảng tin cậy cho các tham số m và D . Ta tìm một số t β sao cho Giả sử đã thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên P ( T < tβ ) = β . (2.30) X phân bố theo luật chuẩn với các tham số chưa biết m và D . Đối với những tham số này ta đã nhận được các ước lượng Đại lượng t β được tìm từ điều kiện n n ~ ∑X ∑(X − m) 2 tβ i i ~ ~ ∫ S n −1 (t ) dt = β . P ( T < tβ ) = m= D= i =1 i =1 (2.31) ; . n −1 n −t β Đòi hỏi dựng khoảng tin cậy cho hai tham số ứng với xác suất tin cậy β . Từ công thức (2.25) thấy rằng Sn −1 ( t ) là hàm chẵn, vì vậy (2.31) sẽ 51 52
- ~ Tìm ước lượng m cho kỳ vọng và dựng khoảng tin cậy 90 % cho nó cho (tức khoảng tin cậy ứng với xác suất tin cậy β = 0,9 ). tβ 2 ∫ S n −1 (t ) d t = β . (2.32) Giải: Ta có 0 ~ ~ m = 0,4; D = 6,6 . Đẳng thức (2.32) xác định đại lượng t β tùy thuộc vào β . Nếu có Theo bảng 2.4 với n − 1 = 4 và β = 0,9 tìm được bảng giá trị của tích phân t β = 2,13 , x Ψ ( x) = 2 ∫ S n −1 (t )dt , từ đó 0 ~ D ε β = tβ ≈ 2,45 . thì có thể tìm được đại lượng t β bằng cách nội suy ngược trong bảng đó. n Tuy nhiên nên lập trước bảng giá trị t β (bảng 2.4). Trong bảng này dẫn Khoảng tin cậy sẽ là: các giá trị t β phụ thuộc vào β và số bậc tự do n − 1 . Khi đã xác định I β = (m − ε β ; m + ε β ) = (− 2,05; 2,85) . ~ ~ được t β theo bảng 2.4 và cho Thí dụ 2.4: Đối với điều kiện thí dụ 1, nếu giả thiết rằng X có phân ~ D bố chuẩn, hãy tìm khoảng tin cậy chính xác. ε β = tβ , (2.33) Giải: Theo bảng 2.4, tìm với n − 1 = 19 và β = 0,8 , được n ta tìm được nửa độ dài của khoảng tin cậy I β và bản thân khoảng đó: t β = 1,328 , từ đó ~ ~ ⎞ ⎛ D D ⎟. I β = ⎜ m − tβ ~ ~ ; m + tβ ~ (2.34) D ⎟ ⎜ n n ε β = tβ ≈ 0,075 .. ⎠ ⎝ n So sánh với kết quả của thí dụ 2.1, thấy rằng sự sai khác rất không Thí dụ 2.3: Thực hiện 5 thí nghiệm độc lập với đại lượng ngẫu nhiên X phân bố chuẩn với các tham số chưa biết m và σ : kết quả thí đáng kể: I β = (10,71; 10,85) . nghiệm dẫn trong bảng sau: i 1 2 3 4 5 −2,5 −2,0 xi 3,4 1,0 2,1 53 54
- Dựng khoảng tin cậy cho phương sai: tβ ∫ S n −1 ( t ) d t = β Bảng 2.4. Những giá trị t β thoả mãn đẳng thức 2 Ta xét ước lượng không chệch của phương sai 0 phụ thuộc vào β và n − 1 n ∑ ( X i − m) 2 ~ ~ β i =1 D= n −1 n −1 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,999 ~ 1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,080 6,31 12,71 31,8 63,7 336,6 và biểu diễn đại lượng ngẫu nhiên D qua đại lượng V như ở công thức 2 142 289 445 617 0,816 1,061 1,336 1,886 2,92 4,30 6,96 9,92 31,6 (2.26) có phân bố χ 2 : 3 137 277 424 584 765 0,978 1,250 1,638 2,35 3,18 4,54 5,84 12,94 4 134 271 414 569 741 941 1,190 1,533 2,13 2,77 3,75 4,60 8,61 5 132 267 408 559 727 920 1,156 1,476 2,02 2,57 3,36 4,03 6,86 D ~ D=V . (2.35) 6 131 265 404 553 718 906 1,134 1,440 1,943 2,45 3,14 3,71 5,96 n −1 7 130 263 402 549 711 896 1,119 1,415 1,895 2,36 3,00 3,50 5,40 8 130 262 399 546 706 889 1,108 1,397 1,860 2,31 2,90 3,36 5,04 Biết quy luật phân bố của đại lượng V , có thể tìm khoảng iβ mà nó 9 129 261 398 543 703 883 1,100 1,383 1,833 2,26 2,82 3,25 4,78 10 129 260 397 542 700 879 1,093 1,372 1,812 2,23 2,76 3,17 4,59 rơi vào với xác suất cho trước β . 11 129 260 396 540 697 876 1,088 1,363 1,796 2,20 2,72 3,11 4,49 Quy luật phân bố kn−1 ( v) của đại lượng V có dạng như trên hình 12 128 259 395 539 695 873 1,083 1,356 1,782 2,18 2,68 3,06 4,32 13 128 259 394 538 694 870 1,079 1,350 1,771 2,16 2,65 3,01 4,22 2.5. 14 128 258 393 537 692 868 1,076 1,345 1,761 2,14 2,62 2,98 4,14 15 128 258 393 536 691 866 1,074 1,341 1,753 2,13 2,60 2,95 4,07 Xuất hiện câu hỏi: chọn khoảng iβ như thế nào? Nếu như quy luật 16 128 258 392 535 690 865 1,071 1,337 1,746 2,12 2,58 2,92 4,02 17 128 257 392 534 689 863 1,069 1,333 1,740 2,11 2,57 2,90 3,96 phân bố của V đối xứng (như quy luật chuẩn hay quy luật Student) thì 18 127 257 392 534 688 862 1,067 1,330 1,734 2,10 2,55 2,88 3,92 19 127 257 391 533 688 861 1,066 1,328 1,729 2,09 2,54 2,86 3,88 đương nhiên lấy khoảng iβ đối xứng qua kỳ vọng toán học. Trong 20 127 257 391 533 687 860 1,064 1,325 1,725 2,09 2,53 2,84 3,85 trường hợp đang xét, quy luật kn −1 ( v) không đối xứng. Ta quy ước chọn 21 127 257 391 532 686 859 1,063 1,323 1,721 2,08 2,52 2,83 3,82 22 127 256 390 532 686 858 1,061 1,321 1,717 2,07 2,51 2,82 3,79 khoảng iβ sao cho các xác suất của việc đại lượng V rơi ra ngoài ranh 23 127 256 390 532 685 858 1,060 1,319 1,714 2,07 2,50 2,81 3,77 24 127 256 390 531 685 857 1,059 1,318 1,711 2,06 2,49 2,80 3,74 giới của khoảng về phía bên phải và phía bên trái (các diện tích bị gạch 25 127 256 390 531 684 856 1,058 1,316 1,708 2,06 2,48 2,79 3,72 26 127 256 390 531 684 856 1,058 1,315 1,706 2,06 2,48 2,78 3,71 chéo trên hình 2.5) bằng nhau và bằng 27 127 256 389 531 684 855 1,057 1,314 1,703 2,05 2,47 2,77 3,69 α 1− β 28 127 256 389 530 683 855 1,056 1,313 1,701 2,05 2,47 2,76 3,67 = . 29 127 256 389 530 683 854 1,055 1,311 1,699 2,04 2,46 2,76 3,66 2 2 30 127 256 389 530 683 854 1,055 1,310 1,697 2,04 2,46 2,75 3,65 40 126 255 388 529 681 851 1,050 1,303 1,684 2,02 2,42 2,70 3,55 Để dựng khoảng tin cậy iβ với tính chất trên, ta dùng bảng 2.1, 60 126 254 387 527 679 848 1,046 1,296 1,671 2,00 2,39 2,66 3,46 120 126 254 386 526 677 845 1,041 1,289 1,658 1,980 2,36 2,62 3,37 trong đó dẫn các số χ 2 sao cho ∞ 0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,33 2,58 3,29 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,999 P (V > χ 2 ) = p n −1 β 55 56
- với các ranh giới D1 và D2 phủ lên điểm D với xác suất β : đối với đại lượng V có phân bố χ 2 với r bậc tự do. Trong trường hợp P ( D1 < D < D2 ) = β . đang xét r = n − 1 . Ấn định r = n − 1 và tìm trong dòng tương ứng của α Ta dựng khoảng I β = ( D1 ; D2 ) phủ lên điểm D khi và chỉ khi đại bảng 2.1 hai giá trị χ 2 : một giá trị ứng với xác suất p1 = ; giá trị khác 2 lượng V rơi vào khoảng iβ . α . Ký hiệu những giá trị ấy là χ và χ . 2 2 ứng với xác suất p2 = 1 − 1 2 2 Khoảng Khoảng iβ có đầu trái là χ 2 , đầu phải là χ 12 . 2 ~ ~ ⎛ D ( n − 1) D ( n − 1) ⎞ ⎟ Iβ = ⎜ (2.36) ; ⎟ ⎜ χ2 χ22 ⎠ ⎝ 1 k n −1 (v) sẽ thỏa mãn điều kiện đó. Thật vậy, các bất đẳng thức ~ ~ D ( n − 1) D ( n − 1) < D; >D χ1 χ2 2 2 tương đương với các bất đẳng thức V < χ 12 ; V > χ2 , 2 mà những bất đẳng thức này lại được thỏa mãn với xác suất β . Như vậy khoảng tin cậy cho phương sai được biểu diễn bằng công thức (2.36). v 0 iβ Thí dụ 2.5: Tìm khoảng tin cậy cho phương sai trong điều kiện thí dụ 2.2 nếu biết rằng đại lượng X có phân bố chuẩn. Hình 2.5. Hình dạng của phân bố k n −1 (v) α Giải: Ta có β = 0,8 ; α = 0,2 ; = 0,1 . 2 α α , V > χ 12 ; với xác suất 1 − , V > χ 2 . Suy ra với 2 Với xác suất Theo bảng 2.1 ta tìm được với r = n − 1 = 19 2 2 α α χ 12 = 27,2 ; đối với p1 = = 0,1 thì V < χ 2 . Vậy muốn cho V nằm ở bên ngoài iβ , 2 xác suất 1 − 1 + 2 2 α α α tức V > χ 12 hay V < χ 2 xác suất sẽ là = α . Vậy V sẽ nằm ở 2 + χ 2 = 11,65 . 2 đối với p 2 = 1 − = 0,9 2 2 2 bên trong iβ với xác suất 1 − α = β . Theo công thức (2.36) tìm khoảng tin cậy cho phương sai Bây giờ ta tìm theo khoảng iβ khoảng tin cậy I β cho phương sai 57 58
- I β = ( 0,045; 0,104 ) . Bây giờ ta xét vấn đề về độ chính xác và độ tin cậy của ước lượng trên, tức về việc dựng khoảng tin cậy. Khoảng tin cậy tương ứng cho độ lệch bình phương trung bình: Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin (0,21; 0,32). Khoảng này chỉ khác một chút so với kết quả đã nhận được cậy của kỳ vọng toán học đã xét ở mục trước, song nó được xem xét một ở thí dụ 2.2. cách riêng biệt vì ở đây có nét đặc thù: đại lượng X là đại lượng ngẫu nhiên rời rạc chỉ với hai giá trị có thể có là 0 và 1. Ngoài ra, kỳ vọng toán 2.6. Ước lượng xác suất theo tần suất học của nó p và phương sai pq = p(1 − p) liên quan với nhau bằng mối Trong thực tế thường người ta phải ước lượng xác suất chưa biết p liên hệ hàm. Điều này làm đơn giản bài toán dựng khoảng tin cậy. của sự kiện A theo tần suất p * của nó qua n thí nghiệm độc lập. 1) Xét trường hợp đơn giản nhất, khi số thí nghiệm n khá lớn, còn Bây giờ ta xem tần suất của sự kiện A qua n thí nghiệm độc lập là xác suất p không quá lớn mà cũng không quá bé. Khi đó có thể cho rằng tung bình số học của các giá trị quan trắc của đại lượng X mà đại lượng tần suất p * là đại lượng ngẫu nhiên có phân bố gần chuẩn (theo định lý này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện A xảy ra và giới hạn trung tâm đối với các số hạng phân bố như nhau). Các tính toán nhận giá trị 0 nếu sự kiện A không xảy ra: cho thấy rằng có thể sử dụng giả thiết đó thậm chí với các n không rất n lớn: chỉ cần cả hai đại lượng np và nq lớn hơn 4. Ta sẽ coi như những ∑ Xi điều kiện này thỏa mãn và tần suất p * phân bố theo quy luật chuẩn. Các i =1 p* = . (2.37) n tham số của quy luật này sẽ là: Ta biết rằng kỳ vọng toán học của đại lượng X bằng p ; phương pq sai của nó bằng pq , trong đó q = 1 − p . Kỳ vọng toán học của trung σ p* = m p* = p ; . (2.39) n bình số học cũng bằng p , tức ước lượng p * cho p là ước lượng không Đầu tiên ta hãy giả sử p đã biết. Ta định ra xác suất tin cậy β và chệch. tìm khoảng ( p − ε β , p + ε β ) sao cho đại lượng p * rơi vào khoảng này Phương sai của đại lượng p * bằng với xác suất β : D [ p *] = pq . (2.38) P ( p* −p < εβ ) = β . (2.40) n Có thể chứng minh được rằng phương sai này là nhỏ nhất có thể có, Vì p * phân bố chuẩn nên vế trái của (2.40) có thể biểu diễn qua tức ước lượng p * là ước lượng hữu hiệu. các giá trị của hàm phân bố chuẩn: Tóm lại, có thể nhận tần suất p * làm ước lượng điểm cho xác suất chưa biết p . 59 60
- ⎛ εβ ⎞ dấu bất đẳng thức bằng dấu đẳng thức. Giải phương trình bình phương P ( p * − p < ε β ) = 2 Φ∗ ⎜ ⎟ −1 = β , nhận được đối với p ta được hai nghiệm: ⎜σ ⎟ ⎝ p* ⎠ ⎫ 2 2 p*(1 − p*) 1 t β 1 tβ từ đ ó ⎪ p* + − tβ + ⎪ 4 n2 2n n ⎛1 + β ⎞ p1 = ;⎪ ε β = σ p* arg Φ ∗ ⎜ ⎟, 2 tβ ⎪ ⎝2⎠ 1+ ⎪ n (2.44) ⎬ ở đây arg Φ ∗ − hàm ngược của hàm phân bố chuẩn Φ ∗ . ⎪ 2 2 p*(1 − p* ) 1 t β 1 tβ p* + + tβ + ⎪ Ta cũng dùng kí hiệu 2 2n 4n .⎪ n p2 = ⎪ ⎛1 + β t2 ⎞ β t β = arg Φ ∗ ⎜ ⎪ ⎟. 1+ ⎝2 ⎭ ⎠ n Khoảng tin cậy cho xác suất p sẽ là Khi đó I β = ( p1 , p2 ) . ε β = t β σ p* , (2.41) 2 2 1 tβ tβ ở đây t β được xác định theo bảng 2.4. Nhận thấy rằng khi tăng n các đại lượng trong các và 4 n2 n Như vậy, với xác suất β có thể khẳng định rằng công thức (2.44) tiến tới 0, do đó p * (1 − p*) ⎫ pq p * − p < tβ . (2.42) p1 = p * − tβ ,⎪ n ⎪ n (2.45) ⎬ Thực tế chúng ta chưa biết đại lượng p ; nhưng bất đẳng thức (2.42) p * (1 − p*) ⎪ p2 = p * + tβ .⎪ sẽ có xác suất β không tùy thuộc vào việc ta đã biết hay chưa biết p . ⎭ n Khi đã nhận được từ thí nghiệm giá trị cụ thể của tần suất p * , có thể Những công thức này cũng có thể nhận được ngay nếu dùng cách dùng bất đẳng thức (2.42) tìm khoảng I β phủ lên điểm p với xác suất gần đúng như khi dựng khoảng tin cậy cho kỳ vọng toán học ở mục β . Thật vậy, ta biến đổi bất đẳng thức này thành dạng trước, tức cho giá trị của p chưa biết bằng p * rồi xác định ngay σ p* trong (2.41) một cách gần đúng. Các công thức (2.45) có thể sử dụng khi 2 tβ ( p * − p) 2 < p (1 − p) . (2.43) n lớn (bằng khoảng vài trăm) nếu p không quá lớn hay quá nhỏ (thí dụ n khi np và nq bằng khoảng 10 hoặc lớn hơn). Các ranh giới tin cậy p1 và p2 có thể tìm từ (2.43) bằng cách thay 61 62
- Đối với trường hợp n lớn ta đã sử dụng quy luật phân bố chuẩn và Thí dụ 2.6: Thực hiện 200 thí nghiệm; tần suất sự kiện A thấy bằng p* = 0,34 . Dựng khoảng tin cậy 85 % cho xác suất sự kiện (tính theo cả đã lấy khoảng tin cậy là đối xứng qua kỳ vọng toán học. Phân bố nhị thức (2.46) không đối xứng. Hơn nữa, vì tần suất − đại lượng ngẫu nhiên rời hai công thức (2.44) và (2.45)). rạc, có thể không tồn tại một khoảng mà xác suất rơi vào đó đúng bằng Giải: β = 0,85 ; theo bảng 2.3, tìm được t β = 1,439 . β . Vì vậy, ta sẽ lấy khoảng ( p1 , p2 ) như là một khoảng nhỏ mà xác * * Theo công thức gần đúng (2.45): α suất rơi về phía trái và phía phải nó sẽ lớn hơn . I β = ( 0,292; 0,388) . 2 Biên dưới p1 của “khoảng tin cậy” sẽ được xác định bằng cách giải Theo công thức (2.44): phương trình sau đây theo p : I β = ( 0,294; 0,389) . α n ∑ Hai kết quả không khác nhau một cách đáng kể. C n p m (1 − p) n − m = m . (2.47) 2 m = np* 2) Khi số thí nghiệm ít (cũng như nếu xác suất p rất lớn hay rất Biên trên p2 xác định bằng cách giải phương trình sau đây theo p : nhỏ) thì không thể xem tần số phân bố chuẩn được nữa. Trong trường α np* hợp này người ta dựng khoảng tin cậy xuất phát từ quy luật phân bố ∑ C n p m (1 − p) n − m = m . (2.48) 2 chính xác của tần số. Có thể dễ dàng khẳng định rằng đây là phân bố nhị m=0 thức. Thật vậy, số lần xuất hiện sự kiện A trong n thí nghiệm phân bố Để không phải giải các phương trình (2.47) và (2.48) từng lần một theo quy luật nhị thức: xác suất của việc sự kiện A xuất hiện đúng m người ta có thể lập bảng (hay biểu diễn đồ thị) nghiệm của chúng ứng với một số giá trị β điển hình. Thí dụ, trong cuốn sách Теория lần bằng вероятностией и математическая статистика в технике của И. В. Pm, n = C n p m q n − m , m (2.46) Дунин-Барковский và Н. В. Смирнов có các bảng p1 và p2 ứng với β = 0,95 và β = 0,99 . Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của n! ( Cn = m ), còn tần suất p * chính là số lần xuất hiện sự kiện m ! ( n − m) ! (2.47) và (2.48) cho trường hợp β = 0,9 (lấy từ cuốn sách Теория chia cho số lần thí nghiệm. вероятностией của Е. С. Вентцель). Xuất phát từ phân bố này có thể dựng khoảng tin cậy I β tương tự Để tìm khoảng tin cậy I β theo đồ thị ta đặt trên trục hoành giá trị như ta đã làm trong trường hợp n lớn. tần số p * tìm được theo quan trắc, vẽ qua điểm này một đường thẳng song song với trục tung, cắt các đường cong ứng với n đã cho ở hai * Giả sử ta đã biết xác suất p và bây giờ tìm khoảng tần suất ( , p1 điểm. Tung độ của hai điểm ấy sẽ là giới hạn tin cậy p1 và p2 . p2 ) mà với xác suất β = 1 − α tần suất sự kiện p * rơi vào trong * khoảng đó. 63 64
CÓ THỂ BẠN MUỐN DOWNLOAD
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn