intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Giáo trình Xác suất thống kê: Phần 2 - Nguyễn Đình Hiền

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:138

16
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tiếp nội dung phần 1, Giáo trình Xác suất thống kê: Phần 2 cung cấp cho người đọc những kiến thức như: mẫu quan sát và bài toán ước lượng; kiểm định giả thiết; kiểm định một phân phối và bảng tương liên; hệ số tương quan, hồi quy tuyến tính. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Giáo trình Xác suất thống kê: Phần 2 - Nguyễn Đình Hiền

  1. MẪU QUAN SÁT VÀ BÀI TOÁN ƯÓC LƯỢNG §1. TỠNG THỂ VÀ MẪU QUAN SÁT Xét một đám đông gồm rất nhiều cá thể, đứng về lí thuyết thì coi như có vô số cá thể, đám đông này phải thuần nhất theo nghĩa đây là một đám đông có cùng một nguồn gốc, cùng điều kiện ra đời, sống trong cùng một môi trường, sự khác nhau giữa các cá thể là sự khác nhau tự nhiên, ngẫu nhiên không thể tránh được giữa các cá thể của một đám đông. Ta gọi một đám đông như thế là một tổng thể. .Giả thiết khi khảo sát một tính trạng (một đặc tính sinh học, một chỉ số, một số đo,...) trên một cá thể của tổng thể ta được một biến ngẫu nhiên X, biến này có thể là: - Biến định tính chỉ có một trong 2 kết quả (quy ước là có và không, hay 1 và 0 ) như giống đực hay giống cái; có ra hoa hay không ra hoa; mắc bệnh hay không mắc bệnh. - Biến định tính gồm một số loại hay lớp như màu sắc: xanh, đỏ, tím vàng...; Chế độ tưới: tưới ít, tưới vừa, tưới nhiễu; Loại đất: cát, s é t ... - Biến có thể dùng sô' thứ tự để ghi nhận các kết quả từ thấp lên cao như điểm thi: 0, 1, 2,..., 10; Cấp bệnh: cấp 1, 2, .ẵ., 7. - Biến rời rạc như số cây sống khi trồng 100 cây; số trứng nở khi ấp 12 quả trứng; số sản phẩm hỏng trong lô 5000 sản phẩm; - Biến liên tục như chiều cao cây; trọng lượng một con gà; chiều dài một con cá. Tuỳ theo biến ta khảo sát thuộc loại nào và dựa vào yêu cầu nghiên cứu mà đặt ra các giả thiết về tổng thể. Có rất nhiều bài toán trong nghiên cứu được đưa về giả thiết X có phân phối đã biết nhưng còn chứa một vài tham số mà ta cần ước lượng, thí dụ khi ấp trứng ta giả thiết số trứng nở X trong mỗi ổ gồm n quả phân phối nhị thức 60
  2. B(n, p), xác suất trứng nở p chính là tham số chưa biết. Đo chiều cao X của học sinh nam, lứa tuổi 16 ở một vùng, X phân phối chuẩn N(|J., ơ 2) với hai tham số chưa biết: trung bình fj. và phương sai ơ2. Số chai vỡ X khi vận chuyển rượu phân phối Poát-xông với tham sô' JJ. chưa biết. Thời gian sống của bóng đèn phân phối chuẩn N(|a, ơ2) với hai tham số chưa biết ^ và ơ2. Trong một đợt cúm một người có thể bị cúm hoặc không, xác suất bị cúm p là tham số chưa b iế t... Nếu ta khảo sát đồng thời nhiều đặc tính thì được nhiều biến ngẫu nhiên đồng thời và lúc đó sẽ có nhiều tham số cần ước lượng thí dụ hộ số tương quan, hiệp phương s a i,... Như vậy khi khảo sát tổng thể ta giả thiết biến ngẫu nhiên (hoặc hệ nhiều biến ngẫu nhiên) có một phân phối nào đó có chứa một vài tham số gọi là tham số của tổng thể, các tham số này thường được kí hiệu bằng các chữ Hy lạp fl, ơ, p ... Để có được các hiểu biết về tổng thể và cụ thể là về các tham số này ta phải lấy ngẫu nhiên một số cá thể ra xem xét, số cá thể đó họp thành một mẫu quan sát, hay gọi tắt là một mẫu. Khi xem xét mẫu phải xử lí các dữ liệu thu được rồi đưa ra kết luận chung cho tổng thể, các kết luận này được gọi là các kết luận thống kê. Mẫu quan sát chỉ bao gồm một nhóm nhỏ của tổng thể, không thể phản ánh đầy đủ tổng thể cho nên mặc dù cách chọn mẫu đúng đắn, không sai lệch có hệ thống, phương pháp xử lí chính xác cũng không thể loại bỏ những sai lệch so với tổng thể, do đó không bao giờ các kết luận thống kê có thể đúng 100 %. Để dễ suy luận và so sánh, người ta thường định ra một xác suất để kết luận thống kê đúng khi áp dụng cho tổng thể, xác suất đó được gọi là mức tin cậy của kết luận, thường kí hiệu là p, thí dụ p = 0,95 thường gọi là mức tin cậy 1 (đánh dấu *) có nghĩa là kết luận thống kê đưa ra trung bình chỉ đúng 95 trên 100 trường hợp, p = 0,99 thường gọi là mức 2 (đánh dấu **) có nghĩa là kết luận thống kê đưa ra trung bình chỉ đúng 99 trên 100 trường hợp, mức p = 0,999 là mức 3 (đánh dấu ***)ể Cũng có khi người ta dùng số a = 1 - p gọi là mức sai cho phép hay mức ý nghĩa. Thí dụ p = 0,95 thì a = 1 - 0,95 = 0,05 (mức 1) có nghĩa là cho phép kết luận thống kê sai trung bình 5 trên 100 trường hợp khi áp dụng vào tổng thể. 61
  3. §2. CÁCH CHỌN MẪU Như đã nói ở trên vì không thể khảo sát toàn bộ tổng thể (không đủ thời gian, không đủ tiền, sức lực ...), hoặc so với mục đích thấy không thể (khảo sát có tính huỷ hoại mẫu) hoặc không cần phải hiểu thật cặn kẽ nên chỉ khảo sát một nhóm nhỏ gọi là mẫu quan sát. Muốn kết luận thống kê rút ra sau khi khảo sát không bị sai lệch có hệ thống thì mẫu phải phản ánh trung thực tổng thể, không thể thiên về chọn các cá thể tạm gọi là "tốt" tức là cho các giá trị lớn hơn trung bình, hoặc "xấu", tức là thiên về phía các giá trị nhỏ hơn trung bình. Có rất nhiều cách chọn mẫu vì việc chọn mẫu không những phải thoả mãn yêu cầu chính là không thiên lệch mà còn phải phù hợp vói điều kiện chuyên môn, thí dụ chọn các mảnh ruộng để gặt nhằm đánh giá năng suất hoàn toàn khác với việc chọn các sản phẩm công nghiệp để đánh giá chất lượng, thí dụ quạt bàn, và càng khác xa cách chọn mẫu để đánh giá chất lượng của các chất lỏng, thí dụ nhiên liệu và cũng khác xa việc chọn mẫu khi điểu tra dân số hoặc điều tra xã hội. Thuần tuý về mặt thống kê cũng có nhiều cách chọn mẫu như chọn mẫu ngẫu nhiên (rút thăm, dùng bảng số ngẫu nhiên, quay xổ số ...), chọn mẫu theo lớp (chia thành một số lớp tương đối đồng đều, thí dụ chia theo vùng địa lí, chia theo các tầng lớp xã hội ,.ề sau đó trong mỗi lớp chọn ngẫu nhiên một số cá thể, số lượng có thể căn cứ vào mức đồng đều của nhóm ...), chọn mẫu hai tầng (chia thành nhiều lớp tương đối đồng đều sau đó chọn một số lớp điển hình và khảo sát toàn bộ các cá thể trong lớp đó, ...) Ở đây chúng ta không để cập đến cách chọn mẫu cụ thể mà chỉ giả thiết là mẫu chọn ra mang tính ngẫu nhiên không có sai số hộ thống. §3. CÁC SỐ ĐẶC TRƯNG CỦA MAU Giả sử chúng ta muốn khảo sát một biến ngẫu nhiên X. Sau khi lấy mẫu gồm n cá thể, ta ghi lại các giá trị của X trên từng cá thể: X], x2, ... , xn, các sô' liệu này gọi là số liệu gốc. Có thể để nguyên số liệu gốc để xử lí nhưng khi n khá lớn thì thường sắp xếp lại dưới dạng hai cột, một cột ghi giá trị Xj, một cột ghi số lần gặp tức là tần số m,, nếu n quá lớn thì thường dùng cách chia số liệu 62
  4. ra khoảng 25 - 30 lớp sau đó lấy điểm giữa làm đại diện cho lớp. Tiếp theo là dùng đồ thị để minh hoạ các số liệu. Giá trị tần số Khoảng rộng h Điểm giữa tần số -C m1 + mi X *1 *1 o 1 0 *2 m2 [x0 + h - x0 + 2h] *2 m2 Xk mk [x0 + (k - 1)h - x0 + kh] Xk mk Thí dụ 1. Năng suất tại 365 điểm trồng lúa của một huyện. Thí dụ 2. Chiều cao 300 em học sinh lứa tuổi 12 ở một vùng. Năng suất Số điểm Chiều cao Điểm giữa Số em (tạ/ ha) (mi) (cm) (mị) 25 19 117,5 -122,5 120 9 30 38 122,5 - 127,5 125 33 35 74 127,5 - 132,5 130 74 40 106 132,5 - 137,5 135 93 45 85 137,5 - 142,5 140 64 50 30 142,5 - 147,5 145 21 55 13 147,5 - 152,5 150 6 Sau khi sắp xếp thường tính một số số đặc trưng của mẫu gọi chung là các thống kê như: trung bình cộng, trung bình nhân, trung vị, mod, phương sai mẫu, độ lệch chuẩn, độ nhọn, độ nghiêng, hộ sô' biến động ... Sau đây là một số thống kê* 3Ể Trung bình cộng 1. X và phương sai mẫu s2 Trung bình cộng X bằng tổng Zx của các giá trị quan sát Xj chia cho số quan sát n (n gọi là dung lượng mẫu hay cỡ mẫu), trung bình cộng chính là giá trị trung bình thường dùng trong đời sống (trọng lượng trung bình của đàn gà chiều cao trung bình của cây lúa, tiền lương trung bình của cán bộ trong cơ quan ...)• 63
  5. Nếu coi trung bình cộng là tâm của dãy số liệu thì ứng với mỗi giá trị X ta j có độ lệch ej = Xj - X , đ ộ l ệ c h n à y c h o b i ế t Xj ở g ầ n h a y x a t â m , n ế u l ấ y ej bình phương lên, cộng lại, rồi lấy trung bình thì được một số đánh giá mức phân tán của số liệu, gọi là phương sai chưa hiệu chỉnh. Sau khi nghiên cứu kĩ hơn vé lí thuyết nguời ta lấy tổng bình phương của các eẦchia cho (n - 1), đó là phương sai đã hiệu chỉnh hay phương sai mẫu s2. Căn bậc hai của s 2 là độ lệch chuẩn s. Chia s c h o X rồi n h ân với 100% được hệ số b iế n đ ộ n g cv. Sau đây là công thức tính X và s2: a) Trường hợp không có tần số X xi Z (x,-x)2 £xf-n (x)2 x= — — s2 = —------------- s2 = —---------------- (5.1) n ( n - 1) ( n - 1) b) Trường hợp có tần số k k Z ximi 22(Xj - x ) 2mà X = — ------------- s 2 = —-------------------------- n ( n - 1) k X xf mi -n(x)2 k s2 = -ỉ------------------- với n=Vmi n = Z m> (5.2) ( n - 1) 1 Thí dụ 3 Cho dãy số: 556667777788899 _ 1C _ 5 + 5 + ẽẽ. + 9 „ 2 7 5 7 -1 5 .72 22 n = 15; x = ------— -----= 7; s2 = -------- -------= — = 1,571429 15 14 14 s = 1,2536; cv = . 200 % = 17,91%. 64
  6. Thí dụ 4 Chiều cao 100 cây ngô Điểm Tẩn số Khoảng (cm) X i. n j r» X? . m, (Xi - X)2. mi giữa Xj (mi) 154-158 156 10 1560 243360 1000 158-162 160 14 2240 358400 504 162-166 164 26 4264 699296 104 166-170 168 23 4704 790272 112 170-174 172 12 2064 355008 432 174-178 176 8 1408 247808 800 178-182 180 2 360 64800 392 Tổng 100 16600 2758944 3344 n = 100; X = 166; s2 = = 33,7778; 99 2 _ 2758944 —100.166^ s = ----------- — nn no _ c .„ n ------------- = 33,7778; s = 5,8119; c v % = 3,50%. 99 *3.2. T rung vị và các tứ phân vị mẫu Nếu sắp xếp số liệu từ nhỏ đến to thì sau đó thường chú ý đến: - T rung vị: đó là số đứng ở vị trí giữa, có thể coi trung vị là số mà khoảng 50% số liệu có giá trị bé hơn và khoảng 50% số liệu có giá trị lớn hơn. Trung vị kí hiệu là Me. - Tứ phân vị dưới: là số mà khoảng 25% số liệu có giá trị bé hơn. - Tứ phân vị trên: là số mà khoảng 25% số liệu có giá trị lớn hơn. Khi n nhỏ thì không thể tính chính xác trung vị và các tứ phân vị mà chỉ là gần đúng. Khi n lớn có thể tìm trung vị và các tứ phân vị chính xác hơn. Nếu chia khoảng thì có thể đưa ra các cách nội suy để tính gần đúng trung vị và tứ phân vị. *3.3. Độ nghiêng và độ nhọn mẫu S-GTXSTK 65
  7. Do tầm quan trọng của phân phối chuẩn trong nghiên cứu xác suất thống kẽ nên người ta còn chú ý đến hai thống kê sau: Độ nghiêng (hay bất đối xứng Skewness). Nếu phân phối đối xứng thì tẩn số của các giá trị đối xứng qua trung bình cộng (các độ lệch bằng nhau và trái dấu) xấp xỉ bằng nhau và độ nghiêng bằng không. Nếu tập trung nhiều số liệu trước X thì độ nghiêng dương, gọi là lệch trái, n ế u t ậ p t r u n g s a u X t h ì đ ộ n g h i ê n g â m , g ọ i là l ệ c h p h ả i . Nếu độ nghiêng có trị tuyệt đối lớn thì coi như phân phối bất đối xứng do đó phải biến đổi trước khi xử lí cho phù hợp với giả thiết phân phối chuẩn. Độ nhọn (Kurtosis). Phân phối chuẩn có đường mật độ xác suất mềm mại và trải đểu, giữa cao hai bên xuống dần, nếu số liệu tập trung qua nhiều ở giữa còn hai bên quá ít thì gọi là nhọn quá (so với chuẩn), phân phối có độ nhọn dương, ngược lại nếu dàn trải trên diện rộng thì gọi là tù quá và có độ nhọn âm. Độ nhọn cho ta một cách đánh giá xem có nên biến đổi cho bớt nhọn hoặc bớt tù để phù hợp với giả thiết phân phối chuẩn. độ nghiêng dương độ nghiêng âm Hình 3 Hình 4 * Để nghiên cứu sự thay đổi của các thống kê, người ta thường suy luận như sau: Gọi Xị là biến ngẫu nhiên X khảo sát trên cá thể thứ nhất của mẫu, x2là biến ngẫu nhiên X khảo sát trên cá thể thứ hai, Xn trên cá thể thứ n. Các biến Xj, x2, Xn độc lập có cùng phân phối như X. Các thống kê là hàm của các biến ngẫu nhiên nên cũng là biến ngẫu nhiên, do đó có thể khảo sát 66
  8. ¿X , ¿ ( X ; - X )2 X=J--- ; s2=-i---------- n ( n - 1) như mọi biến ngẫu nhiên khác. n _ ¿X, Thí dụ trung bình cộng X = —----- phân phối chuẩn N(|a,ơ 2/n) n —— phân phối ỵ 2 với (n - 1) bậc tự do. ơ §4. ƯỚC LƯỢNG THAM s ố CỦA T ổN G THỂ Giả sử biến X của tổng thể có một phân phối nào đó nhưng chưa biết tham số, thí dụ phân phối Poát-xông nhưng chưa biết fi, phân phối nhị thức nhưng chưa biết p, phân phối chuẩn nhưng chưa biết ^ và ơ 2 ... Sau khi lấy mẫu và tính một số thống kê ta phải dùng các thống kê để ước lượng các tham số của tổng thể. Có hai cách tiếp cận vấn để này: * Ước lượng điểm. Đây là cách tiếp cận rất quan trọng để nghiên cứu lí thuyết ước lượng. Giả sử tổng thể có tham số 0 , sau khi khảo sát mẫu ta tính được các thống kê, dựa vào các thống kê để đưa ra một số T thay thế 0 gọi là ước lượng điểm của 0 . Có nhiều ước lượng T cho tham số 0 , do đó phải lựa chọn dựa trên rất nhiều tiêu chuẩn như: - Không chệch: hiểu một cách đơn giản là ước lượng không chứa sai số hộ thống, tức là không thiên về phía đưa ra các giá trị bé hơn 0 hoặc thiên vể việc đưa ra các giá trị lớn hơn 0 . - Hiệu quả: trong các ước lượng có cùng tính chất thì chọn ước lượng có phương sai nhỏ nhất. - Vững: khi tăng dung lượng mẫu n lên vô hạn thì ước lượng sẽ dần đến 0 (dần đến theo xác suất). - Chắc hay bền: không thay đổi nhiều khi trong mẫu có các số liệu quá nhỏ hay quá lớn, hoặc số liệu thu được không thoả mãn giả thiết phân phối chuẩn. 67
  9. Nếu không thể chọn được ước lượng tốt trên mọi phương diện thì, tuỳ theo mục đích, có thể chọn ước lượng thoả mãn một số tiêu chuẩn trong rất nhiều tiêu chuẩn nêu ra. Thí dụ khi có phân phối chuẩn N(fi, ơ 2) thì ước lượng tốt trên nhiều mặt là trung bình cộng X và phương sai mẫu s2. Khi có phân phối nhị thức B(n, p) thì ước lượng tốt của tham số p là tần suất. Khi có phân phối Poát-xông thì ước lượng tốt của tham số (I là trung bình cộng X Ước lượng khoảngễ Đây là cách tiếp cận có nhiều ứng dụng trong các ngành khoa học đòi hỏi phải thường xuyên xử lí số liệu như sinh học, y học, hoá học, kinh tế,.. Theo cách tiếp cận này sau khi tính các thống kê của mẫu quan sát ta đưa ra khoảng [a, p] chứa tham số 0 . Cận dưới a và cận trên [3 tính theo một quy tắc cụ thể dựa trên các thống kê và dựa trên mức tin cậy p. Sau khi chọn mẫu ta đưa ra khoảng tin cậy [a, p], nếu 0 ở trong [a, p] thì khoảng tin cậy đưa ra đúng, nếu 0 ở ngoài khoảng [a, p] thì khoảng tin cậy đưa ra sai. Như vậy mỗi khoảng tin cậy chỉ có thể đúng hoặc sai, xác suất đúng là p, xác suất sai là a = 1 - p, hiểu đơn giản là nếu tính khoảng tin cậy theo quy tắc đã đưa ra thì trung bình trong 100 trường hợp p *100 trường hợp có khoảng tin cậy đúng, tức là chứa tham số 0 . Để xây dựng quy tắc tính khoảng tin cậy phải nghiên cứu sự thay đổi của trung bình cộng X và phương sai s 2, coi đó là các biến ngẫu nhiên phụ thuộc vào mẫu chọn ra. Không đi sâu vào lí thuyết, ta đưa ra quy tắc ước lượng tham số cho ba trường hợp sau: 4ếl. Ước lượng kì vọng |J của phân phôi chuẩn khi biết phương sai ơ2 , Các bước cần làm để ước lượng |U + Chọn mẫu dung lượng n, tính trung bình cộng X. Chọn mức tin cậy p. (a = 1 - p gọi là mức sai cho phép hay mức ý nghĩa) a + Dùng bảng 2 tính giá trị tới hạn u , tức là giá trị u sao cho O(u) = 1 ---- + Ước lượng m theo bất đẳng thức kép r ơ _ fa Nơ x -u -j= < < X + u (5.3) Vn v2 , 68
  10. Thí dụ 5 Cân 36 con gà được trọng lượng trung bình X = 2,6kg. Hãy ước lượng kì vọng fj. nếu trọng lượng gà phân phối chuẩn N(n, 0,09). Ở mức tin cậy p = 0,95; u(0,025) = 1,96; ơ = 0,3. 0 3 0 3 2 ,6 - 1 ,9 6 .- ^ Ị < n < 2,6+ 1,96. ’ V36 " ’ ’ V36 2,50 < ịi < 2,70. Ở mức tin cậy p = 0,99; u(0,005) = 2,575. 2,47kg < n < 2,73kg. Thí dụ 6 Phân tích vitamin c của 17 mẫu được X = 20 mg. Ước lượng kì vọng n nếu lượng vitamin phân phối chuẩn N(n, ơ2) với ơ = 3,98 mg. Ở mức tin cậy p = 0,95; u(0,025) = 1,96. 3 98 3 98 20 -1,96. < (J. < 20 + 1 ,9 6 .-^ = >/17 VĨ7 18,llm g < Ịi < 21,89mg. 4.2. Ước lượng kì vọng của phàn phối chuẩn khi không biết phương sai ơ Các bước cần làm để ước lượng |i (với mức tin cậy p = 1 - a ) + Chọn mẫu dung lượng n, tính trung bình cộng X, tính phương sai mẫu s 2 + Dùng bảng 3, tính giá trị tới hạn t , tức là giá trị t ở cột a dòng n - 1 Ước lượng theo bất đẳng thức kép / \ a ,1 s s x -t — ,n-l < |I < X + t —, n - l1 a (5.4) 2 7T Thí dụ 7 Để ước lượng nãng suất một giống ngô, người ta theo dõi 25 mảnh ruộng. 69
  11. Sau khi thu hoạch được X = 10,6; s = 2,082 (đơn vị tạ/ha). Giả thiét năng suất ngô phân phối chuẩn. Mức tin cậy p = 0,95. Tra cứu bảng 3 được t(0,025,24) = 2,061; p = 0,95 1 0 , 6 - 2 , 0 6 1 . ^ 3 < n < 10,6 + 2 , 0 6 1 . ^ 2 - >/25 V25 9,74 tạ < ỊJ. < 11,46 tạ. Thí dụ 8 Một xưởng làm bánh theo dõi lượng bột dùng hàng ngày trong 14 ngày được X = 17,3 kg; s = 4,5 kg, giả thiết lượng bột dùng hàng ngày phân phối chuẩn. Từ đó có ước lượng về lượng bột trung bình ở mức tin cậy p = 0,99. Tra cứu bảng 3, t(0,005,13) = 3,012 17,3 - 3,012. - Ặ i < ịi < 17,3 + 3,012. 4,5 VĨ4 VĨ4 13,68kg < |a< 20,92kg. 4.3. Ước lượng xác suất p của phân phối nhị thức Một tổng thể gồm 2 loại cá thể A và A với số lượng rất lớn, tỉ lộ loại A là p (chưa biết). Lấy ngẫu nhiên một cá thể, có thể coi xác suất được cá thể loại A là p. Lấy ngẫu nhiên n cá thể, trong đó có m cá thể loại A. Nếu n nhỏ thì có các bảng tính sẵn để ước lượng p căn cứ vào n và m Nếu n lớn (lí thuyết n > 30 nhưng thực tế chỉ nên dùng khi n > 100) thì coi m như biến ngẫu nhiên X phân phối nhị thức B(n, p), sau đó dựa trên việc tính gần đúng phân phối nhị thức bằng phân phối chuẩn có kì vọng np và phương sai npq, ta tìm được quy tắc thực hành sau: + Lấy mẫu dung lượng n, đếm số cá thể loại A, gọi là tần số m, tính tần suất f = — + Dùng bảng 2 tính giá trị tới hạn u sau đó ước lượng p theo bất đảng thức kép: , J I f(l-f) _ r f - u — . —------ < p < f + u (5.5) V 70
  12. Thí dụ 9 Trồng 100 cây có 75 cây sống, ước lượng xác suất sống p khi trồng cây với p = 0,95. 75 f = — = 0,75; u(0,025) = 1,96 100 0,75(1-0,75) 0,75(1-0,75) 0,75-1,96, < p < 0,75 + 1,96 100 100 0,665 < p < 0,835. Thí dụ 10 Để biết tỉ lộ người tiêu dùng không thích một loại sản phẩm mới đưa ra thị trường người ta hỏi ý kiến 344 người và có 83 người cho biết là không thích sản phẩm đó. n = 344; m = 83; f = — = 0,241; u(0,05) = 1,645. 344 Chọn mức tin cậy p = 0,90 có ước lượng của tỉ lệ p 0,241(1-0,241) 0,241(1-0,241) 0,241-1,645. < p
  13. Chọn p = 0,99; ơ = 1,8; 8 = 0,5; a = 1 - 0,99 = 0,01; u(0,005) = 2,575. n >85,93 (2,575.1,8r cỡ n > 86 . Vậy phải lấy mẫu 0,5 2 *4.5. Tính dung lượng mẫu khi ước lượng xác suất p của phán phôi nhị thức Theo công thức (5.4) nửa chiều dài khoảng tin cậy L = u V n a Muốn L < £ phải lấy n > u" v2 , n 1 nhưng vì k chưa biết nên dùng bất đảng thức k( 1 - k) < — từ đó có 4 'a ' v2 y n> 4e^ Thí dụ 12 Một xí nghiệp muốn ước lượng tỉ lệ p số người tán thành một kế hoạch sản xuất mới. Để tỉ lệ tìm ra có độ chính xác 8 = 0,06 ở mức p = 0,95 phải thăm dò bao nhiêu người? í a \ p = 0,95; ct = 0,05; u(0,025) = 1,96; n > = 266,78. 4s^ Như vậy phải thăm dò n > 267 người. BÀI TẬP CHƯƠNG 5 5.1Ề Sắp xếp lại và vẽ đồ thị biểu diễn dãy số liệu: 39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 40 41 42 39 41 37 43 41 38 43 39 42 39 41 37 43 39 41 40 42 40 41 42 40 43 38 39 41 41 72
  14. 5.2. Cho dãy số liệu: 47 45 41 34 20 26 38 53 45 38 31 20 43 44 27 22 29 45 55 42 29 32 27 37 61 30 35 33 27 43 50 a) Tính trung vị, trung bình cộng, phương sai mẫu. b) Nhóm sô' liệu thành lớp rộng 5 và vẽ tổ chức đồ (nhật đồ). 5.3. Năng suất một loại cây trên 36 thửa đất là: p 19,2 17,7 20,0 21,1 21,5 18,5 20,6 19,3 19,0 18,2 17,1 19,2 19,1 15,2 19,5 17,3 16,3 19,6 17,5 19,1 19,7 16,0 16,7 16,4 20,8 19,3 16,0 17,4 15,3 17,2 17,6 11,5 11,4 46,1 17,8 20,0 Tính trung vị, trung bình cộng, phương sai mẫu. 5.4. Điểu tra 200 mảnh ruộng, mỗi mảnh 4m2, ta được bảng sau: Xi 1,02 1,08 1,14 1,20 1,26 1,32 m. 10 15 35 75 55 10 a) Tính trung bình cộng và phương sai mẫu. b) Ước lượng năng suất trung bình nếu coi năng suất phân phối chuẩn (P = 0,95) 5.5. Phỏng vấn 400 người ở một khu vực rất đông người thì có 240 người ủng hộ một dự luật. Ước lượng tỉ lệ p số người ủng hộ dự luật ở mức p = 0,95. 5.6ẻ Thời gian đóng bột vào một bao phân phối chuẩn với ơ = 0,3 phút. a) Theo dõi 36 bao thấy thời gian trung bình để đóng một bao là 1,2 phút. Hãy ước lượng thời gian trung bình (0. ở mức tin cậy p = 0,95. b) Nếu muốn độ dài khoảng tin cậy giảm đi 2 lần thì phải chọn mẫu cỡ bao nhiêu? 5.7. Theo dõi lương của 50 công nhân trong một nhà máy ta có X = 79 (đơn vị nghìn đồng), độ lệch chuẩn s = 12,84, số công nhân có lương cao hơn 90 là 14. Giả sử lương phân phối chuẩn. Với mức tin cậy p = 0,95 hãy a) Ước lượng kì vọng Ịi b) Ước lượng tỉ lệ công nhân có lương trên 90. 73
  15. 5.8. Cân 50 em học sinh lớp 4 được trọng lượng trung bình X = 32 kg; độ lệch chuẩn s = 2,5 kg. Giả sử trọng lượng phân phối chuẩn, hãy ước lượng kì vọng ở mức p = 0,99. 5.9. Trọng lượng cam phân phối chuẩn với độ lệch chuẩn ơ = 32,4g. Cân thử 9 quả được trọng lượng trung bình X = 187,9g. a) Ước lượng kì vọng ở mức p = 0,80. b) Nếu muốn khoảng tin cậy bằng [165,8 - 210] thì phải chọn mức tin cậy p bằng bao nhiêu? 5.10. Kiểm tra ngẫu nhiên 400 sản phẩm của một máy thì có 20 phế phẩm. Với mức tin cậy 0,95, hãy ước lượng tỉ lệ phế phẩm tối đa của máy đó. 74
  16. KIỂM ĐỈNH GIẢ THIẾT ■ K iểm định giả thiết là một bài toán hay gặp trong thống kê. Phạm vi nghiên cứu khả rộng và về mặt lí thuyết có những vấn đề khá phức tạp nếu muốn giải quyết thật tỉ mỷ, chính xác. Trong chương này chỉ trình bày một vài bài toán kiểm định giả thiết cụ thể Nên quan đến các biến định lượng. Chương sau sẽ tiếp tục kiểm định giả thiết với biến định tính. Nhưng trước hết cần giới thiệu chung vế giả thiết và đối thiết và hai loại sai lầm mắc phải khi kiểm định. §1. GIẢ THIẾT VÀ ĐỐI THIẾT Khi khảo sát một tổng thể (hoặc nhiều tổng thể) và xem xét một (hoặc nhiều) biến ngẫu nhiên có thể đưa ra một giả thiết nào đó liên quan đến phân phối của biến ngẫu nhiên hoặc nếu biết phân phối rồi thì đưa ra giả thiết về tham số của tổng thể. Để có thể đưa ra một kết luận thống kê nào đó đối với giả thiết thì phải chọn mẫu ngảu nhiên, tính tham số mẫu, chọn mức ý nghĩa a sau đó đưa ra kết luận. Bài toán kiểm định tham số 0 của phân phối có dạng H0: 0 = 0 Ovới 0 Olà một số đã cho nào đó. Kết luận thống kê có dạng: Chấp nhận H 0 hay bác bỏ H0. Tuy nhiên nếu đặt vấn để như vậy thì cách giải quyết hết sức khó vì nếu không chấp nhận H 0 0 = 0 O thì điều đó có nghĩa là có thể chấp nhận một trong vô số 0 khác 0 O do đó thường đưa ra bài toán dưới dạng cụ thể hơn nữa: , Cho giả thiết H 0 và một đối thiết Hj, khi kết luận thì hoặc chấp nhận H 0 hoặc bác bỏ H0, và trong trường hợp này, tuy không hoàn toàn tương đương, nhưng coi như chấp nhận Hj. Nếu chấp nhận H 0 trong lúc giả thiết đúng là Hị thì mắc sai lầm loại hai và xác suất mắc sai lầm này được gọi là rủi ro loại hai. Ngược lại nếu bác bỏ H trong lúc giả thiết đúng chính là H 0 thì mắc sai lầm loại một và xác suất mắc sai lầm đó được gọi là rủi ro loại một. Như vậy trong bài toán kiểm định giả 75
  17. thiết luôn luôn có hai loại rủi ro, loại một và loại hai, tuỳ vấn đề mà nhấn mạnh loại rủi ro nào. Thông thường người ta hay tập trung chú ý vào sai lầm loại một và khi kiểm định phải khống chế sao cho rủi ro loại một không vượt quá mức a gọi là mức ý nghĩa. Trước hết xem xét cụ thể bài toán kiểm định giả thiết H0: 0 = 0 O đối , thiết H m 0 = 0 [ với 0 , là một giá trị khác 0 O Đây là bài toán kiểm định giả : . thiết đơn. Quy tắc kiểm định căn cứ vào hai giá trị cụ thể 0 Ị và 0 O vào mức ý nghĩa , a và còn căn cứ vào cả sai lầm loại hai. Việc này không gặp khó khăn về mặt lí thuyết. Sau đó mở rộng quy tắc sang cho bài toán kiểm định giả thiết kép Hj: 0 * 0 O 0 > 0 O hoặc 0 < 0 O việc mở rộng này có khó khăn nhưng các nhà ; , nghiên cứu lí thuyết xác suất thống kê đã giải quyết được, do đó vể sau khi kiểm định giả thiết H0: 0 = ©0 có thể chọn một trong 3 đối thiết H) sau: H,: 0 * 0 Ogọi là đối thiết hai phía. Hị . 0 > 0 Ogọi là đối thiết phải. H !: 0 < 0 Ogọi là đối thiết trái. Hai đối thiết sau gọi là đối thiết một phía. Việc chọn đối thiết nào tuỳ thuộc vấn đề khảo sát cụ thể. Trong phạm vi tài liệu này chỉ đề cập đến đối thiết hai phía hay còn gọi là hai đuôi. §2. KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH ịi CỦA BIẾN PHÂN PHỐI CHUẨN N(n, ơ2) Bài toán kiểm định H0: = |i 0 với đối thiết H |: (J. * fj.0 ở mức ý nghĩa a được chia thành 2 trường hợp sau: 2Ệ Đã biết phương sai ơ 2 1. Đây là trường hợp khi tiến hành điều tra lại một tổng thể, người ta lấy phương sai của lần điều tra trước làm ơ 2, hoặc việc kiểm định được tiến hành 76
  18. thường xuyên tại một cơ sở công nhiệp mà qua một quá trình dài đã tìm được phương sai a 2 (chủ yếu phụ thuộc vào độ chính xác của các thiết bị đo lường và tay nghề của nhân viên sử dụng thiết bị). Ta tiến hành các bước sau: - Lấy m ẫ u , tín h X (\-ịx 0) ( \ - ị i 0)Jn - Tính giá trị u thực nghiệm Utn = fa \ - Tính giá trị tới hạn u — từ bảng 3 Nếu I u tn I (giá tri tuyệt đối của u tn) bé hơn u — thì chấp nhận H0 nếu ngược lại thì bác bỏ H0, tức là chấp nhận H jẳ Thí dụ 1 Nuôi 100 con lợn theo một chế độ ăn riêng, sau 4 tháng tăng trọng trung bình là 30kg, giả thiết tăng trọng phân phối chuẩn N(fi, 25). Hãy kiểm định giả thiết H0: Ị = 32 đối thiết Hj: ịi* 32 mức a = 0,05. 1 (30-32)VĨÕÕ u tn = = -4 I Utn I = 4; u(0,025)= 1,96. Kết luận: Bác bỏ H0, như vậy tăng trọng trung bình không phải là 32kg. Thí dụ 2 Khảo sát 64 gia đình tìm được chi tiêu trung bình của mỗi gia đình là 2,03 triệu đồng/tháng. Giả sử chi tiêu của một gia đình phân phối chuẩn N(|I, 0,09), hãy kiểm định giả thiết H0: [1 = 2 đối thiết Hj: * 2 ở mức a = 0,1. (2 ,0 3 -2 )7 6 4 u tn = 0,8 0,3 Utn Ị = 0,8; u(0,05)= 1,645. 77
  19. Kết luận: Chấp nhận H0: mức chi tiêu trung bình của một gia đình là 2 triệu đồng/ tháng. 2.2. Không biết phương sai ơ 2 Đây là trường hợp phổ biến khi kiểm định giá trị trung bình của phân phối chuẩn. Ta tiến hành các bước sau: .2 - Lấy mẫu, tính X và s (x-(^o)V n - Tính giá trị T thực nghiệm Ttn = - Tìm giá trị tới hạn t —, n - 1 trong bảng 3. u J (a \ Nếu I Ttn I (giá trị tuyệt đối của Ttn) bé hơn t —, n - 1 thì chấp nhận H0 V 2 y nếu ngược lại thì bác bỏ H0, tức là chấp nhận Hj. Thí dụ 3 Trong điều kiện chăn nuôi bình thường lượng sữa trung bình của một con bò sữa là 19kg/ngày. Trong một đợt hạn, người ta theo dõi 25 con bò và được mạng sữa trung bình 17,5kg/ngày, độ lệch chuẩn s = 2,5kg. Giả thiết lượng sữa phân phối chuẩn, hãy kiểm định giả thiết H0: n = 19 với đối thiết p. * 19 ở mức a = 0,05. Ttn = í 17’5 " 19) ^ = - 3; I Ttn| = 3; t(0,025; 24) = 2,061. Kết luận: Bác bỏ H0, như vậy trọng lượng sữa trung bình không còn là 19 kg/ngày nữa. Thí dụ 4 Thóc được đóng trong bao 50kg. Sau một thời gian, để kiểm tra, người ta :ân thử 81 bao và được trọng lượng trung bình 49 ,4 kg/bao, độ lệch chuẩn s = 3,6kg. Giả thiết trọng lượng bao thóc phân phối chuẩn, hãy kiểm định giả thiết H0: = 50 với đối thiết * 50 ở mức a = 0,05. T,n = (4 9 ,4 ~ 50)^ = -1 ,5 ; I Ttn I = 1,5; t(0,025; 80) = 1,99. 3, 0 78
  20. Kết luận: Chấp nhận Hq, như vậy vẫn coi trọng lượng trung bình của một bao thóc là 50kg. §3. KIỂM ĐỊNH HAI GIÁ TRỊ TRUNG BÌNH CỦA HAI BIẾN PHÂN PHỐI CHUẨN Giả sử chúng ta có hai tổng thể và theo dõi một biến định lượng X nào đó, thí dụ trọng lượng sau 6 tháng nuôi của hai đàn gà, năng suất của hai giống lúa, năng suất của một giống ngô khi bón theo hai công thức phân bón khác nhau, sản lượng một loại quả khi trồng theo hai khoảng cách hàng ... Chúng ta giả thiết biến X trên tổng thể thứ nhất (mà để dễ phân biệt ta gọi là Xj) phân phối chuẩn N(ịi1; ơ^) và biến X trên tổng thể thứ hai (gọi là x2) phân phối chuẩn N (|i2. ơ 2 )• Để so sánh và ụ2 chúng ta phải chọn mẫu. Có hai cách chọn mẫu: Chọn mẫu theo cặp và chọn mẫu độc lập. 3.1. Chọn mẫu theo cặp Từ tổng thể thứ nhất, ta chọn một mẫu n cá thể có các giá trị Xj, x2, xn và từ tổng thể thứ hai một mẫu cũng gồm n cá thể, có các giá trị y ]( y2......yn, giữa hai mẫu này có mối quan hộ cặp, tức là ta có n cặp (Xị, Yj) (i = 1, n). Các cặp này hình thành do khi chọn mẫu ta đã dùng đến những quan hệ cặp như đực, cái (chọn n tổ chim sau đó bắt chim đực vào mẫu đại diện cho tổng thể chim đực, bắt chim cái vào mẫu đại diện cho tổng thể chim cái), quan hệ anh em, quan hệ trước khi dùng thuốc và sau khi dùng thuốc (cá thể được đo trước khi dùng thuốc và số liệu này đại diện cho tổng thể trước khi dùng thuốc, sau khi dùng thuốc một thời gian lại đo lại và số liệu này đại diện cho tổng thể sau khi dùng thuốc), cũng có khi các cặp này là các cặp số liệu do chúng ta bố trí thí nghiệm theo cặp: một ô ruộng (hay một chuồng) bố trí giống thử nghiệm, một ô ruộng (một chuồng) bố trí giống đối chứng. Viết lại số liệu dưới dạng hai cột hay hai hàng, ta tính hiệu số dj = yẮ Xj — Xi *1 *2 xn x2 yi V2 yn D d1 d2 dn sau đó tính giá trị trung bình d và độ lệch chuẩn sd. 79
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1