Giáo trình Lý thuyết xác suất và thống kê toán: Phần 2 - Trường ĐH Kinh tế Nghệ An

Chia sẻ: Minh Quan | Ngày: | Loại File: PDF | Số trang:72

Thêm vào BST

Báo xấu

18
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tiếp nội dung phần 1, Giáo trình Lý thuyết xác suất và thống kê toán: Phần 2 cung cấp cho người học những kiến thức như: Các định lý giới hạn; Lý thuyết mẫu; Bài toán ước lượng tham số; Bài toán kiểm định giả thuyết. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Giáo trình Lý thuyết xác suất và thống kê toán: Phần 2 - Trường ĐH Kinh tế Nghệ An

Chƣơng 5 CÁC ĐỊNH LÝ GIỚI HẠN 5.1. ĐỊNH NGHĨA. Dãy các ĐLNN {Xn} đƣợc gọi là hội tụ theo xác suất tới ĐLNN X nếu với   > 0, lim P  X n  X     1. Khi đó n  ta ký hiệu: Xn  P X . 5.2. BẤT ĐẲNG THỨC TRÊ-BƢ-SÉP. Cho ĐLNN X có kỳ vọng E(X) và phƣơng sai D(X) đều hữu hạn. Khi đó với mọi  > 0, ta có: P  X  E(X)     1  2 hay P  X  E(X)     2 D(X) D(X) (1)   Các bất đẳng thức (1) đƣợc gọi là các bất đẳng thức Trê-bư-sép. Chứng minh: Giả sử X là ĐLNN liên tục có hàm mật độ phân phối f(t). Theo tính chất hàm mật độ, ta có: E(X)  P  X  E(X)     P  E(X)    X  E(X)      f (t)dt E(X)   E(X)    1    f (t)dt   f (t)dt  . (2)     E(X)   t  E(X) 2 Mặt khác: t  E(X)    t  E(X)    1 2 2 2 t  E(X) 2  f (t).  f (t) (vì f(t)  0). 2 E(X)    Vì f(t)  0 nên   f (t)dt   E(X)  f (t)dt   f (t)dt  E(X)     t  E(X) 2 1   f (t)dt   f (t)dt   f (t)dt  2  t  E(X) f (t)dt 2  E(X)    2   E(X)   1    f (t)dt   E(X)  f (t)dt  2 .D(X) (3) 78
Từ (2) và (3) suy ra: P  X  E(X)     1  D(X) . 2 Về mặt thực tế bất đẳng thức Trê-bƣ-sép chỉ cho phép đánh giá cận trên hoặc cận dƣới xác suất để ĐLNN X nhận giá trị sai lệch so với kỳ vọng của nó lớn hơn hoặc bé thua . Đôi khi sự đánh giá đó là hiển nhiên và không có ý nghĩa. Chẳng hạn, nếu D(X)  2 thì bất đẳng thức là hiển nhiên đúng. Song nó lại có ƣu điểm là áp dụng đƣợc đối với mọi ĐLNN mà không cần biết quy luật phân phối xác suất của nó. Ví dụ 1. Thu nhập trung bình hàng năm của dân cƣ một vùng là 700 USD và độ lệch chuẩn là 120 USD. Hãy xác định một khoảng thu nhập hàng năm xung quanh giá trị trung bình của ít nhất 95% dân cƣ vùng đó. Giải. Gọi X là thu nhập hàng năm của dân cƣ vùng đó thì X là ĐLNN với quy luật phân phối xác suất chƣa biết song có kỳ vọng toán E(X) = 700 và độ lệch chuẩn D(X) = 120. Do đó theo bất đẳng thức Trê-bƣ-sép, ta có: P  X  700     1  130  0,95    536,656 2 Vậy ít nhất 95% dân cƣ vùng đó có thu nhập hàng năm nằm trong khoảng (700 – 536,656; 700 + 536,656), tức là khoảng (163,344; 1236,656). 5.3. ĐỊNH LÝ TRÊ-BƢ-SÉP 5.3.1. Định lý. Giả sử X1, X2, ..., Xn là dãy các ĐLNN độc lập từng đôi một, có kỳ vọng E(Xi) đều hữu hạn ( i  1,n ) và phƣơng sai D(Xi) bị chặn trên bởi hằng số C (nghĩa là D(Xi)  C, C là hằng số,  i  1,n ). Khi đó  > 0 ta có: 1 n 1 n  lim P   Xi   E(Xi )     1 . n   n i 1 n i 1  n n 1 1 Khi đó ta nói:  Xi  (P)   E(Xi ) . n i 1 n i 1 Chứng minh: 79
1 n 1 n  1 n Đặt Sn   Xi  E(Sn )  E   Xi    E(Xi ) n i1  n i1  n i 1 1 n  1 n nC C và D(Sn )  D   Xi   2  D(Xi )  2  .  n i1  n i 1 n n Áp dụng bất đẳng thức Trê-bƣ-sép đối với ĐLNN Sn, ta có:   0, P  Sn  E(Sn )     1  2 n  1  2 D(S ) C  n  C   lim P  Sn  E(Sn )     lim 1  2   1 n  n   n  Mà xác suất của một biến cố không vƣợt quá 1 nên:   0, lim P  Sn  E(Sn )     1 n  1 n 1 n     0, lim P   Xi   E(Xi )     1.  n   n i 1 n i 1  5.3.2. Hệ quả. Giả sử X1, X2, ..., Xn là dãy các ĐLNN độc lập cùng tuân theo một quy luật phân phối xác suất nào đó với kỳ vọng E(Xi) =  và phƣơng sai D(Xi) = 2 hữu hạn ( i  1, n ). Khi đó  > 0 ta có: 1 n  lim P   Xi       1 n   n i 1  Qua hệ quả trên ta thấy khi n khá lớn thì trung bình cộng các ĐLNN có cùng kỳ vọng hầu nhƣ lấy những giá trị xấp xỉ kỳ vọng của chúng và xấp xỉ này càng tốt nếu n càng lớn. Điều này có ý nghĩa thực tiễn rất lớn, chẳng hạn nhƣ muốn đo đạc một đại lƣợng vật lý nào đó ta cần thực hiện nhiều lần và lấy trung bình cộng của các kết quả làm giá trị thực của đại lƣợng. Nội dung hệ quả này còn là cơ sở cho một phƣơng pháp đƣợc áp dụng trong thống kê là phƣơng pháp mẫu mà thực chất của nó là dựa vào mẫu ngẫu nhiên để đi đến kết luận cho tổng thể các đối tƣợng đƣợc nghiên cứu. 5.4. ĐỊNH LÝ BERNOULLI 80
Định lý: Giả sử fn(A) là tần suất xuất hiện biến cố A trong n phép thử độc lập và p là xác suất xuất hiện biến cố A trong mỗi phép thử. Khi đó  > 0 ta có: lim P  f n (A)  p     1. n  Chứng minh: Gọi Xi là số lần xuất hiện biến cố A trong phép thử thứ i, i  1, n . 1 nếu A xuất hiện ở phép thử thứ i Ta có: Xi  0 nếu A không xuất hiện ở phép thử thứ i Do đó: Xi  A(p) ( i  1, n )  p 1 p  1 2  E(Xi )  p;D(Xi )  p(1  p)     , i  1, n.  2  4  D(Xi) bị chặn, i  1,n . 1 n 1 n  1 n f n (A)   i n i1 X  E  f n (A)   E  n  i   n  E(Xi )  p. X  i 1  i 1 Áp dụng định lý Trê-bƣ-sép cho dãy các ĐLNN X1, X2, ..., Xn ở trên ta có: 1 n 1 n    0, lim P   Xi   E(Xi )     1 n   n i 1 n i 1   lim P  f n (A)  p     1.  n  Định lý Bernoulli nêu lên sự hội tụ theo xác suất của tần suất xuất hiện biến cố trong n phép thử độc lập về xác suất xuất hiện biến cố đó trong mỗi phép thử khi số phép thử tăng lên vô hạn. Do đó trong thực tế khi số phép thử tăng lên khá lớn ta lấy fn(A) làm giá trị xấp xỉ cho xác suất P(A). 5.5. ĐỊNH LÝ GIỚI HẠN TRUNG TÂM Định lý. Giả sử X1, X2, ..., Xn là dãy các ĐLNN độc lập cùng tuân theo một quy luật phân phối xác suất nào đó với kỳ vọng E(Xi) =  và phƣơng sai D(Xi) = 2 hữu hạn ( i  1,n ). Khi đó: 81
X1  X 2  ...  X n Đại lƣợng ngẫu nhiên X  sẽ hội tụ theo xác n  2  suất tới một ĐLNN có quy luật phân phối xác suất chuẩn N  ,   n  khi n   .  X  hay đại lƣợng ngẫu nhiên U    n sẽ hội tụ theo xác suất tới    quy luật phân phối xác suất chuẩn hóa N(0, 1) khi n   . Trong thực hành tính toán, khi n > 30 thì ta có thể xấp xỉ:  2   X  X N  ,  hay   n N  0,1 .  n     Ví dụ. 1) Chọn ngẫu nhiên 192 số trên đoạn [0, 1]. Tìm xác suất để tổng số điểm thu đƣợc X nằm trong khoảng (88, 104). 192 Giải. Ta có thể coi nhƣ X   X , trong đó mọi ĐLNN Xi độc i 1 i lập và cùng tuân theo quy luật phân phối đều U(0, 1). 0 1 (1  0) 2 1 Từ đó ta có E(Xi) =  0,5 ; D(Xi) =  ,  i  1,192 . 2 12 12  E(X) = 192.0,5 = 96 và D(X) = 192/12=16   = 4.  104  96   88  96  Vì vậy P(88  X  104)         2  2   0,954.  4   4  2) Cho biến ngẫu nhiên X  B(1000; 0,02). Tìm xác suất để X nhận giá trị trong khoảng (40, 50). 1000 Giải. Có thể coi X   Xi , trong đó Xi độc lập và có cùng phân i 1 phối không một A(0,02). Từ đó theo định lý giới hạn trung tâm suy ra X  N(, 2), trong đó  = np = 1000.0,02 = 20; 2 = np(1 – p) = 19,6.  50  20   40  20   P(40  X  50)           6,77     4,51  0,5  4,999  19,6   19,6  = 0,001. 82
BÀI TẬP CHƢƠNG 5 Bài 5.1. Xác suất xuất hiện sản phẩm loại 1 khi kiểm tra một sản phẩm là 0,5. Gọi X là số lần xuất hiện sản phẩm loại 1 khi tiến hành kiểm tra 100 sản phẩm. Đánh giá xác suất của biến cố (40 < X < 60). Đ/s: X  B(100; 0,5). Áp dụng BĐT Trê-bƣ-sép, ta có: 25 P(40 < X < 60) = P( X  50  10)  1  2  0,75 . 10 Bài 5.2. Cho X là ĐLNN có E(X) = 1; D(X) = 0,04. Chứng minh rằng: a. P( 1  X  3 )  0,84. 2 2 b. P(0  X  2)  0,96. Bài 5.3. Hãy tìm , biết X là ĐLNN có D(X) = 0,01 thỏa mãn: P( X  E(X)  )  0,96. Đ/s: 0 <   0,5. Bài 5.4. Gieo một con xúc xắc cân đối đồng chất n lần một cách độc lập. Gọi X là số lần xuất hiện mặt 6 chấm. Chứng minh rằng: n n  31 P  n  X   n   . 6 6  36 Bài 5.5. Giả sử tiền điện của một gia đình phải trả trong một tháng là ĐLNN với trung bình 16 USD và độ lệch chuẩn 1 USD. Sử dụng bất đẳng thức Trê-bƣ-sép, hãy xác định số M nhỏ nhất để với xác suất 0,99 số tiền điện phải trả trong một năm (12 tháng) không vƣợt quá M. Đ/s: M = 226,64. Bài 5.6. Gieo một con xúc xắc 120 lần. Tính xác suất để số lần xuất hiện mặt 6 chấm nhỏ hơn 15. Biết rằng con xúc xắc cân đối đồng chất. Đ/s: 0,113. 83
Chƣơng 6 LÝ THUYẾT MẪU 6.1. KHÁI NIỆM VỀ PHƢƠNG PHÁP MẪU Trong thực tế chúng ta thƣờng phải nghiên cứu một tập hợp các phần tử đồng nhất theo một hay nhiều dấu hiệu định tính hay định lƣợng đặc trƣng cho các phần tử đó. Để nghiên cứu tập hợp các phần tử này theo một dấu hiệu nhất định, đôi khi ta sử dụng phƣơng pháp nghiên cứu toàn bộ, tức là thống kê toàn bộ tập hợp đó và phân tích từng phần tử theo dấu hiệu nghiên cứu. Ví dụ 1. Nghiên cứu dân số của một nƣớc theo các dấu hiệu nhƣ tuổi tác, trình độ văn hóa, địa bàn cƣ trú, cơ cấu nghề nghiệp, ... có thể tiến hành điều tra dân số và phân tích từng ngƣời theo các dấu hiệu trên từ đó tổng hợp thành dấu hiệu chung cho toàn bộ dân số của nƣớc đó. Tuy nhiên, trong thực tế việc áp dụng phƣơng pháp nghiên cứu toàn bộ sẽ gặp phải những khó khăn chủ yếu sau: Nếu quy mô tập hợp quá lớn thì việc nghiên cứu toàn bộ sẽ đòi hỏi nhiều chi phí vật chất, thời gian và đôi khi dẫn tới trùng hoặc bỏ sót các phần tử của nó; Có khi trong quá trình nghiên cứu các đối tƣợng đó bị thay đổi hình dạng, hoặc bị phá hủy, chúng không còn giá trị sử dụng nữa, hoặc chƣa có thể xác định đƣợc tất cả các đối tƣợng. Ví dụ 2. Kiểm tra chất lƣợng của một kho hàng có 106 sản phẩm, ta không thể kiểm tra tất cả 106 sản phẩm; Để xác định tổng số ngƣời còn mù chữ ở Việt Nam, ta không thể điều tra toàn bộ dân số Việt Nam; Để tìm hiểu tâm lý của những ngƣời mắc bệnh truyền nhiễm HIV, ta không thể tìm hiểu hết những ngƣời mắc bệnh HIV, vì còn một bộ phận những ngƣời mắc bệnh đó ta chƣa phát hiện ra. Vì thế, trong thực tế phƣơng pháp nghiên cứu toàn bộ thƣờng chỉ đƣợc áp dụng với các tập hợp có quy mô nhỏ. Đối với đối tƣợng nghiên cứu có số phần tử lớn ngƣời ta áp dụng phƣơng pháp nghiên cứu không toàn bộ, đặc biệt là phƣơng pháp nghiên cứu chọn mẫu (gọi là phương pháp mẫu). Phƣơng pháp này chủ trƣơng từ tập hợp nghiên 84
cứu chọn ra một số phần tử đại diện để nghiên cứu, khảo sát rồi từ đó trên cơ sở các phƣơng pháp suy luận toán học ngƣời ta rút ra những kết luận về các tính chất cần thiết của một dấu hiệu hay một đặc điểm của tập tất cả các đối tƣợng nói chung. Việc thu thập, sắp xếp và trình bày các số liệu của tổng thể hoặc một mẫu gọi là thống kê mô tả. Còn việc sử dụng thông tin của mẫu để tiến hành các suy đoán, kết luận về tổng thể gọi là thống kê suy diễn. Ví dụ 3. Muốn khảo sát chiều cao trung bình của thanh niên Việt Nam hiện nay có tăng lên so với trƣớc đây hay không, ta phải đo chiều cao của tất cả các thanh niên Việt Nam. Điều này tuy làm đƣợc nhƣng rõ ràng tốn rất nhiều thời gian, tiền bạc, công sức,… Do đó ta có thể khảo sát khoảng 1 triệu thanh niên và từ chiều cao trung bình của 1 triệu ngƣời này, ta suy ra chiều cao trung bình của toàn bộ thanh niên Việt Nam. 6.2. TỔNG THỂ VÀ MẪU Tập hợp có các phần tử là các đối tƣợng mang dấu hiệu X mà ta cần nghiên cứu đƣợc gọi là tổng thể. Số phần tử của tập hợp đó đƣợc gọi là kích thước của tổng thể, ký hiệu là N. Từ tổng thể ta chọn ra n phần tử thì n phần tử đó đƣợc gọi là một mẫu có kích thước n (gọi là cỡ mẫu). Kích thƣớc mẫu thƣờng nhỏ hơn rất nhiều so với kích thƣớc của tổng thể. Từ tổng thể ta có thể lấy ra nhiều mẫu khác nhau với cùng một kích thƣớc n. Tập hợp tất cả các mẫu có thể lấy ra đƣợc từ tổng thể đƣợc gọi là không gian mẫu. Ví dụ 1. Ở ví vụ 3, tổng thể là tất cả các thanh niên Việt Nam, kích thƣớc mẫu là 1 triệu thanh niên Việt Nam. Ví dụ 2. Cần đánh giá chất lƣợng của nhà máy bia Hà Nội sản xuất trong một tháng, ta không thể đem mở hết tất cả các chai bia để kiểm tra chất lƣợng, vì nếu làm nhƣ vậy thì không còn bia để bán mà chỉ mở một số chai bia nào đó, đánh giá chất lƣợng trên những chai bia đƣợc mở này để đƣa ra kết luận (mang tính tƣơng đối) cho chất lƣợng bia của toàn nhà máy. Số chai bia sản xuất trong một tháng là kích thƣớc tổng thể, số chai bia đƣợc mở là kích thƣớc mẫu. 85
Thay vì nghiên cứu tất cả các phần tử có mặt trong tổng thể ta chuyển sang nghiên cứu một bộ phận của tổng thể là mẫu, vì vậy mẫu phải đại diện một cách khách quan nhất cho tổng thể. Để đảm bảo yêu cầu trên ngƣời ta đƣa ra các phƣơng pháp chọn mẫu sau. 6.3. CÁC PHƢƠNG PHÁP CHỌN MẪU 6.3.1. Phƣơng pháp chọn mẫu có lặp. là phƣơng pháp ban đầu lấy ngẫu nhiên một phần tử từ tổng thể và nghiên cứu, khảo sát phần tử đó ghi nhận kết quả sau đó trả lại phần tử đó cho tổng thể rồi tiếp tục chọn phần tử thứ 2 từ tổng thể, nghiên cứu, khảo sát nó ghi nhận kết quả, rồi trả lại phần tử đó cho tổng thể, và cứ tiếp tục nhƣ thế cho đến khi chọn đƣợc phần tử thứ n. Cách chọn này có ƣu điểm là các phần tử chọn ra là một kết quả của các phép thử độc lập, thuận lợi cho việc xét các điều kiện trong các định lý toán học, nhƣng nó cũng có nhƣợc điểm là các phần tử trong mẫu có thể lặp lại làm cho kích thƣớc mẫu giảm và không thể áp dụng nếu trong trƣờng hợp quá trình nghiên cứu phần tử chọn ra bị phá hủy cấu trúc. 6.3.2. Phƣơng pháp chọn mẫu không lặp. Từ tập hợp cần nghiên cứu, rút ngẫu nhiên 1 phần tử, ghi lại các đặc số cần thiết từ phần tử này và không trả phần tử đó về tập hợp ban đầu. Tiếp tục lấy tiếp ngẫu nhiên lần sau. Ta nhận thấy rằng với kích thƣớc n, số lƣợng các mẫu trong trƣờng hợp lấy mẫu không lặp là A nN , số lƣợng các mẫu trong trƣờng hợp lặp là Nn. Khi N lớn hơn rất nhiều so với n thì A nN và Nn sai khác nhau không đáng kể vì vậy việc lấy mẫu có hoàn lại gần giống nhƣ việc lấy mẫu không hoàn lại. Ví dụ 3. Khi nghiên cứu về số cá trong một hồ thì tổng số cá trong hồ là kích thƣớc của tổng thể. Từ hồ đó chọn ngẫu nhiên 10 cá thể cá thì đƣợc mẫu không hoàn lại kích thƣớc 10. Nếu từ hồ đó chọn ngẫu nhiên 1 cá thể cá rồi thả xuống, sau đó tiếp tục chọn 1 cá thể khác, tiến hành 10 lần nhƣ thế ta đƣợc mẫu có hoàn lại kích thƣớc 10. 86
6.4. MẪU NGẪU NHIÊN VÀ MẪU CỤ THỂ Khi nghiên cứu về dấu hiệu X, X là ĐLNN tuân theo quy luật phân phối xác suất nào đó. Giả sử ta tiến hành n phép thử (quan sát) độc lập để xác định n giá trị của mẫu. Gọi Xi là ĐLNN ứng với giá trị sẽ thu đƣợc ở phép thử thứ i ( i  1,n ). Các ĐLNN Xi là độc lập với nhau và có cùng phân phối với X, sau khi thực hiện phép thử Xi nhận giá trị xi ( i  1,n ). 6.4.1. Định nghĩa. Một mẫu ngẫu nhiên có kích thƣớc n là n đại lƣợng ngẫu nhiên độc lập, có cùng phân phối xác suất với X, đƣợc ký hiệu là W = (X1, X2, ..., Xn). Thực hiện một phép thử đối với W = (X1, X2, ..., Xn) ta sẽ thu đƣợc một mẫu cụ thể (x1, x2, ..., xn). Nhƣ vậy mẫu cụ thể là một giá trị của mẫu ngẫu nhiên. 6.4.2. Các ví dụ Ví dụ 1. Khảo sát điểm thi môn Toán của một lớp. Ta tiến hành quan sát 5 sinh viên. Khi đó dấu hiệu X cần nghiên cứu là điểm môn Toán của sinh viên, X là một ĐLNN. Gọi Xi là điểm Toán của sinh viên thứ i (i = 1,…, 5), Xi là các ĐLNN có cùng phân phối với X. Khi đó W = (X1, X2, X3, X4, X5 ) là mẫu ngẫu nhiên có kích thƣớc 5. Trong một lần quan sát mẫu ngẫu nhiên W, sinh viên thứ nhất đƣợc 5 điểm, sinh viên thứ hai đƣợc 7 điểm, sinh viên thứ ba đƣợc 4 điểm, sinh viên thứ tƣ đƣợc 6 điểm, sinh viên thứ năm đƣợc 5 điểm. Khi đó w = (x1, x2, …, xn) = (5, 7, 4, 6, 5) là giá trị cụ thể (hay còn gọi là một mẫu cụ thể) của mẫu ngẫu nhiên W = (X1, X2, X3, X4, X5 ). Ví dụ 2. Gọi X là ĐLNN chỉ "số sản phẩm làm ra của một tổ sản xuất của nhà máy A trong một tháng". X1, X2, X3 lần lƣợt là ĐLNN chỉ "sản lƣợng của tổ 1, 2, 3". Khi đó ta có mẫu ngẫu nhiên kích thƣớc n = 3 là W = (X 1, X2, X3),   tập w   x1 , x 2 , x3  x i  Xi ,i  1,3 là các giá trị của mẫu ngẫu nhiên W. Chẳng hạn nhƣ w = (40, 30, 60) là một giá trị cụ thể của mẫu W = (X1, X2, X3), hay là một mẫu cụ thể. 87
Ví dụ 3. Khi nghiên cứu chiều cao của một cộng đồng ngƣời, gọi X là ĐLNN chỉ chiều cao. Ta chọn ngẫu nhiên 100 ngƣời, gọi Xi là ĐLNN chỉ chiều cao của ngƣời thứ i ( i  1,100 ). Xi là một ĐLNN, nó có cùng phân phối với X. Khi đó W = (X1, X2, ..., X100) là một mẫu ngẫu nhiên có kích thƣớc 100. Sau khi đo đạc rồi, ta sẽ xác định đƣợc các giá trị của Xi là xi ( i  1,100 ), khi đó bộ n số thực w = (x1, x2, ..., x100) là một mẫu cụ thể. 6.5. CÁC PHƢƠNG PHÁP SẮP XẾP MẪU CỤ THỂ Để nghiên cứu dấu hiệu X từ tổng thể ta rút ra mẫu ngẫu nhiên có kích thƣớc n là W = (X1, X2, ..., Xn). Trong một lần thực hiện phép thử mẫu ngẫu nhiên W ta đƣợc mẫu cụ thể w = (x1, x2, ..., xn), để khai thác thông tin chứa đựng trong dãy số liệu này ta cần sắp xếp số liệu nhằm dễ dàng nhận ra các đặc trƣng của dãy số liệu đó. 6.5.1. Sắp xếp theo bộ số tăng dần hoặc giảm dần Trong trƣờng hợp mẫu có kích thƣớc n nhỏ, ngƣời ta thƣờng sắp xếp các giá trị trong mẫu theo một bộ số khắc có giá trị tăng dần từ nhỏ đến lớn hay từ lớn đến nhỏ, dƣới dạng (x1, x2, ..., xn) với x1  x2  ...  xn hay x1  x2  ...  xn. 6.5.2. Sắp xếp theo bảng phân phối tần số, tần suất thực nghiệm 6.5.2.1. Bảng phân phối tần số, tần suất thực nghiệm không chia lớp Giả sử trong n giá trị của mẫu cụ thể w = (x1, x2, ..., xn) có k giá trị phân biệt, không mất tính tổng quát ta giả thiết k giá trị đó là x1< x2 < ...< xk, trong đó x1 có số lần lặp lại là n1, x2 có số lần lặp lại là n2, ..., xk có số lần lặp lại là nk. Số ni gọi là tần số của giá trị xi. Khi đó các số liệu của mẫu cụ thể đƣợc sắp xếp dƣới dạng bảng sau đây gọi là bảng phân phối tần số. Giá trị xi x1 x2 … xk Tần số ni n1 n2 … nk trong đó n1  n 2  ...  n k  n . Hay theo bảng 88
Giá trị xi x1 x2 … xk Tần suất fi f1 f2 … fk n trong đó fi  i (i  1, k) gọi là tần suất của giá trị xi. Bảng trên gọi n là bảng phân phân phối tần suất. Ví dụ 1. Khảo sát ngẫu nhiên thu nhập của 30 ngƣời trong một công ty ta có số liệu (đơn vị: triệu đồng/tháng): 2; 3; 4; 2; 5; 4; 6; 3; 6; 6; 5; 7; 2; 4; 8; 9; 10; 8; 9; 8; 8; 7; 5; 6; 3; 3; 9; 5; 7; 10. Sắp xếp số liệu lại ta có bảng phân phối tần số: xi 2 3 4 5 6 7 8 9 10 ni 3 4 3 4 4 3 4 3 2 Hay bảng phân phối tần suất: xi 2 3 4 5 6 7 8 9 10 fi 3/20 4/20 3/20 4/20 4/20 3/20 4/20 3/20 2/20 6.5.2.2. Bảng phân phối tần số, tần suất thực nghiệm chia lớp Trong trƣờng hợp mẫu có nhiều phần tử, các giá trị của các phần tử chênh lệch nhau không nhiều, để thuận tiện cho việc tính toán ta phân miền giá trị của mẫu thành k lớp (có thể chia đều hoặc không đều nhau): [a0, a1), [a1, a2), ..., [ak, ak+1) và trong các khoảng có các tần số tƣơng ứng là ni, i  1,k . Khi đó mẫu đƣợc sắp xếp theo bảng sau: Giá trị xi [a0, a1) [a1, a2) … [ak-1, ak) Tần số ni n1 n2 … nk gọi là bảng phân phối tần số phân lớp. Khi đó đối với mỗi khoảng, ta thay bởi 1 điểm đại diện, thông thƣờng ngƣời ta lấy điểm giữa của khoảng. Từ đó ta có bảng rút gọn: Giá trị xi x1 x2 … xk Tần số ni n1 n2 … nk 89
a i 1  a i trong đó: x i  , i  1, k. 2 Và từ đó ta cũng suy ra đƣợc bảng phân phối tần suất phân lớp: Giá trị xi [a0, a1) [a1, a2) … [ak-1, ak) Tần suất ni f1 f2 … fk và bảng phân phối tần suất phân lớp rút gọn: Giá trị xi x1 x2 … xk Tần suất fi f1 f2 … fk Ví dụ 2. Điều tra Glucoza trong máu ở 100 ngƣời, ta thu đƣợc kết quả nhƣ sau: Khoảng GLucoza 65-80 80-95 95-110 110-125 125-140 Số ngƣời 16 34 33 9 8 Ta có bảng phân phối tần số rút gọn: Khoảng GLucoza 72,5 87,5 102,5 117,5 132,5 Số ngƣời 16 34 33 9 8 6.6. CÁC ĐẶC TRƢNG MẪU 6.6.1. Hàm mẫu (thống kê). Hàm G = G(X1, X2, ..., Xn) với (X1, X2, ..., Xn) là một mẫu ngẫu nhiên gọi là một hàm mẫu hay một thống kê. Vì mẫu (X1, X2, ..., Xn) là một ĐLNN nên thống kê G = G(X1, X2, ..., Xn) cũng là một ĐLNN. Với mẫu cụ thể (x1, x2, ..., xn) của mẫu ngẫu nhiên (X1, X2, ..., Xn) thì thống kê G = G(X1, X2, ..., Xn) cũng có một giá trị g = G(x1, x2, ..., xn). Phân phối xác suất của thống kê G(X1, X2, ..., Xn) phụ thuộc vào phân phối xác suất của ĐLNN X ở tổng thể. 6.6.2. Trung bình mẫu, phƣơng sai mẫu, phƣơng sai mẫu điều chỉnh 6.6.1.1. Trung bình mẫu (Kỳ vọng mẫu) 90
a. Định nghĩa. Cho mẫu ngẫu nhiên W = (X1, X2, ..., Xn) của 1 n ĐLNN X, khi đó thống kê X   Xi gọi là trung bình mẫu hay kỳ n i=1 vọng mẫu của X. Giả sử mẫu cụ thể (x1, x2, ..., xn) là một giá trị của mẫu ngẫu nhiên 1 n (X1, X2, ..., Xn), khi đó thống kê X   Xi cũng có một giá trị tƣơng n i=1 1 n ứng đó là: x   xi . n i=1 b. Cách tính giá trị trung bình mẫu Giả sử các số liệu của mẫu cụ thể (x1, x2, ..., xn) đƣợc sắp xếp dƣới dạng bảng phân phối tần số: Giá trị xi x1 x2 … xk Tần số ni n1 n2 … nk k trong đó n i 1 i  n1  n 2  ...  n k  n . Khi đó trung bình mẫu (kỳ vọng mẫu) đƣợc xác định nhƣ sau: 1 k x   nixi. n i1 6.6.1.2. Phương sai mẫu a. Định nghĩa. Cho mẫu ngẫu nhiên W = (X1, X2, ..., Xn) của 1 n  1 n ĐLNN X, khi đó thống kê S2   Xi -X =  Xi2  X đƣợc gọi  2 2 n i =1 n i =1 là phương sai mẫu của X. Giả sử mẫu cụ thể (x1, x2, ..., xn) là một giá trị của mẫu ngẫu nhiên (X1, X2, ..., Xn), khi đó thống kê S2 cũng có một giá trị tƣơng ứng đó 1 n  1 n 2  là: s   x i -x =  x i  x . 2 2 2 n i =1 n i =1 b. Cách tính giá trị phương sai mẫu 91
Giả sử các số liệu của mẫu cụ thể (x1, x2, ..., xn) đƣợc sắp xếp dƣới dạng bảng phân phối tần số: Giá trị xi x1 x2 … xk Tần số ni n1 n2 … nk k trong đó n i 1 i  n1  n 2  ...  n k  n . Khi đó phƣơng sai mẫu đƣợc xác định nhƣ sau: 1 k s 2   n i x i2  x . 2 n i1 6.6.1.3. Phương sai mẫu điều chỉnh Cho mẫu ngẫu nhiên W = (X1, X2, ..., Xn) của ĐLNN X, khi đó 1 n    2 2 thống kê S  Xi  X đƣợc gọi là phương sai mẫu điều n  1 i =1 chỉnh. 1 n   2  2 2 Với mẫu cụ thể, thống kê S có giá trị là s  xi  x . n  1 i =1 2 Ta có thể tính s theo công thức: s  n s 2 . 2 n 1 Thống kê S = S2 gọi là độ lệch tiêu chuẩn mẫu. 2 Thống kê S  S gọi là độ lệch tiêu chuẩn mẫu điều chỉnh . Ví dụ 1. Số xe hơi bán đƣợc trong 1 tuần ở mỗi đại lý trong 45 đại lý, cho bởi bảng sau: Số xe hơi bán đƣợc trong tuần (xi) 1 2 3 4 5 6 Số đại lý bán (ni) 15 12 9 5 3 1 Gọi X là số xe hơi bán đƣợc trong 1 tuần. Tính số xe hơi bán đƣợc trung bình mẫu và phƣơng sai mẫu. 6 Giải: Ta có n   n i  45. i 1 Số xe hơi bán đƣợc trung bình trong tuần là: 92
1 6 x   n i x i  1.15  2.12  3.9  4.5  5.3  6.1  2,378. 1 n i1 45 Phƣơng sai mẫu là: 1 6 s   n i x i2  x 2 2 n i1  15.12  12.22  9.32  5.42  3.52  1.62   2,382  1,791. 1 45 Ví dụ 2. Xét kết quả điều tra Glucoza trong máu ở 100 ngƣời ở ví dụ 2, mục 6.5. Gọi X là lƣợng Glocoza trong máu. Tính lƣợng Glucoza trung bình mẫu và bình phƣơng độ lệch mẫu. xi ni xini x i2 n i 72,5 16 1160.00 84100.00 87,5 34 2975.00 260312.50 102,5 33 3382.50 346706.25 117,5 9 1057.50 124256.25 132,5 8 1060.00 140450.00 Tổng 100 9635.00 955825.00 1 5 9635 Giải: Trung bình mẫu là: x   n i1 ni xi  100  96,35 . Phƣơng sai mẫu là: 1 5 955825 s   n i x i2  x  2 2  (96,35)2  274,928. n i1 100 6.7. LUẬT PHÂN PHỐI CỦA CÁC ĐẶC TRƢNG MẪU Trên tổng thể , cho ĐLNN gốc X có kỳ vọng E(X) =  và phƣơng sai D(X) = 2. Cho mẫu ngẫu nhiên (X1, X2, ..., Xn), dựa vào kỳ vọng và phƣơng sai của các đặc trƣng mẫu, dựa vào các tính chất của phân phối chuẩn, phân phối khi bình phƣơng, phân phối Student và dựa vào các định lý giới hạn, ta có thể suy ra phân phối của các đặc trƣng mẫu sau đây: 6.7.1. Phân phối của phƣơng sai mẫu điều chỉnh 93
Định lý. Nếu ĐLNN X có phân phối chuẩn N(, 2) và (X1, X2, ..., Xn) là một mẫu ngẫu nhiên thì: 1 n n 2  (Xi  )2 2 (n) và 2 S2  2 (n  1) .  i 1  6.7.2. Phân phối của trung bình mẫu Vì quy luật phân phối xác suất của X phụ thuộc vào kích thƣớc mẫu n của mẫu ngẫu nhiên (X1, X2, ..., Xn) và phƣơng sai của tổng thể D(X) = 2 đã biết hay chƣa biết nên ta chia thành các trƣờng hợp sau: 6.7.2.1. Trường hợp n > 30, phương sai 2 đã biết Theo kết quả của định lý giới hạn trung tâm, khi kích thƣớc mẫu 2 n > 30, trung bình mẫu X có thể xấp xỉ phân phối chuẩn N(, ) . n Do đó ta có: X  Z n N(0,1) .  6.7.2.2. Trường hợp n  30, X  N(, 2), phương sai 2 đã biết Vì X  N(, 2) nên các ĐLNN của mẫu ngẫu nhiên (X1, X2, ..., Xn) cũng có phân phối chuẩn, có nghĩa là Xi  N(, 2),  i  1, n . Do đó: 2 X  X N(,) hay Z  n N(0,1) . n  6.7.2.3. Trường hợp n > 30, phương sai 2 chưa biết Khi n > 30, ta có thể xấp xỉ S  , do đó: X  X  Z n n  1 N(0,1) . S S 6.7.2.4. Trường hợp n  30, X  N(, 2), phương sai 2 chưa biết X  Nếu X  N(, 2) thì ĐLNN Z  n 1 T(n  1) có phân S phối Student với n – 1 bậc tự do. 94
BÀI TẬP CHƢƠNG 6 Bài 6.1. Hãy tính trung bình mẫu, phƣơng sai mẫu, độ lệch chuẩn mẫu của các mẫu cụ thể chi ở bảng dƣới đây: a. xi - 2 1 2 3 4 5 ni 2 1 2 2 2 1 b. xi 4 7 8 12 ni 5 2 3 10 c. xi 12 13 15 17 18 20 ni 2 5 8 4 4 2 d. xi 21 24 25 26 28 32 34 ni 10 20 30 15 10 10 5 e. xi 3,0 3,5 3,8 4,4 4,5 ni 2 6 9 7 1 f. xi 18,6 19,0 19,4 19,8 20,2 20,6 ni 4 6 30 40 18 2 g. xi 65 70 75 80 85 ni 2 5 25 15 3 Đ/s: a. x = 2; s2 = 5,2; s = 2,404. b. x = 8,9; s2 = 11,29; s = 3,447. c. x = 15,56; s2 = 5,286; s = 2,347. d. x = 26; s2 = 10,8; s = 3,303. e. x = 3,86; s2 = 0,19; s = 0,444. f. x = 19,672; s2 = 0,169; s = 0,413. 95
g. x = 76,2; s2 = 18,56; s = 4,352. Bài 6.2. Cho 8 kết quả đo đạc về một ĐLNN X bởi cùng một máy không có sai số hệ thống: 396, 378, 315, 420, 385, 401, 372, 383. Tính trung bình mẫu, phƣơng sai mẫu và độ lệch tiêu chuẩn điều chỉnh. Đ/s: x = 381,25; s2 = 826,438; s = 30,733. Bài 6.3. Đo chiều cao của 100 sinh viên ở cùng một trƣờng đại học ngƣời ta thu đƣợc bảng số liệu sau: Chiều cao (cm) Số sinh viên 154-158 10 158-162 14 162-166 26 166-170 28 170-174 8 174-178 2 178-182 12 Tính chiều cao trung bình và độ lệch tiêu chuẩn điều chỉnh của chiều cao qua mẫu nói trên. Đ/s: x = 166,56; s = 6,763. Bài 6.4. Các kết quả về việc đo độ bền các sợi chỉ ta thu đƣợc bảng số liệu sau dƣới đây: Độ bền của sợi chỉ Số sợi chỉ 120-140 1 140-160 4 160-180 10 180-200 14 200-220 12 220-240 6 240-260 2 260-280 1 96
Tính độ bền trung bình mẫu, phƣơng sai mẫu và độ lệch chuẩn mẫu của mẫu nói trên. Đ/s: x = 195,2; s2 = 812,96 ; s = 28,513. Bài 6.5. Để xác định độ chính xác của một chiếc cân tạ không có sai số hệ thống, ngƣời ta tiến hành cân 5 lần cân độc lập (cùng một vật), kết quả nhƣ sau: 94,1; 94,8; 96,0; 95,4; 95,2 (kg). Xác định trung bình mẫu, phƣơng sai mẫu và độ lệch chuẩn mẫu của mẫu trên. Bài 6.6. Lấy ngẫu nhiên 100 thanh niên ở một tỉnh đem đo chiều cao ta thu đƣợc các số liệu sau: Chiều cao (cm) Số thanh niên (ni) 154-158 10 158-162 14 162-166 26 166-170 28 170-174 12 174-178 8 178-182 2 Gọi X là chiều cao thanh niên. Hãy xác định trung bình mẫu, phƣơng sai mẫu. Bài 6.7. Để điều tra năng suất lúa của một huyện nào đó, ta gặt ngẫu nhiên 365 điểm trồng lúa của huyện thu đƣợc các kết quả sau: Năng suất 25 30 33 34 35 36 37 39 40 (tạ/ha) Điểm gặt (ni) 6 13 38 74 106 85 30 10 3 Gọi X là năng suất lúa trên một ha canh tác. Hãy xác định năng suất trung bình, độ phân tán của năng suất. Bài 6.8. Theo dõi doanh thu của 25 của hàng bán lẻ cùng một mặt hàng thu đƣợc kết quả sau: 97