PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC Phạm Văn HuấnTừ khóa: Đại lượng

Chia sẻ: Nguyen Nhi | Ngày: | Loại File: PDF | Số trang:0

Thêm vào BST

Báo xấu

90
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC Phạm Văn Huấn Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin cậy, khoảng tin cây, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ, phân tích điều hòa, là trơn, chu trình tuần hoàn, trung bình trượt. Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân. Nghiêm cấm mọi hình thức sao...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC Phạm Văn HuấnTừ khóa: Đại lượng

PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC Phạm Văn Huấn Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin cậy, khoảng tin cây, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ, phân tích điều hòa, là trơn, chu trình tuần hoàn, trung bình trượt. Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân. Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất bản và tác giả.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Lời nói đầu Giáo trình “Phương pháp thống kê trong hải dương học” phục vụ cho môn học cùng tên với thời lượng hai tín chỉ trong chương trình đào tạo cử nhân ngành hải dương học ở Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Phạm Văn Huấn Sách chọn giới thiệu một cách tóm tắt những khái niệm, phương pháp cơ bản của lý thuyết thống kê toán học hay được sử dụng trong phân tích số liệu quan trắc hải dương học và được sắp xếp thành năm chương theo nhóm vấn đề. Đầu mỗi chương thường ôn lại những khái PHƯƠNG PHÁP THỐNG KÊ niệm và công thức cơ bản từ toán học thống kê, sau đó giới thiệu sự ứng dụng thông qua các thí dụ để rèn luyện thói quen hiểu ý nghĩa thực tế của TRONG HẢI DƯƠNG HỌC khái niệm và kỹ năng thực hành tính toán cụ thể của sinh viên. Cuối mỗi chương có phụ lục gồm các đoạn mã chương trình máy tính chính là nhằm mục đích đó. Những thí dụ ứng dụng phương pháp thống kê trong hải dương học chưa bao quát hết những vấn đề hải dương học thống kê, mới chỉ giới thiệu ở mức độ giúp cho sinh viên bước đầu biết áp dụng các khái niệm và phương pháp, tính toán đúng theo các công thức liên quan, chưa giành chú ý nhiều đến cách đặt vấn đề, lý giải kết quả phân tích và ý nghĩa thực tế của mỗi bài toán. Nội dung sách cũng chưa bao gồm những kết quả nghiên cứu biển và đại dương theo hướng thống kê trong hải dương học trên thế giới và ở Việt Nam. Sinh viên ngành hải dương học sẽ thấy những khía cạnh này trong các môn học cơ sở khác của ngành như hải dương học khu vực, thông tin và dự báo khí tượng thủy văn biển, thủy triều, sóng... và các bài báo khoa học, sách chuyên khảo về biển. Nhà xuất bản Đại học Quốc gia Hà Nội - 2010 Tác giả
3.3. Phép là trơn các mối phụ thuộc thực nghiệm bằng phương pháp bình phương nhỏ nhất......................................................................... 41 MỤC LỤC Phụ lục chương 3 ................................................................................ 49 Chương 4. Những khái niệm cơ bản của lý thuyết hàm ngẫu nhiên và ứng dụng ........................................................................................... 51 Chương 1. Khái niệm về đại lượng ngẫu nhiên ................................... 3 4.1. Các đặc trưng của hàm ngẫu nhiên............................................. 51 1.1. Những đại lượng ngẫu nhiên và luật phân bố ............................... 3 4.2. Khái niệm về hàm ngẫu nhiên dừng ........................................... 52 1.2. Quy luật phân bố chuẩn................................................................. 7 4.3. Tính chất egođic của những hàm ngẫu nhiên dừng .................... 53 Phụ lục chương 1................................................................................ 10 4.4. Xác định các đặc trưng của hàm ngẫu nhiên dừng egođic theo Chương 2. Những khái niệm cơ bản của lý thuyết xử lý số liệu quan một hiện .............................................................................................. 53 trắc .......................................................................................................... 13 4.5. Khai triển phổ hàm ngẫu nhiên dừng trên khoảng thời gian hữu 2.1. Hàm phân bố thống kê ............................................................... 13 hạn ...................................................................................................... 54 2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê............. 15 2.2.1. Tiêu chuẩn χ 2 ................................................................... 15 Phụ lục chương 4 ................................................................................ 61 Chương 5. Ứng dụng lý thuyết hàm ngẫu nhiên vào phân tích số liệu 2.2.2. Sơ đồ ứng dụng tiêu chuẩn χ 2 để đánh giá sự phù hợp .... 18 hải dương học ........................................................................................ 63 2.2.3. Tiêu chuẩn phù hợp của Kolmogorov................................ 19 5.1. Phân tích chuỗi thời gian trong hải dương học........................... 63 2.3. Khái niệm về ước lượng tham số của phân bố ........................... 20 5.1.1. Phân tích các chu trình tuần hoàn....................................... 64 2.4. Ước lượng của kỳ vọng toán học và phương sai........................ 20 5.1.2. Xác định các chu trình tuần hoàn bằng phương pháp phân 2.5. Khoảng tin cậy và xác suất tin cậy ............................................. 20 tích điều hòa .................................................................................. 65 2.5.1. Khoảng tin cậy đối với kỳ vọng toán học .......................... 22 5.2. Phổ phương sai của chuỗi thời gian............................................ 68 2.5.2. Khoảng tin cậy đối với phương sai .................................... 23 5.3. Loại bỏ chu trình tuần hoàn khỏi chuỗi thời gian....................... 69 2.5.3. Những phương pháp chính xác dựng khoảng tin cậy cho các 5.3.1. Loại bỏ chu trình tuần hoàn bằng phân tích điều hòa......... 69 tham số của đại lượng ngẫu nhiên phân bố chuẩn......................... 25 5.3.2. Loại bỏ biến trình năm từ chuỗi quan trắc năm.................. 71 2.6. Ước lượng xác suất theo tần suất ................................................ 30 5.3.3. Loại bỏ chu trình tuần hoàn và phân tích các chu trình Phụ lục chương 2................................................................................ 34 không tuần hoàn trong thực tế xử lý số liệu .................................. 71 Chương 3. Khái niệm về hệ các đại lượng ngẫu nhiên và ứng dụng 5.4. Hàm tương quan và hàm phổ đối với chuỗi thời gian các yếu tố ................................................................................................................. 37 hải dương học ..................................................................................... 73 3.1. Hệ các đại lượng ngẫu nhiên ...................................................... 37 Phụ lục chương 5 ................................................................................ 75 3.2. Các đặc trưng số của hệ hai đại lượng ngẫu nhiên. Mô men tương Tài liệu tham khảo ................................................................................... 77 quan. Hệ số tương quan...................................................................... 39 3 4
ngẫu nhiên liên tục thường có xác suất bằng không, nên người ta cho phân bố bằng hàm phân bố F ( x) : F ( x) = P ( X < x ) (1.1) Người ta còn gọi F ( x) là hàm phân bố tích phân hay luật phân bố tích phân. Chương 1 Hàm phân bố là đặc trưng vạn năng nhất của đại lượng ngẫu nhiên. KHÁI NIỆM VỀ ĐẠI LƯỢNG NGẪU NHIÊN Nó tồn tại cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục. Hàm phân bố có tính chất là hàm không giảm, tức F ( x 2 ) ≥ F ( x1 ) nếu x 2 > x1 , bằng không ở âm vô cùng (F ( −∞) = 0 ) và bằng một ở dương vô cùng 1.1. Những đại lượng ngẫu nhiên và luật phân bố (F (+∞) = 1) . Đại lượng ngẫu nhiên là đại lượng mà trong thử nghiệm có thể nhận Hàm phân bố của đại lượng ngẫu nhiên rời rạc bất kỳ luôn luôn là một giá trị nào đó không biết trước cụ thể. Những giá trị có thể có của đại một hàm bậc thang gián đoạn. Trong thực tế thông thường hàm phân bố lượng ngẫu nhiên rời rạc có thể được kể ra từ trước. Những giá trị có thể của đại lượng ngẫu nhiên liên tục là hàm liên tục. có của đại lượng ngẫu nhiên liên tục không thể kể ra trước được và chúng Khi giải những bài toán thực tế nhiều khi đòi hỏi tính xác suất của phân bố liên tục trên một khoảng nào đó. sự kiện đại lượng ngẫu nhiên rơi vào khoảng giá trị từ x đến x + Δx : Đối với đại lượng ngẫu nhiên rời rạc X , nếu ta biết xác suất P của P ( x < X < x + Δx) = F ( x + Δx) − F ( x) từng giá trị có thể có của nó x1 , x 2 , ..., x n , tức biết P ( X = x1 ) = p1 ; P ( X = x 2 ) = p 2 ; ...; P ( X = xn ) = pn ; hoặc xác suất trung bình đối với một đơn vị độ dài trong khoảng giá trị đó ⎛n ⎞ ⎜ ∑ pi = 1⎟ F ( x + Δx) − F ( x) ⎝ i =1 ⎠ . Δx thì ta nói rằng đại lượng ngẫu nhiên ấy hoàn toàn đã được xác định về Nếu Δx → 0 thì phương diện xác suất. Mối liên hệ giữa các giá trị có thể có của đại lượng F ( x + Δx) − F ( x) = F ′( x) = f ( x) . ngẫu nhiên và những xác suất tương ứng của chúng được gọi là luật phân lim Δx→0 (1.2) Δx bố của đại lượng ngẫu nhiên. Luật phân bố có thể được cho bởi bảng Hàm f ( x) (đạo hàm của hàm phân bố) đặc trưng cho mật độ mà phân bố hoặc đa giác phân bố. các giá trị của đại lượng ngẫu nhiên phân bố ở điểm đã cho. Hàm này Đối với đại lượng ngẫu nhiên liên tục, chúng ta không thể kể ra hết được gọi là mật độ phân bố (hay “mật độ xác suất”) của đại lượng ngẫu tất cả các giá trị có thể có, hơn nữa từng giá trị riêng biệt của đại lượng 5 6
nhiên. Đôi khi người ta còn gọi hàm f ( x) là hàm phân bố vi phân hoặc x1 , x 2 , ..., x n với xác suất p1 , p 2 , ..., p n thì kỳ vọng toán học của đại luật phân bố vi phân của đại lượng ngẫu nhiên liên tục X . lượng ngẫu nhiên sẽ bằng Xác suất giá trị của đại lượng ngẫu nhiên X rơi vào khoảng từ α n ∑x p đến β sẽ bằng x p + x 2 p 2 + ... + x n p n i i n m x = M[ X ] = 1 1 = ∑ xi p i . (1.5) = i =1 β p1 + p 2 + ... + p n n ∑p P (α < X < β ) = ∫ f ( x)dx i =1 (1.3) i i =1 α Như vậy, kỳ vọng toán học của đại lượng ngẫu nhiên là tổng của các Có thể biểu thị hàm mật độ phân bố qua hàm phân bố bằng công tích của tất cả các giá trị có thể có của đại lượng ngẫu nhiên với những thức (1.2). Ngược lại, có thể biểu thị hàm phân bố qua hàm mật độ xác suất của các giá trị ấy. x ∫ f ( x)dx . F ( x) = (1.4) Kỳ vọng toán học có liên quan với trung bình số học. Giả sử chúng ta thực hiện N thí nghiệm độc lập, trong mỗi lần thí nghiệm đại lượng −∞ Mật độ phân bố là hàm không âm ( f ( x) ≥ 0) , tích phân của hàm X nhận giá trị xác định: giả sử giá trị x1 xuất hiện m1 lần, giá trị x2 ∞ xuất hiện m2 lần, nói chung, giá trị xi xuất hiện mi lần. Công thức tính ∫ f ( x) dx = 1). Như vậy, mật độ với các giới hạn vô cùng bằng một ( trung bình số học các giá trị quan trắc đại lượng X sẽ là −∞ x1 m1 + x 2 m 2 + ... + x n m n x1 m1 + x 2 m 2 + ... + x n m n đường cong phân bố luôn luôn nằm trên trục hoành, diện tích đầy đủ giới M ∗[ X ] = = m1 + m 2 + ... + m n hạn bởi đường cong phân bố và trục hoành bằng một. N Thứ nguyên của hàm phân bố F ( x) giống như xác suất không có m m m1 m n n + x 2 2 + ... + x n n = ∑ xi i = ∑ xi p i* . = x1 (1.6) thứ nguyên, thứ nguyên của mật độ phân bố f ( x) nghịch đảo với thứ N N N N i =1 i =1 nguyên của đại lượng ngẫu nhiên. mi trong đó pi∗ = là tần suất (hay xác suất thống kê). Trong nhiều vấn đề thực tế, không nhất thiết phải đặc trưng đại N lượng ngẫu nhiên một cách đầy đủ bằng hàm phân bố F ( x) mà chỉ cần Như vậy, trung bình số học của các giá trị quan trắc của đại lượng chỉ ra những tham số bằng số riêng biệt ở mức độ nào đó đặc trưng cho ngẫu nhiên bằng tổng của các tích của tất cả các giá trị có thể có của đại những nét chủ yếu của đại lượng ngẫu nhiên. Đó là những đặc trưng số lượng ngẫu nhiên với tần suất của những giá trị đó. của đại lượng ngẫu nhiên: Đối với đại lượng ngẫu nhiên liên tục X kỳ vọng toán học tính theo 1) Kỳ vọng toán học (giá trị trung bình) của đại lượng ngẫu nhiên: công thức Nếu đại lượng ngẫu nhiên rời rạc X có các giá trị có thể có 7 8
∞ 4) Các mô men: m x = M[ X ] = ∫ x f ( x) dx . (1.7) Mô men gốc bậc s của đại lượng ngẫu nhiên rời rạc X là tổng −∞ dạng 2) Mốt của đại lượng ngẫu nhiên là giá trị hay xảy ra nhất của nó. n α s [X ] = ∑ xis p i . Cụm từ “hay xảy ra nhất” chỉ hoàn toàn chính xác đối với các đại lượng (1.8) ngẫu nhiên rời rạc, đối với đại lượng ngẫu nhiên liên tục thì mốt là giá trị i =1 mà tại đó mật độ xác suất cực đại. Người ta ký hiệu mốt bằng chữ M. Đối với đại lượng ngẫu nhiên liên tục X , mô men gốc bậc s là tích Trên hình 1.1 biểu diễn mốt của các đại lượng ngẫu nhiên rời rạc và liên phân tục. ∞ α s [X ] = ∫x s f ( x) dx . (1.9) pi −∞ f(x) Từ các công thức (1.8) và (1.9) thấy rằng kỳ vọng toán học chính là mô men gốc bậc một. Các công thức (1.8) và (1.9) có thể thống nhất thành một công thức chung cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục là x x α s [X ] = M [X s ]. M 0 0 M (1.10) Hình 1.1. Biểu diễn mốt của các đại lương ngẫu nhiên rời rạc và liên tục Như vậy, mô men gốc bậc s của đại lượng ngẫu nhiên X là kỳ vọng toán học của mũ bậc s của đại lượng ngẫu nhiên đó. Trong trường hợp tổng quát thì mốt và kỳ vọng toán học của đại o lượng ngẫu nhiên không trùng nhau. Khi nào phân bố là đối xứng và có 5) Đại lượng ngẫu nhiên X nhận được bằng công thức mốt (tức có một mốt) và tồn tại kỳ vọng toán học thì kỳ vọng toán học o X = X − mx (1.11) trùng với mốt và tâm đối xứng của phân bố. gọi là đại lượng ngẫu nhiên quy tâm tương ứng của đại lượng X . Dễ 3) Trung vị của đại lượng ngẫu nhiên (thường chỉ dùng cho đại dàng thấy rằng kỳ vọng toán học của đại lượng ngẫu nhiên quy tâm bằng lượng liên tục) là giá trị Me của nó sao cho P( X < Me) = P( X > Me) . không. Các mô men của đại lượng ngẫu nhiên quy tâm được gọi là các mô Trên đồ thị phân bố, trung vị là hoành độ của điểm mà diện tích giới men tâm. Mô men tâm bậc s của đại lượng ngẫu nhiên X là kỳ vọng hạn bởi đường cong phân bố bị chia làm đôi. Trong trường hợp phân bố toán học của luỹ thừa bậc s của đại lượng ngẫu nhiên quy tâm tương ứng đối xứng có mốt thì trung vị trùng với kỳ vọng toán học và mốt. 9 10
[ ] ⎡ ⎤ o nhiên rời rạc và liên tục tuần tự là: μ s [X ] = M ⎢ X s ⎥ = M ( X − m x ) s . (1.12) n ⎣ ⎦ D [ X ] = ∑ ( xi − m x ) p i , 2 (1.17) Đối với đại lượng ngẫu nhiên rời rạc: i =1 ∞ n ∫ (x − m ) μ s = ∑ (xi − m x ) pi , s 2 D[ X ] = f ( x) dx . (1.13) (1.18) x i =1 −∞ còn đối với đại lượng ngẫu nhiên liên tục: Phương sai của các đại lượng ngẫu nhiên là đặc trưng phân tán, tản mạn của những giá trị đại lượng ngẫu nhiên xung quanh kỳ vọng toán ∞ ∫ (x − m ) μs = s f ( x) dx . (1.14) học của nó. x −∞ 7) Phương sai có thứ nguyên bình phương của đại lượng ngẫu nhiên. Rõ ràng đối với đại lượng ngẫu nhiên bất kỳ mô men tâm bậc một Để đặc trưng rõ hơn độ tản mạn người ta dùng một đại lượng có thứ bằng không. nguyên trùng với thứ nguyên của đại lượng ngẫu nhiên gọi là độ lệch bình phương trung bình σ [ X ] (hay ký hiệu bằng σ x ): Tồn tại những công thức liên hệ giữa các mô men tâm và gốc như sau: σ [ X ] = D[ X ] . (1.19) μ1 = 0, ⎫ ⎪ Phương sai và độ lệch bình phương trung bình có thể tính theo mô μ 2 = α 2 − mx , 2 ⎪ men gốc bậc hai α 2 và kỳ vọng toán học bằng các công thức: 3⎬ (1.15) μ 3 = α 3 − 3m xα 2 + 2m x ,⎪ Dx = α 2 − mx , ⎫ 2 .................................... ⎪ ⎪ ⎭ ⎬ (1.20) σ x = Dx = α 2 − mx . ⎪ 2 ⎭ 6) Mô men tâm bậc hai là đặc trưng đặc biệt quan trọng trong số các 8) Mô men tâm bậc ba μ 3 dùng để đặc trưng tính bất đối xứng của mô men khác, được ký hiệu là D [ X ] (hoặc Dx ) và thường gọi là phân bố. Nếu phân bố đối xứng đối với kỳ vọng toán học thì μ 3 (và tất phương sai: ⎡⎤ o cả các mô men bậc lẻ) bằng không (xét theo cấu trúc của các công thức D[ X ] = μ2 = M ⎢ X 2 ⎥ . (1.16) (1.13) và (1.14)). ⎣⎦ Mô men tâm bậc ba có thứ nguyên lập phương đại lượng ngẫu Như vậy, phương sai của đại lượng ngẫu nhiên X là kỳ vọng toán nhiên. Người ta dùng đại lượng học của bình phương đại lượng ngẫu nhiên quy tâm tương ứng. Các công thức để tính trực tiếp phương sai của các đại lượng ngẫu 11 12
μ3 hơn so với phân bố chuẩn sẽ có E x < 0 (xem hình 1.3). Sk = (1.21) σ3 f (x) không có thứ nguyên để đặc trưng cho tính bất đối xứng của phân bố gọi Ex < 0 là hệ số bất đối xứng. Khi S k > 0 ta có phân bố bất đối xứng dương (đường cong 1), khi S k < 0 − bất đối xứng âm (đường cong 2) trên hình Ex = 0 1.2. Ex > 0 x 0 Hình 1.3. Các đường cong phân bố có độ nhọn khác nhau 10) Nhiều khi người ta sử dụng những mô men tuyệt đối (gốc và tâm) mà trong số đó thường dùng nhất là mô men tâm tuyệt đối bậc một: ⎡ ⎤ γ 1 = M ⎢ X ⎥ = M [ X − m x ]. o (1.23) Hình 1.2. Các đường cong phân bố bất đối xứng ⎣ ⎦ gọi là độ lệch trung bình số học, cũng đặc trưng cho độ tản mạn. 9) Mô men tâm bậc bốn dùng để đặc trưng “độ dốc”, tức mức độ đỉnh nhọn hay đỉnh dẹt của phân bố. Người ta dùng đại lượng gọi là độ 1.2. Quy luật phân bố chuẩn nhọn E x của đại lượng ngẫu nhiên liên quan với mô men bậc bốn như sau: Trong lý thuyết xác suất người ta đặc biệt quan tâm tới một kiểu luật μ phân bố gọi là luật phân bố chuẩn (hay phân bố Gauss). Đây là kiểu phân Ex = 4 − 3 . (1.22) σ4 bố thường gặp nhất trong thực tế. Người ta đã chứng minh được rằng tổng của một số lượng đủ lớn các đại lượng ngẫu nhiên độc lập (hoặc phụ Đối với luật phân bố chuẩn rất quan trọng và thường gặp trong tự thuộc ít) tuân theo những quy luật phân bố bất kỳ nào đó sẽ xấp xỉ tuân μ4 = 3 , nên độ nhọn E x = 0 . Những phân bố có đỉnh nhiên thì tỷ số theo quy luật chuẩn và điều này được thể hiện càng chính xác nếu lấy σ4 tổng của càng nhiều các đại lượng ngẫu nhiên. Điều hạn chế chủ yếu là nhọn hơn so với phân bố chuẩn thì E x > 0 , những phân bố có đỉnh dẹt các đại lượng ngẫu nhiên được cộng lại phải có vai trò đều nhau và tương 13 14
μ 2 = σ 2 ; μ 4 = 3σ 4 ; μ 6 = 15 σ 6 ; nói chung các mô men bậc s tính đối nhỏ trong tổng chung. theo công thức truy hồi μ s = ( s − 1)σ 2 μ s − 2 ; S k = 0; E x = 0 . Quy luật phân bố chuẩn được đặc trưng bởi mật độ xác suất dạng: ( x −m ) 2 Để tính được xác suất mà đại lượng ngẫu nhiên X tuân theo quy − 1 2σ 2 f ( x) = e , (1.24) luật chuẩn với các tham số m và σ rơi vào khoảng giá trị từ α tới β σ 2π phải dùng công thức tổng quát trong đó m − kỳ vọng toán học của đại lượng ngẫu nhiên X , σ − độ P (α < X < β ) = F ( β ) − F (α ) , (1.25) lệch bình phương trung bình của nó. trong đó F ( x) − hàm phân bố của đại lượng ngẫu nhiên X tính theo công thức (1.4): ( x−m) 2 x x − 1 ∫ f ( x) dx = σ ∫e 2σ 2 F ( x) = dx . 2π −∞ −∞ x−m = t có thể dẫn tích phân trên tới dạng Nếu thay biến σ x−m t2 1 σ − ∫e F ( x) = dt . 2 (1.26) 2π Hình 1.4. Đồ thị hàm mật độ phân bố chuẩn −∞ Tích phân (1.26) không biểu thị được bằng các hàm cơ bản, nhưng Đường cong phân bố theo luật chuẩn có dạng hình đồi đối xứng có thể tính nó qua hàm đặc biệt biểu thị tích phân xác định của biểu thức 1 (hình 1.4). Tung độ cực đại của đường cong bằng ứng với 2 − t2 2 e − t hay e σ 2π (tích phân xác suất) đã lập thành bảng. hoành độ x = m . Xa dần m mật độ phân bố giảm đi và khi x → ± ∞ Thí dụ, nếu ta dùng hàm đường cong tiệm cận dần tới trục hoành. Điểm m là tâm đối xứng của x 1 φ ∗ ( x) = 2 − t2 ∫ e dt , phân bố, gọi là tâm tản mạn; tham số σ là đặc trưng tản mạn. Khi σ (1.27) 2π −∞ tăng thì tung độ cực đại giảm và đường cong phân bố trở nên phẳng hơn, duỗi dài theo trục hoành, ngược lại, khi σ giảm đường cong phân bố nhô thì ta tính ⎛ x−m⎞ cao lên trên, đồng thời co hẹp hai bên lại. F ( x) = φ ∗ ⎜ ⎟. (1.28) ⎝σ⎠ Tính toán các đặc trưng bằng số của phân bố chuẩn cho các kết quả sau: μ 0 = 1; μ1 = 0 (và tất cả các mô men bậc lẻ bằng không); Do đó 15 16
⎛β −m⎞ ∗⎛α − m ⎞ ta suy ra P (α < X < β ) = φ ∗ ⎜ ⎟ −φ ⎜ ⎟. (1.29) ⎝σ⎠ ⎝σ⎠ ⎛E⎞ 2φ ∗ ⎜ ⎟ − 1 = 0,5 , ⎝σ ⎠ Như vậy, chúng ta đã biểu thị xác suất của đại lượng ngẫu nhiên X do đó phân bố theo luật chuẩn với các tham số bất kỳ rơi vào khoảng giá trị cho trước từ α đến β qua hàm phân bố tiêu chuẩn φ * ( x) ứng với luật φ ∗ ⎛ E ⎞ = 0,75 . ⎜⎟ phân bố chuẩn đơn giản nhất có các tham số tuần tự là m = 0 và σ = 1 . ⎝σ ⎠ Hàm φ * ( x) đã được bảng hóa và các giá trị của nó có ở các sách giáo khoa về lý thuyết xác suất và toán thống kê bất kỳ, ở các tài liệu chuyên f (x) khảo và các cẩm nang toán học. Bảng 1.1 là một dạng thuộc loại các bảng đó. Độ lệch xác suất. Trong nhiều ứng dụng lý thuyết xác suất người ta thường dùng một đặc trưng tản mạn gọi là độ lệch xác suất, ký hiệu bằng E. Độ lệch xác suất của đại lượng ngẫu nhiên X phân bố theo luật x m−E m m+E 0 chuẩn là nửa độ dài của một đoạn đối xứng qua tâm tản mạn mà xác suất rơi vào đó bằng 0,5 (xem hình 1.5). Hình 1.5. Biểu diễn độ lệch xác suất Có thể viết P ( X − m < E ) = 0,5 Theo bảng giá trị của hàm φ ∗ ta tìm ngược lại được E hay = 0,674 → E = 0,674σ . (1.30) σ P (m − E < X < m + E ) = 0,5 . Dùng công thức (1.29) ta có: Ý nghĩa của E là với số lượng lớn thí nghiệm về trung bình sẽ có ⎛E⎞ ⎛ E⎞ một nửa số giá trị của đại lượng ngẫu nhiên X lệch khỏi m vượt quá E P (m − E < X < m + E ) = φ ∗ ⎜ ⎟ − φ ∗ ⎜ − ⎟ . ⎝σ ⎠ ⎝ σ⎠ và một nửa - nhỏ hơn E . Vì vậy E còn được gọi là độ lệch trung tâm. Theo tính chất của hàm φ * φ ∗ ( x) = 1 − φ ∗ ( − x) , 17 18
x Phụ lục chương 1 2 1 ∗ − t2 ∫ e Bảng 1.1. Bảng các giá trị của tích phân xác suất φ ( x ) = dt 2π −∞ A. Những định lý về các đặc trưng số φ* φ* φ* φ* x x x x 1. Kỳ vọng toán học của hằng số bằng chính hằng số: M[c] = c . 0,0 0,500000 -3,9 0,000048 -1,9 0,028717 0,1 0,539828 2,1 0,982136 2. Phương sai của đại lượng không ngẫu nhiên: -3.8 0,000072 -1,8 0,035930 0,2 0,579260 2,2 0,986097 D[c] = 0 . -3,7 0,000108 -1,7 0,044565 0,3 0,617911 2,3 0,989276 -3,6 0,000159 -1,6 0,054799 0,4 0,655422 2,4 0,991802 3. Đưa đại lượng không ngẫu nhiên ra ngoài dấu KVTH: -3,5 0,000233 -1,5 0,066807 0,5 0,691462 2,5 0,993790 M[cX ] = cM[ X ] . -3,4 0,000337 -1,4 0,080757 0,6 0,725747 2,6 0,995339 -3,3 0,000483 -1,3 0,096801 0,7 0,758036 2,7 0,996533 4. Đưa đại lượng không ngẫu nhiên ra ngoài dấu phương sai: -3,2 0,000687 -1,2 0,115070 0,8 0,788145 2,8 0,997445 D[cX ] = c 2 D[ X ] , -3,1 0,000968 -1,1 0,135666 0,9 0,815940 2,9 0,998134 -3,0 0,001350 -1,0 0,158655 1,0 0,841345 3,0 0,998650 σ [cX ] = c σ [ X ] . -2,9 0,001866 -0,9 0,184060 1,1 0,864334 3,1 0,999032 -2,8 0,002555 -0,8 0,211855 1,2 0,884930 3,2 0,999313 5. KVTH của tổng các ĐLNN: -2,7 0,003467 -0,7 0,241964 1,3 0,903199 3,3 0,999517 M[ X + Y ] = M[ X ] + M[Y ] -2,6 0,004661 -0,6 0,274253 1,4 0,919243 3,4 0,999663 -2,5 0,006210 -0,5 0,308538 1,5 0,933193 3,5 0,999767 (đúng đối với tổng của nhiều số hạng). -2,4 0,008198 -0,4 0,344578 1,6 0,945201 3,6 0,999841 6. KVTH của hàm tuyến tính của một số đối số ngẫu nhiên: -2,3 0,010724 -0,3 0,382089 1,7 0,955435 3,7 0,999892 -2,2 0,013903 -0,2 0,420740 1,8 0,964070 3,8 0,999928 X 1 , X 2 , ..., X n : -2,1 0,017864 -0,1 0,460172 1,9 0,971283 3,9 0,999952 ⎡n ⎤ ⎡n ⎤ -2,0 0,022750 2,0 0,977250 M ⎢∑ a i X i + b⎥ = M ⎢∑ a i X i ⎥ + M[b] = ⎣ i =1 ⎦ ⎣ i =1 ⎦ n n ∑ M[ai X i ] + b = ∑ ai M[X i ] + b. i =1 i =1 7. Phương sai của tổng các ĐLNN: D[ X + Y ] = D[ X ] + D[Y ] + 2 K xy , 19 20
M[ X 1 + X 2 + ... + X n ] = M[ X 1 ] + M[ X 2 ] + ... + M[ X n ] = na . ⎡n ⎤n n D ⎢∑ X i ⎥ = ∑ ∑K . ij ⎣ i =1 ⎦ i =1 ⎡ X + X 2 + ... + X n ⎤ 1 1 j =1 ⎥ = n M[ X 1 + X 2 + ... + X n ] = n na = a . M⎢ 1 n ⎣ ⎦ Nếu các ĐLNN không tương quan lẫn nhau: ⎡n ⎤n D ⎢∑ X i ⎥ = ∑ D[X i ] . Định lý 2: Nếu X 1 , X 2 , ..., X n − những ĐLNN phân bố như nhau, ⎣ i =1 ⎦ i =1 phương sai của từng ĐLNN bằng σ 2 , thì phương sai của tổng bằng 8. Phương sai của hàm tuyến tính của một số ĐLNN: nσ 2 , còn phương sai của trung bình số học bằng σ 2 / n : ⎡n ⎤n D ⎢∑ a i X i + b⎥ = ∑ a i2 D[ X i ] . D[ X 1 + X 2 + ... + X n ] = D[ X 1 ] + D[ X 2 ] + ... + D[ X n ] = nσ 2 , ⎣ i =1 ⎦ i =1 ⎡ X + X 2 + ... + X n ⎤ 1 1 ⎥ = 2 D[ X 1 + X 2 + ... + X n ] = 2 nσ = σ / n . 2 2 D⎢ 1 9. KVTH của tích các ĐLNN: n ⎣ ⎦n n M[ XY ] = M[ X ] × M[Y ] + K xy , Định lý 3: KVTH của ĐLNN phân bố theo quy luật nhị thức, tức Nếu X và Y không tương quan: của số lần xuất hiện sự kiện A trong n thí nghiệm độc lập, mà trong M[ XY ] = M[ X ] × M[Y ] , từng thí nghiệm sự kiện ấy có thể xuất hiện với xác suất không đổi p , bằng np , còn phương sai bằng npq , với q = 1 − p . ⎡n ⎤n M ⎢∏ X i ⎥ = ∏ M[ X i ] . Chứng minh: Xem ĐLNN trên là tổng của của các ĐLNN X 1 , X 2 , ⎣ i =1 ⎦ i =1 ..., X n biểu thị số lần xuất hiện sự kiện A tuần tự trong thí nghiệm thứ 10. Phương sai của tích các ĐLNN: nhất, thứ hai, ..., thứ n . Vậy chúng chỉ có thể có hai giá trị: bằng 0 nếu D[ XY ] = D[ X ]D[Y ] + m x D[Y ] + m y D[ X ] , 2 2 sự kiện A không xảy ra trong lần thí nghiệm i ( i = 1, 2, ..., n ), bằng 1 && & & D[ XY ] = D[ X ]D[Y ] . nếu A xảy ra. Vậy X 1 , X 2 , ..., X n phân bố như nhau và độc lập, quyluật phân bố của từng ĐLNN trong chúng có dạng sau: B. Kỳ vọng toán học và phương sai của một số đại lượng ngẫu nhiên giá trị 0 1 q p Định lý 1: Nếu X 1 , X 2 , ..., X n − những đại lượng ngẫu nhiên xác suất phân bố như nhau, KVTH của từng ĐLNN trong số chúng bằng a , thì Ta tìm KVTH của từng X i theo công thức tính KVTH (công thức KVTH của tổng các ĐLNN đó bằng na , còn KVTH của trung bình số (1.5)): học bằng a : M[ X 1 ] = M[ X 2 ] = ... = M[ X n ] = 0 ⋅ q + 1 ⋅ p = p . 21 22
D[ X 1 ] = D[ X 2 ] = ... = D[ X n ] = (0 − p ) 2 ⋅ q + (1 − p ) 2 ⋅ p σ = pq / n . = p 2 q + q 2 p = pq ( p + q ) = pq (theo công thức (1.17)). C. Mã Fortran của chương trình con tính giá trị hàm mật độ xác suất của phân bố chuẩn theo công thức (1.24) Do đó: M[ X ] = M[ X 1 + X 2 + ... + X n ] = np . C m và s là kỳ vọng toán học và độ lệch chuẩn D[ X ] = D[ X 1 + X 2 + ... + X n ] = npq . FUNCTION Gauss(m,s,x) Định lý 4: KVTH của tần suất của sự kiện A trong n thí nghiệm PARAMETER (pi=3.141593) độc lập, mà trong từng thí nghiệm sự kiện A có thể xảy ra với xác suất REAL x, m, s không đổi p , bằng chính xác suất p , còn phương sai bằng pq / n . x = (x-m)/s x = -0.5*x*x Chứng minh: Tần suất của sự kiện A trong n thí nghiệm có thể Gauss = 1.0/(s*sqrt(2*pi))*exp(x) được xem như trung bình số học của các ĐLNN X 1 , X 2 , ..., X n phân bố RETURN như nhau, độc lập: END X 1 + X 2 + ... + X n p* = , D. Mã Fortran của chương trình con tra giá trị hàm tích phân xác n suất theo đối số ( x − m x ) / σ x theo bảng 1.1 (công thức (1.28)) ⎡ X + X 2 + ... + X n ⎤ [] M p * = M⎢ 1 C Từ x , m , σ (s) tra xác suất phân bố F ( x) = φ * (( x − m) / σ ) , φ * − tích phân ⎥ n ⎣ ⎦ C xác suất (bảng 1.1), được lưu trong file BANG1_1.TKE với quy cách ghi như 1 = M[X 1 + X 2 + ... + X n ] C sau: một dòng tiêu đề trên cùng, nối tiếp sau từng cặp đối số và hàm φ * , giá n C trị nhỏ nhất của đối số: -3,99, lớn nhất: 3,99. 1 1 = (M[ X 1 ] + M[ X 2 ] + ... + M[X n ]) = np = p. FUNCTION TraB1_1 (x, m, s) n n REAL x, m, s, z, v, z1, z2, v1, v2 [] ⎡ X + X 2 + ... + X n ⎤ z = (x-m)/s D p * = D⎢ 1 ⎥ IF (z.LT.-3.99) THEN n ⎣ ⎦ v=0.000003 1 1 pq = 2 D[X 1 + X 2 + ... + X n ] = 2 npq = ELSE IF (z.GT.3.99) THEN n n n v=0.999967 ELSE hay 23 24
OPEN (1, FILE = ‘bang1_1.tke’) READ (1, *) READ (1, *) z1, v1 2 READ (1, *) z2, v2 IF (z.GE.z1.AND.z.LE.z2) THEN v = v1+(v2-v1)/(z2-z1)*(z-z1) Chương 2 CLOSE (1) GOTO 1 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT ELSE XỬ LÝ SỐ LIỆU QUAN TRẮC z1 = z2 v1 = v2 GOTO 2 Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật ENDIF phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí ENDIF nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào 1 TraB1_1 = v đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên RETURN X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị END nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập hợp thống kê đơn giản được trình bày dưới dạng bảng. 2.1. Hàm phân bố thống kê Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của sự kiện X < x trong chuỗi thống kê đó F ∗ (x ) = P ∗ ( X < x ) . (2.1) Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x và chia cho tổng số quan trắc đã thực hiện n . Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan 25 26