Giáo trình Thống kê ứng dụng

Chia sẻ: Bùi Anh Nhân | Ngày: | Loại File: PDF | Số trang:57

Thêm vào BST

Báo xấu

122
lượt xem 22
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung của giáo trình bao gồm 4 chương: xác định cách tính toán các đại lượng cơ bản của xử lý thống kê; xác định phương pháp so sánh hai tổng thể; phân tích hồi qui và tương quan tuyến tính; ứng dụng các kiểu bố trí thí nghiệm.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Giáo trình Thống kê ứng dụng

Chương 3. PHÂN TÍCH HỒI QUI VÀ TƯƠNG QUAN TUYẾN TÍNH 38 3.1 PHÂN TÍCH HỒI QUI (Regression analysis) 38 3.1.1 Mô hình hồi qui tuyến tính đơn 38 3.1.2 Kiểm định giả thuyết về mối quan hệ tuyến tính (kiểm định t) 39 3.1.3 Kiểm định mô hình 40 3.1.4 Thực hành sử dụng phần mềm Minitab để xác định phương trình hồi qui 41 3.1.5 Thực hành sử dụng phần mềm Minitab để xác định phương trình hồi qui đa biến 45 3.2 PHÂN TÍCH TƯƠNG QUAN (Correlation analysis) 47 3.2.1 Hệ số tương quan (correlation coefficient) 47 3.2.2 Kiểm định giả thuyết về mối tương quan 48 3.2.3 Hiệp phương sai (covariance) 48 3.2.4 Thực hành sử dụng phần mềm Minitab để xác định hệ số xác định và tương quan 49 BÀI TẬP CỦNG CỐ 50 Chương 4. ỨNG DỤNG CÁC KIỂU BỐ TRÍ THÍ NGHIỆM 52 4.1 XÁC ĐỊNH CÁC THUẬT NGỮ THỐNG KÊ VÀ BỐ TRÍ THÍ NGHIỆM 52 4.1.1 Một số thuật ngữ thống kê cơ bản 52 4.1.2 Một số khái niệm về thống kê cơ bản 52 4.1.3 Nguyên tắc của bố trí thí nghiệm 53 4.1.4 Các bước cần tuân thủ 54 4.2 ỨNG DỤNG CÁC KIỂU BỐ TRÍ THÍ NGHIỆM 56 4.2.1 Thí nghiệm một nhân tố 56 4.2.2 Thí nghiệm nhiều nhân tố 73 BÀI TẬP CỦNG CỐ 81 TÀI LIỆU THAM KHẢO 85 PHỤ LỤC 86 ii
Phân tích mẫu có thể suy ra các đặc tính của tổng thể với một mức độ tin cậy xác định nào đó. Biến ngẫu nhiên (random variance) Là đại lượng bằng số mà giá trị của nó tùy thuộc vào sự lấy mẫu ngẫu nhiên. Biến ngẫu nhiên gồm 2 loại là biến ngẫu nhiên liên tục và biến ngẫu nhiên rời rạc. Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà giá trị của nó có được từ các số liên tục. Biến liên tục có thể nhận giá trị bất kỳ trong khoảng số thực. Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà giá trị của nó có được từ số liệu rời rạc, thường nó là những số nguyên dương. 1.1.2 Các số đo mô tả Là những số được dùng để mô tả số liệu, các thuật ngữ thường được sử dụng cho các số đo mô tả là tham số (mô tả của tập hợp) và số thống kê (mô tả của một mẫu). Đo khoảng cách (range) Là số đo khoảng cách giữa số lớn nhất và nhỏ nhất của mẫu. Đại lượng này cho biết thông tin về khoảng cách của số liệu. Ví dụ 2: Một vùng có nhiệt độ từ -20oC đến 50oC => Range = 50- (-20) = 70oC Trung bình số học của mẫu (mean) Trung bình là một số mà các giá trị của mẫu có xu hướng quy tụ 1 n quanh nó, trung bình của mẫu có n phần tử được tính như sau: x = ∑ xi , n i =1 trong đó: x là trung bình mẫu; i có giá trị từ 1 đến n; xi là giá trị của mẫu ở phần tử thứ i. Trung bình của mẫu được tính theo tần số và tần suất: 1 k k = = x = ∑ i i ∑ xi fi trong đó fi là tần suất của các cá thể có cùng đại n x n i 1 =i 1 lượng đo. Số trung vị (median) Số trung vị là số nằm ở giữa dãy số khi dãy số được sắp xếp từ nhỏ đến lớn. Số trung vị cho kết quả nhanh về ước lượng trung bình mẫu. 2
Trong đó: t là giá trị của tiêu chuẩn Student cho trong bảng phân phối Student. Sai số được tính như sau: SE = s / n Ví dụ 6: Đo chiều dài của heo (45 kg) với số lượng mẫu n = 30, độ tin cậy 95% thì giá trị t cho trong bảng phân bố là: t (0,05; 30) = 2,045. Nếu giá trị trung bình 70 cm và phương sai 2,5 cm của mẫu thí nghiệm thì giá trị trung bình của tổng thể được đánh giá như sau: µ = x ± 2,045 (SE) = 70 ± 2,045 (2,5/ 30 ) = 70 ± 0,93 = 69,07-70,93 Hay nói cách khác, thí nghiệm cho số trung bình 70 cm, ta đánh giá được chiều dài thực của heo nằm trong khoảng 69,07 cm đến 70,93 cm với độ tin cậy 95%. Chú ý: Khi số lượng mẫu n > 30 thì ta thay t bằng Z (là giá trị xác suất của phân phối chuẩn cho sẵn trong bảng). Hệ số biến động (coefficient of variation) Hệ số biến động dùng để đánh giá sự biến thiên của độ lệch chuẩn so với số trung bình mẫu, nó giúp ta so sánh sự biến thiên giữa hai mẫu độc lập với đơn vị đo lường. s Hệ số biến động được tính bằng công thức CV ( % )= ×100 x Ví dụ 7: Có hai máy đóng gói A và B, chưa biết máy nào làm việc ổn định hơn về trọng lượng tịnh của sản phẩm. Lấy máy A số lượng n1 gói, máy B là n2 gói và đo trọng lượng. Kết quả máy A x A cho = 21 g với SA = 3,2 g tương tự cho máy B là 15 g và 3 g. Nếu nhìn vào độ lệch chuẩn thì ta nói máy A ít ổn định hơn máy B do máy A có độ lệch chuẩn cao hơn. Nếu tính hệ số biến động: CVA = 100 x 3,2/21 = 15,24%; CVB = 100 x 3/15 = 20% Vậy máy A đóng gói ổn định về trọng lượng hơn máy B. 1.1.3 Ước lượng cỡ mẫu Để ước lượng các tham số của tập hợp ta dựa vào đặc trưng của mẫu, mẫu càng nhỏ thì giá trị ước lượng của tập hợp càng bị sai lệch, ngược lại mẫu càng lớn thì giá trị ước lượng các tham số của tập hợp càng chính xác. 4
1.1.5 Thực hành sử dụng phần mềm Minitab để tính đặc trưng của mẫu Ví dụ 9: khối lượng sơ sinh của heo (kg) được cân 11 con như sau: 1,6; 1,7; 1,65; 1,67; 1,89; 1,79; 1,78; 1,75; 1,68; 1,84; 1,87. Tính đặc trưng của mẫu? Xác định các đặc trưng của mẫu bằng phần mềm Minitab, cần thực hiện các bước sau: Bước 1: Nhập các dữ liệu vào worksheet theo cột đứng hoặc theo hàng ngang. Bước 2: Dùng lệch stat\basic statistics\display descriptive statistics, sau đó chuyển biến vào variables và chọn các đặc trưng của mẫu. Bước 3: Đọc kết quả ở phần session mà Minitab vừa tính xong. Có thể tính đặc trưng mẫu cùng lúc nhiều biến. 6
1.2.2 Đường cong chuẩn Hàm mật độ của đường cong chuẩn Cho tổng thể biết trung bình µ và độ lệch chuẩn σ, hàm mật độ xác  x−µ  −  2 1 2σ suất của đường cong chuẩn x là: = P f= ( x) ×e   σ 2π Hàm f(x) có giá trị từ - ∞ đến + ∞ trong đó có 2 tham số µ và σ. +∞ ∫−∞ f ( x).dx = 1 Tính chất của phân phối chuẩn - Tổng diện tích dưới đường cong chuẩn bằng 1. - Đường cong chuẩn kéo dài vô hạn về hai phía và tiệm cận với trục hoành. - Đường cong chuẩn có tham số µ và σ đối xứng qua µ, nên µ vừa là trung bình, vừa là trung vị và vừa là mode. Hình 1.1 Đồ thị của phân phối chuẩn - Độ lệch chuẩn của biến x bằng σ, đặc trưng cho độ rộng của đường cong. - Hơn 99% diện tích dưới đường cong chuẩn có tham số µ và σ nằm giữa µ-3σ và µ+3σ. - Điểm uốn tại µ-σ và µ+σ. 8
Định lý giới hạn trung tâm Đối với cỡ mẫu tương đối lớn, biến ngẫu nhiên X gần bằng phân phối, bất chấp phân phối của tập hợp như thế nào. Cỡ mẫu càng gia tăng thì biến X càng tiến gần đến phân phối. Từ tổng thể theo phần phối bất kỳ với trung bình µ và phương sai σ2, ta lấy mẫu cỡ n. Trung bình mẫu sẽ tiếp cận với phần phối chuẩn với trung bình µ và phương sai σ2/n. Khi mẫu càng lớn thì phương sai mẫu càng nhỏ, phân phối trung bình mẫu càng gần phần phối chuẩn. Thông thường khi n ≥ 30 ta sẽ được xem trung bình mẫu theo phân phối chuẩn. 1.2.3 Phân phối nhị thức (binomial distribution) Một biến ngẫu nhiên được gọi là theo phân phối nhị thức nếu nó là biến ngẫu nhiên rời rạc có hàm mật độ xác suất như sau: f(x, n, p) = Cnx px.(1-p)n-x nếu x = 0, 1,…n. n! Trong đó: Cnx = ; n và p là 2 thông số của biến ngẫu nhiên, x !(n − x)! với n là số lần xuất hiện của một sự kiện nào đó và p là xác suất xuất hiện của một sự kiện. Khi n > 30, phân phối nhị thức gần với phân phối chuẩn hoặc khi q = p = 0,5 phân phối nhị thức trở thành phân phối chuẩn. Trung bình: µx = E(x) = n.p Phương sai: σ x2 = E ( X − µ x ) = np (1 − p )= npq 2   Độ lệch chuẩn: σ x = npq Ví dụ 11: Theo dõi heo đẻ, tổng số heo đẻ được 9 con, xác suất để heo đẻ được con đực là 0,5. Tìm số trung bình, phương sai và độ lệch chuẩn của lần đẻ được heo đực. Trung bình: µx = E(x) = n.p= 9 x 0,5 = 4,5 Phương sai: σ x2 =E ( X − µ x )  =np (1 − p ) =npq =9 × 0,5 × 0,5 =2, 25 2   Độ lệch chuẩn: σ x = npq = 9 × 0,51× 4, 49 = 2, 25 =1,5 10
Định lý: Gọi x1, x2, …, xn là mẫu ngẫu nhiên từ tổng thể theo phân phối chuẩn với trung bình µ và phương sai σ2 thì: x−µ (1) t = ~ tn-1 s x−µ (2) t = ~ tn-1 s n Nếu x theo phân phối t với n độ tự do thì E(x) = 0 nếu n > 1 và n var(x) = nếu n > 2. n−2 Diện tích α Cách sử dụng bảng t df t0.10 t0.05 t0.025 t0.01 1 2 1.886 3 2.353 4 Tóm lại: Có biến ngẫu nhiên X ~ N (µ , σ2). x−µ Nếu biết được phương sai tổng thể thì: ~ N (0, 1). σ Nếu không biết được phương sai tổng thể mà chỉ biết phương sai của x−µ x−µ mẫu thì t = ~ tn-1 và t = ~ tn-1, khi cở mẫu càng lớn thì s → σ; s s n tn-1 → N (0, 1). 12
So sánh hai phân phối F và t: nếu độ tự do tử số của phân phối F bằng 1 và độ tự do mẫu số bằng n thì phân phối này tương đương với phân phối t ( x − µ) 2 độ tự do n: ~ F(1, n-1) ~ (tn). ( yi − y ) 2 ∑ n −1 1.2.6 Phân phối χ2 – phân phối của phương sai (chi-square distribution) Phân phối χ2 là phân phối có giá trị từ 0 đến + ∞, lệ thuộc vào độ tự do. n x −1 2 2 x e Hàm mật độ xác suất: f ( x ) = ∫ , trong đó Γ( x ) = ∫ t x −1e − t dt n n 2 Γ  2 2 14