XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL

Chia sẻ: Nguyen Nhi | Ngày: | Loại File: PDF | Số trang:35

0
237
lượt xem
111
download

XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools Data Analysis (nếu không có mục này thì chọn Tools Add-in Analysis ToolPak để cài đặt thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc phân...

Chủ đề:
Lưu

Nội dung Text: XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL

  1. PGS. TS. Nguyễn Hải Thanh XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP với phần mềm Excel (Bài giảng cho dự án CNTT 2008) HÀ NỘI, THÁNG 10 NĂM 2008
  2. Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc phân tích các ảnh hưởng của các nhân tố khác nhau lên kết quả đầu ra của thí nghiệm, thường được gọi là phân tích nhân tố. I . Giới thiệu về phương pháp khảo sát mẫu và thống kê mô tả 1.1. Giới thiệu về phương pháp khảo sát mẫu Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều cá thể, có thể tiến hành theo hai cách. Cách 1: Điều tra chỉ số đó trên tất cả các cá thể của tổng thể; cách này đòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2: Điều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán thống kê về chỉ số đó cho toàn bộ tổng thể. Cách 2 có thể được gọi là phương pháp thống kê toán học, hay đơn giản hơn là phương pháp khảo sát mẫu. Một cách tổng quát, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu một số chỉ số nào đó cũng như các mối liên quan của chúng trên các cá thể của tổng thể. Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X1, X2, ..., Xn) trong đó Xi, i = 1, 2, …, n, là các biến ngẫu nhiên độc lập thu được từ X. Để đơn giản chúng ta gọi mẫu này là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x1, x2, ..., xn) trong đó xi là giá trị đo được của Xi thu được từ kết quả của thực nghiệm . 1 Đại lượng t hống kê X = (X1+X2 + ... + Xn) được gọi là trung bình mẫu lý n thuyết và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng cho trung bình chung của chỉ số X. Đây là một ước lượng rất tốt với các tính chất: không 1 chệch, vững và hiệu quả. Lúc đó, x = (x1+ x2+ ...+ xn) được gọi là trung bình mẫu thực n nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm. 1 n ∑ (X ˆ − X ) 2 được gọi là phương sai mẫu lý thuyết Đại lượng thống kê: S2 = i n i =1 1 n ∑ (X chưa hiệu chỉnh, còn đại lượng thống kê S2 = − X ) 2 gọi là phương sai mẫu đã i n −1 i =1 2
  3. 1 n ∑ (x − x) 2 được gọi là phương sai mẫu thực nghiệm chưa hiệu Lúc này, s 2 = ˆ i n i =1 1 n ∑ (x chỉnh, còn s2 = − x ) 2 là phương sai mẫu thực nghiệm đã hiệu chỉnh tương ứng i n −1 i =1 ˆ ˆ với mẫu thực nghiêm đã có. S và s được gọi là các độ lệch chuẩn mẫu lý thuyết và thực nghiệm chưa hiệu chỉnh, còn S và s gọi là độ lệch chuẩn mẫu lý thuyết và thực nghiệm đã hiệu chỉnh. 1.2. Thống kê mô tả Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả trong phân tích số liệu của Excel để tính các số đặc trưng mẫu của mẫu thực nghiệm như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode ... Số liệu tính toán được bố trí theo cột hoặc theo hàng. a. Các bước thực hiện trong Excel Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau trong hộp thoại: - Input range: miền dữ liệu kể cả nhãn. - Grouped by: Columns (số liệu theo cột). - Labels in first row: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Confidence level for mean: 95% ( độ tin cậy 95%). - K-th largest: 1 (1 số lớn nhất, 2 số lớn nhì ). - K-th smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì ). - Output range: miền ra. - Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản. Ví dụ 1: Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông (cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất. Số liệu được bố trí như trong hình 1. Chọn Tools>Data Analysis>Descriptive Statistics, sau đó khai báo hộp thoại. 3
  4. Hình 1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại. Kết quả thu được cho trong hình 2. Hình 2. Kết quả thống kê mô tả về các đặc tính của lúa b. Phân tích các kết quả thu được Một số nhận xét sơ bộ trên các thống kê thu được như sau: - Mean cho ta giá trị trung bình của dãy số. 4
  5. - Standard error cho ta biết tỷ số độ lệch chuẩn mẫu /căn bậc hai của n. - Median cho giá trị điểm giữa của dãy số. Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối. Trong ví dụ 1 các cột số liệu là cân đối trừ cột “số bông” hơi bị lệch. - Mode cho biết giá trị xảy ra nhiều nhất trên mẫu. - Phương sai mẫu hay độ lệch chuẩn mẫu (đã hiệu chỉnh) cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung. - Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn. - Skewness đánh giá đường phân phối lệch trái hay lệch phải. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc. - Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m). Trong ví dụ 1, hình 2, ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức là (25.85 , 26.95). Trong trường hợp mẫ u có dung lượng n không lớn lắm và phươ ng sai lý thuyết σ2 = V(X) chưa biết, ta có công thức tìm khoảng tin cậy với độ tin cậy p = 1−α s s là phân vị mức 1 − α/2 của như sau: [ x - t α ; x + tα ], trong đó t α n n , n −1 , n −1 , n −1 2 2 2 phân phối Student với bậc tự do n −1. II. Tổ chức đồ Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ chức đồ. Để vẽ tổ chức đồ cần phải tiến hành phân tổ / nhóm số liệu. 2.1. Tạo miền phân tổ Để tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau: - Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất. - Định ra giá trị cận dưới và giá trị cận trên của miền phân tổ. - Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này. - Chọn Edit > Fill > Series để khai báo các mục: 5
  6. + Trong mục Series in chọn Columns (dữ liệu theo cột), + Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng), + Trong Step value: nhập giá trị bước tăng, + Trong Stop value: nhập giá trị cận trên, + OK. Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên hình 3 với miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là 55, giá trị bước tăng 5. Hình 3. Tạo miền Bin cho các số liệu về chiều dài cá 2.2. Vẽ tổ chức đồ a. Các bước thực hiện Chọn Tools> Data Analysis> Histogram để khai báo các mục: - Input range: miền dữ liệu. - Input Bin: miền phân tổ. - Labels : nhãn ở hàng đầu nếu có. - Output range: miền kết quả. - Pareto: tần số sắp xếp giảm dần. - Cumulative Percentage: tần suất cộng dồn %. - Chart output: biểu đồ. 6
  7. - OK. Trong ví dụ 2 chọn Tools> Data Analysis> Histogram và khai báo như trong hình 4. Hình 4. Các khai báo để vẽ tổ chức đồ b. Kết quả vẽ tổ chức đồ Hình 5. Tổ chức đồ c. Phân tích kết quả - Tần số số liệu rơi vào từng khoảng được ghi ở cận trên của khoảng. Chẳng hạn, có 2 số liệu thuộc vào khoảng (10, 15], vì vậy số 2 được ghi tương ứng với số 15 là cận trên. 7
  8. - Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất. Ngoài ra, hình dạng của tổ chức đồ còn cho biết: dãy số liệu khảo sát được về chiều dài của cá có thể coi là tuân theo luật chuẩn. III. Tính hệ số tương quan và tìm phương trình hồi qui 3.1. Tính hệ số tương quan Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến). a. Các bước thực hiện Chọn Tools>Data Analysis>Correlation và khai báo các mục: - Input range: miền dữ liệu kể cả nhãn. - Grouped by: Column (số liệu theo cột). - Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Output range: miền xuất kết quả ra. - OK. Ví dụ 3: Để nghiên cứu mối tương quan giữa các đặc tính dài bông, số hạt, số bông với năng suất lúa, cần thực hiện các bước sau: - Chọn Tools>Data analysis>Correlation. - Khai báo các mục (xem hình 6). Hình 6. Các bước khai báo khi tính hệ số tương quan 8
  9. - Kết quả thu được trên bảng 1. Bảng 1. Kết quả tính hệ số tương quan Dài bông P1000 Số bông Năng suất Dài bông 1 P1000 0.233314 1 −0.22056 Số bông 0.340772 1 Năng suất 0.200805 0.66632 0.661379 1 b. Phân tích kết quả - Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột. - Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến). - Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm coi là tương quan tuyến tính mạnh). 3.2. Tìm phương trình hồi quy Excel cho phép tìm phương trình hồi quy tuyến tính đơn y = a + bx và hồi quy tuyến tính bội y = a0 + a1x1 + a2x2 + . . . + anxn. Các biến độc lập chứa trong n cột, biến phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng. a. Các bước thực hiện Chọn Tools>Data Analysis>Regression và khai báo các mục: - Input y range: miền dữ liệu biến y. - Input x range: miền dữ liệu các biến x. - Label: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Confidence level : 95% ( độ tin cậy 95%). - Constant in zero: đánh dấu √ nếu hệ số tự do a0 = 0 . - Output range: miền xuất kết quả. - Residuals: đánh dấu √ vào ô này để hiện phần dư hay sai lệch giữa y thực nghiệm và y theo hồi quy. - Standardized residuals: đánh dấu √ để hiện phần dư đã chuẩn hoá. - Residuals plot: đánh dấu √ để hiện đồ thị phần dư. - Line fit plots: đánh dấu √ để hiện đồ thị các đường dự báo. 9
  10. - Normal probability plot: đánh dấu √ để hiện đồ thị phần dư đã chuẩn hoá. - OK. Ví dụ 4: Tìm phương trình hồi qui y = a0 + a1x1 + a2x2 + a3x3 của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông (x1), trọng lượng 1000 hạt (x2) và số bông / một cây (x3) với các số liệu cho trong hình 7. Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình 7 để thu được kết quả như trên hình 8. b. Phân tích kết quả - Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tính là thích hợp (ngược lại nên tìm mô hình khác). Trong ví dụ 4 hệ số tương quan bội là 0.8375 nên mô hình tuyến tính được coi là thích hợp. - Hệ số tương quan R square trong ví dụ 4 là 0.7014 cho biết 70.14% sự biến động của y là do các yếu tố x1, x2, x3 gây nên. Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết. - F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận. - Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo. Trong ví dụ 4 phương trình hồi quy là: y = − 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 . Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức ý nghĩa đã chọn). Trong trường hợp này, cần tiến hành lọc bớt biến x1 để được đường hồi quy với các hệ số đều có ý nghĩa. Hình 7. Khai báo để tìm phương trình hồi quy 10
  11. Hình 8. Kết quả tìm phương trình hồi quy IV. So sánh hai mẫu Bài toán ở đây là cần so sánh hai mẫu thông qua việc kiểm định giả thuyết H0: m1 = m2 (kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H1: m1 ≠ m2 ở mức ý nghĩa α trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết H1 là m1 > m2 (khi x > y ) hoặc m1 < m2 (khi x < y ). 4.1. So sánh hai mẫu độc lập khi biết phương sai σ12 và σ22 Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đó chúng ta có thể ước lượng được các phương sai σ12 và σ22. Chẳng hạn, nếu điều tra lại hai tổng thể sau một thời gian chưa lâu thì các phương sai được coi là chưa thay đổi, do đó lấy phương sai của lần điều tra trước làm ước lượng cho σ12 và σ22 (như khi xem xét các kết quả phân tích của hai phòng thí nghiệm mà độ chính xác đã ổn định, từ đó có ước lượng về các phương sai). a. Các bước thực hiện Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đó lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này. 11
  12. - Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào đó) thì ghi d. - Variable 1 variance: phương sai của biến 1(nhập σ12). - Variable 2 variance: phương sai của biến 2 (nhập σ22). - Output Range: chọn miền trống để đưa ra kết quả. Ví dụ 5: Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được, mẫu 2 có 12 quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6. x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9 y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6 Kết quả so sánh hai mẫu cho ở bảng 2. Bảng 2. Kết quả so sánh hai mẫu độc lập z-Test: Two Sample for Means Mẫu 1 Mẫu 2 Mean 3.6 3.5 Known Variance 2.7 2.6 Observations 10 12 Hypothesized 0 Mean Difference Z 0.14335 P(Z<=z) one-tail 0.44301 z Critical one-tail 1.64485 P(Z<=z) two-tail 0.88602 z Critical two-tail 1.95996 b. Phân tích kết quả Bảng kết quả 2 có hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính tới hàng thứ ba). Bảng này gồm có: - Trung bình của mẫu a1và a2. - Phương sai đã cho (σ12, σ22). - Số quan sát n1và n2. - Giá trị z thực nghiệm: z = (a1 − a2) / Sqrt(σ12/n1 + σ22/n2 ) - Giá trị P một phía và giá trị P hai phía. 12
  13. - Giá trị z lý thuyết (tới hạn) một phía và hai phía. Chú ý rằng, có thể dùng một số hàm trong Excel để tính một số kết quả: - Giá trị P một phía tính bằng hàm (1 −Normsdist(z)). - Giá trị P hai phía tính bằng hàm (1− Normsdist(z))×2. - Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm Normsinv(0.95). - Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975). Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến không khác nhau. 4.2. So sánh hai mẫu kiểu cặp đôi Xét thí dụ: với mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim đực. Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập. Trường hợp khác, nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho phòng phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được số liệu cặp đôi để so sánh kết quả của hai phòng phân tích. Nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu cặp đôi để so sánh. Tương tự, nếu đo một chỉ số sinh lý hoặc sinh hoá của một bệnh nhân khi mới nhập viện và đo lại chỉ số đó sau một thời gian điều trị thì có hai mẫu quan sát cặp đôi để đánh giá hiệu quả điều trị. Chú ý rằng, khi rút hai mẫu cặp đôi ta có hai mẫu cùng số quan sát n, các số liệu sắp xếp thành cặp đứng ở hai cột cạnh nhau. a. Các bước thực hiện Chọn Tools >Data Analysis > t-Test: Paired Two Sample for Means, sau đó lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: nếu cần thêm hàng đầu về tên biến thì chọn mục này. 13
  14. - Hypothesized means difference: giả thiết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H0: m1 = m2 + d (d là một số nào đó) thì ghi d. - Output Range: Chọn miền trống để đặt ra kết quả. Ví dụ 6: Có 8 cặp số liệu của hai mẫu cặp đôi x và y cho trong bảng sau: x 39.6 32.4 33.1 27 36 32 25.9 32.4 y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 Thực hiện phân tích trong Excel ta được kết quả như trên bảng 3. Bảng 3. Kết quả so sánh hai mẫu cặp đôi x y Giải thích Mean 32.3 30.725 Trung bình mẫu Variance 19.54 23.451 Phương sai mẫu Observations 8 8 Số quan sát Pearson Correlation 0.96187 Hệ số tương quan R Hypothesized Mean 0 Giả thuyết về hiệu số Difference trung bình df 7 Bậc tự do t Stat 3.31055 Giá trị t thực nghiệm P(T<=t) one-tail 0.00647 Giá trị P một phía t Critical one-tail 1.89458 Giá trị t lý thuyết khi kiểm định một phía P(T<=t) two-tail 0.01293 Giá trị P hai phía t Critical two-tail 2.36462 Giá trị t lý thuyết khi kiểm định hai phía b. Phân tích kết quả Bảng kết quả có hai cột cho hai mẫu quan sát. Bảng này có các hàng: - Trung bình mẫu a1, a2. - Phương sai mẫu s12, s22. - Số quan sát n1 và n2 (bằng nhau và bằng số cặp số liệu n). - Hệ số tương quan r của 2 mẫu (coi như 2 biến). - Bậc tự do df để kiểm định giả thuyết H0, df bằng số cặp (n − 1). - Giá trị t thực nghiệm: 3.31055. - Giá trị P một phía: 0.00647. 14
  15. - Giá trị t một phía: 1.894577508. - Giá trị P hai phía: 0.01293. - Giá trị t hai phía: 2.36462256. Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1 . 4.3. So sánh hai mẫu độc lập với giả thiết hai phương sai bằng nhau Trường hợp mẫu lớn: Khi việc rút hai mẫu quan sát từ hai tổng thể được tiến hành một cách độc lập thì chúng ta có hai mẫu độc lập. Nếu dung lượng của cả hai mẫu đều lớn (thường quy ước là n1 ≥ 30, n2 ≥ 30) ta có thể tiến hành z-test nhưng thay hai phương sai của tổng thể σ12 và σ22 bằng phương sai mẫu s12 và s22. Trường hợp mẫu bé (n1,n2 nhỏ hơn 30) thì ta gặp bài toán khó, gọi tên là bài toán Berens – Fisher. Trong trường hợp này, nếu coi hai phương sai của hai tổng thể bằng nhau (cần kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai) thì có thể tiếp tục tính toán như sau: a. Các bước thực hiện: Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances, sau đó lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1 = m2 + d (d là 1 số nào đó) thì ghi d. - Output Range: chọn miền trống để đưa kết quả ra. Ví dụ 7: Tiến hành thí nghiệm hai mẫu có tên x và y, mẫu x có 5 số liệu, mẫu y có 8 số liệu như sau: x 27.5 27 27.3 27.6 27.8 y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8 Để kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, có thể chọn Tools > Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập (trong mục Input) miền biến x và y, chọn mục Labels nếu có nhãn ở hàng dầu, chọn mức ý nghĩa α (ngầm định 0.05). Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là 0.328) lớn hơn 0.05. Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận. 15
  16. Bảng 4. Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau t-Test: Two-Sample Assuming Equal Variances x y Mean 27.44 27.05 Variance 0.093 0.26571 Observations 5 8 Pooled Variance 0.20291 Hypothesized Mean 0 Difference df 11 t Stat 1.5187 P(T<=t) one-tail 0.07852 t Critical one-tail 1.79588 P(T<=t) two-tail 0.15704 t Critical two-tail 2.20099 Hình 9 minh hoạ các bước thực hiện so sánh hai mẫu trong Excel khi hai phương sai bằng nhau. Kết quả so sánh hai mẫu cho ở bảng 4. Hình 9. Các bước thực hiện trong Excel so sánh hai mẫu cùng phương sai 16
  17. b. Phân tích kết quả Bảng kết quả thu được có hai cột cho hai mẫu quan sát, và lần lựơt có các hàng sau: - Trung bình (Mean) của mẫu a1, a2. - Phương sai (Variance) của mẫu s12, s22. - Số quan sát (Observations) n1 và n2. - Phương sai chung (Pooled Variance) tính theo công thức s2 = ((n1 − 1)s12 + ( n2 − 1)s22)/(n1 + n2 −2). - Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means difference). - Bậc tự do df để kiểm định giả thuyết H0, df bằng (n1+ n2 − 2). - Giá trị t thực nghiệm tính theo công thức: t = (a1 − a2)/Sqrt(s2×(1/n1 + 1/n2)). - Giá trị P một phía và hai phía. - Các giá trị t lý thuyết một phía và hai phía. Chý ý rằng có thể tìm được: - Giá trị P một phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2). - Giá trị t lý thuyết một phía qua hàm TINV(0.10, df). - Giá trị t lý thuyết hai phía qua hàm TINV(0.05, df). Trong ví dụ 7, ta có: phương sai của mẫu 1: 0.093; phương sai của mẫu 2: 0.26571; giá trị t thực nghiệm: 1.5187; giá trị t lý thuyết một phía: 1.79588; giá trị t lý thuyết hai phía: 2.20099; giá trị P một phía: 0.07852 và giá trị hai phía: 0.15704. Kết luận: chấp nhận giả thuyết H0 ở mức ý nghĩa 0.05. Cần lưu ý rằng, trước khi dùng mô hình phương sai bằng nhau phải kiểm định giả thuyết phụ H0: σ12 = σ22 với đối thuyết H1: σ12 > σ22. Người sử dụng có thể tự thực hiện tính toán bằng kiểm định Fisher như sau: - Bước 1: Tính F thực nghiệm bằng tỷ số giữa hai phương sai mẫu (lấy phương sai lớn chia cho phương sai bé). - Bước 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df1 của phương sai tử số và bậc tự do df2 của phương sai mẫu số, bằng hàm FINV(alpha, df1, df2)). 17
  18. Nếu F thực nghiệm bé hơn F lý thuyết thì dùng mô hình này (σ12 = σ22). Nếu trái lại, cần chuyển sang mô hình phương sai khác nhau (σ12 ≠ σ22) (mục 4.4). Trong ví dụ trên, ta có: F thực nghiệm = 0.26571/ 0.093=2.8571 và F lý thuyết = FINV(0.05, 7, 4) = 6.09421, nên chấp nhận giả thuyết H0. 4.4. So sánh hai mẫu độc lập với giả thiết hai phương sai khác nhau Trong trường hợp mẫu bé và phương sai khác nhau thì có thể tính xấp xỉ theo các bước sau: a. Các bước thực hiện: Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Unequal Variances, sau đó lần lượt trả lời: - Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát. - Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát. - Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này. - Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0; nếu lấy giả thuyết H0: m1= m2+d (d là 1 số nào đó) thì ghi d. - Output Range: Chọn miền trống để đưa kết quả ra. Ví dụ 8: Chúng ta dùng lại ví dụ 7, giả sử rằng hai phương sai tổng thể không bằng nhau. Kết quả so sánh hai mẫu cho trong bảng 5. b. Phân tích kết quả Bảng kết quả thu được gồm hai cột cho hai mẫu quan sát và lần lượt có các hàng: - Trung bình (Mean) mẫu a1, a2. - Phương sai (Variance) mẫu s12, s22. - Số quan sát (Observations) n1 và n2. - Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means difference). 18
  19. Bảng 5. Kết quả so sánh hai mẫu phương sai không bằng nhau. t-Test: Two-Sample Assuming Unequal Variances x y Mean 27.44 27.05 Variance 0.093 0.26571 Observations 5 8 Hypothesized Mean 0 Difference df 11 t Stat 1.71333 P(T<=t) one-tail 0.05733 t Critical one-tail 1.79588 P(T<=t) two-tail 0.11466 t Critical two-tail 2.20099 - Giá trị t thực nghiệm tính theo công thức: t = (a1 − a2)/(s12/n1 + s22/n2). - Giá trị P một phía và hai phía. - Các giá trị t lý thuyết một phía và hai phía. Trong ví dụ trên ta có: - Giá trị t một phía: 1.79588. - Giá trị t hai phía: 2.20099. - Giá trị P một phía: 0.05733. - Giá trị P hai phía: 0.11466. - t thực nghiệm = 1.713325. Chú ý rằng kết quả bảng 4 và 5 khác nhau ở giá trị t thực nghiệm (vì dùng công thức khác khi tính phương sai chung), điều này kéo theo giá trị P một phía và hai phía cũng khác. Theo kết quả trên giả thuyết H0 vẫn được chấp nhận ở mức ý nghĩ 0.05 do t thực nghiệm nhỏ hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05). V. Phân tích phương sai Phân tích phương sai là công cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra. Để thu thập số liệu, thí nghiệm cần được thiết kế phù hợp với mục đích nghiên cứu và điều kiện cụ thể nơi tiến hành thí nghiệm. Để phân tích 19
  20. một nhân tố, thí nghiệm thường được thiết kế theo kiểu hoàn toàn ngẫu nhiên, kiểu khối ngẫu nhiên đầy đủ, hay ô vuông La tinh. Để phân tích hai nhân tố, thí nghiệm được bố trí theo kiểu trực giao, kiểu chia ô lớn, ô vừa, ô nhỏ, hoặc kết hợp vừa chia băng vừa chia ô. Từ ba nhân tố trở lên thì cần bố trí thí nghiệm sao cho mỗi nhân tố có hai mức hay mỗi nhân tố có ba mức. 5.1. Phân tích phương sai một nhân tố Phân tích phương sai một nhân tố được sử dụng để phân tích số liệu khi theo dõi ảnh hưởng của các mức của nhân tố tới kết quả, như ảnh hưởng của các công thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các công thức phun thuốc sâu đến tỷ lệ sâu bệnh ... Để phân tích phương sai một nhân tố cần thiết kế thí nghiệm kiểu hoàn toàn ngẫu nhiên, mỗi mức lặp lại một số lần, số lần lặp của các mức của nhân tố không cần phải bằng nhau. Thiết kế thí nghiệm một nhân tố hoàn toàn ngẫu nhiên CRD. Gọi k mức của nhân tố hay k công thức cần tiến hành là T1, T2, …, Tk . Chẳng hạn trong thí nghiệm xem xét ảnh hưởng của 11 loại thuốc phòng sâu bệnh tới năng suất của một giống lúa, nhân tố ở đây chỉ gồm một yếu tố có 11 mức là 11 loại thuốc nên k = 11. Mỗi loại thuốc được thử nghiệm trên một số ô thí nghiệm (hay đơn vị thí nghiệm), mỗi ô được coi là một lần lặp. Nếu thí nghiệm 5 giống lúa và 11 loại thuốc trên và chỉ xét tác động chung của tổ hợp giống và thuốc (Gi × Pj) tới năng suất lúa thì có thí nghiệm một nhân tố với k = 5× 11 = 55 công thức thí nghiệm. Số ô thí nghiệm (hay số lần lặp) cho mỗi công thức có thể chọn tuỳ ý, không nhất thiết phải bằng nhau. Phân tích phương sai một nhân tố được tiến hành với các dữ liệu được sắp thành nhiều nhóm, mỗi nhóm là các lần lặp của một mức của nhân tố, nhằm tách biệt các phương sai theo hai nguồn biến động nhân tố và sai số. Với i = 1, 2, …, k, mỗi công thức Ti được thực hiện trên ni ô thí nghiệm, các kết quả thực nghiệm xij được coi như một mẫu thực nghiệm đối với biến ngẫu nhiên Xi. Dựa vào kết quả thực nghiệm cần đưa ra suy đoán về việc các trung bình mi của các biến Xi là như nhau (tức là các công thức không ảnh hưởng gì đáng kể tới chỉ số cần khảo sát) hay là khác nhau. Có nhiều kiểu thiết kế thí nghiệm để giải quyết bài toán này. Giả sử nhân tố có k mức, mức i được lặp lại ni lần, như vậy tổng số có n = ∑ ni quan sát, hay còn nói là có n ô thí nghiệm. Nếu bố trí n ô thí nghiệm hoàn toàn ngẫu nhiên ta có thiết kế thí nghiệm hoàn toàn ngẫu nhiên (completely randomized design). Khi tiến hành thí nghiệm kiểu này phải dùng n phiếu ghi từ 1 đến n, rút thăm ngẫu nhiên n1 phiếu để có các ô thí nghiệm đối với công thức 1, rút tiếp n2 phiếu để có các ô thí nghiệm đối với công thức 2, ..., nk ô cuối cùng là của công thức k. Việc rút thăm ngẫu nhiên được thực hiện trên toàn bộ các ô thí nghiệm. Việc tính toán và kết luận dựa trên mô hình: xij = μ + αi + eij (i = 1, …, k và j = 1, ..., ni), với xij là kết quả của lần lặp thứ j của mức i, μ là trung bình chung, αi là ảnh hưởng của mức i của nhân tố, còn eij là sai số ngẫu nhiên. xij có trung bình mi = μ +αi. Các sai số eij được giả thiết là độc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2. k ∑α Các αi được coi là thoả mãn điều kiện = 0. i i =1 20

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản