XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL

Chia sẻ: thachthaoxanh

Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools Data Analysis (nếu không có mục này thì chọn Tools Add-in Analysis ToolPak để cài đặt thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc phân...

Bạn đang xem 10 trang mẫu tài liệu này, vui lòng download file gốc để xem toàn bộ.

Nội dung Text: XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL

PGS. TS. Nguyễn Hải Thanh




XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel
(Bài giảng cho dự án CNTT 2008)




HÀ NỘI, THÁNG 10 NĂM 2008
Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel


Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data
Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt
thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số
liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc
phân tích các ảnh hưởng của các nhân tố khác nhau lên kết quả đầu ra của thí nghiệm,
thường được gọi là phân tích nhân tố.

I . Giới thiệu về phương pháp khảo sát mẫu và thống kê mô tả

1.1. Giới thiệu về phương pháp khảo sát mẫu

Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều
cá thể, có thể tiến hành theo hai cách. Cách 1: Điều tra chỉ số đó trên tất cả các cá thể của
tổng thể; cách này đòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2:
Điều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra
được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán
thống kê về chỉ số đó cho toàn bộ tổng thể. Cách 2 có thể được gọi là phương pháp thống
kê toán học, hay đơn giản hơn là phương pháp khảo sát mẫu.
Một cách tổng quát, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu
một số chỉ số nào đó cũng như các mối liên quan của chúng trên các cá thể của tổng thể.
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một
tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X1, X2, ..., Xn) trong đó Xi, i =
1, 2, …, n, là các biến ngẫu nhiên độc lập thu được từ X. Để đơn giản chúng ta gọi mẫu
này là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x1, x2, ..., xn)
trong đó xi là giá trị đo được của Xi thu được từ kết quả của thực nghiệm .

1
Đại lượng t hống kê X = (X1+X2 + ... + Xn) được gọi là trung bình mẫu lý
n
thuyết và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng
cho trung bình chung của chỉ số X. Đây là một ước lượng rất tốt với các tính chất: không
1
chệch, vững và hiệu quả. Lúc đó, x = (x1+ x2+ ...+ xn) được gọi là trung bình mẫu thực
n
nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất
vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm.

1 n

∑ (X
ˆ − X ) 2 được gọi là phương sai mẫu lý thuyết
Đại lượng thống kê: S2 = i
n i =1

1 n

∑ (X
chưa hiệu chỉnh, còn đại lượng thống kê S2 = − X ) 2 gọi là phương sai mẫu đã
i
n −1 i =1




2
1 n

∑ (x − x) 2 được gọi là phương sai mẫu thực nghiệm chưa hiệu
Lúc này, s 2 =
ˆ i
n i =1

1 n

∑ (x
chỉnh, còn s2 = − x ) 2 là phương sai mẫu thực nghiệm đã hiệu chỉnh tương ứng
i
n −1 i =1

ˆ ˆ
với mẫu thực nghiêm đã có. S và s được gọi là các độ lệch chuẩn mẫu lý thuyết và thực
nghiệm chưa hiệu chỉnh, còn S và s gọi là độ lệch chuẩn mẫu lý thuyết và thực nghiệm đã
hiệu chỉnh.

1.2. Thống kê mô tả

Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả
trong phân tích số liệu của Excel để tính các số đặc trưng mẫu của mẫu thực nghiệm như
trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode ... Số liệu tính toán được bố trí theo
cột hoặc theo hàng.

a. Các bước thực hiện trong Excel

Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau
trong hộp thoại:

- Input range: miền dữ liệu kể cả nhãn.

- Grouped by: Columns (số liệu theo cột).

- Labels in first row: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu.

- Confidence level for mean: 95% ( độ tin cậy 95%).

- K-th largest: 1 (1 số lớn nhất, 2 số lớn nhì ).

- K-th smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì ).

- Output range: miền ra.

- Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản.

Ví dụ 1: Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông
(cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất. Số liệu được bố trí như
trong hình 1.

Chọn Tools>Data Analysis>Descriptive Statistics, sau đó khai báo hộp thoại.



3
Hình 1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại.

Kết quả thu được cho trong hình 2.




Hình 2. Kết quả thống kê mô tả về các đặc tính của lúa

b. Phân tích các kết quả thu được

Một số nhận xét sơ bộ trên các thống kê thu được như sau:

- Mean cho ta giá trị trung bình của dãy số.



4
- Standard error cho ta biết tỷ số độ lệch chuẩn mẫu /căn bậc hai của n.

- Median cho giá trị điểm giữa của dãy số.

Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối. Trong ví dụ 1
các cột số liệu là cân đối trừ cột “số bông” hơi bị lệch.

- Mode cho biết giá trị xảy ra nhiều nhất trên mẫu.

- Phương sai mẫu hay độ lệch chuẩn mẫu (đã hiệu chỉnh) cho ta biết độ phân tán
của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng
tập trung.

- Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay
tù hơn đường mật độ chuẩn tắc. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp
xỉ chuẩn.

- Skewness đánh giá đường phân phối lệch trái hay lệch phải. Nếu trong khoảng
từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc.

- Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử Confidence
Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m). Trong ví
dụ 1, hình 2, ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức
là (25.85 , 26.95).

Trong trường hợp mẫ u có dung lượng n không lớn lắm và phươ ng sai lý
thuyết σ2 = V(X) chưa biết, ta có công thức tìm khoảng tin cậy với độ tin cậy p = 1−α
s s
là phân vị mức 1 − α/2 của
như sau: [ x - t α ; x + tα ], trong đó t α
n n
, n −1 , n −1 , n −1
2 2 2

phân phối Student với bậc tự do n −1.

II. Tổ chức đồ

Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ
biểu đồ tần số, còn gọi là tổ chức đồ. Để vẽ tổ chức đồ cần phải tiến hành phân tổ / nhóm
số liệu.

2.1. Tạo miền phân tổ

Để tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau:

- Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất.

- Định ra giá trị cận dưới và giá trị cận trên của miền phân tổ.

- Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này.

- Chọn Edit > Fill > Series để khai báo các mục:


5
+ Trong mục Series in chọn Columns (dữ liệu theo cột),

+ Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng),

+ Trong Step value: nhập giá trị bước tăng,

+ Trong Stop value: nhập giá trị cận trên,

+ OK.

Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên
hình 3 với miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là
55, giá trị bước tăng 5.




Hình 3. Tạo miền Bin cho các số liệu về chiều dài cá

2.2. Vẽ tổ chức đồ

a. Các bước thực hiện

Chọn Tools> Data Analysis> Histogram để khai báo các mục:

- Input range: miền dữ liệu.

- Input Bin: miền phân tổ.

- Labels : nhãn ở hàng đầu nếu có.

- Output range: miền kết quả.

- Pareto: tần số sắp xếp giảm dần.

- Cumulative Percentage: tần suất cộng dồn %.

- Chart output: biểu đồ.




6
- OK.

Trong ví dụ 2 chọn Tools> Data Analysis> Histogram và khai báo như trong hình 4.




Hình 4. Các khai báo để vẽ tổ chức đồ

b. Kết quả vẽ tổ chức đồ




Hình 5. Tổ chức đồ

c. Phân tích kết quả

- Tần số số liệu rơi vào từng khoảng được ghi ở cận trên của khoảng. Chẳng
hạn, có 2 số liệu thuộc vào khoảng (10, 15], vì vậy số 2 được ghi tương ứng với số 15
là cận trên.




7
- Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất.
Ngoài ra, hình dạng của tổ chức đồ còn cho biết: dãy số liệu khảo sát được về chiều dài của
cá có thể coi là tuân theo luật chuẩn.

III. Tính hệ số tương quan và tìm phương trình hồi qui
3.1. Tính hệ số tương quan

Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập
được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến).

a. Các bước thực hiện
Chọn Tools>Data Analysis>Correlation và khai báo các mục:
- Input range: miền dữ liệu kể cả nhãn.
- Grouped by: Column (số liệu theo cột).
- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng đầu.
- Output range: miền xuất kết quả ra.
- OK.
Ví dụ 3: Để nghiên cứu mối tương quan giữa các đặc tính dài bông, số hạt, số
bông với năng suất lúa, cần thực hiện các bước sau:
- Chọn Tools>Data analysis>Correlation.
- Khai báo các mục (xem hình 6).




Hình 6. Các bước khai báo khi tính hệ số tương quan




8
- Kết quả thu được trên bảng 1.

Bảng 1. Kết quả tính hệ số tương quan
Dài bông P1000 Số bông Năng suất
Dài bông 1
P1000 0.233314 1
−0.22056
Số bông 0.340772 1
Năng suất 0.200805 0.66632 0.661379 1
b. Phân tích kết quả
- Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột.
- Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn
tương quan giữa “dài bông” và “số bông” là nghịch biến).
- Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương
quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm
coi là tương quan tuyến tính mạnh).
3.2. Tìm phương trình hồi quy
Excel cho phép tìm phương trình hồi quy tuyến tính đơn y = a + bx và hồi quy
tuyến tính bội y = a0 + a1x1 + a2x2 + . . . + anxn. Các biến độc lập chứa trong n cột, biến
phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc
được xếp trên cùng một hàng.
a. Các bước thực hiện
Chọn Tools>Data Analysis>Regression và khai báo các mục:
- Input y range: miền dữ liệu biến y.
- Input x range: miền dữ liệu các biến x.

- Label: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu.
- Confidence level : 95% ( độ tin cậy 95%).

- Constant in zero: đánh dấu √ nếu hệ số tự do a0 = 0 .
- Output range: miền xuất kết quả.

- Residuals: đánh dấu √ vào ô này để hiện phần dư hay sai lệch giữa y thực nghiệm
và y theo hồi quy.

- Standardized residuals: đánh dấu √ để hiện phần dư đã chuẩn hoá.

- Residuals plot: đánh dấu √ để hiện đồ thị phần dư.

- Line fit plots: đánh dấu √ để hiện đồ thị các đường dự báo.



9
- Normal probability plot: đánh dấu √ để hiện đồ thị phần dư đã chuẩn hoá.
- OK.
Ví dụ 4: Tìm phương trình hồi qui y = a0 + a1x1 + a2x2 + a3x3 của năng suất lúa y
phụ thuộc tuyến tính vào độ dài bông (x1), trọng lượng 1000 hạt (x2) và số bông / một cây
(x3) với các số liệu cho trong hình 7.
Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình 7 để
thu được kết quả như trên hình 8.
b. Phân tích kết quả
- Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến
tính là thích hợp (ngược lại nên tìm mô hình khác). Trong ví dụ 4 hệ số tương quan bội là
0.8375 nên mô hình tuyến tính được coi là thích hợp.
- Hệ số tương quan R square trong ví dụ 4 là 0.7014 cho biết 70.14% sự biến động
của y là do các yếu tố x1, x2, x3 gây nên. Hệ số Adjusted R square là 62.00% không sát gần
với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết.
- F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý
nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận.
- Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo. Trong ví dụ
4 phương trình hồi quy là: y = − 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 . Tuy
nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không đáng tin cậy, vì
xác suất tương ứng > 0.05 (mức ý nghĩa đã chọn). Trong trường hợp này, cần tiến hành lọc
bớt biến x1 để được đường hồi quy với các hệ số đều có ý nghĩa.




Hình 7. Khai báo để tìm phương trình hồi quy




10
Hình 8. Kết quả tìm phương trình hồi quy

IV. So sánh hai mẫu

Bài toán ở đây là cần so sánh hai mẫu thông qua việc kiểm định giả thuyết H0: m1 =
m2 (kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H1: m1 ≠ m2 ở mức ý
nghĩa α trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết H1 là
m1 > m2 (khi x > y ) hoặc m1 < m2 (khi x < y ).

4.1. So sánh hai mẫu độc lập khi biết phương sai σ12 và σ22

Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đó
chúng ta có thể ước lượng được các phương sai σ12 và σ22. Chẳng hạn, nếu điều tra lại hai
tổng thể sau một thời gian chưa lâu thì các phương sai được coi là chưa thay đổi, do đó lấy
phương sai của lần điều tra trước làm ước lượng cho σ12 và σ22 (như khi xem xét các kết
quả phân tích của hai phòng thí nghiệm mà độ chính xác đã ổn định, từ đó có ước lượng về
các phương sai).

a. Các bước thực hiện

Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đó lần lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.

- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.

- Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này.



11
- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể.
Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào
đó) thì ghi d.

- Variable 1 variance: phương sai của biến 1(nhập σ12).

- Variable 2 variance: phương sai của biến 2 (nhập σ22).

- Output Range: chọn miền trống để đưa ra kết quả.

Ví dụ 5: Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được, mẫu 2 có 12
quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6.
x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9
y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6
Kết quả so sánh hai mẫu cho ở bảng 2.

Bảng 2. Kết quả so sánh hai mẫu độc lập
z-Test: Two Sample for Means
Mẫu 1 Mẫu 2
Mean 3.6 3.5
Known Variance 2.7 2.6
Observations 10 12
Hypothesized 0
Mean Difference
Z 0.14335
P(Z t-Test: Paired Two Sample for Means, sau đó lần
lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1,
kể cả tên hàng đầu của mẫu quan sát.

- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.

- Labels: nếu cần thêm hàng đầu về tên biến thì chọn mục này.




13
- Hypothesized means difference: giả thiết về hiệu hai trung bình của hai tổng thể.
Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H0: m1 = m2 + d (d là một số
nào đó) thì ghi d.

- Output Range: Chọn miền trống để đặt ra kết quả.

Ví dụ 6: Có 8 cặp số liệu của hai mẫu cặp đôi x và y cho trong bảng sau:
x 39.6 32.4 33.1 27 36 32 25.9 32.4
y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2
Thực hiện phân tích trong Excel ta được kết quả như trên bảng 3.

Bảng 3. Kết quả so sánh hai mẫu cặp đôi
x y Giải thích
Mean 32.3 30.725 Trung bình mẫu
Variance 19.54 23.451 Phương sai mẫu
Observations 8 8 Số quan sát
Pearson Correlation 0.96187 Hệ số tương quan R
Hypothesized Mean 0 Giả thuyết về hiệu số
Difference trung bình
df 7 Bậc tự do
t Stat 3.31055 Giá trị t thực nghiệm
P(T t-Test: Two-Sample Assuming Equal Variances,
sau đó lần lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.

- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.

- Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này.

- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H0: m1=m2 thì ghi 0. Nếu lấy giả thuyết H0: m1 = m2 + d (d là 1 số
nào đó) thì ghi d.

- Output Range: chọn miền trống để đưa kết quả ra.

Ví dụ 7: Tiến hành thí nghiệm hai mẫu có tên x và y, mẫu x có 5 số liệu, mẫu y có
8 số liệu như sau:
x 27.5 27 27.3 27.6 27.8
y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8
Để kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, có thể chọn
Tools > Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập
(trong mục Input) miền biến x và y, chọn mục Labels nếu có nhãn ở hàng dầu, chọn mức ý
nghĩa α (ngầm định 0.05). Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là
0.328) lớn hơn 0.05. Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận.



15
Bảng 4. Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau
t-Test: Two-Sample Assuming Equal Variances


x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Pooled Variance 0.20291
Hypothesized Mean 0
Difference
df 11
t Stat 1.5187
P(TData Analysis > t-Test: Two-Sample Assuming Unequal Variances,
sau đó lần lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.

- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.

- Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này.

- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0; nếu lấy giả thuyết H0: m1= m2+d (d là 1 số
nào đó) thì ghi d.

- Output Range: Chọn miền trống để đưa kết quả ra.

Ví dụ 8: Chúng ta dùng lại ví dụ 7, giả sử rằng hai phương sai tổng thể không
bằng nhau. Kết quả so sánh hai mẫu cho trong bảng 5.

b. Phân tích kết quả

Bảng kết quả thu được gồm hai cột cho hai mẫu quan sát và lần lượt có các hàng:

- Trung bình (Mean) mẫu a1, a2.

- Phương sai (Variance) mẫu s12, s22.

- Số quan sát (Observations) n1 và n2.

- Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means
difference).



18
Bảng 5. Kết quả so sánh hai mẫu phương sai không bằng nhau.
t-Test: Two-Sample Assuming Unequal Variances
x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Hypothesized Mean 0
Difference
df 11
t Stat 1.71333
P(T Anova: Single Factor và khai báo:
- Input range: khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn bộ các ô
chứa tên mức và toàn bộ các số liệu).
- Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng).
- Label in First column: nhãn hàng đầu.
- Alpha: 0.05 (mức ý nghĩa α).
- Output range: miền xuất kết quả ra.
b. Phân tích kết quả
- Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch
chuẩn...) và bảng phân tích phương sai.

- Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F lý thuyết) thì các
công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt
đáng kể.

- Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước
tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất.

Ví dụ 9: Thí nghiệm ảnh hưởng của các loại thuốc đến năng suất lúa (11 loại thuốc
là T1 đến T11, 4 cột số liệu là năng suất thu được), số liệu thu được cho trong bảng 6, các
lệnh thực hiện trong Excel được minh hoạ trong hình 10, còn kết quả cho trong bảng 7.

Bảng 6. Ảnh hưởng của các loại thuốc đến năng suất (ns) lúa
Loại thuốc NS ô 1 NS ô 2 NS ô 3 NS ô 4
T1 3.187 4.61 3.562 3.217
T2 3.39 2.875 2.775
T3 2.797 3.001 2.505 3.49
T4 2.832 3.103 3.448 2.255
T5 2.233 2.743 2.727
T6 2.952 2.272 2.47
T7 2.858 2.895 2.458 1.723
T8 2.308 2.335 1.957
T9 2.013 1.788 2.248 2.115
T10 3.202 3.06 2.24 2.69
T11 1.192 1.652 1.075 1.03




21
Hình 10. Thực hiện phân tích phương sai một nhân tố trong Excel.

Bảng 7. Kết quả phân tích phương sai
Groups Count Sum Average Variance
T1 4 14.576 3.644 0.443686
T2 3 9.04 3.013333 0.108908
T3 4 11.793 2.94825 0.171874
T4 4 11.638 2.9095 0.253934
T5 3 7.703 2.567667 0.084065
T6 3 7.694 2.564667 0.122321
T7 4 9.934 2.4835 0.296198
T8 3 6.6 2.2 0.044469
T9 4 8.164 2.041 0.037706
T 10 4 11.192 2.798 0.184963
T 11 4 4.949 1.23725 0.081114


ANOVA
Source of SS df MS F P-value F crit
Variation
Between 15.1039 10 1.51039 8.54171 2.66E-06 2.1768
Groups
Within 5.1279 29 0.17682
Groups
Total 20.2319 39




22
Từ bảng 7 ta kết luận các công thức có tác động khác nhau tới năng suất lúa.

Giải thích: Như đã nói ở trên, phân tích phương sai một nhân tố tách biệt các
phương sai theo hai nguồn biến động nhân tố và sai số. Theo bảng 7, ta có:

- Tổng sai lệch giữa các nhóm do các mức của nhân tố tạo nên là SST (sum of
2 2
⎛ ni ⎞ ⎛ k ni ⎞
( )
k k
2
squares treatment) = ∑ n i x i − x = ∑ ⎜ ∑ x ij ⎟ / n i − ⎜ ∑∑ x ij ⎟ / n = 15.1039. Do đó
i =1 ⎝ j=1 ⎠ ⎝ i=1 j=1 ⎠
i =1

tổng sai lệch trung bình giữa các nhóm là MSST = SST/ (k−1) = 15.1039/ 10 = 1.5139.

- Tổng sai lệch trong từng nhóm do các sai số eij gây nên là SSE (sum of squares
2
⎛ k ni 2 ⎞ k ⎛ ni ⎞
ni
k
( )
error) = ∑∑ x ij − x = ⎜ ∑∑ x ij ⎟ − ∑ ⎜ ∑ x ij ⎟ / n i = 5.1279. Do đó tổng sai lệch trung
2


⎝ i=1 j=1 ⎠ i =1 ⎝ j=1 ⎠
i =1 j=1

bình trong từng nhóm là MSSE = SSE/ (n−k) = 5.11279/ 29 = 0.12682.

Với các giả thiết đã nêu, có thể chứng minh được đại lượng thống kê F =
MSST/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k). Do đó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả
thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”
bị bác bỏ ở mức ý nghĩa α = 0.05. Điều này có nghĩa là các công thức sử dụng thuốc có tác
động khác nhau tới năng suất lúa.

Ngoài ra, từ bảng 7 có thể nhận xét rằng công thức T1 cho năng suất cao nhất. Tuy
nhiên, để kết luận chính xác hơn về điều này cần so sánh trung bình giữa các nhóm.

Bảng 8. So sánh trung bình giữa các nhóm
T1 − Ti
Groups Count Sum Average
T1 4 14.576 3.6440
T2 3 9.040 3.0133 0.6307
T3 4 11.793 2.9483 0.6958
T4 4 11.638 2.9095 0.7345
T10 4 11.192 2.7980 0.8460
T5 3 7.703 2.5677 1.0763
T6 3 7.694 2.5647 1.0793
T7 4 9.934 2.4835 1.1605
T8 3 6.600 2.2000 1.4440
T9 4 8.164 2.0410 1.6030
T11 4 4.949 1.2373 2.4068
Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với
các mức của nhân tố (các công thức). Tuy nhiên, nếu cần so sánh trung bình mi (với ni lần
lặp) với trung bình mj (nj lần lặp) người dùng có thể tự tính thêm LSD (Least Significance
Difference) theo công thức LSD = tα,df × SQRT(s2(1/ni + 1/nj)), trong đó s2 là phương sai



23
chung được ước lượng bởi trung bình sai số bình phương trong nội bộ nhóm (MS within
groups), α = 1 − p, và tα , df là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự
do. tα , df có thể tìm được bằng cách tra bảng số hay bằng hàm TINV trong Excel.

Trong ví dụ 9, để so sánh ảnh hưởng của thuốc T1, T2 đến năng suất lúa, trước hết
cần tính trị tuyệt đối | m1− m2| của hiệu các năng suất trung bình m1, m2 khi sử dụng 2 loại
thuốc trên (chính bằng 0.6307, xem bảng 8). Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng
Student)có s2= 0.17682. LSD được tính cho các trường hợp ri, rj bằng 3 hoặc 4 như sau:

LSD= 2.045 × SQRT( 0.17682×(1/3+1/4) = 0.656739049;

LSD= 2.045 × SQRT( 0.17682×(1/4+1/4) = 0.608022212;

LSD= 2.045 × SQRT( 0.17682×(1/3+1/3) = 0.702083575.

Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa
ta có: | m1- m2| = 0.6307 Data Analysis >Anova: Two Factor Without Replication sau đó khai
báo tiếp các thông tin trong hình 11 và kích OK.




Hình 11. Hộp thoại khai báo để phân tích phương sai không tương tác
Ví dụ 10: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối ngẫu nhiên đầy đủ
(nhân tố 2 có bốn khối), ta thu được các số liệu như trong bảng 9.


25
Bảng 9. Số liệu phân tích một nhân tố theo khối ngẫu nhiên
Khối 1 Khối 2 Khối 3 Khối 4
Mức 1 47 52 62 51
Mức 2 50 54 67 57
Mức 3 57 53 69 57
Mức 4 54 65 74 59
Kết quả thu được khi phân tích phương sai cho ở bảng 10.

b. Phân tích kết quả

- Các mức của nhân tố 1 có ảnh hưởng khác nhau đến kết quả (F thực nghiệm > F
lý thuyết).

- Các mức của nhân tố 2 có ảnh hưởng khác nhau đến kết quả (F thực nghiệm > F
lý thuyết).

Chú ý: F lý thuyết có thể tìm bằng hàm FINV(0.05, 3, 9) =3.86254, và giá trị t
cũng có thể tìm được bằng hàmTINV(0.05, 9) =2.262.

Bảng 10. Kết quả phân tích phương sai hai nhân tố không tương tác
Anova: Two-Factor Without Replication
Phân tích nhân tố 1(hàng)
SUMMARY Count Sum Average Variance
Mức 1 4 212 53 40.6667
Mức 2 4 228 57 52.6667
Mức 3 4 236 59 48
Mức 4 4 252 63 74
Phân tích nhân tố 2 (cột)
Khối 1 4 208 52 19.3333
Khối 2 4 224 56 36.6667
Khối 3 4 272 68 24.6667
Khối 4 4 224 56 12
ANOVA
Source of SS df MS F P-value F crit
Variation
Rows 208 3 69.3333 8.91429 0.00465 3.86254
Columns 576 3 192 24.6857 0.00011 3.86254
Error 70 9 7.77778
Total 854 15
Giải thích: Phân tích phương sai hai nhân tố không tương tác tách biệt các phương
sai theo ba nguồn biến động nhân tố A (khối), nhân tố B và sai số. Theo bảng 10, ta có:




26
- Tổng sai lệch toàn phần là SSTO (total sum of squares) =
k r r k

∑∑ ( x − x ) = ∑∑ x ij − nx 2 = 854.
2 2
ij
i =1 j=1 j=1 i=1


- Tổng sai lệch do nhân tố A (khối) là SSB (sum of squares due to block)
2
1 r⎛k ⎞
( )
r 2
x. j − x = ∑ ⎜ ∑ x ij ⎟ − nx 2 = 576. Do đó tổng sai lệch trung bình giữa các nhóm
r∑
k j=1 ⎝ i=1 ⎠
j=1

của nhân tố A là MSSB = SSB/ (r−1) = 576/ 3 = 132.

- Tổng sai lệch do nhân tố B là SST (sum of squares due to treatment)
2
1k⎛r ⎞
( )
k 2
k ∑ x i. − x = ∑ ⎜ ∑ x ij ⎟ − nx 2 = 208. Do đó tổng sai lệch trung bình giữa các nhóm
r i=1 ⎝ j=1 ⎠
i =1

của nhân tố B là MSST = SST/ (k−1) = 208 / 3 = 69.3333.

- Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO
− SSB − SST = 854 − 576 − 208 = 70. Do đó tổng sai lệch trung bình của sai số ngẫu nhiên
là MSSE = SSE/ (n−k−r+1) = 70 / 9 = 7.7778.

Với giả thiết đã nêu, có thể chứng minh được rằng đại lượng thống kê FT =
MSST/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k−l+1). Do đó, nếu FT thực nghiệm = 8.91429 > FT lý thuyết = f (0.05; 3, 9) = 3.86254
thì giả thuyết “các công thức không ảnh hưởng tới số trung bình chung” không được chấp
nhận theo quy tắc kiểm định có mức ý nghĩa α = 0.05. Điều này có nghĩa là các công thức
khác nhau có tác động khác nhau tới số trung bình chung. Ngoài ra, cần chú ý rằng do FB B




thực nghiệm = 24.6857 > FB lý thuyết = f (0.05; 3, 9) = 3.86254 nên giả thuyết “các khối
không ảnh hưởng tới số trung bình chung” cũng bị bác bỏ theo quy tắc kiểm định có mức ý
nghĩa α = 0.05. Điều này có nghĩa là các khối khác nhau có tác động khác nhau tới số
trung bình chung.

Chú ý: Việc thiết kế thí nghiệm khối ngẫu nhiên đầy đủ là rất hợp lý khi chỉ gặp
một yếu tố hạn chế, tức là chỉ có một nguồn biến động duy nhất ảnh hưởng tới khu vực thí
nghiệm. Trong trường hợp có hai yếu tố hạn chế (hai nguồn biến động) ảnh hưởng tới thí
nghiệm, thí nghiệm có thể được thiết kế theo kiểu ô vuông La tinh (Latin squares).

Các số liệu thu thập được thu thập theo hàng (mỗi hàng là một mức của nhân tố A,
chẳng hạn như hướng gió trong thí nghiệm khảo sát năng suất các loại lúa chịu hạn) và
theo cột (mỗi cột là một mức của nhân tố B, chẳng hạn như độ cao của địa điểm canh tác).
Trong thiết kế thí nghiệm theo ô vuông La tinh, số mức của nhân tố A bắt buộc bằng số
mức của nhân tố B và bằng k. Ngoài ra, số công thức cần tiến hành thí nghiệm (số mức của
nhân tố C) cũng bằng k. Thí nghiệm được thiết kế ngẫu nhiên sao cho tại mỗi tổ hợp (một
mức của nhân tố A, một mức của nhân tố B) có duy nhất một công thức thí nghiệm (một
mức của nhân tố C) được tiến hành. Như vậy thay vì số ô thí nghiệm là k3, trong thiết kế
thí nghiệm kiểu ô vuông La tinh chúng ta chỉ cần có k2 ô thí nghiệm.


27
Các công thức tính SSTO (tổng sai lệch toàn phần), SSA , SSB, SSC và SSE (các
tổng sai lệch do các nhân tố A, B, C và sai số ngẫu nhiên) cũng được tính tương tự như các
công thức đã biết trên đây. Các tổng sai lệch này có các bậc tự do tương ứng là k2 −1, k −1,
k − 1, k −1 và k2 − 3k +2 (với k ≥ 4). Từ đó tính được MSSA, MSSB, MSSC và MSSE.
Tiếp theo cần thiết lập các giá trị F thực nghiệm là: FA = MSSA/MSSE, FB =
MSSB/MSSE, FC = MSSC/MSSE để rút ra các suy đoán thống kê tương ứng.

Sử dụng chức năng phân tích số liệu của Excel cũng có thể giúp xử lý được các số
liệu thu được khi thiết kế thí nghiệm theo kiểu ô vuông La tinh một cách nhanh chóng hơn.
Trước hết cần nhập số liệu của các ô vuông La tinh vào bảng tính Excel (giả sử các số liệu
thu được cúng giống như trong ví dụ 6), sau đó thực hiện lệnh Tools >Data Analysis
>Anova: Two Factor Without Replication để thu được kết quả tương tự như trên bảng I.6.
Lúc đó sẽcó SSA = 208, SSB = 576. Sau đó cần tính trực tiếp để thu được SSC theo công
2 2
1k⎛ ⎞ 1k⎛ ⎞ x2
thức: ∑ ⎜ ∑ x ijs ⎟ − nx 2 = ∑ ⎜ ∑ x ijs ⎟ − 2 , trong đó xijs là các số liệu thu được khi
k s=1 ⎝ i,j k s=1 ⎝ i,j ⎠k

thực hiện công thức s, với s = 1, 2, …, k. Giả sử các số liệu được tổng hợp như tại bảng 11.

Bảng 11. Số liệu phân tích một nhân tố theo ô vuông La tinh
Các mức B1 B2 B3 B4
A1 47 (C3) 52 (C4) 62 (C1) 51 (C2)
A2 50 (C2) 54 (C3) 67 (C4) 57 (C1)
A3 57 (C1) 53 (C2) 69 (C3) 57 (C4)
A4 54 (C4) 65 (C1) 74 (C2) 59 (C3)

Lúc đó, SSC = (2412 + 2282 + 2292 + 2302)/4 −(241 + 228 + 229 + 230)2/16 =
27.5. Do đó, SSE = SSTO − SSA − SSB − SSC = 854 − 208 − 576 − 27.5 = 42.5. Từ đó
tính được MSSC = 27.5/ 3 = 9.1667 và MSSE = 42.5/ 6 = 7.0834. Vậy FC thực nghiệm =
MSSC / MSSE = 7.0834 / 9.1667 = 0.77273. Trong khi đó FC lý thuyết = f(0.05; 3, 6) =
4.757. Suy đoán thống kê có thể được đưa ra là: các công thức không ảnh hưởng đáng kể
tới số trung bình chung của chỉ số khảo sát.

5.3. Phân tích phương sai hai nhân tố

Trong trường hợp này khi phân tích phương sai, ngoài tác động của từng nhân tố
A và nhân tố B lên kết quả của thí nghiệm, ta phải tính đến sự tác động đồng thời còn gọi
là tác động tương tác của cả hai nhân tố này.

Thiết kế thí nghiệm hai nhân tố. Một số kiểu thiết kế thí nghiệm được áp dụng để
phân tích phương sai hai nhân tố tương tác là: thiết kế thí nghiệm trực giao (hai nhân tố
chéo nhau , OED), thiết kế thí nghiệm phân cấp (hai nhân tố lồng nhau, HED), thiết kế thí
nghiệm chia ô (SPED) và thiết kế thí nghiệm chia băng (StPED). Hình 12 minh hoạ các
cách thiết kế thí nghiệm. Tuỳ theo mục đích và điều kiện thí nghiệm trong các lĩnh vực




28
chuyên môn, thí nghiệm được thiết kế theo cách thức thích hợp và số liệu thực nghiệm thu
được cũng được xử lý một cách phù hợp nhằm rút ra các suy đoán thống kê có ý nghĩa.

Thiết kế thí nghiệm tr ự c giao : Trường hợp đơn giản nhất của mô hình chéo nhau
là yếu tố A có 2 mức A1 và A2, yếu tố B có 2 mức B1 và B2. Các tổ hợp có thể của các mức
yếu tố được minh họa trên hình 12a.

Thiết kế thí nghiệm phân cấp: Kiểu thí nghiệm hai nhân tố phân cấp (Hierachical)
hay chia ổ (Nested) thường được dùng trong các nghiên cứu về di truyền. Trong đó một
nhân tố là cấp trên, một nhân tố là cấp dưới, thí nghiệm lặp lại r lần. Để cụ thể xét thí dụ A
là bò đực giống, tất cả có 4 con A1, A2, A3, A4. Mỗi con đực cho phối với 3 con cái gọi tắt
là B1, B2, B3. Mỗi con bò cái sinh 4 con. Ta có sơ đồ như được minh họa trên hình 12b.

Thiết kế thí nghiệm chia ô (phân cấp theo khối): Thí nghiệm được bố trí theo
khối, mỗi khối chia thành k ô lớn để bắt thăm cho k mức của nhân tố A. Việc bắt thăm
được thực hiện riêng rẽ cho từng khối. Mỗi ô lớn chia thành r ô nhỏ để bắt thăm cho r mức
của nhân tố B. Việc bắt thăm thực hiện riêng rẽ cho từng ô lớn.Thí dụ yếu tố A có 4 mức
(A1, A2, A3và A4), yếu tố B có 2 mức (B1 và B2). Ba mức của yếu tố A được bố trí trên ô
lớn trong 3 khối. Mỗi ô lớn chia nhỏ thành 2 ô nhỏ để bố trí ngẫu nhiên các mức của yếu tố
B. Sơ bố trí thí nghiệm có thể được trình bày như trên hình 12c.

Thiết kế thí nghiệm chia băng: Xem minh họa trên hình 12d.

Thiết kế thí nghiệm trực giao. Chúng ta đi sâu vào thiết kế thí nghiệm trực giao.
Giả sử nhân tố A có k mức là A1, A2, …, Ak và nhân tố B có r mức là B1, B2, … Br. Số
công thức là k×r, mỗi công thức được lặp lại s lần. Như vậy chúng ta có tất cả k×r×s ô thí
nghiệm. Có thể thiết kế thí nghiệm trực giao theo kiểu ngẫu nhiên hoàn toàn (CRD) hoặc
theo kiểu khối ngẫu nhiên đầy đủ (RCBD). Trong trường hợp thứ nhất ta cần bắt thăm các
ô thí nghiệm để phân vào mỗi ô một công thức: trước hết bắt thăm ngẫu nhiên s ô để phân
công cho công thức thứ nhất, tiếp theo bắt thăm s ô để phân cho công thức thức 2, …, làm
như vậy cho tới công thức thứ k×r. Trong trường hợp thứ hai, ta cần bố trí đủ s khối, mỗi
khối phải có đủ k×r công thức được phân vào các ô một cách ngẫu nhiên.

Việc tính toán và kết luận dựa trên mô hình: xijq = μ + αi + βj + (αβ)ij + eijq (i = 1,
…, k, j = 1, ..., r và q = 1, 2, …, s), với xijq là kết quả của các mức i của nhân tố A, mức j
của nhân tố B và ô thí nghiệm thứ q, μ là trung bình chung, αi là ảnh hưởng của mức i của
nhân tố A, βj là ảnh hưởng mức j của nhân tố B, (αβ)ij là ảnh hưởng của sự tương tác của
mức i của A và mức j của B, còn eijq là sai số ngẫu nhiên. Các sai số eijq được giả thiết là
độc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2. Các tham số αi và βj
r r
k k

∑ α = ∑ β = ∑ ( αβ ) ∑ ( αβ )
được coi là thoả mãn điều kiện = =0.
j
i ij
ij
i =1 j=1 i=1 j=1




29
a. TKTN tr ự c giao
Yếu tố B
Yếu tố A
B1 B2
B B




A1 A1B1 A1B2
B B




A2 A2B1 A2B2
B B




b. TKTN phân cấp
A 1 2 3 4

B 1 2 3 1 2 3 1 2 3 1 2 3
x111 x121 x131 x211 x221 x131 x311 x321 x331 x411 x421 x431
x112 x122 x132 x212 x222 x232 x312 x322 x332 x412 x422 x432
x113 x123 x133 x213 x223 x233 x313 x323 x333 x413 x423 x433
x114 x124 x134 x214 x224 x234 x314 x324 x334 x414 x424 x434


c. TKTN chia ô
Khối 1 Khối 2 Khối 3

A4 A1 A2 A3 A2 A1 A4 A3 A1 A2 A4 A3

B2 B2 B1 B2 B1 B2 B1 B1 B2 B1 B2 B1
B B B B B B B B B B B B




B1 B1 B2 B1 B2 B1 B2 B2 B1 B2 B1 B2
B B B B B B B B B B B B




d. TKTN chia băng
Các A
nhân tố B A1 A2 A3

Khối 1 B1 56 32 49
B




B2 67 54 58
B




Khối 2 B1 38 62 50
B




B2 52 72 64
B




Khối 3 B1 54 44 51
B




B2 63 54 68
B




Hình 12. Các kiểu thiết kế thí nghiệm trực giao, phân cấp, chia ô và chia băng

Sau khi tiến hành thí nghệm, số liệu thu được được sắp xếp như sau:

- Nhân tố A đánh theo hàng với các mức khác nhau, nhân tố B đánh theo cột với
các mức khác nhau.




30
- Mỗi mức của nhân tố A được dành s hàng (cho s lần lặp) còn mỗi mức của nhân
tố B được dành đúng 1 cột.
- Tên mỗi mức của nhân tố A chỉ viết một lần trong s ô ở cột đầu, còn tên các
mức của nhân tố B thì ghi đầu ở mỗi cột trên hàng đầu, kể từ cột thứ 2. Các ô từ hàng 2 cột
2 trở đi ghi kết quả của các lần lặp của các tổ tổ hợp mức.

- Bảng phân tích phương sai có 5 hàng: Hàng cho nhân tố A, hàng dành cho nhân
tố B, hàng cho tương tác A× B, hàng cho sai số và hàng Total. Giá trị F lý thuyết được tính
ở cột cuối, ta có thể kiểm tra qua hàm FINV (trong Excel). Cột P – value là xác suất tương
ứng với giá trị F thực nghiệm, nếu giá trị này nhỏ hơn alpha thì ta kết luận nhân tố (hoặc
tương tác) tương ứng có ảnh hưởng đến kết quả thí nghiệm.

Muốn so sánh các trung bình ta làm như phân tích một nhân tố sau khi tìm giá trị t
bằng hàm TINV với số bậc tự do của sai số và căn cứ vào số lần lặp của các trung bình mà
ta muốn so sánh.

a. Các bước thực hiện

Chọn Tools >Data Analysis >Anova: Two Factor With Replication, sau đó khai
báo các thông tin như trong hình 13 và kích OK.

Ví dụ 11: Nghiên cứu ảnh hưởng của việc bón phân khoáng (nhân tố A) theo bốn công
thức và mật độ trồng (nhân tố B) gồm ba mức tới sản lượng bông ta có bảng số liệu (bảng 12).

Bảng 12. Năng suất bông (tạ/ha)
Mức 1 Mức 2 Mức 3
C.thức 1 14 15 19
15 17 19
16 19 18
21 18 17
C.thức 2 20 18 21
19 19 20
23 18 21
19 20 23
C.thức 3 21 21 21
19 22 22
22 21 18
20 23 21
C.thức 4 20 21 24
23 22 23
21 19 21
19 20 25




31
Hình 13. Hộp thoại khai báo khi phân tích phương sai 2 nhân tố tương tác

Thực hiện các lệnh phân tích phương sai hai nhân tố tương tác như minh hoạ trên
hình 13. Kết quả phân tích phương sai cho ở bảng 13.

b. Phân tích kết quả: Theo kết quả xử lý trên bảng 13, ta rút ra kết luận:

- FA=14.9898 > F0.5A= 2.86627, do đó các công thức phân bón ảnh hưởng rõ rệt
đến năng suất bông.

- FB= 3.22194 < F0.5B = 3.25944, nên tăng mật độ cây không hy vọng làm tăng
năng suất bông.

- FAB = 1.46684 < F0.5AB = 2.36375, nên ảnh hưởng đồng thời của cả hai nhân tố
không tác động đáng kể tới năng suất bông.

- Bảng SUMMARY cho kết quả tính toán từng cấp của nhân tố A (viết theo hàng)
và chung cho toàn bộ mẫu, bao gồm: số quan sát (Count), tổng giá trị quan sát (Sum), trị số
trung bình (Average) và phương sai (Variance).

- Bảng phân tích phương sai ANOVA: Cột đầu tiên là các nguồn gây ra biến động
(Source of Variation) gồm có: mẫu (sample) là các biến động do -nhân tố viết theo hàng gây
ra, biến động của nhân tố B - viết theo cột (Columns), biến động do tác động tương tác của
các nhân tố A và B (Interaction), biến động ngẫu nhiên (within) và của tất cả các yếu tố trên
(Total). Các cột khác gồm: tổng sai số bình phương (SS), số bậc tự do (df), tổng sai số bình
phương trung bình (MS =ss/df), giá trị F thực nghiệm (F), giá trị xác suất P và giá trị F lý
thuyết tương ứng với các yếu tố trong cột thứ nhất.



32
Bảng 13. Kết quả phân tích phương sai hai nhân tố tương tác
SUMMARY Mức 1 Mức 2 Mức 3 Total
Công thức 1
Count 4 4 4 12
Sum 66 69 73 208
Average 16.5 17.25 18.25 17.33333
Variance 9.666667 2.916667 0.916667 4.242424
Công thức 2
Count 4 4 4 12
Sum 81 75 85 241
Average 20.25 18.75 21.25 20.08333
Variance 3.583333 0.916667 1.583333 2.810606
Công thức 3
Count 4 4 4 12
Sum 82 87 82 251
Average 20.5 21.75 20.5 20.91667
Variance 1.666667 0.916667 3 1.901515
Công thức 4
Count 4 4 4 12
Sum 83 82 93 258
Average 20.75 20.5 23.25 21.5
Variance 2.916667 1.666667 2.916667 3.727273
Total
Count 16 16 16
Sum 312 313 333
Average 19.5 19.5625 20.8125
Variance 6.8 4.395833 5.095833


ANOVA
Source of SS df MS F P-value F crit
Variation
Sample 122.4167 3 40.80556 14.9898 1.71E-06 2.866265
Columns 17.54167 2 8.770833 3.221939 0.051615 3.259444
Interaction 23.95833 6 3.993056 1.466837 0.21725 2.363748
Within 98 36 2.722222

Total 261.9167 47




33
Giải thích: Phân tích phương sai hai nhân tố tương tác nhằm tách biệt các phương
sai theo bốn nguồn biến động gây nên bởi nhân tố A, nhân tố B, tác động tương tác của
nhân tố A và B, cũng như sai số. Theo bảng 13, ta có:
k r s
- Tổng sai lệch toàn phần là SSTO (total sum of squares) = ∑∑∑ x ijq − nx 2 =
2

i=1 j=1 q =1

261.9167 (với n = k×r×s = 4×3×4 = 48).

- Tổng sai lệch do nhân tố A là SSA (sum of squares due to factor A) =
2
1 k⎛r s ⎞
∑ ⎜ ∑∑ x ijq ⎟ − nx 2 = 122.4167. Do đó tổng sai lệch trung bình giữa các nhóm của
rs i =1 ⎝ j=1 q=1 ⎠
nhân tố A là MSSA = SSA/ (k−1) =122.4167/ 3 = 40.80556.

- Tổng sai lệch do nhân tố B là SSB (sum of squares due to factor B) =
2
1 r⎛k s ⎞
∑ ⎜ ∑∑ x ijq ⎟ − nx 2 = 17.54167. Do đó tổng sai lệch trung bình giữa các nhóm của
ks j=1 ⎝ i =1 q=1 ⎠
nhân tố B là MSSB = SSB/ (r−1) = 17.54167 /2 = 8.770833.

- Tổng sai lệch do tác động tương tác của nhân tố A và B là SSAB (sum of
squares due to interaction of A and B) không tính tới các tác động riêng của A và B =
2
1k r⎛s ⎞
∑∑ ⎜ ∑ x ijq ⎟ − nx 2 − SSA − SSB = 23.95833. Do đó tổng sai lệch trung bình do tương
s i =1 j=1 ⎝ q =1 ⎠
tác của A và B là MSSAB = SSAB/[(k−1)(r−1)] = 23.95833/6 = 3.993056.

- Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO
− SSA − SSB − SSAB = 98. Do đó tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE
= SSE/[kr(s−1)] = 98/36 = 2.722222.

Với giả thiết đã nêu, có thể chứng minh được rằng đại lượng thống kê FA =
MSSA/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
krs−kr). Do đó, FA thực nghiệm =14.9898 > FA lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả
thuyết “các mức của nhân tố A (các mức bón phân) không ảnh hưởng tới số trung bình
chung (sản lượng bông)” không được chấp nhận theo quy tắc kiểm định có mức ý nghĩa α
= 0.05. Điều này có nghĩa là các mức bón phân khác nhau có tác động khác nhau tới sản
lượng bông nói chung. Tương tự chúng ta có thế giải thích được rằng các mức mật độ cây
(nhân tố B) cũng như tác động đồng thời của A và B không ảnh hưởng đáng kể tới năng
suất bông.




34
TÀI LIỆU THAM KHẢO


Tiếng Việt
1. Nguyễn Mạnh Đức, Giáo trình tin học ứng dụng (dùng cho sinh viên các ngành
kinh tế, nông – lâm nghiệp), Nxb. Nông nghiệp, 2000.
2. Nguyễn Đình Hiền (chủ biên), Đỗ Đức Lực, Giáo trình thiết kế thí nghiệm (dùng
cho các ngành Thú y, Chăn nuôi − Thú y và Nuôi trồng thuỷ sản), Nxb. Nông
nghiệp, 2007.
3. Lê Văn Tiến (1999), Lý thuyết xác suất và thống kê toán học, Nxb. Nông nghiệp,
1999.
4. Nguyễn Hải Thanh (chủ biên), Đỗ Thị Mơ và các tác giả khác, Tin học ứng dụng
trong ngành nông nghiệp, Nxb. Khoa học và Kỹ thuật, 2005.



Tiếng Anh
5. Kenneth N. Berk, Patrick Carey, Data Analysis with Microsoft Excel, Duxbury
Press, 1998.
6. Robert D. Manson, Douglas A. Lind, Statistical Technique in Business and
Economics, Irwin Inc., 1990.
7. Richard A. Johnson and Dean W. Wichern (1992), Applied Multivariate Statistical
Analysis, Prentice Hall, New Jersay, 1992.
8. Roger G. Petersen, Agricultural Field Experiments: Design and Analysis, Marcel
Dekker Inc., New York, 1994.
9. Peter Thomson and Louise Helby, Short Course Manual on Development of
Research and Teaching Skills in Experimental Design and Statistical Analysis –
Part A: Basic Applied Statistícs using Minitab, Uni. of Sydney, 2001.




35
Đề thi vào lớp 10 môn Toán |  Đáp án đề thi tốt nghiệp |  Đề thi Đại học |  Đề thi thử đại học môn Hóa |  Mẫu đơn xin việc |  Bài tiểu luận mẫu |  Ôn thi cao học 2014 |  Nghiên cứu khoa học |  Lập kế hoạch kinh doanh |  Bảng cân đối kế toán |  Đề thi chứng chỉ Tin học |  Tư tưởng Hồ Chí Minh |  Đề thi chứng chỉ Tiếng anh
Theo dõi chúng tôi
Đồng bộ tài khoản