PGS. TS. QUANG HƯNG
ỨNG DỤNG SAS
PHÂN TÍCH SLIỆU THÍ NGHIỆM
2009
Lời mở đầu
1
SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân ch s liệu.
Riêng SAS/STAT bao gồm trên 60 phương thức phân tích s liệu áp dụng cho phân ch
phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến.
Dliệu lập trình trên word đxử thống kê của SAS ngắn gọn, khoảng 9 hàng với 24
từ, được thiết kế trước và sliệu được chuyển trực tiếp từ file word, excel, dạng lưu trữ số
liệu thống kê phổ biến nhất. Ngoài ra có th sử dụng số liệu lưu trữ từ file text, file của SAS để
phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên
giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word.
Sau khi lp trình đầy đủ sliệu để tạo file mẫu (sample), x bằng lệnh RUN với thi
gian rất nhanh, chỉ một vài giây cho tất cả các cách xử 1 lần như: phân tích phương sai, xếp
nhóm các nghim thức của c yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả
phân tích được giải thích rất rõ ràng vso sánh các nghiệm thức và xếp nhóm (grouping) theo
tA, B cho yếu t hai nghiệm thức và A, B, C, D, E cho yếu tố nhiều nghiệm thc.
Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA.
Quyển sách này trình bày một số phương pháp x s liệu thí nghiệm thông dụng trong
ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm
các phương thức xử ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phbiến nhất.
Các bài tập mẫu thống kê vcác lĩnh vực khác như y học, hóa học, xã hội, học th
tham khảo trong chương trình của phần mềm SAS (phần Help > Using this windows > Sample
SAS Programs and Applications). Ngoài ra SAS có thxử số liệu với nhiều lệnh, bắt đầu từ
thanh công c với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS>
Statistics > ANOVA.
Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn.
Các góp ý xin gửi về: PGS.TS Lê Quang Hưng
Khoa Nông học, Đại học Nông Lâm TP HCM. Liên hE-mail: lqlqhung@yahoo.com
Trân trọng,
Tác gi
Update: 29-7-09, 86 tr.
Mục lục
2
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu 3
1.2. Nguồn số liệu theo dõi thí nghiệm 3
1.3. Tạo file word mẫu (sample) 4
1.4. Xử lý số liệu với SAS 6
1.5. Giải thích kết quả 8
1.6. Trình bày kết quả 9
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 10
1.8. Ý nghĩa các từ và chuyển đổi giá trị 17
1.9. Ô cơ sở (plot size) và lặp lại (replications) 18
Chương 2
THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)
2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố 18
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố 22
Chương 3
THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố 24
3.2. Kiểu ô vuông la tinh 26
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố 28
3.4. Thí nghiệm lô phụ 34
3.5. Thí nghiệm lô sọc 47
3.6. Thí nghiệm ba yếu tố 51
3.7. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng 59
Chương 4
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI
4.1. Tính giá trtrung bình 64
4.2. T- test 66
4.3. Chi-bình phương 67
4.4. Ma trận tương quan 68
4.5. Hồi qui tuyến tính đơn biến 71
4.6. Hồi qui tuyến tính đa biến 72
4.7. Hồi qui đa biến bậc hai 75
4.8. Tối ưu hóa và xác định đim 77
4.9. Đồ thị hình lưới chiếu mặt phẳng ba chiều 80
Tài liệu tham khảo 86
Chương 1
3
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨCSO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu:
Mục tiêu của phân tích ANOVA (ANalysis Of VAriance) xác định các nghiệm thức ý
nghĩa khi giá trị tính F nhỏ hơn mức xác suất (probability) p < 0,05 hay p < 0,01 mức
thường dùng trong nông nghiệp, sinh học. Sau đó các nghiệm thức được xếp nhóm (grouping,
SAS, 2004; homogeneous grouping: nhóm ơng đồng (NRCS, 2007) với các tự A, B cho
hai nghiệm thức và A, B, C, D, E cho nhiu nghiệm thức để so sánh sai khác và chọn được
nghiệm thức phù hợp của thí nghiệm. Đối với thí nghiệm nhiều yếu tố, cần so sánh tương
tác (interaction) của các yếu tố. Các mẫu bài tập được tạo ra từ file excel word để dsử
dụng và lưu số liệu ở dạng .doc, .xls, .sas.
1.2. Nguồn số liệu theo dõi thí nghim:
Sliệu được thu thập, xử và lưu từ file excel tùy theo kiu b trí thí nghiệm. Thí dụ so
sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, th
ghi bằng số nghiệm thức 1, 2 , 3, 4, 5; hoặc ghi tên giống; được btrí thí nghiệm kiểu khối
đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV).
Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm
thức ghi sau.
Sơ đồ thí nghiệm Chiều biến thiên
Hướng dốc cao
I 1
9.00
3
7.00
2
10.28
5
14.94
4
11.86
II 2
14.59
1
8.00
5
14.63
4
11.99
3
6.00
III
3
8.23
4
11.77
2
15.15
1
7.00
5
13.81
IV 5
14.90
1
9.12
3
7.40
2
15.00
4
8.00
thấp
Cách ghi số liệu lưu trong file excel
khoi nthuc nsuat
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 11.86
1 D25 14.94
2 G22 8.00
2 Z15 14.59
2 X31 6.00
2 K14 11.99
2 D25 14.63
3 G22 7.00
3 Z15 15.15
3 X31 8.23
3 K14 11.77
3 D25 13.81
4
4 G22 9.12
4 Z15 15.00
4 X31 7.40
4 K14 8.00
4 D25 14.90
Để phân tích kết quả, cần thực hiện:
- Tạo file mẫu word
- Xử lý với chương trình thống kê SAS
- Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trtrung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant).
- Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%.
1.3. Tạo file word mẫu (sample): file mẫu là file thông dụng để xbằng chương trình
SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và x
cho nhiều file nhiều chtiêu thmột lần trong SAS. thsdụng file excel để tạo file
mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực
tiếp, từ các file khác) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đ ngẫu nhiên đơn yếu tố, theo dõi năng suất của m giống cải
ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.
Các lệnh xử lý như sau:
- DATA: tên file, ghi tmột đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho input, chỉ ghi một thay một từ, tối đa là m tự. Nếu nhiều
tcần gạch nối dài, hoc xác định độ dài length$10 (mười tự). Nếu dùng bng hàng
ngang có các biến nối tiếp, ghi:
INPUT T Y@@;
Datalines; (thay cho cards;)
* Cách 1: K (Khối), T (nghiệm thức), Y (năng suất),cách một khoảng hoặc dấu $ như
INPUT K T Y; hay INPUT K $ T $ Y;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT;
- CARDS; lệnh nhập số, kết thúc bằng dấu ;
- Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 (tiếng Việt thì
chương trình không xử lý được).
- PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG (hồi qui),
PROC ANOVA;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố.
- CLASS: xếp loại các biến dùng phân tích, gm có khối (K) và nghiệm thức (T),
CLASS K T;
- MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghim thức (T)
MODEL Y = K T;
- MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T;
- LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01.
thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha =
0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả
hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05;
MEANS T / LSD ALPHA = 0.01;