
PGS. TS. LÊ QUANG HƯNG
ỨNG DỤNG SAS
PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM
2009
Lời mở đầu

1
SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu.
Riêng SAS/STAT bao gồm trên 60 phương thức phân tích số liệu áp dụng cho phân tích
phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến.
Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24
từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số
liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file của SAS để
phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên
giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word.
Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), xử lý bằng lệnh RUN với thời
gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp
nhóm các nghiệm thức của các yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả
phân tích được giải thích rất rõ ràng về so sánh các nghiệm thức và xếp nhóm (grouping) theo
ký tự A, B cho yếu tố có hai nghiệm thức và A, B, C, D, E cho yếu tố có nhiều nghiệm thức.
Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA.
Quyển sách này trình bày một số phương pháp xử lý số liệu thí nghiệm thông dụng trong
ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm
các phương thức xử lý ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phổ biến nhất.
Các bài tập mẫu thống kê về các lĩnh vực khác như y học, hóa học, xã hội, cơ học … có thể
tham khảo trong chương trình của phần mềm SAS (phần Help > Using this windows > Sample
SAS Programs and Applications). Ngoài ra SAS có thể xử lý số liệu với nhiều lệnh, bắt đầu từ
thanh công cụ với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS>
Statistics > ANOVA.
Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn.
Các góp ý xin gửi về: PGS.TS Lê Quang Hưng
Khoa Nông học, Đại học Nông Lâm TP HCM. Liên hệ E-mail: lqlqhung@yahoo.com
Trân trọng,
Tác giả
Update: 29-7-09, 86 tr.
Mục lục

2
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu 3
1.2. Nguồn số liệu theo dõi thí nghiệm 3
1.3. Tạo file word mẫu (sample) 4
1.4. Xử lý số liệu với SAS 6
1.5. Giải thích kết quả 8
1.6. Trình bày kết quả 9
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 10
1.8. Ý nghĩa các từ và chuyển đổi giá trị 17
1.9. Ô cơ sở (plot size) và lặp lại (replications) 18
Chương 2
THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)
2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố 18
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố 22
Chương 3
THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố 24
3.2. Kiểu ô vuông la tinh 26
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố 28
3.4. Thí nghiệm lô phụ 34
3.5. Thí nghiệm lô sọc 47
3.6. Thí nghiệm ba yếu tố 51
3.7. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng 59
Chương 4
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI
4.1. Tính giá trị trung bình 64
4.2. T- test 66
4.3. Chi-bình phương 67
4.4. Ma trận tương quan 68
4.5. Hồi qui tuyến tính đơn biến 71
4.6. Hồi qui tuyến tính đa biến 72
4.7. Hồi qui đa biến bậc hai 75
4.8. Tối ưu hóa và xác định điểm 77
4.9. Đồ thị hình lưới chiếu mặt phẳng ba chiều 80
Tài liệu tham khảo 86
Chương 1

3
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu:
Mục tiêu của phân tích ANOVA (ANalysis Of VAriance) là xác định các nghiệm thức có ý
nghĩa khi giá trị tính F nhỏ hơn mức xác suất (probability) p < 0,05 hay p < 0,01 là mức
thường dùng trong nông nghiệp, sinh học. Sau đó các nghiệm thức được xếp nhóm (grouping,
SAS, 2004; homogeneous grouping: nhóm tương đồng (NRCS, 2007) với các ký tự A, B cho
hai nghiệm thức và A, B, C, D, E cho nhiều nghiệm thức là để so sánh sai khác và chọn được
nghiệm thức phù hợp của thí nghiệm. Đối với thí nghiệm nhiều yếu tố, cần có so sánh tương
tác (interaction) của các yếu tố. Các mẫu bài tập được tạo ra từ file excel và word để dễ sử
dụng và lưu số liệu ở dạng .doc, .xls, .sas.
1.2. Nguồn số liệu theo dõi thí nghiệm:
Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm. Thí dụ so
sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể
ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối
đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV).
Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm
thức ghi sau.
Sơ đồ thí nghiệm Chiều biến thiên
Hướng dốc cao
I 1
9.00
3
7.00
2
10.28
5
14.94
4
11.86
II 2
14.59
1
8.00
5
14.63
4
11.99
3
6.00
III
3
8.23
4
11.77
2
15.15
1
7.00
5
13.81
IV 5
14.90
1
9.12
3
7.40
2
15.00
4
8.00
thấp
Cách ghi số liệu lưu trong file excel
khoi nthuc nsuat
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 11.86
1 D25 14.94
2 G22 8.00
2 Z15 14.59
2 X31 6.00
2 K14 11.99
2 D25 14.63
3 G22 7.00
3 Z15 15.15
3 X31 8.23
3 K14 11.77
3 D25 13.81

4
4 G22 9.12
4 Z15 15.00
4 X31 7.40
4 K14 8.00
4 D25 14.90
Để phân tích kết quả, cần thực hiện:
- Tạo file mẫu word
- Xử lý với chương trình thống kê SAS
- Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant).
- Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%.
1.3. Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương trình
SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và xử lý
cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo file
mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực
tiếp, từ các file khác) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải
ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.
Các lệnh xử lý như sau:
- DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho input, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự. Nếu nhiều
từ cần có gạch nối dài, hoặc xác định độ dài length$10 (mười ký tự). Nếu dùng bảng hàng
ngang có các biến nối tiếp, ghi:
INPUT T Y@@;
Datalines; (thay cho cards;)
* Cách 1: K (Khối), T (nghiệm thức), Y (năng suất), có cách một khoảng hoặc dấu $ như
INPUT K T Y; hay INPUT K $ T $ Y;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT;
- CARDS; lệnh nhập số, kết thúc bằng dấu ;
- Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 (tiếng Việt thì
chương trình không xử lý được).
- PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG (hồi qui),
PROC ANOVA;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố.
- CLASS: xếp loại các biến dùng phân tích, gồm có khối (K) và nghiệm thức (T),
CLASS K T;
- MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghiệm thức (T)
MODEL Y = K T;
- MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T;
- LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01. Có
thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha =
0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả
hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05;
MEANS T / LSD ALPHA = 0.01;