intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thiết kế thí nghiệm và xử lý dữ liệu với phần mềm SAS - Đỗ Đức Lực

Chia sẻ: Sơn Tùng | Ngày: | Loại File: PDF | Số trang:54

317
lượt xem
52
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Thiết kế thí nghiệm và xử lý dữ liệu với phần mềm SAS" được biên soạn nhằm phân tích dữ liệu từ các mô hình thiết kế thí nghiệm thường gặp trong nghiên cứu nông nghiệp bằng phần mềm SAS. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thiết kế thí nghiệm và xử lý dữ liệu với phần mềm SAS - Đỗ Đức Lực

  1. TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI KHOA CHĂN NUÔI & NUÔI TRỒNG THUỶ SẢN THIẾT KẾ THÍ NGHIỆM VÀ XỬ LÝ DỮ LIỆU VỚI PHẦN MỀM SAS (Dùng cho giảng dạy cao học các ngành Thú y, Chăn nuôi – Thú y, Chăn nuôi và Nuôi trồng thuỷ sản) Đỗ Đức Lực Bộ môn Di truyền - Giống, Khoa Chăn nuôi & Nuôi trồng thuỷ sản Hà Nội - 2014
  2. Bài giảng Thiết kế thí nghiệm và Xử lý dữ liệu với phần mềm SAS được biên soạn nhằm phân tích dữ liệu từ các mô hình thiết kế thí thường gặp trong nghiên cứu nông nghiệp bằng phần mềm SAS. Tài liệu này bao gồm 3 phần: 1) Giới thiệu phần mềm SAS và tính các tham số thống kê mô tả, 2) Ước lượng và kiểm định giả thiết với phần mềm SAS và 3) Tương quan và Hồi quy với phần mềm SAS. Trong tất cả các phần đều có các ví dụ, các hình ảnh minh hoạ sử dụng phần mềm và giải thích kết quả đối với từng bài tập. Đối tượng sử dụng giáo trình này là cao học viên các ngành Chăn nuôi, Chăn nuôi thú y và Thú y; đồng thời là tài liệu tham khảo cho các đối tượng là cán bộ nghiên cứu trong ngành chăn nuôi, thú y. Để có thêm kiến thức bổ trợ cho môn học này, bạn đọc có thể tham khảo thêm một số tài liệu về thiết kế thí nghiệm, toán xác suất thống kê, về tin học và các sách chuyên ngành của chăn nuôi thú y. Mặc dù có rất nhiều cố gắng trong quá trình biên soạn, xong không thể tránh được những thiếu sót. Tác giả rất mong sự góp ý của bạn đọc. Mọi ý kiến góp ý xin gửi theo địa chỉ sau: Đỗ Đức Lực Bộ môn Di truyền - Giống, Khoa Chăn nuôi & Nuôi trồng thuỷ sản Đại học Nông nghiệp Hà Nội, Trâu Quỳ, Gia Lâm E-mail: ddluc@hua.edu.vn
  3. MỤC LỤC Phần 2 Giới thiệu phần mềm SAS và tính các tham số thống kê mô tả .............................. 1 Phần 2 Ước lượng và kiểm định giả thiết với phần mềm SAS ............................................. 7 Phần 4 Tương quan và Hồi quy với phần mềm SAS ........................................................... 47 TÀI LIỆU THAM KHẢO...................................................................................................... 51
  4. Phần 1 Giới thiệu phần mềm SAS và tính các tham số thống kê mô tả 1.1 Khởi động phần mềm Từ menu Start của Windows XP chọn: Programs  The SAS System  The SAS System for Windows V8 Các cửa sổ (windows) chính của phần mềm: Editor Cho phép tạo ra các dòng lệnh của một file mới, thay đổi và sửa chữa các file đã có sẵn. Toàn bộ số liệu được quản lý và thao tác thông qua cửa sổ này. Mọi thay đổi câu lệnh trong cửa sổ này có thể làm thay đổi cơ sở dữ liệu ban đầu hoặc/và kết quả xử lý. Output Hiển thị kết quả xử lý dữ liệu thông các câu lệnh ở cửa sổ Editor. Kết quả xử lý có thể lưu lại trên máy tính hoặc có thể in trực tiếp ra giấy. Tuy nhiên việc in trực tiếp kết quả từ cửa sổ Editor không được khuyến cáo vì có thể gây lãng phí và khó theo dõi vì có rất nhiều khoảng trống. Log Hiển thị các sự kiện liên quan đến quá trình xử lý dữ liệu, bao gồm các câu lệnh thực hiện, thời gian thực hiện, các lưu ý, các cảnh báo, các thông báo về lỗi và vị trí lỗi (nếu có). 1.2 Tính các tham số thống kê mô tả bằng phần mềm SAS Ví dụ 1: Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau: 54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4 56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5 1.2.1 Nhập dữ liệu vào SAS: Có 2 cách để nhập dữ liệu vào phần mềm SAS 1) nhập trực tiếp thông qua cửa sổ Editor hoặc 2) nhập gián tiếp thông qua menu Import từ phần mềm SAS. Trong bài 1, học viên sẽ học cách nhập dữ liệu trực tiếp thông qua cửa sổ Editor và nắm được chức năng của từng câu lệnh. Nhập dữ liệu trực tiếp thông qua cửa sổ Editor là lập cơ sở dữ liệu (tên cơ sở dữ liệu, tên biến, số liệu thô…) và khai báo các câu lệnh trực tiếp lên cửa Editor. Cách nhập này giúp người sử dụng có thể trực tiếp tạo được bộ số liệu một cáhc trực quan. Bên cạnh những ưu điểm thì hạn chế lớn nhất của cách nhập này là mất nhiều thời gian thao tác để nhập dữ liệu, khó kiểm soát, hiệu chỉnh dữ liệu và không sử dụng được các bộ dữ liệu có sẵn dưới dạng cơ sở dữ liệu. Trong khi đó nhập dữ liệu gián tiếp thông qua menu Import lại có các ưu điểm và nhược điểm hoàn toàn ngược lại. 1
  5. 1.2.1.1 Nhập dữ liệu gián tiếp bằng cửa sổ EDITOR OPTIONS PAGESIZE = 60 LINESIZE = 80; (6) DATA SAS1; (1) INPUT KL; (2) CARDS; (3) 54.1 (4) 49.8 . . 58.5 ; TITLE 'BAI 1 THONG KE MO TA'; (5) TITLE2 'HO VA TEN'; PROC MEANS MEAN STD STDERR CV; (7) VAR KL; RUN; (8) Tạo bộ số liệu trong SAS (1) DATA yêu cầu SAS tạo bộ số liệu trong bộ nhớ đệm của SAS và tên của bộ số liệu được tạo ra là SAS1. (2) INPUT yêu cầu SAS tạo ra một biến (một cột dữ liệu) có tên là KL. (3) CARDS thông báo cho SAS các số liệu sẽ xuất hiện sau câu lệnh này. Dùng phím Enter để xuống hàng nhằm phân biệt kết thúc một số liệu. (4) Các số liệu thô cần đưa vào SAS để phân tích. Kết thúc việc nhập số liệu thô bằng dấu (;). Các câu lệnh bỗ trợ (5) Câu lệnh này dùng để tạo tiêu đề trong phần kết quả (Output). Câu lệnh này không làm ảnh hưởng đến quá trình xử lý số liệu nhưng có thể là thông tin trợ giúp để phân biệt các kết quả xử lý nếu như có nhiều kết quả được thể hiện đồng thời. (6) PAGESIZE Xác định số số dòng tối đa in trên một trang giấy của phần kết quả và LINESIZE xác định số ký tự tối đa trên một dòng in. Thủ tục (Procedure) của để tóm tắt dữ liệu (7) PROC MEANS tính các tham số thống kê mô tả đối với một hay nhiều biến trong bộ số liệu. Các từ đi sau câu lệnh này thể hiện các tham số cụ thể cần tính toán. Ngay phía dưới câu lệnh PROC MEANS là câu lệnh VAR chỉ định biến cụ thể cần tính toán. (8) RUN thông báo cho SAS biết không còn câu lệnh nào nữa và thực hiện để hoàn chỉnh việc tính toán. 2
  6. 1.2.1.2 Nhập dữ liệu gián tiếp qua menu IMPORT Để nhập dữ liệu gián tiếp thông qua menu Import cần phải có file dữ liệu ở dưới dạng Excel. Để có thể hoàn tất việc nhập dữ gián tiếp liệu thành công cần lưu ý: - Tên của biến (tên cột) không dài quá 7 ký tự, không có khoảng trống giữa các ký tự và không dùng các ký tự đặc biệt. - Các ô không có dữ không được để trống mà phải thay thế bằng dấu chấm (.). - Trong quá trình nhập dữ liệu, lỗi thao tác được thể hiện ở cửa sổ LOG. Cửa sổ LOG sẽ thông báo vị trí và nguyên nhân mắc lỗi để bạn đọc có thể dễ dàng khắc phục. Các bước để nhập dữ liệu gián tiếp: Bước 1: Tạo bộ số liệu trên Excel từ Ví dụ 1.1 bằng cách nhập cột số liệu vào một cột với tên là KL trên Worksheet Excel. Lưu file dữ liệu dưới tên VIDU1.XLS lên thư SAS trên ổ D. Bước 2: Lưu file dữ liệu vừa tạo ở Bước 1 dưới dạng TEXT TAB DELIMITED bằng menu SAVE AS… trong Excel dưới tên file VIDU1.TXT vào cùng thư mục và đóng file này lại Bước 3: Từ phần mềm SAS chọn File  Import Data… Tab Delimited File (.txt)  Next  BAI1.TXT (sử dụng Browse… để tìm file dữ liệu cần thiết)  Next  SAS1B (tạo tên cơ sở dữ liệu tại ô Member:) Bước 4: Kiểm tra các thông báo ở cửa sổ LOG để biết thêm thông tin về việc nhập số liệu. Nếu nhâp số liệu thanh công sẽ có thông báo như sau trong cửa sổ LOG: NOTE: WORK.BAI1 was successfully created. Bước 5 Từ cửa sổ EDITOR, ấn F4 hoặc từ menu Run  Recall Last Submit để có được chương trình như sau: /********************************************************************** * PRODUCT: SAS * VERSION: 8.1 * CREATOR: External File Interface * DATE: 14JUN00 * DESC: Generated SAS Datastep Code * TEMPLATE SOURCE: (None Specified.) ***********************************************************************/ data WORK.SAS1B ; %let _EFIERR_ = 0; /* set the ERROR detection macro variable */ infile 'D:\DocLuc\LUC\CAO HOC\SAS PROC\VIDUI1.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; format KL best12. ; informat KL best32. ; input KL ; if _ERROR_ then call symput('_EFIERR_',1); /* set ERROR detection macro variable */ run; 3
  7. Bước 6: Sử dụng các thủ tục (PROCEDURE) để phân tích dữ liệu. Tương tự như ở phần 1.2.1.1 ta có một chương trình hoàn chỉnh như sau: OPTIONS PAGESIZE = 60 LINESIZE = 80; /********************************************************************** * PRODUCT: SAS * VERSION: 8.1 * CREATOR: External File Interface * DATE: 14JUN00 * DESC: Generated SAS Datastep Code * TEMPLATE SOURCE: (None Specified.) ***********************************************************************/ data WORK.VIDU1B ; %let _EFIERR_ = 0; /* set the ERROR detection macro variable */ infile 'D:\DocLuc\LUC\CAO HOC\SAS PROC\SAS1B.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; format KL best12. ; informat KL best32. ; input KL ; TITLE 'BAI 1 THONG KE MO TA'; TITLE2 'HO VA TEN'; PROC MEANS MEAN STD STDERR CV; VAR KL; RUN; 1.2.2 Thực hiện chương trình (RUN) Để chạy chương trình vừa lập ra ta có thể 1) Thông qua menu của SAS Run  Submit 2) Click vào biểu tượng người chạy trên thanh menu công cụ 1.2.3 Kết quả từ phần mềm SAS Kết quả xử lý từ cửa sổ Output của SAS BAI 1 THONG KE MO TA 41 HO VA TEN 21:02 Wednesday, June 14, 2000 The MEANS Procedure Analysis Variable : KL Coeff of Mean Std Dev Std Error Variation ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 47.5750000 10.1621848 2.5405462 21.3603464 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 4
  8. Xét ví dụ 1.1, giả sử rằng 16 chuột này thuộc 2 giống khác nhau (A và B) và số liệu thu được như sau: A A B B B B A A 54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4 A B B A A A A A 56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5 Sử dụng procedure PROC SORT ta có thể sắp xếp lại cấu trúc số liệu và sau đó có thể tính các thống kê mô tả đối với từng giống (A và B) bằng lệnh BY. Câu lệnh sử dụng như sau: OPTIONS PAGESIZE = 60 LINESIZE = 80; DATA SAS1C; INPUT GIONG $1 KL; CARDS; A 54.1 A 49.8 B 24.0 . . A 58.5 ; TITLE 'BAI 1 THONG KE MO TA'; TITLE2 'HO VA TEN'; PROC SORT; BY GIONG; RUN; PROC MEANS MEAN STD STDERR CV; VAR KL; BY GIONG; RUN; Kết quả từ SAS BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 1 HO VA TEN The MEANS Procedure Analysis Variable : KL N Coeff of GIONG Obs Mean Std Dev Std Error Variation ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A 10 50.9200000 8.4607328 2.6755186 16.6157361 B 6 42.0000000 11.0129015 4.4959982 26.2211941 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Lưu ý: Procedure PROC SORT được sử dụng trước PROC MEANS nếu muốn tính theo giống bằng lệnh BY. 1 dấu $ được sử dụng khi muốn định dạng cột số liệu ở dạng ký tự không bằng số (dạng text) 5
  9. Dòng lệnh BY có thể thay thế bằng dòng lệnh CLASS trong procedure PROC MEANS. Trong trường hợp này không cần sử dụng procedure PROC SORT. PROC MEANS MEAN STD STDERR CV; VAR KL; CLASS GIONG; RUN; 1.2.4 Chuyển kết quả từ phần mềm SAS qua một định dạng khác Kết quả xử lý từ phần mềm SAS có thể đổi qua một số định dạng khác như: Excel (.xls), Văn bản Word (.doc, ), Trình duyệt web (.html). Có 2 mục đích chính của chuyển đổi định dạng kết quả từ SAS qua các định dạng khác là 1) Người sử dụng không có phần mềm SAS vẫn có thể đọc kết quả một cách dễ dàng và 2) Tóm tắt và trình bày các kết quả xử lý nhanh và chính xác nhất có thể. Chuyển định dạng trực tiếp từ cửa sổ OUTPUT đang kích hoạt File  Save as… chọn tên file (file name:)  chọn định dạng (RTF File) Chuyển định dạng qua câu lệnh ODS Với câu lệnh ODS ta có thể tạo định dạng mong muốn (XLS, DOC, RTF, HTML…) và lưu file kết quả đó và vị trí mong muốn trên máy tính. ODS HTML FILE = "D:\SAS\KETQUA.XLS"; PROC MEANS MEAN STD STDERR CV; VAR KL; CLASS GIONG; ODS HTML CLOSE; Với câu lệnh ODS HTML FILE = "D:\SAS\KETQUA.XLS"; file KETQUA ở định dạng Excel (.XLS) sẽ được tạo ra tại thư mục SAS trên ổ D (D:\SAS) Câu lệnh ODS HTML CLOSE; kết thúc lệnh ODS Kết quả thu được trên file excel như sau: BAI 1 THONG KE MO TA HO VA TEN The MEANS Procedure Analysis Variable : KL GIONG N Obs Mean Std Dev Std Error Coeff of Variation A 10 50.92 8.4607328 2.6755186 16.6157361 B 6 42 11.0129015 4.4959982 26.2211941 6
  10. Phần 2 Ước lượng và kiểm định giả thiết với phần mềm SAS 2.1. Giả thiết và đối thiết Khi khảo sát một tổng thể (hoặc nhiều tổng thể) và xem xét một (hoặc nhiều) biến ngẫu nhiên có thể đưa ra một giả thiết nào đó liên quan đến phân phối của biến ngẫu nhiên hoặc nếu biết phân phối rồi thì đưa ra giả thiết về tham số của tổng thể. Để có thể đưa ra một kết luận thống kê nào đó đối với giả thiết thì phải chọn mẫu ngẫu nhiên, tính tham số mẫu, chọn mức ý nghĩa  sau đó đưa ra kết luận. Bài toán kiểm định tham số  của phân phối có dạng H0 :  = o với o là một số đã cho nào đó. Kết luận thống kê có dạng: “chấp nhận H0” hay “bác bỏ H0”. Nhưng nếu đặt vấn đề như vậy thì cách giải quyết hết sức khó, vì nếu không chấp nhận H0 :  = o thì điều đó có nghĩa là có thể chấp nhận một trong vô số  khác o, do đó thường đưa ra bài toán dưới dạng cụ thể hơn nữa: cho giả thiết H0 và đối thiết H1, khi kết luận thì hoặc chấp nhận H0 hoặc bác bỏ H0, và trong trường hợp này, tuy không hoàn toàn tương đương, nhưng coi như chấp nhận đối thiết H1. Nếu chấp nhận H0 trong lúc giả thiết đúng là H1 thì mắc sai lầm loại II và xác suất mắc sai lầm này được gọi là rủi ro loại hai . Ngược lại nếu bác bỏ H0 trong lúc giả thiết đúng chính là H0 thì mắc sai lầm loại I và xác suất mắc sai lầm đó gọi là rủi ro loại một . Quyết định Giả thiết Bác bỏ H0 Chấp nhận H0 H0 đúng Sai lầm loại I () Quyết định đúng H0 sai Quyết định đúng Sai lầm loại II () Như vậy trong bài toán kiểm định giả thiết luôn luôn có hai loại rủi ro, loại I và loại II, tuỳ vấn đề mà nhấn mạnh loại rủi ro nào. Thông thường người ta hay tập trung chú ý vào sai lầm loại I và khi kiểm định phải khống chế sao cho rủi ro loại I không vượt quá một mức  gọi là mức ý nghĩa. Trước hết xem xét cụ thể bài toán kiểm định giả thiết H0:  = o, đối thiết H1:  = 1 với 1 là một giá trị khác o. Đây là bài toán kiểm định giả thiết đơn. Quy tắc kiểm định căn cứ vào hai giá trị cụ thể 1 và o, vào mức ý nghĩa  và còn căn cứ vào cả sai lầm loại hai. Việc này về lý thuyết thống kê không gặp khó khăn gì. Sau đó mở rộng quy tắc sang cho bài toán kiểm định giả thiết kép. H1: o;  > o hoặc  < o, việc mở rộng này có khó khăn nhưng các nhà nghiên cứu lý thuyết xác suất thống kê đã giải quyết được, do đó về sau khi kiểm định giả thiết H0 :  = o có thể chọn một trong 3 đối thiết H1 sau: 7
  11. H1 :   o gọi là đối thiết hai phía H1 :  > o gọi là đối thiết phải H1 :  < o gọi là đối thiết trái Hai đối thiết sau gọi là đối thiết một phía. Việc chọn đối thiết nào tuỳ thuộc vấn đề khảo sát cụ thể. Nếu P  , chấp nhận giả thiết H0 Nếu P < , Bác bỏ giả thiết H0 chấp nhận đối thiết H1. 2.2. Kiểm định phân phối chuẩn Đối với tất cả các phép thử đối với biến định lượng, đều giả thiết rằng số liệu thu thập được (số liệu thô) đều tuân theo phân phối chuẩn. Nếu số liệu không tuân theo phân phối chuẩn thì các phép thử dưới đây sẽ không có hiệu lực. Trong trường hợp này cần biến đổi số liệu về phân phối chuẩn hoặc sử dụng kiểm định phi tham số. Giả thiết của phép thử: H0: Số liệu có phân bố chuẩn và H1: Số liệu không có phân bố chuẩn Ví dụ 2: Tăng trọng trung bình (gram/ngày) của 36 lợn nuôi vỗ béo giống Landrace được rút ngẫu nhiên từ một trại chăn nuôi. Số liệu thu được như sau: 577 596 594 612 600 584 618 627 588 601 606 559 615 607 608 591 565 586 621 623 598 602 581 631 570 595 603 605 616 574 578 600 596 619 636 589 Cán bộ kỹ thuật trại cho rằng tăng trọng trung bình của toàn đàn lợn trong trại là 607 gram/ngày. Theo anh chị kết luận đó đúng hay sai, vì sao? SAS CODE DATA SAS2; INPUT KL; CARDS; 577 596 594 . . 589 ; PROC UNIVARIATE NORMAL PLOT; VAR KL; RUN; Kết quả từ SAS The UNIVARIATE Procedure Variable: KL Moments N 36 Sum Weights 36 Mean 599.194444 Sum Observations 21571 Std Deviation 18.6560131 Variance 348.046825 Skewness -0.1258564 Kurtosis -0.4077877 Uncorrected SS 12937405 Corrected SS 12181.6389 Coeff Variation 3.1135157 Std Error Mean 3.10933552 8
  12. Basic Statistical Measures Location Variability Mean 599.1944 Std Deviation 18.65601 Median 600.0000 Variance 348.04683 Mode 596.0000 Range 77.00000 Interquartile Range 26.50000 NOTE: The mode displayed is the smallest of 2 modes with a count of 2. Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 192.7082 Pr > |t| = |M| = |S| D >0.1500 Cramer-von Mises W-Sq 0.01366 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.094344 Pr > A-Sq >0.2500 Quantiles (Definition 5) Quantile Estimate 100% Max 636.0 99% 636.0 95% 631.0 90% 623.0 75% Q3 613.5 50% Median 600.0 25% Q1 587.0 10% 574.0 5% 565.0 9
  13. BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 28 HO VA TEN The UNIVARIATE Procedure Variable: KL Quantiles (Definition 5) Quantile Estimate 1% 559.0 0% Min 559.0 Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 559 12 621 19 565 17 623 20 570 25 627 8 574 30 631 24 577 1 636 35 Stem Leaf # Boxplot 63 6 1 | 63 1 1 | 62 7 1 | 62 13 2 | 61 5689 4 | 61 2 1 +-----+ 60 5678 4 | | 60 00123 5 *-----* 59 5668 4 | + | 59 14 2 | | 58 689 3 +-----+ 58 14 2 | 57 78 2 | 57 04 2 | 56 5 1 | 56 | 559 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1 10
  14. BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 29 HO VA TEN The UNIVARIATE Procedure Variable: KL Normal Probability Plot 637.5+ +* | *++ | +*+ | *+* | ****+ | *++ | *** | ***+ 597.5+ ***+ | **+ | *** | +** | +** | *+* | +*+ | +++ 557.5+ ++* +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2 Giá trị P-Value = 0,9918 lớn hơn 0,05 (), như vậy H0 được chấp nhận. Kết luận số liệu tuân theo phân phối chuẩn. 2.3. Kiểm định một giá trị trung bình bằng phép thử T Trong thực tế ta không có thông tin về độ lệch chuẩn của quần thể (), phép thử T được sử dụng để kiểm định giá trị trung bình và độ lệch chuẩn của mẫu (s) được sử dụng thay thế độ lệch chuẩn quần thể. Giả thiết của phép thử là số liệu tuân theo phân bố chuẩn. SAS CODE DATA SAS2; INPUT KL; CARDS; 577 596 594 . . 589 ; PROC TTEST H0 = 607 ALPHA = .05; VAR KL; RUN; 11
  15. Kết quả từ SAS The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err KL 36 592.88 599.19 605.51 15.132 18.656 24.336 3.1093 T-Tests Variable DF t Value Pr > |t| KL 35 -2.51 0.0168 Với xác suất của phép thử P = 0,0168 < 0,05 (), bác bỏ H0 và chấp nhận đối thiết H1. Kết luận: Tăng trọng của lợn Landrace ở trại nêu trên không bằng 607 gram/ ngày (P < 0,05). Khoảng tin cậy 95% là 592,88 – 605,51 gram/ ngày. 2.4. Kiểm định 2 giá trị trung bình Khi tiến hành thí nghiệm để so sánh 2 sự khác nhau giữa 2 công thức thí nghiệm, có 2 trường hợp chọn mẫu có thể xảy ra: 1) Chọn mẫu độc lập và 2) chọn mẫu theo cặp (xem 2.4, tr.23, Giáo trình Thiết kế thí nghiệm 2007). Tuỳ thuộc vào cách chọn mẫu bố trí thí nghiệm mà ta có thể sử dụng phép thử T hay T cặp đôi cho phù hợp. 2.4.1. Phép thử T cặp đôi Đối với các thí nghiệm chọn mẫu theo cặp, điều kiện duy nhất của bài toán là kiểm tra phân bố chuẩn của phần chênh lệch (d) số liệu giữa 2 công thức thí nghiệm. Với kiểm định 2 phía ta có giả thiết H0: d = 0 đối thiết H1: d  0 (d là trung bình của sự chênh lệch giữa 2 trung bình µ1 và µ2). Ví dụ 3: Tăng trọng (pound) của 10 cặp bê sinh đôi giống hệt nhau dưới hai chế độ chăm sóc khác nhau (A và B). Bê trong từng cặp được bắt thăm ngẫu nhiên về một trong hai cách chăm sóc. Hãy kiểm định giả thiết H0: Tăng trọng trung bình ở hai cách chăm sóc như nhau, đối thiết H1: Tăng trọng trung bình khác nhau ở hai cách chăm sóc với mức ý nghĩa  = 0,05. Số liệu thu được như sau: Cặp sinh đôi 1 2 3 4 5 6 7 8 9 10 Tăng trọng ở cách A 43 39 39 42 46 43 38 44 51 43 Tăng trọng ở cách B 37 35 34 41 39 37 35 40 48 36 Chênh lệch (d) 6 4 5 1 7 6 3 4 3 7 12
  16. Thay vì kiểm định hai mẫu bằng phép thử T cặp đôi, bài toán sẽ tiến hành kiểm định phần chênh lệch giữa các cặp (D) với giá trị 0. Để tạo biến mới trong cơ sở dữ liệu của SAS ta có thể sử dụng câu lệnh logic. Ví dụ ta tao ra cột hiệu số của từng cặp theo lệnh D = A – B. SAS CODE OPTIONS PAGESIZE = 60 LINESIZE = 80; DATA SAS3; INPUT A B; D = A -B; CARDS; 43 37 39 35 39 34 42 41 46 39 43 37 38 35 44 40 51 48 43 36 ; TITLE 'BAI 3 SO SANH CAP DOI'; title2 'HO VA TEN'; PROC TTEST H0 = 0 ALPHA=.05; VAR D; RUN; Kết quả từ SAS: BAI 3 SO SANH CAP DOI 5 HO VA TEN 20:38 Friday, June 23, 2000 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev D 10 3.2014 4.6 5.9986 1.3448 1.9551 3.5692 Statistics Variable Std Err Minimum Maximum D 0.6182 1 7 T-Tests Variable DF t Value Pr > |t| D 9 7.44
  17. 2.4.2. Kiểm định sự đồng nhất của phương sai Đối với kiểm định 2 giá trị trung bình, ngoài giả thiết là số liệu tuân theo phân phối chuẩn cong một vấn đề thứ 2 đặt ra là Hai phương sai có đồng nhất hay không? Đối với kiểm định hai phía ta có giả thiết H0: Hai phương sai đồng nhất (²1 = ²2) và H1: Hai phương sai không đồng nhất (²1  ²2) . Khi chấp nhận giả thiết H0, phương sai chung ()sẽ được sử dụng để tiến hành kiểm định trong phép thử T; ngược lại (bác bỏ H0) thì phép thử T gần chính xác sẽ được thực hiện. Ví dụ 3: Để so sánh khối lượng của 2 giống bò, tiến hành chọn ngẫu nhiên và cân 12 con đối với giống thứ nhất và 15 con đối với giống thứ 2. Khối lượng (kg) thu được như sau: Giống bò thứ nhất 187,6 180,3 198,6 190,7 196,3 203,8 190,2 201,0 194,7 221,1 186,7 203,1 Giống bò thứ hai 148,1 146,2 152,8 135,3 151,2 146,3 163,5 146,6 162,4 140,2 159,4 181,8 165,1 165,0 141,6 Theo anh (chị), khối lượng của 2 giống bò có sự sai khác không? 2.4.3. Phép thử T Sử dụng phép thử T để kiểm định 2 giá trị trung bình khi không biết độ lệch chuẩn của quần thể (). Minitab sẽ tính khoảng tin cậy (CI 95%) sự chênh lệch giữa 2 giá trị trung bình quần thể và thực hiện phép kiểm định. Đối với kiểm định 2 phía ta có giả thiết: H0: µ1 = µ2 với đối thiết H1: µ1  µ2; trong đó µ1 và µ2 là giá trị trung bình của quần thể thứ nhất và thứ 2. SAS CODE DATA SAS3; INPUT P GIONG; CARDS; 187.6 1 180.3 1 . . 141.6 2 ; TITLE 'SO SANH 2 GIA TRI TRUNG BINH MAU DOC LAP'; TITLE2 'HO VA TEN'; PROC TTEST; CLASS GIONG; VAR P; RUN; SO SANH 2 GIA TRI TRUNG BINH MAU DOC LAP 2 HO VA TEN 16:48 Sunday, June 25, 2000 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable GIONG N Mean Mean Mean Std Dev Std Dev Std Dev P 1 12 189.43 196.18 202.92 7.5203 10.616 18.025 P 2 15 146.89 153.7 160.51 9.0062 12.301 19.401 P Diff (1-2) 33.23 42.475 51.72 9.0896 11.59 15.999 14
  18. Statistics Variable GIONG Std Err Minimum Maximum P 1 3.0646 180.3 221.1 P 2 3.1762 135.3 181.8 P Diff (1-2) 4.4888 T-Tests Variable Method Variances DF t Value Pr > |t| P Pooled Equal 25 9.46
  19. 2.5. Phân tích phương sai Phân tích phương sai (Analysis of Variance - ANOVA) là công cụ hữu ích để so sánh nhiều giá trị trung bình. Điều kiện của bài toán phân tích phương sai là 1) số liệu tuân theo phân bố chuẩn và 2) phương sai đồng nhất. Trong khuôn khổ giáo trình này chúng tôi chỉ đề cập đến việc kiểm tra điều kiện của bài toán đối với các mô hình thiết kế thí nghiệm đơn giản (Thí nghiệm một yếu tố hoàn toàn ngẫu nhiên). Với kiểm định 2 phía ta có giả thiết H0: 1 = 2 = ... = a đối thiết H1: 1  2  ... a ( là trung bình của quần thể ở công thức thí nghiệm thứ 1, 2, ...a). 2.5.1. Thí nghiệm một yếu tố hoàn toàn ngẫu nhiên Xét trường hợp đơn giản nhất đối với bài toán phân tích phương sai. Chỉ có một yếu tố duy nhất trong thí nghiệm, các yếu tố phi thí nghiệm còn lại được coi là có tác động như nhau đến đối tượng thí nghiệm. Ví dụ 4: Theo dõi tăng trọng của cá (kg) A B C D E trong thí nghiệm với 5 công thức nuôi (A, 0,95 0,43 0,70 1,00 0,90 B, C, D và E). Hãy cho biết tăng trọng của 0,85 0,45 0,90 0,95 1,00 cá ở các công thức nuôi. Nếu có sự khác 0,85 0,40 0,75 0,90 0,95 nhau, tiến hành so sánh sự sai khác của từng cặp giá trị trung bình có thể bằng các 0,90 0,42 0,70 0,90 0,95 chữ cái. Mô hình phân tích yi j =  + ai + i j yij = quan sát thứ j ở công thức i,   = trung bình chung, ai = ảnh hưởng của công thức i và ij = sai số ngẫu nhiên; các ij độc lập, phân phối chuẩn N(0,2). SAS CODE DATA SAS4; INPUT KL KP $; CARDS; 0.95 A 0.85 A 0.85 A 0.90 A 0.43 B . . 1.00 E 0.95 E 0.95 E ; TITLE 'PHAN TICH PHUONG SAI 1 YEU TO'; TITLE2 'HO VA TEN'; PROC ANOVA; CLASS KP; MODEL KL = KP; RUN; 16
  20. The ANOVA Procedure Dependent Variable: KL Sum of Source DF Squares Mean Square F Value Pr > F Model 4 0.76325000 0.19081250 60.99 F KP 4 0.76325000 0.19081250 60.99
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2