HỌC VIỆN NÔNG NGHIỆP VIỆT NAM KHOA CHĂN NUÔI *****
BÀI GIẢNG
THIẾT KẾ THÍ NGHIỆM
(Dùng cho giảng dạy cao học các ngành
Chăn nuôi, Nuôi trồng thuỷ sản & Công nghệ thực phẩm)
ĐỖ ĐỨC LỰC & HÀ XUÂN BỘ
Hà Nội, 2016
MỤC LỤC
1.1. Ý nghĩa, tầm quan trọng, nguyên tắc cơ bản của thiết kế thí nghiệm ......................................... 1
1.2. Phân loại thí nghiệm ................................................................................................................... 2
Chương 1 Nguyên tắc thiết kế thí nghiệm ................................................................................ 1
1.2.1. Thí nghiệm quan sát ............................................................................................. 2
1.3. Một số khái niệm trong thiết kế thí nghiệm ................................................................................ 3
1.2.2. Thí nghiệm thực nghiệm ...................................................................................... 3
1.3.1. Yếu tố thí nghiệm ................................................................................................. 3
1.3.2. Mức ...................................................................................................................... 3
1.3.3. Nghiệm thức (công thức thí nghiệm) ................................................................... 4
1.3.4. Đơn vị thí nghiệm ................................................................................................ 4
1.3.5. Dữ liệu (số liệu) ................................................................................................... 4
1.3.6. Khối ...................................................................................................................... 4
1.3.7. Lặp lại................................................................................................................... 4
1.3.8. Nhắc lại ................................................................................................................ 4
1.4. Các bước tiến hành thí nghiệm ................................................................................................... 5
1.5. Sai số thí nghiệm......................................................................................................................... 5
1.6. Bố trí động vật vào các nghiệm thức .......................................................................................... 6
1.3.9. Nhóm đối chứng ................................................................................................... 5
1.6.1. Sự cần thiết của phân chia ngẫu nhiên ................................................................. 6
1.7. Phương pháp làm mù .................................................................................................................. 8
1.8. Tăng độ chính xác của ước tính .................................................................................................. 9
1.6.2. Các phương pháp phân chia ngẫu nhiên .............................................................. 7
1.8.1. Lặp lại................................................................................................................... 9
1.8.2. Kỹ thuật khối ........................................................................................................ 9
1.9. Dung lượng mẫu cần thiết ........................................................................................................... 9
1.10. Bài tập..... ................................................................................................................................ 17
1.8.3. Kỹ thuật cặp (đôi)................................................................................................. 9
2.1. TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU .................................................................................. 19
Chương 2 Phân tích số liệu thí nghiệm trong chăn nuôi ......................................................... 19
2.1.1. BIẾN SINH HỌC VÀ PHÂN LOẠI ................................................................. 19
2.1.2. CÁC THAM SỐ THỐNG KÊ MÔ TẢ ............................................................. 20
2.1.3. TRÌNH BÀY CÁC THAM SỐ THỐNG KÊ MÔ TẢ ....................................... 25
2.1.4.1 Giới thiệu phần mềm Minitab .......................................................................... 29 2.1.4.2 Cài đặt và khởi động phần mềm Minitab 16 ................................................... 29 2.1.4.3. Cửa sổ làm việc của Minitab 16 .................................................................... 29
2.1.4. SỬ DỤNG MINITAB TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU....................... 29
i
2.1.4.4. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH LƯỢNG .................................... 30 2.1.4.5. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH TÍNH ......................................... 33 2.2. PHÂN TÍCH PHƯƠNG SAI (ANOVA) .................................................................................. 38
2.2.1. Kiểm định điều kiện phân tích phương sai ........................................................ 38
2.2. Thiết kế thí nghiệm một yếu tố và phân tích số liệu ................................................................. 44
2.2.2. So sánh cặp đôi các giá trị trung bình ................................................................ 41
2.2.1. Thí nghiệm một nhân tố hoàn toàn ngẫu nhiên .................................................. 44
2.2.2.1. Thí nghiệm khối ngẫu nhiên đầy đủ với một lần lặp lại ................................. 47 2.2.2.2. Thí nghiệm khối ngẫu nhiên hoàn toàn với nhiều lần lặp lại ......................... 51 2.2.3. Thí nghiệm hoán vị (cross over) ........................................................................ 54
2.2.2. Thí nghiệm một yếu tố khối ngẫu nhiên đầy đủ ................................................ 47
2.3. Thiết kế thí nghiệm 2 nhân tố và phân tích số liệu ................................................................... 67
2.2.4. Thí nghiệm kiểu ô vuông La tinh ....................................................................... 59
2.3.1. Thí nghiệm 2 yếu tố chéo nhau ......................................................................... 67
2.3.2. Thí nghiệm hai nhân tố phân cấp (nested design) .............................................. 70
2.3.3. Thí nghiệm 2 nhân tố chia ô ............................................................................... 74
2.4. Phân tích hiệp phương sai (ANCOVA) .................................................................................... 86
2.3.4. Thí nghiệm phép đo lặp lại (repeated measures) ............................................... 81
2.5. BIẾN ĐỔI SỐ LIỆU ................................................................................................................. 92
2.6. BÀI TẬP 100
3.1. TƯƠNG QUAN ...................................................................................................................... 104
3.2. HỒI QUY.................................................................................................................................106
Chương 3 Tương quan và hồi quy ........................................................................................ 104
3.2.1. Hồi quy tuyến tính đơn và đa biến ................................................................... 106
3.2.2.1. Phương pháp Best Subset .......................................................................... 110 3.2.2.2. Phương pháp Stepwise ............................................................................... 111 3.2.3. Hồi quy đa thức ................................................................................................ 116
3.2.2. Lựa chọn mô hình hồi quy tốt nhất .................................................................. 110
3.3. Phương pháp bề mặt đáp ứng ................................................................................................. 128
3.4. BÀI TẬ......... .......................................................................................................................... 134
3.2.4. Hồi quy phi tuyến ............................................................................................. 120
4.1. So sánh tỷ lệ ............................................................................................................................ 136
4..2. Kiểm định sự phù hợp ............................................................................................................ 140
Chương 4 Kiểm định và so sánh tỷ lệ ................................................................................... 136
Chương 5 Phân tích phương sai phi tham số ........................................................................ 143
ii
Thiết kế thí nghiệm
Chương 1 Nguyên tắc thiết kế thí nghiệm
1.1. Ý nghĩa, tầm quan trọng, nguyên tắc cơ bản của thiết kế thí nghiệm
Một thí nghiệm được thiết kế để đảm bảo về yêu cầu khoa học cần phải có tính hệ thống và đảm bảo tính khách quan. Khi tiến hành một thí nghiệm không cần thiết phải khảo sát toàn bộ các cá thể trong quần thể mà chỉ cần chọn ra một số lượng nhất định (dung lượng mẫu nhất định) đại diện cho quần thể. Tuy nhiên, việc chọn dung lượng mẫu quá lớn sẽ gây ra lãng phí về tài chính, nhân lực và cơ sở vật chất, ngược lại nếu chọn dung lượng mẫu quá ít sẽ làm cho kết quả nghiên cứu thiếu độ tin cậy hay kết quả không chính xác. Do đó, thiết kế thí nghiệm cần đạt được hai mục tiêu: i) tìm hiểu và phát hiện ảnh hưởng của một hoặc nhiều yếu tố thí nghiệm nhằm tìm ra những vấn đề mới hoặc khẳng định lại hoặc bác bỏ kết quả của những nghiên cứu trước đó ; ii) sử dụng tài chính, nhân lực và cơ sở vật chất một cách hiệu quả nhất để tìm được câu trả lời cho một số vấn đề đặt ra hoặc rút ra được kết luận về một hiện tượng nào đó. Theo một nghĩa hẹp, thí nghiệm được thiết kế trong một môi trường quản lý nhằm nghiên cứu ảnh hưởng của một hay nhiều yếu tố lên các quan sát.
Các mô hình phân tích thống kê cần có nguyên liệu đầu vào là dữ liệu. Kết quả phân tích từ các mô hình phân tích thống kê này chỉ có giá trị về mặt khoa học khi dữ liệu được thu thập đúng phương pháp từ những thí nghiệm được thiết kế có tính hệ thống và đảm bảo tính khách quan với hiệu quả cao nhất. Do đó, thiết kế thí nghiệm đóng vai trò quan trọng trong sự thành công hay thất bại của một công trình nghiên cứu. Một thí nghiệm được thiết kế có tính hệ thống, đảm bảo tính khách quan và đúng phương pháp đã đạt được một nửa thành công.
Khi tiến hành thiết kế một thí nghiệm để đảm bảo yêu cầu về khoa học cần phảm đảm bảo được các nguyên tắc cơ bản: ngẫu nhiên (randomization), lặp lại (replication) và phân nhóm (blocking).
Nguyên tắc thứ nhất: ngẫu nhiên.
Khi tiến hành một nghiên cứu, việc khảo sát trên toàn bộ quần thể rất tốn kém (thời gian, tài chính, nhân lực và cơ sở vật chất), không thực tế và rất khó khả thi. Do đó, việc lấy một phần của quần thể (lấy mẫu) sẽ tiết kiệm (thời gian, tài chính, nhân lực và cơ sở vật chất), thực tế hơn và khả thi hơn. Khi lấy mẫu từ quần thể, một trong những yêu cầu quan trọng đó là mẫu lấy từ quần thể phải đảm bảo tính đại diện cho quần thể. Ví dụ: trong quần thể lợn Piétrain kháng stress có 1000 con, trong đó có 50% lợn đực và 25% lợn mang kiểu gen halothane đồng hợp tử trội (CC). Tiến hành thí nghiệm và chọn mẫu 100 con. Việc lấy mẫu để đảm bảo tính đại diện khi chọn được khoảng 50 lợn đực và có khoảng 25 lợn mang kiểu gen halothane đồng hợp tử trội (CC). Để đảm bảo tính đại diện cho quần thể, việc chọn mẫu ngẫu nhiên là phương án tối ưu nhất.
Sau khi chọn được dung lượng mẫu cần thiết cho một công trình nghiên cứu, việc chia ngẫu nhiên các đơn vị thí nghiệm về các công thức thí nghiệm là cách duy nhất và khách quan nhất nhằm cân đối các đặc điểm của đối tượng nghiên cứu giữa các công thức thí nghiệm.
Kết quả phân tích từ các mô hình phân tích thống kê đảm bảo được tính phù hợp khi việc chọn mẫu phải thực hiện ngẫu nhiên, vì các mô hình phân tích thống kê đều dựa trên giả định đối tượng được chọn ngẫu nhiên từ quần thể.
1
Chương 1 Nguyên tắc thiết kế thí nghiệm
Nguyên tắc thứ hai: lặp lại
Một thí nghiệm có thể được thực hiện lại với cùng nội dung, cùng số lượng các công thức thí nghiệm, trong điều kiện tương tự và bằng những phương pháp đã được mô tả phải đạt được kết quả tương tự. Các chỉ tiêu quan trắc có độ tin cậy cao khi các chỉ tiêu quan trắc đó được lặp lại nhiều lần. Kết luận được rút ra từ những chỉ tiêu quan trắc có độ tin cậy cao thì kết luận đó càng chắc chắn và có giá trị cao.
Nguyên tắc thứ ba: phân nhóm
Khi dung lượng mẫu lớn, việc ngẫu nhiên sẽ giúp cân đối các đặc điểm của đối tượng nghiên cứu giữa các công thức thí nghiệm. Tuy nhiên, khi dung lượng mẫu nhỏ, việc ngẫu nhiên sẽ không có hiệu quả. Do đó, việc phân nhóm sẽ đảm bảo được tính cân đối các đặc điểm của đối tượng nghiên cứu giữa các công thức thí nghiệm trong trường hợp dung lượng mẫu nhỏ.
Bên cạnh những nguyên tắc trên, khi thiết kế thí nghiệm còn phải đảm bảo yêu cầu về sai khác duy nhất. Trong thí nghiệm yếu tố duy nhất được phép sai khác là yếu tố thí nghiệm, còn các yếu tố khác (yếu tố phi thí nghiệm) càng đồng đều càng tốt.
Ví dụ: Thí nghiệm được tiến hành nhằm đánh giá ảnh hưởng của phương pháp cho ăn đến năng suất sinh sản của gà mái đẻ trứng thương phẩm Hisex Brown. Tổng số 240 con gà được chia hoàn toàn ngẫu nhiên về 60 ô chuồng với 2 phương pháp cho ăn: định mức và tự do. Yêu cầu sai khác duy nhất của thí nghiệm này được hiểu là: Phương pháp cho ăn (yếu tố thí nghiệm) khác nhau, còn các các yếu tố như: giống, tuổi, khối lượng, thức ăn, chế độ chăm sóc nuôi dưỡng (các yếu tố phi thí nghiệm),... đảm bảo đồng đều.
1.2. Phân loại thí nghiệm
Theo mức độ và quy mô, các thí nghiệm được chia thành 3 loại: 1) Thí nghiệm thăm dò; 2) Thí nghiệm chính thức; 3) Thí nghiệm thực hiện trong điều kiện sản xuất.
Theo bản chất của thí nghiệm, các thí nghiệm có thể chia thành hai loại: 1) thí nghiệm quan sát, 2) thí nghiệm thực nghiệm. Trong phần thiết kế thí nghiệm của giáo trình này, chúng tôi sẽ tập trung vào các thí nghiệm thực nghiệm.
Trong chăn nuôi, thú y, và thuỷ sản các thí nghiệm thường tập trung vào các lĩnh vực: 1) các nghiên cứu dịch tễ học (nghiên cứu cắt ngang, nghiên cứu hồi cứu và nghiên cứu tiến cứu) và các biện pháp phòng, điều trị bệnh; 2) các nghiên cứu về dinh dưỡng, năng suất và di truyền ở vật nuôi và thuỷ sản.
1.2.1. Thí nghiệm quan sát
Trong thí nghiệm quan sát, ta chỉ đơn thuần quan sát các động vật thí nghiệm và ghi lại các dữ liệu liên quan đến các tính trạng quan tâm. Chúng ta không tác động để can thiệp vào sự tồn tại của đối tượng quan sát. Trong loại thí nghiệm quan sát, các động vật không thể bố trí một cách ngẫu nhiên về các nghiệm thức.
Điều tra là một trường hợp đặc biệt của thí nghiệm quan sát. Trong điều tra, chúng ta tiến hành kiểm tra toàn bộ hoặc một nhóm động vật để tìm ra các giá trị của những tham số khác nhau trong quần thể. Điều tra có thể là một trong các trường hợp sau :
1) Điều tra quần thể - tiến hành kiểm tra tất cả các động vật trong quần thể
2) Điều tra mẫu - tiến hành kiểm tra những nhóm động vật đại diện và dựa vào kết quả điều tra ta có thể rút ra kết luận cho cả quần thể.
2
Thiết kế thí nghiệm
+ Ưu điểm: Ít tốn kém thời gian, tài chính, nhân lực và cơ sở vật chất
+ Hạn chế: Chỉ tiến hành nghiên cứu được những yếu tố đã có và không kiểm soát được hoặc kiểm soát được rất ít các yếu tố phi thí nghiệm. Do đó, độ tin cậy của thí nghiệm quan sát thường rất thấp hay độ chính xác của thí nghiệm quan sát không cao.
1.2.2. Thí nghiệm thực nghiệm
Trong thí nghiệm thực nghiệm, chúng ta can thiệp vào nghiên cứu bằng cách áp dụng các công thức thí nghiệm khác nhau lên các nhóm động vật nghiên cứu. Sau đó chúng ta tiến hành quan sát ảnh hưởng của các công thức thí nghiệm lên đối tượng nghiên cứu. Đối với loại thí nghiệm này, các động vật được bố trí một cách ngẫu nhiên đối với các công thức thí nghiệm trong quá trình thiết kế. + Ưu điểm: - Chủ động tiến hành nghiên cứu được ảnh của các công thức thí nghiệm lên đối tượng nghiên cứu. - Kiểm soát được các yếu tố phi thí nghiệm + Nhược điểm: - Tốn kém về thời gian, tài chính, nhân lực và cơ sở vật chất
Thí nghiệm thực nghiệm được chia thành hai loại: thí nghiệm một nhân tố và thí nghiệm nhiều nhân tố. - Thí nghiệm một nhân tố: thí nghiệm có duy nhất 1 yếu tố thí nghiệm + Ưu điểm: - Đơn giản, dễ làm, số lượng công thức thí nghiệm không lớn và dễ xử lý số liệu + Hạn chế: - Phạm vi ứng dụng hạn chế, không đánh giá được tương tác giữa các yếu tố và không
tìm được những tổ hợp ưu việt nhất giữa các mức của các nhân tố thí nghiệm với nhau - Thí nghiệm nhiều nhân tố: thí nghiệm có từ hai hay nhiều yếu tố thí nghiệm trở lên + Ưu điểm: - Phạm vi ứng dụng rộng, đánh giá được tương tác giữa các yếu tố và xác định được
những tổ hợp ưu việt nhất giữa các mức của các nhân tố thí nghiệm với nhau + Hạn chế: - Phức tạp, nhiều công thức thí nghiệm và khó khăn trong việc xử lý số liệu
1.3. Một số khái niệm trong thiết kế thí nghiệm
1.3.1. Yếu tố thí nghiệm
Yếu tố thí nghiệm là một biến độc lập gồm hàng loạt các phần tử có chung một bản chất mà có thể so sánh trong quá trình thực hiện thí nghiệm. Ví dụ như một giống vật nuôi, kiểu gen Halothane ở lợn, hàm lượng protein trong khẩu phần, thuốc kháng sinh, vắc xin trong phòng và điều trị bệnh,…
Một thí nghiệm có thể có một hoặc nhiều yếu tố thí nghiệm và các yếu tố thí nghiệm này có thể là yếu tố cố định hoặc yếu tố ngẫu nhiên.
1.3.2. Mức
Các phần tử riêng biệt khác nhau trong cùng một yếu tố thí nghiệm được gọi là mức. Ví dụ ta có một yếu tố thí nghiệm là kiểu gen Halothane ở lợn thì ta sẽ có 3 phần tử khác nhau tương ứng với 3 kiểu gen (NN, Nn, nn) hay còn được gọi là 3 mức. Hoặc khi nghiên cứu ảnh hưởng của protein đến sản lượng sữa bò ta có thể nghiên cứu ở 3 mức protein khác nhau. Trong thú
3
Chương 1 Nguyên tắc thiết kế thí nghiệm
y, các nhà nghiên cứu hiệu quả điều trị bệnh của các loại thuốc khác nhau ; có thể coi mỗi loại thuốc tương đương với 1 mức.
1.3.3. Nghiệm thức (công thức thí nghiệm)
Một tổ hợp các mức của các nhân tố được gọi là một nghiệm thức hay công thức thí nghiệm. Ví dụ nghiên cứu ảnh hưởng của protein ở 3 mức khác nhau đến sản lượng sữa bò, trong trường hợp này ta sẽ có 3 công thức. Ta xét một hoàn cảnh tương tự nhưng có thêm yếu tố thứ 2 là thức ăn tinh ở 2 mức, lúc này sẽ có tất cả 6 công thức thí nghiệm.
1.3.4. Đơn vị thí nghiệm
Đơn vị thực hiện nhỏ nhất ứng với một công thức được gọi là đơn vị thí nghiệm. Đơn vị thí nghiệm trong chăn nuôi, thú y thường là từng động vật nhưng đôi khi là một nhóm động vật, ví dụ nghiên cứu tiêu tốn thức ăn đối với một kg tăng trọng, trong thực tế ta không thể theo dõi được lượng thức ăn thu nhận của từng vật nuôi mà ta chỉ biết được số thức ăn thu nhận được của một nhóm gồm nhiều cá thể khác nhau. Tức là từ một nhóm cá thể như vậy ta chỉ có một quan sát duy nhất, đây cũng chính là điều mà các nhà nghiên cứu cần phải chú ý.
1.3.5. Dữ liệu (số liệu)
Nếu đơn vị thí nghiệm là một cá thể thì sau khi cân, đo ta được một dữ liệu (data) hay một quan sát (observation). Nếu đơn vị là một nhóm gồm nhiều cá thể thì có thể cân, đo chung cho cả nhóm hoặc lấy một số cá thể nhất định trong nhóm để cân, đo sau đó suy ra một dữ liệu chung cho đơn vị thí nghiệm. Các số liệu của các nhóm có thể lưu trữ để đánh giá sai số của đơn vị thí nghiệm.
1.3.6. Khối
Tập hợp các đơn vị thí nghiệm có chung một hay nhiều đặc tính được gọi là khối.
1.3.7. Lặp lại
Mỗi công thức, trừ trường hợp đặc biệt , đều được lặp lại một số lần nhất định. Số lần lặp lại thường chọn bằng nhau vì nhìn chung, đối với nhiều mô hình, khi các lần lặp của các công thức bằng nhau có thể đưa ra các công thức tính khá thuận tiện và đơn giản. Nếu số lần lặp không bằng nhau thì phải sử dụng cách tính theo mô hình hồi quy nhiều biến tổng quát khá phức tạp, kèm theo đó việc kiểm định các giả thiết, đặc biệt việc tính các kỳ vọng của các trung bình bình phương, cũng gặp rất nhiều khó khăn.
Trong thực tế, số lần lặp bằng nhau nhưng trong quá trình thí nghiệm ta ít khi thu thập được đầy đủ dữ liệu vì có một số động vật bị chết hoặc bị loại thải do không đáp ứng được các yêu cầu của thí nghiệm. Số lượng động vật thí nghiệm sống sót đến khi kết thúc thí nghiệm phụ thuộc vào từng loại thí nghiệm và loài vật nuôi khác nhau. Nếu mất ít dữ liệu, có thể tìm cách thay thế dữ liệu bị mất bằng tổ hợp của các dữ liệu còn lại theo một công thức cụ thể, kèm theo sự điều chỉnh của các bậc tự do tương ứng ; ngược lại, phải coi như số lần lặp khác nhau và dùng mô hình hồi quy tổng quát.
1.3.8. Nhắc lại
Nhắc lại là làm lại thí nghiệm trong điều kiện tương tự có thể để kết luận đạt mức độ tin cậy.
4
Thiết kế thí nghiệm
1.3.9. Nhóm đối chứng
Là nhóm động vật thí nghiệm được tạo ra trong quá trình bố trí thí nghiệm nhưng được nuôi dưỡng, chăm sóc trong điều kiện bình thường hiện có.
1.4. Các bước tiến hành thí nghiệm
Một thí nghiệm thường được bố trí và có thể mô tả qua các bước sau : 1) Đặt vấn đề, 2) Phát biểu giả thiết, 3) Mô tả thiết kế thí nghiệm, 4) Thực hiện thí nghiệm (thu thập số liệu), 5) Phân tích số liệu thu thập được từ thí nghiệm và 6) Giải thích kết quả liên quan đến giả thiết.
Lập kế hoạch cho một thí nghiệm bắt đầu bằng việc nêu lên những vấn đề cấp thiết ; bên cạnh đó là tập hợp các tài liệu liên quan bao gồm cả những nghiên cứu trước đó; tiếp đến là nêu lên hướng giải quyết vấn đề. Sau những vấn đề vừa nêu, mục đích nghiên cứu được xác định. Mục đích nghiên cứu phải rõ ràng bởi vì các bước tiếp theo trong quá trình thiết kế thí nghiệm đều phụ thuộc vào mục đích đặt ra.
Bước tiếp theo là xác định nguyên liệu và phương pháp phương pháp nghiên cứu. Thiết kế thí nghiệm phải mô tả số liệu được thu thập như thế nào. Số liệu có thể thu thập từ các nghiên cứu quan sát từ các quá trình tự nhiên hoặc từ các thí nghiệm được bố trí trong môi trường thí nghiệm. Nếu chúng ta biết thông tin nào được thu thập và bằng cách nào sẽ được sử dụng để thu thập các số liệu này, thì việc rút ra kết luận sẽ dễ dàng và hiệu quả hơn rất nhiều. Điều này đúng với cả thí nghiệm quan sát và thí nghiệm thực nghiệm ; đồng thời cũng rất quan trọng để phát hiện ra những thông tin bất ngờ dẫn đến những kết luận mới.
Đối với các nhà thống kê, thiết kế thí nghiệm là đặt ra các tiêu chuẩn để sử dụng khi chọn mẫu. Đối với thí nghiệm thực nghiệm việc thiết kế thí nghiệm bao gồm: xác định các nghiệm thức, xác định các đơn vị thí nghiệm, số lần lặp lại, việc bố trí các đơn vị vào các nghiệm thức, các sai số thí nghiệm có thể mắc phải.
Giả thiết thống kê thường đi theo sau giả thiết nghiên cứu. Chấp nhận hay bác bỏ giả thiết thống kê giúp tìm được câu trả lời cho mục đích nghiên cứu. Trong kiểm định giả thiết các nhà thống kê sử dụng mô hình thống kê. Mô hình thống kê theo sau mô hình thí nghiệm thường được giải thích với các công thức toán học.
Thu thập số liệu được thực hiện theo thiết mô hình thiết kế thí nghiệm. Phân tích thống kê được tiến hành sau khi thu thập được số liệu bao gồm phân tích, miêu tả và giả thích kết quả. Mô hình sử dụng trong phân tích được xây dựng dựa trên mục đích và mô hình thí nghiệm. Thông thường cách phân tích số liệu được xác định trước khi thu thập số liệu ; đôi khi lại được xác định sau khi thu thập số liệu nếu người nghiên cứu tìm được một cách tốt hơn để rút ra kết luận hoặc xác định được một khía cạnh mới liên quan đến vấn đề nghiên cứu.
Cuối cùng, người nghiên cứu phải có khả năng rút ra kết luận để hoàn thiện mục tiêu nghiên cứu. Kết luận phải rõ ràng và chính xác. Người nghiên cứu phải thảo luận các ứng dụng vào thực tế của nghiên cứu đồng thời nêu ra những khả năng đặt ra trong tương lai liên quan đến vấn đề tương tự.
1.5. Sai số thí nghiệm
Bản chất của vật liệu sinh học là sự biến động. Toàn bộ sự biến động này có thể phân chia thành phần biến động có thể giải thích được và không giải thích được. Mỗi đơn vị thí nghiệm (yij) có thể được biểu diễn như sau :
yij = i + eij
5
Chương 1 Nguyên tắc thiết kế thí nghiệm
Trong đó, là giá trị ước tính miêu tả sự ảnh hưởng giải thích được của nhóm thứ i và eij ảnh hưởng không giải thích được. Vì vậy, các quan sát (yij) khác nhau nguyên nhân là do ảnh hưởng giải thích được của các nhóm (i) khác nhau và các ảnh hưởng không giải thích được (eij) khác nhau. Ước tính i được giải thích do ảnh hưởng của nhóm i, nhưng sự khác nhau giữa các đơn vị thí nghiệm trong cùng một nhóm thì không thể giải thích được. Biến động này thường được gọi là sai số thí nghiệm.
Sai số thí nghiệm có thể bao gồm 2 dạng sau đây : sai số ngẫu nhiên và sai số hệ thống. Sai số hệ thống là các ảnh hưởng nhất định làm lệch các giá trị đo được trong một nghiên cứu. Sai số này có thể xuất phát từ sự thiếu đồng nhất trong quá trình thực hiện thí nghiệm, có thể do dụng cụ thí nghiệm không được hiệu chỉnh, do ảnh hưởng của nhiệt độ không ổn định, do thiên lệch trong quá trình sử dụng thiết bị. Nếu sự thiên lệch này được phát hiện thì hiệu chỉnh là biện pháp hiệu quả nhất. Chúng cũng đặc biệt khó giải quyết nếu không phát hiện được vì chúng ảnh hưởng lên các giá trị một cách có hệ thống nhưng không biết theo xu hướng nào.
Sai số ngẫu nhiên xuất hiện do các tác động ngẫu nhiên, không dự đoán được. Chúng tạo ra các biến động không giải thích được. Kỳ vọng của biến động này bằng 0 vì vậy khi có một loạt các quan sát thì các tính toán dựa vào trung bình sẽ không bị thiên lệch về một hướng. Trong sinh học luôn tồn tại sai số ngẫu nhiên ví dụ trong chăn nuôi, các động vật khi đo hay phân tích một chỉ tiêu nào đó, luôn cho các kết quả khác nhau tuy có thể không lớn lắm.
Để giảm được sai số có hệ thống và sự thiên lệch ta xem xét 2 giải pháp sau đây:
1) Bố trí động vật vào các nghiệm thức và
2) Phương pháp làm mù
1.6. Bố trí động vật vào các nghiệm thức
1.6.1. Sự cần thiết của phân chia ngẫu nhiên
Sự thiên lệch có thể xuất hiện trong quá trình phân chia động vật vào các nghiệm thức. Sự thiên lệch này có thể do yếu tố chủ quan. Ví dụ chúng ta phân chia các động vật vào các nghiệm thức theo sở thích chủ quan (thích nghiệm thức nào thì bố trí các động vật ‘tốt ‘, không thích thì bố trí động xấu’) hoặc có sự khác nhau có hệ thống giữa nhóm đối chứng và nhóm thí nghiệm, lúc đó chúng ta không thể kết luận được sự sai khác sau khi thực hiện thí nghiệm là do ảnh hưởng của nghiệm thức hay do sự khác nhau có hệ thống .
Một phương pháp tiếp cận hay được sử dụng để loại bỏ sự thiên lệch này là bố trí ngẫu nhiên hay còn gọi là ngẫu nhiên hoá các động vật thí nghiệm vào các nghiệm thức. Trong quá trình bố trí chúng ta phân động vật vào các nghiệm thức với các yêu cầu sau :
a) Tất cả các động vật thí nghiệm đều có cơ hội nhận được một nghiệm thức bất kỳ.
b) Việc bố trí động vật vào nghiệm thức này không ảnh hưởng đến việc bố trí động vật vào nghiệm thức khác.
c) Chúng ta không biết trước nghiệm thức mà từng động vật được phân vào.
Ngẫu nhiên hoá có một số ưu điểm sau :
a) Loại bỏ được sự thiên lệch trong quá trình bố trí động vật thí nghiệm
b) Tạo được sự giống nhau giữa các nhóm
6
Thiết kế thí nghiệm
1.6.2. Các phương pháp phân chia ngẫu nhiên
Tốt nhất là tránh sử dụng các phương pháp cơ học như tung đồng xu hoặc ném con súc sắc để bố trí động vật về các nghiệm thức. Mặc dù các phương pháp này về mặt xác suất vẫn được chấp nhận để tạo ra sự ngẫu nhiên, nhưng nó cồng kềnh và không kiểm tra được. Thông thường, bảng số ngẫu nhiên được sử dụng để phân động vật về với nghiệm thức. Ngoài ra ta có thể sử dụng máy tính để tạo ra các số ngẫu nhiên. Khi thiết kế thí nghiệm, số đơn vị thí nghiệm thường bằng nhau ở các nghiệm thức.
a) Phân chia ngẫu nhiên đơn giản
Đơn vị thí nghiệm số
Đây là cách ngẫu nhiên hoá cơ bản không có sự phân biệt hoặc hạn chế. Ví dụ tiến hành phân 12 động vật thí nghiệm được đánh số từ 1 đến 12 về 2 công thức thí nghiệm (đối chứng - C và thí nghiệm - T). Tiến hành chọn số ngẫu nhiên từ bảng số ngẫu nhiên phần phụ lục. Giả sử ta lấy 10 số có 1 chữ số ở hàng đầu tiên ; như vậy ta sẽ được dãy số ngẫu nhiên sau 813766407765. Nếu số ngẫu nhiên là số chẵn động vật sẽ phân về với C và số lẻ về với T.
Số ngẫu nhiên
1 2 3 4 5 6 7 8 9 10 11 12
Công thức
8 1 3 7 6 6 4 0 7 7 6 5
C T T T C C C C T T C T
Có thể tiến hành các bước tương tự đối với thí nghiệm có số nghiệm thức nhiều hơn 2. Ví dụ có 3 nghiệm thức A, B và C, chọn các số 1-3, 4-6 và 7-9 tương ứng với các nghiệm thức và bỏ qua số 0. Tương tự như ví dụ trên ta có dãy số ngẫu nhiên 8137664077652 và kết quả thu được CAACBBBCCBBA. Trong trường hợp này, sự ngẫu nhiên đã không được tuân thủ vì có 3A, 5B và 4C. Cách phân chia ngẫu nhiên hạn chế được đưa ra nhằm khắc phục những hạn chế này.
b) Phân chia ngẫu nhiên theo khối
Phân chia ngẫu nhiên đơn giản dựa trên nguyên tắc tất cả các động vật tương đối đồng đều, mỗi động vật đều có cơ hội như nhau khi sắp vào một nghiệm thức. Tuy nhiên điều này không còn đúng khi dung lượng mẫu lớn. Căn cứ vào một tiêu chí lựa chọn cụ thể thí dụ lựa chọn theo lứa, theo tuổi, theo khối lượng, theo hành vi . . . chúng ta sẽ phân chia các động vật thành một số nhóm sao cho các động vật cùng nhóm tương đối đồng đều, sau đó mới chia ngẫu nhiên các động vật trong từng nhóm vào các nghiệm thức. Đây chính là cách phân chia ngẫu nhiên theo khối.
Ví dụ 1.1 : Nghiên cứu bệnh viêm khớp ở chó. Tạo ra 3 khối khác nhau tương ứng với 3 nhóm có khối lượng cơ thể lớn, trung bình và nhỏ. Như vậy sẽ biết được khối lượng cơ thể của động vật ảnh hưởng đến mức độ mắc bệnh của từng nghiệm thức. Tức là so sánh các nghiệm thức có đề cập đến khối lượng cơ thể.
c) Phân chia ngẫu nhiên hạn chế.
Nhìn chung, ta mong muốn có số đơn vị thí nghiệm bằng nhau ở các nghiệm thức. Kỹ thuật ngẫu nhiên đơn giản đã được sử dụng để đạt được điều này nếu dung lượng mẫu đủ lớn. Tuy nhiên chúng ta có thể gặp sự thiếu cân bằng khi dung lượng mẫu tương đối bé. Điều này đã
7
Chương 1 Nguyên tắc thiết kế thí nghiệm
được minh hoạ ở ví dụ phần phân chia ngẫu nhiên đơn giản với sự phân bố 3A, 5B và 4C. Có thể sử dụng kiểu phân chia ngẫu nhiên hạn chế để khắc phục những hạn chế này.
Ví dụ có 16 đơn vị thí nghiệm, cần chia về 4 nghiệm thức A, B, C và D. Ta sẽ chọn các số 1- 2, 3-4, 5-6, 7-8 tương ứng với các nghiệm thức A, B và C và bỏ qua số 9 và 0. Tương tự ta có dãy số ngẫu nhiên 81376640776529997742 và kết quả DABDCCBDD. Như vậy đến số ngẫu nhiên thứ 9 đã có đủ 4 động vật về với nghiệm thức D. Các số ngẫu nhiên 7- 8 cũng sẽ bỏ qua vì đã đủ số lượng và đã có 1 động vật thí nghiệm về với A, 2 với B và 2 về với C. Tiếp theo ta sẽ có CC, ở số ngẫu nhiên thứ 11 đã đủ 4 đơn vị cho công thức C. Tương tự như vậy chắc chắn số đơn vị thí nghiệm ở các nghiệm thức bằng nhau.
Phân chia ngẫu nhiên theo khối thường được dùng kết hợp với phân chia ngẫu nhiên giới hạn.
d) Phân chia ngẫu nhiên theo nhóm (Cluster)
Thông thường, một động vật thí nghiệm được coi như một đơn vị thí nghiệm. Tuy nhiên trong chăn nuôi và thú y, thì một nhóm động vật cũng được coi như một đơn vị thí nghiệm. Bởi vì thức ăn, thuốc và vắc xin thường được sử dụng cho một nhóm động vật trong cùng một lứa, nuôi trong cùng một chuồng, một bãi hoặc được sử dụng cho cả đàn hay tất cả cá nuôi trong một bể. Trong trường hợp này, ta tiến hành sử dụng kỹ thuật ngẫu nhiên hoá cho cả nhóm động vật thí nghiệm hay còn gọi là ngẫu nhiên hoá theo nhóm. Như vậy tất cả động vật trong nhóm sẽ nhận được cùng một nghiệm thức sau đó cần phải tập hợp kết quả trên các nhóm để đánh giá ảnh hưởng của các nghiệm thức. Lưu ý rằng trong kiểu phân chia này một nhóm động vật chỉ được coi như một đơn vị thí nghiệm.
Ví dụ 1.2 : Nghiên cứu tiêu tốn thức ăn trên một kg tăng trọng đối với lợn nuôi vỗ béo. Về lý thuyết có thể tiến hành quan sát lượng thức ăn mà từng con lợn thu nhận hằng ngày ; nhưng về thực tế điều này rất khó thực hiện. Ta chỉ có thể quan sát được lượng thức ăn tiêu tốn trong một ô chuồng có nuôi khoảng 30 – 50 con và từ đây có thể tính được tiêu tốn thức ăn cho 1 kg tăng trọng. Ở đây 1 ô chuồng nuôi 30 -50 con được coi như một đơn vị thí nghiệm. Để có thể nghiên cứu được tiêu tốn thức ăn trên 1kg tăng trọng ta phải tiến hành thí nghiệm trên nhiều ô chuồng và phải bắt thăm ô chuồng nào áp dụng công thức thí nghiệm nào.
1.7. Phương pháp làm mù
Trong phần nêu trên ta đã dùng kỹ thuật bố trí động vật vào các công thức thí nghiệm bằng kỹ thuật ngẫu nhiên hoá để đảm bảo không có sự sai số có hệ thống. Tuy nhiên sự thiên lệch có thể xuất hiện do những định kiến của người trực tiếp thực hiện và người đánh giá. Để đảm bảo trong thí nghiệm không có sự thiên lệch như đã nêu trên ta sử dụng kỹ thuật làm mù. Có 2 kỹ thuật làm mù :
1) Kỹ thuật làm mù đơn và 2) Kỹ thuật làm mù kép.
Kỹ thuật làm mù kép là kỹ thuật mà cả người trực tiếp thực hiện và người đánh giá không biết các thông tin về thí nghiệm. Đối với kỹ thuật làm mù đơn, hoặc người trực tiếp thực hiện hoặc người đánh giá không biết các thông tin về thí nghiệm.
Để người trực tiếp thực hiện không thể phân biệt được sự khác nhau giữa nhóm đối chứng và thí nghiệm, có thể sử dụng những vật nộm, vật giả vờ (placebo). Placebo là những vật mà bề ngoài trong giống hệt vật thí nghiệm, chỉ khác nhau về bản chất. Placebo thường được dùng trong các nghiên cứu về thuốc.
8
Thiết kế thí nghiệm
1.8. Tăng độ chính xác của ước tính
1.8.1. Lặp lại
Nhìn chung, số lượng đơn vị thí nghiệm càng lớn thì độ chính xác của ước tính càng cao và càng có nhiều cơ hội để phát hiện được ảnh hưởng của nghiệm thức nếu nó tồn tại. Chi tiết về xác định dung lượng mẫu tối ưu được trình bày ở chương 4 và chương 5.
Lặp lại tức là tiến hành thu thập cùng một kiểu số liệu nhiều lần trên cùng một động vật hay cùng một đơn vị thí nghiệm. Bằng cách này ta có thể phân tách được biến động do sinh học gây ra hay do tác động của nghiệm thức.
1.8.2. Kỹ thuật khối
Có thể sử dụng kỹ thuật nhóm đơn vị thí nghiệm như một công cụ bổ trợ để giảm biến động trong quá trình so sánh. Tạo ra các nhóm động vật (khối) tương đối đồng đều nhau, như vậy sự biến động ngẫu nhiên trong mỗi khối sẽ bé hơn giữa các khối. Tiến hành ngẫu nhiên hoá trong từng khối. Trong quá trình phân tích số liệu, có thể phân tách được sự biến động do nghiệm thức gây ra với biến động do khối gây ra. Với cách tiếp cận theo kỹ thuật khối ta sẽ có một ước tính chính xác hơn.
Đối với kỹ thuật khối có 2 mô hình thiết kế thí nghiệm : 1) khối ngẫu nhiên đầy đủ, khi trong mỗi khối bố trí đầy đủ tất cả các nghiệm thức và 2) khối ngẫu nhiên không đầy đủ, khi trong mỗi khối không có đầy đủ các nghiệm thức.
1.8.3. Kỹ thuật cặp (đôi).
Kỹ thuật cặp được đề cập khi ta xem xét trường hợp chỉ có 2 nghiệm thức (2 nhóm) và 2 nhóm này có mối liên hệ với nhau. Nếu các quan sát trong 2 nhóm tạo thành cặp hoặc một cá thể tham gia ở cả 2 nhóm thì các quan sát ở 2 nhóm phải bằng nhau. Với kỹ thuật cặp, so sánh các nghiệm thức với nhau được thực hiện trong từng cặp. Sự biến động trong từng cặp bao giờ cũng bé hơn giữa các cá thể không cùng cặp, như vậy ước tính sẽ chính xác hợn. Có các kiểu cặp như sau :
1) Cặp tự tạo - mỗi động vật tham gia cả 2 công thức thí nghiệm
2) Cặp tự nhiên - động vật sinh đôi hoặc nhân bản
3) Cặp nhân tạo – tạo ra cặp với các tiêu chí lựa chọn tương đối đồng nhất, ví dụ đồng nhất về tuổi, khối lượng, chỉ tiêu sinh lý, sinh hoá…
1.9. Dung lượng mẫu cần thiết
Cần bao nhiêu động vật thí nghiệm, bao nhiêu khối, bao nhiêu ô lớn, bao nhiêu ô nhỏ? Đây là một câu hỏi thực sự khó. Chúng ta xét một số cách tiếp cận sau:
Số động vật thí nghiệm phải đủ sao cho các đặc tính riêng biệt của từng cá thể không làm ảnh hưởng đến kết quả thí nghiệm. Nếu số động vật trong thí nghiệm quá ít thì độ tin cậy của kết quả thu được từ thí nghiệm sẽ không cao. Ngược lại, nếu số động vật quá nhiều thì có thể gây lãng phí. Để đạt được độ chính xác cao không phải lúc nào cũng cần số lượng động vật thí nghiệm quá lớn. Nếu quá nhiều động vật tham gia thí nghiệm thì có thể gây ra nhiều khó khăn trong quá trình theo dõi từng cá thể, khó khăn khi chúng ta muốn tạo ra các điều kiện đồng nhất
9
Chương 1 Nguyên tắc thiết kế thí nghiệm
của thí nghiệm cho mọi cá thể ví dụ như khi cho động vật ăn ... những khó khăn đó đã làm giảm độ chính xác về mặt kỹ thuật của thí nghiệm.
Dung lượng mẫu cần thiết còn phụ thuộc vào chất lượng của động vật tham gia thí nghiệm. Động vật tham gia thí nghiệm có độ đồng đều cao thì số lượng giảm xuống và ngược lại. Độ tuổi của vật nuôi cũng đóng vai trò quan trọng trong quá trình chọn dung lượng mẫu. Động vật càng non thì số lượng cần phải tăng lên và ngược lại, bới vì đối với loại động vật này mức độ biến động rất lớn (cả về mặt sinh lý và ngoại hình). Ngoài ra, dung lượng mẫu còn phụ thuộc vào từng loại vật nuôi ; mỗi loại vật nuôi có những đặc điểm riêng vì vậy trong quá trình thiết kế thí nghiệm cũng phải chú ý đến yếu tố này. Cuối cùng, kết quả mong đợi của thí nghiệm (sự chênh lệch giữa các công thức thí nghiệm) cũng ảnh hưởng rất nhiều đến dung lượng mẫu.
Có thể phác sơ qua các yếu tố ảnh hưởng đến dung lượng mẫu như sau:
Yếu tố ảnh hưởng Dung lượngmẫu
ít nhiều
Biến động trong đàn ít nhiều
Đối tượng nghiên cứu đại gia súc gia cầm
Giai đoạn nghiên cứu đầu cuối
Loại đề tài thức ăn giống phòng bệnh
Phương tiện bằng tay có máy móc
Nhân lực và vật lực hạn chế nhiều
Trên đây là các tiêu chí để làm cơ sở quyết định chọn dung lượng mẫu. Bên cạnh đó, để xác định được số lượng động vật thí nghiệm cần thiết có thể dựa phải dựa vào các tiêu chí sau :
1.9.1. Số nghiệm thức
Cách tiếp cận thứ nhất để xác định được dung lượng mẫu cần thiết đó là dựa vào :
1) Số nghiệm thức (a)
2) Mức độ đồng đều của tính trạng cần nghiên cứu (²)
3) Sai lầm loại I () và loại II (). Thông thường một công trình nghiên cứu chấp nhận sai sót loại I khoảng 1% hay 5% (tức α = 0,01 hay 0,05) và xác suất sai sót loại II khoảng β = 0,1 đến 0,2 (tức power = 0,8 – 0,9).
4) Chênh lệch bé nhất giữa 2 giá trị trung bình bất kỳ để phát hiện sự sai khác nếu có (d)
Đối với trường hợp ước tính một giá trị trung bình
Dung lượng mẫu cần thiết để giá trị trung bình cộng ước tính khác không quá d khi có phân phối chuẩn N(,2) và mức tin cậy P = 1 - dựa vào công thức sau :
10
Thiết kế thí nghiệm
Trong đó: C là hằng số liên quan giữa α và β; C = (Z1-α/2 + Z1-β)2; Bảng 1.1.
5)
Bảng 1.1. Bảng tham chiếu hằng số C liên quan giữa α và β
β = 0,2 β = 0,1 β = 0,05 α (power = 0,8) (power = 0,9) (power = 0,95)
6,18 8,56 10,82 0,1
7,85 10,51 12,99 0,05
11,68 14,88 17,81 0,01
Ví dụ 3.3: Cần quan sát bao nhiêu bò sữa để ước tính được năng suất trong chu kỳ tiết sữa 305 ngày với mức độ tin cậy 95% nằm trong khoảng ± 75kg so với giá trị thực của quần thể. Biết rằng sản lượng sữa có phân bố chuẩn = 500kg.
Cần thiết:
Như vậy cần ít nhất 349 bò sữa để thoả mãn điều kiện bài toán.
Sử dụng Minitab 16 ước tính dung lượng mẫu đối với trường hợp ước tính một giá trị trung bình
Power and Sample Size 1-Sample Z Test Testing mean = null (versus not = null) Calculating power for mean = null + difference Alpha = 0.05 Assumed standard deviation = 500 Sample Target Difference Size Power Actual Power 75 349 0.8 0.800182
11
Chương 1 Nguyên tắc thiết kế thí nghiệm
Đối với trường hợp ước tính một tỷ lệ
khác không quá d so với tỷ lệ thực . Nếu biết
Dung lượng mẫu cần thiết để tỷ lệ ước tính tỷ lệ hiện hành p (prevalance) và kiểm định ở mức tin cậy P = 1 - dựa vào công thức sau :
Lưu ý: Tỷ lệ hiện hành p có thể tìm được thông qua các tài liệu, các nghiên cứu trước hoặc xuất phát từ kinh nghiệm và sự hiểu biết của người nghiên cứu. Nếu khi tiến hành thí nghiệm không có thông tin về tỷ lệ lưu hành, ta sẽ chọn p = 0,5. Khi đó
Ví dụ 3.4: Cần dung lượng mẫu bao nhiêu để xác định tỷ lệ hiện nhiễm một loại vi khuẩn trên thân thịt lợn ở một lò mổ với ước tính chênh lệch không quá 5%. Biết rằng tỷ lệ hiện hành p = 0,2 và kiểm định ở mức tin cậy 95%.
Cần thiết
Như vậy cần khảo sát ít nhất 246 thân thịt.
Đối với trường hợp so sánh 2 giá trị trung bình
Dung lượng mẫu cần thiết (đối với mỗi nghiệm thức) để phát hiện được sự sai khác nếu chênh lệch giữa 2 giá trị trung bình là d, sai lầm loại I và loại II ở mức tương ứng là và . Giả sử số liệu có phân bố chuẩn. Phương sai của tính trạng nghiên cứu là ².
Ví dụ 3.5: Muốn thiết kế một thí nghiệm để so sánh sản lượng sữa của dê Bách Thảo ở 2 công thức thí nghiệm với yêu cầu = 0,05; = 0,2; chênh lệch mong đợi 30 kg sữa biết = 50 kg.
Cần thiết
Như vậy cần ít nhất 44 dê cho mỗi công thức thí nghiệm.
Sử dụng Minitab 16 ước tính dung lượng mẫu đối với trường hợp so sánh 2 giá trị trung bình
12
Thiết kế thí nghiệm
Power and Sample Size 2-Sample t Test Testing mean 1 = mean 2 (versus not =) Calculating power for mean 1 = mean 2 + difference Alpha = 0.05 Assumed standard deviation = 50 Sample Target Difference Size Power Actual Power 30 45 0.8 0.803697 The sample size is for each group.
Đối với trường hợp so sánh hai tỷ lệ
Dung lượng mẫu cần thiết để so sánh 2 tỷ lệ là:
Trong đó:
n = dung lượng mẫu cần thiết
p1 = tỷ lệ mắc bệnh hiện hành ở quần thể thứ 1
p2 = tỷ lệ mắc bệnh dự đoán ở quần thể thứ 2
p= (p1+p2)/2
Z(/2) = Giá trị z ở mức tương ứng 1-/2 ( – xác suất mắc sai lầm loại I)
Z( = Giá trị z ở mức tương ứng ( – xác suất mắc sai lầm loại II)
13
Chương 1 Nguyên tắc thiết kế thí nghiệm
Ví dụ 3.6: Một tiến cứu được tiến hành để nghiên cứu tỷ lệ tổn thương núm vú ở bò sữa giữa hệ thống vắt sữa tự động (A) và hệ thống bình tay (B). Thời gian nghiên cứu được tiến hành trong 12 tháng với dự đoán tỷ lệ tổn thương ở hệ thống B là 34,5% (p1 = 0,345); = 0,05; = 0,20; n1 = n2. Biết rằng tỷ lệ tổn thương ở hệ thống vắt sữa tự động là 15% (p2 = 0,15). Hãy tính dung lượng mẫu cần thiết đối với một nhóm để thoả mãn điều kiện bài toán.
Cần thiết
Như vậy cần ít nhất 76 bò sữa cho một nhóm.
Sử dụng Minitab 16 ước tính dung lượng mẫu đối với trường hợp so sánh hai tỷ lệ
Power and Sample Size Test for Two Proportions Testing comparison p = baseline p (versus not =) Calculating power for baseline p = 0.15 Alpha = 0.05 Sample Target Comparison p Size Power Actual Power 0.345 76 0.8 0.801595 The sample size is for each group.
Trường hợp so sánh nhiều giá trị trung bình
Các trường hợp ước tính cỡ mẫu ở trên sử dụng phương pháp ước tính trực tiếp. Tuy nhiên, trường hợp so sánh nhiều giá trị trung bình sử dụng phương pháp ước tính gián tiếp.
+ Gọi số trung bình của g nhóm là µ1, µ2, …, µg .
14
Thiết kế thí nghiệm
+ Tính trung bình chung:
+ Tính tổng bình phương:
+ Tính giá trị:
+ Tìm giá trị F* = F(α, u, v), trong đó: u = g – 1 và v = g(n – 1)
Thay các giá trị g, λ, F* và dung lượng mẫu (n) để sao cho Zβ đáp ứng được yêu cầu độ mạnh của phép thử (Power) đạt tối thiểu 0,8 hoặc 0,9.
Ví dụ 3.7: Thiết kế một thí nghiệm để so sánh tăng khối lượng (g) của gà ở 4 khẩu phần thức ăn (A, B, C, D). Các giá trị trung bình được chọn lần lượt là: µA= 79, µB = 71, µC = 80, µD= 102, với α = 0,05 và 1- β = 0,8; biết σ2 = 352. Cần bao nhiêu gà tham gia thí nghiệm này?
- Tính trung bình chung:
- Tính tổng bình phương:
- Tính giá trị:
- Thay lần lượt từng giá trị dung lượng mẫu để thoả mãn điều kiện Zβ đáp ứng được yêu cầu độ mạnh của phép thử (Power) đạt tối thiểu 0,8.
+ n = 1 => F* = F(0,05, 3, 0) => không xác định được giá trị F* => n = 1 không thoả mãn yêu cầu.
+ n = 2 => F* = F(0,05, 3, 4) = 6,591
=> Power = 0,0898 (8,98%) < 0,8 (80%) => n = 2 không thoả mãn yêu cầu.
+ n = 3, 4, 5, …
+ n = 10 => F* = F(0,05, 3, 36) = 2,866
15
Chương 1 Nguyên tắc thiết kế thí nghiệm
=> Power = 0,3547 (35,47%) < 0,8 (80%) => n = 10 không thoả mãn yêu cầu.
+ n = 11, 12, 13, …
+ n = 20 => F* = F(0,05, 3, 76) = 2,724
=> Power = 0,6740 (67,40%) < 0,8 (80%) => n = 20 không thoả mãn yêu cầu.
+ n = 21, 22, 23, …
+ n = 25 => F* = F(0,05, 3, 96) = 2,699
=> Power = 0,78326 (78,32%) < 0,8 (80%) => n = 25 không thoả mãn yêu cầu.
+ n = 26 => F* = F(0,05, 3, 100) = 2,695
=> Power = 0,80112 (80,11%) > 0,8 (80%) => n = 26 thoả mãn yêu cầu.
Như vậy, dung lượng mẫu cần thiết cho 1 nhóm là 26 con gà. Tổng số gà tham gia thí nghiệm này là: 4 x 26 = 104 con.
Sử dụng Minitab 16 ước tính dung lượng mẫu trường hợp so sánh nhiều giá trị trung bình
16
Thiết kế thí nghiệm
Power and Sample Size One-way ANOVA Alpha = 0.05 Assumed standard deviation = 35 Factors: 1 Number of levels: 4 Maximum Sample Target Difference Size Power Actual Power 31 29 0.8 0.803267 32 28 0.8 0.814920 33 26 0.8 0.808303 The sample size is for each level. Ví dụ 1.8: Thiết kế thí nghiệm kiểu hoàn toàn ngẫu nhiên với số nghiệm thức a = 5. Cần bao nhiêu đơn vị thí nghiệm cho một nghiệm thức ?
Bậc tự do của sai số ngẫu nhiên df = (r - 1)a Ta cần có (r - 1)a 20, như vậy r 5 . Cần ít nhất 5 đơn vị thí nghiệm
Ví dụ 1.9: Thiết kế thí nghiệm kiểu khối ngẫu nhiên đầy đủ với số nghiệm thức a = 5. Cần bao nhiêu khối (b) ?
Bậc tự do của sai số ngẫu nhiên df = (b - 1)(a – 1) Ta cần có (b - 1)4 20, như vậy b 6. Vì vậy cần ít nhất 6 khối
Điều này chứng tỏ rằng khi dung lượng mẫu tăng lên sẽ cho ta có kết luận chính xác hơn. Tuy nhiên, đồ thị trên cho ta thấy khi bậc tự do của sai số ngẫu nhiên lớn hơn 40 thì giá trị F có thay đổi không đáng kể.
Ngoài các cách tiếp cận nêu trên, các nhà nghiên cứu cũng đưa ra các nguyên tắc khác nhau để dựa vào nó mà có thể tìm ra dung lượng mẫu phù hợp:
Trong nghiên cứu về đại gia súc, Preston (1995) cho rằng số động vật trong một công thức thí nghiệm không được ít hơn 3 và bậc tự do của sai số ngẫu nhiên ít nhất là 15.
Trong các nghiên cứu về đại gia súc và lợn, Ovesiannhicov (1976) khuyến cáo số động vật trong một nghiệm thức ít nhất là 6 và thuận lợi hơn nếu con số này là 12.
1.10. Bài tập
1.10.1
Giả sử anh (chị) muốn ước tính tăng trọng trung bình ngày của lợn nuôi vỗ béo giết thịt từ 60 đến 180 ngày tuổi. Từ việc tổng quan tài liệu, anh (chị) tìm được độ lệch chuẩn của tính trạng này là 200 gram/ngày. Với khoảng tin cậy 95% và giá trị ước tính nằm trong khoảng 50 gram/ngày so với giá trị thực của quần thể, hãy tính dung lượng mẫu cần thiết
1.10.2
Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của việc bổ sung đồng đến tăng trọng của lợn. Chọn ra 20 lợn thí nghiệm giống Yorkshire ở 80 ngày tuổi (bắt đầu thí nghiệm)
17
Chương 1 Nguyên tắc thiết kế thí nghiệm
đồng đều và chia về 2 công thức thí nghiệm (đối chứng và thí nghiệm) hoàn toàn ngẫu nhiên. Khối lượng (kg) ở 210 ngày tuổi (kết thúc thí nghiệm) của 20 lợn nêu trên thu được như sau:
Đối chứng 120 Thí nghiệm 135 125 131 130 140 131 135 120 130 115 125 121 139 135 119 115 121 128 134
Theo phân loại, đây là loại thí nghiệm nào? Cho biết yếu tố và số công thức thí nghiệm. Nếu anh (chị) là người thiết kế thí nghiệm này, số động vật cần thiết là bao nhiêu.
1.10.3
Bệnh East Coast Fever (ECF) gây ra tỷ lệ chết ở vật nuôi là 50%. Sử dụng một loại vắc xin với mong muốn có thể bảo vệ được 95% vật nuôi. Với mức độ tin cậy là 95% và độ mạnh của phép thử là 90%, hãy xác định dung lượng mẫu cần thiết.
1.10.4
Tính số lượng cá thí nghiệm cần thiết cho mỗi bể để có thể phát hiện ra hiệu quả của việc dùng vắc xin. Giả sử rằng tỷ lệ cá nhiễm bệnh trọng trường hợp sử dụng vắc xin và không sử dụng vắc xin tương ứng là 10 và 30%, mức độ tin cậy là 0,95 và độ mạnh của phép thử là 0,80.
18
Thiết kế thí nghiệm
Chương 2 Phân tích số liệu thí nghiệm trong chăn nuôi
2.1. TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
2.1.1. BIẾN SINH HỌC VÀ PHÂN LOẠI
Trong quá trình thực hiện thí nghiệm, chúng ta tiến hành thu thập dữ liệu để sau đó xử lý và đưa ra các kết luận. Các dữ liệu có thể là các giá trị bằng số hoặc bằng chữ đặc trưng cho một cá thể hoặc một nhóm và thay đổi từ cá thể này qua cá thể khác. Các dữ liệu như vậy được gọi là các biến, hay còn được gọi là các biến ngẫu nhiên vì các dữ liệu thu được là kết quả của việc chọn một cách ngẫu nhiên cá thể hay nhóm cá thể trong tổng thể.
Khái niệm về biến sinh học
Đối tượng nghiên cứu trong chăn nuôi là các vật sống, vì vậy các biến như đã nêu trên gọi chung là các biến sinh học. Có thể phân loại các biến sinh học như sau:
Biến định tính (qualitative) Biến định danh (nominal) Biến thứ hạng (ranked)
Biến định lượng (quantitative) Biến liên tục (continuous) Biến rời rạc (discontinuous)
Biến định tính bao gồm các biến có hai trạng thái (binary): thí dụ như giới tính (cái hay đực), vật nuôi sau khi được điều trị (sống hay chết, khỏi bệnh hay không khỏi bệnh), tình trạng nhiễm bệnh (có, không), mang thai (có, không) . . .Tổng quát hơn có các biến có nhiều trạng thái, từ đó chia ra các lớp (loại) thí dụ mầu lông của các giống lợn (trắng, đen, loang, hung, . . .) các kiểu gen (đồng hợp tử trội, dị hợp tử, đồng hợp tử lặn . . . ); giống bò (bò vàng, Jersey, Holstein…). Các biến như thế được gọi là biến định danh (nominal) hay biến có thang đo định danh, cũng còn gọi là biến thuộc tính. Trong các biến có nhiều trạng thái, có một số biến có thể sắp thứ tự theo một cách nào đó, ví dụ mức độ mắc bệnh của vật nuôi. Thường dùng số thứ tự để xếp hạng các biến này, thí dụ xếp động vật theo mức độ mắc bệnh (--, -, -+, +, ++), thể trạng của vật nuôi (đối với bò từ 1-5, 1-rất gầy,…, 5-rất béo) . Các biến này gọi là biến thứ hạng (ranked) hay biến có thang đo thứ bậc.
Biến định lượng là biến phải dùng một gốc đo, một đơn vị đo để xác định giá trị (số đo) của biến. Biến định lượng bao gồm: biến rời rạc, thí dụ số trứng nở khi ấp 12 quả (X = 0, 1, . . . , 12), số lợn con sinh ra trong một lứa đẻ, số tế bào hồng cầu đếm trên đĩa của kính hiển vi và biến liên tục, thí dụ khối lượng gà 45 ngày tuổi, sản lượng sữa bò trong một chu kỳ, tăng trọng trên ngày của động vật, nồng độ canxi trong máu . . . Sau khi chọn đơn vị đo thì giá trị cụ thể của X là một số nằm trong một khoảng [a, b] nào đó.
Đối với các biến định lượng có thể phân biệt: 1) biến khoảng (interval) hay biến có thang đo khoảng, biến này chỉ chú ý đến mức chênh lệch giữa hai giá trị (giá trị 0 mang tính quy ước, tỷ số hai giá trị không có ý nghĩa). Thí dụ đối với nhiệt độ chỉ nói nhiệt độ tăng thêm hay giảm 19
Chương 2 Thiết kế thí nghiệm chăn nuôi
đi mấy C ( thí dụ cơ thể đang từ 36,5C tăng lên 38C là biểu hiện bắt đầu sốt cao) chứ không nói vật thể có nhiệt độ 60C nóng gấp đôi vật thể có nhiệt độ 30C. Hướng gió có quy ước 0 là hướng Bắc, 45 là hướng Đông Bắc, 90 là hướng Đông, 180 là hướng Nam . . . , không thể nói hướng gió Đông gấp đôi hướng gió Đông Bắc; 2) biến tỷ số (ratio) hay biến có thang đo tỷ lệ, đối với biến này giá trị 0, mức chênh lệch giữa hai giá trị và tỷ số hai giá trị đều có ý nghĩa. Thí dụ khối lượng bắt đầu thí nghiệm của lợn là 25 kg, khối lượng kết thúc là 90 kg, vậy khối lượng kết thúc thí nghiệm nặng gấp 3,6 lần.
, . . . ,
2.1.2. CÁC THAM SỐ THỐNG KÊ MÔ TẢ Gọi số cá thể được chọn vào mẫu là kích thước (cỡ, dung lượng) mẫu n. Gọi các số liệu đo , nếu có nhiều số liệu bằng nhau thì có thể ghi , được trên các cá thể của mẫu là lại dưới dạng có tần số (số lần gặp) . . .
. . . Giá trị tần số mi
Các tham số (số đặc trưng) của mẫu, hay còn gọi là các thống kê, được chia thành hai nhóm: 1) các tham số về vị trí và 2) các tham số về độ phân tán của số liệu.
Các tham số về vị trí thường gồm: a) trung bình, b) trung vị, c) mode. Các tham số về độ phân tán gồm: a) phương sai, b) độ lệch chuẩn, c) sai số chuẩn, d) khoảng biến động và e) hệ số biến động.
TRUNG BÌNH
Trung bình cộng ký hiệu là
hay khi có tần suất
Ví dụ 2.1: Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau: 34,0 54,1 49,8 39,0 56,1 52,0 46,0 54,0 54,4 58,5 44,1 58,0 52,6 32,7 24,0 51,9
gram
20
Thiết kế thí nghiệm
Ví dụ 2.2: Phân bố tần suất khối lượng của 4547 lợn Piétrain (Yorkshire Landrace) nuôi vỗ béo đến 210 ngày tuổi (kg).
Số lượng Tần suất
Nhóm khối lượng (kg) 60,73 - 66,99 67,00 - 74,99 75,00 - 82,99 83,00 - 90,99 91,00 - 98,99 99,00 - 106,99 107,00 - 114,99 115,00 - 122,99 123,00 - 130,99 131,00 - 138,99 139,00 - 146,99 147,00 - 156,10 Khối lượng trung bình (kg) 63,86 71,00 79,00 87,00 95,00 103,00 111,00 119,00 127,00 135,00 143,00 151,55 11 31 80 218 484 951 1083 907 512 203 55 12 Tần suất tích luỹ 0,24 0,92 2,68 7,48 18,12 39,04 62,85 82,8 94,06 98,53 99,74 100,00 0,24 0,68 1,76 4,79 10,64 20,91 23,82 19,95 11,26 4,46 1,21 0,26
kg
Giá trị trung bình cộng có bất lợi là bị các giá trị ngoại lai làm ảnh hưởng. Giá trị ngoại lai là giá trị có xu hướng không thích hợp với toàn bộ số liệu thu thập được, thường là các giá trị quá lớn hoặc quá bé so với bình thường. Nếu giá trị ngoại lai quá lớn sẽ làm cho giá trị trung bình có xu hướng tăng quá mức hoặc ngược lại.
Trung bình nhân ký hiệu là G
G =
Ví dụ 2.3: Bệnh dại đã tăng 10% trong năm thứ nhất, 11% trong năm thứ 2 và 15% trong năm thứ 3. Mức tăng trưởng trung bình của bệnh là bao nhiêu phần trăm?
Ta không thể tính tăng trưởng trung bình như sau (10 + 11 + 15)/3 = 12 mà phải tính mức tăng . Nghĩa là mức tăng trưởng trưởng trung bình là G = trung bình là 0,11979 hay tương đương mức 11,979 %.
Ví dụ 2.4: Một loại mô bào sinh trưởng sau 3 tháng sẽ tăng gấp đôi khối lượng. Mức tăng trưởng trung bình mỗi tháng là bao nhiêu?
= 1,26; nghĩa là 26% mỗi tháng. Mức tăng trưởng trung bình mỗi tháng là: G = Ta có thể minh hoạ sự tăng trưởng qua 3 tháng như sau:
11,26 = 1,26
1,261,26 = 1,5876
1,58761,26 = 2,00037
21
Chương 2 Thiết kế thí nghiệm chăn nuôi
Trung bình điều hoà ký hiệu là H
H = hoặc H=
Ví dụ 2.5: Ba lò mổ mỗi lò mổ 1000 con; lò mổ thứ nhất có năng suất giết mổ 10 con/giờ, lò mổ thứ hai 15 con/giờ và lò mổ thứ ba 30 con/giờ. Trung bình một giờ giết mổ được bao nhiêu con?
Trung bình sẽ không phải là (10 + 15 + 30)/3 = 55/3. Đây là trung bình cộng, chính bằng trung bình mỗi giờ nếu cả 3 lò mổ song song song với nhau.
Giá trị trung bình phải là H = con/giờ.
Điều này có thể minh hoạ như sau: Để giết mổ được 90 con lò thứ nhất phải thực hiện trong 9 giờ, lò thứ hai trong 6 giờ và lò thứ 3 trong 3 giờ; nghĩa là 270 con lợn được giết mổ trong 18 giờ; tức là trung bình 15 con/giờ. Chú ý rằng số lợn giết mổ được cố định khi bắt đầu.
TRUNG VỊ ký hiệu Me
Nếu sắp xếp các giá trị từ nhỏ đến lớn thì giá trị ở vị trí chính giữa được gọi là trung vị (Me). Nói một cách lý thuyết thì Me là giá trị có 50% số giá trị nhỏ hơn và 50% số giá trị lớn hơn. Để tính nhanh giá trị trung vị ta có thể tiến hành các bước sau:
1) Sắp xếp các giá trị theo trình tự tăng dần 2) Đánh số thứ tự cho các dữ liệu 3) Tìm trung vị ở vị trí có số thứ tự (n + 1)/2
Nếu n là số lẻ và các giá trị đều khác nhau thì có một giá trị chính ở giữa
Ví dụ 2.6: Nồng độ vitamin E (mol/l) của 11 bê cái có dấu hiệu lâm sàng của phát triển cơ không bình thường được trình bày như sau: 4,2 4,9 6,9 3,5 3,4 3,3 2,9 5,1 7,0 8,6 2,5
Sau khi sắp xếp theo thứ tự tăng dần ta có:
2,5 2,9 3,3 3,4 3,5 4,2 4,9 5,1 6,9 7,0 8,6
1 2 3 4 5 6 7 8 9 10 11
Như vậy vị trí trung vị sẽ là (n + 1)/2 = (11 + 1)/2 = 6, do 6 là vị trí của trung vị nên giá trị của trung vị sẽ là 4,2.
Nếu n là số chẵn và các giá trị đều khác nhau thì có 2 số đứng giữa, cả hai đều được gọi là trung vị. Khoảng giữa 2 số đứng giữa được gọi là khoảng trung vị. Nếu được phép dùng số thập phân thì lấy điểm giữa của khoảng làm trung vị Me.
Xét ví dụ 2.1: Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau:
54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4
56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5
22
Thiết kế thí nghiệm
Vị trí của trung vị sẽ là (16 + 1)/2 = 8,5; khoảng trung vị sẽ nằm ở vị trí số 8 và số 9, tức là từ 49,8 – 51,9. Như vậy giá trị của trung vị Me = (49,8 + 51,9)/2 = 50,9.
Nếu các số liệu chia thành lớp có tần số thì phải chọn lớp trung vị sau đó nội suy để tính gần đúng trung vị.
Ngoài trung vị còn có các phân vị, trong đó hay dùng nhất là tứ phân vị dưới Q1 mà chúng ta có thể định nghĩa một cách lý thuyết là giá trị có 25% số giá trị nhỏ hơn, tứ phân vị trên Q2 là giá trị có 25% số giá trị lớn hơn.
MODE ký hiệu Mod
Mode là giá trị có tần suất cao nhất. Thông thường Mode có giá trị khác với giá trị trung bình cộng và trung vị. Ba giá trị này này sẽ bằng nhau khi số liệu có phân bố chuẩn. Nhóm Mode hay lớp Mode là nhóm hoặc lớp mà một số lớn các quan sát rơi vào đó. Thông qua tổ chức đồ ta có thể xác định được giá trị của lớp này.
P (kg)
60,7 66,9
67,0 74,9
75,0 82,9
83,0 90,9
91,0 98,9
99,0 106,9
115,0 122,9
123,0 130,9
131,0 138,9
139,0 146,9
147,0 156,1
Xét trường hợp ví dụ 2, nhóm Mod được đại diện bằng các giá trị từ 107 đến 115 kg. Từ 4547 lợn quan sát có 1083 con nằm trong khoảng từ 107 đến 115kg ; đây là tần suất cao nhất. Cũng theo ví dụ 1 ta thấy Mod có giá trị khoảng 111kg.
107,0 114,9
n
11
31
80
218
484
951
512
203
55
12
1083 907
Trường hợp có nhiều giá trị có tần số lớn bằng nhau và lớn hơn các tần số khác thì không xác định được Mod.
Trường hợp số liệu chia lớp thì tìm lớp có tần số lớn nhất sau đó dùng cách nội suy để tính gần đúng Mod.
PHƯƠNG SAI MẪU ký hiệu s²
tính theo công thức: p
Phương sai mẫu chưa hiệu chỉnh s2
hay
Phương sai mẫu được dùng trong tài liệu này là phương sai đã hiệu chỉnh, gọi tắt là phương sai mẫu s2:
hay
Đối với máy tính bỏ túi, có thể tính phương sai theo công thức sau:
p có thể tính s2
theo công thức
Khi có phương sai mẫu chưa hiệu chỉnh s2 23
Chương 2 Thiết kế thí nghiệm chăn nuôi
Xét ví dụ 2.1, khối lượng của 16 chuột cái tại thời điểm cai sữa; giá trị trung bình đã tính là 47,58gram. Như vậy phương sai mẫu hiệu chỉnh sẽ là:
gram²
ĐỘ LỆCH CHUẨN ký hiệu là s
Căn bậc hai của s2 gọi là độ lệch chuẩn:
Xét ví dụ 1, khối lượng của 16 chuột cái tại thời điểm cai sữa. Các số liệu này đã được sử dụng để tính giá trị trung bình (47,58 gram) và phương sai (103,27 gram²) như đã nêu trên.
gram
Như vậy độ lệch chuẩn sẽ là: HỆ SỐ BIẾN ĐỘNG ký hiệu là Cv (%)
Hệ số biến động được tính theo công thức
Xét ví dụ 2.1, khối lượng của 16 chuột cái tại thời điểm cai sữa. Ta đã có giá trị trung bình (47,58gram) và độ lệch chuẩn (10,16 gram). Như vậy phương sai mẫu hiệu chỉnh sẽ là:
%
KHOẢNG BIẾN THIÊN (phạm vi chứa số liệu Range)
Gọi Xmax là giá trị lớn nhất, Gọi Xmin là giá trị nhỏ nhất, ta có khoảng biến thiên:
R = xmax - xmin
Với ví dụ 2.1, khối lượng của 16 chuột tại thời điểm cai sữa.
Ta có R = xmax - xmin = 58,5 – 24,0 = 34,5 gram SAI SỐ CHUẨN (sai số của trung bình cộng) ký hiệu là SE
SE
Xét ví dụ 2.1, khối lượng của 16 chuột cái tại thời điểm cai sữa. Ta đã có độ lệch chuẩn (10,16 gram). Như vậy sai số tiêu chuẩn sẽ là:
SE gram
Ngoài các tham số trên, trong thống kê còn dùng độ lệch (độ bất đối xứng), độ nhọn. Hai tham số này được dùng khi xem xét có nên chuyển đổi số liệu không phân phối chuẩn thành số liệu phân phối chuẩn hay không.
24
Thiết kế thí nghiệm
2.1.3. TRÌNH BÀY CÁC THAM SỐ THỐNG KÊ MÔ TẢ
Dữ liệu của thí nghiệm được trình bày bằng các cách như bảng số liệu, biểu đồ và văn viết. Bảng số được sử dụng khi mô tả tóm lược thông tin mang tính chính xác cao. Biểu đồ được sử dụng khi muốn thể hiện mức độ ảnh hưởng, xu hướng biến thiên của số liệu và khi có dung lượng mẫu lớn. Sử dụng văn viết trong trường hợp dữ liệu hết sức đơn giản.
Bảng số liệu
Bảng số liệu phải đáp ứng được các yêu cầu sau:
- Tự giải thích được:
+ Đánh số và tên bảng thể hiện nội dung của bảng đặt trên bảng
+ Tiêu đề cột: biến độc lập (các công thức thí nghiệm)
+ Tiêu đề hàng: biến phụ thuộc (các chỉ tiêu nghiên cứu kèm theo đơn vị đo lường)
+ Phần thân chính: chứa dữ liệu
+ Ghi chú: giải thích viết tắt, sai khác thống kê đặt phí dưới bảng
+ Ranh giới giữa các phần
- Số liệu đơn giản: không nên để quá nhiều số thập phân
- Sử dụng đúng các tham số thống kê: SD, SE/SEM, P-value
- Nhấn mạnh và làm nổi bật những số liệu quan trọng
- Sử dụng bảng khi thể hiện tính hệ thống, rõ ràng, chính xác, người đọc dễ hiểu, dễ thấy sự khác nhau và rút ra kết luận
- Bảng số liệu có các dạng như sau:
+ Bảng danh sách: đơn giản nhất, có một vài cột, một vài dòng
+ Bảng mô tả đơn giản: khi có một nhóm đối tượng duy nhất
Ví dụ:
Bảng 2.1. Khả năng sinh trưởng từ sơ sinh đến 7,5 tháng tuổi và tỷ lệ nạc
Chỉ tiêu n Mean SD Min Max ±
Khối lượng sơ sinh (kg) 2093 1,41 0,28 0,60 2,20 ±
Khối lượng cai sữa (kg) 1360 5,91 1,34 3,00 10,00 ±
Khối lượng 60 ngày (kg) 895 13,80 4,11 4,50 28,00 ±
Khối lượng 7,5 tháng (kg) 494 93,85 16,52 62,00 144,00 ±
338 489,54 71,41 320,99 690,48 ±
Tăng khối lượng trung bình (g/ngày) Tỷ lệ nạc (%) 470 64,12 2,02 54,71 69,36 ±
25
Chương 2 Thiết kế thí nghiệm chăn nuôi
+ Bảng so sánh: các nhóm so sánh thể hiện ở cột, chỉ tiêu so sánh ở hàng/cột Ví dụ Bảng 2.2. Độ dai của thịt thăn tại các thời điểm sau giết thịt (N)
Bò Vàng Bò LaiSind Thời gian n n Mean SE Mean SE
12 giờ 10 4,44 13 91,41a ± 4,82 83,89a± 36 giờ 12 ± 3,48 12 110,96a ± 6,88 75,70b 48 giờ 10 73,56c 13 109,77a ± 5,10 ± 5,62 6 ngày 12 57,86b ± 5,57 13 104,06a ± 5,26
* Trong cùng một cột, các giá trị trung bình (Mean) mang chữ cái khác nhau, sai khác có ý nghĩa thống kê (P<0,05) + Bảng phân tích đa biến: mỗi biến phụ thuộc (chỉ tiêu nghiên cứu) có nhiều biến độc lập (yếu tố ảnh hưởng) Ví dụ :
8 ngày 12 53,08b ± 4,17 12 97,18a ± 5,56
Bảng 2.3. Mức độ ảnh hưởng của các yếu tố đến tính trạng sinh trưởng và tỷ lệ nạc
Chỉ tiêu Trại Thế hệ Năm Mùa vụ Tính biệt R2 Lứa đẻ
*** *** ** *** *** 0,138 Khối lượng sơ sinh ***
*** *** NS *** NS 0,182 Khối lượng cai sữa ***
*** *** NS NS NS 0,356 Khối lượng 60 ngày ***
NS ** NS *** NS 0,140 Khối lượng 7,5 tháng ***
NS NS 0,198 *** NS * NS Tăng khối lượng trung bình
NS * NS NS NS 0,123 Tỷ lệ nạc NS
Biểu diễn số liệu bằng biểu đồ
Biểu đồ là tóm tắt số liệu ở các dạng hình ảnh khác nhau và cho phép dễ dàng phát hiện những điểm đặc biệt hơn so với tóm tắt bằng số. Đồ thị đặc biệt hiệu quả khi ta muốn biết được các thông tin về số liệu một cách nhanh chóng.
Biểu đồ phải đáp ứng được các yêu cầu sau:
- Tự giải thích được:
+ Đánh số và tên biểu đồ thể hiện nội dung đặt phía dưới biểu đồ
+ Tiêu đề các trục và đơn vị tính với cự ly thích hợp
+ Ghi chú: giải thích cho các biến
26
Thiết kế thí nghiệm
- Phản ảnh trung thực về dữ liệu
Biểu đồ có các dạng sau:
- Biểu đồ cột và thanh (column chart, bar chart): so sánh biến định lượng giữa hai hay nhiều nhóm
- Biểu đồ phân bố tần suất (tổ chức đồ - frequency histogram): biểu thị sự phân bố của một biến liên tục thể hiện qua số liệu đo của các cá thể phân bố dọc theo trục của biến.
- Biểu đồ dạng hộp (box plot): thể hiện sự phân bố của dữ liệu (Q1, Med, Q3)
- Biểu đồ phân tán (scatter plot): thể hiện sự phân bố và mối quan hệ giữa hai biến
- Biểu đồ đường (line chart): khi các giá trị của biến phụ thuộc là chuỗi liên tục
- Biểu đồ dạng bánh (Pie chart):trình bày mối quan hệ tỷ lệ so sánh theo phần trăm
Ví dụ: Đối với biến định tính hoặc biến rời rạc có thể biểu diễn số liệu bằng đồ thị thanh hoặc đồ thị bánh hình tròn
Lứa Tần suất (%)
1 2 3 4 5 6 7 Số con đẻ ra (con) 337 275 213 137 86 49 22 30,12 24,58 19,03 12,24 7,69 4,38 1,97 Tần suất tích luỹ (%) 30,12 54,69 73,73 85,97 93,66 98,03 100,00
Kiểu gen Số con đẻ ra (con)
Tần suất (%)
nn
724
26,20
Nn
1368
49,60
NN
668
24,20
Biểu đồ hình thanh biểu diễn số lợn sơ sinh qua 7 lứa (n = 1119)
Biểu đồ dạng bánh biểu hiện tần số kiểu gen Halothane của lợn sơ sinh Pietrain (n = 2760)
27
Chương 2 Thiết kế thí nghiệm chăn nuôi
147,9 125,4 104,1 164,4 193,8 188,4 222,4 287,3 158,1
132,0 224,0 163,8 153,3 100,6 219,5 130,4 114,0 182,1
156,9 66,3 140,6 128,3 193,2 127,1 125,0 129,9 89,7
254,4 240,3 148,2 190,0 176,7 73,8 147,9 222,7 191,6
174,3 211,0 214,5 169,5 115,0 193,6 168,0 196,9 87,3
144,4 138,4 171,6 100,0 125,6 283,9 116,5 71,0 220,1
139,7 140,7 270,5 176,8 155,0 163,5 161,6 152,0 141,0
180,0 202,6 112,8 153,5 77,9 140,7 136,4 272,3 90,0
197,5 96,8 96,8 137,8 150,4 101,5 132,0 146,3 242,3
311,0 118,7 146,6 184,2 243,8 260,7 279,2 135,9 109,5
96,8 119,0 109,3 143,8 102,9 229,3 244,2 137,1 143,6 130,6 72,0 105,1 135,0 320,4 182,2 217,8 172,5 136,4
Đối với biến định lượng có thể sử dụng đồ thị đa giác, đồ thị hộp hay tổ chức đồ để thể hiện. Ví dụ : Sản lượng sữa (kg) của 108 dê Bách Thảo trong một chu kỳ tiết sữa ghi lại như sau:
Tổ chức đồ : Phân bố tần suất sản lượng sữa dê Bách Thảo trong chu kỳ tiết sữa
Đồ thị hộp : Phân bố tần suất sản lượng sữa dê Bách Thảo trong chu kỳ tiết sữa
Tóm tắt và biểu diễn dữ liệu của các tính trạng số lượng (dữ liệu 2 chiều) Đồ thị phân tán được sử dụng một cách rất hữu hiệu khi ta quan tâm đến mối liên hệ giữa 2 biến liên tục. Đồ thị được xây dựng khi ta vẽ n các điểm trên hệ toạ độ, các điểm này có toạ độ là xiyi. Vấn đề này sẽ được đề cập cụ thể trong chương 6.
Đồ thị phân tán thể hiện mối
quan hệ giữa thời gian cai sữa
(ngày) và khối lượng sơ sinh
sinh/con (kg) của lợn Landrace
n = 321.
28
Thiết kế thí nghiệm
2.1.4. SỬ DỤNG MINITAB TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
Minitab là phần mềm thống kê ứng dụng được phát triển ở Đại học Pennsylvania (Mỹ)
từ năm 1972. Minitab là phiên bản thu gọn của phần mềm OMNITAB, phần mềm phân
tích thống kê của NIST. Minitab là sản phẩm có bản quyền của công ty Minitab Inc
với các chức năng: quản lý dữ liệu, tính toán, phân tích dữ lệu, vẽ các biểu đồ, đồ thị,
một cách hoàn toàn tự động…. Minitab 16 được sử dụng để minh hoạ cho phần hướng
dẫn này.
2.1.4.1 Giới thiệu phần mềm Minitab
Sử dụng bộ cài đặt Minitab 16 và cài đặt mặc định vào ổ C:\Program File hoặc C:\
2.1.4.2 Cài đặt và khởi động phần mềm Minitab 16
Program File (x86). Sau khi cài đặt, phần mềm Minitab 16 có thể được khởi động bằng
các cách sau đây:
1. Kích chuột vào menu Start> All Programs> Minitab> Minitab 16 Statistical
Software
2. Kích đúp chuột vào biểu tượng shortcut Minitab 16 trên Desktop hoặc biểu
tượng Mintab 16 trên Taskbar.
3. C:\Program Files (x86)\Minitab\Minitab 16\Mtb.exe
Sau khi khởi động, cửa sổ làm việc của Minitab 16 được hiển thị như sau:
❶
❷
❺
2.1.4.3. Cửa sổ làm việc của Minitab 16
❸
❹
❻
❶
❼ Cửa sổ Session: Đọc kết quả (Ctrl + M)
❶
❽ Cửa sổ Worksheet: Nhập dữ liệu (Ctrl + D)
❾
Hình 1.1. Cửa sổ làm việc của Minitab 16
29
Chương 2 Thiết kế thí nghiệm chăn nuôi
Cửa sổ làm việc của Minitab 16 bao gồm những thành phần chính như sau:
- ❶ Thanh tiêu đề
- ❷ Các Menu chính: gồm các lệnh để điều khiển phần mềm Minitab (File, Edit, Data,
Calc, Stat, Graph, Editor, Tools, Windows, Help, Assistant)
- ❸ Thanh chuẩn: gồm các lệnh tắt như mở tệp đã ghi, ghi tệp, in, cắt, copy, dán,…
- ❹ Thanh Worksheet: gồm các lệnh tắt điều khiển cửa sổ Worksheet
- ❺ Thanh Project Manager: gồm các lệnh tắt điều khiển cửa sổ Project Manager
- ❻ Thanh Graph Editing
- ❼ Cửa sổ Session: đọc kết quả phân tích (Ctrl + M)
- ❽ Cửa sổ Worksheet: chứa nhiều ô (cell) được tạo ra bởi sự kết hợp giữa hàng và
cột. Mỗi Worksheet bao gồm 10.000.000 hàng và 4.000 cột (từ C1 đến C4000), để nhập
dữ liệu thô cần phân tích (Ctrl + D).
- ❾ Cửa sổ Project Manager: quản lý các lệnh làm việc (Ctrl + I)
2.1.4.4. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH LƯỢNG
Ví dụ 2.7: Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau: 34,0 54,1 49,8 39,0 56,1 52,0 46,0 54,0 54,4 58,5 24,0 51,9 44,1 58,0 52,6 32,7
Để tính các thống kê mô tả
Số liệu được nhập vào một cột trong Windows Worksheet
Thay thế dấu phẩy (,) bằng dấu chấm (.) trong phần thập phân. Số liệu khuyết được thay thế bằng dấu sao (*), không được để trống.
30
Thiết kế thí nghiệm
Đối với một chỉ tiêu nghiên cứu, số liệu được nhập dưới dạng cột.
Tên cột số liệu luôn nằm ở trên hàng thứ 1. Đặt tên cột ngắn gọn, không nên dùng các ký tự đặc biệt (:, /…) hoặc các ký tự tiếng Việt (ô, ă…). Trong cùng một worksheet không đặt tên cột trùng nhau. Phần mềm Minitab không phân biệt các ký tự viết hoa và viết thường (ví dụ: MINITAB = Minitab = minitab).
Chọn Stat Basic Statistics Display Descriptive Statistics
Phần ô bên trái hộp thoại hiển thị cột (C1) và tên của cột số liệu (P)
Chọn P và nhấn Select để hiển thị cột cần tính các tham số thống kê mô tả vào ô Variables.
Chọn OK để hiển thị kết quả.
Kết quả thu được từ Minitab như sau Descriptive Statistics: P Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum P 16 0 47.58 2.54 10.16 24.00 40.28 51.95 54.33 58.50 Minitab cho kết quả theo mặc định. Có thể sử dụng một trong các Option sau đây để cho ra kết quả theo lựa chọn phù hợp
Chọn Statistics…có thể lựa chọn các tham số sau đây
31
Chương 2 Thiết kế thí nghiệm chăn nuôi
Một số thuật ngữ trong options Minitab của thống kê mô tả
Minitab Tiếng Việt Minitab Tiếng Việt
Mean Trung bình Trimmed mean Trung bình thu gọn
SE of Mean Sai số tiêu chuẩn Sum Tổng số
Standard deviation Độ lệch chuẩn Minimum Giá trị bé nhất
Variance Phương sai Maximum Giá trị lớn nhất
Hệ số biến động Range Khoảng biến động
Coefficient of variation
First quartile Tứ vị thứ nhất Sum of squares Tổng bình phương
Median Trung vị Skewness Độ lệch
Third quartile Tứ vị thứ 3 Kurtosis Độ nhọn
Interquartile Tứ vị thứ 2 MSSD
N nonmissing N không khuyết Cumulative N N cộng gộp
N missing N khuyết Percent Phần trăm
N total N tổng số Cumulative percent Phần trăm cộng gộp
Chọn Graphs…để hiển thị đồ thị sau đây (tick vào)
Histogram of data tổ chức đồ
Histogram of data, with normal curve tổ chức đồ với đường cong chuẩn
Individual value plot thể hiện các điểm của từng giá trị
Boxplot of data đồ thị hộp
Chọn OK
Ví dụ chọn Boxplot of data để được đồ thị hộp dưới đây
32
Thiết kế thí nghiệm
Vào By variables (Optional) để tính các tham số thống kê theo phân loại nhóm.
Xét Ví dụ 2.7, giả sử 8 chuột cái đầu tiên sinh ra ở lứa thứ nhất và 8 chuột tiếp theo sinh ra ở lứa thứ 2. Ta có thể bố trí cấu trúc số liệu thành 2 cột, cột C1 (P) và cột C2 (LUA)
Kết quả từ Minitab
Descriptive Statistics: P Variable LUA N N* Mean SE Mean StDev Minimum Q1 Median Q3 P 1 8 0 44.88 3.82 10.79 24.00 36.53 47.90 53.73 2 8 0 50.28 3.32 9.39 32.70 42.23 53.00 57.53
2.1.4.5. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH TÍNH
-
-
- + + +
A A A A A A A A A A A A A A A A A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 +
+
-
-
-
-
-
-
-
-
- + +
- +
+
+
-
-
-
-
-
-
-
-
-
-
Trại Bò số Kết quả + Trại Bò số Kết quả Trại Bò số Kết quả + +
B B B B B B B B B B B B B B B B B B B B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 - + - C C C C C C C C C C C C C C C C C C C C 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 + -
- +
+
+
+
+
-
-
-
-
-
-
-
-
-
-
B 21 -
B 22 -
Đối với biến định tính số liệu thô thu thập được từ thí nghiệm có thể được trình bày theo một trong 2 cách sau đây: Ví dụ 2.8. Số bò sữa ở ba trại A, B, C lần lượt là 106, 132 và 122 con. Chọn ngẫu nhiên và kiểm tra bệnh viêm nội mạc tử cung ở 3 trại, kết quả như sau: Cách 1:
33
Chương 2 Thiết kế thí nghiệm chăn nuôi
Cách 2:
Viêm nội mạc tử cung Trại Tổng số
A B C Có 6 6 8 Không 11 16 12 17 22 20
Số liệu được nhập vào cột trong Windows Worksheet (với cách 1)
Nhập dữ liệu vào 2 cột, Trại vào cột C1 (TRAI) và cột Kết quả xét nghiệm vào cột C2 (KETQUA).
Lưu ý: Sau khi nhập thông tin vào cột C1 và C2 ký hiệu cột thay đổi thành C1-T và C2-T. Minitab thông báo các thông tin trong cột không phải dạng số mà dạng ký tự (Text)
Với số liệu ở dạng thô (cách 1) có thể tạo thành bảng tóm tắt như ở cách 2 bằng các lệnh sau
Stat Tables Cross Tabulation and Chi-Square...
Vào ô For rows và For columns
Options Display hiển thị:
Count: tần số đối với từng trường hợp
Row percents: tỷ lệ (phần trăm) theo hàng
Column percents: tỷ lệ (phần trăm) theo cột
Total percents: tỷ lệ (phần trăm) theo hàng/cột tổng số
Chọn OK để có kết quả
Tabulated statistics: TRAI, KETQUA
Rows: TRAI Columns: KETQUA - + All A 11 6 17 64.71 35.29 100.00 B 16 6 22 72.73 27.27 100.00
34
C 12 8 20 60.00 40.00 100.00 All 39 20 59 66.10 33.90 100.00 Cell Contents: Count % of Row
Thiết kế thí nghiệm
Đối với biến định tính có thể mô tả bằng biểu đồ thanh (Bar Chart), biểu đồ bánh (Pie Chart).
Graph Bar Chart…Counts of unique values
Chọn OK
Chọn Multiple Graphs…
Chọn OK để có biểu đồ thanh
35
Chương 2 Thiết kế thí nghiệm chăn nuôi
thực hiện tương tự để có biểu đồ bánh
Số liệu được nhập vào cột trong Windows Worksheet (với cách 2)
36
Thiết kế thí nghiệm
Nhập dữ liệu vào 3 cột, Trại vào cột C1 (TRAI), cột Kết quả xét nghiệm vào cột C2 (KETQUA) và Tần suất vào cột C3 (TANSUAT).
dạng ký tự (Text)
Với số liệu ở dạng thô (cách 1) có thể tạo thành bảng tóm tắt như ở cách 2 bằng các lệnh sau
Stat Tables Cross Tabulation and Chi-Square...
Khai báo vào ô For rows, For columns và Frequencies are in. Chọn Counts và Row percents trong Display để có kết quả
37
Chương 2 Thiết kế thí nghiệm chăn nuôi
Tabulated statistics: TRAI, KQ Using frequencies in TS Rows: TRAI Columns: KQ - + All A 11 6 17 64.71 35.29 100.00 B 16 6 22 72.73 27.27 100.00 C 12 8 20 60.00 40.00 100.00 All 39 20 59 66.10 33.90 100.00 Cell Contents: Count % of Row
2.2. PHÂN TÍCH PHƯƠNG SAI (ANOVA)
2.2.1. Kiểm định điều kiện phân tích phương sai
Phân tích phương sai (Analysis of Variance - ANOVA) là công cụ hữu ích để so sánh nhiều giá trị trung bình. Phân tích phương sai được áp dụng khi biến phụ thuộc (chỉ tiêu theo dõi thí nghiệm) có dạng biến liên tục và biến độc lập (yếu tố ảnh hưởng) thuộc dạng biến phân loại. Nếu chỉ có số liệu từ hai nhóm (2 nghiệm thức) thì có thể áp dụng kiểm định T để so sánh (không giới thiệu trong giáo trình này) thay thế cho ANOVA. Tuy nhiên, nếu có hơn hai nhóm thì phải sử dụng phân tích phương sai. Điều kiện của bài toán phân tích phương sai là: (1) Các nghiệm thức có số liệu phối chuẩn và (2) Các nghiệm thức có phương sai đồng nhất. Đó là những điều kiện cần được kiểm định trước khi phân tích ANOVA.
a. Kiểm định phân phối chuẩn
Để phân tích phương sai các biến định lượng, ta phải giả thiết rằng số liệu thu thập được đều tuân theo phân phối chuẩn và các phương sai đồng nhất. Nếu số liệu không tuân theo phân phối chuẩn thì ANOVA sẽ không có hiệu lực. Do đó trước khi phân tích ANOVA ta cần kiểm tra liệu số liệu có tuân theo phân phối chuẩn hay không. Shapiro-Wilk và Kolmogorov-Smirnov là 2 phương pháp thường được sử dụng để kiểm tra phân phối chuẩn của số liệu. Shapiro-Wilk sử dụng khi dung lượng mẫu bé hơn 2000 còn Kolmogorov-Smirnov được sử dụng khi dung lượng mẫu lớn hơn 2000 (Hun Myoung Park, 2008).
Trong Minitab 16 có 3 phương pháp kiểm tra phân bố chuẩn: Anderson- Darling; Ryan- joiner (tương tự Shapiro-Wilk) và Kolmogorov-Smirnov.
Giả thiết: H0: Số liệu có phân phối chuẩn và H1: Số liệu không có phân phối chuẩn.
Đối với ANOVA, việc kiểm định phân bố chuẩn và phương sai đồng nhất được kiểm tra
thông qua sự phân bố của phần dư () của mô hình phân tích.
Ví dụ 2.9: Theo dõi tăng khối lượng của 20 con cá (g) trong một thí nghiệm với 5 công thức nuôi (A, B, C, D và E). Hãy cho biết tăng khối lượng của cá ở các công thức nuôi. Nếu có sự
38
Thiết kế thí nghiệm
A
B
C
D
E
950
430
700
1.000
900
850
450
900
900
1.000
850
400
750
900
950
900
420
700
900
950
nhau, tiến hành so sánh sự sai khác của từng cặp giá trị khác trung bình.
Kiểm định xem số liệu trên có tuân theo phân phối chuẩn không?
Số liệu được nhập vào cửa sổ Worksheet và sử dụng lệnh Stat Basic Statistics Normality Test... để kiểm tra cho cột phần dư (RESI1). Để tạo được cột phần dư (RESI1), xem chi tiết tại mục 2.3.3.
Khai báo biến (RESI1) cần kiểm tra vào ô Variable.
Kích chuột OK để có kết quả
39
Chương 2 Thiết kế thí nghiệm chăn nuôi
Trong đó: giá trị P = 0,159 > 0,05, như vậy H0 được chấp nhận. Kết luận: Số liệu tuân theo phân phối chuẩn
b. Kiểm định sự đồng nhất của phương sai
Trong thực tế, việc kiểm định phương sai đồng nhất được thực hiện đồng thời với kiểm tra phân bố chuẩn khi tiến hành phân tích phương sai. Đối với ANOVA, việc kiểm định phân bố chuẩn và phương sai đồng nhất được kiểm tra thông qua sự phân bố của phần dư () của mô hình phân tích. Bạn đọc tham khảo phần a, mục 2.2.3 để biết thêm chi tiết các câu lệnh sử dụng để kiểm định phân dư ().
Sử dụng lệnh Stat ANOVA Test for Equal Variances...
40
Thiết kế thí nghiệm
Khai báo biến phụ thuộc (biến đáp ứng) vào ô Response.
Khai báo biến độc lập (yếu tố thí nghiệm) vào ô Factors. Kích chuột OK để có kết quả
Sử dụng giá trị P-value ở phần Levene’s Test để kết luận. P = 0,539 > 0,05 Kết luận: Các phương sai đồng nhất
2.2.2. So sánh cặp đôi các giá trị trung bình
Khi kết quả phân tích ANOVA cho thấy có sự sai khác có ý nghĩa thống kê (P < 0,05) giữa các nghiệm thức thì tiến hành so sánh cặp đôi (pairwise comparison) để tìm sự khác nhau có ý nghĩa giữa các giá trị trung bình cụ thể nào. Với kiểm định 2 phía ta có giả thiết H0: 1 = 2 =... = a và đối thiết H1: 1 2 ... a ( là trung bình của quần thể ở công thức thứ 1, 2,..., a). Khi kết quả phân tích ANOVA cho thấy P <0,05, có nghĩa là H0 bị bác bỏ vì có ít nhất hai giá trị trung bình sai khác nhau. Lúc đó đối thiết H1 được chấp nhận và so sánh cặp đôi sẽ cho phép tìm được sự khác nhau cụ thể giữa các giá trị trung bình của các nghiệm thức 1, 2,..., a.
Có nhiều phương pháp so sánh cặp đôi khác nhau, trong đó một số phương pháp so sánh cặp đôi thường được sử dụng như kiểm định Student-Newman-Keuls, LSD (Least Significant Difference), Tukey, Scheffe, kiểm định đa phạm vi Duncan. Việc lựa chọn kiểm định nào tùy thuộc vào đặc điểm của bộ dữ liệu và yêu cầu về tính chắc chắn của sự sai khác.
Xét một thí nghiệm có một yếu tố thí nghiệm với 4 công thức thí nghiệm (a = 4), sẽ có tổng số 6 lần so sánh cặp. Nếu mỗi lần so sánh một cặp với sai số P = 0,05; sai số của toàn bộ 6 phép thử sẽ có sai số là 1 – (1 – 0,05)6 = 0,24.
41
Chương 2 Thiết kế thí nghiệm chăn nuôi
Với thí nghiệm có a nghiệm thức và mỗi phép so sánh cặp với sai số là thì a* là mức ý nghĩa tổng số (overall significance level) hoặc sai số của thí nghiệm (experimental wise error rate) hoặc sai số của toàn bộ các phép thử (family error rate). Sai số của toàn bộ phép thử được tính toán như thế nào?
Ví dụ: Nếu sai số của một cặp so sánh là = 0,05 và có a = 4 ta sẽ có m = 6 cặp so sánh. Như vậy sai số của 6 phép thử sẽ là 1– (1 –)m = 1 – (1 – 0,05)6 = 0,264908. Nghĩa là xác suất bác bỏ giả thiết H0 khi nó đúng là 26,4908% (sai lầm loại I).
Sau đây là một số lưu ý khi dùng các phương pháp so sánh cặp đôi khác nhau:
Kiểm định LSD – Chỉ sử dụng để so sánh giữa các cặp đã được thiết kế trước khi thực
hiện thí nghiệm. Không phù hợp để:
(1) Kiểm định LSD không phù hợp để so sánh nhiều công thức thí nghiệm vì khi có nhiều nghiệm thức thì số cặp để so sánh sẽ tăng lên rất nhanh (5 nghiệm thức có 10 cặp để so sánh, 10 nghiệm thức có 45 cặp so sánh, 15 nghiệm thức có 105 cặp).
(2) Kiểm định LSD không phù hợp để so sánh số cặp nhiều hơn số bậc tự do của công thức thí nghiệm (a – 1). Ví dụ thí nghiệm có 4 công thức (a = 4) thì số cặp có thể so sánh tối đa là 4 – 1 = 3.
(3) Nếu muốn kết luận có sự sai khác giữa 2 giá trị trung bình (i và j) thì
. LSD được xác định dựa vào giá trị t ở mức /2, i - j > LSD, trong đó
bậc tự do của sai số ngẫu nhiên (dfe) và dung lượng mẫu (n) ở công thức thứ i và j.
(4) LSD bị chỉ trích vì sự kiểm soát không hiệu quả đối với sai lầm loại I.
Kiểm định Tukey – Được sử dụng để so sánh cặp. Sử dụng Tukey-HSD (Honest Significant Difference) trong trường hợp dung lượng mẫu bằng nhau và Tukey-Kramer trong trường hợp dung lượng mẫu không bằng nhau. Kiểm định Tukey-HSD được nhiều phần mềm xử lý số liệu áp dụng cho cả trường hợp dung lượng mẫu không bằng nhau vì vậy nhiều tài liệu không còn phân biệt giữa Tukey-HSD và Tukey-Kramer. Trong phần mềm SAS cũng chỉ có option Tukey, không có lựa chọn cho Tukey-HSD hay Tukey-Kramer. Phép kiểm định Tukey phù hợp trong trường hợp chỉ so sánh giữa các cặp với nhau.
- Giá trị tới hạn đối với kiểm định Tukey-HSD trong trường hợp dung lượng mẫu bằng
nhau: ;
- Giá trị tới hạn của kiểm định Tukey-Kramer trong trường hợp dung lượng mẫu không
bằng nhau: .
Trong đó p là giá trị trong bảng Tukey tương ứng ở mức , bậc tự do của nghiệm thức (dfa), bậc tự do sai số ngẫu nhiên (dfe), sai số ngẫu nhiên (MSE) và dung lượng mẫu (n) ở nghiệm thức i và j.
42
Thiết kế thí nghiệm
Giá trị tới hạn trong kiểm định Tukey với trường hợp dung lượng mẫu bằng nhau luôn là một giá trị cố định; ngược lại khi dung lượng mẫu không bằng nhau giá trị CR sẽ thay đổi theo từng cặp so sánh.
Tukey là phép thử dùng để so sánh tất cả các cặp có thể trong thí nghiệm, hay được sử dụng vì sai lầm loại I luôn được kiểm soát (αFWE <0,05) và độ mạnh của phép thử (1 – ) cao hơn so với các phép thử trong tình huống tương tự. Mặc dù vậy, đối với các thí nghiệm mà không cần so sánh tất cả các cặp có thể trong thí nghiệm thì có thể sử dụng các phép thử khác như Dunnett hoặc Bonferroni.
Kiểm định Dunnett – Là phép thử có cách tiếp cận tương tự như đối với trường hợp Tukey. Tuy nhiên phép thử này được sử dụng trong trường hợp so sánh các công thức thí nghiệm với đối chứng được so sánh.
Kiểm định Bonferoni – Là phương pháp so sánh đơn giản và kiểm soát tốt sai lầm loại I. Nhược điểm của phương pháp này là tính bảo thủ và sai lầm loại II lớn. Bonferoni luôn kiểm soát được sai số của thí nghiệm ở mức FWE (thường = 0,05). Sai số của từng phép so sánh cặp sẽ là B = FEW/m Nếu số cặp so sánh (m) lớn thì B sẽ rất bé. Sự chặt chẽ của phương pháp này chính là điểm yếu vì khi B bé (nếu m tăng lên) thì cơ hội tìm thấy sự sai khác giữa 2 nghiệm thức sẽ giảm xuống mặc dù có sự sai khác thật sự giữa 2 nghiệm thức.
Kiểm định Duncan – Phù hợp để so sánh tất cả các cặp có thể. Nếu đối với phương pháp LSD chỉ có một giá trị LSD duy nhất để so sánh tất cả các cặp thì Duncan lại có từng giá trị
DMRT (Duncan’s Multiple Range Test) cụ thể cho từng cặp nhất định. ;
trong đó r là giá trị trong bảng Duncan tương ứng ở mức , khoảng cách giữa 2 giá trị trung bình (p), bậc tự do sai số ngẫu nhiên (dfe), sai số ngẫu nhiên (MSE) và dung lượng mẫu trong một nghiệm thức (n).
Kiểm định Scheffe: Có 3 bước được áp dụng để so sánh cặp đôi theo phương pháp của
Scheffe gồm:
(1) Xác định giá trị (tuyệt đối) sai khác giữa các nghiệm thức d
(2) Xác định giá trị Scheffe (CR)
,
Trong đó, a: số công thức thí nghiệm, giá trị F ở α: mức độ sai khác (thường được chọn 0,05), dfa và dfe là bậc tự do của nghiệm thức (a – 1) và bậc tự do của sai số ngẫu nhiên (n1 + n2 + ... + na – a), MSE: trung bình bình phương của sai số ngẫu nhiên, ni và nj là dung lượng mẫu tương ứng ở công thức i và j.
(3) Thể hiện sự sai khác giữa các nghiệm thức. Nếu giá trị chênh lệch giữa 2 nghiệm thức (d) bé hơn giá trị lý thuyết (CR) ta sẽ có kết luận không có sự sai khác giữa 2 nghiệm thức này
thấp hơn nhưng xác suất mắc sai thuyết H0
Phép kiểm định Tukey được sử dụng rộng rãi hơn Scheffe. Sử dụng kiểm định Tukey, xác suất bác bỏ H0 cao hơn nhưng xác suất mắc sai lầm loại I cũng cao hơn. Với Scheffe, xác lầm cũng suất bác bỏ giả thấp hơn.
43
Chương 2 Thiết kế thí nghiệm chăn nuôi
Nếu kiểm định Tukey chỉ có thể so sánh các cặp với nhau thì kiểm định Scheffe, ngoài so sánh các cặp với nhau còn có thể dùng để so sánh các tương phân (contrast), tức là các tổ hợp tuyến tính của các nghiệm thức.
Phép kiểm định nào phù hợp để so sánh các nghiệm thức trong một thí nghiệm? Bạn đọc
có thể tham khảo một số gợi ý sau:
- So sánh tất cả các cặp với nhau (pairwise)
+ Dung lượng mẫu bằng nhau giữa các nghiệm thức: kiểm định Tukey
+ Dung lượng mẫu không bằng nhau giữa các nghiệm thức: kiểm định Tukey-Kramer or Scheffé
- So sánh một số công thức với nhau (not pairwise)
+ Với nhóm đối chứng: kiểm định Dunnett
+ Với một số công thức dự kiến trước: kiểm định Bonferroni
+ Với một số công thức không dự kiến trước: kiểm định Scheffé
Các trường hợp so sánh cặp đôi có thể thấy được trong các ví dụ phân tích ANOVA với các mô hình khác nhau ở trong mục 2.2.3.
2.2. Thiết kế thí nghiệm một yếu tố và phân tích số liệu
2.2.1. Thí nghiệm một nhân tố hoàn toàn ngẫu nhiên
Xét trường hợp đơn giản nhất đối với bài toán phân tích phương sai là thí nghiệm một yếu tố hoàn toàn ngẫu nhiên (Completely Randomized Design - CRD). Chỉ có một yếu tố duy nhất trong thí nghiệm là biến độc lập, các yếu tố phi thí nghiệm còn lại được coi là có tác động như nhau đến đối tượng thí nghiệm.
A
B
C
D
E
950
430
700
1.000
900
850
450
900
900
1.000
850
400
750
900
950
900
420
700
900
950
từng cặp giá sai khác của tiến hành sánh sự so Ví dụ 2.9: Theo dõi tăng khối lượng của 20 con cá (g) trong một thí nghiệm với 5 công thức nuôi (A, B, C, D và E). Hãy cho biết tăng khối lượng của cá ở các công thức nuôi. Nếu có sự khác nhau, trị trung bình.
Mô hình phân tích:
Trong đó: yij: quan sát thứ j ở công thức i,
: trung bình chung,
αi: ảnh hưởng của công thức i ij: sai số ngẫu nhiên; các ij độc lập, phân phối chuẩn N(0,2).
44
Thiết kế thí nghiệm
Như đã đề cập ở phần b mục 2.2.1, việc kiểm định phân bố chuẩn và phương sai đồng nhất được kiểm tra thông qua sự phân bố của phân dư () của mô hình phân tích. Tiến hành kiểm định phân dư () của mô hình phân tích bằng các lệnh bằng phần mềm Minitab như sau:
Nhập số liệu thô vào cửa sổ Worksheet bằng cách 1 hoặc cách 2 như sau:
Cách 1 Cách 2
Sử dụng lệnh Stat ANOVA One Way... (cách nhập số liệu 1) và One Way (Unstacked)... (cách nhập số liệu 2).
Cách 1 Cách 2
Khai báo biến phụ thuộc (biến đáp ứng) vào ô Response.
Khai báo biến độc lập (yếu tố thí nghiệm) vào ô Factors.
Kích chuột vào ô Store residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn Kích chuột OK để có kết quả
One-way ANOVA: KL versus TA Source DF SS MS F P TA 4 0.76325 0.19081 60.99 0.000 Error 15 0.04692 0.00313 Total 19 0.81017 S = 0.05593 R-Sq = 94.21% R-Sq(adj) = 92.66% Individual 95% CIs For Mean Based on Pooled StDev
45
Chương 2 Thiết kế thí nghiệm chăn nuôi
Level N Mean StDev --+---------+---------+---------+------- A 4 0.8875 0.0479 (--*--) B 4 0.4250 0.0208 (--*--) C 4 0.7625 0.0946 (--*--) D 4 0.9375 0.0479 (--*--) E 4 0.9500 0.0408 (-*--) --+---------+---------+---------+------- 0.40 0.60 0.80 1.00 Pooled StDev = 0.0559
Xác suất P-value = 0,000 < 0,05 () vì vậy H0 bị bác bỏ và H1 được chấp nhận. Kết luận rằng Tăng khối lượng trung bình của cá ở các công thức thức ăn có sự sai khác (P < 0,05). Hệ số xác định (R-sq) = 94,21%.
Vì bác bỏ giả thiết H0 và chấp nhận đối thiết H1, bước tiếp theo là so sánh cặp đôi. Trong
ví dụ này so sánh cặp đôi được thực hiện theo phương pháp Tukey. So sánh cặp khi bác bỏ giả thiết H0 chấp nhận giả thiết H1
Chọn Comparisons... trong hộp thoại One-Way Analysis of Variances
Các lựa chọn: Tukey’s, family error rate: với sai số của toàn bộ các cặp so sánh là 5% Fisher’s, individual error rate: với sai số của từng cặp so sánh là 5% Dunnett’s, family error rate: so sánh với nhóm đối chứng, sai số của toàn bộ các cặp so sánh là 5% Hsu’s MCB, family error rate: với sai số của toàn bộ các cặp so sánh là 5% Chọn OK để có kết quả
Bên cạnh việc cung cấp kết quả so sánh từng cặp giữa các nghiệm thức dựa trên khoảng tin cậy của từng cặp, Minitab 16 còn thể hiện sự sai khác bằng các chữ cái a, b, c, ...
Grouping Information Using Tukey Method TA N Mean Grouping E 4 0.95000 A D 4 0.93750 A A 4 0.88750 A C 4 0.76250 B B 4 0.42500 C
46
Means that do not share a letter are significantly different.
Thiết kế thí nghiệm
Nghiệm thức
A
B
C
D
E
Trung bình
0,88a
0,42c
0,76b
0,93a
0,95a
Kết quả có thể trình bày như sau:
Những giá trị trung bình có chung chữ cái (theo so sánh Duncan) thì sai khác nhau không có ý nghĩa thống kê và ngược lại những giá trị trung bình không có chung chữ cái thì sai khác nhau có ý nghĩa thống kê (P <).
Chi tiết về so sánh cặp và trình bày kết quả, bạn đọc có thể tham khảo trang 57 chương
4 Giáo trình Thiết kế thí nghiệm của Nguyễn Đình Hiền và Đỗ Đức Lực (2007).
2.2.2. Thí nghiệm một yếu tố khối ngẫu nhiên đầy đủ
Xem xét một thí nghiệm mà đối tượng thí nghiệm chịu tác động đồng thời của một yếu tố chính và một yếu tố phụ là khối theo mô hình khối ngẫu nhiên đầy đủ (Completely Randomized Block Design - CRBD).
2.2.2.1. Thí nghiệm khối ngẫu nhiên đầy đủ với một lần lặp lại
Thuốc
Lứa 1
Lứa 2
Lứa 3
Lứa 4
Lứa 5
A
7,1
6,1
6,9
5,6
6,4
B
6,7
5,1
5,9
5,1
5,8
C
7,1
5,8
6,2
5,0
6,2
D
6,7
5,4
5,7
5,2
5,3
Ví dụ 2.10: Nghiên cứu số lượng tế bào lymphô ở chuột (1000 tế bào/mm3 máu) được sử dụng 4 loại thuốc khác nhau (A, B, C và D; thuốc D là placebo) qua 5 lứa; số liệu thu được trình bày ở bảng dưới. Cho biết ảnh hưởng của thuốc đến tế bào lymphô?
Mô hình phân tích:
Trong đó: yij: quan sát thứ i của yếu tố ở khối thứ j,
: trung bình chung,
i: ảnh hưởng của mức i của yếu tố,
j: ảnh hưởng của khối j, ij: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2)
Cấu trúc số liệu
47
Chương 2 Thiết kế thí nghiệm chăn nuôi
Số liệu của bài toàn này chỉ có một cấu trúc duy nhất trong Minitab; bao gồm 3 cột:
1) cột Số lượng tế bào C1 (THUOC),
2) cột Thuốc C2 (LUA) và
3) cột Lứa C3 (TEBAO)
Trong thí nghiệm này đối tượng thí nghiệm bị tác động bởi yếu tố chính (yếu tố thí nghiệm) và yếu tố phụ (khối)
So sánh sự sai khác giữa các nghiệm thức bằng Phân tích phương sai (ANOVA)
Stat ANOVA Two-Way...
Khai báo biến phụ thuộc (biến đáp ứng) TEBAO vào ô Response.
Khai báo biến độc lập (yếu tố thí nghiệm) THUOC vào ô Row Factors.
Khai báo biến độc lập (yếu tố khối) LUA vào ô Column Factors.
Kích chuột vào ô Store residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
48
Thiết kế thí nghiệm
Kích chuột OK để có kết quả
Two-way ANOVA: TEBAO versus THUOC, LUA Source DF SS MS F P THUOC 3 1.8455 0.61517 11.59 0.001 LUA 4 6.4030 1.60075 30.16 0.000 Error 12 0.6370 0.05308 Total 19 8.8855 S = 0.2304 R-Sq = 92.83% R-Sq(adj) = 88.65%
Xác suất của phép thử đối với yếu tố chính (Thuốc) P = 0,001 < 0,05 (), bác bỏ giả thiết H0 và chấp nhận đối thiết H1. Kết luận thuốc có ảnh hưởng khác nhau lên tế bào lymphô của chuột (P < 0,05). Hệ số xác định (R-sq) = 92,83%. Vì bác bỏ giả thiết H0 và chấp nhận đối thiết H1, bước tiếp theo là so sánh cặp đôi. Trong
ví dụ này so sánh cặp đôi được thực hiện theo phương pháp Tukey. So sánh cặp khi bác bỏ giả thiết H0 chấp nhận giả thiết H1
Tuy nhiên, so sánh cặp đối với thí nghiệm một yếu tố khối ngẫu nhiên đầy đủ không thể sử dụng Two – Way mà phải sử dụng mô hình tuyến tính tổng quát.
Stat ANOVA General Linear Model...
49
Chương 2 Thiết kế thí nghiệm chăn nuôi
Khai báo biến phụ thuộc (biến đáp ứng) TEBAO vào ô Response.
Khai báo biến độc lập: yếu tố thí nghiệm (THUOC), yếu tố khối (LUA) vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
Các lựa chọn: Tukey Dunnett Bonferroni Sidak Grouping information
Chọn OK để có kết quả
General Linear Model: TEBAO versus THUOC, LUA Factor Type Levels Values THUOC fixed 4 A, B, C, D
50
LUA fixed 5 1, 2, 3, 4, 5 Analysis of Variance for TEBAO, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P THUOC 3 1.8455 1.8455 0.6152 11.59 0.001 LUA 4 6.4030 6.4030 1.6008 30.16 0.000 Error 12 0.6370 0.6370 0.0531 Total 19 8.8855 S = 0.230398 R-Sq = 92.83% R-Sq(adj) = 88.65% Grouping Information Using Tukey Method and 95.0% Confidence THUOC N Mean Grouping A 5 6.4 A C 5 6.1 A B B 5 5.7 B D 5 5.7 B Means that do not share a letter are significantly different.
Thiết kế thí nghiệm
Thuốc
A
B
C
D
Trung bình
6,4a
5,7b
6,1ab
5,7b
Kết quả có thể trình bày như sau:
Lưu ý, mô hình thiết kế thí nghiệm khối ngẫu nhiên đầy đủ với một lần lặp lại sẽ không nghiên cứu được mối tương tác giữa 2 yếu tố thí nghiệm. Vì trong trường hợp này phần sai số ngẫu nhiên chính là phần tương tác giữa 2 yếu tố nếu đưa vào mô hình. Để có thể nghiên cứu được mối tương tác giữa 2 yếu tố, bạn đọc có thể tìm hiểu mô hình thí nghiệm khối ngẫu nhiên hoàn toàn với nhiều lần lặp lại dưới đây.
2.2.2.2. Thí nghiệm khối ngẫu nhiên hoàn toàn với nhiều lần lặp lại
Khối
Công thức
I
II
III
IV
826
864
795
850
A1
806
834
810
845
827
871
729
860
A2
800
881
709
840
753
801
736
820
A3
773
821
740
835
Ví dụ 2.11: Một thí nghiệm được tiến hành để xác định ảnh hưởng của 3 công thức thức ăn (A1, A2 và A3) đến tăng khối lượng trung bình trên ngày (g/ngày) của bê đực. Bê đực được cân và chia thành 4 khối dựa theo khối lượng bắt đầu thí nghiệm. Trong mỗi khối có 6 động vật thí nghiệm được chọn ra và được phân ngẫu nhiên về các nghiệm thức. Số liệu thu thập sau khi kết thúc thí nghiệm như sau:
Nếu trong một công thức - một khối có nhiều quan sát thì ngoài việc đánh giá mức độ ảnh hưởng của từng yếu tố riêng biệt ta còn có thể xác định mối tương tác theo mô hình phân tích sau:
51
Chương 2 Thiết kế thí nghiệm chăn nuôi
Trong đó:
yijk: quan sát thứ k của khối thứ j và nghiệm thức thứ i,
: trung bình chung,
i: ảnh hưởng của công thức thức ăn i,
j: ảnh hưởng của khối lượng ban đầu của khối j,
ij: tương tác giữa công thức thức ăn và khối, ijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2),
Cấu trúc số liệu của mô hình thí nghiệm khối ngẫu nhiên hoàn toàn với nhiều lần lặp lại
Trong ví dụ 2.11 có 2 đơn vị thí nghiệm ở một nghiệm thức và khối vì vậy ngoài tác động của khối và công thức thí nghiệm còn tồn tại sự tương tác giữa khối và công thức thí nghiệm.
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) KL vào ô Response.
Khai báo biến độc lập: yếu tố thí nghiệm (CT), yếu tố khối (KHOI) và tương tác giữa yếu tố thí nghiệm với yếu tố khối (CT*KHOI) vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
52
Thiết kế thí nghiệm
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
Các lựa chọn: Kích chuột vào ô Tukey Ngoài ra có thể chọn Dunnett Bonferroni Sidak Kích chuột vào ô Grouping information Chọn OK để có kết quả
General Linear Model: KL versus CT, KHOI Factor Type Levels Values CT fixed 3 A1, A2, A3 KHOI fixed 4 I, II, III, IV Analysis of Variance for KL, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P CT 2 8015.3 8015.3 4007.6 22.90 0.000 KHOI 3 33745.1 33745.1 11248.4 64.26 0.000 CT*KHOI 6 8036.7 8036.7 1339.5 7.65 0.002 Error 12 2100.5 2100.5 175.0 Total 23 51897.6 S = 13.2303 R-Sq = 95.95% R-Sq(adj) = 92.24%
53
Chương 2 Thiết kế thí nghiệm chăn nuôi
Grouping Information Using Tukey Method and 95.0% Confidence CT N Mean Grouping A1 8 828.8 A A2 8 814.5 A A3 8 784.9 B Means that do not share a letter are significantly different. Xác suất của phép thử đối với yếu tố Thức ăn P = 0,000 và tương tác (CT*KHOI) P = 0,002 < 0,05, bác bỏ giả thiết H0 và chấp nhận đối thiết H1. Kết luận: Công thức ăn có ảnh đến tăng khối lượng của bê và có tương tác giữa công thức thức ăn và khối lượng bê vỗ béo (P <0,05). Kết quả có thể trình bày như sau:
Công thức thức ăn
A1
A2
A3
Trung bình
828,8a
814,5a
784,9b
2.2.3. Thí nghiệm hoán vị (cross over)
Động vật thí nghiệm
Giai đoạn
1
2
3
4
5
…
n
CT2
CT1
CT2
CT3
CT1
…
CT3
1
CT1
CT3
CT3
CT2
CT3
…
CT2
2
CT3
CT2
CT1
CT1
CT2
…
CT1
3
Trong thiết kế thí nghiệm kiểu hoán vị, có 2 hay nhiều công thức thí nghiệm được thực hiện trên cùng một động vật thí nghiệm nhưng ở các giai đoạn khác nhau. Số liệu được thu thập trên đối tượng thí nghiệm nhiều lần tương ứng với các công thức thí nghiệm khác nhau. Việc bố trí các nghiệm thức trên một động vật thí nghiệm là ngẫu nhiên và từng động vật được xem như một khối.
Động vật thí nghiệm
Ô vuông la tinh thứ 1
Ô vuông la tinh thứ 2
Giai đoạn
1
2
3
4
5
6
CT2
CT1
CT2
CT3
CT1
CT3
1
CT1
CT3
CT3
CT2
CT3
CT2
2
CT3
CT2
CT1
CT1
CT2
CT1
3
Mô hình ô vuông la tinh cũng có thể được sử dụng trong trường hợp này. Đặc biệt các thí nghiệm được thiết kế trên đại gia súc. Sơ đồ dưới đây minh họa sơ đồ thiết kế thí nghiệm có 2 ô vuông la tinh được thiết kế đồng thời.
Trường hợp đặc biệt có 2 công thức thí nghiệm sẽ có một nhóm động vật tham gia thí nghiệm với công thức thí nghiệm thứ nhất, nhóm còn lại sẽ tham gia công thức 2. Sau một thời gian các công thức được thay đổi ngược lại.
Ví dụ 2.12: Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của 2 khẩu phần thức ăn đến sản lượng sữa. Tổng số 10 bò ở tháng tiết sữa thứ 3 và thứ 4 được chọn làm thí nghiệm. Bò được chia ngẫu nhiên thành 2 nhóm (nhóm 1 và nhóm 2). Từng nhóm bò được thử nghiệm trên 2 công thức theo từng giai đoạn khác nhau. Đối với nhóm 1, áp dụng khẩu phần 1
54
Thiết kế thí nghiệm
Nhóm 1
Giai đoạn
Khẩu phần
Bò 1
Bò 4
Bò 5
Bò 9
Bò 10
1
1
31
34
43
28
25
2
2
27
25
38
20
19
Nhóm2
Giai đoạn
Khẩu phần
Bò 2
Bò 3
Bò 6
Bò 7
Bò 8
1
2
22
40
40
33
18
2
1
21
39
41
34
20
ở giai đoạn 1 và khẩu phần 2 ở giai đoạn 2; đối với nhóm 2 áp dụng ngược lại. Sản lượng sữa trung bình (kg) của từng bò trong từng giai đoạn được trình bày ở bảng sau:
Nếu không đề cập đến ảnh hưởng của nhóm bò ta có mô hình phân tích:
Trong đó: yijk: quan sát ở khẩu phần thứ i, nhóm bò thứ j và của bò k
: trung bình chung,
kpi: chênh lệch do ảnh hưởng của khẩu phần i,
boj: ảnh hưởng của bò j,
eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,²)
Cấu trúc số liệu
55
Chương 2 Thiết kế thí nghiệm chăn nuôi
Số liệu của bài toàn này chỉ có một cấu trúc duy nhất trong Minitab; bao gồm 5 cột:
1) cột Giai đoạn C1 (GD);
2) cột Khẩu phần C2 (KP);
3) cột Nhóm C3 (NHOM)
4) cột Bò C4 (BO)
5) cột Sản lượng sữa C5 (SLS)
So sánh sự sai khác giữa các nghiệm thức bằng Phân tích phương sai (ANOVA)
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) SLS vào ô Response. Khai báo biến độc lập: yếu tố thí nghiệm (KP), yếu tố khối (BO) vào ô Model. Chọn OK để có kết quả
General Linear Model: SLS versus KP, BO Factor Type Levels Values KP fixed 2 1, 2 BO fixed 10 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Analysis of Variance for SLS, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P KP 1 57.80 57.80 57.80 9.09 0.015 BO 9 1234.80 1234.80 137.20 21.59 0.000 Error 9 57.20 57.20 6.36 Total 19 1349.80 S = 2.52102 R-Sq = 95.76% R-Sq(adj) = 91.05%
Trong thí nghiệm này, khẩu phần (KP) là yếu tố quan tâm chính; nghĩa là sản lượng sữa bò có sự khác biệt giữa 2 công thức hay không?
56
Thiết kế thí nghiệm
Xác suất của phép phân tích đối với công thức thức ăn P = 0,015 < 0,05. Kết luận: Công thức thức ăn có ảnh hưởng đến sản lượng sữa của bò.
Tuy nhiên, khi đề cập đến ảnh hưởng của nhóm bò ta có mô hình phân tích:
Trong đó: yijk: quan sát ở khẩu phần thứ i, giai đoạn j, nhóm bò thứ k và của bò l trong nhóm k,
: trung bình chung,
kpi: ảnh hưởng của khẩu phần i,
gdj: ảnh hưởng của giai đoạn j,
nhomk: ảnh hưởng của nhóm k
bo(nhom)kl: ảnh hưởng ngẫu nhiên của bò l trong nhóm k,
eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,²)
Trong mô hình này yếu tố thí nghiệm được chia thành 2 nhóm: (1) yếu tố cố định (fixed factor) bao gồm khẩu phần (KP), giai đoạn (GD) và nhóm bò (NHOM) và (2) yếu tố ngẫu nhiên (random factor) bò (BO). Vì vậy, mô hình tuyến tính tổng quát GLM được sử dụng để phân tích ảnh hưởng của các yếu tố thí nghiệm.
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) SLS vào ô Response. Khai báo biến độc lập: KP, GD, NHOM, BO(NHOM) vào ô Model. Chọn OK để có kết quả General Linear Model: SLS versus KP, GD, NHOM, BO Factor Type Levels Values KP fixed 2 1, 2 GD fixed 2 1, 2
57
Chương 2 Thiết kế thí nghiệm chăn nuôi
NHOM fixed 2 1, 2 BO(NHOM) fixed 10 1, 4, 5, 9, 10, 2, 3, 6, 7, 8 Analysis of Variance for SLS, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P KP 1 57.80 57.80 57.80 37.90 0.000 GD 1 45.00 45.00 45.00 29.51 0.001 NHOM 1 16.20 16.20 16.20 10.62 0.012 BO(NHOM) 8 1218.60 1218.60 152.32 99.89 0.000 Error 8 12.20 12.20 1.52 Total 19 1349.80 S = 1.23491 R-Sq = 99.10% R-Sq(adj) = 97.85%
Trong thí nghiệm này, khẩu phần (KP) là yếu tố quan tâm chính; nghĩa là sản lượng sữa bò có sự khác biệt giữa 2 công thức hay không? Xác suất của phép phân tích đối với công thức thức ăn P = 0,000 <0,05. Như vậy công thức thức ăn có ảnh hưởng đến sản lượng sữa của bò.
Để hiện thị giá trị trung bình bình phương LSM (Least Square Mean) và thường được sử dụng để trình bày kết quả.
Kích chuột vào Option Results... và khai báo biến KP vào ô Display least square means corresponding to the terms:
Chọn OK để có kết quả Least Squares Means for SLS KP Mean SE Mean 1 31.60 0.3905 2 28.20 0.3905
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
58
Grouping Information Using Tukey Method and 95.0% Confidence KP N Mean Grouping 1 10 31.6 A 2 10 28.2 B Means that do not share a letter are significantly different.
Thiết kế thí nghiệm
Đối với 2 mô hình phân tích nêu trên, đều có chung kết luận là yếu tố khẩu phần có ảnh hưởng đến sản lượng sữa, tuy nhiên xác suất (P) ở 2 mô hình đối với yếu tố khẩu phần khác nhau (ở mô hình thứ nhất và thứ hai giá trị P lần lượt là 0,015 và 0,000). Như vậy việc sử dụng mô hình phân tích phù hợp sẽ cho kết quả có độ tin cậy cao hơn.
2.2.4. Thí nghiệm kiểu ô vuông La tinh
Đối với mô hình thí nghiệm ô vuông La tinh, ngoài yếu tố thí nghiệm chính ta còn 2 yếu
tố khác: 1) yếu tố hàng và 2) yếu tố cột.
Bê
Giai đoạn
1
2
3
4
1
10,0 (B)
9,0 (D)
11,1 (C)
10,8 (A)
2
10,2 (C)
11,3 (A)
9,5 (D)
11,4 (B)
3
8,5 (D)
11,2 (B)
12,8 (A)
11 (C)
Ví dụ 2.13a: Một thí nghiệm được tiến hành nhằm xác định ảnh hưởng của các loại thức ăn bổ sung khác nhau (A, B, C và D) đến lượng cỏ khô mà bê nuôi vỗ béo thu nhận được (kg/ngày). Thí nghiệm được thiết kế theo mô hình ô vuông la tinh với 4 động vật trong 4 giai đoạn, mỗi giai đoạn 20 ngày. Trong mỗi giai đoạn 10 ngày đầu được coi là giai đoạn thích nghi, 10 ngày tiếp theo là giai đoạn thí nghiệm để thu thập số liệu. Số liệu thu được là khối lượng cỏ khô trung bình bê thu nhận được ở 10 ngày thí nghiệm. Hãy rút ra kết luận từ thí nghiệm nêu trên.
59
Chương 2 Thiết kế thí nghiệm chăn nuôi
4
11,1 (A)
11,4 (C)
11,7 (B)
9,9 (D)
Mô hình phân tích:
Trong đó: yijk: quan sát ở hàng thứ i, cột thứ j và ở nghiệm thức k
: trung bình chung,
hi: ảnh hưởng của hàng (giai đoạn) i,
cj: ảnh hưởng của cột (bê) j,
ak: ảnh hưởng của thức ăn bổ sung k,
eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,²)
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 4 cột:
1) cột Giai đoạn C1 (GD);
2) cột Bê C2 (BE);
3) cột Thức ăn C3 (TA)
4) cột Khối lượng cỏ C4 (KLCO)
So sánh sự sai khác giữa các nghiệm thức bằng Phân tích phương sai (ANOVA)
Stat ANOVA General Linear Model...
60
Thiết kế thí nghiệm
Khai báo biến phụ thuộc (biến đáp ứng) KLCO vào ô Response. Khai báo biến độc lập: GD, BE và TA vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
61
Chương 2 Thiết kế thí nghiệm chăn nuôi
Các lựa chọn: Kích chuột vào ô Tukey Ngoài ra có thể chọn Kích chuột vào ô Grouping information Chọn OK để có kết quả
General Linear Model: KLCO versus GD, BE, TA Factor Type Levels Values GD fixed 4 1, 2, 3, 4 BE fixed 4 1, 2, 3, 4 TA fixed 4 A, B, C, D Analysis of Variance for KLCO, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P GD 3 1.4819 1.4819 0.4940 3.41 0.094 BE 3 3.5919 3.5919 1.1973 8.27 0.015 TA 3 12.0219 12.0219 4.0073 27.68 0.001 Error 6 0.8688 0.8688 0.1448 Total 15 17.9644 S = 0.380515 R-Sq = 95.16% R-Sq(adj) = 87.91% Unusual Observations for KLCO Obs KLCO Fit SE Fit Residual St Resid 11 12.8000 12.2875 0.3008 0.5125 2.20 R R denotes an observation with a large standardized residual. Kết quả phân tích cho thấy xác suất của kiểm định đối với yếu tố thí nghiệm (TA) P = 0,001, vì vậy giả thiết H0 bị bác bỏ, kết luận Có ảnh hưởng của thức ăn bổ sung đến lượng cỏ khô mà bê thu nhận được (P < 0,05).
62
Thiết kế thí nghiệm
Ngoài ra Minitab cũng đã hiển thị giá trị bất thường (Unusual Observation) trong bộ số liệu nêu trên đối với mô hình xử lý thống kê đã lựa chọn. Giá trị này là 12,8000 nằm ở hàng thứ 11 của cột KLCO trong phần cửa sổ số liệu. Grouping Information Using Tukey Method and 95.0% Confidence TA N Mean Grouping A 4 11.5 A B 4 11.1 A C 4 10.9 A D 4 9.2 B Means that do not share a letter are significantly different.
Thức ăn
A
B
C
D
Trung bình
11,5a
11,1a
10,9a
9,2b
Kết quả có thể trình bày như sau:
Lưu ý: Một trong những hạn chế của mô hình ô vuông La tinh là số bậc tự do của sai số ngẫu nhiên (xem bảng phân tích phương sai ở ví dụ 2.6a) rất bé nên các kiểm định F trong phân tích phương sai có thể mắc sai lầm trong kết luận. Việc thiết kế 2 hoặc nhiều ô vuông la tinh cho một thí nghiệm có thể làm tăng độ chính xác của kết luận. Nếu thí nghiệm được tiến hành trên nhiều ô vuông latinh khác nhau việc phân tích số liệu sẽ bao gồm ảnh hưởng của 3 yếu tố trong một ô vuông (hàng, cột, yếu tố thí nghiệm) và ảnh hưởng của các ô.
Ô vuông 1
Ô vuông 2
Bê
Bê
Giai đoạn
Giai đoạn
1
2
3
1
4
2
3
4
1
1
10,0 (B)
9,0 (D)
11,1 (C)
10,9 (C)
10,8 (A)
11,2 (A)
9,4 (D)
11,2 (B)
2
2
10,2 (C)
11,3 (A)
9,5 (D)
10,5 (B)
11,4 (B)
9,6 (D)
11,4 (C)
10,9 (A)
3
3
8,5 (D)
11,2 (B)
12,8 (A)
11,1 (A)
11 (C)
11,4 (C)
11,7 (B)
9,8 (D)
4
4
11,1 (A)
11,4 (C)
11,7 (B)
8,8 (D)
9,9 (D)
12,9 (B)
11,4 (A)
11,2 (C)
Ví dụ 2.13b: Giả sử, một thí nghiệm được thiết kế tương tự như ở ví dụ trên, nhưng có 2 ô vuông La tinh được thiết kế đồng thời và mỗi ô đều có 4 động vật thí nghiệm và 4 công thức thí nghiệm khác nhau. Số liệu ở ô vuông La tinh thứ nhất như trong ví dụ 7A, ô vuông La tinh thứ 2 như trong bảng dưới đây. Hãy tiến hành phân tích để đưa ra kết luận và đưa ra nhận xét về mô hình thiết kế trong 2 ví dụ vừa rồi.
Mô hình phân tích:
Trong đó: yijkm: quan sát ở hàng thứ i, cột thứ j và ở nghiệm thức k
: trung bình chung,
om: ảnh hưởng của ô vuông m
63
Chương 2 Thiết kế thí nghiệm chăn nuôi
h(o)im: ảnh hưởng của hàng i trong ô vuông m,
c(o)jm: ảnh hưởng của cột j trong ô vuông m,
ak: ảnh hưởng của mức k của nhân tố,
eijkm: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,²)
Ngoài 4 cột lần lượt là giai đoạn (GD), bê (BE), thức ăn bổ sung (TA) và khối lượng cỏ khô thu nhận (KLCO) như ở đối với ví dụ 2.6a, cần bổ sung thêm cột ô vuông (OV) để phân biệt số liệu của 2 ô vuông.
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 5 cột:
1) cột Ô vuông C1 (OV);
2) cột Giai đoạn C2 (GD);
3) cột Bê C3 (BE);
4) cột Thức ăn C4 (TA)
5) cột Khối lượng cỏ C5 (KLCO)
So sánh sự sai khác giữa các nghiệm thức bằng Phân tích phương sai (ANOVA)
Stat ANOVA General Linear Model...
64
Thiết kế thí nghiệm
Khai báo biến phụ thuộc (biến đáp ứng) KLCO vào ô Response. Khai báo biến độc lập: OV, GD(OV), BE(OV) và TA vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
65
Chương 2 Thiết kế thí nghiệm chăn nuôi
Các lựa chọn: Kích chuột vào ô Tukey Ngoài ra có thể chọn Kích chuột vào ô Grouping information Chọn OK để có kết quả
General Linear Model: KLCO versus OV, TA, GD, BE Factor Type Levels Values OV fixed 2 1, 2 GD(OV) fixed 8 1, 2, 3, 4, 1, 2, 3, 4 BE(OV) fixed 8 1, 2, 3, 4, 1, 2, 3, 4 TA fixed 4 A, B, C, D Analysis of Variance for KLCO, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P OV 1 0.1953 0.1953 0.1953 0.97 0.340 GD(OV) 6 2.1444 2.1444 0.3574 1.78 0.171 BE(OV) 6 5.4994 5.4994 0.9166 4.56 0.008 TA 3 22.6634 22.6634 7.5545 37.59 0.000 Error 15 3.0147 3.0147 0.2010 Total 31 33.5172 S = 0.448307 R-Sq = 91.01% R-Sq(adj) = 81.41% Unusual Observations for KLCO Obs KLCO Fit SE Fit Residual St Resid 11 12.8000 12.0344 0.3268 0.7656 2.49 R 24 12.9000 12.0781 0.3268 0.8219 2.68 R R denotes an observation with a large standardized residual.
66
Grouping Information Using Tukey Method and 95.0% Confidence TA N Mean Grouping A 8 11.3 A B 8 11.3 A C 8 11.1 A D 8 9.3 B Means that do not share a letter are significantly different.
Thiết kế thí nghiệm
Giải thích: So sánh với ví dụ 2.13a, bậc tự do sai số ngẫu nhiên trong ví dụ này đã được cải thiện đáng kể (df = 15). Kết quả phân tích cho thấy xác suất của phép thử đối với yếu tố thí nghiệm (TA) P < 0,000; Vì vậy, giả thiết H0 bị bác bỏ. Kết luận: Có ảnh hưởng của thức bổ sung đến lượng cỏ khô thu nhận của bê.
2.3. Thiết kế thí nghiệm 2 nhân tố và phân tích số liệu
2.3.1. Thí nghiệm 2 yếu tố chéo nhau
Với mô hình thí nghiệm 2 yếu tố chéo nhau, ngoài nghiên cứu tác động của từng yếu tố thí nghiệm chính ta còn nghiên cứu mối tương tác giữa 2 yếu tố này.
0mg
4mg
A
B
0mg
5mg
5mg
0mg
0,585
0,567
0,684
0,473
0,536
0,545
0,702
0,450
0,458
0,589
0,900
0,869
0,486
0,536
0,698
0,473
0,536
0,549
0,693
0,464
Ví dụ 2.14: Một thí nhiệm yếu tố 2 x 2 được tiến hành để xác định ảnh hưởng của việc bổ sung 2 loại vitamin (A và B) vào thức ăn đến tăng khối lượng (kg/ngày) của lợn. Hai mức đối với vitamin A (0 và 4mg) và 2 mức đối với vitamin B (0 và 5mg) được sử dụng trong thí nghiệm này. Tổng số 20 lợn thí nghiệm được phân về 4 tổ hợp (công thức thí nghiệm) một cách ngẫu nhiên. Số liệu thu được khi kết thúc thí nghiệm được trình bày như sau:
Mô hình phân tích:
Trong đó: yijk: quan sát thứ k ở mức i của yếu tố A và mức j của yếu tố B
là trung bình chung
i: ảnh hưởng mức i của yếu tố A,
j: ảnh hưởng mức j của yếu tố B,
()ij: tương tác giữa mức i của yếu tố A và mức j của yếu tố B eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2)
Cấu trúc số liệu
67
Chương 2 Thiết kế thí nghiệm chăn nuôi
Số liệu được nhập trong Minitab; bao gồm 3 cột:
1) cột Vitamin A C1 (VITA);
2) cột Vitamin B C2 (VITB);
3) cột Tăng trọng C3 (TT);
So sánh sự sai khác giữa các nghiệm thức bằng Phân tích phương sai (ANOVA)
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) TT vào ô Response.
68
Thiết kế thí nghiệm
Khai báo biến độc lập: VITA, VITB và VITA*VITB vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Comparisons... và khai báo biến cần so sánh vào ô Terms
Các lựa chọn: Kích chuột vào ô Tukey Ngoài ra có thể chọn Kích chuột vào ô Grouping information Chọn OK để có kết quả
General Linear Model: TT versus VITA, VITB Factor Type Levels Values VITA fixed 2 0, 4 VITB fixed 2 0, 5 Analysis of Variance for TT, using Adjusted SS for Tests
69
Chương 2 Thiết kế thí nghiệm chăn nuôi
Source DF Seq SS Adj SS Adj MS F P VITA 1 0.05192 0.05192 0.05192 4.71 0.045 VITB 1 0.06418 0.06418 0.06418 5.82 0.028 VITA*VITB 1 0.02911 0.02911 0.02911 2.64 0.124 Error 16 0.17648 0.17648 0.01103 Total 19 0.32169 S = 0.105025 R-Sq = 45.14% R-Sq(adj) = 34.85% Unusual Observations for TT Obs TT Fit SE Fit Residual St Resid 13 0.869000 0.545800 0.046969 0.323200 3.44 R R denotes an observation with a large standardized residual. Grouping Information Using Tukey Method and 95.0% Confidence VITA N Mean Grouping 4 10 0.6 A 0 10 0.5 B Means that do not share a letter are significantly different. Grouping Information Using Tukey Method and 95.0% Confidence VITB N Mean Grouping 5 10 0.6 A 0 10 0.5 B Means that do not share a letter are significantly different.
Các giá trị xác suất lần lượt đối với vitamin A (VITA), vitamin B (VITB) và tương tác giữa hai yếu tố (VITA*VITB) là 0,045; 0,028 và 0,124. Với xác suất P = 0,045 và 0,028 <0,05. Kết luận: Vitamin A và B có ảnh hưởng đến tăng khối lượng của lợn, nhưng không có sự tương tác giữa hai loại vitamin (P = 0,124 >0,05).
2.3.2. Thí nghiệm hai nhân tố phân cấp (nested design)
Với mô hình hai nhân tố phân cấp, nhân tố cấp trên (A) là cố định và cấp dưới (B) là ngẫu nhiên. Hoặc cả hai yếu tố thí nghiệm là ngẫu nhiên. Như vậy B sẽ làm ổ (nested) trong A.
Ví dụ 2.15: Thí nghiệm nhằm xác định ảnh hưởng của lợn đực giống và lợn nái đến khối lượng sơ sinh của thế hệ con. Mô hình phân cấp 2 yếu tố được sử dụng. Bốn lợn đực giống được chọn ngẫu nhiên (a = 4), mỗi đực phối với 3 lợn nái (b = 3) và mỗi nái sinh được 2 lợn con (r = 2). Khối lượng (kg) sơ sinh của từng lợn con thu được như sau:
70
Đực
1
2
3
4
Nái
2
1
5
3
4
8
7
9
10
11
12
6
Con
1,2
1,2
1,1
1,1
1,2
1,3
1,2
1,2
1,3
1,4
1,3
1,2
1,3
1,2
1,2
1,2
1,2
1,3
1,2
1,2
1,3
1,4
1,3
1,1
Thiết kế thí nghiệm
Trong mô hình phân thí nghiệm này, mỗi lợn đực luôn được ghép đôi giao phối với 3 nái cho trước. Khái niệm này trong thuật ngữ thống kê gọi là mô hình làm tổ (nested).
Mô hình phân tích:
Trong đó: yijk: quan sát thứ k ở mức j của yếu tố B trong mức i của yếu A;
: trung bình chung;
ai: ảnh hưởng mức thứ i của nhân tố A;
bj(i ): ảnh hưởng mức j của yếu tố B trong mức i của yếu tố A; eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2)
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 3 cột:
1) cột Bố C1 (BO);
2) cột Mẹ C2 (ME);
3) cột Khối lượng C2 (KL); Có thể chọn một trong hai cách khai báo trong Minitab có để kết quả phân tích phương sai.
71
Chương 2 Thiết kế thí nghiệm chăn nuôi
Cách 1: Stat ANOVA General Linear Model... Minitab chỉ hiển thị kết quả phân tích phương sai.
Khai báo biến phụ thuộc (biến đáp ứng) KL vào ô Response. Khai báo biến độc lập: BO, ME (BO) vào ô Model. Khai báo biến độc lập: ME vào ô Random factors.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Chọn OK để có kết quả
General Linear Model: KL versus BO, ME Factor Type Levels Values BO fixed 4 1, 2, 3, 4 ME(BO) random 12 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 Analysis of Variance for KL, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P BO 3 0.093333 0.093333 0.031111 6.22 0.017
72
ME(BO) 8 0.040000 0.040000 0.005000 3.00 0.042 Error 12 0.020000 0.020000 0.001667 Total 23 0.153333 S = 0.0408248 R-Sq = 86.96% R-Sq(adj) = 75.00%
Thiết kế thí nghiệm
Cách 2: Stat ANOVA Fully Nested ANOVA... ngoài kết quả phân tích phương sai Minitab còn cung cấp bảng các thành phần phương sai và ước tính các giá trị trung bình bình phương.
Khai báo biến phụ thuộc (biến đáp ứng) KL vào ô Response. Khai báo biến độc lập: BO, ME vào ô Factors. Chọn OK để có kết quả
Nested ANOVA: KL versus BO, ME Analysis of Variance for KL Source DF SS MS F P BO 3 0.0933 0.0311 6.222 0.017 ME 8 0.0400 0.0050 3.000 0.042 Error 12 0.0200 0.0017 Total 23 0.1533 Variance Components % of Source Var Comp. Total StDev BO 0.004 56.63 0.066 ME 0.002 21.69 0.041 Error 0.002 21.69 0.041 Total 0.008 0.088 Expected Mean Squares 1 BO 1.00(3) + 2.00(2) + 6.00(1) 2 ME 1.00(3) + 2.00(2) 3 Error 1.00(3)
73
Chương 2 Thiết kế thí nghiệm chăn nuôi
Trong cả 2 trường hợp ta đều có giá trị xác suất đối với yếu tố Bố và yếu tố Mẹ tương ứng là 0,017 và 0,042. Kết luận có sự sai khác giữa các đực và giữa các nái trong cùng một đực (P < 0,05).
Cách tính các phương sai thành phần ước tính dựa vào bảng Expected Mean Squares được triển khai cụ thể như sau:
E(MSerror) = 0,001667 = 1*MSError MSError = 0,001667/1 = 0,001667;
E(MSME) = 0,005000 = 2*MSME +1*MSError = 2*MSME + 1*0,001667
MSME = (0,005000 – 0,001667)/2 = 0,001667;
E(MSME) = 0,031111 = 6*MSBO + 2*MSME +1*MSError
= 6*MSBO + 2*0,001667 + 1*0,001667
MSBO = (0,031111 – 2*0,001667 – 1*0,001667)/6 = 0,004352
2.3.3. Thí nghiệm 2 nhân tố chia ô
Khối 1
Khối 2
Khối 3
A4
A1
A2
A3
A2
A1
A4
A3
A1
A2
A4
A3
B2
B2
B1
B2
B1
B2
B1
B1 33
B1 30
B2 36
B1 33
B2 34
30
27
26
26
32
30
34
B1
B1
B2
B1
B2
B1
B2
B2 32
B2 31
B1 38
B2 32
B1 31
29
25
28
24
37
31
37
Ví dụ 2.16: Một thí nghiệm được tiến hành để nghiên cứu ảnh hưởng của bãi chăn thả A (1, 2, 3 và 4) và lượng khoáng bổ sung B (1 và 2) đến năng suất sữa. Có tất cả 24 bò tham gia thí nghiệm. Thí nghiệm được thiết kế theo mô hình hai nhân tố kiểu chia ô với yếu tố A được bố trí trên ô lớn và yếu tố B trên ô nhỏ trên 3 khối. Năng suất sữa trung bình được ghi lại như sau (kg/ngày):
Mô hình phân tích:
Trong đó: : trung bình chung
ai: ảnh hưởng của mức i của nhân tố A (trên ô lớn);
bj: ảnh hưởng của mức j của nhân tố B (trên ô nhỏ);
L;
kl: ảnh hưởng của khối l; (ak)il: tương tác giữa nhân tố A và khối được dùng làm sai số ô lớn se2
(ab)ij: tương tác của hai nhân tố A và B; eijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2).
Lưu ý: Trong mô hình này khối coi như nhân tố ngẫu nhiên, không tương tác với B, hai
nhân tố A và B coi như nhân tố cố định.
Cấu trúc số liệu
74
Thiết kế thí nghiệm
Số liệu được nhập trong Minitab; bao gồm 4 cột:
1) cột Khối C1 (KHOI);
2) cột Bãi chăn thả A C2 (A);
3) cột Lượng khoáng bổ sung B C3 (B);
4) cột Sản lượng sữa C4 (SLS);
Stat ANOVA General Linear Model...
75
Chương 2 Thiết kế thí nghiệm chăn nuôi
Khai báo biến phụ thuộc (biến đáp ứng) SLS vào ô Response. Khai báo biến độc lập: KHOI, A, KHOI*A, B và A*B vào ô Model. Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Results... và khai báo biến cần ước tính trung bình bình phương nhỏ nhất vào ô Display least square means corresponding to the terms
Chọn OK để có kết quả
General Linear Model: SLS versus KHOI, A, B Factor Type Levels Values KHOI fixed 3 1, 2, 3 A fixed 4 1, 2, 3, 4 B fixed 2 1, 2 Analysis of Variance for SLS, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P KHOI 2 212.583 212.583 106.292 47.24 0.000 A 3 71.167 71.167 23.722 10.54 0.004 KHOI*A 6 26.083 26.083 4.347 1.93 0.191
76
B 1 8.167 8.167 8.167 3.63 0.093 A*B 3 5.833 5.833 1.944 0.86 0.498 Error 8 18.000 18.000 2.250 Total 23 341.833 S = 1.5 R-Sq = 94.73% R-Sq(adj) = 84.86%
Thiết kế thí nghiệm
Xác suất đối với các yếu tố trong mô hình phân tích.Trong kết quả phân tích ta chỉ quan tâm đến xác suất P đối với yếu tố A, B và tương tác A*B. Các giá trị này lần lượt là 0,004; 0,093 và 0,498. Với các giá trị này ta có thể kết luận năng suất sữa có sự khác nhau giữa các bãi chăn thả (P <0,05). Tuy nhiên, việc bổ sung các khoáng chất không làm ảnh hưởng đến năng suất sữa và cũng không có ảnh hưởng tương tác giữa bãi chăn thả và việc bổ sung khoáng (P >0,05).
Least Squares Means for SLS A Mean SE Mean 1 29.67 0.6124 2 30.67 0.6124 3 30.00 0.6124 4 34.00 0.6124 B 1 30.50 0.4330 2 31.67 0.4330 Kết quả so sánh cặp đối với yếu tố A và B.
Grouping Information Using Tukey Method and 95.0% Confidence A N Mean Grouping 4 6 34.0 A 2 6 30.7 B 3 6 30.0 B 1 6 29.7 B Means that do not share a letter are significantly different. Grouping Information Using Tukey Method and 95.0% Confidence B N Mean Grouping 2 12 31.7 A 1 12 30.5 A Means that do not share a letter are significantly different.
Kết quả ước tính giá trị LSM đối với yếu tố A và B.
1
2
3
4
5
6
7
8
9
10
11
12
A4
A1
A2
A3
A2
A1
A4
A3
A1
A2
A4
A3
B2
B2 27
B1 26
B2 26
B1 32
B2 30
B1 34
B1 33
B2 34
B1 30
B2 36
B1 33
30
B1
B1 25
B2 28
B1 24
B2 37
B1 31
B2 37
B2 32
B1 31
B2 31
B1 38
B2 32
29
Ví dụ 2.16b: Xem xét ví dụ trên, giả sử rằng thí nghiệm được thực hiện không có khối và chỉ có yếu tố A và B được thiết kê trên 12 ô lớn. Năng suất sữa trung bình như sau (kg/ngày):
Mô hình phân tích:
77
Chương 2 Thiết kế thí nghiệm chăn nuôi
Trong đó: : trung bình chung
ai: ảnh hưởng của mức i của nhân tố A (trên ô lớn);
bj: ảnh hưởng của mức j của nhân tố B (trên ô nhỏ);
o(a)ik: sai số của ô lớn;
(ab)ij: tương tác của hai nhân tố A và B;
eijkl: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2).
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 4 cột:
1) cột Ô C1 (O);
2) cột Bãi chăn thả A C2 (A);
3) cột Lượng khoáng bổ sung B C3 (B);
4) cột Sản lượng sữa C4 (SLS);
Stat ANOVA General Linear Model...
78
Thiết kế thí nghiệm
Khai báo biến phụ thuộc (biến đáp ứng) SLS vào ô Response. Khai báo biến độc lập: A, O(A), B và A*B vào ô Model. Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Results... và khai báo biến cần ước tính trung bình bình phương nhỏ nhất vào ô Display least square means corresponding to the terms
79
Chương 2 Thiết kế thí nghiệm chăn nuôi
Chọn OK để có kết quả
General Linear Model: SLS versus A, B, O Factor Type Levels Values A fixed 4 1, 2, 3, 4 O(A) fixed 12 2, 6, 9, 3, 5, 10, 4, 8, 12, 1, 7, 11 B fixed 2 1, 2 Analysis of Variance for SLS, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P A 3 71.167 71.167 23.722 10.54 0.004 O(A) 8 238.667 238.667 29.833 13.26 0.001 B 1 8.167 8.167 8.167 3.63 0.093 A*B 3 5.833 5.833 1.944 0.86 0.498 Error 8 18.000 18.000 2.250 Total 23 341.833 S = 1.5 R-Sq = 94.73% R-Sq(adj) = 84.86% Kết quả ước tính giá trị LSM đối với yếu tố A và B.
Least Squares Means for SLS A Mean SE Mean 1 29.67 0.6124 2 30.67 0.6124 3 30.00 0.6124 4 34.00 0.6124 B 1 30.50 0.4330 2 31.67 0.4330 Kết quả so sánh cặp đối với yếu tố A và B.
Grouping Information Using Tukey Method and 95.0% Confidence A N Mean Grouping 4 6 34.0 A 2 6 30.7 B
80
3 6 30.0 B 1 6 29.7 B Means that do not share a letter are significantly different. Grouping Information Using Tukey Method and 95.0% Confidence B N Mean Grouping 2 12 31.7 A 1 12 30.5 A Means that do not share a letter are significantly different.
Thiết kế thí nghiệm
Trong ví dụ này, yếu tố ô (O) được coi là ngẫu nhiên và làm tổ (nested) trong yếu tố A. Vì vậy sai số của ô lớn (A) chính là O (A). Do đó giá trị F của yếu tố A không phải là 10.54 = MSA/ MSError = 23,7222222/ 2,2500000 mà được tính 0,8 = MSA/ MSO(A) = 23,7222222/ 29,8333333 = 0,7952. Ta sẽ có xác suất đối với yếu tố A là P = 0,5302 (bạn đọc có thể tự tính trong Excel với câu lệnh = 1 – F.DIST (0.7952;3;8;TRUE), trong đó 3 và 8 lần lượt là bậc tự do của yếu tố A và của O(A)). Ba giá trị xác suất P quan tâm đến bao gồm 0,530; 0,093 và 0,498 tương ứng với yếu tố A, B và tương tác A*B. Với cách thiết kế thí nghiệm theo mô hình thứ 2 này ta đã không tìm thấy ảnh hưởng của bất kỳ một yếu tố nào (P > 0,05).
2.3.4. Thí nghiệm phép đo lặp lại (repeated measures)
Trong các thí nghiệm này, phép đo được lặp lại trên cùng một đơn vị thí nghiệm trong một khoảng thời gian nhất định. Ví dụ, năng suất trong một chu kỳ tiết sữa, sinh trưởng tích luỹ của vật nuôi qua các thời điểm khác nhau; giá trị pH, màu sắc của một sản phẩm đo tại các thời điểm khác nhau. Khi tiến hành các phép đo lặp lại như vậy trên cùng một đơn vị thí nghiệm có thể tồn tại mối tương quan giữa các lần đo. Ví dụ, sản lượng sữa bò của một cá thể cao ở tháng thứ 3 thì xu hướng ở tháng thứ 4 cũng sẽ cao mặc dù đó là công thức thí nghiệm nào.
STT* THOIDIEM SOTAI GIONG
pH
STT
THOIDIEM
SOTAI GIONG
pH
1
01H
1
BV
6.72
26
01H
32
LS
6.71
2
01H
2
BV
6.42
27
01H
33
LS
6.81
3
01H
3
BV
6.51
28
01H
34
LS
6.62
4
01H
4
BV
6.92
29
01H
38
LS
6.81
5
01H
5
BV
6.63
30
01H
39
LS
6.82
6
12H
1
BV
5.39
31
12H
32
LS
5.99
7
12H
2
BV
6.25
32
12H
33
LS
5.98
8
12H
3
BV
5.88
33
12H
34
LS
5.9
9
12H
4
BV
6.92
34
12H
38
LS
5.57
10
12H
5
BV
5.93
35
12H
39
LS
5.54
11
36H
1
BV
5.39
36
36H
32
LS
5.47
12
36H
2
BV
5.47
37
36H
33
LS
5.68
13
36H
3
BV
5.47
38
36H
34
LS
5.46
14
36H
4
BV
5.42
39
36H
38
LS
5.55
15
36H
5
BV
5.43
40
36H
39
LS
5.62
Ví dụ 2.10: Tiến hành đo pH cơ thăn trên 13 bò vàng, 14 bò LaiSind tại các thời điểm 1, 12, 36, 48 giờ, 6 và 8 ngày (mỗi mẫu được đo lặp lại tại 6 thời điểm khác nhau). Số liệu thu được như sau:
81
Chương 2 Thiết kế thí nghiệm chăn nuôi
STT* THOIDIEM SOTAI GIONG
pH
STT
THOIDIEM
SOTAI GIONG
pH
1
BV
5.42
41
48H
16
48H
LS
5.45
32
2
BV
5.48
42
48H
17
48H
LS
5.74
33
3
BV
5.48
43
48H
18
48H
LS
5.52
34
4
BV
5.37
44
48H
19
48H
LS
5.56
38
5
BV
5.44
45
48H
20
48H
LS
5.48
39
1
BV
5.43
46
8D
21
8D
LS
5.42
32
2
BV
5.49
47
8D
22
8D
LS
5.77
33
3
BV
5.47
48
8D
23
8D
LS
5.49
34
4
BV
5.4
49
8D
24
8D
LS
5.13
38
5
BV
5.43
50
8D
25
8D
LS
5.55
39
*: STT = số thứ tự, THOIDIEM = thời điểm sau giết thịt, SOTAI = số tai, GIONG = giống, pH = giá trị pH
Xác định mức độ ảnh hưởng của các yếu tố đến các chỉ tiêu chất lượng thịt theo mô hình
thống kê:
Trong đó: yijk: giá trị quan sát ở thời điểm k đối với động vật thứ j của giống i,
: trung bình của chỉ tiêu nghiên cứu,
i: ảnh hưởng cố định của giống thứ i,
j(i): ảnh hưởng ngẫu nhiên của động vật thứ j ở giống thứ i,
k: ảnh hưởng của thời điểm sau giết thịt thứ k,
()ik: tương tác của giống thứ i với thời điểm sau giết thịt thứ k,
ijk: sai số ngẫu nhiên ở thời điểm k đối với động vật thứ j ở giống i.
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 4 cột:
1) cột Thời điểm C1 (THOIDIEM);
82
Thiết kế thí nghiệm
2) cột Số tai C2 (SOTAI);
3) cột Giống bò C3 (GIONG);
4) cột Giá trị pH C4 (pH);
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) pH vào ô Response. Khai báo biến độc lập: GIONG, SOTAI(GIONG), THOIDIEM và GIONG*THOIDIEM vào ô Model.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Results... và khai báo biến THOIDIEM để ước tính trung bình bình phương nhỏ nhất vào ô Display least square means corresponding to the terms
83
Chương 2 Thiết kế thí nghiệm chăn nuôi
Kích chuột vào Option Comparisons... và khai báo biến THOIDIEM vào ô Terms
Chọn OK để có kết quả
General Linear Model: pH versus GIONG, THOIDIEM, SOTAI Factor Type Levels Values GIONG fixed 2 BV, LS SOTAI(GIONG) fixed 10 1, 2, 3, 4, 5, 32, 33, 34, 38, 39
84
THOIDIEM fixed 5 01H, 12H, 36H, 48H, 8D Analysis of Variance for pH, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P GIONG 1 0.00461 0.00461 0.00461 0.10 0.753 SOTAI(GIONG) 8 0.51415 0.51415 0.06427 1.41 0.231 THOIDIEM 4 11.24570 11.24570 2.81142 61.63 0.000 GIONG*THOIDIEM 4 0.29041 0.29041 0.07260 1.59 0.200 Error 32 1.45973 1.45973 0.04562 Total 49 13.51460 S = 0.213580 R-Sq = 89.20% R-Sq(adj) = 83.46% Unusual Observations for pH Obs pH Fit SE Fit Residual St Resid 6 5.39000 5.93760 0.12815 -0.54760 -3.20 R 9 6.92000 6.27360 0.12815 0.64640 3.78 R R denotes an observation with a large standardized residual. Expected Mean Squares, using Adjusted SS Expected Mean Square Source for Each Term 1 GIONG (5) + Q[1, 2 , 4] 2 SOTAI(GIONG) (5) + Q[2] 3 THOIDIEM (5) + Q[3, 4] 4 GIONG*THOIDIEM (5) + Q[4] 5 Error (5) Error Terms for Tests, using Adjusted SS Synthesis Source Error DF Error MS of Error MS 1 GIONG 32.00 0.04562 (5) 2 SOTAI(GIONG) 32.00 0.04562 (5) 3 THOIDIEM 32.00 0.04562 (5) 4 GIONG*THOIDIEM 32.00 0.04562 (5) Variance Components, using Adjusted SS Estimated Source Value Error 0.04562
Thiết kế thí nghiệm
Trong đó: Kết quả phân tích từ mô hình tuyến tính tổng quát GLM; Thông tin về các yếu tố thí nghiệm và các mức tương ứng của từng yếu tố thí nghiệm; Bảng phân tích phương sai của biến phụ thuộc pH; Mức ảnh hưởng của các yếu tố; Giá trị pH không có sự sai khác giữa các giống (P = 0,753); Giá trị pH thay đổi theo thời gian bảo quản (P <0,000); Bảng ước tính các trung bình bình phương và phương sai thành phần.
Least Squares Means for pH
Kết quả ước tính giá trị LSM đối với yếu tố THOIDIEM.
85
Chương 2 Thiết kế thí nghiệm chăn nuôi
6.697 0.06754 5.935 0.06754 5.496 0.06754 5.494 0.06754 5.458 0.06754
THOIDIEM Mean SE Mean 01H 12H 36H 48H 8D Trong đó: Ước tính giá trị LSM của giá trị pH tại các thời điểm; Các thời điểm nghiên cứu; Giá trị LSM của giá trị pH tại các thời điểm tương ứng; Giá trị SE tương ứng với từng LSM; Kết quả so sánh các giá trị LSM đối với yếu tố THOIDIEM.
A
Grouping Information Using Tukey Method and 95.0% Confidence THOIDIEM N Mean Grouping 10 6.7 01H 10 5.9 B 12H 10 5.5 C 36H 10 5.5 C 48H 8D 10 5.5 C Means that do not share a letter are significantly different. Trong đó: So sánh cặp bằng phương pháp Tukey; Các thời điểm nghiên cứu; dung lượng mẫu của từng thời điểm; Giá trị LSM của pH tại các thời điểm tương ứng; các chữ cái thể hiện sự sai khác;
8d
SEM
Thời điểm
1h
12h
36h
48h
5,5c
0,07
Trung bình
6,7a
5,9b
5,5c
5,5c
Kết quả có thể trình bày như sau:
2.4. Phân tích hiệp phương sai (ANCOVA)
Sau đây là một số ví dụ sử dụng SAS để phân tích mô hình thống kê mà biến độc lập có cả biến phân loại và biến liên tục (hiệp biến), tức là phân tích hiệp phương sai (ANCOVA). Trong các nghiên cứu chăn nuôi, thời điểm thu thập dữ liệu khó có thể cố định vào một thời điểm nhất định. Ví dụ: khối lượng của động vật thí nghiệm lúc bắt đầu thí nghiệm không đồng đều nhau hoặc thiết kế thí nghiệm cân khối lượng của lợn ở thời điểm cai sữa 28 ngày, 60 ngày và kết thúc thí nghiệm lúc 7,5 tháng tuổi. Tuy nhiên, trong thực tế số liệu không đúng thời điểm thiết kế và thường chỉ được thu thập vào các thời điểm xung quanh so với dự kiến. Như vậy khối lượng của động vật thí nghiệm sẽ thấp hơn so với dự kiến nếu tiến hành cân sớm và ngược lại. Để khắc phục những hạn chế nêu trên, khối lượng của động vật thí nghiệm lúc bắt đầu thí nghiệm, thời gian cân thực tế có thể sử dụng như một hiệp biến, tức là một yếu tố gây biến động.
KP
A
A
A
A
A
B
B
B
B
B
C
C
C
C
C
P0
35
40
36
35
34
39
34
41
43
39
40
32
33
39
42
P1
122 130 124 123 121 128 120 129 132 127 129 116 117 129 132
TT
967 1000 978 978 967 989 956 978 989 978 989 933 933 1000 1000
Ví dụ 2.12: Tiến hành nuôi vỗ béo lợn ở 3 công thức thức ăn (A, B và C) trong 90 ngày. Khối lượng (kg) của từng động vật thí nghiệm tại thời điểm bắt đầu (P0) và kết thúc nuôi vỗ béo (P1) và tăng khối lượng (TT, g/ngày) được trình bày ở bảng sau:
86
Thiết kế thí nghiệm
Ta có thể dùng thủ tục ANOVA để phân tích phương sai đối với số liệu như mô hình thiết kế thí nghiệm một yếu tố hoàn toàn ngẫu nhiên với biến phụ thuộc là tăng khối lượng và một biến độc lập (yếu tố thí nghiệm) là công thức thức ăn.
Mô hình phân tích
yij = + i + eij
Trong đó: yij: quan sát ở cá thể thứ j ở công thức thức ăn i,
trung bình chung,
i: ảnh hưởng của công thức thức ăn i, eij: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2).
Cấu trúc số liệu
Số liệu được nhập trong Minitab; bao gồm 4 cột:
1) cột Khẩu phần thức ăn C1 (KP);
2) cột Khối lượng bắt đầu C2 (P0);
3) cột Khối lượng kết thúc C3 (P1);
4) cột Tăng khối lượng C4 (TT);
Stat ANOVA One Way...
87
Chương 2 Thiết kế thí nghiệm chăn nuôi
Khai báo biến phụ thuộc (biến đáp ứng) TT vào ô Response. Khai báo biến độc lập: KP vào ô Factor. Chọn OK để có kết quả
One-way ANOVA: TT versus KP Source DF SS MS F P KP 2 163 82 0.15 0.859 Error 12 6346 529 Total 14 6509 S = 23.00 R-Sq = 2.51% R-Sq(adj) = 0.00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev --------+---------+---------+---------+- A 5 978.0 13.5 (--------------*--------------) B 5 978.0 13.5 (--------------*--------------) C 5 971.0 35.0 (--------------*--------------) --------+---------+---------+---------+- 960 975 990 1005 Pooled StDev = 23.0
Trong đó: Kết quả phân tích phương sai; Xác suất đối với yếu tố thí nghiệm (KP) P = 0,859. Với xác suất này giả thuyết H0 được chấp nhận, tức là “khẩu phần” không ảnh hưởng đến tăng khối lượng trung bình.
Tuy nhiên, phân tích số liệu theo mô hình nêu trên, ta có thể đã bỏ qua một thông tin quan trọng, đó là những cá thể có khối lượng ban đầu khác nhau có thể cho tăng khối lượng khác nhau. Để khắc phục hạn chế này, khối lượng ban đầu được đưa vào mô hình như hiệp biến và mô hình phân tích hiệp phương sai được sử dụng để phân tích.
Mô hình phân tích:
88
Thiết kế thí nghiệm
Trong đó: yij: quan sát ở cá thể thứ j ở công thức thức ăn i,
trung bình chung,
i: ảnh hưởng của công thức thức ăn i,
xij: ảnh hưởng của khối lượng bắt đầu của cá thể j ở công thức i (hiệp biến),
eij: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2).
Stat ANOVA General Linear Model...
Khai báo biến phụ thuộc (biến đáp ứng) TT vào ô Response. Khai báo biến độc lập: KP vào ô Model.
Kích chuột vào Option Covariates... và khai báo biến P0 vào ô Covariates
89
Chương 2 Thiết kế thí nghiệm chăn nuôi
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Kích chuột vào Option Results... và khai báo biến KP để ước tính trung bình bình phương nhỏ nhất vào ô Display least square means corresponding to the terms
Kích chuột vào Option Comparisons... và khai báo biến KP vào ô Terms
90
Thiết kế thí nghiệm
Chọn OK để có kết quả
General Linear Model: TT versus KP Factor Type Levels Values KP fixed 3 A, B, C Analysis of Variance for TT, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P P0 1 4543.5 5246.4 5246.4 52.48 0.000 KP 2 866.2 866.2 433.1 4.33 0.041 Error 11 1099.6 1099.6 100.0 Total 14 6509.3 S = 9.99818 R-Sq = 83.11% R-Sq(adj) = 78.50% Term Coef SE Coef T P Constant 750.76 31.15 24.10 0.000 P0 6.0027 0.8286 7.24 0.000 Unusual Observations for TT Obs TT Fit SE Fit Residual St Resid 14 1000.00 981.80 4.71 18.20 2.06 R R denotes an observation with a large standardized residual. Means for Covariates
91
Chương 2 Thiết kế thí nghiệm chăn nuôi
Covariate Mean StDev P0 37.47 3.502
Trong đó: Kết quả phân tích từ mô hình tuyến tính tổng quát GLM; Thông tin về các yếu tố thí nghiệm và các mức tương ứng của từng yếu tố thí nghiệm; Bảng phân tích phương sai của biến phụ thuộc TT; Mức ảnh hưởng của các yếu tố; Khối lượng bắt đầu có ảnh hưởng đến tăng khối lượng (P = 0,000); Khẩu phần có ảnh hưởng đến khả năng tăng khối lượng (P = 0,041); Giá trị trung bình và độ lệch chuẩn của biến hiệp phương sai.
Least Squares Means for TT KP Mean SE Mean A 986.8 4.634 B 967.6 4.696 C 972.6 4.477 Trong đó: Ước tính giá trị LSM tăng khối lượng tương ứng với mỗi khẩu phần; Các khẩu phần thức ăn; Giá trị LSM tăng khối lượng với mỗi khẩu phần tương ứng; Giá trị SE tương ứng với từng LSM;
Kết quả ước tính giá trị LSM đối với yếu tố Khẩu phần (KP).
Kết quả so sánh các giá trị LSM đối với yếu tố KP. Grouping Information Using Tukey Method and 95.0% Confidence KP N Mean Grouping A 5 986.8 A C 5 972.6 A B B 5 967.6 B Means that do not share a letter are significantly different. Trong đó: So sánh cặp bằng phương pháp Tukey; Các thức ăn; Dung lượng mẫu của từng khẩu phẩn; Giá trị LSM tăng khối lượng ở các khẩu phần tương ứng; Các chữ cái thể hiện sự sai khác thống kê;
Như vậy, áp dụng GLM để phân tích ANCOVA đã cho ta kết quả khác với phân tích ANOVA với một yếu tố hoàn toàn ngẫu nhiên. Trong bảng phân tích phương sai trên ta thấy khối lượng ban đầu ảnh hưởng đến tăng khối lượng của động vật thí nghiệm (P = 0,000) và cũng tồn tại ảnh hưởng của các công thức thức ăn đến tăng khối lượng của lợn (P = 0,041); ngược lại ở kết quả phân tích ANOVA cho thấy yếu tố thí nghiệm (khẩu phần) không ảnh hưởng đến tăng khối lượng của vật nuôi (P = 0,859). Bên cạnh đó hệ số xác định của phân tích ANOVA bé hơn nhiều so với ANCOVA với các giá trị lần lượt là 2,51% và 83,11 %.
2.5. BIẾN ĐỔI SỐ LIỆU
Khi số liệu có phân bố chuẩn và các phương sai đồng nhất, việc phân tích số liệu và đưa ra các kết luận sẽ đơn giản. Trong một số trường hợp các điều kiện nêu trên không được thỏa mãn bạn đọc sẽ có 2 lựa chọn: (1) biến đổi số liệu và (2) sử dụng thống kê phi tham số (xem mục 2.6). Mục này sẽ đề cập đến cách biến đổi số liệu để có thể thỏa mãn điều kiện của bài toán.
Có 3 cách biến đổi dữ liệu thường được sử dụng đối với các biến (x) trong sinh học, bao gồm:
92
Thiết kế thí nghiệm
(1) logarit: x’= log(x) sử dụng trong trường hợp số liệu có xu hướng lệch phải. Logarit cơ số 10 và cơ số e được sử dụng phổ biến nhất sẽ sử dụng hàm logarit.
(2) bình phương: x’= x² sử dụng trong trường hợp số liệu lệch trái.
(3) logistics: x’= log[x/(1-x)] sử dụng trong trường hợp tỷ lệ/phần trăm đặc biệt là với hàm phân bố nhị thức (xem ví dụ 2.18 phần 2.4.2).
Ngoài ra còn có cách biến đổi sử dụng arcsin hay biến đổi tổng quát BOX COX.
Xem xét ví dụ sau đây:
Chế phẩm
Hè
Đông
A
3.800.000
13.000.000
A
1.000.000
1.600.000
A
320.000
360.000
B
1.600.000
400.000
B
100.000
1.100.000
B
100.000
1.000.000
C
22.000.000
1.600.000
C
11.000.000
1.800.000
C
14.000.000
120.000.000
Ví dụ 2.19. Thí nghiệm được tiến hành nhằm đánh giá ảnh hưởng của chế phẩm sinh học (A, B và C) đến lượng vi sinh vật trong phân chuồng. Thí nghiệm được tiến hành qua 2 mùa (hè và đông). Số liệu thu được trình bày ở bảng dưới đây. Tiến hành phần tích số liệu và cho biết ảnh hưởng của yếu tố thí nghiệm. Lưu ý kiểm tra phân bố chuẩn của số liệu.
Mô hình phân tích:
Trong đó: yijk: quan sát thứ k ở chế phẩm thứ i và mùa j
trung bình chung
i: ảnh hưởng của chế phẩm i,
j: ảnh hưởng mức của mùa j,
()ij: tương tác giữa mức i của chế phẩm và mức j của mùa ijk: sai số ngẫu nhiên, độc lập, phân phối chuẩn N(0,2)
Cấu trúc số liệu
93
Chương 2 Thiết kế thí nghiệm chăn nuôi
Số liệu được nhập trong Minitab; bao gồm 3 cột:
1) cột Chế phẩm C1 (CP);
2) cột Mùa C2 (MUA);
3) cột Số lượng vi sinh vật C3 (VSV);
Stat ANOVA General Linear Model...
94
Thiết kế thí nghiệm
Khai báo biến phụ thuộc (biến đáp ứng) VSV vào ô Response. Khai báo biến độc lập: CP, MUA và CP*MUA vào ô Factor.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Chọn OK để có kết quả
General Linear Model: VSV versus CP, MUA Factor Type Levels Values CP fixed 3 1, 2, 3 MUA fixed 2 1, 2 Analysis of Variance for VSV, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P CP 2 2.80191E+15 2.80191E+15 1.40095E+15 1.77 0.212 MUA 1 4.19920E+14 4.19920E+14 4.19920E+14 0.53 0.480 CP*MUA 2 5.69126E+14 5.69126E+14 2.84563E+14 0.36 0.705 Error 12 9.50029E+15 9.50029E+15 7.91691E+14 Total 17 1.32912E+16
95
Chương 2 Thiết kế thí nghiệm chăn nuôi
S = 28137006 R-Sq = 28.52% R-Sq(adj) = 0.00%
Kết quả phân tích phương sai đối với các yếu tố trong mô hình. Kết quả cho thấy không ảnh hưởng của chế phẩm (P = 0,212), mùa (P = 0,480) và không có tương tác giữa 2 yếu tố này (P = 0,705) đến số lượng vi sinh vật.
Kiểm tra phân bố chuẩn đối với biến phần dư (RESI1)
Khai báo biến RESI1 vào ô Variable. Chọn OK để có kết quả
96
Thiết kế thí nghiệm
Giá trị P <0,005, như vậy H0 bị bác bỏ và chấp nhận H1 tức là cột phần dư không có phân bố chuẩn. Kết luận: Số liệu không tuân theo phân phối chuẩn. Do đó, phân tích phương sai sẽ không có ý nghĩa.
Tiến hành biến đổi số liệu: Tạo cột mới logarit VSV C5 (LOGVSV)
Calc Calculator...
Khai báo biến LOGVSV vào ô Store result in variable. Nhập công thức logarit: log(VSV) vào ô Expression. Chọn OK để có kết quả
Stat ANOVA General Linear Model...
97
Chương 2 Thiết kế thí nghiệm chăn nuôi
Khai báo biến phụ thuộc (biến đáp ứng) LOGVSV vào ô Response. Khai báo biến độc lập: CP, MUA và CP*MUA vào ô Factor.
Kích chuột vào Option Storage... và kích chuột vào ô Residuals để lấy cột phần dư (RESI1) dùng kiểm tra phân bố chuẩn
Chọn OK để có kết quả
General Linear Model: LOGVSV versus CP, MUA Factor Type Levels Values CP fixed 3 1, 2, 3 MUA fixed 2 1, 2 Analysis of Variance for LOGVSV, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P CP 2 30.448 30.448 15.224 6.61 0.012 MUA 1 0.451 0.451 0.451 0.20 0.666 CP*MUA 2 2.799 2.799 1.399 0.61 0.561 Error 12 27.654 27.654 2.305 Total 17 61.352
98
S = 1.51806 R-Sq = 54.93% R-Sq(adj) = 36.14%
Thiết kế thí nghiệm
Kiểm tra phân bố chuẩn đối với biến phần dư (RESI2)
Khai báo biến RESI2 vào ô Variable. Chọn OK để có kết quả
Xác suất của phần dư P = 0,277 cho thấy sau khi biến đổi số liệu phần dư đã có phân bố chuẩn tức điều kiện của phép thử được thỏa mãn (số liệu có phân bố chuẩn và phương sai đồng 99
Chương 2 Thiết kế thí nghiệm chăn nuôi
nhất); Xác suất của yếu tố chế phẩm P = 0,012 nên có thể kết luận rằng có sự sai khác về số lượng vi sinh vật giữa các chế phẩm khác nhau.
Lưu ý: trước khi biến đổi số liệu giả thiết H0 được chấp nhận (chế phẩm không ảnh hưởng) và sau khi biến đổi số liệu giả thiết H0 bị bác bỏ (chế phẩm ảnh hưởng đến số lượng vi sinh vật). Như vậy việc kiểm tra điều kiện của phép thử và tìm phương pháp biến đổi số liệu phù hợp có thể cho ta kết luận chính xác hơn.
2.6. BÀI TẬP 2.6.1: Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của hàm lượng protein và lysine trong khẩu phần ăn đến sinh trưởng của cá. Thí nghiệm được thiết kế với 3 mức protein (LP, OP và HP) với 6 mức lysine (1, 2, 3, 4, 5 và 6) trong mỗi mức protein. Các chỉ tiêu theo dõi bao gồm: Khối lượng cá bắt đầu thí nghiệm (P0, g/cá), khối lượng kết thúc (P1, g/cá), tăng khối lượng trong thời gian thí nghiệm (TK, g/cá), tăng khối lượng trung bình/ ngày (TB, mg/ngày/cá). Số liệu được trình bày ở bảng sau. Số liệu về sinh trưởng thu được trình bày ở bảng dưới đây.
Khẩu phần LP LP LP LP LP LP OP OP OP OP OP OP HP HP HP HP HP HP
Lysin 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
P0 0,91 0,95 0,93 0,93 0,91 0,94 0,91 0,91 0,92 0,92 0,91 0,92 0,92 0,90 0,92 0,93 0,91 0,92
P1 1,66 2,22 2,51 3,06 3,49 3,37 2,42 2,89 3,60 4,37 4,89 4,71 1,93 2,35 2,84 3,22 3,76 4,15
TK 0,76 1,27 1,58 2,13 2,57 2,43 1,50 1,98 2,68 3,45 3,99 3,79 1,01 1,45 1,92 2,29 2,85 3,23
TB 25,21 42,30 52,74 71,14 85,72 81,11 50,16 66,14 89,36 114,89 132,89 126,43 33,68 48,38 63,93 76,46 94,87 107,71
Câu hỏi 1: Anh(chị) cho biết yếu tố thí nghiệm và số công thức thí nghiệm?
Câu hỏi 2: Dựa vào các thông tin nêu trên, anh (chị) cho biết ảnh hưởng của protein và lysin đến sinh trưởng của cá? Làm bài và trình bày theo sự hiểu biết của anh (chị)
2.6.2: Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của mật độ nuôi đến sinh trưởng của cá. Thí nghiệm được lặp lại 3 lần với các chỉ tiêu sinh trưởng gồm: (1) khối lượng bắt đầu, (2) khối lượng kết thúc và (3) tăng khối lượng trong thời gian thí nghiệm. Số liệu thí nghiệm thu được như sau:
100
MATDO
LAPLAI KLBD KLKT
TKL
MATDO
LAPLAI KLBD KLKT
TKL
A
1
3,14
86,75
83,61
B
2
3,42 141,75 138,33
A
1
2,76
80,64
77,88
B
2
4,07
105,2 101,13
A
1
2,12
56,02
53,9
B
2
2,76 117,22 114,46
A
1
4,32
69,53
65,21
B
2
3,56
116,2 112,64
A
1
3,23
80,06
76,83
B
2
3,45 122,95
119,5
A
1
4,01
64,64
60,63
B
3
3,19 112,02 108,83
A
1
3,12
67,32
64,2
B
3
2,76 126,32 123,56
A
1
2,76
59,87
57,11
B
3
2,18
96,59
94,41
A
1
4,18
50,79
46,61
B
3
4,34
93,36
89,02
A
2
2,66
52,61
49,95
B
3
3,27 118,12 114,85
A
2
3,45
66,21
62,76
B
3
4,01 126,03 122,02
A
2
2,94
55,88
52,94
B
3
3,34 113,12 109,78
A
2
3,28
79,9
76,62
B
3
2,89 122,19
119,3
A
2
3,25
64,26
61,01
B
3
4,16
90,37
86,21
A
2
4,09
79,89
75,8
C
1
3,15 101,89
98,74
A
2
3,02
80,42
77,4
C
1
2,78
99,82
97,04
A
2
2,79
75,78
72,99
C
1
2,19 152,62 150,43
A
2
4,15
67,55
63,4
C
1
4,19
78,95
74,76
A
3
3,89
99,54
95,65
C
1
3,23 103,03
99,8
A
3
3,86
60,11
56,25
C
1
4,07 156,01 151,94
A
3
2,98
52,02
49,04
C
1
3,12
90,85
87,73
A
3
4,11
58,63
54,52
C
1
2,68
85,74
83,06
A
3
3,14
52,96
49,82
C
1
4,21
85,7
81,49
A
3
2,64
56,72
54,08
C
2
3,15
81,89
78,74
A
3
2,12
77,11
74,99
C
2
2,78
128,1 125,32
A
3
4,35
81,56
77,21
C
2
2,19
94,45
92,26
A
3
3,21
61,12
57,91
C
2
4,23
77,99
73,76
B
1
3,85 107,93 104,08
C
2
3,23 116,59 113,36
B
1
3,16 102,29
99,13
C
2
4,27 105,69 101,42
B
1
2,98
121,7 118,72
C
2
3,17
96,43
93,26
B
1
3,12 188,74 185,62
C
2
2,68 103,26 100,58
B
1
4,12 175,26 171,14
C
2
4,11
110,4 106,29
B
1
2,76 152,98 150,22
C
3
3,65
97,12
93,47
B
1
3,43
97,61
94,18
C
3
4,08 100,43
96,35
B
1
2,53 125,35 122,82
C
3
2,83 110,65 107,82
B
1
3,21 105,32 102,11
C
3
3,43 106,88 103,45
B
2
3,76
91,94
88,18
C
3
2,75 107,66 104,91
B
2
3,16
95,13
91,97
C
3
2,83
90,18
87,35
B
2
3,43 119,28 115,85
C
3
3,33
99,3
95,97
B
2
2,96 109,44 106,48
C
3
3,26 148,66
145,4
C
3
3,25
77,64
74,39
Thiết kế thí nghiệm
101
Chương 2 Thiết kế thí nghiệm chăn nuôi
Các ký tự viết tắt ứng:
KLBD: Khối lượng bắt đầu thí nghiệm (g) KLKT: Khối lượng kết thúc thí nghiệm (g) TKL: Tăng khối lượng trung bình (g/ngày)
MATDO: Mật độ (A, B và C) LAPLAI: Lặp lại (1, 2 và 3) Câu hỏi 1: Tóm tắt và trình bày số liệu theo sự hiểu biết của anh (chị)?
Câu hỏi 2: Dựa vào các thông tin nêu trên, anh (chị) cho biết ảnh hưởng của các yếu tố thí nghiệm đến các chỉ tiêu sinh trưởng. Làm bài và trình bày theo sự hiểu biết của anh (chị)?
Câu hỏi 3: Tính hệ số tương quan giữa các chỉ tiêu từ số liệu đã cho. Làm bài và trình bày theo sự hiểu biết của anh (chị)?
2.6.3: Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của địa điểm thu hoạch và mức độ chín đến nồng độ (mg/g vật chất khô) của Astringin, Piceatannol và Resveratrol trong quả xim. Mẫu quả xim được thu hoạch từ 5 địa điểm khác nhau (L1, L2, L3, L4 và L5). Các quả xim này được phân loại theo 5 mức độ chín khác nhau (M1, M2, M3, M4 and M5). Số liệu thí nghiệm được trình bày như sau:
Địa điểm L1 L1 L1 L1 L1 L2 L2 L2 L2 L2 L3 L3 L3 L3 L3 L4 L4 L4 L4 L4 L5 L5 L5 L5 L5 Mức độ chín M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 Astringin Picceatannol Resveratrol 3,10 2,73 2,48 2,07 2,09 3,17 2,36 2,35 2,45 2,50 2,10 2,18 1,90 1,78 1,77 2,39 2,26 2,19 2,13 1,90 3,84 4,05 3,88 3,48 3,22 0,77 0,70 0,70 0,65 0,64 0,84 0,77 0,76 0,74 0,76 0,89 0,86 0,80 0,77 0,75 0,82 0,80 0,82 0,78 0,73 0,86 0,87 0,84 0,84 0,78 0,76 0,52 0,54 0,50 0,50 1,18 0,69 0,66 0,57 0,62 0,66 0,49 0,49 0,43 0,42 0,63 0,56 0,55 0,47 0,45 0,80 0,67 0,60 0,55 0,48
Kết luận về ảnh hưởng của của yếu tố thí nghiệm đến các chỉ tiêu nghiên cứu?
102
Thiết kế thí nghiệm
2.6.4: Một thí nghiệm được tiến hành nhằm đánh giá ảnh hưởng của axít sorbic (0, 100 và 200ppm) và nước hoạt hóa (0.98, 0.94, 0.90, 0.86, 0.82 and 0.78) đến sự tồn tại của vi khuẩn Samonelle typhimurium. Số liệu được thu thập sau 7 ngày áp dụng các nghiệm thức và được trình bày ở bảng dưới đây (số lượng vi khuẩn/ml):
Axit Sorbic
Nước hoạt hóa 0
154,881,662 234,422,882 213,796,209 100 43,651,583 61,659,500 38,904,514 200 13,803,843 8,317,638 15,488,166
4,466,836 5,011,872 1,778,279 3,311,311 1,548,817 3,235,937 2,137,962 1,513,561 2,691,535
741,310 954,993 1,380,384 102,329 190,546 602,560 158,489 125,893 269,153
114,815 223,872 102,329 70,795 89,125 19,498 25,704 25,119 61,660
70,795 20,417 33,113 19,498 26,915 15,136 18,197 18,621 23,442
0.98 0.94 0.90 0.86 0.82 0.78
20,417 21,878 15,849 13,490 24,547 15,136 8,511 13,183 14,125
Cho biết ảnh hưởng của các yếu tố thí nghiệm đến sự tồn tại của vi khuẩn Samonella?
2.6.5. Một thí nghiệm được tiến hành nhằm xác định hàm lương piceatannol trong các phần của quả xim. Tổng số 5 mẫu xim được lấy và tách thần 3 lần khác nhau (vỏ, cùi và hạt). Kết quả tách triết làm lượng piceatannol (mg/g chất khô) được trình bày như sau:
Vỏ 22,96 19,82 22,34 20,28 19,75 Cùi 20,04 17,96 21,67 23,81 18,03 Hạt 507,03 476,88 495,52 480,36 484,89
Hãy cho biết hàm lượng piceatannol ở các phần khác nhau của quả xim?
103
Chương 3 Tương quang và hồi quy
Chương 3 Tương quan và hồi quy
3.1. TƯƠNG QUAN
Tương quan được áp dụng đối với các biến định lượng và thể hiện mối liên hệ giữa 2 biến. Phân tích hồi quy được áp dụng khi cả biến phụ thuộc (số liệu thí nghiệm) có dạng biến liên tục và biến độc lập (nhân tố ảnh hưởng) cũng thuộc dạng biến liên tục.
Dựa trên lý thuyết xác suất về hệ số tương quan chúng ta có công thức sau để tính hệ số
tương quan mẫu rXY giữa hai biến ngẫu nhiên X và Y:
Ví dụ 3.1: Tiến hành cân khối lượng (P), đo đường kính lớn (D) và đường kính bé (d)
P (g)
66,80 60,10 71,20 61,60 61,20 59,00 67,90 59,00 51,50 62,60 64,20
D (mm) 58,37 54,95 60,58 56,73 57,36 53,26 57,07 58,17 52,28 55,62 56,82
d (mm) 45,12 44,35 45,56 44,34 43,57 44,86 46,27 42,82 41,91 44,95 44,79
P (g)
71,20 54,20 54,50 69,10 55,90 66,00 68,00 62,00 56,70 67,00 53,80
D (mm) 61,15 54,24 54,99 60,99 54,41 58,19 59,93 56,80 55,66 58,49 52,44
d (mm) 46,00 42,58 42,32 44,85 42,62 45,69 45,50 44,20 42,41 45,56 43,38
của 22 quả trứng gà. Số liệu thu được trình bày ở bảng dưới đây.
Cấu trúc số liệu Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 3 cột:
1) cột Khối lượng trứng C1 (P),
2) cột Đường kính lớn C2 (DKL) và
3) cột Đường kín bé C3 (DKN)
104
Thiết kế thí nghiệm
Tính hệ số tương quan giữa Khối lượng với đường kính lớn và đường kính nhỏ được thực hiện như sau:
Stat Basic Statistics Correlation...
Khai báo các biến cần tính hệ số tương quan P, DKL và DKN vào ô Variables. Kích chuột OK để có kết quả
Kết quả out put trong cửa sổ Session của Minitab:
105
Chương 3 Tương quang và hồi quy
Correlations: P, DKL, DKN P DKL DKL 0.897 0.000 DKN 0.905 0.648 0.000 0.001 Cell Contents: Pearson correlation P-Value
Trong đó: Kết quả hệ số tương quan giữa 3 biến (P, DKL và DKN); Giá trị phía trên là hệ số tương quan (r = 0,897); Giá trị phía dưới là xác suất đối với hệ số tương quan (P <0,000).
3.2. HỒI QUY
3.2.1. Hồi quy tuyến tính đơn và đa biến
Có thể xây dựng phương trình hồi quy đơn biến y = a + bx hoặc đa biến y = a + b1x1 + b2x2 + ... +bnxn. Với ví dụ sau, ta có thể xây dựng phương trình hồi tuyến tính đơn biến quy ước tính khối lượng trứng thông qua đường kính lớn/đường kính bé hoặc đa biến thông qua đường kính lớn và đường kính bé.
Ví dụ 3.1 được sử dụng lại để xây dựng phương trình hồi quy tuyến tính. Xây dựng phương trình hồi quy tuyến tính với biến phụ thuộc Y là khối lượng trứng và biến độc lập X là đường kính lớn.
Mô hình phân tích:
Y = a + bX
Trong đó: Y: Biến phụ thuộc - khối lượng trứng (g)
a: tung độ gốc (điểm chắn)
b: hệ số góc đối với biến độc lập
X: Biến độc lập - đường kính lớn (mm)
Xây dựng phương trình hồi quy tuyến tính với biến phụ thuộc Y là khối lượng trứng và biến độc lập X là đường kính lớn được thực hiện như sau:
Stat Regression Regression...
106
Thiết kế thí nghiệm
Khai báo các biến khối lượng trứng (P) vào ô Response.
Khai báo các biến đường kính lớn (DKL) vào ô Predictors. Kích chuột OK để có kết quả
Kết quả out put trong cửa sổ Session của Minitab:
Regression Analysis: P versus DKL The regression equation is P = - 53.7 + 2.04 DKL Predictor Coef SE Coef T P Constant -53.67 12.78 -4.20 0.000 DKL 2.0379 0.2250 9.06 0.000 S = 2.69651 R-Sq = 80.4% R-Sq(adj) = 79.4% Analysis of Variance Source DF SS MS F P Regression 1 596.60 596.60 82.05 0.000 Residual Error 20 145.42 7.27 Total 21 742.02 Unusual Observations Obs DKL P Fit SE Fit Residual St Resid 7 57.1 67.900 62.629 0.579 5.271 2.00R 8 58.2 59.000 64.871 0.658 -5.871 -2.25R R denotes an observation with a large standardized residual.
107
Chương 3 Tương quang và hồi quy
Trong đó: Kết quả phân tích hồi quy;
Phương trình hồi quy với biến phụ thuộc là khối lượng (Y) và biến độc lập là đường kính lớn (X) từ phần mềm Minitab thu được như sau: Khối lượng trứng = -53,67124 + 2,03786*đường kính lớn;
Các tham số ước tính và sai số tiêu chuẩn tương ứng đối với từng hệ số của phương trình hồi quy;
Giá trị xác suất P = 0,000 và P = 0,000 ta có thể kết luận các hệ số trong phương trình hồi quy khác 0 (P <0,05).
Hệ số xác định R² của mô hình (R-Square) = 80,4% và Hệ số xác định hiệu chỉnh R- square (adj) = 79,4 % và được tính bằng công thức sau:
Adj R-Sq (79,4%);
Kết quả phân tích phương sai đối với mô hình, với P <0,000 mô hình có ý nghĩa;
Các giá trị bất thường.
Xây dựng hồi quy để ước tính khối lượng trứng thông qua 2 biến độc lập là đường kính
lớn và đường kính bé với mô hình phân tích sau:
Y = a + b1X1 + b2X2
Trong đó: Y: Biến phụ thuộc - khối lượng trứng (g)
A: tung độ gốc
b1: hệ số góc đối với biến độc lập thứ nhất - đường kính lớn
b2: hệ số góc đối với biến độc lập thứ hai - đường kính bé
X1: Biến độc lập thứ nhất - đường kính lớn (mm)
X2: Biến độc lập thứ hai - đường kính bé (mm)
Xây dựng phương trình hồi quy tuyến tính với biến phụ thuộc Y là khối lượng trứng; biến độc lập X1 là đường kính lớn và X2 là đường kính nhỏ được thực hiện như sau:
Stat Regression Regression...
108
Thiết kế thí nghiệm
Khai báo các biến khối lượng trứng (P) vào ô Response.
Khai báo các biến đường kính lớn (DKL) và đường kính nhỏ (DKN) vào ô Predictors. Kích chuột OK để có kết quả
Kết quả out put trong cửa sổ Session của Minitab:
Regression Analysis: P versus DKL, DKN The regression equation is P = - 117 + 1.21 DKL + 2.48 DKN Predictor Coef SE Coef T P Constant -116.555 5.472 -21.30 0.000 DKL 1.21473 0.08323 14.60 0.000 DKN 2.4764 0.1623 15.26 0.000 S = 0.759757 R-Sq = 98.5% R-Sq(adj) = 98.4% Analysis of Variance Source DF SS MS F P Regression 2 731.05 365.53 633.24 0.000 Residual Error 19 10.97 0.58 Total 21 742.02 Source DF Seq SS DKL 1 596.60 DKN 1 134.46
Trong đó: Kết quả phân tích hồi quy;
Phương trình hồi quy với biến phụ thuộc là khối lượng (Y) và biến độc lập là đường kính lớn (X) từ phần mềm Minitab thu được như sau: Khối lượng trứng = -117 + 1,21* Đường kín lớn + 2,48 *đường kính nhỏ;
109
Chương 3 Tương quang và hồi quy
Các tham số ước tính và sai số tiêu chuẩn tương ứng đối với từng hệ số của phương trình hồi quy;
Giá trị xác suất P = 0,000 ta có thể kết luận các hệ số trong phương trình hồi quy khác 0 (P <0,05).
Hệ số xác định R² của mô hình (R-Square) = 98,5% và Hệ số xác định hiệu chỉnh R- square (adj) = 98,4 %;
Kết quả phân tích phương sai đối với mô hình, với P <0,000 mô hình có ý nghĩa;
Điều khác biệt trong trường hợp này là hệ số xác định R² = 98,5%, lớn hơn so với trường hợp đơn biến R² = 80,4%; cũng tương tự đối với hệ số xác định hiệu chỉnh 98,37% so với 79,42%.
3.2.2. Lựa chọn mô hình hồi quy tốt nhất
Với trường hợp phương trình hồi quy được xây dựng từ nhiều biến độc lập, cần phải xác định đóng góp của từng biến cho mô hình. Có những biến độc lập khi đưa vào phương trình đóng góp không đáng kể vào mô hình vì vậy cần loại bỏ khi xây dựng phương trình. Để có thể tìm được phương trình hồi quy tốt nhất cần có thêm các lệnh phụ khác.
3.2.2.1. Phương pháp Best Subset
Đây là phương pháp liệt kê tất cả các trường hợp (subset) có thể của các biến độc lập trong
mô hình thống kê kèm theo các thông tin (R2 CP và S) để lựa chọn subset tốt nhất.
Để đánh giá mức độ đóng góp của biến độc lập X1 là đường kính lớn và X2 là đường kính nhỏ với biến phụ thuộc Y là khối lượng trứng được thực hiện như sau:
Stat Regression Best Subsets...
Khai báo các biến khối lượng trứng (P) vào ô Response.
Khai báo các biến đường kính lớn (DKL) và đường kính nhỏ (DKN) vào ô Free predictors. Kích chuột OK để có kết quả
Kết quả out put trong cửa sổ Session của Minitab:
110
Thiết kế thí nghiệm
Best Subsets Regression: P versus DKL, DKN Response is P D D Mallows K K Vars R-Sq R-Sq(adj) Cp S L N 1 82.0 81.0 214.0 2.5878 X 1 80.4 79.4 233.9 2.6965 X 2 98.5 98.4 3.0 0.75976 X X
Trong đó:
Kết quả phân tích hồi quy theo phương pháp Best Subset ; Số biến độc lập trong mô hình hồi quy; Hệ số xác định R² và hệ số xác định hiệu chỉnh. Hệ số xác định và hệ số xác định hiệu chỉnh lớn nhất là mô hình tối ưu nhất; + Với 1 biến đường kính nhỏ (DKN) giải thích được 82% mức độ biến thiên của biến khối lượng trứng; + Với 1 biến đường kính lớn (DKL) giải thích được 80,4% mức độ biến thiên của biến khối lượng trứng; + Với 2 biến đường kính lớn (DKL) và đường kính nhỏ (DKN) giải thích được 98,5% mức độ biến thiên của biến khối lượng trứng; Hệ số Cp, mô hình tối có hệ số Cp thấp nhất là mô hình tốt nhất nhưng không phải là mô hình tối ưu nhất; CP: Conceptual predictive criterion (còn gọi là hệ số Mallow) được sử dụng để xác định mô hình có khả năng giải thích sự biến động lớn nhất với số biến ít nhất có thể và được
tính theo công thức Cp = p + , trong đó MSE = trung bình bình phương sai
số ngẫu nhiên của mô hình rút gọn, ² = phương sai của mô hình đầy đủ, n = dung lượng mẫu, p = tham số của mô hình rút gọn, mô hình tốt nhất khi có CP nhỏ và gần bằng p; Giá trị sai số tiêu chuẩn (S) của mô hình hồi quy. Giá trị S nhỏ nhất là mô hình tối ưu nhất; Tên các biến độc lập trong mô hình. + Với 2 biến đường kính lớn (DKL) và đường kính nhỏ (DKN): sai số tiêu chuẩn của mô hình bằng 0,76 (nhỏ nhất trong 3 mô hình). Do đó, mô hình gồm hai biến DKL và DKN là tối ưu nhất;
3.2.2.2. Phương pháp Stepwise
Để đánh giá mức độ đóng góp của biến độc lập X1 là đường kính lớn và X2 là đường kính nhỏ với biến phụ thuộc Y là khối lượng trứng được thực hiện như sau:
Stat Regression Stepwise...
111
Chương 3 Tương quang và hồi quy
Khai báo các biến khối lượng trứng (P) vào ô Response.
Khai báo các biến đường kính lớn (DKL) và đường kính nhỏ (DKN) vào ô Predictors. Kích chuột vào option Methods để lựa chọn phương pháp tính (Forward hoặc Backward)
Minitab mặc định sử dụng giá trị alpha (Use alpha values = 0,15, tức biến có giá trị xác suất P < 0,15 mới có thể thêm vào mô hình hồi quy) và phương pháp Forward và Backward (Stepwise). Tuy nhiên, sử dụng giá trị F để thay thế cho giá trị alpha (Minitab mặc định giá trị F = 4) hoặc có thể sử dụng Forward selection hoặc Backward elimination. Kích chuột OK để có kết quả
Kết quả out put trong cửa sổ Session của Minitab:
112
Thiết kế thí nghiệm
Stepwise Regression: P versus DKL, DKN Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15 Response is P on 2 predictors, with N = 22 Step 1 2 Constant -115.5 -116.6 DKN 4.01 2.48 T-Value 9.53 15.26 P-Value 0.000 0.000 DKL 1.215 T-Value 14.60 P-Value 0.000 S 2.59 0.760 R-Sq 81.95 98.52 R-Sq(adj) 81.05 98.37 Mallows Cp 214.0 3.0
Trong đó: Kết quả phân tích hồi quy bằng phương pháp Stepwise đối với biến khối lượng (P); giá trị xác suất alpha để thêm vào hoặc loại bỏ biến ra khỏi mô hình hồi quy (alpha = 0,15); Bước 1 (Step 1); đưa biến độc lập thứ nhất (DKN) vào trong mô hình với thông tin thu được R² = 81,95% và Cp = 214,0; Các tham số ước tính ở Step 1 (tọa độ gốc - 115,5 và hệ số góc đối với biến độc lập DKN = 4,01); Bước 2 (Step 2); đưa thêm biến độc lập thứ hai (DKL) vào trong mô hình với thông tin thu được R² = 98,52% và Cp = 3,0; Các tham số ước tính ở Step 2 (tọa độ gốc -116,6 và hệ số góc đối với biến độc lập DKN = 2,48 và DL = 1,215).
- Forward Selection (FORWARD) là phương pháp mà các biến độc lập lần lượt được đưa vào mô hình, mỗi lần đưa một biến vào mô hình gọi là một bước (step). Biến độc lập có giá trị xác suất P < sẽ được đưa vào trong mô hình.
Kích chuột vào option Methods để lựa chọn phương pháp tính (Forward)
113
Chương 3 Tương quang và hồi quy
Stepwise Regression: P versus DKL, DKN Forward selection. Alpha-to-Enter: 0.25 Response is P on 2 predictors, with N = 22 Step 1 2 Constant -115.5 -116.6 DKN 4.01 2.48 T-Value 9.53 15.26 P-Value 0.000 0.000 DKL 1.215 T-Value 14.60 P-Value 0.000 S 2.59 0.760 R-Sq 81.95 98.52 R-Sq(adj) 81.05 98.37 Mallows Cp 214.0 3.0
Trong đó: Kết quả phân tích hồi quy bằng phương pháp Stepwise (Forward) đối với biến khối lượng (P); giá trị xác suất alpha để thêm vào hoặc loại bỏ biến ra khỏi mô hình hồi quy (alpha = 0,25); Bước 1 (Step 1); đưa biến độc lập thứ nhất (DKN) vào trong mô hình với thông tin thu được R² = 81,95% và Cp = 214,0; Các tham số ước tính ở Step 1 (tọa độ gốc -115,5 và hệ số góc đối với biến độc lập DKN = 4,01); Bước 2 (Step 2); đưa thêm biến độc lập thứ hai (DKL) vào trong mô hình với thông tin thu được R² = 98,52% và Cp = 3,0; Các tham số ước tính ở Step 2 (tọa độ gốc -116,6 và hệ số góc đối với biến độc lập DKN = 2,48 và DL = 1,215).
114
Thiết kế thí nghiệm
- Backward Elimination (BACKWARD) là phương pháp loại bỏ dần những biến độc lập trong phương trình hồi quy (ngược lại với phương pháp Forward Selection). Biến độc lập có giá trị xác suất P > sẽ bị loại bỏ khỏi mô hình.
Kích chuột vào option Methods để lựa chọn phương pháp tính (Backward)
Stepwise Regression: P versus DKL, DKN Backward elimination. Alpha-to-Remove: 0.1 Response is P on 2 predictors, with N = 22 Step 1 Constant -116.6 DKL 1.215 T-Value 14.60 P-Value 0.000 DKN 2.48 T-Value 15.26 P-Value 0.000 S 0.760 R-Sq 98.52 R-Sq(adj) 98.37 Mallows Cp 3.0
Trong đó: Kết quả phân tích hồi quy với phương pháp Stepwise (Backward) đối với biến khối lượng (P); giá trị xác suất alpha để thêm vào hoặc loại bỏ biến ra khỏi mô hình hồi quy (alpha = 0,1); Bước 1 (Step 1); đưa tất cả các biến độc lập vào trong mô hình với
115
Chương 3 Tương quang và hồi quy
thông tin thu được R² = 98,52% và Cp = 3,0; Các tham số ước tính ở Step 1 (tọa độ gốc -116,6 và hệ số góc đối với biến độc lập DKL = 1,215 và DKN = 2,48); Không biến nào bị loại khỏi mô hình, tất cả các biến độc lập (DKL, DKN) đều có trong mô hình cuối cùng ở mức P < 0,15.
Phương pháp Stepwise chỉ dựa trên phân tích phần dư trong phân tích hồi quy bội tuyến tính để lựa chọn biến đưa vào và biến đưa ra. Để đảm bảo trong mô hình cuối cùng có mặt một số biến có ý nghĩa về mặt chuyên môn các nhà thống kê thường đưa thêm phần chọn biến bắt buộc có mặt trước khi bắt đầu việc lọc theo Stepwise.
3.2.3. Hồi quy đa thức
Mối liên hệ tuyến tính giữa các biến đã được đề cập ở phần trên. Trong sinh học mối liên hệ giữa các biến có thể tồn tại nhưng ở dưới dạng phi tuyến. Trong những trường hợp như vậy mô hình tuyến tính nêu trên sẽ không còn phù hợp.
Ví dụ 3.2: Khối lượng của gà Hồ (gram) qua các tuần tuổi (từ 0 đến 10 tuần tuổi) được
Tuần tuổi (tuần)
0
1
2
3
4
5
6
7
8
9
10
Khối lượng (gram)
35
45
72
134 199 303 374 529
672 717
899
trình bày ở bảng sau:
y = 6.6119x2 + 9.5028x + 0.5636 R² = 0.9931
) g (
y = 88.845x - 171.35 R² = 0.952
g n ợ ư l i ố h K
Tuần tuổi
Nếu thể hiện mối liên hệ giữa khối lượng và tuần tuổi bằng các điểm () trên đồ thị ta thấy mối liên hệ giữa 2 biến này không phải là tuyến tính (xem đường ---) mà có mối liên hệ phi tuyến bậc 2 (xem đường —).
Ta có mô hình phân tích: y = a + b1x + b2x²
Cấu trúc số liệu
116
Thiết kế thí nghiệm
Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 2 cột:
1) cột Tuần tuổi C1 (TT),
2) cột Khối lượng C2 (KL)
Tạo cột TT^2 C5 (TT2)
Calc Calculator...
Khai báo biến TT2 vào ô Store result in variable. Nhập công thức: TT*TT vào ô Expression.
117
Chương 3 Tương quang và hồi quy
Chọn OK để có kết quả
Stat Regression Regression...
Khai báo biến KL vào ô Response. Khai báo biến TT và TT2 vào ô Predictors. Chọn OK để có kết quả Regression Analysis: KL versus TT, TT2 The regression equation is
118
KL = 16.7 + 22.7 TT + 6.61 TT2 Predictor Coef SE Coef T P Constant 16.68 21.35 0.78 0.457 TT 22.727 9.933 2.29 0.051 TT2 6.6119 0.9567 6.91 0.000 S = 28.0230 R-Sq = 99.3% R-Sq(adj) = 99.1% Analysis of Variance Source DF SS MS F P Regression 2 905796 452898 576.73 0.000 Residual Error 8 6282 785 Total 10 912078 Source DF Seq SS TT 1 868287 TT2 1 37509
Thiết kế thí nghiệm
Trong đó: Kết quả phân tích hồi quy đối với biến phụ thuộc khối lượng (KL);
mô hình hồi quy có thể được viết như sau:
Khối lượng = 16,68 + 22,7*Tuần + 6,61*Tuần²
Adj R-Sq =
tung độ gốc (Intercept) =16,68; hệ số góc đối với biến thứ nhất (TT) = 22,7 và hệ số góc đối với biến thứ 2 (TT2) = 6,61; Xác suất đối với từng hệ số. Hệ số xác định của mô hình (R-Sq) = 99,3% (nghĩa là 99,31% biến động được giải thích bằng mô hình hồi quy); Hệ số xác định hiệu chỉnh theo các biến độc lập trong mô hình (Adj R-Sq) = 99,1%.
, trong đó R², N và p lần lượt là hệ số xác định, dung lượng
mẫu và số biến độc lập; Bảng kết quả phân tích phương sai;
119
Chương 3 Tương quang và hồi quy
3.2.4. Hồi quy phi tuyến
Ví dụ 3.3: Khối lượng của gà Hồ (gram) qua các tuần tuổi (từ 0 đến 32 tuần tuổi) được
Tuần tuổi
0
1
2
3
4
5
6
7
8
9
10
Khối lượng
35
45
72
134
199
303
374
529
672
717
899
Tuần tuổi
11
12
13
14
15
16
17
18
19
20
21
Khối lượng
933
1042
1228
1386
1541
1729
1711
1726
1771
1927
2032
Tuần tuổi
22
23
24
25
26
27
28
29
30
31
32
Khối lượng
2158
2232
2557
2632
2718
2818
2937
2960
2964
2967
2977
trình bày ở bảng sau:
Số liệu có thể phân tích theo hàm sinh trưởng Gompertz theo mô hình sau:
Y = 𝒎𝒆−𝒂𝒆−𝒃𝒙 = m * EXP [-a * EXP (-bx)]
tỷ lệ tốc độ tăng trưởng tối đa so với khối lượng trưởng thành của gà tuổi (tuần). Trong đó: khối lượng gà (g), Y = m = khối lượng tiệm cận trên – khối lượng trưởng thành (g) , a = hằng số tích hợp liên quan đến khối lượng sơ sinh (0 tuần tuổi), b = x = EXP = cơ số logarit tự nhiên e (2,71828).
Cấu trúc số liệu
120
Thiết kế thí nghiệm
Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 2 cột:
1) cột Tuần tuổi C1 (TT),
2) cột Khối lượng C2 (KL)
Stat Regression Nonlinear Regression...
Khai báo biến KL vào ô Response.
121
Chương 3 Tương quang và hồi quy
Kích chuột vào option Use Calculator của mục Expectation Funtion để khai báo mô hình hồi quy (ví dụ: Gompertz Growth).
Kích chuột vào option Parameters để khai các tham số tham số Theta1, Theta2 và Theta3
Chọn OK để có kết quả
122
Thiết kế thí nghiệm
Nonlinear Regression: KL = Theta1 * exp(-Theta2 * exp(-Theta3 * TT)) Method Algorithm Gauss-Newton Max iterations 200 Tolerance 0.00001 Starting Values for Parameters Parameter Value Theta1 2980 Theta2 4.4 Theta3 0.14 Equation KL = 3734.33 * exp(-3.86255 * exp(-0.0932028 * TT)) Parameter Estimates Parameter Estimate SE Estimate Theta1 3734.33 155.331 Theta2 3.86 0.191 Theta3 0.09 0.006 KL = Theta1 * exp(-Theta2 * exp(-Theta3 * TT)) Lack of Fit There are no replicates. Minitab cannot do the lack of fit test based on pure error. Summary Iterations 8 Final SSE 239613 DFE 30 MSE 7987.09 S 89.3705
Trong đó: Kết phân tích hồi quy phi tuyến đối với biến phụ thuộc khối lượng (KL); Giá trị xuất phát «Starting Value» », các giá trị này đưa vào mô hình dựa trên số liệu của mô hình và/hoặc các nghiên cứu tương tự. Ví dụ giá trị m = 2980 dựa vào khối lượng của gà Hồ ở tuần tuổi 32 (2977g), giá trị a và b lấy từ kết quả nghiên cứu của (Nassim et al. 2011); Mô hình hồi quy phi tuyến để ước tính khối lượng gà Hồ như sau:
Khối lượng = 3734,33 * exp(-3,86 * exp(-0,09 * tuần))
Các tham số ước tính (Theta1 = 3734,33; Theta2 = 3,86 và Theta3 = 0,09) và sai số tiêu chuẩn ước tính (SE Estimate);
Tuổi tại điểm uốn xPI = ln(a)/b = ln(3,8625)/0,0932 = 14,5 tuần Khối lượng gà Hồ tại điểm uốn YPI = m/e = 3734;3/2,71828 = 1373,77 g Tăng khối lượng tuyệt đối (g/tuần) tại điểm uốn: MWGPI = mb/e = 3734.3*0.0932/2,71828 = 128 g.
Đồ thị mô hình sinh trưởng của gà Hồ theo tuần tuổi.
123
Chương 3 Tương quang và hồi quy
3.2.5. Hồi quy Logistic
Hồi quy logistic có thể sử dụng để đánh giá ảnh hưởng của yếu tố nghiên cứu đến tỷ lệ mắc bệnh. Trong trường này biến phụ thuộc là biến định tính và biến độc lập là biến liên tục. Ví dụ dưới đây minh họa việc sử dụng mô hình hồi quy logit để phân tích số liệu định tính. Ví dụ 3.4: Một thí nghiệm nhằm nghiên cứu ảnh hưởng của tuổi đẻ lần đầu (tháng) đến tỷ lệ viêm vú ở bò. Số liệu thu thập trên 21 bò về tình trạng viêm vú (0 = không mắc bệnh và 1= mắc bệnh) như sau:
1 19 2 20 3 20 4 20 5 21 6 21 7 21 8 22 9 22 10 22 11 23
1 12 26 1 13 27 0 14 27 1 15 27 0 16 27 1 17 29 1 18 30 1 19 30 1 20 31 0 21 32 1
Bò số Tuổi (tháng) Viêm vú Bò số Tuổi (tháng) Viêm vú 1 0 1 0 0 1 0 0 0 0 Số liệu có thể phân tích theo phương trình hồi quy logit sau: log[pi /(1-pi)] = β0 + β1xi Trong đó:
tỷ lệ mắc bệnh của bò thứ i, tuổi đẻ lần đầu của bò thứ i,
pi = xi = 0 = hệ số tung độ gốc, hệ số góc. 1 =
Cấu trúc số liệu
124
Thiết kế thí nghiệm
Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 2 cột:
1) cột Tuần tuổi C1 (TT),
2) cột Viêm C2 (VIEM)
Stat Regression Binary Logistic Regression...
Khai báo biến VIEM vào ô Response.
125
Chương 3 Tương quang và hồi quy
Khai báo biến TT vào ô Model. Kích chuột vào option Prediction và khai báo biến TT vào ô Predicted event proabilities for new observations để lấy xác suất dự báo, sai số tiêu chuẩn và khoảng tin cậy
Chọn OK để có kết quả Binary Logistic Regression: VIEM versus TT Link Function: Logit Response Information Variable Value Count VIEM 1 11 (Event) 0 10 Total 21 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 6.74392 3.26397 2.07 0.039 TT -0.270079 0.131468 -2.05 0.040 0.76 0.59 0.99 Log-Likelihood = -11.921 Test that all slopes are zero: G = 5.223, DF = 1, P-Value = 0.022 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 6.56585 9 0.682 Deviance 7.88565 9 0.546 Hosmer-Lemeshow 3.29593 6 0.771 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
126
Group Value 1 2 3 4 5 6 7 8 Total 1 Obs 0 0 2 2 2 2 2 1 11 Exp 0.3 0.4 1.7 1.1 2.1 2.2 2.4 0.8 0 Obs 2 2 3 0 1 1 1 0 10 Exp 1.7 1.6 3.3 0.9 0.9 0.8 0.6 0.2 Total 2 2 5 2 3 3 3 1 21 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 80 72.7 Somers' D 0.54 Discordant 21 19.1 Goodman-Kruskal Gamma 0.58 Ties 9 8.2 Kendall's Tau-a 0.28 Total 110 100.0 Predicted Event Probabilities for New Observations New Obs Prob SE Prob 95% CI 1 0.833747 0.122317 (0.470752, 0.965841) 2 0.792875 0.127699 (0.454699, 0.946160) 3 0.792875 0.127699 (0.454699, 0.946160) 4 0.792875 0.127699 (0.454699, 0.946160) 5 0.745027 0.129559 (0.434262, 0.917512) 6 0.745027 0.129559 (0.434262, 0.917512) 7 0.745027 0.129559 (0.434262, 0.917512) 8 0.690442 0.128282 (0.407529, 0.878528) 9 0.690442 0.128282 (0.407529, 0.878528) 10 0.690442 0.128282 (0.407529, 0.878528) 11 0.629974 0.125509 (0.372110, 0.830248) 12 0.430913 0.131203 (0.209696, 0.683629) 13 0.366280 0.138140 (0.152564, 0.649812) 14 0.366280 0.138140 (0.152564, 0.649812) 15 0.366280 0.138140 (0.152564, 0.649812) 16 0.366280 0.138140 (0.152564, 0.649812) 17 0.251926 0.145214 (0.069230, 0.603925) 18 0.204493 0.142315 (0.044231, 0.588122) 19 0.204493 0.142315 (0.044231, 0.588122) 20 0.164033 0.135160 (0.027642, 0.575259) 21 0.130267 0.124745 (0.017013, 0.564488) Values of Predictors for New Observations New Obs TT 1 19 2 20 3 20 4 20 5 21 6 21 7 21 8 22 9 22 10 22 11 23 12 26 13 27 14 27 15 27 16 27 17 29 18 30 19 30
Thiết kế thí nghiệm
127
Chương 3 Tương quang và hồi quy
20 31 21 32 Trong đó: Kết phân tích hồi quy Logistic đối với biến VIEM; Tần suất quan sát của biến Viêm (1: có viêm = 11 con và 0: không viêm = 10 con) Hệ số hồi quy 0 = 6.74392 và 1 = -0.2701; Giá trị xác suất của từng hệ số; Tỷ suất chênh (OR = 0,76); Khoảng tin cậy (95%) của tỷ suất chênh; Xác suất P=0,022 nên kết luận tuổi đẻ lứa đầu có ảnh đến tỷ lệ mắc bệnh viêm vú ở bò; Xác xuất dự báo viêm theo tuổi đẻ lứa đầu; Sai số tiêu chuẩn của xác suất dự báo và Khoảng tin cậy của xác xuất dự báo.
3.3. Phương pháp bề mặt đáp ứng Phương pháp bề mặt đáp ứng (Response Surface Methodology) thường được sử dụng để tối ưu hóa các yếu tố/điều kiện trong sản xuất và chế biến. Đây là phương pháp được sử dụng rộng rãi trong các ngành như công nghiệp, chế biến thực phẩm, dinh dưỡng thức ăn. Ví dụ 3.5: Một nghiên cứu được tiến hành nhằm xác định ảnh hưởng của 3 yếu tố thí nghiệm (Nồng độ ethanol, nhiệt độ và thời gian chiết xuất) đến hàm lượng piceatannol thu được quả xim.Số liệu thu được như sau:
STT
Biến mã hóa x2
x3
x1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
1 1 1 -1 1 -1 1 -1 1 -1 -1 -1 1.68 -1.68 0 0 0 0 0 0 0
1 1 1 1 -1 -1 1 1 -1 -1 -1 -1 0 0 1.68 -1.68 0 0 0 0 0
Biến thực X1 EtOH (%) X2 T(°C) X3 Time (min) 85 85 85 85 85 85 25 25 25 25 25 25 55 55 55 55 105.4 4.6 55 55 55
80 80 80 40 80 40 80 40 80 40 40 40 93.6 26.4 60 60 60 60 60 60 60
85 85 85 85 45 45 85 85 45 45 45 45 65 65 98.6 31.4 65 65 65 65 65
1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 0 0 0 0 1.68 -1.68 0 0 0
Piceatannol (mg/g DW) 7.30 6.92 6.96 5.62 5.85 3.47 6.74 5.90 5.37 3.99 3.91 3.91 6.34 3.33 6.18 4.33 5.58 5.82 5.82 6.42 6.56
128
Thiết kế thí nghiệm
Hảy xác định mức độ tối ưu của tỷ lệ ethanol (%), nhiệt độ (°C) và thời gian để tách chiết (phút) để tách được nhiều nhất hàm lượng Piceatannol trong hạt xim?
Cấu trúc số liệu
Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 4 cột:
1) cột Hàm lượng Piceatannol C1 (P),
2) cột Nồng độ Ethanol C2 (E)
129
Chương 3 Tương quang và hồi quy
3) cột Nhiệt độ C3 (T)
4) cột Thời gian C4 (Time)
Stat DOE Response Surface Analyze Response Surface Design...
Chọn Low/High…
Các giá trị Low và High trong hình chính là các giá trị min và max trong file số liệu tương ứng với từng yếu tố. Các giá trị này sẽ tự động cập nhật vào cửa sổ này. Lưu ý chọn Uncoded nếu sử dụng biến thực và Coded nếu sử sử dụng biến mã hóa.
130
Thiết kế thí nghiệm
Xác nhận OK để đóng cửa sổ lại
Cửa sổ Analyze Response Surface Design Cử sổ Term để chọn các mô hình
Theo mạc định sẽ có mô hình Full quadratic; ngoài ra có thể chọn các mô hình khác như; linear, linear + squares và linear + interactions. Kết quả Analyze Response Surface Design Response Surface Regression: P versus E, T, Time The analysis was done using coded units. Estimated Regression Coefficients for P Term Coef SE Coef T P Constant 6.24574 0.1792 34.856 0.000 E 1.38643 0.1300 10.667 0.000 T 1.22036 0.1300 9.389 0.000 Time -0.02950 0.1300 -0.227 0.825 E*E -1.23398 0.2602 -4.742 0.001 T*T -0.81398 0.2602 -3.128 0.010 Time*Time -0.36898 0.2602 -1.418 0.184 E*T -0.48229 0.2813 -1.714 0.114 E*Time 0.60433 0.2813 2.148 0.055 T*Time 0.06808 0.2813 0.242 0.813 S = 0.311062 PRESS = 5.10351 R-Sq = 96.46% R-Sq(pred) = 83.04% R-Sq(adj) = 93.57%
131
Chương 3 Tương quang và hồi quy
Analysis of Variance for P Source DF Seq SS Adj SS Adj MS F P Regression 9 29.0272 29.0272 3.2252 33.33 0.000 Linear 3 25.9105 25.9105 8.6368 89.26 0.000 E 1 17.1523 11.0100 11.0100 113.79 0.000 T 1 8.7533 8.5304 8.5304 88.16 0.000 Time 1 0.0050 0.0050 0.0050 0.05 0.825 Square 3 2.4977 2.5200 0.8400 8.68 0.003 E*E 1 1.5470 2.1762 2.1762 22.49 0.001 T*T 1 0.7703 0.9469 0.9469 9.79 0.010 Time*Time 1 0.1804 0.1946 0.1946 2.01 0.184 Interaction 3 0.6190 0.6190 0.2063 2.13 0.154 E*T 1 0.1215 0.2844 0.2844 2.94 0.114 E*Time 1 0.4918 0.4465 0.4465 4.61 0.055 T*Time 1 0.0057 0.0057 0.0057 0.06 0.813 Residual Error 11 1.0644 1.0644 0.0968 Lack-of-Fit 5 0.6638 0.6638 0.1328 1.99 0.213 Pure Error 6 0.4005 0.4005 0.0668 Total 20 30.0916 Estimated Regression Coefficients for P using data in uncoded units Term Coef Constant -6.32384 E 0.180566 T 0.153471 Time -0.00863201 E*E -0.00109302 T*T -7.20998E-04 Time*Time -1.45258E-04 E*T -4.27199E-04 E*Time 0.000356867 T*Time 4.02006E-05 Nghiên cứu ảnh hưởng tương tác của các yếu tố thí nghiệm đến hàm lượng Piceatannol thông qua mặt đáp ứng Stat DOE Response Surface Contour/Surface Plot...
132
Thiết kế thí nghiệm
Tối ưu hóa điều kiện chiết xuất Stat DOE Response Surface Response Optimizer
Khai báo biến mục tiêu Piceatannol Đặt Starting value cho các yếu tố
Đặt các giá trị cho biến mục tiêu Piceatannol
133
Chương 3 Tương quang và hồi quy
Kết quả phân tích tối ưu Response Optimization Parameters Goal Lower Target Upper Weight Import P Maximum 3.33 7.3 7.3 1 1 Starting Point E = 26.4 T = 31.5 Time = 4.6 Global Solution E = 78.6667 T = 85.0242 Time = 78.9273 Predicted Responses P = 6.99511 , desirability = 0.923201 Composite Desirability = 0.923201 Như vậy điều kiện tối ưu để tách chiết piceatannol từ hạt quả xim là: Ethanol nồng độ: 78.67% Nhiệt độ: 85.02°C Thời gian: 78.93 phút
3.4. BÀI TẬP 3.4.1: Một nghiên cứu được tiến hành nhằm nhằm tối ưu hóa điều kiện chiết polyphenol từ lá ổi. Bốn nhân tố chính ảnh hưởng đến quá trình chiết polyphenol từ lá ổi được nghiên cứu bao gồm: (1) nhiệt độ, (2) thời gian, (3) tỉ lệ dung môi chiết/nguyên liệu và (4) nồng độ dung môi chiết. Số liệu thu được trình bày ở bảng dưới đây. Anh (chị) hãy tìm điều kiện tối ưu để chiết xuất polyphenol trong lá ổi.
134
Biến thực
STT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Nhiệt độ 60 60 60 60 60 60 60 60 80 80 80 80 80 80 80 80 50 90 70 70 70 70 70 70 70 70 70
thời gian 60 60 60 60 80 80 80 80 60 60 60 60 80 80 80 80 70 70 50 90 70 70 70 70 70 70 70
tỉ lệ nguyên liệu/dung môi 40 40 60 60 40 40 60 60 40 40 60 60 40 40 60 60 50 50 50 50 30 70 50 50 50 50 50
nồng độ ethanol 40 60 40 60 40 60 40 60 40 60 40 60 40 60 40 60 50 50 50 50 50 50 30 70 50 50 50
Polyphenol (mg/g chất khô) 134,83 145,35 152,74 149,66 150,43 148,79 157,38 155,35 172,87 162,93 182,21 185,76 180,30 181,47 191,70 185,90 141,68 217,63 154,21 165,67 161,22 176,57 154,12 138,75 166,32 163,95 162,02
Thiết kế thí nghiệm
135
Chương 4 Kiểm định và so sánh tỷ lệ
Chương 4 Kiểm định và so sánh tỷ lệ
4.1. So sánh tỷ lệ
Khi so sánh các tỷ lệ hoặc nghiên cứu mối liên hệ giữa các yếu tố đối với biến định tính ta luôn đặt giả thiết H0: Không có sự sai khác có ý nghĩa thống kê giữa các tỷ lệ hoặc không có mối liên hệ giữa các yếu tố (tuỳ theo mục tiêu của bài toán đặt ra).
Viêm nội mạc tử cung
Giống
Tổng số
Có
Không
Holstein
100
400
500
Jersey
10
190
200
Tổng số
110
590
700
Ví dụ 4.1: Một thí nghiệm được tiến hành nhằm đánh giá sự liên hệ giữa tỷ lệ viêm nội mạc tử cung và giống. Trong tổng số 700 bò sữa trong nghiên cứu thuần tập (cohort studies), có 500 con giống Holstein Friesian và 200 con giống Jersey. Kết quả nghiên cứu thu được như sau:
Cấu trúc số liệu Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 3 cột:
1) cột Giống bò C1 (GIONG),
2) cột Kết quả C2 (KETQUA) và 3) cột Tần suất quan sát C3 (TANSUAT)
Stat Tables Cross Tabulation and Chi-Square...
136
Thiết kế thí nghiệm
Khai báo biến GIONG vào ô For rows.
Khai báo biến KETQUA vào ô For columns.
Khai báo biến TANSUAT vào ô Frequencies are in. Kích chuột vào ô Counts của phần Display để có kết quả về tần suất quan sát
Kích chuột Row percents của phần Display để có kết quả về tỷ lệ phần trăm theo hàng
Kích chuột vào option Chi-Square và chọn ô Chi-Square analysis
Kích chuột OK để có kết quả
Tabulated statistics: GIONG, KETQUA Using frequencies in TANSUAT Rows: GIONG Columns: KETQUA - + All H 400 100 500
137
Chương 4 Kiểm định và so sánh tỷ lệ
80.00 20.00 100.00 J 190 10 200 95.00 5.00 100.00 All 590 110 700 84.29 15.71 100.00 Cell Contents: Count % of Row Pearson Chi-Square = 24.268, DF = 1, P-Value = 0.000 Likelihood Ratio Chi-Square = 29.054, DF = 1, P-Value = 0.000
theo hàng); Giá trăm
Trong đó, kết quả phân tích của bảng tương liên với biến hàng: GIONG và biến cột: KETQUA giải thích các giá trị tương ứng trong mỗi ô theo thứ tự từ trên xuống dưới (Count: tần suất quan sát, %, of Row: phần trị Chi-Square ² = 24,2681 (được tính bằng phương pháp của Pearson); bậc tự do df = 1; xác suất của phép thử P = 0,000. Với xác suất này giả thiết H0 bị bác bỏ và kết luận Có mối liên hệ giữa bệnh viêm nội mạc tử và giống bò (P <0,001).
Lưu ý: Đối với trường hợp mẫu bé (tần suất ước tính <5), thể thay thế phép thử
² bằng phép thử Fisher exact test.
Kết quả
Thuốc
Tổng số
Sống
Chết
Vác xin
9
1
10
Đối chứng
2
8
10
Tổng số
11
9
20
Ví dụ 4.2: Từ một đàn vật nuôi trước khi cho tiếp xúc với nguồn bệnh, chọn ra 10 con tiêm vác xin và 10 con không tiêm (đối chứng). Số động vật này sau khi cho tiếp xúc với nguồn bệnh kết quả thu được như sau:
Cấu trúc số liệu Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 3 cột:
1) cột Thuốc C1 (THUOC),
2) cột Kết quả C2 (KETQUA) và 3) cột Tần suất quan sát C3 (TANSUAT)
138
Thiết kế thí nghiệm
Stat Tables Cross Tabulation and Chi-Square...
Khai báo biến THUOC vào ô For rows.
Khai báo biến KETQUA vào ô For columns.
Khai báo biến TANSUAT vào ô Frequencies are in. Kích chuột vào ô Counts của phần Display để có kết quả về tần suất quan sát
Kích chuột Row percents của phần Display để có kết quả về tỷ lệ phần trăm theo hàng
Kích chuột vào option Other Stats và chọn ô Fisher’s exact test for 2x2 tables
139
Chương 4 Kiểm định và so sánh tỷ lệ
Kích chuột OK để có kết quả
Tabulated statistics: THUOC, KETQUA Using frequencies in TANSUAT Rows: THUOC Columns: KETQUA - + All DC 8 2 10 80 20 100 VAC 1 9 10 10 90 100 All 9 11 20 45 55 100 Cell Contents: Count % of Row Fisher's exact test: P-Value = 0.0054775
Trong đó, kết quả phân tích của bảng tương liên với biến hàng: THUOC và biến cột: KETQUA giải thích các giá trị tương ứng trong mỗi ô theo thứ tự từ trên xuống dưới (Count: tần suất quan sát, %, of Row: phần trăm theo hàng); xác suất được tính bằng phương pháp chính xác của Fisher P = 0,0054775. Với xác suất này giả thiết H0 bị bác bỏ và kết luận Có mối liên hệ giữa tiêm vác xin hay không tiêm vác xin với tỷ lệ chết (P <0,01).
4..2. Kiểm định sự phù hợp
Phần này tập trung giới thiệu kiểm định định luật Mendel hay Hardy-Weinberg trong di
truyền bằng phép thử ² hay phép thử chính xác của Fisher.
Ví dụ 4.3a: Tần số kiểu gen AA, AB và BB của đa hình T3737C gen insulin ở gà Hồ lần lượt là 42, 13 và 0. Tần số kiểu gen của đa hình T3737C gen insulin ở gà Hồ có tuân theo định luật Hardy-Weinberg?
Từ số liệu nêu trên ta có thể ước tính được:
140
Kiểu gen
AA
AB
BB
Tổng số
Giá trị quan sát
42
13
0
55
Tần suất ước tính
1
0,882² = 0,778 (p²)
2 * 0,882 * 0,118 = 0,208 (2pq)
0,118² = 0,014 (q²)
Giá trị ước tính
55 * 0,88 = 42,77 2 * 55 * 0,882 * 0,118 =11,46
55 * 0,014 = 0,77
55
Thiết kế thí nghiệm
Tần suất ước tính được xác định từ tấn số allen A (PA) và B (PB).
PB = 1 – 0,882 = 0,118
² = (42 – 42,77)²/42,77 + (13 – 11,46)²/11,46 + (0 – 0,77)²/0,77 = 0,9973 với bậc tự do
df = 3 – 1 = 2. Giá trị xác suất của phép thử p = 0,6073 (đối với kiểm định ²).
Cấu trúc số liệu Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 3 cột:
1) cột Kiểu gen C1 (KG),
2) cột Tần suất quan sát C2 (TS1) và 3) cột Tần suất ước tính lý thuyết C3 (TS2)
Stat Tables Chi-Square Goodness of Fit Test...
141
Chương 4 Kiểm định và so sánh tỷ lệ
Khai báo biến TS1 vào ô Observed counts.
Khai báo biến KG vào ô Categorical names (optional).
Khai báo biến TS2 vào ô Specific proportions. Kích chuột OK để có kết quả
Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: TS1 Using category names in KG Test Contribution Category Observed Proportion Expected to Chi-Sq AA 42 0.778 42.79 0.014585 AB 13 0.208 11.44 0.212727 BB 0 0.014 0.77 0.770000 N DF Chi-Sq P-Value 55 2 0.997312 0.607 WARNING: 1 cell(s) (33.33%) with expected value(s) less than 1. Chi-Square approximation probably invalid. 1 cell(s) (33.33%) with expected value(s) less than 5.
Trong đó Kết quả phân tích sự phù hợp giữa thực tế và lý thuyết; Kiểu gen; Tần suất quan sát tương ứng với tứng kiểu gen; Phần trăm lý thuyết (tỷ lệ cần kiểm định); Phần trăm tương ứng của từng kiểu gen; bậc tự do df = 2; Giá trị Chi-Square ² = 0,997312; xác suất bằng phép thử ² là P = 0,607. Kết luận: Tần suất kiểu gen của đa hình T3737C gen insulin ở gà Hồ tuân theo định luật Hardy-Weinberg (P = 0,607).
142
Thiết kế thí nghiệm
Chương 5 Phân tích phương sai phi tham số
Phân tích phương sai phi tham số được sử dụng khi số liệu không có phân bố chuẩn và cũng không thể biến đổi thành dạng phân phối chuẩn được. Muốn so sánh 2 công thức: sử dụng phương pháp thống kê phi tham số Wilcoxon, nhiều công thức: Kruskal-Wallis và có thể sử dụng Friedman đối với thí nghiệm 2 nhân tố chéo nhau. Nếu trong phần thống kê tham số (đã nêu trên) tập trung vào so sánh các giá trị trung bình, thì trong phần thống kê phi tham số sẽ tiến hành so sánh các trung vị (median) với nhau. Ví dụ sau đây sẽ được sử dụng để minh họa sử dụng thống kê phi tham số trên phần mềm Minitab.
0
0,04
0,07
0,10
0,13
228
186
179
130
154
229
229
193
87
130
218
220
183
135
130
216
208
180
116
118
224
228
143
118
118
208
198
204
165
104
235
222
114
151
112
229
273
188
59
134
233
216
178
126
98
219
198
134
64
100
224
213
208
78
104
220
196
94
232
150
200
160
208
122
232
110
178
Ví dụ 5.1: Thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của gossypol (một lại phenol tự nhiện có trong hạt bông) đến tăng khối lượng của vật nuôi. Có 5 mức gossypol khác nhau lần lượt là: 0; 0,04; 0,07; 0,1; 0,13. Số liệu thu được như sau:
Giả thiết H0: 1 = 2 = = t, (các trung vị của quần thể bằng nhau)
Giả thiết H0: 1 ≠ 2 ≠ ≠ t, (các trung vị của quần thể không bằng nhau)
Cấu trúc số liệu Số liệu được nhập vào trong cửa sổ Worksheet của phần mềm Minitab; bao gồm 2 cột:
1) cột Khối lượng C1 (KL),
2) cột Công thức thí nghiệm C2 (CT) 143
Chương 5 Phân tích phương sai phi tham số
Sử dụng phân tích phương sai một nhân tố (One – Way ANOVA) và kiểm tra phân bố chuẩn của cột phần dư (RESIDUALS) cho kết quả như sau:
144
Thiết kế thí nghiệm
Với giá trị xác suất P = 0,036 < 0,05 nên biến số nghiên cứu không tuân theo phân bố chuẩn. Do đó việc sử dụng phân tích phương sai (One – Way ANOVA) không có ý nghĩa.
Trong trường hợp này, phân tích thống kê phi tham số được thực hiện để so sánh các nghiệm thức nêu trên.
Stat Nonparametric Kruskal – Wallis ...
Khai báo biến KL vào ô Response.
Khai báo biến CT vào ô Factor. Kích chuột OK để có kết quả
Kruskal-Wallis Test: KL versus CT Kruskal-Wallis Test on KL CT N Median Ave Rank Z 0 16 224.0 55.7 5.10 0,04 11 216.0 50.5 3.06 0,07 12 181.5 33.0 -0.20 0,10 17 122.0 16.2 -4.36 0,13 11 118.0 14.7 -3.60 Overall 67 34.0 H = 52.63 DF = 4 P = 0.000 H = 52.67 DF = 4 P = 0.000 (adjusted for ties)
Trong đó: Kết quả phân tích thống kê phi tham số; Các công thức thí nghiệm; Dung lượng mẫu tương ứng với từng công thức; Các giá trị trung vị tương ứng với từng công thức; Trung bình thứ hạng tương ứng với từng công thức; xác suất P = 0,000 nên có thể kết luận: Các trung vị không bằng nhau hay nói cách khác tăng khối lượng trung bình có sự sai khác giữa các mức bổ sung.
145