Luận văn Thạc sĩ Khoa học lâm nghiệp: Phân tích và xử lý số liệu cho một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự trợ giúp của phần mềm SPSS và phần mềm R

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:109

Thêm vào BST

Báo xấu

25
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn này nghiên cứu xây dựng được các quy trình xử lý và phân tích dữ liệu bằng SPSS trong một số thí nghiệm điển hình, thông dụng trong lâm nghiệp. Đưa ra phương pháp bố trí thí nghiệm hợp lý cho một số thí nghiệm trong lâm nghiệp. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học lâm nghiệp: Phân tích và xử lý số liệu cho một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự trợ giúp của phần mềm SPSS và phần mềm R

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT TRƯỜNG ĐẠI HỌC LÂM NGHIỆP ------------------------ NGUYỄN VIỆT HƯNG Ph©n tÝch vµ xö lý sè liÖu cho mét sè m« h×nh thÝ nghiÖm th«ng dông trong l©m nghiÖp víi sù trî gióp cña phÇn mÒm SPSS vµ phÇn mÒm R LUẬN VĂN THẠC SỸ KHOA HỌC LÂM NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC: GS. TS. NGUYỄN HẢI TUẤT Hà Nội - 2011
1 ĐẶT VẤN ĐỀ Ứng dụng công nghệ tin học đóng vai trò quan trọng trong nghiên cứu, quản lý tài nguyên thiên nhiên. Thông qua phân tích, thống kê dữ liệu trên các phần mềm giúp chúng ta hệ thống hóa cơ sở dữ liệu, đánh giá các thí nghiệm, phân tích các mối quan hệ phức tạp trong tự nhiên và với các nhân tố xã hội để tìm ra quy luật nhằm quản lý bền vững hoặc đưa ra được những phát hiện mới. Xử lý thống kê thông qua công nghệ tin học ngày nay đã phát triển một bước dài, nó giúp cho con người rút ngắn được thời gian tính toán, xử lý được một lượng lớn thông tin và có được những hiểu biết một cách khách quan các quy luật tự nhiên và xã hội. Chính vì vậy, việc sử dụng các phần mềm trong công tác nghiên cứu khoa học, quản lý và phân tích trong tất cả các lĩnh vực nói chung và trong ngành lâm nghiệp nói riêng là điều không phải bàn cãi. Do nhiều nguyên nhân khác nhau, việc áp dụng các tiến bộ về tin học trong lâm nghiệp còn có nhiều hạn chế, đặc biệt là trong nghiên cứu và phân tích thí nghiệm khoa học. Có thể nhận thấy các nghiên cứu có sử dụng đến các biện pháp thí nghiệm trong lâm nghiệp thường tập trung chủ yếu vào các nghiên cứu về lâm sinh, giống và trồng rừng... các thí nghiệm trong lĩnh vực này thường có những dung lượng mẫu, số liệu điều tra nghiên cứu và các công thức thí nghiệm đa dạng, có những nghiên cứu sau khi thu thập xong số liệu sử dụng nhiều phần mềm khác nhau để xử lý và phân tích số liệu. Vì lý do này mà việc xây dựng quy trình xử lý và phân tích số liệu trong các thí nghiệm trước đây thường rời rạc ở một số công đoạn mà chưa phải là toàn bộ quá trình. Chính vì vậy, việc xây dựng được quy trình xử lý và phân tích số liệu bằng một phần mềm duy nhất là một điều cần thiết. Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông dụng như SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những phần mềm được các công ti phần mềm phát triển và giới thiệu trên thị trường khoảng ba thập niên qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Trong số các phần mềm này, phần mềm đã và đang được sử dụng rộng rãi tại Việt Nam nói chung và trong
2 ngành, trong trường Lâm nghiệp nói riêng là phần mềm SPSS.[17]. Tuy nhiên, đứng trên khía cạnh bản quyền, để sử dụng các phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu thống kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ trương mã nguồn mở, sao cho tất cả các thành viên trong ngành thống kê học và toán học trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn miễn phí.[17]. Phần mềm hoàn toàn miễn phí được nói tới ở đây chính là phần mềm R. Xuất phát từ những lý do trên, tôi đã tiến hành thực hiện đề tài: “Phân tích và xử lý số liệu cho một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự trợ giúp của phần mềm SPSS và phần mềm R” làm luận văn tốt nghiệp. Kết quả nghiên cứu của đề tài sẽ giúp cho công tác xử lý, phân tích số liệu một số mô hình thí nghiệm thông dụng trong lâm nghiệp được rút ngắn và có tính hoa học hơn.
3 Chương 1 TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1. Tổng quan về các nghiên cứu thí nghiệm trong lâm nghiệp Theo nghĩa rộng của quan điểm triết học duy vật: “Thí nghiệm là một phần của sự nghiệp sản xuất trong xã hội loài người, nhằm khám pháp ra các quy luật khách quan của thế giới vật chất với mục đích nắm vững và bắt các điều bí mật của thiên nhiên phục vụ cho cuộc sống con người”. [1] Như chúng ta đã biết, từ cổ xưa loài người đã phải kiếm ăn để sinh sống, do đó, con người phải biết lựa chọn, so sánh để tìm kiếm thức ăn. Song cũng chính từ đó mà họ đã tạo ra một kho tàng các kinh nghiệm quý báu thúc đẩy xã hội phát triển. Khi xã hội tiến lên đòi hỏi con người cũng phải nắm bắt, vận dụng các quy luật khách quan của tự nhiên có hiệu quả hơn. Muốn làm được điều này cần phải có phương pháp và từ đó phương pháp thí nghiệm ra đời. [1] Nghiên cứu khoa học nói chung và khoa học lâm nghiệp nói riêng hay cụ thể hơn là nghiên cứu khoa học trong lĩnh vực lâm học phụ thuộc rất mật thiết với điều kiện tự nhiên và các điều kiện kinh tế - xã hội, nên việc vận dụng các phương pháp và kết quả nghiên cứu của các nước trên thế giới có tính kế thừa, chọn lọc cho phù hợp với điều kiện cụ thể của Việt Nam là rất cần thiết. Ngay trong phạm vi của đất nước chúng ta không thể có tính đồng nhất về các điều kiện cụ thể cho các thực nghiệm lâm nghiệp.Vậy nhiệm vụ của các nhà khoa học lâm nghiệp là phải nghiên cứu, đề xuất được những biện pháp kỹ thuật thích hợp cho vùng nơi mình phụ trách nhằm khai thác bền vững, hiệu quả các điều kiện ấy. Để có kết quả nghiên cứu đúng và khách quan cần phải có kiến thức tổng hợp: Toán học, hóa học, thổ nhưỡng, khí tượng, sinh học... và cả tính sáng tạo đúng đắn. Trên thực tế có nhiều cách để phân loại các thí nghiệm trong lâm nghiệp, phân loại có thể dựa vào đặc điểm đối tượng thí nghiệm hoặc địa điểm tiến hành thí nghiệm. Dựa vào đặc điểm đối tượng thí nghiệm chia thí nghiệm thành 2 loại: + Thí nghiệm quan sát: ta chỉ đơn thuần quan sát các đối tượng thí nghiệm và ghi lại các dữ liệu liên quan đến các tính trạng quan tâm. Chúng ta không tác
4 động để can thiệp và sự tồn tại của đối tượng quan sát. Trong loại thí nghiệm quan sát, các đối tượng không thể bố trí một các ngẫu nhiên về các nghiệm thức.[2] + Thí nghiệm thực nghiệm: chúng ta can thiệp vào nghiên cứu bằng cách áp dụng các công thức thí nghiệm khác nhau cho các nhóm đối tượng nghiên cứu. Sau đó chúng ta tiến hành quan sát ảnh hưởng của các công thức thí nghiệm lên đối tượng nghiên cứu. Đối với loại thí nghiệm này, các động vật được bố trí một cách ngẫu nhiên đối với các công thức thí nghiệm trong quá trình thiết kế.[2] Dựa vào địa điểm tiến hành thí nghiệm, người ta có thể chia thí nghiệm thành các loại sau: 1. Nhóm thí nghiệm nghiên cứu trong phòng Đây là loại nghiên cứu mà những thí nghiệm được thực hiện trong các phòng thí nghiệm, điều kiện để thực hiện được các thí nghiệm đó gồm các loại dụng cụ như: hóa chất, các máy móc phân tích, các bình, hộp, khay đựng. Nhóm các thí nghiệm này hầu như độc lập với điều kiện tự nhiên của môi trường bên ngoài. Cho nên các kết quả từ các thí nghiệm này được kiểm tra, điều khiển bằng các dụng cụ có độ chính xác cao. Tuy nhiên, những số liệu này chưa được áp dụng vào thực tế. Bởi vì, ở những môi trường nghiên cứu khác mà nhất là trên thực địa thì có rất nhiều nhân tố sinh thái ảnh hưởng tới sinh vật (cây trồng). Hơn nữa, có nhiều nhân tố khó có thể kiểm soát cụ thể và chính xác. 2. Nhóm thí nghiệm trong vườn ươm Các thí nghiệm thuộc nhóm phương pháp nghiên cứu này có đối tượng nghiên cứu là các cây trồng được gieo trồng trên bầu, túi, chậu... trong vườn ươm, nhà lưới, nhà kính. Về điều kiện thì đối với nhóm này cây trồng đã được sống trong một phần là điều kiện tự nhiên, còn một phần là điều kiện nhân tạo. 3. Nhóm thí nghiệm bố trí thực địa Trong ngành nông nghiệp phương pháp này được gọi là nghiên cứu trên “đồng ruộng”. Nhóm nghiên cứu này bao gồm những thí nghiệm mà cây trồng được sống trong điều kiện tự nhiên. Do đó, nó chịu sự chi phối của nhiều nhân tố (gọi là
5 các nhân tố sinh thái) từ môi trường bên ngoài, những nhân tố đó là: Điều kiện thời tiết, đất đai, các biện pháp kỹ thuật lâm sinh.... Loại thí nghiệm này có ưu điểm là: - Số lượng cá thể lớn (dung lượng mẫu lớn) - Gần với điều kiện sản xuấtCũng qua những kết quả thí nghiệm trên thực địa có thể nhận định rõ thêm kết quả và kết luận của thí nghiệm trong phòng vàvườn ươm. Những kết quả của thí nghiệm trên thực địa sẽ được coi là cơ sở xây dựng biện pháp kỹ thuật cho quy trình sản xuất và thâm canh cây trồng, đối với các thí nghiệm về giống, các sản phẩm từ các mô hình thí nghiệm có thể là nguyên liệu cho một thí nghiệm cải tiến giống khác hoặc là nguyên liệu phục vụ cho sản xuất cây giống. 1.2. Một số kiểu thiết kế thí nghiệm và vận dụng mô hình thí nghiệm trong lâm nghiệp 1.2.1. Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn (CRD) Thiết kế thí nghiệm theo kiểu ngẫu nhiên có nghĩa là các nghiệm thức được phân vào các đơn vị thí nghiệm một cách hoàn toàn ngẫu nhiên, hay mỗi đơn vị thí nghiệm có một cơ hội giống nhau để được tiếp nhận một nghiệm thức. Thiết kế thí nghiệm theo kiểu này rất hiệu quả trong trường hợp các đơn vị thí nghiệm đồng đều nhau và ngược lại sẽ không hiệu quả nếu các đơn vị thí nghiệm không đồng nhất. Bao gồm thiết kế thí nghiệm ngẫu nhiên hoàn toàn một nhân tố và thiết kế thí nghiệm ngẫu nhiên hoàn toàn đa nhân tố. Các nhân tố trong thí nghiệm có thể chỉ có nhân tố định tính hoặc định lượng hoặc bao gồm cả hai. Trong các nhân tố thí nghiệm lại có nhiều mức nhân tố. Thí nghiệm một nhân tố cung cấp thông tin về ảnh hưởng chính chỉ của một nhân tố thí nghiệm. Có thể hình dung thiết kế thí nghiệm theo kiểu ngẫu nhiên như sau: Giả sử ta có a công thức thí nghiệm được lặp lại r lần. Như vậy, số đơn vị thí nghiệm là n = a*r. Trên nền đất ta phân thành n ô có kính thước như sau bố trí một cách ngẫu nhiên cho a công thức với r lần lặp. Chẳng hạn a = 4 công thức A, B, C, D lặp lại r = 5 lần, số đơn vị thí nghiệm n = 4*5 = 20 ô, được bố trí như sơ đồ sau:
6 1 (D) 2 (C) 3 (B) 4 (C) 5 (A) 6 (C) 7 (D) 8 (A) 9 (B) 10 (C) 11 (B) 12 (C) 13 (B) 14 (D) 15 (A) 16 (A) 17 (B) 18 (D) 19 (D) 20 (A) Hình 1.1: Sơ đồ thí nghiệm theo kiểu ngẫu nhiên hoàn toàn Trong sơ đồ trên, các số thứ tự ô thí nghiệm đánh từ trái sang phải và từ trên xuống dưới. Các công thức thí nghiệm A, B, C, D được bố trí một cách ngẫu nhiên bằng phương pháp rút thăm hoặc bảng số ngẫu nhiên. Trong thí nghiệm Lâm sinh, đại lượng quan sát trên các ô thường là đường kính hoặc chiều cao trung bình của một lô cây trồng thí nghiệm trên các ô. Cũng có những thí nghiệm nhất là trong nông nghiệp, đại lượng quan sát là sinh khối của cây trồng. Với kiểu thí nghiệm này các nhân tố thí nghiệm cũng chính là nhân tố phân tích phương sai và ta có thể hoàn toàn áp dụng mô hình phân tích phương sai một nhân tố để phân tích ảnh hưởng của các công thức thí nghiệm như nhân tố A.[11] Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn tương đối phổ biến trong lâm nghiệp, kiểu thiết kế này thường được sử dụng trong mô hình thí nghiệm chỉ có một nhân tố như xuất xứ cây trồng, mật độ trồng khác nhau, chế độ chăm sóc khác nhau. Đã có rất nhiều nghiên cứu trong lâm nghiệp sử dụng mô hình thí nghiệm theo kiểu ngẫu nhiên hoàn toàn. Trong quá trình đánh giá kết quả khảo nghiệm xuất xứ Pinus caribeae tại Lang Hanh-Lâm Đồng. Tác giả Bảo Huy đã bố trí thí nghiệm theo kiểu ngẫu nhiên để tiến hành phân tích. Theo dự kiến sẽ có 10 xuất xứ P.caribeae được trồng khảo nghiệm tại trạm thực nghiệm Lang Hanh năm 1991. Việc bố trí thí nghiệm ban đầu đã dự kiến tiến hành theo kiểu ngẫu nhiên đầy đủ RCB (Randomized Complete Blocks), bao gồm 10 công thức chỉ thị 10 xuất xứ và được lặp lại ở 4 khối. Nhưng trong quá trình triển khai trồng thực nghiệm, chỉ còn lại 7 xuất xứ và chỉ có 5 xuất xứ lặp lại đủ 4 lần, còn 2 xuất xứ chỉ được lặp lại 2 lần.. [12]. Trong nghiên cứu khảo nghiệm xuất xứ loài cây Tràm cho chất lượng tinh dầu cao tại Ba Vì - Hà Nội [9], tác giả Phạm Thị Thanh Hường đã tiến hành thí nghiệm nghiên cứu tình hình sinh trưởng của các xuất xứ Tràm và chọn lọc cây trội.
7 Từ số liệu điều tra sinh trưởng của các xuất xứ tác giả đã sử dụng phần mềm SPSS để lựa chọn ra xuất xứ tốt và từ đó dựa vào chỉ tiêu sinh trưởng và độ tuổi của cây chọn ra những cây trội phục vụ công tác chọn giống. Trong nghiên cứu này tác giả đã không áp dụng các biện pháp thống kê để chọn lọc cây trội mà chỉ sử dụng các chỉ tiêu sinh trưởng để lựa chọn. Điều này đã làm cho kết quả nghiên cứu thiếu tính thuyết phục. Nghiên cứu về xuất xứ Mây nếp, tác giả Nguyễn Minh Thanh đã tiến hành trồng thử nghiệm 5 xuất xứ mây nếp trên các vùng sinh thái khác nhau. Từ đó thu thập và xử lý số liệu về đặc điểm sinh trưởng và phát triển của cây Mây nếp bằng SPSS để tìm ra xuất xứ nào tốt nhất bằng cách so sánh sinh trưởng của các xuất xứ với nhau tại hai khu vực nghiên cứu là Hà Giang và Hòa Bình. Kết quả xử lý cho thấy xuất xứ Mây nếp từ Thái Bình là xuất xứ tốt nhất. Ngoài ra, dựa vào tính năng xây dựng phương trình hồi quy tuyến tính nhiều lớp của phần mềm SPSS, tác giả đã đưa ra phương pháp phân chia điều kiện lập địa thích hợp cho loài Mây nếp tại khu vực nghiên cứu.[8] 1.2.2. Thiết kế thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ (RCBD hay RCB). Trong ngành lâm nghiệp rất ít gặp trường hợp bố trí thí nghiệm hai nhân tố và có một lần quan sát ở mỗi tổ hợp cấp của nhân tố. Vì những thí nghiệm như vậy thường không đủ thông tin để đánh giá kết quả của thí nghiệm. Muốn tăng thêm lượng thông tin thường mỗi tổ hợp cấp của hai nhân tố phải có nhiều lần lặp lại thí nghiệm. Người ta gọi cách bố trí thí nghiệm theo phương pháp này là thiết kế thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ. Trong bố trí thí nghiệm theo kiểu này, nhân tố A là những công thức thí nghiệm cần theo dõi, nhân tố B là các khối. Việc phân bố các công thức thí nghiệm trong mỗi khối thường theo nguyên tắc ngẫu nhiên hay hệ thống. Có thể mô tả kiểu thiết kế khối ngẫu nhiên đầy đủ như sơ đồ sau:
8 Hình 1.2: Sơ đồ bố trí thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ Trên hình 1.2: thí nghiệm khối ngẫu nhiên đầy đủ được bố trí thành 3 khối với 2 nhân tố thí nghiệm là A và B trong đó: A1, A2, A3 là các mức thí nghiệm của nhân tố A, B1, B2 là mức thí nghiệm của nhân tố B. Thí nghiệm được lặp lại 3 lần trên 3 khối. Tùy theo yêu cầu mà thí nghiệm có thể có nhiều khối hay nhiều lần lặp. Xét về bản chất, sơ đồ bố trí thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ gần giống so với phương pháp bố trí thí nghiệm theo kiểu ngẫu nhiên hoàn toàn. Tuy nhiên, các công thức thí nghiệm ở đây được chia ra thành khối và được xắp xếp một cách ngẫu nhiên[9,16]. Điểm khác biệt giữa hai kiểu này là: đối với kiểu thiết kế thí nghiệm ngẫu nhiên hoàn toàn thì trên 1 lần lặp không nhất định phải đủ tất cả các công thức thí nghiệm. Chính vì vậy mà trên một lần lặp của kiểu bố trí ngẫu nhiên hoàn toàn sẽ có thể xuất hiện hai hoặc nhiều công thức thí nghiệm giống nhau. Đối với kiểu thiết kế thí nghiệm khối ngẫu nhiên đầy đủ thì yêu cầu đó là trên một khối các công thức thí nghiệm phải được xuất hiện 1 lần và chỉ 1 lần duy nhất.[1]. Khi nghiên cứu và xây dựng quy trình nhân giống cây Mây nếp bằng phương pháp nuôi cấy Invitro tác giả Nguyễn Thị Mai Dương [5] đã tiến hành làm 5 thí nghiệm lớn để xác định được phương pháp và quy trình nhân giống mây. Tác giả đã phân tích và so sánh các mẫu thí nghiệm theo các nội dung thí nghiệm: ảnh hưởng của giá thể và chế độ chiếu sáng đến tỉ lệ sống của cây mây nếp in vitro ngoài vườn
9 ươm, kỹ thuật kích thích tăng trưởng chồi trong điều kiện nuôi cấy in vitro. Trong các thí nghiệm này tác giả đã sử dụng phần mềm SPSS so sánh và lựa chọn ra công thức thí nghiệm phù hợp và hiệu quả nhất. Tác giả Nguyễn Minh Thanh trong luận án tiến sĩ của mình đã tiến hành nghiên cứu công thức trồng Mây nếp theo các công thức trồng: 1 cây/hố, 2 cây/hố, 3 cây/hố và mức độ bón phân khác nhau. Tác giả đã bố trí thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ. Tuy nhiên, trong quá trình nghiên cứu, do nhiều nguyên nhân khác nhau, tác giả đã chuyển công thức thí nghiệm hai nhân tố thành một nhân tố đó là chỉ nghiên cứu công thức trồng mà không nghiên cứu tới chế độ bón phân. Công thức thí nghiệm đã cho ra kết quả: Mây nếp sinh trưởng tốt nhất tại công thức trồng 3 cây/hố.[8]. 1.2.3. Thiết kế thí nghiệm theo kiểu ô vuông la tinh Đây là dạng thiết kế phục vụ cho phân tích phương sai 3 nhân tố. Trong trường hợp bố trí theo khối thì số công thức có thể nhiều hoặc ít hơn số khối và khi phân tích người ta có thể bỏ qua sự khác nhau giữa các nên đất mà trên đó tiến hành làm các thí nghiệm khác nhau. Trong trường hợp số khối luôn luôn bằng số công thức thí nghiệm (số lần lặp lại bằng số công thức thí nghiệm) ta gọi là bố trí theo ô vuông la tinh. Chẳng hạn thí nghiệm có thể bố trí theo sơ đồ sau: Khối (1) (2) (3) (4) (5) (6) Khối 1 1 2 3 4 5 6 Khối 2 6 1 2 3 4 5 Khối 3 5 6 1 2 3 4 Khối 4 4 5 6 1 2 3 Khối 5 3 4 5 6 1 2 Khối 6 2 3 4 5 6 1 Hình 1.3: Sơ đồ bố trí thí nghiệm theo kiểu ô vuông la tinh Ở sơ đồ trên ta có 6 khối: (1), (2), (3), (4), (5), (6) nằm ngang mà mỗi khối chia làm 6 ô đều nhau. Trên mỗi ô này tiến hành một công thức khác nhau. Vị trí của các thí nghiệm được bố trí trên các ô theo một cách nào đó sao cho trong một hàng và trong một cột không có sự trùng lặp một công thức. Để xác định được sai số của thí nghiệm khi phân tích người ta phải loại trừ những biến động do các khối
10 và các cột gây nên, chỉ còn biến động do các công thức khác nhau đưa lại (không có ảnh hưởng qua lại). Mô hình thiết kế thí nghiệm theo kiểu ô vuông la tinh thường được sử dụng trong việc phân tích thí nghiệm có số lượng mẫu bị hạn chế và sự đồng đều không cao. [2]. Trong các đề tài nghiên cứu tại Việt Nam hiện chưa có mô hình thí nghiệm theo kiểu ô vuông la tinh một cách điển hình. Đây là một trong những khó khăn trong việc tham khảo và xây dựng quy trình xử lý phân tích dữ liệu trong luận văn này. Như vậy, có thể thấy rằng trong hầu hết các lĩnh vực của lâm nghiệp, bao gồm từ trồng rừng, kỹ thuật lâm sinh, nhân giống đều có thể sử dụng biện pháp thí nghiệm và cách bố trí thí nghiệm khác nhau. Với đặc điểm thí nghiệm có dung lượng mẫu lớn, việc xây dựng quy trình xử lý hợp lý sẽ làm cho việc xử lý số liệu đơn giản, nhanh chóng hơn, chính xác hơn. Xây dựng quy trình xử lý số liệu còn có tác động ngược lại đối với việc bố trí và thiết kế thí nghiệm bởi dựa vào quy trình xử lý này sẽ khiến cho việc lựa chọn bố trí thí nghiệm ngoài thực địa được chính xác hơn. 1.2.4. Một số kiểu thí nghiệm khác Ngoài các kiểu thí nghiệm ở trên, trong bố trí và thiết kế thí nghiệm có những phương pháp khác như: Thiết kế thí nghiệm theo kiểu “lưới ô vuông la tinh” hay thiết kế theo kiểu “ô chính ô phụ”..... Thiết kế thí nghiệm theo kiểu ô chính, ô phụ (Split Plot Desgin - SPD) Thí nghiệm kiểu ô chính ô phụ (hay có nơi gọi là thí nghiệm chia ô lớn ô nhỏ, thí nghiệm hai nhân tố chia ô) - Split plot desgin [1,2,11]. Sơ đồ bố trí thí nghiệm có thể được mô tả như sau: Hình 1.4: Sơ đồ bố trí thí nghiệm trong kiểu ô chính ô phụ
11 Công thức mô tả thí nghiệm này: Trong đó - là trung bình chung - chênh lệch do ảnh hưởng của mức i nhân tố A (trên ô lớn); - là chênh lệch do ảnh hưởng của mức j của nhân tố B (trên ô nhỏ); - là chênh lệch do ảnh hưởng của khối l; - là tương tác giữa nhân tố A và khối được dùng làm sai số ô lớn - là tương tác của 2 nhân tố A và B - là sai số độc lập phân phối chuẩn N (0, ) Thí nghiệm hai nhân tố chia ô thích hợp để nghiên cứu ảnh hưởng của 2 nhân tố bố trí theo cách sau: Nguyên vật liệu thí nghiệm chia thành một số các ô lớn và các mức của yếu tố thứ nhất được bố trí ngẫu nhiên vào các ô lớn. Sau đó, mỗi ô lớn lại được chia thành các ô con và các mức của yếu tố thứ 2 được bố trí vào các ô con. Mô hình thí nghiệm hai nhân tố chia ô được sử dụng khi một yếu tố cần nhiều nguyên vật liệu hơn yếu tố thứ 2. Nếu một yếu tố được áp dụng muộn hơn so với yếu tố còn lại thì yếu tố muộn hơn sẽ được bố trí vào ô con. Ngoài ra, từ kinh nghiệm thực tế ta biết được yếu tố có mức biến động lớn hơn thì yếu tố này sẽ được bố trí vào ô lớn. Hoặc ta muốn có một kết luận chính xác đối với một yếu tố thì yếu tố đó đuwọc bố trí vào ô nhỏ. Nhân tố trên ô lớn có sai số gọi là sai số ô lớn, nhân tố trên ô nhỏ có sai số gọi là nhân tố ô nhỏ. * Ưu, nhược điểm của kiểu bố trí thí nghiệm ô chính, ô phụ:
12 - Thí nghiệm này có cách phân tích phức tạp, mức chính xác của hai nhân tố khác nhau, nhân tố trên ô lớn có độ chính xác thấp hơn nhân tố trên ô nhỏ. - Thí nghiệm phù hợp với nếu ta chỉ quan tâm đến một trong hai yếu tố và tương tác giữa chúng. Ví dụ: nghiên cứu ảnh hưởng của chế độ bón phân đến sự phát triển của cây, đồng thời cũng quan tâm đến tương tác của loại phân với loài cây... - Kiểu thí nghiệm này sẽ gặp khó khăn trong việc ước tính nếu số liệu bị khiếm khuyết. Số bậc tự do của sai số ngẫu nhiên bị giảm rất nhiều do có hai lần tương tác (tương tác giữa hai yếu tố AxB và tương tác giữa yếu tố A với khối hay còn gọi là sai số ô lớn), chính vì vậy cũng làm giảm độ chính xác của các ước lượng và các kết luận. Kiểu thí nghiệm lưới ô vuông la tinh: Kiểu thí nghiệm lưới ô vuông la tinh được mô tả như hình vẽ dưới đây: Hình 1.5: Sơ đồ bố trí thí nghiệm trong kiểu thí nghiệm lưới ô vuông la tinh Kiểu thí nghiệm lưới ô vuông la tinh được bố trí và sắp xếp hoàn toàn giống với kiểu bố trí thí nghiệm ô vuông la tinh. Tuy nhiên, sự khác nhau ở đây là thí nghiệm lưới ô vuông la tinh bao gồm nhiều ô vuông la tinh gộp lại với nhau. Thí nghiệm 2 nhân tố kiểu chia ô hoàn toàn ngẫu nhiên:
13 Kiểu thiết kế này giống như kiểu mô hình chia ô chính ô phụ, sự khác biệt của thí nghiệm này đối với kiểu mô hình ô chính ô phụ đó là người ta tiến hành thiết kế để một yếu tố được bố trí ngẫu nhiên trên các ô lớn. Ví dụ yếu tố thứ nhất (A) có 4 mức (A1, A2, A3, A4) được bố trí ngẫu nhiên trên 12 ô lớn. Mỗi mức của yếu tố A được lặp lại 3 lần. Yếu tố thứ 2 (B) có 2 mức (B1, B2). Mỗi ô lớn được chia thành 2 ô con để bố trí ngẫu nhiên các mức của yếu tố B. Đây chính là mô hình thí nghiệm 2 nhân tố kiểu chia ô hoàn toàn ngẫu nhiên. Mô hình bố trí thí nghiệm có thể được mô phỏng như hình vẽ sau: Hình 1.6: Sơ đồ bố trí thí nghiệm theo kiểu chia khối ngẫu nhiên Mô hình toán học của kiểu thí nghiệm này được mô phỏng như sau: xijl = m + ai + ok(i) + bj + (ab)ij + eijl ; (i = 1, a; j = 1, b; k = 1, r) Trong mô hình này hai nhân tố A và B coi như nhân tố cố định. Các tổng bình phương của yếu tố A, B, tương tác AB, sai số ngẫu nhiên (sai số bé) và các bậc tự do được tính tương tự như phương pháp ô chính ô phụ. 1.3. Tổng quan về ứng dụng phần mềm thống kê SPSS và R 1.3.1. Ứng dụng phần mềm SPSS Trên thế giới, đã có rất nhiều phần mềm máy tính chuyên dụng về xử lý thống kê các số liệu thực nghiệm, trong đó có SPSS (Statistical Package for Social Sciences). Tuy là một phần mềm xử lý thống kê chuyên dụng nhưng SPSS lại khá dễ sử dụng và đang được ứng dụng rộng rãi trên thế giới do có giao diện thân thiện với người dùng, các thủ tục phân tích thống kê đơn giản, cho kết quả nhanh và đáp ứng được yêu cầu phân tích thống kê cơ bản và cả những kết quả đáp ứng các yêu cầu phân tích chuyên sâu về mặt thống kê. Ở Việt nam, việc sử dụng các phần mềm thống kê cũng như SPSS trong xử lý số liệu đã được áp dụng trong những năm gần đây.
14 Trong lĩnh vực Lâm nghiệp, từ cuối những năm 70 các ứng dụng CNTT trong quản lý, phân tích dữ liệu đã được đưa vào phục vụ công tác tổng điều tra quy hoạch rừng. Máy vi tính thời gian này còn khá lạc hậu, chạy chậm, độ tin cậy không cao cùng với các phần mềm nghèo nàn do đó xử lý lượng dữ liệu lớn là rất khó khăn và tốn kém. Mãi đến đầu những năm 90 viện Điều tra Quy hoạch rừng mới du nhập về phần mềm SPSS phiên bản 1.0 chạy trên máy vi tính với hệ điều hành DOS và nó đã trở thành công cụ hữu hiệu trong xử lý và phân tích dữ liệu thống kê, phiên bản này lần đầu tiên cũng được giới thiệu như một chuyên đề tại trường Đại học Lâm nghiệp vào những năm 1994 cho các lớp sau đại học, từ năm 2003 chính thức được đưa vào thành môn học giảng dạy cho các lớp cao học Lâm nghiệp. Từ đó đến nay phần mềm SPSS đã trở thành công cụ xử lý và phân tích dữ liệu trong các công trình nghiên cứu của mình. Cũng có một số tài liệu, giáo trình về SPSS, nhưng những tài liệu này chủ yếu hoặc thiên về hướng dẫn sử dụng hoặc thiên về các ứng dụng kinh tế - xã hội.[10]. Nhiều trường đại học như Đại học Nông nghiệp Hà Nội, Đại học Nông lâm Huế, Đại học kinh tế Đà Nẵng cũng đã đưa phần mềm SPSS vào giảng dạy, nhiều nhà nghiên cứu cũng đã sử dụng phần mềm SPSS làm công cụ xử lý và phân tích dữ liệu trong các công trình nghiên cứu của mình. Cũng có một số tài liệu, giáo trình về SPSS được các nhà nghiên cứu viết ra nhưng những tài liệu này chủ yếu thiên về hướng dẫn sử dụng hoặc thiên về các ứng dụng kinh tế- xã hội.[1,10,11]. Hiện tại cũng có nhiều phần mềm xử lý thống kê khác rất nổi tiếng như SAS, STATA, MICROSTA, EVIEW,… mỗi phần mềm này đều có những điểm mạnh và điểm yếu riêng và thích hợp với nhiều lĩnh vực khác nhau chẳng hạn như: STATA, EVIEW mạnh về phân tích hồi quy, hồi quy logistic do đó phù hợp với lĩnh vực kinh tế xã hội; SAS mạnh về phân tích phương sai phân tích hỗn hợp nhưng phải biết lập trình, do đó thích hợp với những người sử dụng có trình độ cao. Riêng đối với SPSS, hiện nay được nhiều người ưa dùng nhất bởi một số ưu điểm đặc biệt sau: 1. Về quản lý dữ liệu
15 SPSS có một bộ soạn thảo dữ liệu tương tự như excel, bộ soạn thảo cho phép vào các dữ liệu và mô tả các thuộc tính của chúng, tuy nhiên SPSS không có những công cụ quản lý dữ liệu thật mạnh (mặc dù SPSS phiên bản 11 có thêm các lệnh chuyển cấu trúc dữ liệu theo chiều ngang thành cấu trúc dữ liệu theo chiều dọc và ngược lại). SPSS xử lý mỗi file dữ liệu ở một thời điểm và không phải là rất mạnh khi thực hiện các nhiệm vụ phân tích cần làm việc với nhiều file dữ liệu cùng một lúc. Các file dữ liệu có thể có đến 4096 biến và số lượng bản ghi chỉ bị giới hạn trong dung lượng của đĩa cứng. Các báo cáo thống kê trên tập số liệu cở sở hết sức đa dạng và linh hoạt với nhiều chiều phân tổ khác nhau và dễ dàng thực hiện không phải lập trình. Các bảng biểu, các báo cáo được trình bày đẹp, chất lượng cao được thực hiện trên cửa sổ, có thể tiếp tục hiệu chỉnh, in ra hoặc chuyển sang tài liệu khác. 2. Về phân tích thống kê Một trong những công việc thường xuyên phải làm đối với cán bộ nghiệp vụ thống kê là tổng hợp số liệu theo các biểu bảng đã thiết kế trước đối với số liệu thu được. Nếu ai đã từng sử dụng SPSS và STATA, đều thấy rằng khả năng lập các biểu bảng số liệu tổng hợp, các báo cáo thống kê trên tập số liệu cơ sở trong SPSS là hết sức đa dạng và linh hoạt với nhiều chiều phân tổ khác nhau và dễ dàng thực hiện không phải lập trình. Các bảng biểu, các báo cáo được trình bày đẹp, chất lượng cao được hiện trên cửa sổ, có thể tiếp tục hiệu chỉnh, in ra hoặc chuyển sang các tài liệu khác. Đây là một ưu điểm nổi bật của SPSS, vì để lập trình tạo ra một biểu bảng như ý là một công việc hết sức tỉ mẩn và nặng nhọc. Sức mạnh lớn nhất của SPSS là lĩnh vực phân tích phương sai (SPSS cho phép thực hiện nhiều loại kiểm định tác động riêng biệt) và phân tích nhiều chiều (thí dụ phân tích phương sai nhiều chiều, phân tích nhân tố, phân tích nhóm tổ). SPSS phiên bản 11 còn bổ sung thêm một số khả năng phân tích các mô hình hỗn hợp. Cái yếu nhất của SPSS là khả năng xử lý đối với những vấn đề ước lượng phức tạp và do đó khó đưa ra được các ước lượng sai số đối với các ước lượng này. SPSS cũng không hỗ trợ các công cụ phân tích dữ liệu theo lược đồ mẫu.
16 3. Về vẽ đồ thị SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo được một đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng như hoàn thiện chúng. Các đồ thị có chất lượng rất cao và có thể dán vào các tài liệu khác, thí dụ như Word hoặc Powerpoint. 1.3.2. Ứng dụng phần mềm R Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống kê học Ross Ihaka và Robert Gentleman thuộc Trường đại học Auckland, New Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R [17]. Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và tham gia vào việc phát triển R. Cho đến nay, qua chưa đầy 10 năm phát triển, càng ngày càng có nhiều nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R để phân tích dữ liệu khoa học. Trên toàn cầu, đã có một mạng lưới hơn một triệu người sử dụng R, và con số này đang tăng rất nhanh. Có thể nói trong vòng 10 năm nữa, vai trò của các phần mềm thống kê thương mại sẽ không còn lớn như trong thời gian qua nữa.[17]. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến các phân tích thống kê phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt. Vì thế, những ai làm nghiên cứu khoa học, nhất là ở các nước còn nghèo khó như nước ta, cần phải học cách sử dụng R cho phân tích thống kê và đồ thị. [16,17,18] * Những ưu điểm chính của R - R là ngôn ngữ lập trình miễn phí: Để phân tích thống kê hay lập trình có thể có sử dụng nhiều phần mềm hay ngôn ngữ khác nhau (như SAS, SPSS, Stata, Fortran, C#,…) Tuy nhiên, phần lớn những phần mềm này không phải là miễn phí. Do vậy nếu sử dụng R để giảng dạy cho sinh viên thì sau khi sinh viên ra trường, sinh viên có thể tiếp tục tiếp cận với phần mềm và sử dụng trong công việc. Nếu
17 giảng dạy bằng một phần mềm giữ bản quyền như SAS (nếu nhà trường có mua quyền sử dụng) thì sau khi sinh viên tốt nghiệp, không thể ứng dụng được nếu luật bảo vệ sở hữu trí tuệ được thực thi. R hiện nay được coi là chuẩn trên thực tế (de factor standard) để giảng dạy về thống kê. - R là ngôn ngữ lập trình nguồn mở: R là một thành phần của GNU project (dự án hợp tác đại trà và phần mềm miễn phí). Mã nguồn của R cung cấp miễn phí cho tất cả mọi người tuân theo giấy phép công cộng chung GNU (GNU General Public License), và phiên bản nhị phân trước khi biên dịch được cung cấp cho nhiều hệ điều hành khác nhau. Do là phần mềm nguồn mở, có đến 2000 người đóng góp vào việc xây dựng phần mềm và có đến 2 triệu người dùng. Là nguồn mở nên việc phát triển R rất linh hoạt và cho phép tích hợp R với các hệ thống khác nhau và với các phần mềm sử lí số liệu khác nhau. R được sử dụng bởi ngân hàng Hoa Kì (Bank of America), New York Times, Face book và Google cũng như phần lớn các công ty đứng hàng đầu của Mỹ. Dù một cá nhân sử dụng R cho bất kì mục đích gì luôn luôn có ai đó có cùng mục đích sử dụng và có thể trao đổi, giúp đỡ nhau cùng thực hiện mục tiêu của mình. Luôn luôn có những gói phần mềm, trao đổi, hướng dẫn sử dụng R xuất hiện mới mỗi ngày hoặc mỗi tuần. Các diễn đàn của cộng đồng sử dụng R phổ biến nhất là Crantastic, Stackoverflow, revolutions blog, R-bloggers... - R là một ngôn ngữ lập trình thông dịch (interpreted language) được sử dụng thông qua trình thông dịch dòng lệnh (command line intepreter). Tương tự như các phần mềm khác, R có thể hỗ trợ các phép tính ma trận. Cấu trúc dữ liệu của R không chỉ là số nguyên (integer), số thực (double precision), chuỗi (string) mà còn có thể là vector, ma trận, khung dữ liệu (data frame) là các ma trận với cấu trúc dữ liệu thuộc các loại khác nhau. Là ngôn ngữ lập trình R: - cho phép người dùng thêm vào các tính năng bổ sung bằng cách định nghĩa các hàm số mới, xây dựng các gói (package) mới, dùng các gói (package) do người khác xây dựng - Có thể liên kết với các mã của ngôn ngữ C, ngôn ngữ C++, ngôn ngữ Fortran, v.v.
18 Là ngôn ngữ lập trình nên người sử dụng có thể kết hợp nhiều phương pháp khác nhau để giải quyết vấn đề và cho kết quả có tính lập lại. R có sẵn các thư viện có thể thực thi trên các đối tượng khác nhau như vector, ma trận. Một thí dụ của khả năng tính toán nhanh trong các tình huống bất ngờ. Ngay sau khi Michael Jackson chết trong vòng 3 giờ, tờ New York Times đã đưa ra các thống kê và đồ thị sắp hạng của tạp chí Billboard về các bài hát của Michael Jackson (Jackson’s billboard rankings over time) và ngôn ngữ R được sử dụng để thực hiện các tính toán (http://blog.revolutionanalytics.com/2009/06/nyt-charts-michael-jacksons-pop- hits.html). R là một ngôn ngữ lập trình hướng đối tượng mạnh có nghĩa là R Có phương tiện lập trình hướng đối tượng (object oriented programming) tốt hơn phần lớn các ngôn ngữ lập trình khác. Việc lập trình hướng đối tượng với R khá đơn giản, chỉ cần khai báo đối tượng cho biến số thì khi gọi hàm số của biến số đó, instant phù hợp của hàm số sẽ được sử dụng. Không chỉ là ngôn ngữ lập trình, R còn là một môi trường phần mềm có nghĩa là R cung cấp nhiều thư viện cho các giải thuật truy cập số liệu, thao tác số liệu, phân tích số liệu và vẽ đồ thị. R có thể vẽ các loại đồ thị như chuỗi thời gian, tổ chức đồ, phân tán đồ, mặt 3 chiều, bản đồ,… R là ngôn ngữ lập trình chuyên dụng cho chuyên viên thống kê: R có thể tiến hành các thuật toán thống kê chuẩn như tính toán trung bình, độ lệch chuẩn, phương sai, hiệp phương sai, hồi quy, ANOVA, phân tích sống còn, GLM, GAM, mạng thần kinh. Ngoài các phương pháp thống kê kinh điển, R vượt qua các phần mềm khác để ứng dụng trong các phương pháp tính toán hiện đại nhất (thí dụ như để phân tích hệ gen – genomics, xác định các biến dị của DNA người,…). * Những nhược điểm chính của R R cũng có một số nhược điểm hay có thể gọi là thiếu sót, tuy nhiên các nhược điểm này có thể được khắc phục dễ dàng bởi chính R : - R không phải là một cơ sở dữ liệu nhưng lại có thể kết nối với các hệ quản trị cơ sở dữ liệu (DBMS)
19 - R không có giao diện đồ họa người dùng, nhưng nó có thể kết nối với Java, TclTk. - Việc diễn giải ngôn ngữ R có thể rất chậm, nhưng có thể cho phép gọi tới các mã C hoặc C++. - R không có các bảng tính quan sát dữ liệu, nhưng nó có thể kết nối với Excel/MSOffice. - Mỗi câu lệnh của R kết thúc bằng phím Enter, điều này gây ra sự bất tiện trong khi lâp trình, đặt biệt là khi xây dựng một hàm, chỉ cần sai một dòng lệnh, ta sẽ phải làm lại từ đầu. - Một nhược điểm khác của R là nó không chuyên nghiệp và không hỗ trợ thương mại . 1.4. Thảo luận về tổng quan vấn đề nghiên cứu Có thể thấy rằng: hầu hết các nghiên cứu khoa học trong lâm nghiệp mà đặc biệt là trong các lĩnh vực về chọn giống, trồng rừng và lâm sinh thường sử dụng thí nghiệm với số liệu thu thập lớn. Để phân tích các số liệu này cần phải có phương pháp phân tích và thống kê khoa học và chính xác. Nếu không có công cụ hỗ trợ từ máy tính như hiện nay chắc chắn rằng việc tính toán sẽ gặp nhiều khó khăn và sẽ có nhiều sai sót không đáng có. Chính vì vậy việc xây dựng các quy trình xử lý thống kê cho các thí nghiệm lâm nghiệp dựa vào các phần mềm thống kê thông dụng như SPSS và R là một việc đáng quan tâm. Ưu điểm về phân tích phương sai của SPSS cũng là những ứng dụng phổ biến xử lý và phân tích dữ liệu trong lĩnh vực Lâm nghiệp. Những phiên bản mới của SPSS còn bổ sung những thủ tục phân tích tinh tế hơn, hiện vẫn chưa được khai thác hoặc khai thác rất hạn chế trong lĩnh vực Lâm nghiệp. Mặc dù được sử dụng khá rộng rãi trong nhiều lĩnh vực, đặc biệt trong lâm nghiệp nhưng chưa có một công trình nghiên cứu ứng dụng SPSS trong lâm nghiệp một cách có hệ thống và đầy đủ, các mô hình nâng cao (Advanced Models) thì hầu như hoàn toàn chưa được nghiên cứu tới.