Quản lý và phân tích dữ liệu<br />
PFM Lâm Đồng<br />
Hoàng Việt Anh & Phùng Đình Trung<br />
<br />
Hà Nội, tháng 9/2015<br />
<br />
Số trang<br />
<br />
1. Tổng quan về quản lý dữ liệu…………………………………….5<br />
2. Chuẩn bị………………………………………………………………6<br />
2.1 . Tổ chức dữ liệu phân tích…………………………………………………6<br />
2.2 . 01_Data OTC………….…………………………………………………….6<br />
2.3. 02_Data Tuyen……...………………………………………………………6<br />
2.4 . 03_Reports……..……………………………………………………………7<br />
2.5 . 04_Script…………….……………………………………………………….7<br />
2.6 . 05_Software…………………………………………………………………7<br />
2.7 . Cài đặt R, RStudio, packages……………………………………………8<br />
2.7.1 Phần mềm R …………………………………………………………8<br />
2.7.2 Phần mềm R Studio…………………………………………………8<br />
2.7.3 Quy trình cài đặt…………………………………….………………8<br />
<br />
3. Nhập dữ liệu…………………………………………………………9<br />
3.1. Dữ liệu ô tiêu chuẩn………………………………………………………9<br />
3.1.1 Form nhập liệu………………………………………………………9<br />
3.1.2 Phương pháp nhập…………………………………………………9<br />
3.2 . Dữ liệu tuyến điều tra………………………………………………………10<br />
3.2.1 Form nhập liệu……………………………………………………….10<br />
3.2.2 Phương pháp nhập………………………………………………….10<br />
<br />
4. Xử lý số liệu điều tra bằng R……………………………………11<br />
4.1 . Điều kiện áp dụng…………………………………………………………11<br />
4.2. Sử dụng R xử lý số liệu điều tra Trước khi xử lý số liệu, yêu cầu……11<br />
4.3. Kết quả xử lý số liệu………………………………………………………13<br />
4.3.1 Kết quả điều tra ô tiêu chuẩn………………………………………13<br />
4.3.2 Kết quả điều tra theo từng ô tiêu chuẩn…………………………..14<br />
4.3.3 Kết quả điều tra theo chủ rừng và trạng thái rừng………………16<br />
4.4. Kết quả điều tra Sinh khối……………………………………..…………16<br />
4.5 . Kết quả điều tra ô tiêu chuẩn………………………………….…………16<br />
4.6. Kết quả điều tra theo chủ rừng và trạng thái rừng………….…………17<br />
4.7. Kết quả điều tra tuyến………………………………………….…………17<br />
4.8. Thực vật………………………………………………………….…………18<br />
<br />
Mục lục<br />
Số trang<br />
<br />
4.9. Động vật……………………………………………………………………18<br />
4.10. Các tác động……………………………………………….………………19<br />
<br />
5. Tạo biểu đồ bằng Pivot Chart ………………….…….…………20<br />
5.1. Biểu đồ N-D13…………………………………………….…….……………20<br />
5.1.1 Xây dựng biểu đồ phân bố N-D13 theo đơn vị chủ rừng và ô tiêu<br />
chuẩn …………………………………………………………………………20<br />
5.1.2 Xây dựng biểu đồ phân bố N-D13 theo đơn vị chủ rừng và ldlr…21<br />
5.2. Biểu đồ Loài – Tiết diện ngang …………………………………………22<br />
<br />
6. Ý nghĩa chỉ số đa dạng sinh học…………………….…………24<br />
6.1. Độ tàn che………………………………………………….………………24<br />
6.2. Mật độ………………………………………………………………………24<br />
6.3. Số loài………………………………………………………………………24<br />
6.4. Tiết diện ngang……………………………………………..………………24<br />
6.5. Tỷ lệ phẩm chất…………………………………………….………………24<br />
6.6. Số cây có đường kính trên 30cm…………………………………………24<br />
6.7. Số cây chết …………………………………………………………………24<br />
6.8. Công thức tổ thành theo IV%……………………………..………………25<br />
<br />
7. Lỗi và cách khắc phục……………………………………………26<br />
7.1. Lỗi font chữ…………………………………………………………………26<br />
7.2. Lỗi không chạy được phần mềm xuất kết quả ra trang web do một<br />
trong các nguyên nhân sau…………………………………………………27<br />
<br />
www.snv.org<br />
<br />
3 SNV REDD+<br />
<br />
Mở đầu<br />
Tài liệu này được hoàn thành dưới sự tài trợ của Bộ Môi trường, Bảo tồn Thiên<br />
nhiên, Xây dựng và An toàn Hạt nhân (BMUB), Cộng hòa Liên bang Đức, thông qua<br />
dự án “Cung cấp đa lợi ích từ REDD+” (MB-REDD), phối hợp với dự án “Phát thải<br />
thấp từ rừng khu vực Châu Á” (LEAF) tài trợ bởi Cơ quan Phát triển Quốc tế Hoa<br />
Kỳ (USAID). Hai dự án được phối hợp thực hiện bởi tổ chức phát triển Hà Lan SNV<br />
và các đối tác đia phương.<br />
Tài liệu kỹ thuật này giới thiệu phương pháp xử lý và hệ thống quản lý dữ liệu được<br />
thu thập thông qua hoạt động giám sát rừng có sự tham gia (PFM) thí điểm tại tỉnh<br />
Lâm Đồng, cho phép lưu trữ và tự động tính toán các chỉ số đa dạng sinh học trên<br />
phạm vi toàn tỉnh. Các chỉ số cơ bản được tính toán gồm: mật độ cây, số loài trên<br />
ô tiêu chuẩn, phân bố tiết diện ngang, chỉ số quan trọng (IV%), công thức tổ thành,<br />
tần suất xuất hiện của các loài giám sát, các tác động tới đa dạng sinh học ghi nhận<br />
được trên các tuyến điều tra. Báo cáo cũng đã xây dựng chủ yếu dựa trên hệ thống<br />
phân tích xử lý dựa trên các phần mềm mã nguồn mở, bao gồm: phần mềm R phân<br />
tích xử lý số liệu. Hệ thống quản lý dữ liệu dựa trên PostGIS cho cơ sở dữ liệu Web<br />
và bản đồ trực tuyến.<br />
Tác giả xin trân trọng cảm ơn các chuyên gia của tổ chức phát triển Hà Lan SNV:<br />
ông Nguyễn Trung Thông, ông Richard Rastall, ông Trần Văn Châu và ông Đào Vĩnh<br />
Lộc đã có những đóng góp quý báu về thiết kế và phương pháp. Tác giả chân thành<br />
cảm ơn sự ủng hộ và đóng góp quý báu của lãnh đạo, cán bộ kỹ thuật và người dân<br />
tỉnh Lâm Đồng: UBND tỉnh, Sở Nông nghiệp và Phát triển Nông thôn, Chi cục Lâm<br />
nghiệp, Chi cục Kiểm lâm, Hạt Kiểm lâm huyện Bảo Lâm và các đơn vị chủ rừng<br />
tại hai huyện Bảo Lâm và Đơn Dương là Công ty TNHH MTVLN Bảo Lâm, Công ty<br />
TNHH MTVLN Lộc Bắc, Công ty TNHH MTVLN Đơn Dương và Ban QLRPH D’ran<br />
đã có những phản hồi có giá trị và thiết thực để chúng tôi có thể cải tiến và hoàn<br />
thiện chương trình này.<br />
Tác giả:<br />
Hoàng Việt Anh & Phùng Đình Trung<br />
<br />
4 SNV REDD+<br />
<br />
www.snv.org<br />
<br />
Tổng quan về quản lý dữ liệu<br />
<br />
1<br />
<br />
Trong quá trình giám sát đa dạng sinh học và giám sát rừng có sự tham gia, các chỉ<br />
số giám sát được thu thập thông qua các ô tiêu chuẩn và các tuyến điều tra. Dữ liệu<br />
điều tra là cơ sở để tính toán các chỉ số giám sát, qua đó phản ánh kết quả của hoạt<br />
động bảo vệ rừng và đa dạng sinh học.<br />
Để đảm bảo dữ liệu điều tra phản ánh đúng thực trạng của khu vực cần giám<br />
sát, chúng ta cần điều tra với số lượng OTC đủ lớn, đại diện cho các trạng thái<br />
rừng khác nhau ở từng khu vực. Khi có nhiều nhóm điều tra/giám sát trên nhiều<br />
OTC/tuyến điều tra, sẽ thu thập được rất nhiều dữ liệu (hàng trăm OTC với quy<br />
mô huyện, hàng ngàn OTC với quy mô tỉnh). Vì vậy cần phải có một quy trình và<br />
phương pháp để quản lý dữ liệu này một cách hiệu quả, đảm bảo: i) dữ liệu được<br />
lưu trữ an toàn, ii) dữ liệu được mô tả với đủ thông tin phụ trợ (để sau này có thể<br />
quay lại tái sử dụng hoặc kiểm tra), iii) có phương pháp để tính toán các chỉ số tổng<br />
hợp một cách nhanh chóng từ các OTC riêng lẻ.<br />
Quy trình xử lý dữ liệu của dự án được mô tả trong hình dưới đây.<br />
<br />
Bước 1: Các nhóm tiến hành điều tra thực địa tại các OTC và tuyến, ghi chép thông<br />
tin vào phiếu điều tra. Kết quả bước này là các phiếu điều tra được ghi chép lên giấy<br />
Bước 2: Nhập thông tin từ phiếu điều tra vào file Excel. Kết quả của bước này là rất<br />
nhiều file Excel, mỗi file chứa thông tin về 1 OTC.<br />
Bước 3 và 4: Sử dụng phần mềm R để tổng hợp nhiều file Excel thành 1 file duy<br />
nhất. Kết quả của bước này là 1 file Excel chứa dữ liệu của tất cả các OTC.<br />
Bước 5 và 6: Sử dụng phần mềm Google Refine để rà soát dữ liệu Excel. Kiểm tra<br />
các lỗi về tên loài cây, và về khoảng giá trị đo. Việc kiểm tra này rất quan trọng vì<br />
các lỗi chính tả tên loài cây sẽ làm thay đổi số liệu tổng hợp. Kết quả của bước này<br />
là File Excel tổng hợp đã được chuẩn hóa. Ở bước 5 và 6, người dùng không nhất<br />
thiết phải sử dụng phần mềm Google Refine mà có thể mở file và rà soát trực tiếp<br />
trên Excel. Tuy nhiên sử dụng Google Refine sẽ giúp tiết kiệm rất nhiều thời gian<br />
nếu làm việc với lượng dữ liệu lớn.<br />
Bước 7 và 8: Sử dụng phần mềm R để tạo các biểu tổng hợp cần thiết.<br />
<br />
www.snv.org<br />
<br />
5 SNV REDD+<br />
<br />