Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5
109
LỰA CHỌN TIÊU CHÍ ĐÁNH GIÁ SỰ HÀI LÒNG
CỦA CÁC HỘ DÙNG NƯỚC TƯỚI TIÊU
SỬ DỤNG MÔ HÌNH RỪNG NGẪU NHIÊN
Đỗ Văn Quang1, Nguyn Thanh Tùng2
1Đại hc Thy li, email: quangkttl@tlu.edu.vn
2Đại hc Thy li, email: tungnt@tlu.edu.vn
1. GII THIU CHUNG
Với mỗi hệ thống tưới tiêu cụ thể tại Việt
Nam, việc đánh giá mức độ hài lòng của các
hộ dùng nước tác động lớn đến chính sách
thủy lợi phí của Chính phủ. Từ những nghiên
cứu, phân ch địnhng liên quan đến s hài
lòng của người dân giúp Chính ph điu chnh
cnh sách thủy li phí p hp nhm ng cao
chất lượng dịch vtưi tiêu nông nghip.
Xét hình hồi quy tổng quát để giải bài
toán xác định mức độ hài lòng của các hộ dân
dùng dịch vụ nước tưới tiêu, thông thường
được viết như sau:
Y = f(X) + ϵ, (1)
trong đó ϵ lỗi của hình,
E(ϵ)= 0, Var(ϵ)= σϵ
2. Tập dữ liệu đầu vào
= (Xi, Yi)i=1
N dùng để xây dựng hình
hồi quy được thu thập, khảo sát độc lập từ
các hộ dùng nước với các tiêu chí quan sát X
(predictor features) biến đích Y (response
feature) lưu giá trị đánh giá mức độ hài lòng
của các hộ dùng nước. đây, M số chiều
của tập dữ liệu đầu vào N số mẫu thu
thập được. Mục tiêu của bài toán hồi quy
tìm hình mà giá trị ước lượng của
được dự đoán bởi hàm f() trung bình sai
số bình phương (mean squared errors) càng
nhỏ càng tốt. Các hình hồi quy trình bày
trong bài báo này được dùng n 1 hàm
f: M 1 ước lượng giá trị y Y tương
ứng với dữ liệu đầu vàox M. Trong
nghiên cứu này, hình hồi quy rừng ngẫu
nhiên(Breiman, 2001) được nghiên cứu đ
phân tích lựa chọn tiêu chí dùng để dự
đoán mức độ hài lòng của người dân tại vùng
đồng bằng sông Hồng, sau đó hình hồi
quy tuyến tính được sử dụng để tìm hệ số của
phương trình hồi quy.
2. PHƯƠNG PHÁP RNG NGU NHIÊN
Rừng ngẫu nhiên hồi quy (RF) gồm tập
hợp các cây hồi quy(Breiman, 2001). Từ tập
dữ liệu đầu vào , RF dùng kỹ thuật lấy mẫu
bootstrap hoàn lại tạo ra nhiều tập dữ liệu
khác nhau. Trên mỗi tập dữ liệu con y, lấy
ngẫu nhiên một lượng cố định thuộc tính,
thường gọi mtry để xây dựng cây. Mỗi cây
hồi quy được xây dựng không cắt nhánh với
chiều cao tối đa. Việc lấy hai lần ngẫu nhiên
cả mẫu và thuộc tính đã tạo ra các tập dữ liệu
con khác nhau giúp RF giảm độ dao động
(variance) của mô hình học.
2.1. Xây dựng rừng ngẫu nhiên
Việc xây dựng rừng ngẫu nhiên hồi quy và
dự đoán mẫu mới được tả như sau. Đặt
Θ = {𝜃𝑘}1
𝐾 tập gồm K các véc-tham số
ngẫu nhiên cho rừng được sinh ra từ , trong
đó 𝜃𝑘 mt véc- tham s ngẫu nhiên để
xác định đ ln ca cây th 𝑘 trong rừng
(k = 1. . . K). Gọi 𝑘 tp d liu th 𝑘 sinh
ra từ dùng kỹ thuật bootstrap, trong mỗi
cây hồi quy 𝑇𝑘 từ 𝑘, ta tính trọng số dương
𝑤𝑖(𝑥𝑖, 𝜃𝑘) cho từng mẫu 𝑥𝑖 . Đặt
𝑙(𝑥, 𝜃𝑘, 𝑡) nút 𝑡 trong cây 𝑇𝑘. Mẫu 𝑥𝑖
𝑙(𝑥, 𝜃𝑘, 𝑡) được gán cùng một trọng số
𝑤𝑖(𝑥, 𝜃𝑘)= 1/𝑁(𝑡), trong đó 𝑁(𝑡) s các
mu trong 𝑙(𝑥, 𝜃𝑘, 𝑡). Trong trường hợp này,
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5
110
Hình 1. Độ đo sự quan trọng của
các tiêu chí.
tất cả các mẫu trong 𝑘 được gán trọng số
dương các mẫu không trong 𝑘 được gán
bằng 0.
Với một y hồi quy 𝑇𝑘, khi giá tr
th nghim 𝑋 = 𝑥 thì giá trị dự đoán 𝑌
𝑘
tương ứng:
𝑌
𝑘=𝑤𝑖(𝑥, 𝜃𝑘)𝑌
𝑖
𝑁
𝑖=1 =
𝑤𝑖(𝑥, 𝜃𝑘)𝑌
𝑖.
𝑥𝑖,𝑋𝑖∈𝑙(𝑥,𝜃𝑘,𝑡) (2)
Trọng số 𝑤𝑖(𝑥) được tính bởi rừng ngẫu
nhiên là giá trị trung bình của các trọng số dự
đoán của tất cả các cây trong rừng. Công thức
tính như sau:
𝑤𝑖(𝑥)=1
𝐾𝑤𝑖(𝑥, 𝜃𝑘).
𝐾
𝑘=1 (3)
Cuối cùng, giá trị dự đoán ca rừng ngẫu
nhiên hồi quy được cho bởi:
𝑌
=𝑤𝑖(𝑥)𝑌
𝑖.
𝑁
𝑖=1 (4)
2.2. Độ đo sự quan trọng của thuộc tính
Vi hình rng ngẫu nhiên, độ đo s
quan trng ca thuc tính 𝑋 được nh bằng
cách lấy gtrị trung bình của tất cả các độ
đo của các cây hồi quy độc lập. một điểm
lợi trong việc tính độ đo sự quan trọng của
thuộc tính dùng hình rừng ngẫu nhiên
độ đo của các biến tương tác lẫn nhau đều
được xem xét một cách tự động, điều này
khác hẳn với những phương pháp tính tương
quan tuyến tính như Kendall, Pearson. Gọi
𝐼𝑆𝑘(𝑋𝑗), 𝐼𝑆𝑋𝑗lần lượt độ đo sự quan trọng
của thuộc tính Xj trong một cây hồi quy
Tk(k=1...K) trong một rừng ngẫu nhiên.
Việc tách nhánh trên thuc nh 𝑋 đưc xác
định bi vic gim s hn tp ti nút 𝑡,
hiu ∆𝐼(𝑋, 𝑡). Ta tính độ đo sự quan trọng
của Xj từ cây hồi quy độc lập như sau:
𝐼𝑆𝑘(𝑋𝑗)=Δ𝐼(𝑋𝑗, 𝑡),
𝑡∈𝑇𝑘 (5)
và từ rừng ngẫu nhiên là:
𝐼𝑆𝑋𝑗=1
𝐾𝐼𝑆𝑘
𝐾
𝑘=1 (𝑋𝑗). (6)
3. KẾT QUẢ NGHIÊN CỨU
3.1. Dữ liệu tham s mô hình
Dữ liệu dùng trong bài báo này được mô tả
phần phụ lục. Các tiêu chí đo lường chất
lượng dịch vụ trên được lấy theo hình
Servqual do Parasuraman đồng nghiệp đề
xuất(Arun Parasuraman, 1991), phương pháp
Cronbach Alpha cũng được dùng đ kiểm
định độ tin cậy của các biến, tiền xử lý chúng
trước khi đưa vào các hình hồi quy để
huấn luyện.
Gói phần mềm caret (Kuhn, 2008) được
sử dụng để tiến hành các thực nghiệm trên
môi trường R, mô hình hồi quy đều được tích
hợp trong gói phần mềm này.
Khi xây dựng hình hồi quy, chúng tôi
sử dụng kỹ thuật kiểm tra chéo 10-fold với 2
lần lặp và dựa trên hàm lỗi RMSE (căn sai số
bình phương trung bình) để tìm tham số tối
ưu của từng mô hình. Tham số của RF
mtry = 9 K=1000. Kỹ thuật kiểm tra chéo
cũng cho phép tính hệ số xác định bội R2
phản ánh khả năng giải thích của từng
hình hồi quy. Giá trị R2 cao một dấu hiệu
cho thấy mối liên hệ giữa các tiêu chí và biến
số SHL chặt chẽ, hình sử dụng để phân
tích khả năng giải thích càng tốt các khác
biệt về độ hài lòng giữa các hộ dùng nước.
3.2. Kết quả thực nghiệm
Hình 1 hiển thị độ đo sự quan trọng của 34
tiêu chí được sắp xếp theo chiều giảm dần,
các độ đo này được tính theo công thức (6) từ
rừng ngẫu nhiên. Ta thấy các tiêu chí như
SDC2, HH7, HH1, DDU3 độ quan trọng
cao, trong đó SDC2="Không bất cứ ai
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5
111
Tổ chức cung cấp nước quan tâm đến những
bức xúc của ông về dịch vụ tưới, tiêu"
độ quan trọng cao nhất. Kết quả của 4 tiêu
chí trên thể giải trong dịch vụ cung
cấp nước tưới tiêu, hộ dùng nước quan tâm
nhất đến các hệ thống tưới tiêu chất lượng
tốt sự đồng cảm với khách hàng, độ đáp
ứng của đơn vị cung cấp nước, bao gồm
những yếu tố như duy tu, bảo dưỡng được
thực hiện đầy đủ đều đặn, sửa chữa sự cố
ngay khi công trình hư hỏng hoặc xuống cấp,
thực hiện đúng lịch cấp nước, cung cấp tối đa
khả năng cấp nước, đáp ứng tốt nhu cầu theo
từng giai đoạn sinh trưởng phát triển của
cây trồng, chất lượng nước được đảm bảo.
Bảng 1. Kết quả của các mô hình hồi quy
dự đoán độ hài lòng về chất lượng
dịch vụ tưới tiêu
Mô hình
hồi quy
Tất cả
34 tiêu chí
Chọn 4
tiêu chí
R2
RMSE
RMSE
Hồi quy
tuyến tính
86.7
0.24
0.3
Rừng ngẫu
nhiên
93.2
0.18
0.25
Bảng 1 liệt kê kết quả sử dụng mô hình hồi
quy tuyến tính rừng ngẫu nhiên. Ta thấy
hình rừng ngẫu nhiên cho kết quả vượt
trội so với nh tuyến tính. Dựa vào hình
1, bốn tiêu chí SDC2, HH7, HH1 DDU3
được chọn với các hệ số hồi quy như sau:
SHL=-0.195+0.0248SDC2+0.516HH7+
+ 0.118HH1+0.387DDU3.
Việc chọn 4 bỏ đi 30 tiêu chí nhưng hệ
số xác định bội R2 vẫn đạt trên 80% kết
quả chấp nhận được, điều này chứng tỏ
phương pháp rừng ngẫu nhn hữu hiệu cho
bài toán lựa chọn tiêu chí nhằm dự đoán mức
độ hài lòng của các hộ dùng nước tưới tiêu.
4. KẾT LUẬN
Chúng tôi đã trình bày phương pháp rừng
ngẫu nhiênđể lựa chọn tiêu chí dùng đ dự
đoán mức độ hài lòng của các hộ dùng nước
liên quan đến dịch vụ tưới tiêu tại đồng bằng
sông Hồng. Kết quả thực nghiệm cho thấy độ
đo sự quan trọng của các tiêu chí được tính
toán từ rừng ngẫu nhiên hiển thị trực quan
giúp nhà quản nắm bắt thông tin cần thiết
để nâng cấp dịch vụ tưới tiêu. Bốn tiêu chí
được chọn bỏ 30 tiêu chí từ dữ liệu ban
đầu nhưng R2 vẫn đạt trên 80%, điều này
giúp tiết kiệm nhiều chi phí trong c bài
toán kinh tế. Trong tương lai, chúng tôi sẽ áp
dụng kết quả nghiên cứu mở rộng cho các bài
toán kinh tế những bài toán liên quan đến
dự đoán với số chiều cao ở Việt Nam.
5. TÀI LIỆU THAM KHẢO
[1] Arun Parasuraman, L. L. (1991).
Refinement and reassessment of the
servqual scale. Journal of retailing.
[2] Breiman, L. (2001). Random forests.
Journal of Machine learning, 45(1), 532.
[3] Dimitriadou, K., Hornik, K., Leisch, F.,
Meyer, D., & Weingessel, A. (2012).
e1071: Misc functions of the department.
[4] Tuv, E., Borisov, A., Runger, G., &
Torkkola, K. (2009). Feature Selection with
Ensembles, Artificial Variables, and. The
Journal of Machine Learning, 10, 1341-
1366.
[5] Vapnik, V. (1995). The Nature of Statistical
Learning Theory. New York: Springer-
Verlag New York.
[6] Max Kuhn. Building predictive models in r
using the caret package. Journal of
Statistical Software, 28(5):126, 2008.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5
112