Lựa chọn tiêu chí đánh giá sự hài lòng của các hộ dùng nước tưới tiêu sử dụng mô hình rừng ngẫu nhiên

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5

109

LỰA CHỌN TIÊU CHÍ ĐÁNH GIÁ SỰ HÀI LÒNG

CỦA CÁC HỘ DÙNG NƯỚC TƯỚI TIÊU

SỬ DỤNG MÔ HÌNH RỪNG NGẪU NHIÊN

Đỗ Văn Quang1, Nguyễn Thanh Tùng2

1Đại học Thủy lợi, email: quangkttl@tlu.edu.vn

2Đại học Thủy lợi, email: tungnt@tlu.edu.vn

1. GIỚI THIỆU CHUNG

Với mỗi hệ thống tưới tiêu cụ thể tại Việt

Nam, việc đánh giá mức độ hài lòng của các

hộ dùng nước tác động lớn đến chính sách

thủy lợi phí của Chính phủ. Từ những nghiên

cứu, phân tích định lượng liên quan đến sự hài

lòng của người dân giúp Chính phủ điều chỉnh

chính sách thủy lợi phí phù hợp nhằm nâng cao

chất lượng dịch vụ tưới tiêu nông nghiệp.

Xét mô hình hồi quy tổng quát để giải bài

toán xác định mức độ hài lòng của các hộ dân

dùng dịch vụ nước tưới tiêu, thông thường

được viết như sau:

Y = f(X) + ϵ, (1)

trong đó ϵ là lỗi của mô hình,

E(ϵ)= 0, Var(ϵ)= σϵ

2. Tập dữ liệu đầu vào

ℒ = (Xi, Yi)i=1

N dùng để xây dựng mô hình

hồi quy được thu thập, khảo sát độc lập từ

các hộ dùng nước với các tiêu chí quan sát X

(predictor features) và biến đích Y (response

feature) lưu giá trị đánh giá mức độ hài lòng

của các hộ dùng nước. Ở đây, M là số chiều

của tập dữ liệu đầu vào và N là số mẫu thu

thập được. Mục tiêu của bài toán hồi quy là

tìm mô hình mà giá trị ước lượng của nó

được dự đoán bởi hàm f(∙) có trung bình sai

số bình phương (mean squared errors) càng

nhỏ càng tốt. Các mô hình hồi quy trình bày

trong bài báo này được dùng như 1 hàm

f: ℝM→ ℝ1 ước lượng giá trị y ∈ Y tương

ứng với dữ liệu đầu vàox ∈ ℝM. Trong

nghiên cứu này, mô hình hồi quy rừng ngẫu

nhiên(Breiman, 2001) được nghiên cứu để

phân tích và lựa chọn tiêu chí dùng để dự

đoán mức độ hài lòng của người dân tại vùng

đồng bằng sông Hồng, sau đó mô hình hồi

quy tuyến tính được sử dụng để tìm hệ số của

phương trình hồi quy.

2. PHƯƠNG PHÁP RỪNG NGẪU NHIÊN

Rừng ngẫu nhiên hồi quy (RF) gồm tập

hợp các cây hồi quy(Breiman, 2001). Từ tập

dữ liệu đầu vào ℒ, RF dùng kỹ thuật lấy mẫu

bootstrap có hoàn lại tạo ra nhiều tập dữ liệu

khác nhau. Trên mỗi tập dữ liệu con này, lấy

ngẫu nhiên một lượng cố định thuộc tính,

thường gọi là mtry để xây dựng cây. Mỗi cây

hồi quy được xây dựng không cắt nhánh với

chiều cao tối đa. Việc lấy hai lần ngẫu nhiên

cả mẫu và thuộc tính đã tạo ra các tập dữ liệu

con khác nhau giúp RF giảm độ dao động

(variance) của mô hình học.

2.1. Xây dựng rừng ngẫu nhiên

Việc xây dựng rừng ngẫu nhiên hồi quy và

dự đoán mẫu mới được mô tả như sau. Đặt

Θ = {𝜃𝑘}1

𝐾 là tập gồm K các véc-tơ tham số

ngẫu nhiên cho rừng được sinh ra từ ℒ, trong

đó 𝜃𝑘 là một véc-tơ tham số ngẫu nhiên để

xác định độ lớn của cây thứ 𝑘 trong rừng

(k = 1. . . K). Gọi ℒ𝑘 là tập dữ liệu thứ 𝑘 sinh

ra từ ℒ dùng kỹ thuật bootstrap, trong mỗi

cây hồi quy 𝑇𝑘 từ ℒ𝑘, ta tính trọng số dương

𝑤𝑖(𝑥𝑖, 𝜃𝑘) cho từng mẫu 𝑥𝑖∈ ℒ. Đặt

𝑙(𝑥, 𝜃𝑘, 𝑡) là nút lá 𝑡 trong cây 𝑇𝑘. Mẫu 𝑥𝑖∈

𝑙(𝑥, 𝜃𝑘, 𝑡) được gán cùng một trọng số

𝑤𝑖(𝑥, 𝜃𝑘)= 1/𝑁(𝑡), trong đó 𝑁(𝑡) là số các

mẫu trong 𝑙(𝑥, 𝜃𝑘, 𝑡). Trong trường hợp này,

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5

110

Hình 1. Độ đo sự quan trọng của

các tiêu chí.

tất cả các mẫu trong ℒ𝑘 được gán trọng số

dương và các mẫu không trong ℒ𝑘 được gán

bằng 0.

Với một cây hồi quy 𝑇𝑘, khi có giá trị

thử nghiệm 𝑋 = 𝑥 thì giá trị dự đoán 𝑌

𝑘

tương ứng:

𝑌

𝑘=∑𝑤𝑖(𝑥, 𝜃𝑘)𝑌

𝑖

𝑁

𝑖=1 =

∑𝑤𝑖(𝑥, 𝜃𝑘)𝑌

𝑖.

𝑥𝑖,𝑋𝑖∈𝑙(𝑥,𝜃𝑘,𝑡) (2)

Trọng số 𝑤𝑖(𝑥) được tính bởi rừng ngẫu

nhiên là giá trị trung bình của các trọng số dự

đoán của tất cả các cây trong rừng. Công thức

tính như sau:

𝑤𝑖(𝑥)=1

𝐾∑𝑤𝑖(𝑥, 𝜃𝑘).

𝐾

𝑘=1 (3)

Cuối cùng, giá trị dự đoán của rừng ngẫu

nhiên hồi quy được cho bởi:

𝑌

=∑𝑤𝑖(𝑥)𝑌

𝑖.

𝑁

𝑖=1 (4)

2.2. Độ đo sự quan trọng của thuộc tính

Với mô hình rừng ngẫu nhiên, độ đo sự

quan trọng của thuộc tính 𝑋 được tính bằng

cách lấy giá trị trung bình của tất cả các độ

đo của các cây hồi quy độc lập. Có một điểm

lợi trong việc tính độ đo sự quan trọng của

thuộc tính dùng mô hình rừng ngẫu nhiên là

độ đo của các biến có tương tác lẫn nhau đều

được xem xét một cách tự động, điều này

khác hẳn với những phương pháp tính tương

quan tuyến tính như Kendall, Pearson. Gọi

𝐼𝑆𝑘(𝑋𝑗), 𝐼𝑆𝑋𝑗lần lượt là độ đo sự quan trọng

của thuộc tính Xj trong một cây hồi quy

Tk(k=1...K) và trong một rừng ngẫu nhiên.

Việc tách nhánh trên thuộc tính 𝑋 được xác

định bởi việc giảm sự hỗn tạp tại nút 𝑡, ký

hiệu ∆𝐼(𝑋, 𝑡). Ta tính độ đo sự quan trọng

của Xj từ cây hồi quy độc lập như sau:

𝐼𝑆𝑘(𝑋𝑗)=∑Δ𝐼(𝑋𝑗, 𝑡),

𝑡∈𝑇𝑘 (5)

và từ rừng ngẫu nhiên là:

𝐼𝑆𝑋𝑗=1

𝐾∑𝐼𝑆𝑘

𝐾

𝑘=1 (𝑋𝑗). (6)

3. KẾT QUẢ NGHIÊN CỨU

3.1. Dữ liệu và tham số mô hình

Dữ liệu dùng trong bài báo này được mô tả

ở phần phụ lục. Các tiêu chí đo lường chất

lượng dịch vụ ở trên được lấy theo mô hình

Servqual do Parasuraman và đồng nghiệp đề

xuất(Arun Parasuraman, 1991), phương pháp

Cronbach Alpha cũng được dùng để kiểm

định độ tin cậy của các biến, tiền xử lý chúng

trước khi đưa vào các mô hình hồi quy để

huấn luyện.

Gói phần mềm caret (Kuhn, 2008) được

sử dụng để tiến hành các thực nghiệm trên

môi trường R, mô hình hồi quy đều được tích

hợp trong gói phần mềm này.

Khi xây dựng mô hình hồi quy, chúng tôi

sử dụng kỹ thuật kiểm tra chéo 10-fold với 2

lần lặp và dựa trên hàm lỗi RMSE (căn sai số

bình phương trung bình) để tìm tham số tối

ưu của từng mô hình. Tham số của RF là

mtry = 9 và K=1000. Kỹ thuật kiểm tra chéo

cũng cho phép tính hệ số xác định bội R2

phản ánh khả năng giải thích của từng mô

hình hồi quy. Giá trị R2 cao là một dấu hiệu

cho thấy mối liên hệ giữa các tiêu chí và biến

số SHL chặt chẽ, mô hình sử dụng để phân

tích có khả năng giải thích càng tốt các khác

biệt về độ hài lòng giữa các hộ dùng nước.

3.2. Kết quả thực nghiệm

Hình 1 hiển thị độ đo sự quan trọng của 34

tiêu chí được sắp xếp theo chiều giảm dần,

các độ đo này được tính theo công thức (6) từ

rừng ngẫu nhiên. Ta thấy các tiêu chí như

SDC2, HH7, HH1, DDU3 có độ quan trọng

cao, trong đó SDC2="Không có bất cứ ai ở

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5

111

Tổ chức cung cấp nước quan tâm đến những

bức xúc của ông bà về dịch vụ tưới, tiêu" có

độ quan trọng cao nhất. Kết quả của 4 tiêu

chí trên có thể lý giải là trong dịch vụ cung

cấp nước tưới tiêu, hộ dùng nước quan tâm

nhất đến các hệ thống tưới tiêu có chất lượng

tốt và sự đồng cảm với khách hàng, độ đáp

ứng của đơn vị cung cấp nước, nó bao gồm

những yếu tố như duy tu, bảo dưỡng được

thực hiện đầy đủ và đều đặn, sửa chữa sự cố

ngay khi công trình hư hỏng hoặc xuống cấp,

thực hiện đúng lịch cấp nước, cung cấp tối đa

khả năng cấp nước, đáp ứng tốt nhu cầu theo

từng giai đoạn sinh trưởng và phát triển của

cây trồng, chất lượng nước được đảm bảo.

Bảng 1. Kết quả của các mô hình hồi quy

dự đoán độ hài lòng về chất lượng

dịch vụ tưới tiêu

Mô hình

hồi quy

Tất cả

34 tiêu chí

Chọn 4

tiêu chí

RMSE

Hồi quy

tuyến tính

86.7

0.24

82.3

0.3

Rừng ngẫu

nhiên

93.2

0.18

86.7

0.25

Bảng 1 liệt kê kết quả sử dụng mô hình hồi

quy tuyến tính và rừng ngẫu nhiên. Ta thấy

mô hình rừng ngẫu nhiên cho kết quả vượt

trội so với mô hình tuyến tính. Dựa vào hình

1, bốn tiêu chí SDC2, HH7, HH1 và DDU3

được chọn với các hệ số hồi quy như sau:

SHL=-0.195+0.0248SDC2+0.516HH7+

+ 0.118HH1+0.387DDU3.

Việc chọn 4 và bỏ đi 30 tiêu chí nhưng hệ

số xác định bội R2 vẫn đạt trên 80% là kết

quả chấp nhận được, điều này chứng tỏ

phương pháp rừng ngẫu nhiên hữu hiệu cho

bài toán lựa chọn tiêu chí nhằm dự đoán mức

độ hài lòng của các hộ dùng nước tưới tiêu.

4. KẾT LUẬN

Chúng tôi đã trình bày phương pháp rừng

ngẫu nhiênđể lựa chọn tiêu chí dùng để dự

đoán mức độ hài lòng của các hộ dùng nước

liên quan đến dịch vụ tưới tiêu tại đồng bằng

sông Hồng. Kết quả thực nghiệm cho thấy độ

đo sự quan trọng của các tiêu chí được tính

toán từ rừng ngẫu nhiên và hiển thị trực quan

giúp nhà quản lý nắm bắt thông tin cần thiết

để nâng cấp dịch vụ tưới tiêu. Bốn tiêu chí

được chọn và bỏ 30 tiêu chí từ dữ liệu ban

đầu nhưng R2 vẫn đạt trên 80%, điều này

giúp tiết kiệm nhiều chi phí trong các bài

toán kinh tế. Trong tương lai, chúng tôi sẽ áp

dụng kết quả nghiên cứu mở rộng cho các bài

toán kinh tế và những bài toán liên quan đến

dự đoán với số chiều cao ở Việt Nam.

5. TÀI LIỆU THAM KHẢO

[1] Arun Parasuraman, L. L. (1991).

Refinement and reassessment of the

servqual scale. Journal of retailing.

[2] Breiman, L. (2001). Random forests.

Journal of Machine learning, 45(1), 5–32.

[3] Dimitriadou, K., Hornik, K., Leisch, F.,

Meyer, D., & Weingessel, A. (2012).

e1071: Misc functions of the department.

[4] Tuv, E., Borisov, A., Runger, G., &

Torkkola, K. (2009). Feature Selection with

Ensembles, Artificial Variables, and. The

Journal of Machine Learning, 10, 1341-

1366.

[5] Vapnik, V. (1995). The Nature of Statistical

Learning Theory. New York: Springer-

Verlag New York.

[6] Max Kuhn. Building predictive models in r

using the caret package. Journal of

Statistical Software, 28(5):1–26, 2008.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN: 978-604-82-1710-5

112

Lựa chọn tiêu chí đánh giá sự hài lòng của các hộ dùng nước tưới tiêu sử dụng mô hình rừng ngẫu nhiên

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok