Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
523
ỨNG DỤNG MÔ HÌNH HỌC MÁY LINEAR REGRESSION (LR)
VÀ RANDOM FOREST (RF) VÀ K-NEAREST NEIGHBORS (KNN)
TRONG DỰ BÁO MỰC NƯỚC HỆ THỐNG SÔNG HẬU -
ĐỒNG BẰNG SÔNG CỬU LONG
Trần Đăng An1, Thái Hữu Hùng1, Trần Xuân Thủy2, Triệu Ánh Ngọc1
1Trường Đại hc Thy li, email: ngocta@tlu.edu.vn
2Vin Công ngh Tài nguyên nước và Môi trường
1. GIỚI THIỆU CHUNG
Dự báo mực nước là yếu tố quan trọng trong
quản lý tài nguyên nước, phòng chống thiên tai
quy hoạch đô thị. Các phương pháp truyền
thống như hình toán học, thủy văn thủy
lực gặp nhiều hạn chế do yêu cầu dữ liệu chi
tiết độ phức tạp cao [1] [2] [3]. Trong bối
cảnh đó, các hình học máy (Machine
Learning) đã được phát triển ứng dụng như
công cụ hữu ích trong việc xử lượng dữ liệu
lớn và học từ các mẫu dữ liệu lịch sử để dự báo
chính xác các thông số khí tượng thủy văn
môi trường. Trong đó, phương pháp hồi quy
tuyến tính (Linear Regression - LR) được xem
hiệu quả nhờ sự đơn giản khả năng áp
dụng rộng rãi [4]. Nhiều nghiên cứu đã khẳng
định hiệu quả của Machine Learning trong dự
báo mực nước. Mosavi et al. (2018) đã áp dụng
Machine Learning để dự báo mực nước
đạt độ chính xác cao hơn so với các phương
pháp truyền thống với chỉ số xác định R2 >
0,85 và hệ số sai số < 0,2 [5].
Trong nghiên cứu này, ba phương pháp: K-
Nearest Neighbors (KNN), Linear Regression
(LR) Random Forest Regression (RFR),
được sử dụng để phân tích độ tin cậy, tính
chính xác của từng phương pháp. Trạm thủy
văn Cần Thơ (trên sông Hậu) được sử dụng
để dự báo mực nước trong vòng 6 tháng để
làm ưu điểm hạn chế của các phương
pháp, khẳng định tính khả thi hiệu quả
của Machine Learning trong quản tài
nguyên nước.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Nhóm nghiên cứu sử dụng ba phương
pháp: (a) K-Nearest Neighbors (KNN), (b)
Linear Regression (LR), (c) Random Forest
Regression.
Hình 1. Phương pháp hi quy KNN (a),
LR (b) và RFR (c)
(a) K-Nearest Neighbors (KNN) - Phương
pháp này dự đoán giá trị của một mới bằng
cách dựa vào thông tin từ K điểm dữ liệu gần
nhất trong tập huấn luyện (K-lân cận).
(b) Linear Regression (LR) - Phương pháp
này tìm một đường thẳng (hoặc siêu phẳng
trong trường hợp đa biến) phù hợp nhất với
dữ liệu, nhằm dự đoán giá trị của biến phụ
thuộc dựa trên giá trị của biến độc lập.
(c) Random Forest Regression (RFR) -
Phương pháp này tổng hợp kết quả từ nhiều
cây quyết định đơn lẻ, từ đó nâng cao hiệu
quả dự báo thông qua hình thức biểu quyết đa
số hoặc tính trung bình kết quả, tùy theo từng
bài toán cụ thể.
Để đánh giá mức độ dự báo chính xác của
các hình hồi quy, các tiêu chí đánh giá
sau đây được sử dụng: hệ số sai số - NSR (1),
RMSE (2). hệ số độ chính xác - R2 (3),
NSE (4) WS (5). Công thức được thể hiện
dưới đây:
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
524
2
2
(
)
)
(

ii
i
CaObs
SSE
NSR SST Ob Obss
l (1)
2
1()
ii
RMSE Obs Cal
n (2)
2
1
2
22
11
(
(
).( )
). )(






n
ii
i
nn
ii
ii
Obs
Obs Ca
Obs Cal Cal
R
Obs Call
(3)


2
2
1

ii
i
Obs Cal
O
N
Obs bs
SE (4)


2
1
2
1
1


N
ii
i
N
ii
i
Obs Cal
WS
Cal O bsbsObs O
(5)
trong đó: Obs giá trị thực đo, Cal giá trị
tính toán.
Sông Hậu chịu tác động lớn từ các dòng
chảy phụ lưu đổ vào, do đó việc dự báo mực
nước tại trạm thủy văn Cần Thơ cần xem xét
các yếu tố này nhằm nâng cao hiệu quả của
mô hình dự báo.
Hình 2. H thng sông ti Đồng bng
sông Cu Long và các trm khí tượng,
thy văn trong khu vc
Trạm Cần Thơ nằm giữa đoạn sông Hậu
(Đồng bằng sông Cửu Long) và biển, chịu tác
động rất lớn của triều Biển Đông và lưu lượng
thượng nguồn. Nhằm nâng cao độ chính xác
tin cậy trong tính toán, hai trạm thủy văn
thượng nguồn (Châu Đốc Long Xuyên)
được đưa o hình như hai biến độc lập
trong huấn luyện dự báo mực nước tại trạm
Cần Thơ.
3. KẾT QUẢ NGHIÊN CỨU
Chuỗi dữ liệu mực nước theo giờ thu thập
10 năm từ 01/01/2013 đến 31/12/2022 cho 3
trạm (Tân Châu, Long Xuyên Cần Thơ)
được sử dụng trong nghiên cứu này. Trong
đó, chuỗi dữ liệu 01/01/2013 đến 31/12/2021
(9 năm) tại Châu Đốc Long Xuyên được
sử dụng để huấn luyện các hình học máy
(Machine Learning), mực nước từ
01/01/2022 đến 31/06/2022 tại Trạm Cần
Thơ để kiểm định đánh giá độ tin cậy của
các hình dự báo trong thời đoạn này. Kết
quả được thể hiện tại hình 3, 4, 5, 6, 7, 8.
Hình 3. Đường quá trình mc nước gia
kết qu d báo bng phương pháp LR
và thc đo ti trm Cn Thơ
Hình 4. Đường quá trình mc nước gia
kết qu d báo bng phương pháp RFR
và thc đo ti trm Cn Thơ
Hình 5. Đường quá trình mc nước gia
kết qu d báo bng phương pháp KNN
và thc đo ti trm Cn Thơ
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
525
Hình 6. Biu đồ so sánh độ chính xác
ca mô hình gia các ch s
Hình 7. Biu đồ so sánh mc độ sai s
ca mô hình gia các ch s
Hình 8. Biu đồ Taylor th hin độ chính xác
ca mô hình vi giá tr thc đo
Kết quả cho thấy, cả ba phương pháp đều
độ tin cậy chính xác cao trong dự báo
mực nước với = 0,988, NSE = 0,985
(KNN), với = 0,984, NSE = 0,982 (RFR)
= 0,98, NSE = 0,975 (LR). Hơn nữa,
kết quả đạt được chỉ ra rằng mô hình KNN có
độ độ chính xác tốt nhất qua các chỉ số R²,
NSE, đồng thời đạt được các hệ số sai số
nhỏ nhất (RMSE = 0,08, NSR = 0.015). Khả
năng phỏng mối quan hệ phi tuyến tính
trong dữ liệu giúp KNN dự báo chính xác
hơn. RFR cũng đạt kết quả tốt nhờ việc kết
hợp nhiều cây quyết định. LR, dựa trên tính
toán mối quan hệ tuyến tính giữa các biến
đc lp và biến ph thuc, tuy đơn gin
nhưng vẫn đạt hiệu suất tốt.
4. KẾT LUẬN
Trong nghiên cứu này, ba hình dự
đoán mực nước theo giờ tại trạm Cần Thơ
trên sông Hậu đã được xây dựng dựa trên các
phương pháp hồi quy LR, RFR KNN. Bộ
dữ liệu từ hai trạm Châu Đốc Long Xuyên
được sử dụng để huấn luyện và kiểm định các
hình. Kết quả cho thấy hình KNN
khả năng dự báo chính xác nhất, thể hiện qua
các chỉ số thống R², NSE, và RMSE. Điều
này khẳng định độ tin cậy tính chính xác
của KNN. Mặc hiệu quả hình phụ
thuộc vào việc xác định chính xác điểm khởi
nguồn, nhưng phương pháp máy học đã minh
chứng (1) công cụ hiệu quả để theo dõi
dự báo biến động mực nước, (2) đơn giản
hơn so với các mô hình toán truyền thống
vẫn đảm bảo độ chính xác cao.
5. TÀI LIỆU THAM KHẢO
[1] Beven, K. (2012). Rainfall-Runoff
Modelling: The Primer. John Wiley & Sons.
[2] Wheater, H., & Sorooshian, S. (2008).
Hydrological Modelling in Arid and Semi-
Arid Areas. Cambridge University Press.
[3] Chow, V. T., Maidment, D. R., & Mays, L.
W. (1988). Applied Hydrology. McGraw-Hill.
[4] Shortridge, J. E., & Guikema, S. D. (2016).
Machine Learning Methods for Hydrologic
Flood Forecasting: A Review. Environmental
Modelling & Software, 83, 214-228.
[5] Mosavi, A., Ozturk, P., & Chau, K. W.
(2018). Flood Prediction Using Machine
Learning Models: Literature Review.
Water, 10(11), 1536.