Dự báo mực nước sông Cần Thơ dựa vào đặc trưng dòng chảy và phương pháp tập hợp mô hình

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

16
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Với mô hình LSTM, mực nước sông có thể được dự báo dựa vào mực nước của các thời điểm trước đó. Tuy nhiên, mực nước sông còn chịu ảnh hưởng bởi độ trễ của dòng chảy giữa các trạm và lượng mưa tại thời điểm thu thập dữ liệu để dự báo. Hệ thống dự báo mực nước dựa trên các phương pháp tập hợp mô hình và đặc trưng dòng chảy được thực nghiệm và đề xuất trong nghiên cứu này.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự báo mực nước sông Cần Thơ dựa vào đặc trưng dòng chảy và phương pháp tập hợp mô hình

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0041 DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DÒNG CHẢY VÀ PHƯƠNG PHÁP TẬP HỢP MÔ HÌNH Trần Nguyễn Minh Thư1, Nguyễn Duy Khương2, Phạm Xuân Hiền1, Nguyễn Hồng Hải3 1 Khoa CNTT&TT, Trường Đại học Cần Thơ 2 Trường Đại học kỹ Thuật - Công nghệ Cần Thơ 3 Trung tâm Thủy văn sông Cửu Long tnmthu@ctu.edu.vn, ndkhuong@ctuet.edu.vn, pxhien@ctu.edu.vn, ghaikstv@gmail.com TÓM TẮT: Với mô hình LSTM, mực nước sông có thể được dự báo dựa vào mực nước của các thời điểm trước đó. Tuy nhiên, mực nước sông còn chịu ảnh hưởng bởi độ trễ của dòng chảy giữa các trạm và lượng mưa tại thời điểm thu thập dữ liệu để dự báo. Hệ thống dự báo mực nước dựa trên các phương pháp tập hợp mô hình và đặc trưng dòng chảy được thực nghiệm và đề xuất trong nghiên cứu này. Mực nước tại trạm Cần Thơ được dự báo dựa trên thông tin mực nước của các trạm trước đó đặt tại Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận. Dữ liệu mực nước và lượng mưa thu thập hàng giờ trong năm 2012-2015 được dùng để huấn luyện mô hình; dữ liệu năm 2016 và 2020 dùng để kiểm tra đánh giá mô hình đề xuất. Dữ liệu mực nước của 72 giờ trước đó của 1 trạm, 5 trạm, kết hợp độ trễ hay kết hợp thông tin lượng mưa được sử dụng để dự đoán mực nước trạm Cần Thơ cho 1h, 12h, 24h tiếp theo. Kết quả cho thấy sai số RMSE cho mô hình Stacking dự đoán 12h là 8.2; 24h là 8.6 so với mô hình LSTM đã đề xuất trong nghiên cứu trước đó cho lần lượt dự đoán 12h, 24h là 9.9 cm và 9.7 cm. Từ khóa: Phương pháp tập hợp mô hình, dự báo mực nước. I. GIỚI THIỆU Trong những năm gần đây, dưới sự tác động của con người nhằm cải tạo, thay đổi những quy luật của tự nhiên thì tình trạng hạn hán và ngập lụt tăng cao, mực nước sông thay đổi phức tạp và khó đoán. Việc xây dựng một hệ thống dự báo mực nước để có sự chuẩn bị ứng phó các tác động xấu, giảm sự thiệt hại về kinh tế và đời sống của người dân là thực sự cần thiết. Các giải thuật máy học được sử dụng để xây dựng những hệ thống dự đoán mực nước áp dụng vào thực tế góp phần giảm thiểu các thiệt hại có thể xảy ra. Trong nghiên cứu của Carl Steidley và các cộng sự [1] đã áp dụng mô hình mạng nơron nhân tạo để dự báo mực nước tại trạm Rockport, Texas, Tây Nam Hoa Kỳ. Nghiên cứu này kết hợp dữ liệu mực nước 24 giờ trước đó tại trạm Rockport, Bob Hall Pier và tốc độ gió và hướng gió 12 giờ trước đó tại Bob Hall Pier để dự báo biến đổi mực nước thủy triều của trạm Rockport trong 3 giờ, 12 giờ, 24 giờ và 48 giờ tiếp theo. Tập dữ liệu TCOON thu thập trong khoảng thời gian năm 1997-2001 được sử dụng để huấn luyện và kiểm thử mô hình. Hiệu quả của mô hình được đánh giá dựa trên chí số trung bình tần số trung tâm (CF) - một số liệu thống kê đánh giá đề xuất bởi “National Ocean Service”. Chỉ số CF chính là tỷ lệ dự đoán nằm trong phạm vi ±X cm so với số đo thực tế và trên 90% kết quả thực nghiệm phải đạt trong phạm vi này. Các kết quả thu được cho thấy khả năng dự đoán của ANN mang tính khả thi với độ chính xác là 99,59% cho dự báo 3 giờ, 99,20% cho dự báo 12 giờ, 97,85% cho dự báo 24 giờ và 91,33% cho dự báo 48 giờ với CF (X=15 cm). Năm 2007, Bang-Fuh Chen và cộng sự [2] đã sử dụng mực nước của 1 trạm để huấn luyện mô hình ANN nhằm dự báo mực nước của 1 trạm khác có cùng chế độ thủy triều cho mực nước ven biển. Mô hình Kaohsiung (KH) - Manila (ML), sử dụng số liệu thủy triều của năm 1994 (8757 giá trị mực nước) của trạm KH làm dữ liệu đầu vào, dữ liệu đầu ra là trạm ML, tập dữ liệu được chia ra nhiều phần để sử dụng cho huấn luyện và kiểm thử mô hình, đánh giá mô hình bằng hệ số tương quan r và sai số RMSE lần lượt là r = 0.931, RMSE = 3-12 cm. Nhằm khắc phục những hạn chế của mô hình ANN đối với dữ liệu chuỗi thời gian, mô hình LSTM (Long short- term memory) được ứng dụng để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng [3]. Trong nghiên cứu này, các tác giả đã thiết lập mô hình để dự báo mực nước trước 5 giờ với sai số RMSE=17,7 cm cho trạm Quang Phục và RMSE= 18,5 cm cho trạm Cửa Cấm. Dữ liệu đầu vào cho mô hình LSTM là mực nước thực đo tại các trạm thuỷ văn trong 6 giờ trước đó với số lượng lớp ẩn là 10, 20, 50 và số lượng Epoch là 10.000, 20.000 và 50.000. Bên cạnh những giải thuật dựa trên mạng nơron, các phương pháp tập hợp mô hình cũng được sử dụng để cải thiện những hạn chế của mô hình đơn nhằm nâng cao hiệu quả dự đoán cũng được thực hiện. Nghiên cứu của Nguyên Thanh Tùng và Nguyễn Khắc Tiên Phước [4] về dự đoán mực nước trên sông Mê Kông. Nghiên cứu sử dụng mô hình hồi quy phi tuyến rừng ngẫu nghiên với tập dữ liệu huấn luyện thu thập được trong mùa lũ các năm 1994 - 1997 và tập dữ liệu đánh giá thu thập từ năm 1998 - 2000. Kịch bản được tác giả đưa ra là dự đoán mực nước 5 ngày sau tại trạm Thakhek từ thông tin dữ liệu 3 ngày trước tại trạm Thakhek, NongKhai và lượng mưa trung bình trên lưu vực giữa Nông Khai và Thakhek của 3, 5 và 7 ngày gần nhất. Kết quả thực nghiệm thu được cho dự đoán mực nước 5 ngày tiếp theo có sai số là MAE = 53,91 cm. Năm 2020, tác giả Changhyun Choi và các cộng sự, sử dụng phương pháp tập hợp mô hình để dự báo mực nước tại vùng đầm lầy Upo, Hàn Quốc [5]. Nghiên cứu sử dụng dữ liệu mực nước tại Upo từ ngày 01 tháng 4 năm 2009 đến 31 tháng 3 năm 2015 với mỗi lần đo cách nhau 10 phút để thực nghiệm và đánh giá mô hình đề xuất. Dữ liệu từ 2009 đến 31 tháng 3 năm 2013 được sử dụng làm dữ liệu huấn luyện và dữ liệu còn lại làm dữ
44 DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DÒNG CHẢY… liệu kiểm tra. Ngoài dữ liệu mực nước, tác giả cũng kết hợp với nhiều dữ liệu độc lập khác như nhiệt độ trung bình hằng ngày, nhiệt độ tối thiểu hằng ngày, nhiệt độ tối đa hằng ngày, lượng mưa hàng ngày, tốc độ gió tức thời tối đa hàng ngày, tốc độ gió trung bình hàng ngày của trạm Changnyeong và dữ liệu mực nước được đo tại bờ kè Mokpo và trạm bơm thoát nước Shindang. Mô hình xây dựng sử dụng dữ liệu của 3 ngày trước đó để dự đoán cho mực nước 1 ngày sau đó. Kết quả thực nghiệm thu được cho thấy, mô hình Random Forest với 492 cây đạt kết quả tốt nhất với sai số dự đoán RMSE = 9 cm so với máy học vectơ hỗ trợ (RMSE = 12 cm); mạng nơron (RMSE = 15 cm) và cây quyết định (RMSE = 13 cm). Trong nghiên cứu trước đây, chúng tôi đã áp dụng mô hình Long short-term memory networks (LSTM) và dữ liệu quan trắc của 5 trạm trên sông Mê Kông để dự báo biến đổi mực nước tại Cần Thơ trong 6 giờ tiếp theo [6]. Dữ liệu được thu thập trong 5 năm từ ngày 01 tháng 01 năm 2012 đến ngày 31 tháng 12 năm 2016 với khoảng thời gian giữa 2 lần quan trắc là 1 giờ đã được sử dụng để huấn luyện và kiểm thử mô hình LSTM. Kết quả thu được dựa trên mực nước của 24 giờ trước đó để dự báo cho 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ và 6 giờ sau đó cho thấy tính khả thi của mô hình LSTM thông qua chỉ số Root Mean Squared Error - RMSE được sử dụng để đánh giá độ chính xác với 1 trạm đầu vào (trạm Cần Thơ) là 5.46 cm và với 4 trạm đầu vào (4 trạm còn lại) là 4.96 cm. Mô hình đưa ra dự đoán tương đối chính xác. Tuy nhiên, tác giả chỉ sử dụng giá trị mực nước tại năm trạm đo để dự báo mực nước tại trạm Cần Thơ mà không sử dụng các đặc trưng khác như: thủy triều, vị trí địa lý, lượng mưa,…. Với mong muốn nâng cao độ chính xác của dự báo, trong nghiên cứu này, chúng tôi bổ sung thêm các yếu tố khác ảnh hưởng mực nước như độ trễ dòng chảy theo địa lý, cũng như sử dụng dữ liệu lượng mưa để tăng độ chính xác của quá trình dự đoán cũng như sử dụng tiếp cận dựa trên các phương pháp tập hợp mô hình thay vì LSTM để xây dựng mô hình dự báo mực nước sông tại trạm Cần Thơ. Các giả thiết này được thực nghiệm dựa trên dữ liệu thực tế quan trắc tại các trạm Cần Thơ, Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận trong khoảng thời gian 2011-2016 và năm 2020. Phần tiếp theo của bài viết được tổ chức như sau: đặc điểm của dữ liệu mực nước sông Mê Kông và các phương pháp tập hợp mô hình trong Phần 2; thực nghiệm và đánh giá mô hình được giới thiệu ở Phần 3; và cuối cùng là kết luận và hướng phát triển của nghiên cứu. II. DỰ BÁO MỰC NƯỚC SỬ DỤNG PHƯƠNG PHÁP TẬP HỢP MÔ HÌNH Để dự báo mực nước tại trạm Cần Thơ, các đặc trưng về dữ liệu mực nước sông Cửu Long được tìm hiểu trước khi nghiên cứu phương pháp dự đoán. Thông tin độ trễ của dòng chảy cũng như lượng mưa được đặc biệt quan tâm. Các phương pháp tập hợp mô hình được ứng dụng để dự đoán mực nước dựa trên thông tin mực nước của các trạm thượng nguồn với những kịch bản đầu vào khác nhau. A. Các đặc trưng dữ liệu mực nước sông Cửu Long Sông Mê Kông dài khoảng 4.900 km, bắt nguồn từ vùng núi cao tỉnh Thanh Hải, theo suốt chiều dài tỉnh Vân Nam (Trung Quốc), qua các nước Myanmar, Thái Lan, Lào, Campuchia trước khi vào Việt Nam rồi đổ ra Biển Đông. Sông Mê Kông chảy vào Việt Nam chia làm 2 nhánh là Sông Tiền và Sông Hậu với chiều dài khoảng 270 km đổ ra biển Đông bằng 9 cửa nên còn gọi là sông Cửu Long. Dòng chảy vào Đồng bằng sông Cửu Long chịu tác động lớn của dòng chảy thượng nguồn, tốc độ chảy và truyền triều ở các trạm đo khác nhau do các đặc trưng thuỷ động lực học và môi trường [7, 8]. Trên sông bố trí rất nhiều các trạm đo đạc các yếu tố thủy văn để phục vụ cho phát triển kinh tế trong vùng, trong đó có 5 trạm thủy văn cơ bản quan trắc đầy đủ các yếu tố như mực nước, lưu lượng, chất lơ lửng là Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ Thuận nằm trên các tỉnh An Giang, Vĩnh Long và Cần Thơ (hình 1). Đây là dữ liệu quan trắc mực nước tại 5 trạm thủy văn có thể đại diện cho 80 % số trạm hiện có của hệ thống quan trắc ở Đồng bằng sông Cửu Long, dữ liệu được quan trắc hàng giờ theo tiêu chuẩn ngành: 94 TCN 1-2003 “Quy phạm quan trắc mực nước và nhiệt độ nước sông”. Hình 1. Vị trí các trạm thủy văn quan trọng trên sông Mê Kông
Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải 45 Dữ liệu mực nước quan trắc được tại 5 trạm như đã đề cập ở trên được tổ chức thành 6 cột: cột 1 là thời điểm quan trắc với định dạng “dd/mm/yyyy HH:00”, 5 cột tiếp theo là mực nước quan trắc được tương ứng 5 trạm theo thời điểm ở cột 1. Trị số mực nước này tính bằng “cm” biểu diễn độ cao của mực nước trên sông so với mặt chuẩn quốc gia. Khoảng thời gian giữa 2 lần quan trắc là 1 giờ, một năm (365 ngày) một trạm có 8760 trị số mực nước, tập dữ liệu đầu vào có độ lớn là 5 năm với 43.848 dòng dữ liệu. Bảng 1 là trích dữ liệu thu thập được từ 0h ngày 31/12/2013 đến 4h ngày 31/12/2013 tại 5 điểm Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ và Mỹ Thuận. Bảng 1. Dữ liệu mực nước quan trắc tại 5 trạm trên sông Mê Kông STT Thời gian Tân Châu Châu Đốc Vàm Nao Cần Thơ Mỹ Thuận 1 31/12/2013 0:00 167 146 125 116 105 2 31/12/2013 1:00 162 141 124 140 133 3 31/12/2013 2:00 160 139 136 155 144 4 31/12/2013 3:00 164 144 157 151 142 5 31/12/2013 4:00 179 165 176 130 120 Theo vị trí địa lý của các trạm quan trắc như hình 1, giá trị mực nước tại trạm Cần Thơ sẽ chậm hơn giá trị mực nước tại tạm Tân Châu, Châu Đốc và Vàm Nao. Để tìm ra tương quan mực nước giữa các trạm, “cross correlation” được sử dụng [13]. Để tìm mối tương quan giá trị mực nước đo được giữa trạm Cần Thơ và Châu Đốc, từng chuỗi giá trị mực nước 24 giờ của trạm Cần Thơ và trạm Châu Đốc trong năm 2015 được sử dụng. Cửa sổ trượt cho chuỗi 24 giờ là 12 giờ. Vị trí của giá trị “cross correlation” lớn nhất sẽ cho biết độ trễ của mực nước của trạm Cần Thơ so với trạm Châu Đốc. Ví dụ trong hình 2 cho thấy qua 10 lần quan sát mực nước trong khoảng 24 giờ của cả 2 trạm Châu Đốc và Cần Thơ thì mực nước trạm Cần Thơ trễ hơn mực nước trạm Châu Đốc là 4h theo một mẫu quan sát 24 giờ của 2 trạm này. Cross correlation Cần Thơ và Châu Đốc 200000 150000 100000 50000 0 10 12 14 16 18 20 22 24 -8 -6 -4 -2 0 2 4 6 8 -23 -21 -19 -17 -15 -12 -10 -50000 1 2 3 4 5 6 7 8 9 10 Hình 2. Tương quan mực nước giữa trạm Cần Thơ và Châu Đốc Tương tự như cách tính tương quan trạm Cần Thơ và Châu Đốc, dựa vào quan sát của cả năm 2015, với mỗi cửa sổ quan quát là 24 giờ, chúng ta có được số liệu tổng kết độ trễ của các quan sát như hình 3. Với trục hoành là giá trị lệch giữa các trạm (đơn vị tính là giờ), trục tung là số lượt quan sát được, phần lớn quan sát cho thấy độ lệch tập trung ở vị trí có giá trị 3 cho trạm Vàm Nao và 4 cho trạm Tân Châu và Châu Đốc. Vì vậy, độ trễ của mực nước giữa Cần Thơ và Châu Đốc, Tân Châu được chúng tôi sử dụng là 4 giờ và Cần Thơ và Vàm Nao được sử dụng là 3 giờ. 500 400 300 200 100 0 -20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 Châu Đốc Vàm Nao Tân Châu Hình 3. Tương quan mực nước sông giữa trạm Cần Thơ và các trạm Châu Đốc, Tân Châu, Vàm Nao
46 DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DÒNG CHẢY… Bên cạnh sự ảnh hưởng của dòng chảy, lượng mưa cũng là một yếu tố quan trọng trong các vấn đề về mực nước. Thành phố Cần Thơ nằm ở trung tâm ĐBSCL với đặc điểm là nắng nhiều và nhiệt độ cao quanh năm, mùa mưa kéo dài từ tháng 5 đến tháng 11, mùa khô từ tháng 12 đến tháng 4 năm sau. Biểu đồ hình 4 hiển thị lượng nước mưa năm 2016 đo được tại trạm Cần Thơ. Vào mùa mưa, lượng mưa đổ xuống các sông là tương đối lớn làm cho mực nước tại thời điểm này tương đối cao so với mùa khác trong năm. 600 500 Lượng mưa 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10 11 12 Hình 4. Lượng mưa tại Cần Thơ các tháng trong năm 2016 B. Áp dụng phương pháp tập hợp mô hình dự đoán mực nước sông Cần Thơ Phương pháp tập hợp mô hình với ưu điểm kết hợp các mô hình dự đoán yếu để tạo nên một mô hình dự đoán mạnh. Trong nghiên cứu này, một số phương pháp tập hợp mô hình Bagging [9], Random Forest [10], AdaBoost [11] và Stacking [12] được thử nghiệm để dự đoán mực nước tại trạm Cần Thơ tại các thời điểm t+1, t+2, t+3, t+4, t+5, t+6, t+12, t+24. Với mong muốn so sánh đánh giá với nghiên cứu [6], dữ liệu mực nước tạm trạm Cần Thơ (kịch bản 1) và dữ liệu mực nước của 5 trạm Tân Châu, Châu Đốc, Vàm Nao, Mỹ Thuận và Cần Thơ (kịch bản 2) được thực nghiệm để kiểm chứng hiệu quả của phương pháp tập hợp mô hình so với mô hình LSTM. Như đã đề cập ở phần giới thiệu, dữ liệu lượng mưa được bổ sung vào dữ liệu đầu vào với mục tiêu tăng độ chính xác của mô hình đề xuất. Kịch bản 3, sử dụng mực nước 72 giờ trước đó của trạm Cần Thơ và lượng mưa của trạm Cần Thơ trong 1 tuần trước đó để dự đoán mực nước tại trạm Cần Thơ. Bên cạnh đó, như phân tích dữ liệu mực nước tương quan giữa trạm Cần Thơ và các trạm còn lại, kịch bản 4 được đề xuất. Kịch bản này sử dụng độ trễ của dòng chảy: độ trễ của mực nước giữa Cần Thơ và Châu Đốc, Tân Châu là 4 giờ và Cần Thơ và Vàm Nao là 3 giờ để dự đoán mực nước trạm Cần Thơ. Với mỗi kịch bản đề xuất, 4 phương pháp tập hợp mô hình Bagging, Random Forest, AdaBoost và Stacking được huấn luyện và kiểm thử để đánh giá tính hiệu quả của các phương pháp tập hợp mô hình (hình 5). Hình 5. Mô hình dự đoán mực nước trạm Cần Thơ
Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải 47 III. THỰC NGHIỆM VÀ ĐÁNH GIÁ Thực nghiệm sử dụng thư viện Scikit-learn để xây dựng mô hình dự báo với các thông số được thiết lập cho các mô hình như sau: với mô hình Bagging, mô hình cơ sở được sử dụng là SVR và số lượng mô hình cơ sở n = 70. Mô hình Random Forest có số lượng cây con được xây dựng là n = 800, độ sâu tối đa là 100. Mô hình AdaBoost được cài đặt với mô hình cơ sở là DecisionTreeRegressor không giới hạn độ sâu với n = 100. Mô hình Stacking sử dụng các mô hình cơ sở: SVR, RidgeCV, KNeighborsRegressor với k = 7, MLPRegressor với max_inter = 500. Tập dữ liệu mực nước thu thập từ năm 2012 và 2016 chia thành 2 phần theo tỷ lệ 70% (30,693) để huấn luyện mô hình và - 30% (13,155) để kiểm tra đánh giá mô hình. Bên cạnh đó dữ liệu lượng mưa hàng giờ trong khoảng thời gian từ năm 2012 đến năm 2016 cũng được sử dụng bổ sung vào một trong những kịch bản đề xuất. Để đánh giá tính thích nghi của mô hình theo thời gian, dữ liệu mực nước thu thập vào năm 2020 cũng được sử dụng. Chỉ số Root Mean Squared Error - RMSE được sử dụng để đánh giá hiệu quả của giá trị mực nước dự đoán được thông qua các mô hình đề xuất. 1 RMSE = � ∑𝑛𝑖=1(p𝑖 − 𝑟𝑖 )2 𝑛 Trong đó: p𝑖 là giá trị dự đoán đánh giá của mục i và 𝑟𝑖 là giá trị đánh giá thực tế của mục i. Với 4 kịch bản đề xuất, kết quả dự đoán mức nước trạm Cần Thơ cho các thời điểm 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ, 6 giờ, 12 giờ và 24 giờ giờ tiếp theo dựa trên chỉ số RMSE được trình bày trong bảng 2. Với mỗi kịch bản đề xuất, phương pháp tập hợp mô hình Bagging, Random Forest, AdaBoost và Stacking được huấn luyện và đánh giá. Kết quả trong bảng 2 cho thấy, kịch bản 2, 3, 4 thì mô hình Stacking có sai số thấp nhất cho tất cả các thời điểm đoán; kịch bản 1 thì mô hình Stacking chỉ có sai số cao hơn mô hình Bagging cho dự đoán thời điểm 2 giờ tiếp theo, còn tất cả các trường hợp còn lại thì mô hình Stacking vẫn dự đoán tốt hơn. Kết quả thu được trên bảng 2 cho ta thấy, kết quả dự báo tốt nhất tại thời điểm t+1 và sai số tăng dần khi thời gian dự báo càng xa. Bên cạnh đó, phương pháp Stacking cho kết quả tốt nhất trong cả 4 kịch bản và tốt nhất khi sử dụng mực nước và lượng mưa 7 ngày tại trạm Cần Thơ (kịch bản 3). Bảng 2. Sai số dự đoán của các phương pháp tập hợp mô hình với 4 kịch bản RMSE (cm) 1h 2h 3h 4h 5h 6h 12h 24h 1. Dữ liệu đầu vào: mực nước của 5 trạm trong 72 giờ trước đó (kịch bản 1) Bagging 4.86 6.849 7.814 8.356 8.657 8.773 8.89 9.097 Random Forest 6.137 8.427 8.882 9.04 9.093 9.111 9.15 9.126 AdaBoost 6.104 8.300 8.811 8.954 9.079 9.035 9.102 9.071 Stacking 4.464 7.747 6.968 7.709 8.072 8.019 8.801 8.591 2. Dữ liệu đầu vào: Mực nước của trạm Cần Thơ trong 72 giờ trước đó (kịch bản 2) Bagging 5.089 7.2 8.172 8.677 8.93 9.026 9.152 9.358 Random Forest 5.84 8.256 8.751 8.93 8.996 9.019 9.063 9.043 AdaBoost 5.861 8.206 8.731 8.876 8.980 9.010 9.071 9.103 Stacking 3.902 6.056 7.079 7.258 7.698 7.996 8.241 8.619 3. Dữ liệu đầu vào: Mực nước trạm Cần Thơ trong 72 giờ và lượng mưa của 168 giờ trước đó (kịch bản 3) Bagging 5.089 7.198 8.171 8.675 8.931 9.028 9.153 9.359 Random Forest 5.866 8.275 8.758 8.938 9.004 9.026 9.071 9.048 AdaBoost 5.934 8.250 8.754 8.947 9.029 9.051 9.087 9.091 Stacking 4.004 5.675 6.757 8.394 7.517 7.725 8.221 8.561 4. Dữ liệu đầu vào: Mực nước trạm Cần Thơ trong 72 giờ và chênh lệch mực nước so với trạm Cần Thơ (kịch bản 4) Bagging 4.831 6.809 7.739 8.258 8.557 8.675 8.749 9.078 Random Forest 6.007 8.334 8.82 8.985 9.045 9.055 9.115 9.108 AdaBoost 6.083 8.262 8.735 8.94 8.994 9.047 9.05 9.09 Stacking 4.228 5.93 6.769 7.538 7.763 7.88 8.073 8.593 Kết quả thực nghiệm thu được trong bảng 2 cho thấy rằng mô hình AdaBoost, Bagging và Random Forest cho kết quả tương đối tốt, tuy nhiên, mô hình Stacking là mô hình cho kết quả dự báo tốt nhất trên tất cả 4 kịch bản. Hình 6 thể hiện kết quả tổng hợp sai số RMSE của 4 kịch bản đề xuất sử dụng mô hình Stacking. Từ biểu đồ trong hình 6, mô hình dự báo tốt nhất cho thời điểm t+1 với RMSE = 0.039 m đối với kịch bản 2 (chỉ sử dụng mực nước tại Cần Thơ). Kết quả thực nghiệm cũng cho thấy, kịch bản 3 và 4 có sai số thấp và ổn định so với các kịch bản còn lại trong tất cả các thời điểm dự báo t+2h đến t+24h. Kết quả sai số của kịch bản 3 và 4 thấp cho thấy việc sử dụng thông tin chênh lệch mực nước giữa các trạm hay kết hợp thông tin lượng mưa như đề xuất của nghiên cứu mang lại hiệu quả cho mô hình dự báo.
48 DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DÒNG CHẢY… 10 9 8 7 RMSE (cm) 6 5 4 3 2 1 0 1 giờ 2 giờ 3 giờ 4 giờ 5 giờ 6 giờ 12 giờ 24 giờ Kịch bản 1 Kịch bản 2 Kịch bản 3 Kịch bản 4 Hình 6. Biểu đồ tổng hợp sai số dự báo mực nước RMSE sử dụng mô hình Stacking Trong nghiên cứu [5], các tác gỉả cũng sử dụng dữ liệu của 3 ngày trước đó để dự đoán cho mực nước 1 ngày sau đó với mô hình rừng ngẫu nhiên có sai số dự đoán RMSE = 9 cm để dự đoán mực nước tại vùng đầm lầy Upo, Hàn Quốc. Trong nghiên cứu này, mô hình rừng ngẫu nhiên cũng có sai số RMSE từ 9.06 cm đến 9.15 cm cho 4 kịch bản đề xuất. Sai số giữa 2 nghiên cứu gần tương đương nhau mặc dù dữ liệu thu thập từ nghiên cứu [5] nhiều hơn vì cùng là dữ liệu trong 3 ngày tuy nhiên dữ liệu thu thập 10 phút 1 lần cho nghiên cứu [5] và 60 phút 1 lần cho nghiên cứu đề xuất trong bài báo này. Và mô hình rừng ngẫu nhiên có sai số cao hơn so với mô hình Stacking được thực nghiệm trong nghiên cứu này. Để đánh giá tính ổn định của mô hình đề xuất, mô hình Stacking được xây dựng dựa trên tập dữ liệu thu thập năm 2012-2015 đánh giá khả năng dự đoán trên tập dữ liệu thu thập năm 2020. Với dữ liệu mực nước của năm 2020, chúng tôi thử nghiệm trên 2 kịch bản: đầu vào là dữ liệu mực nước tại 5 trạm đo: Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ Thuận của 72 giờ trước đó, dữ liệu mực nước tại 5 trạm đo: Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ Thuận của 72 giờ trước đó có tính độ trễ dòng chảy giữa các trạm với trạm Cần Thơ. Kết quả dự đoán với mô hình Stacking trên tập dữ liệu năm 2020 được mô tả trong bảng 3. So sánh kết quả dự đoán của năm 2020 (bảng 3) và năm 2016 (bảng2) thì sai số RMSE không quá chênh lệnh. Dữ liệu trong bảng 3 cũng cho thấy đề xuất ban đầu của nghiên cứu áp dụng độ trễ của dòng chảy giữa các trạm giúp giảm sai số của kết quả dự đoán. Và kết quả thể hiện rõ sự khác biệt khi dự đoán mực nước ở thời điểm xa hơn thời điểm đang xét (dự đoán mực nước ở thời điểm t+12 và t+24), mô hình có tính tới độ trễ của dòng chảy hoạt động tốt hơn. Bảng 3. Kết quả dự đoán mực nước sử dụng mô hình Stacking đánh giá trên dữ liệu năm 2020 RMSE (cm) 1h 2h 3h 4h 5h 6h 12h 24h 1. Dữ liệu mực nước tại 5 trạm 4.362 6.328 7.430 8.268 8.518 8.942 9.242 10.048 2. Dữ liệu mực nước tại 5 trạm theo độ trễ dòng chảy 4.628 6.408 7.512 8.268 8.647 8.870 9.1 9.823 Song song với việc đánh giá sai số dự báo của mô hình đề xuất, chúng tôi cũng so sánh kết quả dự báo của mô hình đề xuất trong nghiên cứu này (Stacking) với mô hình đã thử nghiệm trong nghiên cứu trước đó (LSTM) [6]. Tập dữ liệu học và kịch bản đánh giá 1 (sử dụng mực nước của trạm Cần Thơ trong 72 giờ trước đó) được sử dụng để so sánh hiệu quả của 2 mô hình. Sai số RMSE của kết quả dự đoán của 2 mô hình được trình bày trong bảng 4 cho thấy mô hình LSTM tốt hơn Stacking cho dự đoán mực nước ở thời điểm t+2 - > t+6 (mô hình Stacking không tốt bằng LSTM) Bảng 4. Sai số dự đoán bằng Stacking và LSTM từ dự liệu mực nước trạm Cần Thơ RMSE (cm) 1h 2h 3h 4h 5h 6h Stacking 3.902 6.056 7.079 7.258 7.698 7.996 LSTM 4.53 4.40 4.8 5.05 5.25 5.58 Để đánh giá khả năng dự đoán cho thời gian xa hơn của mô hình LSTM và Stacking, chúng tôi cũng cài đặt lại mô hình LSTM tại thời điểm t+12 và t+24 trên cùng tập dữ liệu và thông số cài đặt mô hình như nghiên cứu trước của tác giả Trần Nguyễn Minh Thư và các cộng sự [6]. Kết quả sai số của dự đoán cho thời điểm t+12 và t+24 được trình bày trong bảng 5. Qua kết quả trên cho thấy, phương pháp tập hợp mô hình Stacking có sai số RMSE thấp hơn mô hình LSTM cho các dự đoán trong thời gian dài.
Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải 49 Bảng 5. Sai số mực nước dự báo giữa mô hình Stacking và LSTM với mực nước trạm Cần Thơ RMSE (cm) 12h 24h Stacking 8.241 8.619 LSTM 9.899 9.733 IV. KẾT LUẬN Trong nghiên cứu này, các phương pháp tập hợp mô hình: Stacking, Bagging, Random Forest, AdaBoost được thử nghiệm để đánh giá mực nước của trạm Cần Thơ tại các thời điểm 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ, 6 giờ, 12 giờ, 24 giờ tiếp theo thời điểm đang xét. Dữ liệu sử dụng để xây dựng mô hình thu thập được đo đạc hàng giờ tại các trạm Tân Châu, Châu Đốc, Vàm Nao, Mỹ Thuận và Cần Thơ trong khoảng thời gian từ năm 2012-2015. Dữ liệu mực nước của năm 2016 và 2020 được sử dụng để đánh giá hiệu quả dự đoán của mô hình. Qua quá trình thực nghiệm đánh giá, mô hình Stacking có thể xem là phương pháp phù hợp nhất trong việc dự báo mực nước sông Cần Thơ trong 4 phương pháp đề xuất. Bên cạnh đó nghiên cứu cũng cho thấy các yếu tố như lượng mưa hay độ trễ của dòng chảy giữa các trạm cũng góp phần ảnh hưởng tới quá trình dự đoán mực nước. Kết quả nghiên cứu cũng cho thấy phương pháp tập hợp mô hình Stacking ổn định hơn so với mô hình LSTM khi dự đoán mực nước ở thời điểm xa hơn (12 giờ, 24 giờ sau đó) thay vì 6 giờ sau đó như nghiên cứu [6] đã đề xuất trước đây. Trong tương lai, chúng tôi triển khai thử nghiệm mô hình dự báo mực nước cho trạm Cần Thơ đã đề xuất tại Trung tâm Thủy văn sông Cửu Long. Trong quá trình triển khai sẽ cải tiến và hoàn thiện để có thể triển khai cũng như áp dụng mô hình đề xuất để dự đoán mực ở những trạm đo đạc khác. TÀI LIỆU THAM KHẢO [1] Carl Steidley, Alex Sadovski, Phillipe Tissot, Ray Bachnak, Zack Bowles, “Water Level Prediction with Artificial Neural Network Models”, 2005. [2] Bang-Fuh Chen, Han-Der Wang and Chih-Chun Chu, 2007. Wavelet and artificial neural network analyses of tide forecasting and supplement of tides around Taiwan and East Sea. Ocean Engineering 34: 2161–2175. [3] Lê Xuân Hiền, Hồ Việt Hùng, “Ứng dụng mạng long short-term memory (LSTM) để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng, Việt Nam, Khoa học kỹ thuật thuỷ lợi và môi trường, số 62, pp. 9-15, 9/2018. [4] Nguyễn Thanh Tùng, Nguyễn Khắc Tiên Phước. “Dự báo mực nước trên sông Mê-Kông dùng mô hình hồi quy phi tuyến Random Forests”, hội nghị khoa học thường niên Đại học Thủy lợi 2020. Tr.450 [5] Choi, C.; Kim, J.; Han, H.; Han, D.; Kim, H.S. Development of Water Level Prediction Models Using Machine Learning in Wetlands: A Case Study of Upo Wetland in South Korea. Water 2020, 12, 93. [6] Trần Nguyễn Minh Thư, Nguyễn Hồng Hải, Phạm Trường An. “Dự báo mực nước sông MEKONG sử dụng LSTM và dữ liệu quan trắc thượng nguồn”, hội nghị FAIR 2019, Huế. [7] Nguyễn Ngọc Tiến, Nguyễn Trung Thành, Vũ Hải Đăng (2015), “Các đặc trưng thủy động lực và môi trường mùa khô tại vùng biển ven bờ cửa sông Hậu”, Tạp chí Khoa học và Công nghệ Biển 15 (3), tr.235-241. [8] Trần Hồng Thái, Hoàng Minh Tuyển, Lương Hữu Dũng, Nguyễn Xuân Tiến, Trần Đức Anh (2014), “Diễn biến dòng chảy ở Đồng bằng sông Cửu Long”. Tạp chí Khí tượng thủy văn 643, 19-23. [9] L.Breiman, Bagging Predictors. Machine Learning 24, 123–140 (1996). [10] L. Breiman, "Random Forests", Machine Learning Journal Paper, vol. 45, (no.1), p. 5-32. Oct. 2001, 2001. [11] Yoav Freund and Robert E. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55(1):119-139, August 1997. [12] Wolpert, David. (1992). Stacked Generalization. Neural Networks. 5. 241-259. 10.1016/S0893-6080(05)80023-1. [13] Bracewell, R. "Pentagram Notation for Cross Correlation." The Fourier Transform and Its Applications. New York: McGraw- Hill, pp. 46 and 243, 1965. FORECASTING THE WATER LEVEL OF THE CANTHO RIVER BY USING FLOW CHARACTERISTICS AND THE ENSEMBLE-BASED LEARNING Tran Nguyen Minh Thu, Nguyen Duy Khuong, Pham Xuan Hien, Nguyen Hong Hai ABSTRACT: Based on LSTM model, the water level can be forcasted by using the previous water levels. However, the water level is also affected by the delay of the river flow between the stations and the rainfall at the time of collecting dataset for forecasting. Forecaste water level system is based on the ensemble-based learning and characteristics of the river flow and rainfall. The water level of Can Thơ river is predicted based on the water level of 4 stations on the Mekong River located in Tan Chau, Chau Doc, Vam Nao and My Thuan. The 2012-2015 dataset of water level and rainfall collected per hour is used to train the model and the 2016 &2020 dataset is used to test and to evaluate the model. To forecaste water level for 1 hour, 12 hours and 24 hours later, the water level of 72 hours before of one station, 5 stations combining with rainfall and delay of the river flow is used. With the water level of 5 input stations, the experimental results showed that the predicted value has RMSE = 8.2 cm for 12 hours and RMSE = 8.6 cm for 24 hours comparing with LSTM in previous research as RMSE= 9.9 for 12 hours and RMSE=9.7 for 24 hours.