intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Sinh thêm dữ liệu để nâng cao chất lượng dự báo mực nước trên sông

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

15
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Thảm họa lũ lụt gây ra những sự tàn phá vô cùng khủng khiếp. Do đó, dự đoán mực nước trên sông là cần thiết để cảnh báo lũ sớm và hạn chế các tác hại do lũ gây ra. Nhiều nghiên cứu đã sử dụng các phương pháp học máy để xây dựng mô hình dự báo mực nước. Có thể kể đến như Sella Nevo đã sử dụng các mô hình Linear Regression và mạng Long Short Term Memory để dự đoán lũ lụt trong mùa mưa ở Bangladesh và Ấn Độ.

Chủ đề:
Lưu

Nội dung Text: Sinh thêm dữ liệu để nâng cao chất lượng dự báo mực nước trên sông

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 SINH THÊM DỮ LIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG DỰ BÁO MỰC NƯỚC TRÊN SÔNG Nguyễn Thị Kim Ngân, Bùi Tuấn Minh, Hoàng Thành Nam, Tạ Văn Vinh Trường Đại học Thủy lợi, email: ngannguyen@tlu.edu.vn 1. GIỚI THIỆU CHUNG sông cao thì giá trị dự báo sai khác nhiều so với giá trị thực tế. Một trong những nguyên Thảm họa lũ lụt gây ra những sự tàn phá nhân của kết quả này là những ngày có mực vô cùng khủng khiếp. Do đó, dự đoán mực nước cao (những ngày mưa lớn, kéo dài) ít nước trên sông là cần thiết để cảnh báo lũ hơn những ngày có mực nước thấp (ngày sớm và hạn chế các tác hại do lũ gây ra. không mưa hoặc mưa ít). Theo hiểu biết của Nhiều nghiên cứu đã sử dụng các phương chúng tôi, dựa trên các tài liệu chúng tôi đã pháp học máy để xây dựng mô hình dự báo đọc, chưa có nghiên cứu nào về vấn đề mất mực nước. Có thể kể đến như Sella Nevo đã cân bằng dữ liệu trong bài toán dự báo mực sử dụng các mô hình Linear Regression và nước. Vì vậy, trong nghiên cứu này, chúng mạng Long Short Term Memory để dự đoán tôi tìm hiểu phương pháp để sinh thêm dữ lũ lụt trong mùa mưa ở Bangladesh và Ấn Độ liệu cho những ngày mực nước cao, tạo ra sự [1]. Wen-Dar Guo đã sử dụng các mô hình cân bằng dữ liệu giữa những ngày mực nước Support Vector Regression, Random Forest cao và những ngày mực nước thấp, để nâng Regression, Multi - Layer Perceptron, Light cao chất lượng dự báo mực nước của mô hình Gradient Boosting Machine Regression để dự học máy. đoán mực nước trên sông Lan-Yang, Đài Phần còn lại của bài báo được trình bày Loan [2]. Tác giả Hồ Việt Tuấn nghiên cứu như sau: phần 2 trình bày phương pháp sử dụng phương pháp long short-term nghiên cứu, phần 3 trình bày kết quả thực memory (LSTM) để dự báo mực nước ở hạ nghiệm và phần 4 là kết luận. lưu cống - âu thuyền Cầu Cất, nối sông Bắc Hưng Hải với sông Thái Bình [3]. Tác giả Đỗ 2. PHƯƠNG PHÁP NGHIÊN CỨU Văn Đỉnh đã sử dụng kết hợp mô hình Singular Value Decomposition (SVD) và 2.1. Bài toán Support Vector Machine (SVM) để ước Trong công tác cảnh báo lũ, trung tâm dự lượng mực nước sông cao nhất và thấp nhất báo cần dự báo mực nước với khoảng thời trong ngày [4]. Bên cạnh đó, việc dự báo gian là 6 giờ, 12 giờ và 24 giờ. Trong nghiên mực nước trên sông Kiến Giang cũng đã cứu này, chúng tôi xây dựng mô hình dự báo được nghiên cứu bởi tác giả Đinh Nhật mực nước tại trạm Lệ Thủy với khoảng thời Quang và các cộng sự [5]. gian dự đoán là trước 6 giờ. Từ phân tích kết quả nghiên cứu dự báo Đầu vào: Tập dữ liệu về lượng mưa, mực mực nước trên sông Kiến Giang [5], chúng nước ở các trạm thủy lợi Kiến Giang, Lệ tôi thấy rằng trong những ngày mực nước Thủy và Đồng Hới. sông thấp, giá trị dự báo tốt gần với giá trị Đầu ra: Mô hình dự báo mực nước ở trạm thực tế. Nhưng trong những ngày mực nước Lệ Thủy với khoảng thời gian là 6 giờ. 78
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 2.2. Phương pháp thực hiện lượng mưa, mực nước tại 3 trạm được đo theo từng giờ, được chia thành 2 tập: tập Bước 1. Tiền xử lý dữ liệu, để phù hợp với huấn luyện gồm các dữ liệu từ năm 2005 đến format của phương pháp học máy. năm 2019, tập kiểm tra gồm các dữ liệu từ Bước 2. Sinh thêm dữ liệu những ngày có năm 2020 đến năm 2022. mực nước cao trong tập dữ liệu huấn luyện bằng phương pháp SMOTE (Synthetic 3.2. Kịch bản thực nghiệm Minority Over-sampling Technique) [6]. Để đánh giá hiệu quả của việc sinh thêm Phương pháp này sinh thêm các phần tử mới dữ liệu, mỗi phương pháp học máy chúng tôi bằng cách: với mỗi phần tử x thuộc lớp thiểu xem xét 2 kịch bản sau: số, chọn ngẫu nhiên một trong số k láng - Kịch bản 1: Xây dựng mô hình dự báo giềng gần nhất cùng nhãn lớp của nó. Lấy độ mực nước chỉ sử dụng tập huấn luyện gốc lệch giữa vector đặc trưng của x với láng (không có dữ liệu sinh thêm). giềng được chọn này nhân với một giá trị - Kịch bản 2: Xây dựng mô hình dự báo ngẫu nhiên trong đoạn [0,1], rồi cộng kết quả mực nước sử dụng tập dữ liệu mới (gồm tập thu được với vectơ đặc trưng của x. Kết quả huấn luyện gốc và dữ liệu được sinh thêm). cuối cùng chính là vectơ đặc trưng của phần Trạm dự báo mực nước là trạm Lệ Thủy. tử mới được sinh thêm của x. Mực nước báo động của trạm này lần lượt là: Hình 1 minh họa phương pháp sinh thêm 1.2 m (báo động 1), 2.2m (báo động 2), 2.7m dữ liệu mà chúng tôi đề xuất. (báo động 3). Chúng tôi xem mực nước cao là mực nước trên báo động 1. Vì vậy, chúng tôi chọn ngưỡng sinh thêm dữ liệu của kịch bản này là 1.2m. 3.3. Kết quả thực nghiệm Trong phần này, để đánh giá hiệu quả của phương pháp sinh thêm dữ liệu, chúng tôi xây dựng các mô hình thực nghiệm dựa trên 2 phương pháp: Long Short Term Memory (LSTM) và Bidirectional Long Short Term Memory (BiLSTM). Hình 1. Ví dụ sinh thêm dữ liệu. Bảng 1 trình bày kết quả đánh giá chất Bước 3. Sử dụng phương pháp học máy để lượng của các mô hình dựa trên sự phù hợp xây dựng mô hình dự báo mực nước dựa trên của giá trị dự báo so với giá trị thực tế (độ đo tập dữ liệu mới (dữ liệu gốc và dữ liệu được Nash-Sutcliffe efficiency - NSE, Coefficient sinh thêm). of determination-R2) và sự sai khác giữa giá Bước 4. Đánh giá chất lượng mô hình. trị dự báo so với giá trị thực tế (độ đo Mean Absolute Error - MAE, Root Mean Square 3. KẾT QUẢ NGHIÊN CỨU Error - RMSE). Các độ đo NSE và R2 càng gần 1 thì hiệu quả dự báo của mô hình càng 3.1. Tập dữ liệu tốt, các độ đo MAE và RMSE càng thấp thì Tập dữ liệu gồm thông tin về lượng mưa sự sai lệch giữa giá trị dự báo và giá trị thực và mực nước tại các trạm đo Kiến Giang, Lệ tế càng nhỏ. Các số liệu trong bảng 1 chỉ ra Thủy và Đồng Hới (thuộc lưu vực sông Kiến rằng hiệu quả dự báo của các mô hình được Giang, tỉnh Quảng Bình), được thu thập theo xây dựng trên tập dữ liệu mới (gồm dữ liệu từng giờ trong mùa mưa (tháng 9 - tháng 12) gốc và dữ liệu sinh thêm, new data) là tốt hơn từ năm 2005 đến năm 2022. Tập dữ liệu này so với mô hình được xây dựng trên tập dữ gồm 25020 mẫu, mỗi mẫu là thông tin về liệu gốc (original data). 79
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 Bảng 1. Đánh giá chất lượng 4. KẾT LUẬN của các mô hình Trong nghiên cứu này, chúng tôi đã đề Mô hình NSE R2 MAE RMSE xuất một cách sinh thêm dữ liệu cho bài toán LSTM dự báo mực nước, để cải thiện chất lượng của 0.9885 0.9886 0.0418 0.0862 mô hình dự báo. Các kết quả thực nghiệm original data cho thấy phương pháp đề xuất là phù hợp. LSTM new 0.9885 0.989 0.0417 0.0861 Tuy nhiên, chất lượng của mô hình dự báo data được cải thiện chưa nhiều. Trong thời gian tới, BiLSTM chúng tôi sẽ nghiên cứu phương pháp để có 0.9889 0.9899 0.0473 0.0846 original data thể dự báo tốt mực nước trong những ngày BiLSTM mưa lũ lớn. 0.9894 0.9897 0.0449 0.0827 new data 5. TÀI LIỆU THAM KHẢO Hình 2 và Hình 3 so sánh kết quả dự báo mực nước của mô hình được xây dựng trên [1] Sella Nevo, Efrat Morin, Adi Gerzi Rosenthal, Asher Metzger, Chen Barshai, tập huấn luyện mới và mô hình được xây Dana Weitzner, Dafi Voloshin, Frederik dựng trên tập huấn luyện gốc. Kratzert, Gal Elidan2, Gideon Dror, Gregory Begelman, Grey Nearing, Guy Shalev, Hila Noga, Ira Shavitt, Liora Yuklea, Moriah Royz, Niv Giladi, Nofar Peled Levi, Ofir Reich, Oren Gilon, Ronnie Maor, Shahar Timnat, Tal Shechter, Vladimir Anisimov, Yotam Gigi, Yuval Levin, Zach Moshe, Zvika Ben-Haim, Avinatan Hassidim, Yossi Matias. 2021. Flood forecasting with machine learning Hình 2. Kết quả thực nghiệm của LSTM models in an operational framework. CoRR abs/2111.02780. Available: https://doi.org/ 10.5194/hess-2021-554. [2] Guo W-D, Chen W-B, Yeh S-H, Chang C- H, Chen H. 2021. Prediction of River Stage Using Multistep-Ahead Machine Learning Techniques for a Tidal River of Taiwan. Water. 13(7):920. https://doi.org/10.3390/ w13070920. [3] Hồ Việt Tuấn, Hồ Việt Hùng. 2019. Sử dụng Hình 3. Kết quả thực nghiệm của BiLSTM mạng nơ ron nhân tạo dự báo mực nước Biểu đồ so sánh trong Hình 2 và Hình 3 sông chịu ảnh hưởng của thủy triều. Tạp chí Khoa học và Công nghệ thủy lợi. 52(1-9). chỉ ra rằng, trong những ngày có đỉnh lũ, [4] Đỗ Văn Đỉnh, Nguyễn Trọng Quỳnh, Vũ đường màu xanh lá cây thường có giá trị cao Văn Cảnh và Phạm Văn Nam. 2021. Dự nhất. Như vậy, sự sai lệch giữa giá trị dự báo báo mực nước sông cao nhất, thấp nhất của mô hình được xây dựng trên tập huấn trong ngày sử dụng mô hình hỗn hợp. Tạp luyện gốc và giá trị thực tế là lớn hơn so với chí Nghiên cứu khoa học, Trường Đại học sự sai lệch giữa giá trị dự báo của mô hình Sao Đỏ, 1(72), p.5-12. [5] Đinh Nhật Quang, Tạ Quang Chiểu, Đào Thị được xây dựng trên tập huấn luyện mới và Huệ, Nguyễn Thị Kim Ngân. 2022. Dự báo giá trị thực tế. Điều này nghĩa là hiệu quả dự mực nước trên sông Kiên Giang sử dụng đoán của mô hình được xây dựng trên tập phương pháp hồi quy. Tạp chí Khoa học Kỹ huấn luyện mới tốt hơn. thuật Thủy lợi và Môi trường. 80, p.71-80. 80
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1