intTypePromotion=1

Ứng dụng mạng Long Short Term Memory (LSTM) để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng, Việt Nam

Chia sẻ: Tuong Vi | Ngày: | Loại File: PDF | Số trang:8

0
31
lượt xem
0
download

Ứng dụng mạng Long Short Term Memory (LSTM) để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng, Việt Nam

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày các ứng dụng của mô hình bộ nhớ gần xa (Long Short-Term Memory - LSTM) được sử dụng để dự báo mực nước sông mà không cần các số liệu địa hình và dự báo mưa. Dữ liệu cần thiết cho mô phỏng là mực nước theo giờ tại các trạm thủy văn ở thành phố Hải Phòng,... Để nắm nội dung mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng mạng Long Short Term Memory (LSTM) để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng, Việt Nam

BÀI BÁO KHOA H<br /> C<br /> <br /> ỨNG DỤNG MẠNG LONG SHORT-TERM MEMORY (LSTM)<br /> ĐỂ DỰ BÁO MỰC NƯỚC TẠI TRẠM QUANG PHỤC<br /> VÀ CỬA CẤM, HẢI PHÒNG, VIỆT NAM<br /> Lê Xuân Hiền1, 2; Hồ Việt Hùng1<br /> Tóm tắt: Trong bài báo này, mô hình Bộ nhớ gần xa (Long Short-Term Memory - LSTM) được sử<br /> dụng để dự báo mực nước sông mà không cần các số liệu địa hình và dự báo mưa. Dữ liệu cần thiết<br /> cho mô phỏng là mực nước theo giờ tại các trạm thủy văn ở thành phố Hải Phòng. Mô hình được<br /> thiết lập để dự báo mực nước cho trạm Quang Phục và trạm Cửa Cấm trước 5 giờ (dự báo từ 1 giờ<br /> đến 5 giờ). Mặc dù mô hình không yêu cầu các dữ liệu về khí hậu, địa hình nhưng kết quả dự báo<br /> có độ chính xác cao. Trong trường hợp dự báo mực nước trước 3 giờ, hệ số NSE (hệ số Nash) cho<br /> giá trị trên 97,8% và giá trị RMSE (sai số căn quân phương) nhỏ hơn 0,10 m cho cả 2 trạm. Kết<br /> quả này cho thấy rằng, mô hình LSTM mà các tác giả đề xuất dự báo chính xác mực nước theo thời<br /> gian thực, có thể áp dụng mô hình này để cảnh báo lũ trên các sông của Việt Nam.<br /> Từ khóa: Hải Phòng, dự báo mực nước, LSTM, DNN, Quang Phục, Cửa Cấm.<br /> 1. MỞ ĐẦU *<br /> Diễn biến mực nước sông là một quá trình<br /> phức tạp, biến đổi theo không gian và thời gian.<br /> Việc dự báo chính xác mực nước là một trong<br /> những yêu cầu cấp bách nhằm giảm thiểu các<br /> rủi ro do lũ gây ra và có ý nghĩa quan trọng<br /> trong việc xây dựng phương án phòng, chống<br /> lũ. Các mô hình truyền thống được sử dụng để<br /> dự báo ở Việt Nam cũng như trên thế giới là các<br /> mô hình số về thủy lực và thủy văn. Các mô<br /> hình này yêu cầu một số lượng lớn các dữ liệu<br /> đầu vào như: đặc điểm lưu vực, địa hình, dự báo<br /> lượng mưa, quan hệ mưa – dòng chảy, quan hệ<br /> lưu lượng - mực nước theo thời gian tại một số<br /> vị trí.<br /> Một trong những giải pháp hiệu quả cho việc<br /> dự báo là sử dụng mô hình Mạng thần kinh nhân<br /> tạo (Artificial Neural Network – ANN). Trên thế<br /> giới các mô hình ANN đã được sử dụng rộng rãi<br /> trong dự báo lũ từ những năm 1990 (Sung, J.Y.<br /> và các cộng sự, 2017). Cùng với đó, các nhà<br /> nghiên cứu đã áp dụng các thuật toán vào mô<br /> hình Mạng thần kinh để làm tăng độ chính xác<br /> 1<br /> <br /> Khoa Kỹ thuật Tài nguyên nước, Trường Đại học Thủy lợi<br /> Dept. of Construction & Disaster Prevention Engineering,<br /> Kyungpook National University, Sangju, Korea<br /> 2<br /> <br /> của kết quả dự báo. Trong những năm gần đây,<br /> phương pháp Học sâu (Deep learning) dựa trên<br /> nền tảng là các mạng thần kinh nhân tạo đang<br /> phát triển rất nhanh và thu hút sự quan tâm của<br /> nhiều nhà khoa học. Có thể kể đến nghiên cứu<br /> của Chen, J.F. và các cộng sự (2014), ở đây<br /> thuật toán Cuckoo Search đã được áp dụng để<br /> dự báo dòng chảy đến hồ Hòa Bình, Việt Nam;<br /> Nguyễn Thanh Tùng (2016) đã sử dụng phương<br /> pháp Random Forest cũng để dự báo dòng chảy<br /> đến hồ này; Trương Xuân Nam và các cộng sự<br /> (2016) đã sử dụng phương pháp Học sâu để dự<br /> báo lưu lượng nước đến hồ Hòa Bình. Các<br /> nghiên cứu này đều có một điểm chung, đó là sử<br /> dụng dữ liệu của mùa kiệt với bước thời gian<br /> quan trắc 10 ngày làm đầu vào và đưa ra dự báo<br /> dòng chảy cho 10 ngày sau đó. Các kết quả<br /> nghiên cứu đều khẳng định khả năng tiềm ẩn<br /> của mô hình mạng thần kinh. Mô hình ANN<br /> cũng được áp dụng để dự báo mực nước ở trạm<br /> Hirakata, Nhật Bản (Kim, S. và các cộng sự,<br /> 2017). Nghiên cứu này chỉ sử dụng dữ liệu mực<br /> nước thực đo theo giờ ở các trạm thượng lưu để<br /> dự báo mực nước ở hạ lưu trước 3, 6 và 9 giờ.<br /> Kết quả đạt được cho thấy mô hình mạng thần<br /> kinh có thể áp dụng cho việc cảnh báo lũ trên<br /> <br /> KHOA HC<br /> HC K THU T TH Y LI VÀ MÔI TRNG - S 62 (9/2018)<br /> <br /> 9<br /> <br /> sông. Wang, Y. và các cộng sự (2017) đã sử<br /> dụng mạng thần kinh LSTM để dự báo chất<br /> lượng nước cho hồ Taihu, Trung Quốc. Nghiên<br /> cứu chỉ ra rằng mô hình LSTM đưa ra dự báo<br /> chính xác hơn so với các mô hình mạng thần<br /> kinh khác.<br /> Trong bài báo này, các tác giả sử dụng mô<br /> hình LSTM để dự báo mực nước sông mà<br /> không cần các thông tin dự báo lượng mưa,<br /> cũng như số liệu địa hình và tình hình sử dụng<br /> đất. Mô hình này được áp dụng để dự báo mực<br /> nước trước 1h, 2h, 3h, 4h và 5h tại trạm Quang<br /> Phục trên sông Văn Úc và trạm Cửa Cấm trên<br /> sông Cấm.<br /> 2. PHƯƠNG PHÁP NGHIÊN CỨU<br /> 2.1 Mô hình LSTM<br /> Mô hình đề xuất dựa trên mô hình mạng thần<br /> kinh sâu LSTM, đây là một dạng đặc biệt của<br /> RNN (Recurrent Neural Network - Mạng thần<br /> kinh hồi quy). LSTM được giới thiệu bởi<br /> Hochreiter và Schmidhuber (1997) nhằm giải<br /> quyết các bài toán về phụ thuộc xa (long-term<br /> dependency).<br /> <br /> thay vì chỉ có 1 tầng mạng thần kinh như RNN<br /> chuẩn thì chúng có tới 4 tầng và tương tác với<br /> nhau một cách đặc biệt. Cấu trúc của mô hình<br /> mạng thần kinh LSTM được thể hiện ở Hình 1.<br /> Cốt lõi của LSTM bao gồm trạng thái tế bào<br /> (cell state) và cổng (gate). Trạng thái tế bào<br /> giống như băng chuyền, chạy xuyên suốt qua tất<br /> cả các nút mạng giúp thông tin được truyền đạt<br /> dễ dàng, còn cổng là nơi sàng lọc thông tin đi<br /> qua nó, chúng được kết hợp bởi một tầng mạng<br /> sigmoid. Một LSTM gồm có 3 cổng để duy trì<br /> hoạt động trạng thái của tế bào.<br /> Bước đầu tiên của mô hình LSTM được gọi<br /> là tầng cổng quên (forget gate layer). Bước này<br /> sẽ quyết định xem thông tin nào cần bỏ đi từ<br /> trạng thái tế bào. Đầu vào cho bước này là ht-1<br /> (giá trị đầu ra tại thời điểm t-1) và xt (dữ liệu<br /> đầu vào); đầu ra ft là một số trong khoảng từ 0<br /> đến 1 cho mỗi số trong trạng thái tế bào Ct-1.<br /> (1)<br /> f t = σ (W f .[ht −1 , xt ] + b f )<br /> Trong đó: σ là hàm sigmoid, Wf và bf lần lượt là<br /> trọng số và tham số của tầng cổng quên.<br /> Các bước tiếp theo sẽ quyết định thông tin<br /> lưu vào trạng thái tế bào và cập nhật giá trị cho<br /> trạng thái. Bao gồm một tầng sigmoid hay còn<br /> được gọi là cổng vào (input gate layer, it) và<br /> một véc tơ giá trị được tạo từ tầng tanh.<br /> it = σ (Wi .[ht −1 , xt ] + bi<br /> (2)<br /> <br /> CCt t = tanh(WC .[ht −1 ,xt ] + bC )<br /> <br /> (3)<br /> <br /> Ct = ft * Ct −1 + it * CCt<br /> <br /> (4)<br /> <br /> Hình 1. Cấu trúc của mô hình LSTM<br /> (Nguồn: Internet)<br /> <br /> Trong đó: Ct-1 và Ct là trạng thái tế bào lần<br /> lượt ở thời điểm t-1 và t; WC và bC lần lượt là<br /> trọng số và tham số của trạng thái tế bào.<br /> Ở bước cuối cùng, giá trị đầu ra (ht) sẽ được<br /> quyết định bởi trạng thái của tế bào muốn xuất<br /> ra (output gate, ot).<br /> ot = σ (Wo .[ht −1 ,xt ] + bo )<br /> (5)<br /> ht = ot * tanh( Ct )<br /> (6)<br /> <br /> Theo Olah (2015), mọi mạng hồi quy đều có<br /> dạng là một chuỗi các mô đun lặp đi lặp lại của<br /> một mạng thần kinh, mỗi mô đun này thường có<br /> cấu trúc đơn giản được gọi là một tầng “tanh”.<br /> LSTM cũng có kiến trúc dạng chuỗi như vậy và<br /> <br /> 2.2 Thu thập dữ liệu về khu vực nghiên cứu<br /> Dữ liệu được thu thập bao gồm: điều kiện tự<br /> nhiên, đặc điểm khí tượng, thủy văn, hải văn.<br /> Các số liệu lượng mưa và mực nước theo giờ tại<br /> các trạm thủy văn có trong 19 ngày, bắt đầu từ<br /> 0h ngày 14/7/2011. Khu vực nghiên cứu gồm<br /> <br /> 10<br /> <br /> KHOA HC<br /> HC K THU T TH Y LI VÀ MÔI TRNG - S 62 (9/2018)<br /> <br /> sông Văn Úc và sông Cấm thuộc địa phận thành<br /> phố Hải Phòng (Hình 2). Đây là khu vực chịu<br /> ảnh hưởng của thủy triều. Các dữ liệu phục vụ<br /> cho bài báo này được thể hiện trong Bảng 1.<br /> <br /> sông Văn Úc phân ra một nhánh chính là sông<br /> Lạch Tray đổ ra cửa Lạch Tray. Sông Cấm là<br /> ranh giới giữa hệ thống An Hải và Thuỷ<br /> Nguyên, toàn bộ sông Cấm thuộc địa phận Hải<br /> Phòng. Đây chính là nhánh của sông Kinh<br /> Môn, có chiều dài 23 km, bắt đầu từ ngã ba<br /> Hợp Thành đến nhập lưu vào sông Bạch Đằng<br /> để đổ ra biển qua cửa Nam Triệu. Sông Cấm có<br /> chiều rộng khoảng 200-700m.<br /> 2.3 Phương pháp đánh giá<br /> Để đánh giá hiệu quả của mô hình dự báo,<br /> chúng tôi sử dụng hai trị số, đó là RMSE<br /> (Root Mean Squared Error – sai số căn quân<br /> phương) và NSE (Nash Sutcliffe Efficiency –<br /> hệ số Nash)<br /> RMSE =<br /> <br /> 1 n<br /> 2<br /> ∑ ( Oi − Pi )<br /> n i =1<br /> n<br /> <br /> ∑ (O − P )<br /> i<br /> <br /> NSE = 1 −<br /> <br /> 2<br /> <br /> i<br /> <br /> i =1<br /> n<br /> <br /> ∑ (O − O )<br /> i<br /> <br /> (7)<br /> <br /> 2<br /> <br /> (8)<br /> <br /> i<br /> <br /> i =1<br /> <br /> Hình 2. Hệ thống sông khu vực TP. Hải Phòng<br /> (Nguồn: Viện Kỹ thuật tài nguyên nước, 2011)<br /> Bảng 1. Thống kê các số liệu đã thu thập<br /> TT<br /> 1<br /> 2<br /> 3<br /> 4<br /> 5<br /> 6<br /> 7<br /> <br /> Trạm<br /> Chanh Chữ<br /> Tiên Tiến<br /> Trung Trang<br /> Quang Phục*<br /> Cao Kênh<br /> Cửa Cấm*<br /> Hòn Dấu<br /> <br /> Sông<br /> Luộc<br /> Mới<br /> Văn Úc<br /> Văn Úc<br /> Kinh Thầy<br /> Cấm<br /> Biển Đông<br /> <br /> Yếu tố đo<br /> H, X<br /> H<br /> H<br /> H<br /> H, X<br /> H, X<br /> H<br /> <br /> (Nguồn: Viện Kỹ thuật tài nguyên nước, 2011)<br /> Trong Bảng 1: H là mực nước; X là lượng<br /> mưa; * là các trạm cần dự báo mực nước.<br /> Đoạn sông Văn Úc chảy qua Hải Phòng từ<br /> ngã ba Gùa ra đến biển dài 45 km. Đây là sông<br /> sâu và rộng nhất trong số các sông ở hạ du<br /> sông Thái Bình, với chiều rộng trung bình từ<br /> 500 đến 800m. Dưới ngã ba Gùa khoảng 1 km,<br /> <br /> Trong đó: Oi, O i và Pi lần lượt là giá trị thực<br /> đo, giá trị thực đo trung bình và giá trị dự báo<br /> của mẫu thứ i tương ứng. Mô hình dự báo cho<br /> kết quả tốt nếu RMSE nhỏ và NSE lớn.<br /> 3. THIẾT LẬP THÔNG SỐ MÔ HÌNH<br /> Mô hình LSTM được đề xuất để dự báo mực<br /> nước trong nhiều trường hợp, từ 1 giờ đến 5 giờ<br /> tại trạm Quang Phục (sông Văn Úc) và trạm<br /> Cửa Cấm (sông Cấm). Mỗi mô hình LSTM<br /> được hiệu chỉnh (training) và kiểm định (test) để<br /> dự báo mực nước lần lượt cho từng trạm. Các<br /> thông số của mô hình được hiệu chỉnh và kiểm<br /> định để đảm bảo mô hình cho kết quả tốt nhất,<br /> chi tiết về các thông số này được tóm tắt trong<br /> Bảng 2. Sau quá trình hiệu chỉnh và kiểm định,<br /> các thông số tốt nhất của mô hình cho mỗi<br /> trường hợp đã được lựa chọn để phục vụ việc dự<br /> báo. Dữ liệu đầu vào của mô hình LSTM dựa<br /> trên mực nước thực đo tại các trạm thủy văn<br /> trong 3 giờ gần nhất (t-2, t-1, t-0), hoặc trong 6<br /> giờ gần nhất (từ t-5 đến t-0).<br /> <br /> KHOA HC<br /> HC K THU T TH Y LI VÀ MÔI TRNG - S 62 (9/2018)<br /> <br /> 11<br /> <br /> Bảng 2. Các thông số của mô hình LSTM<br /> Đặc trưng<br /> Mục tiêu dự báo<br /> Dữ liệu đầu vào<br /> Cấu trúc mô hình<br /> Thông số hiệu<br /> chỉnh mô hình<br /> <br /> Chi tiết<br /> Mực nước tại trạm Quang Phục và Cửa Cấm trước 1h, 2h, 3h, 4h, 5h<br /> Lượng mưa tại khu vực nghiên cứu.<br /> Mực nước thực đo tại các trạm thủy văn trong 3 giờ: t-2, t-1, t-0.<br /> Mực nước thực đo tại các trạm thủy văn trong 6 giờ: từ t-5 đến t-0<br /> TensorFlow với BasicLSTMCell<br /> Số lượng lớp ẩn: 10, 20; 50<br /> Hệ số học: 0,1; 0,5; 0,01; 0,05; 0,001; 0,005<br /> Số lượng Epoch: 10.000; 20.000; 50.000<br /> <br /> Để dự báo mực nước cho trạm Quang Phục,<br /> mực nước thực đo tại các trạm Trung Trang,<br /> Chanh Chữ, Tiên Tiến, Hòn Dấu và Quang<br /> Phục đã được sử dụng. Tương tự như vậy,<br /> mực nước thực đo tại các trạm Cao Kênh, Hòn<br /> Dấu và Cửa Cấm được dùng để dự báo mực<br /> nước cho trạm Cửa Cấm. Các dữ liệu về<br /> lượng mưa tại 2 khu vực này đã được đưa vào<br /> để kiểm định, tuy nhiên việc đưa thêm các số<br /> liệu này không làm các kết quả dự báo tốt<br /> hơn. Việc này có thể giải thích như sau: diện<br /> tích mặt sông nhỏ và lượng mưa không lớn,<br /> ngoài ra còn có tác động của bốc hơi và thấm<br /> nên ảnh hưởng của mưa là không đáng kể; mặt<br /> khác, lượng mưa ở khu giữa trên mỗi đoạn<br /> sông còn được thể hiện trong chính mực nước<br /> thực đo của trạm cần dự báo. Vì vậy trong bài<br /> báo này, kết quả dự báo chỉ phụ thuộc vào dữ<br /> liệu mực nước thực đo tại các trạm. Trong mô<br /> hình thủy lực sông, các mực nước này chính là<br /> các biên của mô hình.<br /> Để hiệu chỉnh và kiểm định mô hình, dữ liệu<br /> được sử dụng bao gồm 456 bản ghi là số liệu<br /> mực nước theo giờ, từ 0h ngày 14/7/2011 đến<br /> 23h ngày 01/8/2011, thời điểm này đang là mùa<br /> lũ ở Hải Phòng. Bộ dữ liệu này được chia thành<br /> 2 tập: tập dữ liệu hiệu chỉnh gồm 408 bản ghi để<br /> hiệu chỉnh mô hình nhằm chọn các thông số tốt<br /> nhất; tập dữ liệu kiểm định gồm 48 bản ghi để<br /> đánh giá hiệu quả của mô hình với các thông số<br /> đã chọn. Các dữ liệu đã thu thập cho thấy, mực<br /> 12<br /> <br /> nước lớn nhất ở cả 2 trạm Quang Phục (2,26m)<br /> và Cửa Cấm (2,09m) đều rơi vào ngày<br /> 30/7/2011. Các giá trị này nằm trong tập dữ liệu<br /> hiệu chỉnh nhằm đảm bảo đưa ra kết quả chính<br /> xác hơn cho quá trình dự báo đỉnh lũ.<br /> Một điểm lưu ý nữa là, không có quy tắc nào<br /> trong việc lựa chọn cấu trúc mô hình cũng như<br /> các thông số mô hình (Kim, S., và các cộng sự,<br /> 2017). Việc lựa chọn cấu trúc mô hình và thông<br /> số mô hình dựa trên việc đánh giá về kích cỡ dữ<br /> liệu và quá trình thử để đảm bảo chọn được các<br /> thông số phù hợp nhất cho nghiên cứu này.<br /> 4. KẾT QUẢ NGHIÊN CỨU<br /> 4.1 Dự báo mực nước trạm Quang Phục<br /> Kết quả dự báo mực nước cho trạm Quang<br /> Phục trong các trường hợp từ 1 giờ đến 5 giờ<br /> được thể hiện tương ứng trong các Hình 3(a),<br /> Hình 4 và Hình 5.<br /> Có thể thấy rằng mô hình dự báo cho kết quả<br /> rất ấn tượng, đặc biệt cho các trường hợp dự báo<br /> từ 1-3 giờ với sai số trung bình nhỏ hơn 0,095m<br /> và hệ số NSE trên 97,8%. Hình 3 (a) mô tả sự<br /> tương quan chặt chẽ giữa kết quả dự báo và giá<br /> trị thực đo trong trường hợp dự báo mực nước<br /> (MN) trạm Quang Phục trước 1 giờ, hệ số Nash<br /> lên tới 99,7% và RMSE chỉ 0,038m. Trong<br /> trường hợp dự báo trước 4 giờ và 5 giờ (Hình<br /> 5), mặc dù hệ số NSE tương đối tốt (lần lượt là<br /> 94% và 92%) nhưng giữa kết quả dự báo và<br /> thực đo có chênh lệch nhỏ (1 giờ) về thời gian<br /> xuất hiện đỉnh lũ.<br /> <br /> KHOA HC<br /> HC K THU T TH Y LI VÀ MÔI TRNG - S 62 (9/2018)<br /> <br /> (a)<br /> (b)<br /> Hình 3. So sánh MN thực đo với dự báo 1 giờ tại Quang Phục (a) và Cửa Cấm (b)<br /> <br /> Hình 4. Dự báo MN 2 giờ (trái) và 3 giờ (phải) tại Quang Phục<br /> <br /> Hình 5. Dự báo MN 4 giờ (trái) và 5 giờ (phải) tại Quang Phục<br /> Bảng 3 tổng hợp các kết quả kiểm định tốt<br /> nhất và các thông số mô hình đã được lựa chọn<br /> <br /> để dự báo mực nước trạm Quang Phục.<br /> <br /> Bảng 3. Kết quả kiểm định dự báo mực nước cho trạm Quang Phục<br /> Thời gian dự<br /> báo(giờ)<br /> 1<br /> 2<br /> 3<br /> 4<br /> 5<br /> <br /> Chiều dài<br /> dữ liệu<br /> 6<br /> 3<br /> 6<br /> 6<br /> 6<br /> <br /> Số trạm<br /> đầu vào<br /> 5<br /> 5<br /> 5<br /> 5<br /> 5<br /> <br /> Số lượng<br /> lớp ẩn<br /> 50<br /> 50<br /> 50<br /> 50<br /> 50<br /> <br /> KHOA HC<br /> HC K THU T TH Y LI VÀ MÔI TRNG - S 62 (9/2018)<br /> <br /> Hệ số<br /> học<br /> 0.01<br /> 0.001<br /> 0.1<br /> 0.1<br /> 0.1<br /> <br /> Số lượng<br /> Epoch<br /> 50000<br /> 20000<br /> 20000<br /> 20000<br /> 20000<br /> <br /> RMSE<br /> (m)<br /> 0.038<br /> 0.064<br /> 0.095<br /> 0.155<br /> 0.177<br /> <br /> NSE (%)<br /> 99.7%<br /> 99.0%<br /> 97.8%<br /> 94.1%<br /> 92.4%<br /> 13<br /> <br />
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản