YOMEDIA
ADSENSE
Dự báo mực nước sông Mekong sử dụng LSTM và dữ liệu quan trắc thượng nguồn
41
lượt xem 3
download
lượt xem 3
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Đồng bằng sông Cửu Long với hệ thống sông ngòi và kênh rạch chằng chịt nên hiện tượng nước ngập do triều cường thường xuyên xảy ra. Mực nước sông không chỉ chịu ảnh hưởng của thủy triều mà còn bởi nhiều yếu tố khác như địa hình, mực nước nền và nhiều yếu tố khí tượng thủy văn khác. Hệ thống dự báo mực nước được xây dựng nhằm giảm thiểu những thiệt hại về kinh tế cũng như có sự chuẩn bị đối phó với triều cường.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Dự báo mực nước sông Mekong sử dụng LSTM và dữ liệu quan trắc thượng nguồn
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00016 DỰ BÁO MỰC NƯỚC SÔNG MEKONG SỬ DỤNG LSTM VÀ DỮ LIỆU QUAN TRẮC THƯỢNG NGUỒN Trần Nguyễn Minh Thư1, Nguyễn Hồng Hải1, Phạm Trường An1 1 Khoa Công nghệ Thông tin và Truyền thông, Đại học Cần Thơ tnmthu@ctu.edu.vn, ghaikstv@gmail.com, ancs21ps@gmail.com TÓM TẮT: Đồng bằng sông Cửu Long với hệ thống sông ngòi và kênh rạch chằng chịt nên hiện tượng nước ngập do triều cường thường xuyên xảy ra. Mực nước sông không chỉ chịu ảnh hưởng của thủy triều mà còn bởi nhiều yếu tố khác như địa hình, mực nước nền và nhiều yếu tố khí tượng thủy văn khác. Hệ thống dự báo mực nước được xây dựng nhằm giảm thiểu những thiệt hại về kinh tế cũng như có sự chuẩn bị đối phó với triều cường. Mô hình mạng LSTM (Long short-term memory networks) được xây dựng dựa trên dữ liệu mực nước của 4 trạm trên sông Mekong được đặt tại Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận để dự báo mực nước tại Cần Thơ. Tập dữ liệu năm 2012-2015 được dùng để huấn luyện mô hình và dữ liệu năm 2016 dùng để kiểm tra đánh giá. Để dự báo mực nước của 6 giờ tiếp theo, dữ liệu mực nước của 24h trước đó được sử dụng như đầu vào của mô hình. Kết quả thực nghiệm cho thấy kết quả dự báo có sai số tương đối thấp, giá trị RMSE trung bình của 6 h đối với 4 trạm đầu vào là 4.956 cm, với 1 trạm đầu vào là 5.463cm. Từ khóa: Mô hình học sâu, mạng LSTM, dự báo mực nước. I. GIỚI THIỆU Hiện tượng nước ngập do triều cường xuất hiện là do mực nước trên hệ thống sông dâng cao phụ thuộc chủ yếu bởi ảnh hưởng thủy triều biển Đông. Những năm gần đây mực nước mùa lũ từ tháng 8 đến tháng 11 trên sông Cửu Long do ảnh hưởng của thủy triều nhất là những ngày triều cường mực nước dâng cao làm ngập đường giao thông, công trình xây dựng, ruộng vườn ở nhiều tỉnh và thành phố trong vùng, vào mùa cạn triều cường cũng đẩy xâm nhập mặn theo các triền sông vào sâu trong đất liền. Những hiện tượng trên ngày càng diễn ra thường xuyên hơn do ảnh hưởng của nhiều yếu tố như nước biển dâng, biến đổi khí hậu, quá trình phát triển kinh tế…. Từ đó đã gây ra nhiều ảnh hưởng tiêu cực đến đời sống sinh hoạt của người dân và gây nhiều thiệt hại hoạt động kinh tế trong vùng [1]. Dự báo mực nước trên hệ thống sông Cửu Long là một bài toán cần phải có lời giải để phục vụ nhu cầu phát triển kinh tế trong vùng cũng như giảm mức độ ảnh hưởng của ngập lụt đến sinh hoạt của người dân trong vùng. Để dự báo mực nước thuỷ triều người ta thường áp dụng 2 phương pháp sau: phương pháp phân tích dựa vào các hằng số điều hoà thuỷ triều [2] và phương pháp dự báo dựa trên máy học [5,6,7,8]. Dựa vào hằng số điều hoà, nghiên cứu của Đặng Văn Tỏ [3] đã phân tích và dự báo sự dao động mực nước ở biển Vũng Tàu. Số liệu quan trắc hàng giờ của năm 2000 (8760 số liệu) của trạm Vũng Tàu được sử dụng để phân tích bằng phương pháp bình phương tối thiểu. Trong nghiên cứu này, 62 hằng số điều hòa trong đó 34 thành phần có ý nghĩa và 28 thành phần kém ý được xác định và dùng để dự báo cho tháng 1 năm 2010. Tuy nhiên, các hằng số điều hòa dựa trên đặc điểm về chu kỳ của các dao động thủy triều do lực tác động của các hành tinh lên bề mặt của thủy quyển sử dụng để dự báo mực nước biển có thể bị lỗi sai số 30% do chỉ tính đến tác động của lực hấp dẫn của mặt trời và mặt trăng mà không chú ý tới bất kỳ hiệu ứng khí tượng thuỷ văn[4]. Khắc phục nhược điểm của phương pháp hằng số điều hoà, đã có một số nghiên cứu áp dụng mô hình mạng nơron nhân tạo (Artificial Neural Network - ANN) vào việc dự báo mực nước thủy triều. Trong nghiên cứu mực nước tại trạm đo Cảng Boat Hillarys, Tây Úc vào năm 2004, Makarynskyya và các cộng sự đã sử dụng mạng nơron để dự báo biến đổi mực nước biển mỗi giờ trong 24 giờ tiếp theo, mực nước trung bình 12 giờ, 1 ngày, 5 ngày và 10 ngày [5]. Dữ liệu 12 năm từ tháng 1 năm 1991 đến tháng 12 năm 2002 đã được sử dụng để huấn luyện và kiểm thử mô hình ANN. Các kết quả thu được cho thấy tính khả thi được đánh giá bằng các thông số như hệ số tương quan giữa mực nước dự báo và mực nước thực đo r (0.7-0.9), sai số căn quân phương (Root Mean Square Error - RMSE) khoảng 10% biên độ thủy triều và chỉ số tán xạ SI (0.1-0.2). Vào năm 2009, cũng với dự liệu đo tại trạm Cảng Boat Hillarys trong khoảng thời gian 1991-2001, giải thuật di truyền được sử dụng để dự báo sự thay đổi mực nước biển. Nghiên cứu này cũng đã chứng minh được mô hình Mạng nơ ron nhân tạo và giải thuật di truyền hoạt động tốt và có thể được coi là phương án thay thế cho phân tích điều hòa [6]. Trong nghiên cứu khác, Bang-Fuh Chen và cộng sự [7] đã sử dụng mực nước của 1 trạm để huấn luyện mô hình ANN nhằm dự báo mực nước của 1 trạm khác có cùng chế độ thủy triều cho mực nước ven biển. Mô hình Kaohsiung (KH) - Manila (ML), sử dụng số liệu thủy triều của năm 1994 (8757 giá trị mực nước) của trạm KH làm dữ liệu đầu vào, dữ liệu đầu ra là trạm ML, tập dữ liệu được chia ra nhiều phần để sử dụng cho huấn luyện và kiểm thử mô hình, đánh giá mô hình bằng hệ số tương quan r và sai số quân phương (RME) kết quả là r = 0.931, RME = 0.03-0.12 mét. Bên cạnh những nghiên cứu quốc tế, Việt Nam cũng có những nghiên cứu ứng dụng Deep Learning cho dự báo mực nước như nghiên cứu [8] đã sử dụng mô hình Deep Learning H20 để dự báo lưu lượng nước 10 ngày tiếp theo đổ về hồ Hoà Bình. Kết quả thực nghi m cho thấy mô hình dự báo đế xuất có giá trị RMSE = 60.37 m3 s có chất luợng dự báo vuợt trọi so với các phuong pháp học máy khác nhu máy vécto hỗ trợ, rừng ngẫu nhien, LASSO, cay quyết định, k láng giềng gần nhất. Nhằm khắc phục những hạn chế của mô hình ANN đối
- 120 DỰ BÁO MỰC NƯỚC SÔNG MEKONG SỬ DỤNG LSTM VÀ DỮ LIỆU QUAN TRẮC THƯỢNG NGUỒN với dữ liệu chuỗi thời gian, mô hình LSTM (Long short-term memory) được ứng dụng để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng [9]. Trong nghiên cứu này, các tác giả đã thiết lập mô hình để dự báo mực nước trước 5 giờ với sai số RMSE=0.177m cho trạm Quang Phục và RMSE= 0.185 cho trạm Cửa Cấm. Dữ liệu đầu vào cho mô hình LSTM là mực nước thực đo tại các trạm thuỷ văn trong 6 giờ trước đó với số lượng lớp ẩn là 10, 20, 50 và số lượng Epoch là 10.000, 20.000 và 50.000. Trong các nghiên cứu trên, phương pháp dự báo sử dụng hằng số điều hòa tại các trạm thủy văn trên bờ biển để dự báo mực nước thường có sai số khá lớn, đặc biệt trong các thời kỳ mà ảnh hưởng của triều cường là nhỏ như trong thời kỳ mùa lũ hoặc có nhiều nhiễu động mực nước do các yếu tố phi tuần hoàn như gió mùa, bão, áp suất… Đối với phương pháp sử dụng các mô hình ANN mô phỏng, dự báo mực nước, các nghiên cứu theo hướng này cũng rất đa dạng. Tuy vậy, các nghiên cứu này chủ yếu để dự báo mực nước ven biển. Tính chất thủy triều tại vùng biển ven bờ và cửa sông rất phức tạp vì mực nước triều ở đây được hình thành bởi tổ hợp các sóng dài dạng sóng tiến và sóng đứng bị biến dạng mạnh do sự phản xạ, khúc xạ, tác động của lực Corriolis, và địa hình bờ biển. Mực nước các trạm trên sông ảnh hưởng trực tiếp của thủy triều ven bờ của vùng cửa sông nhưng khi truyền vào trong sông còn ảnh hưởng thêm nhiều yếu tố như lực ma sát, cấu trúc đáy hình dạng lòng dẫn, các hoạt động của con người.... Trong nghiên cứu này, mô hình mạng LSTM được sử dụng để dự báo mực nước tại Cần Thơ sau đó 6 giờ (t + 6) dựa trên dữ liệu mực nước 24 giờ trước đó mà không cần hoặc có thêm các thông tin như lượng mưa, số liệu địa hình và tình hình sử dụng đất. Hai kịch bản được đưa ra để nghiên cứu và so sánh, mực nước trạm Cần Thơ được dự báo dựa vào mực nước của chính nó trong những giờ trước đó và mực nước trạm Cần Thơ dự báo dựa trên mực nước của 4 trạm Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận. Các giả thiết này được thực nghiệm dựa trên dữ liệu thực tế quan trắc trong khoảng thời gian 2011- 2016. Phần tiếp theo của bài viết được tổ chức như sau: đặc điểm của dữ liệu mực nước sông MeKong và mô hình mạng LSTM được trình bày trong phần 2; thực nghiệm và mô hình đề xuất được giới thiệu ở phần ba; và cuối cùng là kết luận và hướng phát triển của nghiên cứu. II. DỰ BÁO MỰC NƯỚC BẰNG MÔ HÌNH MẠNG LSTM A. Các đặc trưng dữ liệu mực nước sông Cửu Long Sông Mêkông dài khoảng 4,900 km, bắt nguồn từ vùng núi cao tỉnh Thanh Hải, theo suốt chiều dài tỉnh Vân Nam (Trung Quốc), qua các nước Myanma, Thái Lan, Lào, Campuchia trước khi vào Việt Nam rồi đổ ra biển Đông. Sông MêKong chảy vào Việt Nam chia làm 2 nhánh là sông Tiền và sông hậu với chiều dài khoảng 270km đổ ra biển Đông bằng 9 cửa nên còn gọi là sông Cửu Long. Trên sông bố trí rất nhiều các trạm đo đạc các yếu tố thủy văn để phục vụ cho phát triển kinh tế trong vùng, trong đó có 5 trạm thủy văn cơ bản quan trắc đầy đủ các yếu tố như mực nước, lưu lượng, chất lơ lửng là Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ Thuận nằm trên các tỉnh An Giang, Vĩnh Long và Cần Thơ (xem Hình 1.). Đây là dữ liệu quan trắc mực nước tại 5 trạm thủy văn có thể đại diện cho 80% số trạm hiện có của hệ thống quan trắc ở Đồng bằng sông Cửu Long, dữ liệu được quan trắc hàng giờ theo tiêu chuẩn ngành: 94 TCN 1-2003 “Quy phạm quan trắc mực nước và nhiệt độ nước sông”. Hình 1. Vị trí các trạm thủy văn Mực nước trên các con sông thay đổi hàng ngày phụ thuộc sự biến thiên tuần hoàn của lực hấp dẫn mặt trăng và mặt trời lên mỗi vị trí trên bề mặt quả đất. Sự thay đổi mực nước này được gọi là thuỷ triều. Mực nước triều là cao
- Trần Nguyễn Minh Thư, Nguyễn Hồng Hải, Phạm Trường An 121 trình mặt nước dao động theo thời gian so với mốc cao độ quy ước. Mực nước triều đo bằng đơn vị độ dài mét (m) hoặc centimet (cm). Mỗi trị số mực nước triều ứng với một thời điểm xuất hiện được tính bằng giờ và phút. Tùy thuộc vào vị trí địa lý khác nhau mà chu kỳ dao động mực nước triều sẽ khác nhau. Có hai loại triều cơ bản là bán nhật triều và nhật triều. Với bán nhật triều, trong một ngày có hai lần triều dâng lên và hai lần triều rút, trong khi đó, nhật triều chỉ có một lần triều lên và một lần triều xuống. Ngoài hai loại cơ bản còn có 2 loại triều hỗn hợp là bán nhật triều không đều và nhật triều không đều. Khu vực có chế độ bán nhật triều không đều, hầu hết các ngày trong tháng có có hai lần triều dâng và hai lần triều rút và một số ngày chỉ có một lần triều lên hoặc một lần triều rút. Mực nước các trạm trên sông Mekong ảnh hưởng chủ yếu của thủy triều biển Đông với các mức độ ảnh hưởng khác nhau tuỳ vào vị trí địa lý và thay đổi theo chế độ bán nhật triều không đều. Hàng năm, mực nước cao nhất xuất hiện vào cuối tháng 9 hoặc đầu tháng 10 còn mực nước thấp nhất xuất hiện vào khoảng tháng 4, vào mùa lũ có những trạm còn ảnh hưởng của lũ thượng lưu nhưng vẫn có dao động triều nhưng biên độ khá nhỏ. Dữ liệu mực nước quan trắc được tại 5 trạm như đã đề cập ở trên được tổ chức thành 6 cột: cột 1 là thời điểm quan trắc với định dạng “dd mm yyyy HH:00”, 5 cột tiếp theo là mực nước quan trắc được tương ứng 5 trạm theo thời điểm ở cột 1. Trị số mực nước này tính bằng “cm” biểu diễn độ cao của mực nước trên sông so với mặt chuẩn quốc gia. Khoảng thời gian giữa 2 lần quan trắc là 1 giờ, một năm (365 ngày) một trạm có 8760 trị số mực nước, tập dữ liệu đầu vào có độ lớn là 5 năm với 43.848 dòng dữ liệu. Bảng 1 là trích dữ liệu thu thập được từ 0h ngày 31 12 2013 đến 4h ngày 31/12 2013 tại 5 điểm Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ và Mỹ Thuận. Bảng 1. Dữ liệu mực nước quan trắc tại 5 trạm trên sông Mekong STT Time TAN CHAU CHAU DOC VAM NAO CAN THO MY THUAN 1 31/12/2013 0:00 167 146 125 116 105 2 31/12/2013 1:00 162 141 124 140 133 3 31/12/2013 2:00 160 139 136 155 144 4 31/12/2013 3:00 164 144 157 151 142 5 31/12/2013 4:00 179 165 176 130 120 Nhằm phân tích mối tương quan về mức triều của các trạm quan trắc được, diễn biến mực nước của 5 trạm trong cùng năm 2012 được thể hiện trong Hình 2. Thời gian bắt đầu mùa cạn vào tháng 4 hoặc tháng 5 đây là thời kỳ mực nước xuống thấp mực nước thấp nhất. Với thông tin quan trắc được thì vào mùa cạn, mực nước của cả 5 trạm khá tương đồng nhau không có sự chênh lệch nhiều về mức triều. Tuy nhiên, khi mùa lũ bắt, bắt đầu từ tháng 6 thì có sự chênh lệch nhiều giữa các trạm: mực nước cao nhất ở trạm đầu nguồn là Tân Châu tiếp theo giảm dần xuống Châu Đốc, Vàm Nao, Cần Thơ và thấp nhất là Mỹ Thuận. Mực nước cao nhất đạt đỉnh vào khoảng tháng 9, tháng 10. Tháng 11 mực nước bắt đầu rút dần cho đến tháng 12 thì mực nước của 5 trạm lại gần giống nhau. Điều này cho thấy chúng ta cần phải quan sát và dự báo mực nước vào mùa mưa bắt đầu từ tháng 6 đến tháng 12 để thành phố có thể ứng phó với sự thay đổi phức tạp của mực nước. Hình 2. Diễn biến mực nước của các trạm trên sông Cửu Long
- 122 DỰ BÁO MỰC NƯỚC SÔNG MEKONG SỬ DỤNG LSTM VÀ DỮ LIỆU QUAN TRẮC THƯỢNG NGUỒN B. Mạng Long short-term memory (LSTM) Dữ liệu mực nước là một dạng dữ liệu chuỗi thời gian, dữ liệu mực nước ở thời điểm t phụ thuộc vào mực nước ở thời điểm t-1, t-2,… Để dự báo mực nước, mạng nơron hồi quy (Recurrent Neural Networks -RNN) [11] được sử dụng thay cho mạng nơron thông thường. Mạng nơron hồi quy là mạng có trạng thái bên trong được đưa trở lại đầu vào. Nghĩa là mạng tính toán đầu ra bằng thông tin hiện tại và dự đoán của đầu vào trước đó. Trong RNN các đầu vào sẽ được kết hợp với phần tử của lớp ẩn trước đó để tính ra giá trị phần tử của lớp ẩn hiện tại sau đó tính đầu ra hiện tại. Như vậy kết quả từ các quá trình tính toán trước đã được “nhớ” bằng cách kết hợp thêm phần tử ẩn trước đó để tăng độ chính xác cho những dự đoán ở hiện tại. Tuy nhiên, mô hình này gặp khó khăn liên quan đến việc cập nhật trọng số trong lớp ẩn, vì mất mát đạo hàm xảy ra dẫn đến giá trị gradient sẽ ngày càng gần với giá trị 0. Để giải quyết vấn này, một dạng mở rộng của RNN, mô hình LSTM (Long short-term memory được đề xuất bởi Hochreiter & Schmidhuber (1997) [10]. Mô hình LSTM này được xem là một giải pháp tối ưu hơn các mạng nơron truyền thống khác khi xử lý các vấn đề liên quan dự đoán chuỗi thời gian. Mỗi một nơron trong mô hình LSTM bao gồm ba cổng: cổng quên (forget gate), cổng vào (input gate) và cổng ra (output gate) mô tả như Hình 3. Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng sigmoid và một phép nhân. Tầng sigmoid sẽ cho đầu ra là một số trong khoảng [0, 1], mô tả có bao nhiêu thông tin có thể được thông qua. Khi đầu ra là 0 thì có nghĩa là không cho thông tin nào qua cả, còn khi là 1 thì có nghĩa là cho tất cả các thông tin đi qua nó. Cổng (gate) trong LSTM có tác dụng loại bỏ hay thêm vào các thông tin cần thiết cho trạng thái tế bào. Cổng ra (output gate) quyết định số lượng nội dung trong ô nhớ sẽ hiển thị đầu ra của khối. Nội dung hiển thị này phụ thuộc vào thông tin từ cổng vào (input gate) và cổng quên (forget gate). Hình 3. Cấu trúc của một LSTM nơron (Tham khảo internet) Bước đầu tiên của mô hình LSTM là quyết định thông tin nào cần loại bỏ từ trạng thái tế bào. Quyết định này được đưa ra bởi cổng quên (forget gate). Đầu vào cho bước này là ht-1 (giá trị đầu ra tại thời điểm t-1) và xt (dữ liệu đầu vào), đầu ra ft là một số trong khoảng từ [0, 1] cho mỗi số trong trạng thái tế bào Ct-1. Công thức của cổng quên (forget gate) được tính như sau: ft ( f ht-1 , xt + bf ) (1) Trong đó: là hàm sigmoid, Wf và bf lần lượt là trọng số và bias của cổng quên (forget gate) Bước tiếp theo là quyết định xem thông tin mới nào sẽ lưu vào trạng thái tế bào. Việc này gồm 2 phần, đầu tiên là sử dụng cổng vào (input gate) để quyết định giá trị nào sẽ cần cập nhật. Tiếp theo là sử dụng hàm tanh tạo ra một véctơ cho giá trị mới Ct nhằm thêm vào cho trạng thái. Trong bước tiếp theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhật cho trạng thái. Công thức thực hiện cổng vào và cập nhật trạng thái tế bào: it ( i ht-1 , xt + bi ) (2) Ct tanh( c ht-1 , xt + bc ) (3) t ft * Ct- it * t (4) Trong đó: là hàm sigmoid, Wi và bi lần lượt là trọng số và bias của cổng vào (input gate), Wc và bc lần lượt là trọng số và bias của trạng thái tế bào, Ct-1 và Ct là trạng thái tế bào lần lượt ở thời điểm t-1 và t. Ở bước cuối cùng, giá trị đầu ra (ht) sẽ được quyết định bởi trạng thái của tế bào muốn xuất ra (output gate, nhưng sẽ được tiếp tục sàng lọc. Đầu tiên, cần chạy một hàm sigmoid để quyết định phần nào của trạng thái tế bào
- Trần Nguyễn Minh Thư, Nguyễn Hồng Hải, Phạm Trường An 123 muốn xuất ra. Sau đó, đưa trạng thái tế bào qua một hàm tanh để co giá trị nó về khoảng [-1, 1] và nhân nó với đầu ra của hàm sigmoid để được giá trị đầu ra mong muốn. ot ( o ht-1 , xt + bo ) (5) ht ot tanh(Ct ) (6) Trong đó: là hàm sigmoid, Wo và bo lần lượt là trọng số và bias của cổng ra (output gate) Chức năng bộ nhớ có chọn lọc của LSTM được thực hiện bởi cơ chế cổng (gate) giúp LSTM phù hợp hơn để xử lý các vấn đề liên quan đến dự đoán chuỗi thời gian so với các mạng nơron truyền thống khác. Mô hình dự báo mực nước sông dựa trên LSTM có thể tận dụng tối đa chuỗi thời gian của thông tin mực nước đo được tại các trạm để cải thiện độ chính xác của mô hình dự đoán. III. THỰC NGHIỆM VÀ ĐÁNH GIÁ A. Thiết lập thông số mô hình mạng LSTM cho bài toán dự báo mực nước tại trạm Cần Thơ Để giải quyết bài toán dự báo mực nước tại trạm Cần Thơ cho 6 giờ tiếp theo: t+1, t+2, t+3, t+4, t+5 và t+6, dữ liệu đầu vào của mô hình LSTM được dựa trên mực nước đo tại các trạm Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận trong 24 giờ trước đó hoặc chỉ sử dụng mực nước đo tại trạm Cần Thơ trong 24 trước đó. Mô hình đề xuất với đầu vào cố định là mực nước của 24 giờ trước đó và đầu ra là 6 giờ sau đó, các thông số tầng ẩn được lựa chọn dựa trên thực nghiệm như trình bày trong bảng 2. Bảng 2. Thông tin tầng ẩn của mô hình đề xuất STT Thông số tầng ẩn RMSE 1 1 tầng ẩn với 50 neuron, tốc độ học 0.001, hàm tối ưu Adam 31/12/2013 0:00 10.061 2 1 tầng ẩn với 100 neuron, tốc độ học 0.001, hàm tối ưu Adam 22.230 3 2 tầng ẩn: tầng 1 có 20 neuron và tầng 2 có neuron 50, tốc độ học 0.001, hàm tối ưu Adam 10.064 4 2 tầng ẩn: tầng 1 có 100 neuron và tầng 2 có neuron 10, tốc độ học 0.001, hàm tối ưu Adam 9.845 5 2 tầng ẩn: tầng 1 có 10 neuron và tầng 2 có neuron 100, tốc độ học 0.001, hàm tối ưu Adam 6.026 Với những thực nghiệm trên, chúng tôi đề xuất mô hình báo mực nước dựa trên LSTM bao gồm 4 tầng: tầng đầu vào (input layer), 2 tầng ẩn (hidden layer 1, hidden layer 2) và một tầng đầu ra (output layer). Thông tin tầng đầu vào thay đổi tuỳ theo kịch bản thử nghiệm. Thông tin tầng ẩn thứ nhất gồm 10 neuron (m=10), tầng ẩn thứ 2 gồm 100 neuron (n=100). Tầng đầu ra (Output layer) là một vector có độ dài bằng 6, kết quả dự báo mực nước tại trạm Cần Thơ trong 6 giờ tiếp theo (t+1, t+2, t+3, t+4, t+5, t+6). Dựa vào đặc điểm địa lý của trạm Cần Thơ so với 4 trạm Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận, chúng tôi đề xuất mô hình dự báo mực nước tại trạm Cần Thơ dựa vào thông tin mực nước của 4 trạm trước đó. Với mô hình này, chúng tôi sử dụng mực nước của 24 giờ trước đó để dự báo mực nước cho 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ và 6 giờ sau đó. Và để khẳng định đề xuất dự báo 1 trạm dựa trên các trạm liên quan so với dự báo mực nước của 1 trạm dựa trên chính thông tin của trạm đó hiệu quả, chúng tôi cũng thử nghiệm mô hình với dữ liệu là mực nước đo của duy nhất trạm Cần Thơ của 24 giờ trước đó để dự báo mực nước cho 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ và 6 giờ sau đó. Thực nghiệm sử dụng gói thư viện Tensorflow của Google, gói Keras để xây dựng mô hình dự báo. Tập dữ liệu thu thập được có độ lớn là 5 năm với 43.848 dòng dữ liệu, tập dữ liệu này được chia làm 2 phần, trong đó dữ liệu từ năm 2012-2015 được dùng để huấn luyện mô hình tìm ra tham số tốt nhất và dữ liệu năm 2016 dùng để kiểm tra và đánh giá mô hình. Để đánh giá hiệu quả của mô hình dự báo, chỉ số Root Mean Squared Error - RMSE được sử dụng để đánh giá độ chính xác cũng như so sánh với các mô hình, giải thuật khác: 1 2 ̂ i) RMSE= √ ∑ni=1 (Oi - O (7) n Trong đó: , ̂ là giá trị thực đo và giá trị dự báo của mẫu thứ i tương ứng. Mô hình dự báo cho kết quả tốt nếu RMSE nhỏ. B. Kết quả dự báo mực nước tại Cần Thơ Với số lượng nơron tầng ẩn 1 là 10, tầng ẩn 2 là 100, tốc độ học 0.001 và hàm tối ưu Adam, hàm loss là MSE của mô hình LSTM đề xuất, chúng tôi thay đổi số trạm đầu vào và giá trị Epoch, sai số dự báo cho 6 giờ tiếp theo được trình bày trong bảng 2. Song song với việc đánh giá sai số mực nước dự báo của mô hình đề xuất, chúng tôi cũng cài đặt mô hình cây hồi quy với cùng tập dữ liệu thực nghiệm để kiểm tra hiệu quả của mô hình đề xuất so với các giải thuật máy học khác. Kết quả cho thấy mô hình đề xuất thực sự hiệu quả với tập dữ liệu thực nghiệm. Cũng với kết quả này, chúng tôi sử dụng Epoch = 10000 cho các thực nghiệm tiếp theo.
- 124 DỰ BÁO MỰC NƯỚC SÔNG MEKONG SỬ DỤNG LSTM VÀ DỮ LIỆU QUAN TRẮC THƯỢNG NGUỒN Bảng 3. Sai số mực nước dự báo giữa mô hình LSTM và cây hồi quy Giải thuật RMSE (cm) Số Epoch Đầu vào: 1 trạm Cần Thơ Đầu vào: 4 trạm LSTM 1000 6.708 8.095 5000 6.166 6.026 10000 5.463 4.956 Max_depth Cây hồi quy 5 19.639 21.925 10 11.660 14.506 15 12.064 14.955 Với mô hình đề xuất, giá trị sai số trung bình cho dự báo mực nước tại trạm Cần Thơ ở các thời điểm t+1, t+2, t+3, t+4, t+5, t+6 với mô hình sử dụng đầu vào là 4 trạm RMSE = 4.956 cm và 1 trạm (thông tin của chính trạm Cần Thơ) RMSE = 5.463 cm. Thông tin sai số chi tiết cho từng giờ được thể hiện trong hình 5. với hình bên trái là 1 trạm đầu vào và bên phải là 4 trạm đầu vào. Kết quả thu được cho thấy đề xuất của nghiên cứu thực sự hiệu quả khi sử dụng thông tin của các trạm trước đó để dự báo cho mực nước ở Cần Thơ. Và qua cả 2 biểu đồ ta cũng thấy được, thời gian dự báo càng xa thì sai số càng tăng. Hình 4. Phân tích sự ảnh hưởng của mùa đối với kết quả dự báo Với giá trị sai số RMSE tại thời điểm t+3 có giá trị 0.05m cho 1 trạm đầu vào và 0.048m cho 4 trạm đầu vào, mô hình này chứng tỏ hiệu quả hơn mô hình đề xuất bởi tác giả Lê Xuân Hiền và Hồ Việt Hùng [7] trong dự báo mực nước tại Hải Phòng sử dụng mô hình LSTM. Hình 5. Mực nước thực tế và mực nước dự báo của năm 2016 Để tìm hiểu chi tiết hơn về sự chênh lệch giữa giá trị dự báo và giá trị thực tế, biểu đồ trong hình 6 và hình 7 minh hoạ cụ thể sự sai khác này. Hình 6 hiển thị mực nước dự báo và mực nước thực tế của hàng giờ của năm 2016 (8760 điểm dữ liệu). Hình 7 hiển thị kết quả của 5 ngày đầu tiên của năm 2016, giúp cho việc quan sát, đánh giá kết quả chênh lệch được dễ dàng hơn. Kết quả cũng cho thấy, mô hình hoạt động tốt ngay cả những nơi thay đổi mực nước một cách đột ngột, giá trị sai số cho dự báo mực nước trong trường hợp này cũng không tăng cao so với các điểm dữ liệu còn lại.
- Trần Nguyễn Minh Thư, Nguyễn Hồng Hải, Phạm Trường An 125 Hình 6. Mực nước thực tế và mực nước dự báo của 5 ngày đầu tiên năm 2016 Với những quan sát và phân tích dữ liệu quan trắc được hàng năm thì khi mùa lũ bắt đầu, mực nước có sự chênh lệch nhiều giữa các trạm. Chúng tôi đánh giá kết quả dự báo theo từng tháng trong năm 2016 để xem mô hình huấn luyện được có đáp ứng tốt với việc thay đổi thời tiết (mưa) hay triều cường. Kết quả được hiển thị trong hình 8, bên trái là mô hình sử dụng dữ liệu mực nước của trạm Cần Thơ để dự báo cho chính trạm Cần Thơ, mô hình bên phải là sử dụng thông tin của 4 trạm Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận để dự báo mực nước tại trạm Cần Thơ. Kết quả cho thấy vào thời điểm tháng 1 đến tháng 6 sai số ổn định và ở mức cao hơn thời điểm 6 tháng cuối năm, dữ liệu mực nước chênh lệch cao giữa các trạm và mô hình sử dụng 4 trạm trước đó để dự báo cho trạm Cần Thơ đạt sai số thấp nhất. Điều này khẳng đinh, sự thay đổi hay chuyển giao thời tiết giữa các tháng không có nhiều ảnh hưởng đến kết quả dự báo khi sử dụng mô hình đề xuất. Hình 7. Phân tích sự ảnh hưởng của mùa đối với kết quả dự báo IV. KẾT LUẬN Biến đổi khí hậu ngày càng diễn biến phức tạp, việc dự báo chính xác mực nước tại vùng đồng bằng sông Cửu Long sẽ giúp cho việc ứng phó được thực hiện hiệu quả giảm thiểu thiệt hại kinh tế của vùng. Trong nghiên cứu này, chúng tôi đã đề xuất mô hình LSTM để dự báo mực nước 6 giờ tiếp theo tại trạm Cần Thơ dựa vào thông tin mực nước của 24 giờ trước đó được đo tại 4 trạm Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận. Kết quả cho thấy sai số tương đối thấp và ổn định, RMSE = 5.6 cho dự báo sử dụng thông tin đầu vào là mực nước của 4 trạm. Giá trị sai số này là khá tốt so với một số nghiên cứu đã đề cập đến trong phần phân tích các nghiên cứu có liên quan. Để chứng minh mô hình hoạt động tốt, giải thuật cây hồi quy, mô hình LSTM với đầu vào là dữ liệu mực nước của một trạm cũng được thực nghiệm và so sánh, đánh giá. Nghiên cứu cũng đã thực nghiệm việc đáp ứng của mô hình đối với trường hợp dữ liệu có thay đổi đột ngột giữa các thời điểm khác nhau trong năm. Mặc dù, không có quy tắc cụ thể nào cho việc lựa chọn các thông số của mô hình như tốc độ học, số lượng tầng ẩn, số lượng Epoch cũng như cấu trúc của mô hình. Việc lựa chọn các thông số này dựa vào quá trình thử và đánh giá sai số. Nhưng mạng nơron nhân tạo đã chứng tỏ ưu điểm là đơn giản và hiệu quả với các mô hình thủy văn, thủy lực, mô hình mạng LSTM là giải pháp tốt cho việc dự báo mực nước theo thời gian thực. Dữ liệu sử dụng đánh giá hiện có là năm 2016, trong tương lai, chúng tôi sẽ thu thập dữ liệu mực nước của 5 trạm của cả năm 2018 để kiểm thử và đánh giá hiệu quả dự báo và thích nghi của mô hình theo thời gian. Bên cạnh đó, mô hình cũng chưa thể hiện đặc điểm không gian, sự trễ của dòng chảy của các trạm, mối liên quan mật thiết này sẽ
- 126 DỰ BÁO MỰC NƯỚC SÔNG MEKONG SỬ DỤNG LSTM VÀ DỮ LIỆU QUAN TRẮC THƯỢNG NGUỒN được sử dụng để cải tiến độ chính xác của mô hình. Song song đó, mô hình cần được cải tiến để tăng thời gian dự báo sớm như dự báo cho 24 giờ tiếp theo, dự báo 1 tuần tiếp theo để có những ứng phó tốt hơn đối với sự biến đổi phức tạp của khí hậu. TÀI LIỆU THAM KHẢO [1] Trần Thục, Koos Neefjes, Tạ Thị Thanh Hương và ctv, 2015. IMHEN và UNDP Báo cáo đặc biệt của Việt Nam về Quản lý rủi ro thiên tai và hiện tượng cực đoan nhằm thúc đẩy thích ứng với biến đổi khí hậu, NXB Tài Nguyên - Môi trường và Bản đồ Việt Nam, Hà Nội, Việt Nam. [2] Phạm Văn Huấn và Hoàng Trung Thành, “Sơ đồ chi tiết phân tích điều hòa thủy triều”, Tạp chí Khoa học Tự nhiên và Công nghệ. Số 25: 66-75, 2009 [3] Đặng Văn Tỏ, “Phân tích và dự báo dao động mực nước” Tạp chí phát triển khoa học và công nghệ tập 11. số 4: 19-27, , 2008. [4] D. Makarynska, O. Makarynskyy, “Predicting sea-level variations at the Cocos (Keeling) Islands with artificial neural networks”,, Computers & Geosciences, số 34, pp. 1910-1917, 2008. [5] O. Makarynskyy, D. Makarynska, M. Kuhn, W.E. Featherstone., “Predicting sea level variations with artificial neural networks at Hillarys Boat Harbour, Western Australia.”, Estuarine, Coastal and Shelf Science, vol. 61, pp. 351-360, 2004. [6] Mohammad Ali Ghorbani, Rahman Khatibi, Ali Aytek, Oleg Makarynskyy and Jalal Shiri, 2010. Sea water level forecasting using genetic programming and comparing the performance with Artificial Neural Networks. Computers & Geosciences 36: 620–627. [7] Bang-Fuh Chen, Han-Der Wang and Chih-Chun Chu, 2007. Wavelet and artificial neural network analyses of tide forecasting and supplement of tides around Taiwan and South China Sea. Ocean Engineering 34: 2161–2175. [8] Truong Xuan Nam, Nguyễn Thanh Tùng, “Deep Learning: ứng dụng cho dự báo lưu lượng nước đến hồ chứa Hoà Bình”, Kỷ yếu Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), pp. 119-124, 2016. [9] Lê Xuân Hiền, Hồ Việt Hùng, “Ứng dụng mạng long short-term memory (LSTM) để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng, Việt Nam, Khoa học kỹ thuật thuỷ lợi và môi trường, số 62, pp. 9-15, 9/2018 [10] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation vol. 9, Issuse 8, pp.1735-1780, November 1997. [11] Felix A. Gers , Nicol N. Schraudolph , Jürgen Schmidhuber, Learning precise timing with lstm recurrent networks, The Journal of Machine Learning Research, 3, p.115-143, 3/1/2003. FORECASTING THE WATER LEVEL OF THE MEKONG RIVER BY USING LSTM AND THE INFORMATION OF MONITORING UPSTREAM Tran Nguyen Minh Thu, Nguyen Hong Hai, Pham Truong An ABSTRACT: Due to Mekong Delta with a complex system of rivers and canals, the phenomenon of high-tide flooding often occur The river level is not only influenced by tide but also influenced by many other factors such as topography, base water level and many other hydrological elements. Forcast of water level in the Mekong river system is built to minimize economic losses and to face flood tide. Long short-term memory is constructed based on the water level of 4 stations on the Mekong River located in Tan Chau, Chau Doc, Vam Nao and My Thuan to forecast water levels in Can Tho. The 2012-2015 dataset is used to train model and the 2016 dataset is used to test and to evaluate. To forecaste water level for 6 hours later, the water level of 24 hours before is used. The experimental results showed that the predicted value has a low error, RMSE = 4.956 cm with the water level of 4 input stations and RMSE = 5.463cm with the water level of 1 input station.
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn