
KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 85 (9/2023)
19
BÀI BÁO KHOA HỌC
ỨNG DỤNG MÔ HÌNH HỒI QUY VÀ MẠNG NƠ RON NHÂN TẠO
DỰ BÁO SỐ LIỆU QUAN TRẮC THẤM Ở THÂN VÀ NỀN ĐẬP
Trần Duy Quân1, Nguyễn Thị Kim Ngân2, Hồ Sỹ Tâm1, Tạ Quang Chiểu2
Tóm tắt: Số liệu quan trắc thấm qua thân và nền đập là một trong những thông tin quan trọng góp
phần đánh giá và phát hiện sớm nguy cơ mất an toàn đập. Những năm gần đây, với sự phát triển của
công nghệ thông tin, nhiều mô hình ứng dụng trí tuệ nhân tạo đã và đang được ứng dụng để có thể dự
báo sớm số liệu quan trắc thấm ở thân và nền đập. Trong nghiên cứu này, hai mô hình dựa trên phương
pháp hồi quy tuyến tính (LR) và mạng nơ ron nhân tạo (ANN) được xây dựng để dự đoán số liệu quan
trắc thấm tại 25 đầu đo thấm ở thân và nền đập Ngàn Trươi tỉnh Hà Tĩnh. Các đặc trưng thống kê R2,
NSE, MAE và RMSE được tính toán để kiểm tra độ tin cậy của hai mô hình. Kết quả tính toán cho thấy,
cả hai mô hình đều cho kết quả dự báo tốt ở hầu hết các đầu đo quan trắc. Trong đó mô hình LR cho
thấy kết quả dự báo tốt hơn mô hình ANN. Những kết quả này mở ra triển vọng áp dụng những mô hình
học máy trong dự báo số liệu quan trắc thấm để từ đó phát hiện sớm nguy cơ mất an toàn liên quan đến
dòng thấm ở thân và nền đập.
Từ khoá: Dự báo thấm, học máy, hồi quy tuyến tính, mạng nơ ron nhân tạo.
1. ĐẶT VẤN ĐỀ *
Đập là công trình nhân tạo được xây dựng chắn
ngang sông thường là tạo thành các hồ chứa nước.
Các hồ chứa nước một mặt có vai trò quan trọng
trong việc điều tiết nguồn nước, cung cấp nước cho
các nhu cầu dùng nước (thủy điện, cấp nước cho
nông nghiệp, công nghiệp, sinh hoạt, nuôi trồng
thủy sản…), đồng thời là góp phần cắt lũ cho hạ
lưu. Mặt khác, các đập và hồ chứa khi xảy ra sự cố,
lượng nước sẽ đổ về phía hạ du, gây ra các thiệt hại
lớn đến các hoạt động kinh tế xã hội, thậm chí cả
tính mạng con người. Do đó, yêu cầu đảm bảo an
toàn đập, phát hiện sớm nguy cơ sự cố đập là một
yêu cầu quan trọng trong quản lý vận hành.
Theo thống kê, trong số các nguyên nhân dẫn
đến sự cố đập, nguyên nhân do dòng thấm chiếm
khoảng 25-30% các sự cố đập trên thế giới
(Stematiu, 2009; Charles, 2011). Sự cố đập do
dòng thấm có thể phát hiện sớm được trong quá
trình quản lý vận hành thông qua các dấu hiệu bất
thường của dòng thấm có thể nhận biết qua các
biểu hiện bên ngoài của đập (hố sụt trên mặt đập,
1 Khoa Công trình, Trường Đại học Thủy lợi
2 Khoa Công nghệ thông tin, Trường Đại học Thủy lợi
nước thấm đục chảy ra phía hạ lưu đập, sự phát
triển bất thường của cây cỏ phía hạ lưu đập so với
khu vực xung quanh...); hoặc thông qua số liệu
quan trắc hoặc thông qua tính toán các đặc trưng
của dòng thấm ở đập và nền như cột nước thấm,
lưu lượng thấm, áp lực thấm. Một vài ví dụ có thể
kể đến như nghiên cứu của Torblaa và Kjoernsli
(1968) cho thấy rằng, sự cố đập Hyttejuvet ở Áo
đã được phát hiện sớm khi có sự tăng lên bất
thường trong số liệu quan trắc lưu lượng thấm qua
đập; hay nghiên cứu khác của Lach (2018) chỉ ra
rằng 2 tuần trước thời điểm sự cố thấm ở đập
Pieczyska, số liệu quan trắc cột nước thấm tại các
Piezometers khu vực xuất hiện sự cố có sự tụt
giảm đột ngột. Như vậy, các sự cố đập liên quan
đến dòng thấm hoàn toàn có thể phát hiện sớm
thông qua những thay đổi bất thường trong số liệu
quan trắc thấm ở công trình. Vì vậy, việc phát
triển một công cụ để phân tích, dự báo sớm số liệu
quan trắc thấm dưới đập là cần thiết và có nhiều ý
nghĩa thực tiễn.
Ở Việt Nam hiện nay, để xác định các đặc
trưng của dòng thấm qua thân và nền đập, một số
phương pháp tính toán dựa trên một số giả thiết để
đơn giản hóa bài toán như các phương pháp gần

KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 85 (9/2023)
20
đúng như phương pháp thủy lực, phương pháp
phần tử hữu hạn (FEM). Những phương pháp này
có hạn chế là thường giải quyết bài toán phẳng, ít
kể đến ảnh hưởng của các yếu tố không gian, thời
gian, thời tiết… đến dòng thấm qua thân, nền đập
Do đó, kết quả tính toán thấm theo những phương
pháp này trong các giai đoạn thiết kế thường có sự
sai lệch tương đối lớn so với các giá trị quan trắc
trong thực tế.
Những năm gần đây, với sự phát triển của công
nghệ thông tin cùng với cuộc cách mạng 4.0 đưa
đến nhiều ứng dụng của công nghệ thông tin, trí
tuệ nhân tạo (AI), trong đó có ứng dụng để dự báo
số liệu quan trắc thấm qua thân và nền đập. Tayfur
và nnk (2005) đã ứng dụng mô hình Artificial
Neural Network (ANN) kết hợp, so sánh với kết
quả tính toán mô phỏng từ mô hình FEM để đánh
giá và dự báo số liệu quan trắc thấm tại các
Piezometers của đập Jeziorsko ở Ba Lan. Nourani
và nnk (2012) đã phát triển mô hình ANN tích hợp
sử dụng thuật toán FFBP (feed-forward back-
propagation) và RBF (radial basis function) để mô
hình xác định số liệu quan trắc thấm trong một
nhóm các Piezometers của đập Sattarkhan, Iran.
Emami và nnk (2019) cũng sử dụng mô hình ANN
tích hợp tương tự dùng đề dự báo số liệu quan trắc
thấm trong các Piezometers của đập Boukan
Shahid Kazemi, Iran... Những nghiên cứu này đều
cho thấy năng lực và độ chính xác khi áp dụng các
mô hình AI trong dự báo số liệu quan trắc thấm ở
thân và nền đập, so sánh với các phương pháp
truyền thống.
Trong bài báo này, các tác giả đề xuất xây
dựng mô hình hồi quy tuyến tính (LR) và mô hình
mạng nơ ron nhân tạo (ANN) để dự báo số liệu
quan trắc thấm tại các đầu đo và ứng dụng cho
đập Ngàn Trươi, tỉnh Hà Tĩnh.
2. PHƯƠNG PHÁP NGHIÊN CỨU VÀ SỐ
LIỆU THU THẬP
2.1. Các mô hình nghiên cứu
2.1.1. Mô hình hồi quy tuyến tính
Hồi quy tuyến tính (Linear Regression - LR) là
một thuật toán học có giám sát, ở đó quan hệ giữa
đầu vào và đầu ra được mô tả bởi một hàm tuyến
tính. Phương pháp này được mô tả như sau:
- Đầu vào: Cho tập dữ liệu huấn luyện gồm N
mẫu. Mỗi mẫu là một cặp ( ). Trong đó, xi là
véc tơ đặc trưng của mẫu thứ i, yi là giá trị của
mẫu thứ i.
- Đầu ra: Một hàm tuyến tính có dạng
(1)
- Phương pháp: Tìm hệ số w của hàm
sao cho trung bình sai số giữa và là nhỏ
nhất. Nghĩa là, tìm (w,b) để hàm mất mát L(w,b)
đạt giá trị nhỏ nhất.
(2)
Đặt , ,
, y = [y1, y2, … yN], hàm mất mát
L(w,b) được viết lại như sau.
(3)
Xét biến , là hàm bậc 2 với hệ số của
biến bậc 2 là một số dương. Vì vậy đạt giá
trị cực tiểu khi . Đạo hàm của hàm
theo ta có:
(4)
Giải phương trình , ta có
(5)
2.1.2. Mô hình mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo (Artificial Neural
Network - ANN) là một trong những mô hình
quan trọng trong Machine Learning cũng như là
Deep Learning. Nó là một mô hình tính toán mô
phỏng cách thức hoạt động của các tế bào thần
kinh bộ não con người. Trong một ANN, mỗi nơ
ron gồm 2 phần: Tổng hợp thông tin đầu vào,
Tính toán thông tin đầu ra (Hình 1). Giả sử, một
nơ ron có n tín hiệu đầu vào (x1, x2, …, xn) với
trọng số tương ứng của các tín hiệu là (w1, w2,
…, wn), f là hàm kích hoạt (activation function)
của nơ ron. Khi đó các tính toán của nơ ron này
được thực hiện như sau.
- Tổng hợp thông tin đầu vào:
(6)
- Tính thông tin đầu ra:
(7)

KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 85 (9/2023)
21
Hình 1. Cấu tạo của một nơ ron nhân tạo
Hình 2. Sơ đồ mạng nơ ron nhân tạo 2 tầng ẩn
Một mạng nơ ron nhân tạo là một mạng gồm
nhiều nơ ron nhân tạo nối với nhau và xử lý thông
tin bằng cách truyền theo các kết nối và tính giá trị
mới tại các nơ ron (xem Hình 2).
2.2. Các tiêu chí đánh giá độ tin cậy của các
mô hình hồi quy
Để đánh giá mức độ dự báo chính xác của các mô
hình hồi quy, bốn tiêu chí đánh giá sau được sử dụng:
1. Hệ số xác định (R2)
R2 = (8)
2. Hệ số hiệu quả (Nash-Sutcliffe efficiency - NSE)
NSE = 1
(9)
3. Sai số tuyệt đối trung bình (Mean Absolute Error - MAE)
MAE = (10)
4. Lỗi trung bình bình phương gốc (Root Mean Square Error - RMSE)
RMSE =
(11)
Trong đó: và là giá trị cột nước áp
lực thấm thực đo và dự đoán tại thời điểm i;
và là giá trị trung bình của cột nước áp lực
thấm thực đo và dự đoán. Giá trị R2 nằm trong
đoạn [0, 1]; R2 càng lớn thì độ chính xác của mô
hình càng cao. Giá trị của NSE nằm trong khoảng
từ đến 1; và càng gần 1 thì khả năng dự đoán
của mô hình càng tốt. MAE và RMSE là hai chỉ số
hiển thị sai số của mô hình với giá trị luôn không
âm, giá trị càng gần 0 thì mô hình càng tốt.
2.3. Vùng nghiên cứu và số liệu thu thập
Trong nghiên cứu này, nhóm tác giả lựa chọn đập
Ngàn Trươi, tỉnh Hà Tĩnh làm nghiên cứu điển hỉnh.
Tại đập Ngàn Trươi có bố trí khá đầy đủ hệ thống
quan trắc công trình theo quy định tại TCVN
8215:2021 Công trình thủy lợi - Thiết bị quan trắc,
trong đó hệ thống thiết bị quan trắc thấm thân và nền
đập được bố trí thành 4 tuyến theo 4 mặt cắt ngang
của đập bao gồm MC3, MC6, MC9 và MC12.
Trong các giếng có bố trí các đầu đo bao gồm đầu
đo trên cao để đo cột nước ứng với đường bão hòa
trong thân đập và các đầu đo dưới sâu để đo cột
nước áp lực thấm dưới nền đập. Các đầu đo được thể
hiện chi tiết tại Bảng 1.
Bộ dữ liệu dùng cho nghiên cứu gồm 1354
mẫu chứa các thông tin được thu thập của mực
nước hồ và số liệu quan trắc thấm của 25 đầu đo
trên tại 9h sáng mỗi ngày, từ ngày 01/01/2019 đến
ngày 01/12/2022. Chuỗi dữ liệu trên sau đó được
nhóm nghiên cứu chia thành 2 tập dữ liệu phụ vụ
cho việc xây dựng và kiểm định mô hình, cụ thể
như sau:

KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 85 (9/2023)
22
- Tập dữ liệu huấn luyện (training data) có
1085 mẫu (dữ liệu từ ngày 01/01/2019 -
05/03/2022).
- Tập dữ liệu kiểm tra (testing data) có 269
mẫu (dữ liệu từ ngày 06/03/2022 - 01/12/2022).
Bảng 1. Bảng tổng hợp các đầu đo quan trắc thấm qua thân và nền đập Ngàn Trươi
STT Mặt cắt Tên đầu đo
Cao trình
miệng giếng
(m)
Cao trình
đặt đầu đo
(m)
Ghi chú
1 ALT1-1 56,43 20 Đầu đo áp lực thấm
2 ALT2-1 56,56 11 Đầu đo áp lực thấm
3 ALT3 44,57 25 Đầu đo áp lực thấm
4 ALT4 29,80 20 Đầu đo áp lực thấm
5 ALT1-2 56,43 33 Đầu đo mực nước bão hòa
6
MC3
ALT2-2 56,56 31 Đầu đo mực nước bão hòa
1 ALT5-1 56,60 -7,3 Đầu đo áp lực thấm
2 ALT6-1 56,60 -20 Đầu đo áp lực thấm
3 ALT7-1 44,57 -2,5 Đầu đo áp lực thấm
4 ALT8 29,76 8,5 Đầu đo áp lực thấm
5 ALT5-2 56,60 33 Đầu đo mực nước bão hòa
6 ALT6-2 56,60 31 Đầu đo mực nước bão hòa
7
MC6
ALT7-2 44,57 9,5 Đầu đo mực nước bão hòa
1 ALT9-1 56,52 -6 Đầu đo áp lực thấm
2 ALT10-1 56,60 -15 Đầu đo áp lực thấm
3 ALT11-1 44,58 -2,5 Đầu đo áp lực thấm
4 ALT12 29,70 8,5 Đầu đo áp lực thấm
5 ALT9-2 56,52 33 Đầu đo mực nước bão hòa
6 ALT10-2 56,60 31 Đầu đo mực nước bão hòa
7
MC9
ALT11-2 44,58 9,5 Đầu đo mực nước bão hòa
1 ALT13-1 56,36 26,6 Đầu đo áp lực thấm
2 ALT14-1 56,42 15 Đầu đo áp lực thấm
3 ALT15 44,37 35,5 Đầu đo áp lực thấm
4 ALT13-2 56,36 33 Đầu đo mực nước bão hòa
5
MC12
ALT14-2 56,42 31 Đầu đo mực nước bão hòa
tH¦îNG L¦U
h¹ L¦U
Hình 3. Sơ đồ bố trí tuyến quan trắc thấm
tại đập Ngàn Trươi – tỉnh Hà Tĩnh
3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Lựa chọn chuỗi dữ liệu quá khứ và thời
gian dự báo tối ưu
Như đã được đề cập ở những phần trên, trong
nghiên cứu này, nhóm tác giả sử dụng mô hình LR
và ANN để dự báo số liệu quan trắc tại các đầu đo
thấm. Gọi là số liệu quan trắc thấm được dự
báo tại (x) ngày trong tương lại từ thời điểm hiện
tại (t). Khi đó giá trị sẽ là hàm của nhiều
biến đầu vào khác nhau. Với nghiên cứu này,
nhóm nghiên cứu giả thiết rằng sẽ phụ thuộc

KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 85 (9/2023)
23
vào các biến bao gồm: Mực nước hồ (Z) trong k
trong ngày tước đó; mực nước hồ dự báo trong x
ngày tiếp theo và số liệu quan trắc thấm tại đầu đo
đang xem xét (H) trong k ngày trong quá khứ. Từ
đó giá trị tại một đầu đo quan trắc thấm và có
thể được biểu diễn dưới dạng 1 hàm số như sau:
(12)
Trong đó: Z và H tương ứng là mực nước hồ
và số liệu quan trắc thấm tại đầu đo đang xem
xét vào thời điểm 9h sáng; t là thời điểm hiện tại
đang xem xét; k là số ngày hoặc độ dài chuỗi dữ
liệu ngắn hạn trong qua khứ được dùng để dự
báo; và x là độ dài chuỗi dữ liệu hoặc ngày
trong tương lai được dự báo. Để xác định được
độ dài chuỗi dữ liệu tối ưu trong quá khứ và giá
trị dự báo trong tương lai tốt nhất, trong nghiên
cứu này, nhóm tác giả dùng những vòng lặp để
tính toán với giá trị k thay đổi từ 1 đến 11 và giá
trị x thay đổi từ 1 đến 6. Bằng việc sử dụng
những vòng lặp với các biến thời gian k và x tại
mỗi giếng sẽ xác định được cặp giá trị k, x cho
kết quả dự đoán của mô hình tốt nhất (NSE và
R2 lớn nhất; MAE và RMSE nhỏ nhất).
Hình 4. Các tiêu chí đánh giá của mô hình hồi quy
tuyến tính với 6 biến đầu vào
Hình 4 thể hiện các tiêu chí đánh giá hiệu quả của
mô hình LR dùng để dự báo số liệu quan trắc thấm
tại đầu đo ALT1-1, ứng với các trường hợp biến thời
gian k và x khác nhau. Kết quả phân tích các tiêu chí
đánh giá hiệu quả mô hình tại đầu đo này khá tốt, giá
trị NSE trong khoảng 0,97364÷0,99651; giá trị R2
trong khoảng 0,97815÷0,99662; giá trị MAE trong
khoảng 4,249÷13,682cm; giá trị RMSE trong
khoảng 7,319÷20,685cm. Biến đầu vào thời gian với
k = 2 ngày và x = 1 ngày là cặp biến thời gian tối ưu,
cho kết quả dự báo tốt nhất (NSE = 0,99652; R2 =
0,99662; MAE = 4,25cm; RMSE = 7,32cm). Ngược
lại, cặp biến thời gian k = 9 ngày và x = 6 cho kết
quả dự báo kém nhất (NSE = 0,97364; R2 = 0,97816;
MAE = 13,20cm; RMSE = 20,67cm). Tương tự với
các đầu đo quan trắc thấm khác, tổng hợp các thông
số đầu vào và các giá trị đánh giá độ chính xác mô
hình trong trường hợp tối ưu với mô hình LR và
ANN cho các đầu đo quan trắc thấm còn lại được thể
hiện ở Bảng 2 và Bảng 3.
Kết quả mô hình thể hiện trong Bảng 2 và Bảng 3
cho thấy, gần như với tất cả các đầu đo quan trắc
thấm, ứng với cả hai mô hình LR và ANN, độ chính
xác mô hình đạt tốt nhất khi thời gian dự báo trong
tương lai ngắn x = 1 ngày. Chỉ có ứng với 2 đầu đo là
ALT13-1 và ALT13-2 khi sử dụng mô hình ANN cho
kết quả dự báo tốt nhất với x = 2 ngày. Ảnh hưởng
của độ dài chuỗi số liệu trong quá khứ k đến kết quả
của mô hình nhìn chung là không có quy luật, thay
đổi tùy vào đầu đo và phương pháp mô hình.
Bảng 2. Bảng tổng hợp các thông số mô hình LR cho các đầu đo quan trắc thấm
STT Đầu đo x tối ưu
(ngày)
k tối ưu
(ngày) NSE R2 MAE
(cm)
RMSE
(cm)
1 ALT1-1 1 2 0,99651 0,99662 4,25 7,32
2 ALT2-1 1 1 0,97801 0,97795 11,16 23,69
3 ALT3 1 10 0,33182 0,35444 6,24 13,83
4 ALT4 1 3 0,95038 0,95146 4,63 12,98
5 ALT1-2 1 2 0,99576 0,99590 4,43 7,67
6 ALT2-2 1 2 0,79797 0,80057 53,02 97,64
7 ALT5-1 1 5 0,99697 0,99952 12,80 14,21