KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
19
BÀI BÁO KHOA HỌC
NGHIÊN CỨU LỰA CHỌN MÔ HÌNH HỌC MÁY PHÙ HỢP
TRONG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT
CHO KHU VỰC VÙNG NÚI TỈNH QUẢNG NGÃI
Đoàn Viết Long
1
, Nguyễn Chí Công
1
, Nguyễn Tiến Cường
2
Tóm tắt: Học máy là một phương pháp hiện đại, được ứng dụng rộng rãi trong dự đoán nguy cơ sạt lở
đất với rất nhiều loại mô hình khác nhau. Tuy nhiên, các nghiên cứu trước đây cho thấy rằng không có
một hình học máy nào tốt nhất cho các khu vực. Đối với khu vực vùng núi tỉnh Quảng Ngãi
thường xuyên xảy ra sạt lở đất, nghiên cứu này đã sử dụng 5 thuật toán học máy: Logistic Regression,
Support Vector Machine, Decision Tree, Random Forest Extreme Gradient Boosting (XGBoost) để
xây dựng mô hình dự đoán. Kết quả kiểm định và so sánh các mô hình thông qua các chỉ số thống kê và
phương pháp ROC cho thấy hình XGBoost hiệu quả dự đoán tốt nhất (ACC= 0.813, kappa =
0.625, AUC = 0.892). Mô hình này được lựa chọn để xây dựng để tính toán chỉ số nguy cơ và xây dựng
bản đồ phân vùng nguy cơ sạt lở đất. Kết quả đánh giá mật độ sạt lở đất và kiểm chứng thực tế cho thấy
khả năng dự đoán rất tốt của bản đồ này.
Từ khóa: Học máy, Logictic Regression, SVM, Random Forest, XGBoost, ROC.
1. GIỚI THIỆU CHUNG
*
Sạt lđất (SLĐ) là một hiện tượng rất phức tạp
do sự tương c của nhiều yếu t tự nhiên ịa
chất, địa mạo, khí tượng, thủy văn...) yếu tố
con nời (Varnes, 1984). SLĐ là một trong
nhng loại hình thiên tai nguy hiểm nhất, không
chỉ mỗi nước trên toàn thế gii
(Reichenbach, et al 2018). Việt Nam, SLĐ xảy
ra tờng xuyên các tỉnh miền núi phía Bắc
miền Trung Tây Nguyên (Long, nnk 2020a).
Hin tượng này thường xảy ra bất ngờ, nhanh,
mạnh dẫn đến khó cảnh báo dự báo, để lại hu
quả kinh tế hội lớn, lâu dài khó khắc phục.
Theo thống từ Tổng cục phòng chống thiên tai
(2020), thiên tai lũ quét và SLĐ trong giai đoạn từ
2000 đến 2020 đã làm 1,117 người chết mất
tích, 671 người b thương, 12,038 nhà bị sập đổ.
Trong nghiên cứu về SLĐ, bản đ phân vùng
nguy cơ SLĐ là công cụ hữu hiệu đphòng chống
loại hình thiên tai đặc bit nguy hiểm này. Đến
nay, rất nhiều nghiên cứu liên quan đến xây dựng
1
Khoa Xây dựng Công trình thủy, Trường Đại học Bách
khoa, Đại học Đà Nẵng
2
Khoa Kỹ thuật Ô Năng lượng, Trường Đại học
Phenikaa
loại bản đồ này đã được công bố. Các nghiên cứu
gần đây tập trung chủ yếu o phát triển các
hình nhằm tăng đ chính xác trong dự đoán
(Reichenbach, et al 2018). Ngày nay, với sự phát
triển của công nghệ viễn thám, kỹ thuật GIS cùng
với sự ra đời của các hình thống hiện đại
như học máy, độ chính xác của hình dự đoán
nguy SLĐ ngày ng được nâng cao. Do đó,
xây dựng hình dự đoán nguy SLĐ sử dụng
phương pháp học y đang trở thành xu hướng
chính trong các nghiên cứu hiện nay (Liu, et al
2023). Nghiên cứu của Reichenbach et al (2018)
đã chỉ ra rằng phương pháp học y hiệu quả
cao dần thay thế các phương pháp thống
truyền thống trong nghiên cứu lập bn đồ phân
vùng nguy SLĐ. Ngoài ra, nghiên cứu của Liu
et al (2023) cũng cho thy slượng các công b
vxây dựng bản đ phân vùng nguy SLĐ sử
dụng phương pháp học máy sự tăng trưởng
vượt bậc trong giai đoạn từ năm 2015 đến 2021.
Bên cạnh đó, các nghiên cứu này cũng đã chỉ ra
rằng không có một mô hình dự đoán nguy cơ SLĐ
nào là tốt nhất cho tất ccác khu vực.
Khu vc vùng núi tỉnh Quảng Ngãi địa
phương thường xuyên chịu ảnh hưởng của thiên
KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
20
tai SLĐ. Theo kết quả thống trong điều tra của
Vin khoa học địa chất và khoáng sản (2020),
Quảng Ngãi được xác định đa phương thuộc
nhóm mật đSLĐ cao nhất (0.167 điểm/km
2
).
Một s nghiên cứu đã sử dụng các hình hoặc
phương pháp khác nhau đdự đoán nguy SLĐ
cho khu vực này như: phương pháp AHP (Cong,
et al 2019; Cong, et al 2023), phương pháp
Frequency Ratio (FR) (Long, nnk 2020b), LR
(Long, et al 2022). Tuy nhiên các nghiên cứu này
chỉ áp dụng các phương pháp mang tính chuyên
gia như AHP, các mô hình thống kê đơn giản n
FR, LR nên đ chính xác trong dự đoán không cao
(AUC < 0.8). Nghiên cứu của Long et al (2023) đã
sử dụng các hình hiện đại hơn như Support
Vector Machine (SVM), XGBoost để xây dựng
hình dự đoán nguy SLĐ. Kết quả cho thy
rằng hình học máy XGBoost sự cải thin
đáng kể v khả năng dự đoán so với nh
thống kê truyền thống. Tuy nhiên, nghiên cứu này
lại chưa xây dựng đánh gbản đphân vùng
nguy cơ SLĐ.
Trên sở xu hướng nghiên cứu vđánh g
nguy cơ SLĐ ở trên thế giới cũng như hạn chế của
các nghiên cứu áp dụng tại khu vực vùng núi tỉnh
Quảng Ngãi, nghiên cứu này sử dụng các mô hình
học máy từ đơn giản đến phức tạp như LR, DT,
SVM, Random Forest, XGBoost để dự đoán nguy
SLĐ. hình khả năng dự đoán tốt nhất
được lựa chọn để xây dựng bản đồ phân vùng
nguy SLĐ. Hiệu quả của bản đồ này sẽ được
đánh giá bằng chỉ số mật độ SLĐ kết quả kim
chng thực tế.
2. KHU VỰC NGHIÊN CỨU
Khu vực nghn cứu lựa chn 5 huyện
miền i thuộc tỉnh Qung Ni, với tng diện
ch khoảng 3,237 km
2
(Hình 1). Phía y tiếp
giáp với dãy Trường Sơn, phía Đông tiếp giáp
với đng bằng ven biển. Đdốc địa nh xu
hướng giảm dần tTây sang Đông. Hàng năm,
từ tháng 9 đến tng 12, khu vực y hứng chịu
trung bình t 3 đến 17 cơn bão nhiệt đi m
theo lượng a lớn. Hơn 70% lượng a ng
năm của khu vực do a bão hoặc áp thấp
nhiệt đi. Đây được xem nguyên nhân cnh
dẫn đến SLĐkhu vực y.
Hình 1. Khu vực nghiên cứu
3. PHƯƠNG PHÁP NGHIÊN CỨU
Xây dựng bản đ phân vùng nguy cơ SLĐ gồm
các bước sau:
(1) Thu thập dữ liệu, bao gồm: (i) dữ liệu hiện
trạng sạt lở đất và (ii) dữ liệu các yếu tố ảnh
hưởng dốc, hướng phơi sườn, cao độ, độ cong
địa hình, chỉ s độ ẩm đa hình (TWI), sử dụng
đất, loại đất, khoảng cách đến đường, khong cách
đếnng suối, lượng mưa).
(2) Chọn phân tích chọn lọc dữ liệu bằng
phương pháp VIF và Boruta.
(3) Xây dựng hình dự đoán, các hình
được sử dụng bao gồm: LR, SVM, DT, RF,
XGBoost, sử dụng dữ liệu huấn luyện.
(4) Kiểm định mô hình bằng dữ liệu kiểm tra.
(5) So sánh, đánh giá hình thông qua các
chỉ sthống phương pháp ROC để xác đnh
mô hình phù hợp nhất.
(6) Xây dựng đánh giá bản đồ phân vùng
nguy cơ sạt lở đất.
3.1. Thu thập và phân tích dữ liệu
3.1.1. Dữ liệu hiện trạng SLĐ
Bản đ hiện trạng sạt lở đất đã được xây dựng
dựa trên tổng số 1,279 sự kiện sạt lở đất được xác
định bằng viễn thám từ dự án. Trong đó, dự án
thực hiện bởi Viện khoa học đa chất khoáng
sản (2020) đã xác định có 549 vsạt lở đất. Ngoài
ra, kỹ thuật vin thám sử dụng hình nh Google
Earth kết hợp với hình ảnh vtinh Sentinel-2 đã
KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
21
xác định được thêm 730 vụ sạt lđất. Chuỗi dữ
liệu hiện trạng sạt lở đất được tạo ra bằng kỹ thuật
phát hiện sự thay đổi dựa trên ảnh v tinh
Sentinel-2 trong giai đon 2016-2020 (Bảng 1)
(Long, nnk 2021). Dữ liệu này sau đó được chia
thành hai nhóm: (i) tập dữ liệu huấn luyn (70%
điểm sạt lở đất) (ii) tập dữ liệu kiểm tra (30%
điểm sạt lở đất còn lại).
Bảng 1. Dữ liệu hiện trạng S
Năm 2016
2017
2018
2019
2020
Tổng
Dliệu từ khảo sát 113 306 127 3 NA 549
D liu từ vin tm 117 204 60 2 347 730
Tổng 230 510 187 5 347 1279
3.1.2. Dữ liệu các yếu tố ảnh hưởng
a. Lượng mưa
Dliệu a được thu thập tĐài khí tượng
thủy n khu vực Trung Trung Bộ. SLĐ tại khu
vực ng núi tỉnh Quảng Ni thường xảy ra
sau nhận đợt a lớn o dài nhiều ngày, trong
đó lượng a tích y 3 ngày lớn nhất (3-NLN)
được xem có nh hưởng nhất (Cong, et al
2019; Phuoc, et al 2019). c bản đlượng a
3-NLN t2016 đến 2020 được thiết lập với đ
phân giải 30x30m. Với quan điểm a yếu t
mang tính chất thay đổi theo thi gian, nghiên
cứu này lựa chọn d liệu mưa 3-NLN kết hợp
với chui d liệu các điểm SLĐ xảy ra trong
giai đoạn 2016-2020 đ tạo ra chui dữ liệu
lượng a theo thời gian.
c. Dữ liệu các yếu tố ảnh hưởng khác
Nghn cu y sử dng bn đNASADEM
để trích xut ra các yếu tnh ng: đdc,
ng phơi sưn, cao độ, TWI, đ cong địa
nh. Ngoài ra, nghn cứu y n thu thập
c ngun d liu sn t S Tài ngun và
Môi trưng tỉnh Qung Ngãi (STNMTQN) như
bản đ pn loi đất, bn đ mạng lưi sông
suối, đưng giao tng và s dng k thuật
GIS đ pn tích thành các bn đ: loi đất, s
dụng đất, khong cách đến sông sui, khong
ch đến đưng giao tng. Tng tin chi tiết
của các yếu t nh hưởng đưc cho Bng 2.
c yếu t y s được đánh g chn lọc
trước khi sdng cho hình dđn.
Bảng 2. Thông tin các yếu tố ảnh hưởng
Yếu tố Nguồn gốc dữ liệu Tỷ lệ/độ phân
giải
Đdốc NASA DEM 30x30 m
Hướng phơi ờn NASA DEM 30x30 m
Cao độ NASA DEM 30x30 m
TWI NASA DEM 30x30 m
Đcong đa nh NASA DEM 30x30 m
Loại đất STNMTQN 1/100.000
Sử dụng đất STNMTQN 1/100.000
Khoảng cách đến đường
giao thông
STNMTQN 1/25.000
Khoảng cách đến ng suối
STNMTQN 1/25.000
Chuỗi dữ liệu lượng mưa
tích lũy lớn nhất
Đài khí tưng thy
văn khu vc Trung
Trung B
30x30 m
3.2. Đánh giá chọn lọc dliệu
Phân tích đa cộng tuyến một bước quan
trọng trong xây dựng hình dự đoán nguy cơ
SLĐ. Đa cộng tuyến hiện tượng các biến đầu
vào có mối quan hệ ph thuộc tuyến tính lẫn nhau.
Nghiên cứu này sử dụng chỉ số VIF để đánh giá đa
cộng tuyến (Pradhan & Sameen, 2017). Chỉ số này
được tính theo công thức:
 =

(1)
Trong đó: R hệ stương quan đa biến giữa
một yếu t ảnh hưởng các yếu tảnh hưởng
khác trong mô hình.
Trong mt snghiên cứu, yếu tố chỉ số VIF
> 5 được xem là vấn đvề đa cộng tuyến
khi VIF > 10 thì yếu tố đó cần được loại bỏ
(Pradhan & Sameen, 2017).
3.3. Lý thuyết các mô hình hc máy
3.3.1. Mô hình LR
LR là một hình phân tích hồi quy tuyến
tính tổng quát phù hợp với bài toán đa biến. LR
được giới thiệu vào cuối thập niên 1960 và đầu
thập niên 1970 (Cabrera, 1994) được ứng dụng
rộng rãi trong đánh giá nguy SLĐ
(Reichenbach, et al 2018). Mối quan hgiữa g
trị đầu ra các yếu tđầu vào được tả bằng
phương trình:

=


(2)
KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
22
Với z = w
0
+ w
1
x
1
+ w
2
x
2
+ ... + w
n
x
n
hình LR căn bản.
wi (i = 1, 2, ..., n) w
0
b tham số của
hình.
n là số yếu tố ảnh hưởng được xét đến.
tả xác suất xảy ra SLĐ tại vị trí i, giá
trị trong khoảng [0,1].
Trong nghiên cứu này, hàm “glm” trong t
viện “caret” thuộc ngôn ngữ lập trình R được sử
dụng để xây dựng mô hình dự đoán.
3.3.2. Mô hình SVM
hình SVM bắt đầu được áp dụng o
nghiên cứu SLĐ từ năm 2011 với khả năng xử
không gian đa chiều hiệu quả và hiệu suất phân
loại cao. Gi sử một tập huấn luyện (X
i
, Y
i
),
với X
i
ϵ Rn: là vector đầu vào của các yếu tảnh
hưởng; Y
i
giá trị đầu ra (SLĐ hoặc không
SLĐ). Bài toán tối ưu trong SVM tìm ra một
siêu mặt phẳng sao cho lề đạt giá trị lớn nhất hay
xác định các tham sw b để tối ưu hóa hàm
mục tiêu sau (Huang & Zhao, 2018):
:
,,

+

(3)
Với w vector trọng số xác định hướng của
siêu mặt phẳng; b là phần dời của siêu phẳng so
với gốc tọa độ; ζ
i
biến đo sự hy sinh; C là hằng
số dương dùng để điều chỉnh tầm quan trọng giữa
lề và sự hy sinh.
SVM với các hàm kernel cho phép giải quyết
bài toán phân loại với dữ liệu đầy vào phi tuyến
tính. Nghiên cứu này sử dụng RBF kernel trong
thư viện “e1071” thuộc ngôn ngữ lập trình R được
sử dụng để xây dựng mô hình dự đoán.
3.3.3. Mô hình DT
DT hình pn loại phi tham số, bao
gồm việc phân vùng pn loại dữ liệu liên
tục dựa trên quy tắc quyết định (Friedl &
Brodley, 1997). Với i tn phân loại trong
đánh gnguy cơ SLĐ, nghn cứu y sdng
chsGini thuật tn CART đy dựng
nh d đoán. B thông s của nh DT
gồm: complexity parameter, max_depth,
minsplit, minbucket. Hàm rparttrong tvin
“rpart” ca ngôn ng lập trình R được s dụng
để y dngnh dđn.
3.3.4. Mô hình RF
RF một thuật toán khai thác dữ liệu sử dụng
kỹ thuật Ensemble thuộc nhóm Bagging, khả
năng phân loi chính xác dữ liệu bằng ch sử
dụng một tập hợp các cây quyết định (Breiman,
2001). Các thông s của hình RF bao gồm: (i)
số lượng cây quyết định (ntree) (ii) s lượng
biến ngẫu nhiên tại mỗi lần phân tách (mtry).
hình huấn luyn được thực hin bằng ngôn ngữ R
với thư vin “randomForest”.
3.3.5. Mô hình XGBoost
XGBoost thut toán học máy có hiu sut
cao được phát trin bởi Chen & Guestrin
(2016). XGboost s dng nhiều cây phân loi
hi quy (CART) tích hợp cng bằng
phương pháp Gradient Boosting. Mc tiêu ca
thuật toán XGboost là cực tiểu a hàm mất
t sau:
(Φ)=(
,
)+Ω(
)
(4)
Ω()=  +
||||
(5)
Với
các giá trị dự đoán và quan sát; T
là s của cây quyết định ; w là trọng số của mỗi lá;
γ, λ: là mức độ điều chuẩn.
Bộ thông số chính của hình XGBoost bao
gồm: nrounds, max-depth, eta, gamma, colsample-
bytree, min-child-weight, subsample. Hàm
“xgb.train trong thư vin “xgboost” của ngôn
ngữ lập trình R được sử dụng để xây dựng
hình dự đoán.
3.4. Phương pháp đánh giá mô hình
3.4.1. Đánh giá bằng chỉ số thống
Các chỉ s thống được đề xuất sử dụng
trong đánh giá hình bao gồm: độ chính xác
(ACC), kappa (k), đ nhy (SST), độ đặc hiệu
(SPF). Các chỉ số giá trị càng cao chng tỏ mô
hình càng đáng tin cậy (Frattini, et al 2010).
3.4.2. Phương pháp ROC
Đường cong ROC được xây dựng bởi các điểm
tọa độ (SST, (1-SPF)) tương ứng với một
ngưỡng quyết định cụ thể. Giá trị diện tích dưới
đường cong ROC (AUC) dùng để đo hiệu suất của
mô hình. AUC có giá trị trong khong (0,1), giá tr
AUC càng gần 1 thì hiệu suất dự đoán của
hình ng cao. hình gtr AUC từ 0.9
1.0 được đánh giá loại “rất tốt”, tiếp theo “tốt”
(0.8 0.9), “khá” (0.7 0.8), “trung bình(0.6-
0.7) “không đáng tin cậy” (0.5 0.6)
(Kantardzic, 2011).
KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
23
4. KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết qu đánh g và chọn lc dữ liu
4.1.1. Kết quả phân tích đa cộng tuyến
Kết quđánh g10 yếu tố ảnh ởng bng
phương pháp VIF (Bảng 3) cho thấy tất c c
yếu t không xy ra đa cộng tuyến (VIF<5).
Điều y cho thấy tất c10 yếu tđều thỏa n
điều kiện đa cộng tuyến được sử dụng vào
y dựng nh.
Bảng 3. Kết quả phân tích đa cộng tuyến
bằng phương pháp VIF
STT Yếu tố VIF
1 Độ dốc 1.164
2 Hướng phơi sườn 1.013
3 Cao đ 1.516
4 TWI 1.827
5 Độ cong địa nh 1.346
6 Loại đất 1.017
7 Khoảng cách đến đưng giao tng 1.269
8 Khoảng cách đến ng suối 1.171
9 Sử dụng đất 1.028
10 Lượng mưa
1.066
4.1.2. Kết quả đánh giá mức độ quan trọng của
các yếu tố
Nghn cứu y s dng pơng pháp RF đ
đánh g tầm quan trng ca các yếu tố. Kết
qubiểu đ Hình 2 thể hin s xếp hng ch
squan trọng từ cao nhất đến thấp nhất. Trong
đó, yếu t lượng a 3-NLN xếp v t cao
nhất. Có thể thấy rằng, việc áp dng chui d
liu mưa 3-NLN đã giúp đánh g đúng nh
ng của ng mưa gây SLĐ. Điều y góp
phn ci thin hạn chế của các nghiên cu
trước đây khi chỉ dùng mt bản đ mưa trung
nh nhiu m trong đánh giá, dn đến tầm
quan trng của yếu tmưa được đánh g thấp
n c yếu t kc (Le, et al 2023; Pham, et al
2019). Trong khi đó, c yếu đ dc, khong
ch đến đưng, cao đ vn nằm trong nhóm
nh ng cao, phù hợp với xu thế chung trong
đánh g c yếu t ca các nghn cu trước
đây (Reichenbach, et al 2018).
Hình 2. Mức độ quan trọng
của các yếu tố ảnh hưởng
4.1.3. Kết quả mô hình dự đoán nguy cơ SLĐ
Q trình xây dựng nh bằng d liệu
huấn luyện giúp c định được bthông stt
nhất của c nh (Bảng 4 đến Bảng 8)
thông qua phương pháp tối ưu Stochastic
Gradient Descent (SGD) đối với hình LR và
kỹ thuật fine-tuning đối với các nh n lại.
Bộ tng stốt nhất ca hình được xác định
ơng ng với trường hợp cho kết qu kiểm
định đạt giá trị ACC lớn nhất.
Bảng 4. Bộ thông số mô hình LR
Tham s G trị
Intercept -4.005*10
-1
Đ dốc 6.696*10
-2
Hướng phơi sườn 4.182*10
-2
Cao độ 1.179*10
-3
TWI -2.891*10
-1
Đ cong địa nh -3.245*10
-1
Loại đất 8.070*10
-2
Khoảng cách đến đưng giao tng -9.397*10
-4
Khoảng cách đến ng suối -7.686*10
-4
Sdụng đất
-3.390*10
-2
Lượng mưa 3-NLN
2.907*10
-3
Bảng 5. Bộ thông số mô hình SVM
Yếu tố Giá trị tng s G trị tốt nhất
cost 2^(2:9) 4
gamma 0:1 0.1