
Nghiên cứu lựa chọn mô hình học máy phù hợp trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho khu vực vùng núi tỉnh Quảng Ngãi
lượt xem 1
download

Trên cơ sở xu hướng nghiên cứu về đánh giá nguy cơ SLĐ ở trên thế giới cũng như hạn chế của các nghiên cứu áp dụng tại khu vực vùng núi tỉnh Quảng Ngãi, nghiên cứu này sử dụng các mô hình học máy từ đơn giản đến phức tạp như LR, DT, SVM, Random Forest, XGBoost để dự đoán nguy cơ SLĐ. Mô hình có khả năng dự đoán tốt nhất được lựa chọn để xây dựng bản đồ phân vùng nguy cơ SLĐ. Hiệu quả của bản đồ này sẽ được đánh giá bằng chỉ số mật độ SLĐ và kết quả kiểm chứng thực tế.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Nghiên cứu lựa chọn mô hình học máy phù hợp trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho khu vực vùng núi tỉnh Quảng Ngãi
- BÀI BÁO KHOA HỌC NGHIÊN CỨU LỰA CHỌN MÔ HÌNH HỌC MÁY PHÙ HỢP TRONG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT CHO KHU VỰC VÙNG NÚI TỈNH QUẢNG NGÃI Đoàn Viết Long1, Nguyễn Chí Công1, Nguyễn Tiến Cường2 Tóm tắt: Học máy là một phương pháp hiện đại, được ứng dụng rộng rãi trong dự đoán nguy cơ sạt lở đất với rất nhiều loại mô hình khác nhau. Tuy nhiên, các nghiên cứu trước đây cho thấy rằng không có một mô hình học máy nào là tốt nhất cho các khu vực. Đối với khu vực vùng núi tỉnh Quảng Ngãi thường xuyên xảy ra sạt lở đất, nghiên cứu này đã sử dụng 5 thuật toán học máy: Logistic Regression, Support Vector Machine, Decision Tree, Random Forest và Extreme Gradient Boosting (XGBoost) để xây dựng mô hình dự đoán. Kết quả kiểm định và so sánh các mô hình thông qua các chỉ số thống kê và phương pháp ROC cho thấy mô hình XGBoost có hiệu quả dự đoán tốt nhất (ACC= 0.813, kappa = 0.625, AUC = 0.892). Mô hình này được lựa chọn để xây dựng để tính toán chỉ số nguy cơ và xây dựng bản đồ phân vùng nguy cơ sạt lở đất. Kết quả đánh giá mật độ sạt lở đất và kiểm chứng thực tế cho thấy khả năng dự đoán rất tốt của bản đồ này. Từ khóa: Học máy, Logictic Regression, SVM, Random Forest, XGBoost, ROC. 1. GIỚI THIỆU CHUNG * loại bản đồ này đã được công bố. Các nghiên cứu Sạt lở đất (SLĐ) là một hiện tượng rất phức tạp gần đây tập trung chủ yếu vào phát triển các mô do sự tương tác của nhiều yếu tố tự nhiên (địa hình nhằm tăng độ chính xác trong dự đoán chất, địa mạo, khí tượng, thủy văn...) và yếu tố (Reichenbach, et al 2018). Ngày nay, với sự phát con người (Varnes, 1984). SLĐ là một trong triển của công nghệ viễn thám, kỹ thuật GIS cùng những loại hình thiên tai nguy hiểm nhất, không với sự ra đời của các mô hình thống kê hiện đại chỉ ở mỗi nước mà trên toàn thế giới như học máy, độ chính xác của mô hình dự đoán (Reichenbach, et al 2018). Ở Việt Nam, SLĐ xảy nguy cơ SLĐ ngày càng được nâng cao. Do đó, ra thường xuyên ở các tỉnh miền núi phía Bắc và xây dựng mô hình dự đoán nguy cơ SLĐ sử dụng miền Trung – Tây Nguyên (Long, nnk 2020a). phương pháp học máy đang trở thành xu hướng Hiện tượng này thường xảy ra bất ngờ, nhanh, chính trong các nghiên cứu hiện nay (Liu, et al mạnh dẫn đến khó cảnh báo và dự báo, để lại hậu 2023). Nghiên cứu của Reichenbach et al (2018) quả kinh tế xã hội lớn, lâu dài và khó khắc phục. đã chỉ ra rằng phương pháp học máy có hiệu quả Theo thống kê từ Tổng cục phòng chống thiên tai cao và dần thay thế các phương pháp thống kê (2020), thiên tai lũ quét và SLĐ trong giai đoạn từ truyền thống trong nghiên cứu lập bản đồ phân 2000 đến 2020 đã làm 1,117 người chết và mất vùng nguy cơ SLĐ. Ngoài ra, nghiên cứu của Liu tích, 671 người bị thương, 12,038 nhà bị sập đổ. et al (2023) cũng cho thấy số lượng các công bố Trong nghiên cứu về SLĐ, bản đồ phân vùng về xây dựng bản đồ phân vùng nguy cơ SLĐ sử nguy cơ SLĐ là công cụ hữu hiệu để phòng chống dụng phương pháp học máy có sự tăng trưởng loại hình thiên tai đặc biệt nguy hiểm này. Đến vượt bậc trong giai đoạn từ năm 2015 đến 2021. nay, rất nhiều nghiên cứu liên quan đến xây dựng Bên cạnh đó, các nghiên cứu này cũng đã chỉ ra rằng không có một mô hình dự đoán nguy cơ SLĐ 1 Khoa Xây dựng Công trình thủy, Trường Đại học Bách nào là tốt nhất cho tất cả các khu vực. khoa, Đại học Đà Nẵng 2 Khoa Kỹ thuật Ô tô và Năng lượng, Trường Đại học Khu vực vùng núi tỉnh Quảng Ngãi là địa Phenikaa phương thường xuyên chịu ảnh hưởng của thiên KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024) 19
- tai SLĐ. Theo kết quả thống kê trong điều tra của Viện khoa học địa chất và khoáng sản (2020), Quảng Ngãi được xác định là địa phương thuộc nhóm có mật độ SLĐ cao nhất (0.167 điểm/km2). Một số nghiên cứu đã sử dụng các mô hình hoặc phương pháp khác nhau để dự đoán nguy cơ SLĐ cho khu vực này như: phương pháp AHP (Cong, et al 2019; Cong, et al 2023), phương pháp Frequency Ratio (FR) (Long, nnk 2020b), LR (Long, et al 2022). Tuy nhiên các nghiên cứu này chỉ áp dụng các phương pháp mang tính chuyên gia như AHP, các mô hình thống kê đơn giản như FR, LR nên độ chính xác trong dự đoán không cao (AUC < 0.8). Nghiên cứu của Long et al (2023) đã sử dụng các mô hình hiện đại hơn như Support Vector Machine (SVM), XGBoost để xây dựng Hình 1. Khu vực nghiên cứu mô hình dự đoán nguy cơ SLĐ. Kết quả cho thấy rằng mô hình học máy XGBoost có sự cải thiện 3. PHƯƠNG PHÁP NGHIÊN CỨU đáng kể về khả năng dự đoán so với mô hình Xây dựng bản đồ phân vùng nguy cơ SLĐ gồm thống kê truyền thống. Tuy nhiên, nghiên cứu này các bước sau: lại chưa xây dựng và đánh giá bản đồ phân vùng (1) Thu thập dữ liệu, bao gồm: (i) dữ liệu hiện nguy cơ SLĐ. trạng sạt lở đất và (ii) dữ liệu các yếu tố ảnh Trên cơ sở xu hướng nghiên cứu về đánh giá hưởng (độ dốc, hướng phơi sườn, cao độ, độ cong nguy cơ SLĐ ở trên thế giới cũng như hạn chế của địa hình, chỉ số độ ẩm địa hình (TWI), sử dụng các nghiên cứu áp dụng tại khu vực vùng núi tỉnh đất, loại đất, khoảng cách đến đường, khoảng cách Quảng Ngãi, nghiên cứu này sử dụng các mô hình đến sông suối, lượng mưa). học máy từ đơn giản đến phức tạp như LR, DT, (2) Chọn phân tích và chọn lọc dữ liệu bằng SVM, Random Forest, XGBoost để dự đoán nguy phương pháp VIF và Boruta. cơ SLĐ. Mô hình có khả năng dự đoán tốt nhất (3) Xây dựng mô hình dự đoán, các mô hình được lựa chọn để xây dựng bản đồ phân vùng được sử dụng bao gồm: LR, SVM, DT, RF, nguy cơ SLĐ. Hiệu quả của bản đồ này sẽ được XGBoost, sử dụng dữ liệu huấn luyện. đánh giá bằng chỉ số mật độ SLĐ và kết quả kiểm (4) Kiểm định mô hình bằng dữ liệu kiểm tra. chứng thực tế. (5) So sánh, đánh giá mô hình thông qua các 2. KHU VỰC NGHIÊN CỨU chỉ số thống kê và phương pháp ROC để xác định Khu vực nghiên cứu lựa chọn là 5 huyện mô hình phù hợp nhất. miền núi thuộc tỉnh Quảng Ngãi, với tổng diện (6) Xây dựng và đánh giá bản đồ phân vùng tích khoảng 3,237 km2 (Hình 1). Phía Tây tiếp nguy cơ sạt lở đất. giáp với dãy Trường Sơn, phía Đông tiếp giáp 3.1. Thu thập và phân tích dữ liệu với đồng bằng ven biển. Độ dốc địa hình có xu 3.1.1. Dữ liệu hiện trạng SLĐ hướng giảm dần từ Tây sang Đông. Hàng năm, Bản đồ hiện trạng sạt lở đất đã được xây dựng từ tháng 9 đến tháng 12, khu vực này hứng chịu dựa trên tổng số 1,279 sự kiện sạt lở đất được xác trung bình từ 3 đến 17 cơn bão nhiệt đới kèm định bằng viễn thám và từ dự án. Trong đó, dự án theo lượng mưa lớn. Hơn 70% lượng mưa hàng thực hiện bởi Viện khoa học địa chất và khoáng năm của khu vực là do mưa bão hoặc áp thấp sản (2020) đã xác định có 549 vụ sạt lở đất. Ngoài nhiệt đới. Đây được xem là nguyên nhân chính ra, kỹ thuật viễn thám sử dụng hình ảnh Google dẫn đến SLĐ ở khu vực này. Earth kết hợp với hình ảnh vệ tinh Sentinel-2 đã 20 KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
- xác định được thêm 730 vụ sạt lở đất. Chuỗi dữ Bảng 2. Thông tin các yếu tố ảnh hưởng liệu hiện trạng sạt lở đất được tạo ra bằng kỹ thuật Tỷ lệ/độ phân phát hiện sự thay đổi dựa trên ảnh vệ tinh Yếu tố Nguồn gốc dữ liệu giải Sentinel-2 trong giai đoạn 2016-2020 (Bảng 1) Độ dốc NASA DEM 30x30 m (Long, nnk 2021). Dữ liệu này sau đó được chia Hướng phơi sườn NASA DEM 30x30 m thành hai nhóm: (i) tập dữ liệu huấn luyện (70% Cao độ NASA DEM 30x30 m điểm sạt lở đất) và (ii) tập dữ liệu kiểm tra (30% TWI NASA DEM 30x30 m điểm sạt lở đất còn lại). Độ cong địa hình NASA DEM 30x30 m Bảng 1. Dữ liệu hiện trạng SLĐ Loại đất STNMTQN 1/100.000 Năm 2016 2017 2018 2019 2020 Tổng Sử dụng đất STNMTQN 1/100.000 Dữ liệu từ khảo sát 113 306 127 3 NA 549 Khoảng cách đến đường STNMTQN 1/25.000 giao thông Dữ liệu từ viễn thám 117 204 60 2 347 730 Khoảng cách đến sông suối STNMTQN 1/25.000 Tổng 230 510 187 5 347 1279 Chuỗi dữ liệu lượng mưa Đài khí tượng thủy 30x30 m tích lũy lớn nhất văn khu vực Trung 3.1.2. Dữ liệu các yếu tố ảnh hưởng a. Lượng mưa Trung Bộ Dữ liệu mưa được thu thập từ Đài khí tượng thủy văn khu vực Trung Trung Bộ. SLĐ tại khu 3.2. Đánh giá và chọn lọc dữ liệu vực vùng núi tỉnh Quảng Ngãi thường xảy ra Phân tích đa cộng tuyến là một bước quan sau nhận đợt mưa lớn kéo dài nhiều ngày, trong trọng trong xây dựng mô hình dự đoán nguy cơ đó lượng mưa tích lũy 3 ngày lớn nhất (3-NLN) SLĐ. Đa cộng tuyến là hiện tượng các biến đầu được xem là có ảnh hưởng nhất (Cong, et al vào có mối quan hệ phụ thuộc tuyến tính lẫn nhau. 2019; Phuoc, et al 2019). Các bản đồ lượng mưa Nghiên cứu này sử dụng chỉ số VIF để đánh giá đa 3-NLN từ 2016 đến 2020 được thiết lập với độ cộng tuyến (Pradhan & Sameen, 2017). Chỉ số này phân giải 30x30m. Với quan điểm mưa là yếu tố được tính theo công thức: mang tính chất thay đổi theo thời gian, nghiên = (1) cứu này lựa chọn dữ liệu mưa 3-NLN kết hợp Trong đó: R là hệ số tương quan đa biến giữa với chuỗi dữ liệu các điểm SLĐ xảy ra trong một yếu tố ảnh hưởng và các yếu tố ảnh hưởng giai đoạn 2016-2020 để tạo ra chuỗi dữ liệu khác trong mô hình. lượng mưa theo thời gian. Trong một số nghiên cứu, yếu tố có chỉ số VIF c. Dữ liệu các yếu tố ảnh hưởng khác > 5 được xem là có vấn đề về đa cộng tuyến và Nghiên cứu này sử dụng bản đồ NASADEM khi VIF > 10 thì yếu tố đó cần được loại bỏ để trích xuất ra các yếu tố ảnh hưởng: độ dốc, (Pradhan & Sameen, 2017). hướng phơi sườn, cao độ, TWI, độ cong địa 3.3. Lý thuyết các mô hình học máy hình. Ngoài ra, nghiên cứu này còn thu thập 3.3.1. Mô hình LR các nguồn dữ liệu có sẵn từ Sở Tài nguyên và LR là một mô hình phân tích hồi quy tuyến Môi trường tỉnh Quảng Ngãi (STNMTQN) như tính tổng quát phù hợp với bài toán đa biến. LR bản đồ phân loại đất, bản đồ mạng lưới sông được giới thiệu vào cuối thập niên 1960 và đầu suối, đường giao thông và sử dụng kỹ thuật thập niên 1970 (Cabrera, 1994) và được ứng dụng GIS để phân tích thành các bản đồ: loại đất, sử rộng rãi trong đánh giá nguy cơ SLĐ dụng đất, khoảng cách đến sông suối, khoảng (Reichenbach, et al 2018). Mối quan hệ giữa giá cách đến đường giao thông. Thông tin chi tiết trị đầu ra và các yếu tố đầu vào được mô tả bằng của các yếu tố ảnh hưởng được cho ở Bảng 2. Các yếu tố này sẽ được đánh giá và chọn lọc phương trình: trước khi sử dụng cho mô hình dự đoán. = (2) KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024) 21
- Với z = w0 + w1x1 + w2x2 + ... + wnxn là mô kỹ thuật Ensemble thuộc nhóm Bagging, có khả hình LR căn bản. năng phân loại chính xác dữ liệu bằng cách sử wi (i = 1, 2, ..., n) và w0 là bộ tham số của dụng một tập hợp các cây quyết định (Breiman, mô hình. 2001). Các thông số của mô hình RF bao gồm: (i) n là số yếu tố ảnh hưởng được xét đến. số lượng cây quyết định (ntree) và (ii) số lượng mô tả xác suất xảy ra SLĐ tại vị trí i, có giá biến ngẫu nhiên tại mỗi lần phân tách (mtry). Mô trị trong khoảng [0,1]. hình huấn luyện được thực hiện bằng ngôn ngữ R Trong nghiên cứu này, hàm “glm” trong thư với thư viện “randomForest”. viện “caret” thuộc ngôn ngữ lập trình R được sử 3.3.5. Mô hình XGBoost dụng để xây dựng mô hình dự đoán. XGBoost là thuật toán học máy có hiệu suất 3.3.2. Mô hình SVM cao được phát triển bởi Chen & Guestrin Mô hình SVM bắt đầu được áp dụng vào (2016). XGboost sử dụng nhiều cây phân loại nghiên cứu SLĐ từ năm 2011 với khả năng xử lý và hồi quy (CART) và tích hợp chúng bằng không gian đa chiều hiệu quả và hiệu suất phân phương pháp Gradient Boosting. Mục tiêu của loại cao. Giả sử có một tập huấn luyện (Xi, Yi), thuật toán XGboost là cực tiểu hóa hàm mất với Xi ϵ Rn: là vector đầu vào của các yếu tố ảnh mát sau: hưởng; Yi là giá trị đầu ra (SLĐ hoặc không (Φ) = ∑ ( , ) + ∑ Ω( ) (4) SLĐ). Bài toán tối ưu trong SVM là tìm ra một Ω( )= + || || (5) siêu mặt phẳng sao cho lề đạt giá trị lớn nhất hay Với và là các giá trị dự đoán và quan sát; T xác định các tham số w và b để tối ưu hóa hàm là số lá của cây quyết định ; w là trọng số của mỗi lá; mục tiêu sau (Huang & Zhao, 2018): γ, λ: là mức độ điều chuẩn. , , : + ∑ (3) Bộ thông số chính của mô hình XGBoost bao Với w là vector trọng số xác định hướng của gồm: nrounds, max-depth, eta, gamma, colsample- siêu mặt phẳng; b là phần dời của siêu phẳng so bytree, min-child-weight, subsample. Hàm với gốc tọa độ; ζi là biến đo sự hy sinh; C là hằng “xgb.train” trong thư viện “xgboost” của ngôn số dương dùng để điều chỉnh tầm quan trọng giữa ngữ lập trình R được sử dụng để xây dựng mô lề và sự hy sinh. hình dự đoán. SVM với các hàm kernel cho phép giải quyết 3.4. Phương pháp đánh giá mô hình bài toán phân loại với dữ liệu đầy vào phi tuyến 3.4.1. Đánh giá bằng chỉ số thống kê tính. Nghiên cứu này sử dụng RBF kernel trong Các chỉ số thống kê được đề xuất sử dụng thư viện “e1071” thuộc ngôn ngữ lập trình R được trong đánh giá mô hình bao gồm: độ chính xác sử dụng để xây dựng mô hình dự đoán. (ACC), kappa (k), độ nhạy (SST), độ đặc hiệu 3.3.3. Mô hình DT (SPF). Các chỉ số có giá trị càng cao chứng tỏ mô DT là mô hình phân loại phi tham số, bao hình càng đáng tin cậy (Frattini, et al 2010). gồm việc phân vùng và phân loại dữ liệu liên 3.4.2. Phương pháp ROC tục dựa trên quy tắc quyết định (Friedl & Đường cong ROC được xây dựng bởi các điểm Brodley, 1997). Với bài toán phân loại trong có tọa độ (SST, (1-SPF)) tương ứng với một đánh giá nguy cơ SLĐ, nghiên cứu này sử dụng ngưỡng quyết định cụ thể. Giá trị diện tích dưới chỉ số Gini và thuật toán CART để xây dựng mô đường cong ROC (AUC) dùng để đo hiệu suất của hình dự đoán. Bộ thông số của mô hình DT mô hình. AUC có giá trị trong khoảng (0,1), giá trị gồm: complexity parameter, max_depth, AUC càng gần 1 thì hiệu suất dự đoán của mô minsplit, minbucket. Hàm “rpart” trong thư viện hình càng cao. Mô hình có giá trị AUC từ 0.9 – “rpart” của ngôn ngữ lập trình R được sử dụng 1.0 được đánh giá loại “rất tốt”, tiếp theo là “tốt” để xây dựng mô hình dự đoán. (0.8 – 0.9), “khá” (0.7 – 0.8), “trung bình” (0.6- 3.3.4. Mô hình RF 0.7) và “không đáng tin cậy” (0.5 – 0.6) RF là một thuật toán khai thác dữ liệu sử dụng (Kantardzic, 2011). 22 KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
- 4. KẾT QUẢ VÀ THẢO LUẬN 4.1. Kết quả đánh giá và chọn lọc dữ liệu 4.1.1. Kết quả phân tích đa cộng tuyến Kết quả đánh giá 10 yếu tố ảnh hưởng bằng phương pháp VIF (Bảng 3) cho thấy tất cả các yếu tố không xảy ra đa cộng tuyến (VIF
- Bảng 6. Bộ thông số mô hình DT nghiên cứu này đã đạt được độ chính xác trong dự đoán nguy cơ SLĐ cao hơn so với Yếu tố Giá trị thông số Giá trị tốt nhất các nghiên cứu trước đây sử dụng phương cp 0:0.35 0.0124 pháp cổ điển như FR, AHP được thực hiện ở minsplit 20 20 cùng khu vực này với giá trị AUC chỉ đạt ở minbucket 6 6 mức khá (AUC = 0.7-0.8) (Long, nnk 2020; maxdepth 30 30 Cong, et al 2023). Với khả năng dự đoán tốt Bảng 7. Bộ thông số mô hình RF nhất, mô hình XGboost được lựa chọn để xây Thông số Giá trị thông số Giá trị dựng bản đồ phân vùng nguy cơ SLĐ cho khu ntry 100:500 350 vực nghiên cứu. mtry 2:5 3 Bảng 9. Kết quả kiểm tra các mô hình Bảng 8. Bộ thông số mô hình XGBoost Chỉ số Mô hình Yếu tố Giá trị thông số Giá trị tốt nhất đánh giá LR SVM DT RF XGBoost nrounds 100:500 100 ACC 0.727 0.779 0.757 0.801 0.813 max_depth 2:6 6 k 0.453 0.557 0.515 0.602 0.625 eta 0.01:0.3 0.05 SST 0.758 0.838 0.825 0.883 0.862 gamma 0:0.2 0.1 SPF 0.695 0.719 0.690 0.719 0.763 colsample_bytree 0:1 0.5 AUC 0.800 0.852 0.809 0.881 0.892 min_child_weight 0:1 0 Subsample 0.8:1 0.8 Khả năng dự đoán của mô hình được đánh giá độc lập bằng dữ liệu kiểm tra thông qua các chỉ số thống kê và chỉ số AUC. Kết quả đánh giá được thể hiện ở Bảng 9 và Hình 3. Dựa vào các chỉ số thống kê quan trọng như ACC, k, SST, SPF, có thể thấy rằng các mô hình phức tạp sử dụng kỹ thuật ensemble như RF và XGboost cho kết quả tốt hơn hẳn so với các mô hình học máy thông thường LR, DT và SVM. Hình 3. Kết quả phân tích đường cong ROC Trong đó, mô hình XGBoost cho khả năng dự đoán tốt nhất (với ACC = 0.813, k = 625, SST = 4.1.4. Kết quả bản đồ phân vùng nguy cơ SLĐ 0.862, SPF = 0.763). Dựa trên kết quả phân tích Bản đồ phân vùng nguy cơ SLĐ (Hình 4) được đường cong ROC (Hình 3), có thể thấy rằng mô tạo ra bằng cách phân loại chỉ số nguy cơ SLĐ hình XGBoost cho kết quả chỉ số AUC tốt nhất theo các cấp độ nguy cơ: rất thấp (0 - 0.163), thấp (AUC = 0.892) gần tiệm cận với mức dự đoán (0.163 - 0.369), trung bình (0.369 - 0.541), cao “rất tốt”. Tiếp theo là các mô hình RF (AUC = (0.541 - 0.705), rất cao (0.705 -1) bằng phương 0.881), SVM (AUC = 0.852), DT (AUC = 809), pháp Natural Break. Khả năng dự đoán của bản đồ LR (AUC = 0.800). Kết quả này cũng tương được đánh giá thông qua chỉ số mật độ SLĐ, là tỷ đồng với một số nghiên cứu gần đây khi chỉ ra số giữa phần trăm là tỷ số giữa phần trăm điểm rằng mô hình XGBoost có khả năng dự đoán SLĐ và phần trăm diện tích của mỗi vùng nguy cơ nguy cơ sạt lở đất rất tốt (Can, et al 2021; bản đồ. Kết quả biểu đồ Hình 5 cho thấy đa phần Rabby, et al 2022; Sahin, 2020). Như vậy, với các điểm SLĐ đã xảy ra tập trung cao ở khu vực việc áp dụng các mô hình học máy hiện đại, nguy cơ “rất cao”. 24 KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
- Để kiểm chứng khả năng ứng dụng của bản đồ STT Địa điểm Năm Cấp độ phân vùng nguy cơ SLĐ, nghiên cứu này tiến xảy ra nguy cơ hành thu thập 9 vụ SLĐ điển hình xảy ra trong 4 Trụ sở cơ quan huyện Sơn Tây 2022 Rất cao khoảng thời gian từ năm 2021 đến 2023 (tức sau 5 Xã Trà Nham, huyện Trà Bồng 2022 Rất cao thời gian thu thập dữ liệu hiện trạng SLĐ phục vụ 6 Tuyến đường ĐT626 (1), 2023 Rất cao xây dựng mô hình). Kết quả đối chiếu tọa độ 9 huyện Sơn Hà điểm SLĐ này với bản đồ phân vùng nguy cơ 7 Tuyến đường ĐT626 (2), 2023 Cao SLĐ (Hình 4) và thông qua khảo sát thực địa huyện Sơn Hà (Hình 6) cho thấy 7 điểm SLĐ rơi vào vùng nguy 8 Đường dẫn vào đập thủy điện 2023 Rất cao cơ “rất cao” và 2 điểm SLĐ nằm ở vùng nguy cơ Hà Nang, huyện Trà Bồng “cao”. Điều này cho thấy bản đồ phân vùng nguy 9 Tỉnh lộ 625, đèo Eo Chim, 2023 Rất cao cơ SLĐ được xây dựng có độ tin cậy cao, có khả huyện Minh Long năng áp dụng vào thực tiễn. Hình 6. Hình ảnh khảo sát thực tế SLĐ tại đường ĐT626 5. KẾT LUẬN Nghiên cứu này đã sử dụng 5 loại mô hình học máy LR, SVM, DT, RF, XGboost để xây dựng mô hình dự đoán nguy cơ SLĐ cho khu vực vùng núi tỉnh Quảng Ngãi. Chuỗi dữ liệu hiện trạng SLĐ từ 2016 đến 2020 và 10 yếu tố ảnh hưởng được chọn Hình 4. Bản đồ phân vùng nguy cơ SLĐ lọc để làm dữ liệu đầu vào cho mô hình dự đoán. Kết quả kiểm định các mô hình cho thấy các mô hình phức tạp như SVM, RF, XGboost có khả năng dự đoán tốt hơn so với các mô hình đơn giản như LR, DT. Ngoài ra, các mô hình sử dụng kỹ thuật ensemble như RF, XGboost cho khả năng dự đoán tốt hơn các mô hình học máy thông thường (LR, SVM, DT). Từ kết quả đánh giá và so sánh các mô hình, nghiên cứu này đã đề xuất được mô Hình 5. Mật độ sạt lở đất hình học máy XGBoost có khả năng dự đoán tiệm cận mức “rất tốt” cho khu vực nghiên cứu. Kết Bảng 10. Đánh giá nguy cơ SLĐ từ 2021-2023 quả này là tốt hơn nhiều so với các nghiên cứu STT Địa điểm Năm Cấp độ trước đây sử dụng phương pháp cổ điển như FR, xảy ra nguy cơ AHP cho khu vực nghiên cứu này. 1 Xã Trà Nham, huyện Trà Bồng 2021 Rất cao Với mô hình XGBoost được lựa chọn, nghiên 2 Xã Trà Nham, huyện Trà Bồng 2021 Rất cao cứu này tiến hành xây dựng bản đồ phân vùng 3 Nhà máy thủy điện Tà Kinh 1, 2022 Cao nguy cơ SLĐ cho khu vực vùng núi tỉnh Quảng huyện Trà Bồng Ngãi. Kết quả đánh giá về mật độ SLĐ và kiểm KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024) 25
- chứng cho các vụ sạt lở đất điển hình cho thấy bản vào thực tiễn công tác phòng chống thiên tai, quy đồ này có độ tin cậy vào và đủ khả năng ứng dụng hoạch và sử dụng đất. TÀI LIỆU THAM KHẢO Long, Đ.V., Nguyễn Chí Công, Phạm Thành Hưng, N. T. C. (2021). Nghiên cứu ứng dụng ảnh vệ tinh Sentinel 2 để xác định vị trí trượt lở đất bằng mô hình phân loại Random Forest. Khoa học Kỹ thuật Thủy lợi và Môi Trường, 74, 84–93. Long, Đ.V., Nguyễn Chí Công, Nguyễn Quang Bình, N. T. C. (2020a). Đánh giá thực trạng và giải pháp nghiên cứu về sạt lở đất ở Việt Nam giai đoạn 2010 – 2020. Tạp chí Khoa học và Công nghệ Thủy lợi, 61. Long, Đ.V., Võ Nguyễn Đức Phước, Nguyễn Chí Công, N. T. C. (2020b). Ảnh hưởng của phân bố mưa trong xây dựng bản đồ nguy cơ sạt lở đất bằng phương pháp thống kê Frequency Ratio. Khoa học Kỹ thuật Thủy lợi và Môi Trường, 70, 40–47. Viện khoa học địa chất và khoáng sản. (2020). Điều tra, đánh giá và phân vùng cảnh báo nguy cơ trượt lở đất đá các vùng miền núi Việt Nam. Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. Cabrera, A. F. (1994). Logistic regression analysis in higher education: An applied perspective. Higher Education: Handbook of Theory and Research, 10, 225–256. Can, R., Kocaman, S., & Gokceoglu, C. (2021). A comprehensive assessment of XGBoost algorithm for landslide susceptibility mapping in the upper basin of Ataturk dam, Turkey. Applied Sciences, 11(11), 4993. Chen, T., & Guestrin, C. (2016). Xgboost: A scalable tree boosting system. Proceedings of the 22nd Acm Sigkdd International Conference on Knowledge Discovery and Data Mining, 785–794. Cong, N. C., Binh, N. Q., & Phuoc, V. N. D. (2019). Landslide Susceptibility Mapping by Combining the Analytical Hierarchy Process and Regional Frequency Analysis Methods: A Case Study for Quangngai Province (Vietnam). International Conference on Asian and Pacific Coasts, 1327–1334. Cong, C. N., Vo, P., Doan, V. L., Nguyen, Q. B., Nguyen, T. C., & Nguyen, Q. D. (2023). Assessment of the Effects of Rainfall Frequency on Landslide Susceptibility Mapping Using AHP Method: A Case Study for a Mountainous Region in Central Vietnam. In Progress in Landslide Research and Technology, Volume 1 Issue 2, 2022 (pp. 87–98). Springer. Friedl, M. A., & Brodley, C. E. (1997). Decision tree classification of land cover from remotely sensed data. Remote Sensing of Environment, 61(3), 399–409. Huang, Y., & Zhao, L. (2018). Review on landslide susceptibility mapping using support vector machines. Catena, 165, 520–529. Kantardzic, M. (2011). Data mining: concepts, models, methods, and algorithms. John Wiley & Sons. Le Minh, N., Truyen, P. T., Van Phong, T., Jaafari, A., Amiri, M., Van Duong, N., Van Bien, N., Duc, D. M., Prakash, I., & Pham, B. T. (2023). Ensemble models based on radial basis function network for landslide susceptibility mapping. Environmental Science and Pollution Research, 30(44), 99380– 99398. Liu, S., Wang, L., Zhang, W., He, Y., & Pijush, S. (2023). A comprehensive review of machine learning‐ based methods in landslide susceptibility mapping. Geological Journal. Long, D.V., Nguyen, B.-Q.-V., Pham, H. T., Nguyen, C. C., & Nguyen, C. T. (2023). Effect of time- variant NDVI on landside susceptibility: A case study in Quang Ngai province, Vietnam. Open Geosciences, 15(1), 20220550. 26 KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024)
- Long, D. V., Cong, N. C., Cuong, N. T., Binh, N. Q., & Phuoc, V. N. D. (2022). An assessment of terrain quality and selection model in developing landslide susceptibility map–a case study in mountainous areas of Quang Ngai province, Vietnam. Modern Mechanics and Applications: Select Proceedings of ICOMMA 2020, 959–970. Pham, B. T., Prakash, I., Chen, W., Ly, H.-B., Ho, L. S., Omidvar, E., Tran, V. P., & Bui, D. T. (2019). A novel intelligence approach of a sequential minimal optimization-based support vector machine for landslide susceptibility mapping. Sustainability, 11(22), 6323. Phuoc, V. N. D., Binh, N. Q., Hung, P. D., Long, D. V., & Cong, N. C. (2019). Studies on the causes of landslides for mountainous regions in central region of Vietnam. The University of Danang, Journal of Science and Technology, 17, 29–32. Pradhan, B., & Sameen, M. I. (2017). Landslide susceptibility modeling: optimization and factor effect analysis. Laser Scanning Applications in Landslide Assessment, 115–132. Rabby, Y. W., Hossain, M. B., & Abedin, J. (2022). Landslide susceptibility mapping in three Upazilas of Rangamati hill district Bangladesh: application and comparison of GIS-based machine learning methods. Geocarto International, 37(12), 3371–3396. Reichenbach, P., Rossi, M., Malamud, B. D., Mihir, M., & Guzzetti, F. (2018). A review of statistically- based landslide susceptibility models. Earth-Science Reviews, 180, 60–91. Sahin, E. K. (2020). Assessing the predictive capability of ensemble tree methods for landslide susceptibility mapping using XGBoost, gradient boosting machine, and random forest. SN Applied Sciences, 2(7), 1308. Varnes, D. J. (1984). Landslide hazard zonation: a review of principles and practice. Commission on landslides of the IAEG. Natural Hazards, 3, 61p. Abstract: SELECTION OF APPROPRIATE MACHINE LEARNING MODEL FOR LANDSLIDE SUSCEPTIBILITY ASSESSMENT – A CASE STUDY IN THE MOUNTAINOUS REGION OF QUANG NGAI PROVINCE Currently, Machine learning method has been widely used in landslide susceptibility with many different types of models. However, previous studies showed that there is no one best machine learning model for all regions. For the mountainous area of Quang Ngai province where landslides often occur every year, this study used 5 machine learning algorithms Logistic Regression, Support Vector Machine, Decision Tree, Random Forest, and Extreme Gradient Boosting (XGBoost) to build landslide spatial prediction models. The results of testing and comparing models using statistical indexes and ROC method show that XGBoost model outperform other models with ACC = 0.813, kappa = 0.625, AUC = 0.892. This model is then used to calculate susceptible indexes and generate landslide susceptibility map. The results of landslide density assessment and survey verification indicate a reliable perfor mance of this map. Keywords: Machine learning, Logistic Regression, SVM, Random Forest, XGBoost, ROC. Ngày nhận bài: 31/01/2024 Ngày chấp nhận đăng: 28/02/2024 KHOA HỌC KỸ THUẬT THỦY LỢI VÀ MÔI TRƯỜNG - SỐ 88 (3/2024) 27

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Sử dụng vật liệu nanô có thể ảnh hưởng tới môi trường
8 p |
178 |
40
-
MÔ HÌNH CHẤT LƯỢNG NƯỚC - CHƯƠNG 3
14 p |
175 |
39
-
Lựa chọn địa điểm chôn lấp chất thải rắn đô thị sử dụng công nghệ địa không gian: Trường hợp nghiên cứu điểm tại thành phố Tuy Hòa và vùng lân cận
15 p |
9 |
1
-
Nghiên cứu ứng dụng thuật toán METRIC tối ưu tìm kiếm thích nghi trên mạng thông tin di động
5 p |
8 |
1
-
Nghiên cứu chế độ thủy động lực vùng cửa Sông Gianh, tỉnh Quảng Bình
9 p |
12 |
1


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
