
50 Journal of Mining and Earth Sciences, Vol 65, Issue 5 (2024) 50 - 60
Forest fire risk prediction using geospatial data and
machine learning techniques, a case study in the
western region of Nghe An province
Phuong Nam Thi Doan 1,*, Hung Le Trinh 2, Trung Van Nguyen 1, Ha Thu Thi Le 1,
Phu Van Le 2
1 Hanoi University of Mining and Geology, Hanoi, Vietnam
2 Le Quy Don Technical University, Hanoi, Vietnam
ARTICLE INFO
ABSTRACT
Article history:
Received 27th Mar. 2024
Revised 28th July 2024
Accepted 26th Aug. 2024
Nghe An is the province with the largest area of forests and forestry land
in the country with more than 1 million hectares of forest, coverage rate
reaching 58,33%. Due to the influence of climate change and human
activities, forest cover in Nghe An has profound fluctuations, of which
forest fires are one of the main causes. This article presents the results of
developing a forest fire risk prediction model in the western region of
Nghe An province from geospatial data and machine learning algorithms.
From the analysis of natural and social conditions in the study area, 9
input data layers include: (1) elevation, (2) slope, (3) aspect, (4)
vegetation cover density, (5) population density, (6) land surface
temperature, (7) evapotranspiration, (8) wind speed and (9) average
monthly rainfall is used to build a forest fire risk prediction model. In the
study, we tested with 02 machine learning algorithms, including Random
Forest (RF) and Gradient Tree Boosting (GTB), then selected the
appropriate algorithm by evaluating accuracy using the fire point data
set as well as model performance. The obtained results showed that the
AUC (Area Under the Curve) value of the GTB(350) algorithm reached
0,948, higher than the RF(100) (0,947). From this result, the study used
the GTB algorithm with 350 trees to create a forest fire risk prediction
map in the western region of Nghe An province.
Copyright © 2024 Hanoi University of Mining and Geology. All rights reserved.
Keywords:
Forest fire risk prediction
model,
Geospatial data,
Machine learning,
Nghe An province.
_____________________
*Corresponding author
E - mail: doanthinamphuong@humg.edu.vn
DOI: 10.46326/JMES.2024.65(5).06

Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất Tập 65, Kỳ 5 (2024) 50 - 60 51
Ư ng du ng dư liê u đia không gian va ky thua t ho c ma y trong dư
ba o nguy cơ cha y rư ng, thư nghiê m ta i khu vư c phia tây tinh
Nghê An
Đoa n Thi Nam Phương 1,*, Trinh Lê Hu ng 2, Nguyê n Văn Trung 1, Lê Thi Thu Ha 1,
Lê Văn Phu 2
1 Trường Đại học Mỏ Địa chất, Hà Nội, Việt Nam
2 Trường Đại học Kỹ thuật Lê Quý Đôn, Hà Nội, Việt Nam
THÔNG TIN BÀI BÁO
TÓM TẮT
Quá trình:
Nhận bài 27/3/2024
Sửa xong 28/7/2024
Chấp nhận đăng 26/8/2024
Nghệ An l tnh c diện tch rng v đất lâm nghiệp ln nhất c nưc vi
hơn 1 triệu ha rng, t lệ che ph đạt 58,33%. Do nh hưng ca bin đi kh
hậu v hoạt động ca con người, lp ph rng Nghệ An c s bin động
sâu sc, trong đ chy rng l một trong nhng nguyên nhân chnh. Bi bo
ny trnh by kt qu ng dng d liệu địa không gian v cc kỹ thuật học
my nhm d bo nguy cơ chy rng khu vc pha Tây tnh Nghệ An. T
phân tch điu kiện t nhiên-x hội khu vc nghiên cu, chín lp d liệu bao
gm: (1) độ cao, (2) độ dc, (3) hưng sườn, (4) mật độ che ph, (5) mật độ
dân cư, (6) nhiệt độ b mt, (7) độ bc thot hơi nưc, (8) tc độ gi v (9)
lưng mưa trung bnh thng đưc s dng đ mô hnh ha nguy cơ chy
rng. Trong nghiên cu đ th nghiệm vi 02 thuật ton học my khc
nhau, bao gm Random Forest (RF) v Gradient Tree Boosting (GTB), t đ
la chọn thuật ton ph hp thông qua đnh gi độ chnh xc bng bộ d
liệu đim chy cng như hiệu suất mô hnh. Kt qu nhận đưc cho thấy, giá
trị AUC (Area Under the Curve) ca thuật ton GTB(350) đạt 0,948, cao hơn
so vi thuật ton RF(100) (0,947). T kt qu ny, trong nghiên cu đ s
dng thuật ton GTB vi s lưng cây 350 đ thnh lập bn đ d bo nguy
cơ chy rng khu vc pha tây tnh Nghệ An.
© 2024 Trường Đại học Mỏ - Địa chất. Tất cả các quyền được bảo đảm.
T khóa:
Dư liê u đia không gian,
Ho c ma y,
Mô hinh dư ba o nguy cơ cha y
rư ng,
Tinh Nghê An.
_____________________
*Tác gi liên hệ
E - mail: doanthinamphuong@humg.edu.vn
DOI: 10.46326/JMES.2024.65(5).06

52 Đon Thị Nam Phương v nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 65 (5), 50 - 60
1. Mở đầu
Theo công bo hiê n tra ng rư ng năm 2023, Viê t
Nam co diê n tich rư ng trên 14 triê u ha, ti lê che
phu đa t 42,02% (MARD, 2024). Ma c du to ng diê n
tich rư ng va ti lê che phu ơ Viê t Nam co xu hươ ng
gia tăng trong giai đoa n ga n đây, tuy nhiên diê n
tich rư ng gia tăng chu yê u la rư ng tro ng, trong khi
rư ng tư nhiên tiê p tu c suy gia m. Co nhiê u nguyên
nhân kha c nhau gây nên sư suy gia m diê n tich va
cha t lươ ng rư ng ơ Viê t Nam, trong đo cha y rư ng la
mo t trong như ng nguyên nhân quan tro ng (Tra n,
2017; Nguyễn và nnk., 2017). Cháy rừng là một
hiện tượng phức tạp bị ảnh hưởng bởi sự kết hợp
của các yếu tố. Thơ i tiê t va ca c hoa t đo ng cu a con
ngươ i la ca c yê u to chinh góp phần vào việc xảy ra
và lan rộng của cháy rừng. Bên cạnh đó, biến đổi
khí hậu và sự thay đổi về địa hình có thể ảnh
hưởng đến hành vi và đẩy nhanh quá trình cháy
(Hoang và nnk., 2020).
Lớp phủ rừng thường phân bố ở các khu vực
có địa hình phức tạp, khó tiếp cận, do vậy các
phương pháp truyền thống có nhiều hạn chế trong
phát hiện và dự báo nguy cơ cháy rừng. Những
hạn chế này có thể được khắc phục khi sử dụng
công nghệ địa không gian, trong đó chủ đạo là dữ
liệu viễn thám và GIS. Mo t so hê tho ng ca nh ba o
cha y rư ng tư dư liê u viê n tha m va GIS đươ c a p
du ng như Hê tho ng thông tin cha y rư ng châu Âu
(EFFIS) sư du ng dư liê u a nh MODIS, hê tho ng
INPAS (Croatia) sư du ng kê t hơ p đa nguo n dư liê u
(video, dư liê u khi tươ ng, dư liê u GIS). Với sự phát
triển mạnh mẽ của trí tuệ nhân tạo, thời gian gần
đây nhiều nghiên cư u đa sư du ng ca c mô hình học
máy, học sâu như ma ng neural nhân ta o, random
forest, support vector machine,... đê nâng cao đo
chinh xa c kết quả dự báo nguy cơ cháy rừng
(Vasilakos và nnk., 2009; Oliveira và nnk., 2012;
Dieu và nnk., 2016; Enod và nnk., 2021; Iban và
Sekertekin, 2022; Nguyen va nnk, 2018). Ca c ky
thua t ho i quy như ho i quy đa biê n (multiple
regression) (Oliveira và nnk., 2012), ho i quy
logistic (Pourghasemi, 2015), ho i quy tro ng so đia
ly (geographically weighted regression - GWR)
(Fernandez và nnk., 2012), ky thua t khai pha dư
liê u (data mining) (Arpaci và nnk., 2014), ca c mô
hinh to ng qua t (GLMs, GAMs) (Ruano và nnk.,
2022) cu ng đươ c sư du ng đê đánh giá và dư ba o
nguy cơ cha y rư ng từ bộ dữ liệu đầu vào đại diện
cho các yê u to tư nhiên và kinh tế - xa ho i.
Ca c nghiên cư u dư ba o nguy cơ cha y rư ng ơ
Viê t Nam đươ c thư c hiê n tư như ng năm cuo i thê
ky XX trên cơ sơ sư du ng ca c chi so to ng hơ p, chu
yê u la chi so Nesterov - chi so P (Phạm, 1988; Võ,
1995). Phương pha p truyê n tho ng na y tiê p tu c
đươ c sư du ng trong ca c nghiên cư u thơ i gian sau,
trong đo mô hinh dư ba o đươ c bo sung thêm ca c
lơ p thông tin đa u va o cu ng như điê u chinh gia tri
chi tiêu P trong phân ca p nguy cơ cha y rư ng (Lê và
Vương, 2014; Nguyễn, 2019). Thơ i gian ga n đây,
mo t so nghiên cư u đa kê t hơ p dư liê u viê n tha m,
GIS va ca c mô hinh ho c ma y đê nâng cao đo chinh
xa c kê t qua dư ba o nguy cơ cha y rư ng (Đa ng va
nnk,, 2017 Hoang và nnk., 2020). Ca c nghiên cư u
na y đa sư du ng mo t so mô hinh ho c ma y như RF,
SVM va Classification and Regression Tree (CART)
đê dư ba o nguy cơ cha y rư ng trên cơ sở xác suất
xảy ra cháy của từng điểm ảnh. Kê t qua nha n đươ c
cho tha y, thua t toa n RF co đo chinh xa c cao nha t
trong dư ba o nguy cơ cha y rư ng, trong khi đo
thua t toa n CART co đo chinh xa c tha p nha t (Đoa n,
2023).
Bài báo na y trinh ba y kê t qua xây dư ng ba n
đo dư ba o nguy cơ cha y rư ng khu vư c phia tây tinh
Nghê An sư du ng dư liê u đia không gian va ky
thua t ho c ma y. Ba thua t toa n ho c ma y thông du ng,
đa đươ c chư ng minh hiê u qua trong ca c nghiên
cư u kha c nhau bao go m RF, SVM va GTB đươ c thư
nghiê m đê lư a cho n thua t toa n phu hơ p vơ i điê u
kiê n cu thê khu vư c nghiên cư u. Bo dư liê u đa u va o
bao go m ca c lơ p đa i diê n cho yê u to đia hinh, lơ p
phu , khi ha u, điê u kiê n kinh tê -xa ho i đươ c lư a
cho n va xây dư ng tư dư liê u viê n tha m, GIS va ca c
cơ sở dữ liệu quo c tê . Đo chinh xa c kê t qua dư ba o
nguy cơ cha y rư ng đươ c đa nh gia thông qua bo dư
liê u điê m cha y trong qua khư cu ng như đa nh gia
hiê u năng cu a mô hinh.
2. Dữ liệu và phương pháp nghiên cứu
2.1. Dữ liệu v khu vc nghiên cu
A nh Sentinel 2 MSI chu p trong khoa ng thơ i
gian tư 15/11/2021 đê n 16/01/2022 đươ c sư
du ng đê ta o a nh không mây va xây dư ng lơ p dư
liê u vê ma t đo che phu . Trong khi đo , a nh Landsat
8 trong cu ng thơ i gian trên đươ c sư du ng đê tinh
nhiê t đo bê ma t.
Dư liê u DEM toa n ca u SRTM vơ i đo phân gia i
không gian 30 m cung ca p bơ i Cơ quan Ha ng
không vu tru My (NASA) đươ c sư du ng đê chiê t

Đon Thị Nam Phương v nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 65 (5), 50 - 60 53
xua t thông tin ca c yê u to đia hinh như đo do c, đo
cao, hươ ng sươ n.
Bên cạnh đó, dữ liệu về khí hậu và thời tiết,
bao go m: to c đo gio , lươ ng mưa trung binh tha ng,
đo bo c thoa t hơi nươ c cũng được sử dụng trong
nghiên cứu. Các lớp dữ liệu này được thu tha p từ
cơ sở dữ liệu quốc tế về khí hậu WorldClim
(https://www.worldclim.org/). Lơ p dữ liệu Mật
độ dân cư được thu thập và xây dựng từ cơ sở dữ
liệu nhân khẩu học WorldPop (https://data.
worldpop.org/). Các lớp dữ liệu được thu thập
tương ứng trong giai đoạn thu thập dữ liệu điểm
cháy rừng.
Bo dư liê u điê m cha y trong qua khư đươ c thu
tha p trong giai đoa n 2018÷2023 dư a trên ho sơ
cha y cu a Cu c Kiê m lâm (Bo Nông nghiệp và Phát
triển Nông thôn) va dư liê u ho a hoa n tư hê tho ng
FIRMS (NASA). Bên ca nh đo , trong nghiên cư u
cu ng xây dựng bo dư liê u ca c điê m «không cha y»
đươ c la y theo các vị trí có mật độ cây thấp, mặt
nước, ít hoạt động của con người đê hua n luyê n va
kiê m đinh mô hinh dư ba o.
Khu vực nghiên cứu được lựa chọn là đia ba n
phia tây tinh Nghê An bao gồm các huyện Con
Cuông, Kỳ Sơn, Quế Phong, Quỳ Châu, Quỳ Hợp và
Tương Dương (Hình 1). Theo ba o ca o hiê n tra ng
rư ng Viê t Nam năm 2023 của Bộ Nông nghiệp và
Phát triển nông thôn, Nghê An co diê n tich rư ng va
đa t lâm nghiê p lơ n nha t ca nươ c, chiê m ga n 70%
diê n tich đa t tư nhiên toa n tinh, ma t đo che phu
rư ng đa t 58,36%. Nghệ An cũng là một trong các
địa phương đứng đầu trên toàn quốc về nguy cơ
cháy rừng ở cấp V, cấp cực kỳ nguy hiểm. Phía tây
tỉnh Nghệ An nằm trong vùng núi và có đặc điểm
địa hình đa dạng, bao gồm khu vư c nu i cao, thung
lũng và sông suối. Do đặc điểm địa hình phức tạp
và thảm phủ rừng dày đặc, phía tây tỉnh Nghệ An
có nguy cơ cháy rừng cao trong mùa khô. Một số
vụ cháy rừng điển hình như cháy rừng tại xã Châu
Bính, huyện Quỳ Châu (14/04/2022) đã gây thiệt
hại hơn 500 ha rừng, cháy rừng tại xã Mường Típ,
huyện Kỳ Sơn (25/04/2022) đã gây thiệt hại hơn
200 ha rừng, cháy rừng tại xã Lục Dạ, huyện Con
Cuông (05/05/2022) gây thiệt hại hơn 100 ha
rừng.
Hình 1. Mô t vị tr khu vc nghiên cu.

54 Đon Thị Nam Phương v nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 65 (5), 50 - 60
2.2. Phương pháp nghiên cu
a) Xây dng bộ d liệu đu vo và chuẩn hoá d
liệu
Để lựa chọn và xây dựng bo dư liê u đa u va o
cu a mô hinh, trong bài báo tiến hành phân tich,
đa nh gia ảnh hưởng của các điều kiện tự nhiên,
kinh tế - xã hội đến nguy cơ xảy ra cháy rừng. Phân
tích đa c điê m cha y rư ng ơ khu vực nghiên cứu cho
tha y, nguyên nhân chinh cu a tinh tra ng na y la do
a nh hươ ng cu a điều kiện tư nhiên (đa c điê m lơ p
phu , ca c yê u to thơ i tiê t, khi ha u, đia hinh) cu ng
như hoa t đo ng cu a con ngươ i (du lịch rừng, đốt
nương làm rẫy, sự mở rộng đô thị và nông thôn).
Tư kê t qua na y, trong ba i ba o đa lư a cho n chín lơ p
dư liê u đê lư a cho n xây dư ng mô hinh dư ba o nguy
cơ cha y rư ng, bao go m: (1) đo cao, (2) đo do c, (3)
hươ ng sươ n, (4) ma t đo che phu thư c va t, (5) ma t
đo dân cư, (6) nhiê t đo bê ma t, (7) đo bo c thoa i hơi
nươ c bê ma t, (8) to c đo gio , (9) lươ ng mưa trung
binh tha ng.
Ca c lơ p dư liê u vê đia hinh (đo cao, đo do c,
hươ ng sươ n) đươ c xây dư ng tư DEM SRTM
(30m). Ca c lơ p dư liê u vê thơ i tiê t, khi ha u, dân cư
đươ c thu tha p tư cơ sở dữ liệu WorldClim va
WorldPop. Nhiê t đo bê ma t đươ c xa c đinh tư a nh
vê tinh Landsat 8 thêo phương pha p do NASA
cung ca p (Landsat 8 data users handbook). Trong
khi đo , ma t đo che phu đươ c xa c đinh thông qua
chi so thư c va t NDVI theo công thư c (1) (Trinh and
Zablotskii, 2017):
min
max min
NDVI NDVI
Pv NDVI NDVI
−
=−
(1)
Do ca c lơ p dư liê u đa u va o đươ c xây dư ng tư
ca c nguo n kha c nhau vơ i thang đo không tho ng
nha t, đê co thê đưa va o mô hinh dư ba o, tất cả các
lơ p dư liê u na y được chuyển đổi sang định dạng
raster vơ i độ phân giải 10 m (phu hơ p vơ i đo phân
gia i không gian cu a a nh Sentinel 2 MSI). Tiếp theo,
ca c lơ p dư liê u được chuẩn hóa vê phạm vi [0÷1]
theo công thư c (2) (Dieu và nnk., 2012):
() 0,99 0,01 0,01
( ) ( )
i
v
Fa Min Fa
NMax Fa Min Fa
−
= − +
−
(2)
Trong đó: Fai - giá trị của hệ số được xem xét,
Min(Fa) và Max(Fa) là giá trị tối thiểu và giá trị tối
đa của hệ số được xem xét; Nv - giá trị tính toán
mới cho hệ số được xem xét.
Mư c đo quan tro ng cu a tư ng yê u to đa u đươ c
xa c đinh trên cơ sơ hê so tương quan Pêarson (hê
so r). Hê so (r) co gia tri trong khoa ng tư -1÷1,
trong đo gia tri r dương thê hiê n tương quan
thua n, r âm thê hiê n tương quan nghich. Trong
nghiên cư u na y, hê so r đươ c xa c đinh ba ng pha n
mê m QGIS 2.18.
b) La chọn thuật ton học my
Đê dư ba o nguy cơ cha y rư ng khu vư c phia tây
tinh Nghê An tư bo dư liê u đa u va o bao go m chín
yê u to , trong ba i ba o thư nghiê m vơ i mo t so thua t
toa n ho c ma y thông dụng như Random Forêst
(RF), Support Vector Machine (S SVM VM) va
Gradient Tree Boosting (GTB).
Random Forest
RF là một thuật toán học máy có giám sát
được sử dụng phổ biến trong hồi quy và phân loại,
đồng thời tạo ra kết quả phân loại tốt ngay cả khi
không điều chỉnh bộ siêu tham số. RF hoa t đo ng
trên cơ sơ xây dựng nhiê u cây quyết định
(decision tree) trên các mẫu hua n luyê n, mỗi cây
quyết định sẽ khác nhau (có yếu tố random). Ở
bước tiếp theo, đo i vơ i mỗi cây quyết định sẽ đi từ
trên xuống theo các nu t điều kiện để được các dự
đoán, sau đó kết quả cuối cùng được tổng hợp từ
kết quả của các cây quyết định. Như va y, RF la y
nga u nhiên dư liê u va thuo c tinh đê xây dư ng cây
quyê t đinh (Breiman, 2001).
Gradient Tree Boosting
GTB là một thuật toán học máy kết hợp sức
mạnh của cây quyết định với kỹ thuật tối ưu hóa
giảm dần độ dốc. Đây là một thuật toán linh hoạt
và mạnh mẽ được sử dụng rộng rãi cho cả ba i toa n
phân loại và hồi quy (Friedman, 2001).
GTB hoạt động bằng cách xây dựng một tập
hợp các cây quyết định, trong đó mỗi cây được
huấn luyện để cải thiện dự đoán của các cây trước
đó. Thuật toán sử dụng kỹ thuật tối ưu hóa giảm
độ dốc để giảm thiểu hàm mất mát, đây là thước
đo sai số giữa giá trị dự đoán và giá trị thực.
Về mặt toán học, giả sử X và Y lần lượt là đầu
vào và mục tiêu của N mẫu. Nghiên cứu cần xây
dựng một hàm f(x) ánh xạ các đặc trưng đầu vào X
tới các biến mục tiêu y. Hàm mất mát được xác
định là sự khác biệt giữa các biến thực tế và dự
đoán theo công thư c (3) (Friedman, 2001; Sharma
and Ghosh, 2023):