50 Journal of Mining and Earth Sciences, Vol 65, Issue 5 (2024) 50 - 60
Forest fire risk prediction using geospatial data and
machine learning techniques, a case study in the
western region of Nghe An province
Phuong Nam Thi Doan 1,*, Hung Le Trinh 2, Trung Van Nguyen 1, Ha Thu Thi Le 1,
Phu Van Le 2
1 Hanoi University of Mining and Geology, Hanoi, Vietnam
2 Le Quy Don Technical University, Hanoi, Vietnam
ARTICLE INFO
ABSTRACT
Article history:
Received 27th Mar. 2024
Revised 28th July 2024
Accepted 26th Aug. 2024
Nghe An is the province with the largest area of forests and forestry land
in the country with more than 1 million hectares of forest, coverage rate
reaching 58,33%. Due to the influence of climate change and human
activities, forest cover in Nghe An has profound fluctuations, of which
forest fires are one of the main causes. This article presents the results of
developing a forest fire risk prediction model in the western region of
Nghe An province from geospatial data and machine learning algorithms.
From the analysis of natural and social conditions in the study area, 9
input data layers include: (1) elevation, (2) slope, (3) aspect, (4)
vegetation cover density, (5) population density, (6) land surface
temperature, (7) evapotranspiration, (8) wind speed and (9) average
monthly rainfall is used to build a forest fire risk prediction model. In the
study, we tested with 02 machine learning algorithms, including Random
Forest (RF) and Gradient Tree Boosting (GTB), then selected the
appropriate algorithm by evaluating accuracy using the fire point data
set as well as model performance. The obtained results showed that the
AUC (Area Under the Curve) value of the GTB(350) algorithm reached
0,948, higher than the RF(100) (0,947). From this result, the study used
the GTB algorithm with 350 trees to create a forest fire risk prediction
map in the western region of Nghe An province.
Copyright © 2024 Hanoi University of Mining and Geology. All rights reserved.
Keywords:
Forest fire risk prediction
model,
Geospatial data,
Machine learning,
Nghe An province.
_____________________
*Corresponding author
E - mail: doanthinamphuong@humg.edu.vn
DOI: 10.46326/JMES.2024.65(5).06
Tp chí Khoa hc K thut M - Địa cht Tp 65, K 5 (2024) 50 - 60 51
Ư ng du󰈨 ng dư liê 󰈨u đi󰈨a không gian va ky thua 󰈨t ho󰈨 c ma y trong dư󰈨
ba o nguy cơ cha y rư ng, thư󰈖 nghiê 󰈨m ta󰈨 i khu vư󰈨 c phia tây ti󰈖nh
Nghê 󰈨 An
Đoa n Thi󰈨 Nam Phương 1,*, Tri󰈨nh Lê Hu ng 2, Nguyê󰈞 n n Trung 1, Lê Thi󰈨 Thu Ha 1,
n Phu 2
1 Trường Đi hc M Địa cht, Ni, Vit Nam
2 Trường Đi hc K thuật Lê Quý Đôn, Ni, Vit Nam
TNG TIN BÀI BÁO
M TT
Q tnh:
Nhn bài 27/3/2024
Sa xong 28/7/2024
Chp nhn đăng 26/8/2024
Ngh An l tnh c din tch rng v đt lâm nghip ln nht c c vi
n 1 triu ha rng, t l che ph đạt 58,33%. Do nh hưng ca bin đi kh
hu v hot động ca con ni, lp ph rng Ngh An c s bin động
sâu sc, trong đ chy rng l mt trong nhng nguyên nn chnh. Bi bo
ny trnh by kt qu ng dng d liu địa kng gian v cc k thut hc
my nhm d bo nguy chy rng khu vc pha y tnh Ngh An. T
phân tch điu kin t nhn-x hi khu vc nghiên cu, chín lp d liu bao
gm: (1) đ cao, (2) đ dc, (3) ng n, (4) mt độ che ph, (5) mt đ
dân, (6) nhiệt độ b mt, (7) độ bc thoti nưc, (8) tc đ gi v (9)
ng mưa trung bnh thng đưc s dng đ hnh ha nguy chy
rng. Trong nghn cu đ th nghim vi 02 thut ton hc my khc
nhau, bao gm Random Forest (RF) v Gradient Tree Boosting (GTB), t đ
la chn thut ton ph hp thông qua đnh gi độ chnh xc bng b d
liu đim chy cng như hiu sut mô hnh. Kt qu nhận đưc cho thy, giá
tr AUC (Area Under the Curve) ca thut ton GTB(350) đt 0,948, cao hơn
so vi thut ton RF(100) (0,947). T kt qu ny, trong nghiên cu đ s
dng thut ton GTB vi s ng y 350 đ thnh lp bn đ d bo nguy
chy rng khu vc pha tây tnh Ngh An.
© 2024 Trường Đại học Mỏ - Địa chất. Tất cảc quyền được bảo đảm.
T khóa:
Dư liê 󰈨u đi󰈨a không gian,
Ho󰈨 c ma y,
hinh dư󰈨 ba o nguy cha y
rư ng,
Ti󰈖nh Nghê 󰈨 An.
52 Đon Th Nam Phương v nnk./Tp chí Khoa hc K thut M - Địa cht 65 (5), 50 - 60
1. M đầu
Theo ng bo󰈘 hiê 󰈨n tra󰈨 ng rư ng năm 2023, Viê 󰈨t
Nam co diê 󰈨n tich rư ng tn 14 triê 󰈨u ha, ti󰈖 lê 󰈨 che
phu󰈖 đa󰈨 t 42,02% (MARD, 2024). Ma 󰈨c du to󰈜 ng diê 󰈨n
tich rư ng va ti󰈖 lê 󰈨 che phu󰈖 ơ󰈖 Viê 󰈨t Nam co xuơ ng
gia ng trong giai đoa󰈨 n ga󰈚 n đây, tuy nhn diê 󰈨n
tich rư ng gia ng chu󰈖 yê󰈘 u la rư ng tro󰈚 ng, trong khi
rư ng tư󰈨 nhiên tiê󰈘 p tu󰈨 c suy gia󰈖 m. Co nhiê󰈚 u nguyên
nn kha c nhau gây n sư󰈨 suy gia󰈖 m diê 󰈨n tich va
cha󰈘 t ơ󰈨 ng rư ng ơ󰈖 Viê 󰈨t Nam, trong đo cha y rư ng la
mo 󰈨t trong như ng nguyên nhân quan tro󰈨 ng (Tra󰈚 n,
2017; Nguyn và nnk., 2017). Cháy rng mt
hiệnng phc tp b ảnh ng bi s kết hp
ca các yếu t. Thơ i tiê󰈘 t va ca c hoa󰈨 t đo 󰈨ng cu󰈖 a con
nơ i la ca c yê󰈘 u to󰈘 chinh góp phn vào vic xy ra
và lan rng ca cháy rng. n cnh đó, biến đổi
k hu s thay đổi v đa hình th nh
ng đến nh vi và đẩy nhanh quá trình cháy
(Hoang và nnk., 2020).
Lp ph rng thường pn b c khu vc
địa hình phc tp, khó tiếp cn, do vy c
pơng pháp truyn thng nhiu hn chế trong
pt hin d o nguy cơ cháy rừng. Nhng
hn chế y th đưc khc phc khi s dng
ng ngh địa không gian, trong đó chủ đạo d
liu vin tm GIS. Mo 󰈨t so󰈘 hê 󰈨 tho󰈘 ng ca󰈖 nh ba o
cha y rư ng tư dư liê 󰈨u viê󰈞 n tha m va GIS đươ󰈨 c a p
du󰈨 ng như 󰈨 tho󰈘 ng thông tin cha y rư ng châu Âu
(EFFIS) sư󰈖 du󰈨 ng dư liê 󰈨u a󰈖 nh MODIS, hê 󰈨 tho󰈘 ng
INPAS (Croatia) sư󰈖 du󰈨 ng kê󰈘 t hơ󰈨 p đa nguo󰈚 n dư liê 󰈨u
(video, dư liê 󰈨u khi ơ󰈨 ng, dư liê 󰈨u GIS). Vi s phát
trin mnh m ca trí tu nhân to, thi gian gn
đây nhiu nghiên cư u đa sư󰈖 du󰈨 ng ca c mô hình hc
y, họcu như ma󰈨 ng neural nhân ta󰈨 o, random
forest, support vector machine,... đê󰈜 nâng cao đo 󰈨
chinh xa c kết qu d báo nguy cơ cháy rừng
(Vasilakos nnk., 2009; Oliveira nnk., 2012;
Dieu nnk., 2016; Enod và nnk., 2021; Iban
Sekertekin, 2022; Nguyen va nnk, 2018). Ca c ky
thua 󰈨t ho󰈚 i quy như ho󰈚 i quy đa biê󰈘 n (multiple
regression) (Oliveira nnk., 2012), ho󰈚 i quy
logistic (Pourghasemi, 2015), ho󰈚 i quy tro󰈨 ng so󰈘 đi󰈨a
ly (geographically weighted regression - GWR)
(Fernandez nnk., 2012), ky thua 󰈨t khai pha dư
liê 󰈨u (data mining) (Arpaci và nnk., 2014), ca c
hinh to󰈜 ng qua t (GLMs, GAMs) (Ruano nnk.,
2022) cu ng đươ󰈨 c sư󰈖 du󰈨 ng đê󰈜 đánh giá dư󰈨 ba o
nguy cơ cha y rư ng t b d liệu đầu vào đại din
cho các yê󰈘 u to󰈘 tư󰈨 nhiên và kinh tế - xa ho 󰈨i.
Ca c nghiên cư u dư󰈨 ba o nguy cha y rư ng ơ󰈖
Viê 󰈨t Nam đươ󰈨 c thư󰈨 c hiê 󰈨n tư như ng năm cuo󰈘 i thê󰈘
ky󰈖 XX trên sơ󰈖 sư󰈖 du󰈨 ng ca c chi󰈖 so󰈘 to󰈜 ng hơ󰈨 p, chu󰈖
yê󰈘 u la chi󰈖 so󰈘 Nesterov - chi󰈖 so󰈘 P (Phm, 1988; ,
1995). Phương pha p truyê󰈚 n tho󰈘 ng na y tiê󰈘 p tu󰈨 c
đươ󰈨 c sư󰈖 du󰈨 ng trong ca c nghn cư u thơ i gian sau,
trong đo hinh dư󰈨 ba o đươ󰈨 c bo󰈜 sung thêm ca c
lơ p thông tin đa󰈚 u va o cu ng như điê󰈚 u chi󰈖nh gia tri󰈨
chi󰈖 tiêu P trong phân ca󰈘 p nguy cha y rư ng (Lê
Vương, 2014; Nguyn, 2019). Thơ i gian ga󰈚 n đây,
mo 󰈨t so󰈘 nghiên cư u đa kê󰈘 t hơ󰈨 p dư liê 󰈨u viê󰈞 n tha m,
GIS va ca c hinh ho󰈨 c ma y đê󰈜 nâng cao đo 󰈨 chinh
xa c kê󰈘 t qua󰈖 dư󰈨 ba o nguy cha y rư ng (Đa 󰈨ng va
nnk,, 2017 Hoang nnk., 2020). Ca c nghiên cư u
na y đa sư󰈖 du󰈨 ng mo 󰈨t so󰈘 mô hinh ho󰈨 c ma y như RF,
SVM va Classification and Regression Tree (CART)
đê󰈜 dư󰈨 ba o nguy cha y rư ng trên sở xác sut
xy ra cháy ca tng đim nh. Kê󰈘 t qua󰈖 nha 󰈨n đươ󰈨 c
cho tha󰈘 y, thua 󰈨t toa n RF co đo 󰈨 chinh xa c cao nha󰈘 t
trong dư󰈨 ba o nguy cha y rư ng, trong khi đo
thua 󰈨t toa n CART co đo 󰈨 chinh xa c tha󰈘 p nha󰈘 t (Đoa n,
2023).
Bài o na y trinh ba y kê󰈘 t qua󰈖 xây dư󰈨 ng ba󰈖 n
đo󰈚 dư󰈨 ba o nguy cha y rư ng khu vư󰈨 c phia tây ti󰈖nh
Nghê 󰈨 An sư󰈖 du󰈨 ng dư liê 󰈨u đi󰈨a không gian va ky
thua 󰈨t ho󰈨 c ma y. Ba thua 󰈨t toa n ho󰈨 c ma y thông du󰈨 ng,
đa đươ󰈨 c chư ng minh hiê 󰈨u qua󰈖 trong ca c nghiên
cư u kha c nhau bao go󰈚 m RF, SVM va GTB đươ󰈨 c thư󰈖
nghiê 󰈨m đê󰈜 lư󰈨 a cho󰈨 n thua 󰈨t toa n phu hơ󰈨 p vơ i điê󰈚 u
kiê 󰈨n cu󰈨 thê󰈜 khu vư󰈨 c nghn cư u. Bo 󰈨 dư liê 󰈨u đa󰈚 u va o
bao go󰈚 m ca c lơ p đa󰈨 i diê 󰈨n cho yê󰈘 u to󰈘 đi󰈨a hinh, lơ p
phu󰈖 , khi ha 󰈨u, điê󰈚 u kiê 󰈨n kinh tê󰈘 -xa ho 󰈨i đươ󰈨 c lư󰈨 a
cho󰈨 n va y dư󰈨 ng tư dư liê 󰈨u viê󰈞 n tha m, GIS va ca c
s d liu quo󰈘 c tê󰈘 . Đo 󰈨 chinh xa c kê󰈘 t qua󰈖 dư󰈨 ba o
nguy cha y rư ng đươ󰈨 c đa nh gia thông qua bo 󰈨 dư
liê 󰈨u điê󰈜 m cha y trong qua khư cu ng như đa nh gia
hiê 󰈨u năng cu󰈖 a mô hinh.
2. D liệu và phương pháp nghiên cứu
2.1. D liu v khu vc nghiên cu
A󰈗 nh Sentinel 2 MSI chu󰈨 p trong khoa󰈖 ng thơ i
gian tư 15/11/2021 đê󰈘 n 16/01/2022 đươ󰈨 c sư󰈖
du󰈨 ng đê󰈜 ta󰈨 o a󰈖 nh không y va y dư󰈨 ng lơ p dư
liê 󰈨u vê󰈚 ma 󰈨t đo 󰈨 che phu󰈖 . Trong khi đo , a󰈖 nh Landsat
8 trong cu ng thơ i gian trên đươ󰈨 c sư󰈖 du󰈨 ng đê󰈜 tinh
nhiê 󰈨t đo 󰈨 bê󰈚 ma 󰈨t.
Dư liê 󰈨u DEM toa n ca󰈚 u SRTM vơ i đo 󰈨 phân gia󰈖 i
kng gian 30 m cung ca󰈘 p bơ󰈖 i quan Ha ng
kng vu tru󰈨 My (NASA) đươ󰈨 c sư󰈖 du󰈨 ng đê󰈜 chiê󰈘 t
Đon Th Nam Phương v nnk./Tp chí Khoa hc K thut M - Địa cht 65 (5), 50 - 60 53
xua󰈘 t thông tin ca c yê󰈘 u to󰈘 đi󰈨a hinh như đo 󰈨 do󰈘 c, đo 󰈨
cao, ơ ngơ n.
Bên cạnh đó, dữ liu v khí hu thi tiết,
bao go󰈚 m: to󰈘 c đo 󰈨 gio ,ơ󰈨 nga trung binh tha ng,
đo 󰈨 bo󰈘 c thoa t i ơ c ng đưc s dng trong
nghn cu. Các lp d liu này đưc thu tha 󰈨p t
sở d liu quc tế v khí hu WorldClim
(https://www.worldclim.org/). Lơ p d liu Mt
độ n đưc thu thpy dng t s d
liu nhân khu hc WorldPop (https://data.
worldpop.org/). c lp d liu đưc thu thp
tương ứng trong giai đon thu thp d liu đim
cháy rng.
Bo 󰈨 dư liê 󰈨u điê󰈜 m cha y trong qua khư đươ󰈨 c thu
tha 󰈨p trong giai đoa󰈨 n 2018÷2023 dư󰈨 a tn ho󰈚 sơ
cha y cu󰈖 a Cu󰈨 c Kiê󰈜 m lâm (Bo 󰈨 ng nghip Phát
trin ng thôn) va dư liê 󰈨u ho󰈖 a hoa󰈨 n tư hê 󰈨 tho󰈘 ng
FIRMS (NASA). Bên ca󰈨 nh đo , trong nghiên cư u
cu ng xây dng bo 󰈨 dư liê 󰈨u ca c điê󰈜 m «kng cha y»
đươ󰈨 c la󰈘 y theo c v trí mật độ y thp, mt
c, ít hoạt động của con người đê󰈜 hua󰈘 n luyê 󰈨n va
kiê󰈜 m đi󰈨nh hinh dư󰈨 ba o.
Khu vc nghiên cứu được la chọn là đi󰈨a ba n
phia y ti󰈖nh Nghê 󰈨 An bao gm c huyn Con
Cuông, K n, Quế Phong, Qu Châu, Qu Hp
ơng ơng (nh 1). Theo ba o ca o hiê 󰈨n tra󰈨 ng
rư ng Viê 󰈨t Namm 2023 của Bng nghip
Pt trin ng thôn, Nghê 󰈨 An co diê 󰈨n tich rư ng va
đa󰈘 tm nghiê 󰈨p lơ n nha󰈘 t ca󰈖 ơ c, chiê󰈘 m ga󰈚 n 70%
diê 󰈨n tich đa󰈘 t tư󰈨 nhiên toa n ti󰈖nh, ma 󰈨t đo 󰈨 che phu󰈖
rư ng đa󰈨 t 58,36%. Ngh An ng là mt trong các
địa phương đứng đầu trên toàn quc v nguy
cháy rng cp V, cp cc k nguy him. Pa y
tnh Ngh An nm trong ng núi và có đặc điểm
địa hình đa dng, bao gm khu vư󰈨 c nu i cao, thung
ng ng suối. Do đặc điểm địa hình phc tp
và thm ph rng y đặc, phía tây tnh Ngh An
nguy cơ cháy rừng cao trong a khô. Mt s
v cháy rừng điển hình như cháy rừng ti Châu
Bính, huyn Qu Châu (14/04/2022) đã gây thiệt
hi n 500 ha rng, cháy rng tại Mường p,
huyn K n (25/04/2022) đãy thiệt hi hơn
200 ha rng, cháy rng ti xã Lc D, huyn Con
Cuông (05/05/2022) gây thit hi hơn 100 ha
rng.
Hình 1. Mô t v tr khu vc nghiên cu.
54 Đon Th Nam Phương v nnk./Tp chí Khoa hc K thut M - Địa cht 65 (5), 50 - 60
2.2. Phương pháp nghiên cu
a) y dng b d liu đu vo chun hoá d
liu
Đ la chn và xây dng bo 󰈨 dư liê 󰈨u đa󰈚 u va o
cu󰈖 a hinh, trong i báo tiến nh phân tich,
đa nh gia ảnh ng của các điều kin t nhiên,
kinh tế - hội đến nguy xảy ra cháy rng. Phân
tích đa 󰈨c điê󰈜 m cha y rư ng ơ󰈖 khu vc nghn cu cho
tha󰈘 y, nguyên nhân chinh cu󰈖 a tinh tra󰈨 ng na y la do
a󰈖 nh ơ󰈖 ng cu󰈖 a điu kin tư󰈨 nhiên a 󰈨c điê󰈜 m lơ p
phu󰈖 , ca c yê󰈘 u to󰈘 thơ i tiê󰈘 t, khi ha 󰈨u, đi󰈨a hinh) cu ng
n hoa󰈨 t đo 󰈨ng cu󰈖 a con ngươ i (du lch rừng, đốt
nươngm rẫy, s m rộng đô thị và nông thôn).
Tư kê󰈘 t qua󰈖 na y, trong ba i ba o đa lư󰈨 a cho󰈨 n cn lơ p
dư liê 󰈨u đê󰈜 lư󰈨 a cho󰈨 n xây dư󰈨 ng hinh dư󰈨 ba o nguy
cha y rư ng, bao go󰈚 m: (1) đo 󰈨 cao, (2) đo 󰈨 do󰈘 c, (3)
ơ ng ơ n, (4) ma 󰈨t đo 󰈨 che phu󰈖 thư󰈨 c va 󰈨t, (5) ma 󰈨t
đo 󰈨 n , (6) nh 󰈨t đo 󰈨 bê󰈚 ma 󰈨t, (7) đo 󰈨 bo󰈘 c thoa i i
ơ c bê󰈚 ma 󰈨t, (8) to󰈘 c đo 󰈨 gio , (9) lươ󰈨 ng mưa trung
binh tha ng.
Ca c lơ p dư liê 󰈨u vê󰈚 đi󰈨a hinh o 󰈨 cao, đo 󰈨 do󰈘 c,
ơ ng ơ n) đươ󰈨 c xây dư󰈨 ng tư DEM SRTM
(30m). Ca c lơ p dư liê 󰈨u vê󰈚 thơ i tiê󰈘 t, khi ha 󰈨u, n
đươ󰈨 c thu tha 󰈨p tư cơ sở d liu WorldClim va
WorldPop. Nhiê 󰈨t đo 󰈨 bê󰈚 ma 󰈨t đươ󰈨 c xa c đi󰈨nh tư a󰈖 nh
vê 󰈨 tinh Landsat 8 to phương pha p do NASA
cung ca󰈘 p (Landsat 8 data users handbook). Trong
khi đo , ma 󰈨t đo 󰈨 che phu󰈖 đươ󰈨 c xa c đi󰈨nh thông qua
chi󰈖 so󰈘 thư󰈨 c va 󰈨t NDVI theo công thư c (1) (Trinh and
Zablotskii, 2017):
min
max min
NDVI NDVI
Pv NDVI NDVI
=
(1)
Do ca c lơ p dư liê 󰈨u đa󰈚 u va o đươ󰈨 c xây dư󰈨 ng tư
ca c nguo󰈚 n kha c nhau vơ i thang đo không tho󰈘 ng
nha󰈘 t, đê󰈜 co thê󰈜 đưa va o mô hinh dư󰈨 ba o, tt c c
lơ p dư liê 󰈨u na y đưc chuyển đổi sang định dng
raster vơ i độ phân gii 10 m (phu hơ󰈨 p vơ i đo 󰈨 phân
gia󰈖 i không gian cu󰈖 a a󰈖 nh Sentinel 2 MSI). Tiếp theo,
ca c lơ p dư liê 󰈨u được chun hóa vê󰈚 phm vi [0÷1]
theo công thư c (2) (Dieu và nnk., 2012):
() 0,99 0,01 0,01
( ) ( )
i
v
Fa Min Fa
NMax Fa Min Fa
= +
(2)
Trong đó: Fai - giá tr ca h s đưc xem t,
Min(Fa) Max(Fa) giá tr ti thiu giá tr ti
đa của h s đưc xem t; Nv - giá tr nh toán
mi cho h s đưc xemt.
Mư c đo 󰈨 quan tro󰈨 ng cu󰈖 a tư ng yê󰈘 u to󰈘 đa󰈚 u đươ󰈨 c
xa c đi󰈨nh trên sơ󰈖 hê 󰈨 so󰈘 ơng quan arson (hê 󰈨
so󰈘 r). Hê 󰈨 so󰈘 (r) co gia tri󰈨 trong khoa󰈖 ng tư -1÷1,
trong đo gia tri󰈨 r dương thê󰈜 hiê 󰈨n ơng quan
thua 󰈨n, r âm thê󰈜 hiê 󰈨n ơng quan nghi󰈨ch. Trong
nghn cư u na y, hê 󰈨 so󰈘 r đươ󰈨 c xa c đi󰈨nh ba󰈢 ng pha󰈚 n
mê󰈚 m QGIS 2.18.
b) La chn thut ton hc my
Đê󰈜 dư󰈨 ba o nguy cha y rư ng khu vư󰈨 c phia y
ti󰈖nh Nghê 󰈨 An tư bo 󰈨 dư liê 󰈨u đa󰈚 u va o bao go󰈚 m chín
yê󰈘 u to󰈘 , trong ba i ba o thư󰈖 nghiê 󰈨m vơ i mo 󰈨t so󰈘 thua 󰈨t
toa n ho󰈨 c ma y thông dng như Random Fost
(RF), Support Vector Machine (S SVM VM) va
Gradient Tree Boosting (GTB).
Random Forest
RF là mt thut toán hc y giám sát
đưc s dng ph biến trong hi quy phân loi,
đồng thi to ra kết qu phân loi tt ngay c khi
kng điu chnh b siêu tham s. RF hoa󰈨 t đo 󰈨ng
tn sơ󰈖 y dng nhiê󰈚 u y quyết định
(decision tree) trên các mu hua󰈘 n luyê 󰈨n, mi y
quyết định s khác nhau (có yếu t random).
c tiếp theo, đo󰈘 i vơ i mi cây quyết định s đi t
tn xung theo các nu t điu kiện đ đưcc d
đoán, sau đó kết qu cuối cùng đưc tng hp t
kết qu ca các cây quyết định. Như va 󰈨y, RF la󰈘 y
nga󰈞 u nhiên dư liê 󰈨u va thuo 󰈨c tinh đê󰈜 xây dư󰈨 ng cây
quyê󰈘 t đi󰈨nh (Breiman, 2001).
Gradient Tree Boosting
GTB mt thut toán hc máy kết hp sc
mnh ca y quyết định vi k thut ti ưu a
gim dần độ dc. Đây là một thut toán linh hot
và mnh m đưc s dng rng i cho c ba i toa n
pn loi và hi quy (Friedman, 2001).
GTB hoạt động bng ch y dng mt tp
hp c y quyết định, trong đó mỗi cây được
hun luyện để ci thin d đoán của c cây trước
đó. Thuật toán s dng k thut tối ưu hóa giảm
độ dc để gim thiu m mất t, đây thước
đo sai s gia g tr d đoán và giá tr thc.
V mt toán hc, gi s X và Y lần lượt là đu
vào mc tu ca N mu. Nghiên cu cn xây
dng mt m f(x) ánh x c đặc trưng đu vào X
ti c biến mc tiêu y. m mt mát đưc c
định s kc bit gia c biến thc tế và d
đoán theo ng thư c (3) (Friedman, 2001; Sharma
and Ghosh, 2023):