TP CHÍ KHOA HC VÀ CÔNG NGH NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LC
(ISSN: 1859 - 4557)
S 37 1
PHÂN TÍCH NH HƯỞNG CÁC SIÊU THAM S CỦA HÌNH LIGHTGBM ĐN
DO CÔNG SUT ĐIN MT TRI
ANALYSIS OF THE IMPACT OF HYPERPARAMETERS OF LIGHTGBM MODEL ON
SOLAR POWER FORECASTING
Phm Mnh Hi(1*), Nguyn Tun Anh(1), Vũ Minh Pháp(1,2), Nguyn Ngc Trung(1), Vũ Thị Anh
Thơ(1), Nguyn Hu Nguyn(3), Đỗ Quang Hip(4), Nguyn Đc Quang(1)
1Trường Đại học Đin lc, 2Vin Khoa hc ng ngh Năng lượng Môi trường-Vin n lâm Khoa hc và
Công ngh Vit Nam, 3Trường Đi hc ng Ngh Đông Á, 4Trường Đi hc Kinh tế - K thutng nghip
*Tác gi liên h: haipm@epu.edu.vn
Ngày nhn bài: 18/02/2025, Ngày chp nhận đăng: 20/04/2025, Phn bin: PGS.TS Đỗ Như Ý
Tóm tt:
Bài o này trình bày nghiên cu v ảnh ng ca mt s siêu tham s trong hình
LightGBM đến độ chính xác do công suất phát điện mt tri. Các siêu tham s đưc xem xét bao
gm s tối đa của cây quyết định (num_leaves), tc độ hc (learning_rate) s ng cây hc
(n_estimators). Mười kch bn vi các t hp siêu tham s khác nhau đã được thc hin so sánh
da trên các ch s sai số: RMSE, MAPE, NMAPE, cũng như thi gian hun luyn d báo. Kết qu
cho thy việc điều chnh các tham s này ci thin hiu sut d o ca hình, th hin qua
gim nh các sai s d o d MAPE gim t 90,67% xung còn 82,94% khi tăng num_leaves t
30 lên 60. Tuy nhiên, mc ci thiện không đáng kể, các ch s sai s ch thay đổi trong biên đ nh
gia các kch bn. Điều này cho thy hình LightGBM khá bn vng vi các siêu tham s trong
phm vi th nghim, và vic tinh chnh va phi các giá tr num_leaves, learning_rate, n_estimators
không đem lại thay đổi đột biến v độ chính xác d báo.
T khóa:
LightGBM, d báo năng lượng mt tri, siêu tham s, num_leaves, learning_rate, n_estimators, hiu
sut mô hình.
Abstract:
This paper presents a study on the impact of certain hyperparameters in the LightGBM model
on solar power generation forecasting accuracy. The considered hyperparameters include the
maximum number of leaves in decision trees (num_leaves), learning rate (learning_rate), and the
number of boosting rounds (n_estimators). Ten scenarios with different combinations of these
hyperparameters were implemented and compared based on error metrics: RMSE, MAPE, and NMAPE,
as well as training and inference time. The results show that adjusting these parameters could improve
the forecasting performance of the model, as reflected in a slight reduction in forecasting errors for
instance, the MAPE decreased from 90.67% to 82.94% when increasing num_leaves from 30 to 60.
However, the improvements are insignificant, the error metrics only vary within a narrow range across
scenarios. This indicates that the LightGBM model is relatively robust to changes in hyperparameters
within the tested range, and moderate tuning of num_leaves, learning_rate, and n_estimators does
not lead to dramatic changes in forecasting accuracy.
Keywords:
TP CHÍ KHOA HC VÀ CÔNG NGH NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LC
(ISSN: 1859 - 4557)
2 S 37
LightGBM algorithm, photovoltaic power prediction, model hyperparameters, num_leaves,
learning_rate, n_estimators, predictive performance.
KÝ HIU:
RMSE: sai s trung bình bình phương
MAPE: sai s phần trăm tuyệt đối trung
bình
NMAPE: sai s phần trăm đã chuẩn hóa
LightGBM: thut toán hc máy Light
Gradient Boosting Machine
CatBoost: thut toán Categorical Boosting
KNN: thut toán K-Nearest Neighbors
SHAP: phương pháp SHapley Additive
exPlanations
SVR: Hi quy vector h tr
1. GII THIU CHUNG
Năng lượng mt tri nguồn năng lượng
tái to quan trọng, nhưng công suất phát
điện mt tri biến động mnh do ph thuc
thi tiết [1]. Do đó, dự báo công sut điện
mt trời chính xác đóng vai trò then chốt
trong vn hành h thống điện thông minh
ổn định lưới điện [2]. Trong những năm
gần đây, các phương pháp học máy
(machine learning) đã được áp dng rng
rãi cho bài toán d báo năng lượng mt tri
nh kh năng mô hình hóa các quan hệ phi
tuyến gia các biến đầu vào sản lượng
điện. Đặc biệt, các mô hình ensemble như
rng ngu nhiên (Random Forest) và thut
toán gradient boosting đã cho thy hiu
qu cao trong d báo năng ng tái to
[3]. LightGBM mt thut toán gradient
boosting trên cây quyết định do Microsoft
phát trin [4], ni bt nh tốc độ hun
luyn nhanh hiu qu cao so với các thư
viện boosting trước đó. LightGBM s
dng chiến lược tăng trưởng cây theo
(leaf-wise) thay theo độ sâu, giúp gim
thi gian hun luyện nhưng nguy quá
khp (overfitting) nếu không điều chnh
tham s phù hp. Nhiu nghiên cứu đã áp
dng LightGBM trong d báo ph ti
năng lượng, cho kết qu kh quan [5].
d Hanif cng s cho thy LightGBM
hình mạnh trong đánh giá ảnh hưởng
các yếu t môi trường đến bc x mt tri,
vượt trội hơn hình SVR trong thí
nghim ca h [3]. Ti Vit Nam nhóm
nghiên cu ca Nguyn Hữu Nam đã so
sánh hiu sut ca các thuật toán như
LightGBM, CatBoost, KNN, đồng thi
s dụng SHAP để xác định độ quan trng
ca các yếu t đầu vào, cho thy nhiệt độ
độ m vai trò quyết định trong d báo
công sut [5]. Bên cạnh đó, Nguyễn khánh
toàn cũng chỉ ra rng vic s dng giá tr
mặc định ca các siêu tham s th gây
sai lch ln trong d báo ph tải, do đó cần
thiết phi phân tích ảnh hưởng ca chúng
đến hiu sut mô hình [6]. Tuy nhiên, hiu
năng của LightGBM ph thuc vào vic
la chn b tham s siêu
(hyperparameters) thích hp. Các tham s
quan trng nht trong LightGBM bao gm:
s cây quyết định (num_leaves), tốc độ
hc (learning_rate) và s ng cây (vòng
lp boosting- n_estimators). Vic tinh
chnh các tham s này có th ảnh hưởng
lớn đến độ chính xác ca hình; s dng
TP CHÍ KHOA HC VÀ CÔNG NGH NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LC
(ISSN: 1859 - 4557)
S 37 3
các giá tr mặc định th dẫn đến sai s
d báo ln trong mt s trường hp. Do đó,
nghiên cu ảnh hưởng ca các siêu tham
s ti kết qu d báo cn thiết nhm ti
ưu hóa mô hình [6].
Trong bài báo này, nhóm tác gi thc hin
phân tích định lượng tác động ca scây
quyết định, tốc độ hc s ng vòng
lp boosting đến chất lượng d báo công
sut ca hình LightGBM. Mc tiêu
đánh giá mức độ ci thin hiu sut khi
thay đổi các tham s này trong mt phm
vi nhất định, qua đó xác định liu vic tinh
chnh có thc s đem lại hiu qu đáng k
hay không. Tuy đã mt s nghiên cu
phân tích ảnh hưởng siêu tham s [5] [6],
nhưng đa phần tp trung vào hình d
báo ph ti hoặc đánh giá từng tham s
riêng l. Ít nghiên cu thc hiện đánh giá
h thống tác động phi hp ca nhóm
siêu tham s chính lên bài toán d báo công
suất phát điện mt tri ti Việt Nam. Đây
điểm mới bài báo này hướng đến.
Nội dung bài báo được cấu trúc như sau:
Phn 1 gii thiu v ảnh hưởng ca các
siêu tham s trong hình LightGBM
trong d báo công suất phát điện mt tri.
Phn 2 t phương pháp nghiên cứu, bao
gm mô hình LightGBM, các tham s siêu
b ch s đánh giá. Phần 3 trình bày thiết
kế thc nghim kết qu thu được t 10
kch bn tham s khác nhau, kèm theo
phân tích chi tiết. Phần 4 đưa ra kết lun v
ảnh hưởng ca các tham s siêu đối vi
hình LightGBM trong bài toán d báo
công suất điện mt tri.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. hình LightGBM các siêu
tham s chính
LightGBM hình hc máy thuc
nhóm gradient boosting, kết hp nhiu cây
quyết định để ci thin dần độ chính xác d
báo [4]. Mi cây mới được xây dng trên
phn sai s còn li ca hình hin ti,
vi trng s học được điều chnh bi tc
độ hc. Nh chiến lược xây dng cây theo
lá, LightGBM đạt tốc độ hun luyn và d
báo nhanh, đặc bit trên các tp d liu ln,
đồng thời duy trì được độ chính xác cao.
Trong hình LightGBM, ba tham s
siêu quan trng ảnh ng trc tiếp đến
cu trúc mô hình kh năng học ca thut
toán:
num_leaves: Trong LightGBM, mt
trong nhng siêu tham s quan trng nht
num_leaves, đi din cho s ng lá ti
đa mỗi cây quyết đnh trong hình
th đạt được. Tham s này ảnh hưởng
trc tiếp đến độ phc tp ca cây: s
càng ln, cây càng kh năng biểu din
các mi quan h phi tuyến phc tạp hơn
trong d liu. Tuy nhiên, nếu num_leaves
được đặt quá cao so với quy mô và tính đa
dng ca tp d liu, hình th ghi
nh quá chi tiết đặc điểm ca d liu hun
luyn, dẫn đến hiện ng quá khp
gim hiu qu tng quát hóa trên d liu
mi [6]. Do đó, lựa chn giá tr
num_leaves phù hp yếu t then cht
giúp cân bng giữa độ chính xácđộ đơn
gin ca hình. Trong thc tiễn, người
dùng thường xác định num_leaves da trên
kinh nghim, th nghim lp li hoc s
dng k thut tối ưu hóa siêu tham số để
tìm được giá tr tt nht trong phm vi cho
phép.
TP CHÍ KHOA HC VÀ CÔNG NGH NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LC
(ISSN: 1859 - 4557)
4 S 37
learning_rate: Tốc độ hc (h s bước
ca thut toán boosting). Learning rate
quyết định mức độ điều chnh hình
mi vòng boosting: learning rate nh giúp
hình hc dn dn th đạt độ chính
xác cao hơn, nhưng cần s vòng lp (cây)
nhiều hơn; ngược li learning rate ln giúp
hi t nhanh nhưng dễ b qua các mu
phc tp, th dẫn đến sai s lớn hơn.
Thông thường quan h tr: gim
learning rate đồng thi phải tăng số ng
cây để duy trì kh năng học [7].
n_estimators: S ng cây quyết đnh
(s vòng lp boosting) trong hình.
Tham s này quy định hình gm bao
nhiêu cây được hun luyn ni tiếp. S cây
quá ít th khiến hình chưa học đủ
(underfitting), trong khi quá nhiu cây
th gây quá khp nếu learning rate không
được giảm đủ thp. Thông thường, người
ta kết hợp điều chnh n_estimators
learning_rate đồng thời để đạt độ chính xác
cao trong thi gian hun luyn hp lý.
Ngoài ra, LightGBM còn nhiu tham s
siêu khác (ví d: min_data_in_leaf,
max_depth, feature_fraction…) cũng nh
hưởng đến quá trình hun luyn. Tuy nhiên
trong phm vi nghiên cu này, để đảm bo
tính tp trung gii hn phm vi th
nghim, bài báo ch tp trung vào ba siêu
tham s được đánh giá ảnh hưởng ln
nhất đến hiệu năng hình. Các tham số
ph được c định giá tr mặc định. Vic
m rng phân tích các tham s này s
định hướng trong các nghiên cu tiếp theo.
2.2. Thiết kế thc nghim và b d liu
Để phân tích ảnh hưởng ca các siêu tham
s, chúng tôi s dng b d liu thc tế t
một nhà máy điện mt tri ti tnh Thanh
Hóa vi công sut lắp đặt 30 MW. D liu
hun luyện được thu thp trong khong
thi gian t ngày 01/01/2024 đến
30/12/2024, bao gm công suất phát điện
thc tế theo thi gian cùng các thông tin
thi tiết như bức x mt tri, nhiệt độ
không khí tháng trong năm. Bộ d liu
này được chia thành hai phn: tp hun
luyện (80%) dùng để xây dng mô hình
tp kiểm tra (20%) dùng đ đánh giá hiu
sut mô hình sau hun luyn. Ngoài ra,
hình còn được áp dụng đ d báo trên mt
tp d liu được tách bit khi tp hun
luyn tp kim tra nhằm đảm bo tính
khách quan, tp d liu d báo bao gm 24
ngày được chn ngu nhiên (mi tháng ly
2 ngày liên tiếp) trong năm 2024, mục đích
ca vic này nhằm đánh giá kh năng
tng quát hóa ca mô hình LightGBM trên
d liệu chưa được hun luyn.
hình LightGBM đưc hun luyn trên
tp hun luyn vi mt t hp tham s siêu
nhất định. Sau đó, ta ghi nhn các ch s
sai s trên tp kiểm tra và trên giai đoạn d
báo tương lai. Trong nghiên cứu này,
chúng tôi xác định 10 kch bn siêu tham
s khác nhau như sau:
Kch bản 1 (S1) đóng vai trò mốc tham
chiếu, s dng các giá tr tương đối cơ bản:
num_leaves= 30, learning_rate= 0,05;
n_estimators=100. T đó, các kịch bn tiếp
theo thay đi lần lượt tng tham s hoc
kết hợp để quan sát xu hướng kết qu.
S2, S3 tăng dần num_leaves (60 90)
so vi S1 (gi nguyên learning_rate= 0,05;
n_estimators=100).
S4 tăng nhẹ n_estimators lên 150 (và
num_leaves=120 trung bình).
TP CHÍ KHOA HC VÀ CÔNG NGH NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LC
(ISSN: 1859 - 4557)
S 37 5
S5, S6, S7 tiếp tục tăng num_leaves
(150, 180, 210) c định n_estimators=
200 (cao hơn S1) nhằm đánh giá nh
hưởng khi mô hình phc tp dn.
S8 th gim mnh learning_rate xung
0,01 đồng thời tăng nhiều n_estimators
(500) num_leaves (240) để xem kh
năng cải thin khi nh hc chậm hơn
nhưng lâu hơn.
S9 th tăng learning_rate lên 0,1 (cao
hơn mặc định) gim s cây (100) vi
num_leaves khá cao (270) đ kim tra
trường hp hc nhanh.
S10 s dng learning_rate=0,07,
num_leaves=300, n_estimators=300 như
mt cu hình kết hợp tương đối ln ca c
ba tham s.
Mười kch bản này được thiết kế nhm bao
quát các t hợp đại din cho tng xu
hướng: tăng độ phc tp dn, hc nhanh,
hc chm, kết hp nhiu yếu t. S
ng kch bản được chn da trên gii
hn tính toán thc tế mức độ đại din
cn thiết để đánh giá xu hướng.
Tt c các hình đều được hun luyn
trên cùng mt tp d liệu và được đánh giá
trên cùng tp do để đảm bo tính công
bng khi so sánh.
2.3. Các ch s đánh giá
Hiu suất mô hình được đánh giá bằng các
ch s sai s ph biến trong d báo thi
gian thc: RMSE, MAPE NMAPE. C
th:
RMSE (Root Mean Square Error) là sai
s trung bình bình phương nhn mnh các
sai s ln do lấy bình phương trước khi
trung bình. Công thức tính RMSE như sau
[8]:
RMSE=1n∑(yiyi)2
n
i=1
(1)
Trong đó: yi công sut d báo (kW), yi
công sut thc tế (kW), n s ng
điểm d liu.
MAPE (Mean Absolute Percentage
Error): sai s tuyệt đối trung bình phn
trăm th hin sai s trung bình tương đối
so vi giá tr thc (%). Công thc tính
MAPE như sau [9]:
MAPE=1n|yiyi
yi|
𝑛
𝑖=1 ×100
(2)
Trong đó: MAPE sai số tuyệt đối phn
trăm trung bình %, yi giá tr d báo ca
công sut phát d báo th i (kW), yi là giá
tr công sut trong thc tế th i (kW), n
s ợng điểm d liu.
MAPE cho biết d báo sai lch bao nhiêu
phần trăm so với thc tế, nhưng nhược
điểm không xác định khi d b nh
hưởng ln khi rt nh.
NMAPE (Normalized MAPE MAPE
được chuẩn a): để khc phc hn chế ca
MAPE tại điểm d liu gn 0, ta chun hóa
sai s tuyệt đối so vi mt giá tr đặc trưng
(thường là công suất định mc hoc giá tr
ln nht ca công sut thc tế). Trong bài
báo, NMAPE được tính bng cách chia cho
công suất định mc ca h thng ri nhân
100%. Công thức tính NMAPE như sau
[10]: