T
P CHÍ KHOA HC
T
NG ĐI HC SƯ PHM TP H CHÍ MINH
Tp 22, S 2 (2025): 224-234
HO CHI MINH CITY UNIVERSITY OF EDUCATION
JOURNAL OF SCIENCE
Vol. 22, No. 2 (2025): 224-234
ISSN:
2734-9918
Websit
e: https://journal.hcmue.edu.vn https://doi.org/10.54607/hcmue.js.22.2.4347(2025)
224
Bài báo nghiên cứu1
MÔ HÌNH HC SÂU LONG SHORT-TERM MEMORY
PHÁT HIN TN CÔNG DDOS
Phạm Trọng Huynh
Trường Đại học Tài Nguyên và Môi trường Thành phố Hồ Chí Minh, Việt Nam
Tác giả liên hệ: Phạm Trọng HuynhEmail: pthuynh@hcmunre.edu.vn
Ngày nhn bài: 13-6-2024; ngày nhn bài sa: 11-12-2024; ngày duyt đăng: 23-01-2025
TÓM TẮT
Gần đây, các mối đe dọa tấn công Từ chối dịch vphân tán-Distributed Denial of Service
(DDoS) đang trở nên phức tạp, tinh vi, gây ra thách thức cho các hệ thống bảo vệ thông thường.
Việc phát hiện sớm các dấu hiệu tấn công rất quan trọng, để bảo vệ và chống lại các mối đe dọa tấn
công. Nghiên cứu đề xuất sử dụng mô hình dựa trên thuật Học sâu Mạng bộ nhớ Dài-Ngắn - Long
Short-Term Memory (LSTM). Kĩ thuật LSTM này gồm một số thuật toán lựa chọn và trích xuất đặc
trưng, được tự động cập nhật trong quá trình huấn luyện. Với số lượng dữ liệu nhỏ, LSTM vẫn hoạt
động nhanh và chính xác. Nghiên cứu đã tiến hành thử nghiệm trên tập dữ liệu CICDDoS2019 và
kết quả cho thấy mô hình đạt được các chỉ số hiệu suất như sau: Độ chính xác (Accuracy) đạt 93%,
độ chuẩn xác (Precision) đạt 96%, độ phủ (Recall) đạt 93% và điểm F1 (F1 Score) là 94%. Mục tiêu
của nghiên cứu, đưa ra được một hình có khả năng xử dữ liệu chuỗi lưu trữ thông tin học
được lâu dài. Có thtích hợp hình vào các hệ thống giám sát và bảo mật mạng, cải thiện khả
năng phát hiện phản ứng với các mối đe dọa tấn công mạng ngày càng phức tạp.
Từ khóa: DdoS; học sâu; DoS; LSTM; học máy
1. Giới thiệu
Tốc độ phát triển nhanh chóng của các dịch vụ thông qua mạng Internet như: giao dịch
tài chính ngân hàng, truyền thông, thương mại điện tử, mua sắm, thanh toán trực tuyến,
chăm sóc sức khỏe và giáo dục.
Việc bảo vệ an toàn cho người dùng đang là một thách thức. Hiện có rất nhiều phương
thức tấn công mạng nhằm mục đích phá hoại, trong đó hai phương pháp tấn công bản
nhất vẫn tấn công từ chối dịch vụ (Denial of Service - DoS), tấn công nhằm ngăn chặn
người dùng hợp pháp truy nhập các tài nguyên mạng tấn công từ chối dịch vụ phân tán
(Distributed Denial of Service DDoS) một dạng phát triển hơn của tấn công DoS
(Kumar, 2020). Các phương pháp truyền thống để xác định rủi ro của các cuộc tấn công
DDoS thường có độ chính xác thấp và phản ứng chậm (Dave et al., 2022). Để giải quyết vấn
Cite this article as: Pham Trong Huynh (2025). Long short-term memory deep learning model detecting DdoS
attacks. Ho Chi Minh City University of Education Journal of Science, 22(2), 224-234.
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 2 (2025): 224-234
225
đề này, các chuyên gia an ninh mạng học giả đã đang nghiên cứu sử dụng Máy học -
Machine Learning Học sâu trong việc phát hiện DDoS (Dincalp, 2018). Các phương pháp
ML DL tiềm năng cùng to lớn trong việc phát hiện các cuộc tấn công mạng bởi
chúng khả năng phân loại một cách chính xác hiệu quả hơn (Fadlil, 2017). Hiện nay
các phương pháp như Random Forest (RF), K-Nearest Neighbors (KNN) và Naive Bayes
đang được sử dụng (Zheng et al., 2017). Đối với Học sâu, thường sử dụng các phương pháp
như: Mạng -ron nhân tạo -Artificial Neural Networks (ANN), Mạng -ron sâu -Deep
Neural Network (DNN) Mạng -ron hồi quy-Recurrent Neural Network (RNN)
(Ahanger, 2017). Sau khi khảo sát đánh giá nhiều phương pháp, nghiên cứu quyết định
áp dụng kiến trúc Học sâu Mạng bộ nhớ Dài-Ngắn - Long short-Term Memory (LSTM), để
thực hiện (Zahid et al., 2018). Kiến trúc Học sâu LSTM có thể thu thập được thông tin, dựa
trên tính chất tương quan trong miền thời gian, đây một đặc điểm quan trọng của lưu lượng
DDoS, vì thế LSTM có thể giúp dự đoán hiệu quả lưu lượng mạng. Mục tiêu của bài báo, là
xây dựng một hình kiến trúc Học sâu LSTM đạt được độ chính xác cao hơn so với kĩ
thuật Học máy đã có, trong việc phân loại và dự báo trước các cuộc tấn công DDoS.
Trong thời gian gần đây, các công trình nghiên cứu trên tập dữ liệu mẫu
CICDDoS2019 về dự đoán c cuộc tấn công DDoS cho kết quchính xác khá cao. Mỗi
công trình nghiên cứu ứng dụng một kĩ thuật với những thế mạnh riêng. Trong nghiên cứu
của (Ahuja et al., 2021), kết quả của dự đoán đạt 95% .
2. Đối tượng phương pháp nghiên cứu
Mạng hồi quy (RNN) một dạng mạng -ron được thiết kế để xử dữ liệu theo
chuỗi thời gian (Brunswick, 2021). Ý tưởng chính của RNN sử dụng một bộ nhớ để giữ
lại thông tin từ các bước tính toán trước đó, từ đó thể đưa ra dự đoán chính xác cho các
bước tiếp theo. Kiến trúc của RNN thể được biểu diễn dưới dạng một chuỗi các đơn vị
hồi quy (Zhu et al., 2018). Mỗi đơn vị này kết nối với đơn vị trước đó, tạo thành một chu
trình có hướng. Ở mỗi điểm thời gian, đơn vị hồi quy nhận đầu vào hiện tại, kết hợp nó với
trạng thái ẩn tbước trước đó. Sau đó, đơn vị này tạo ra một đầu ra cập nhật trạng thái
ẩn cho bước thời gian tiếp theo. Quá trình này lặp lại cho mỗi đầu vào trong chuỗi, cho phép
mạng hồi quy thu thập thông tin về các mối quan hệ và mẫu theo thời gian.
Quá trình tính toán của một RNN tại ba bước thời gian liền kề. Tại bước thời gian t,
sau khi nối đầu vào X_t với trạng thái ẩn H_(t-1) tại bước thời gian trước được kết hợp
đưa vào một tầng kết nối đầy đủ với m kích hoạt . Đầu ra của tầng này trạng thái ẩn
H_t, tại bước thời gian t cũng là đầu vào cho tầng đầu ra O_t. Các tham số hình W_xh,
W_hh, cùng với H_t được sử dụng để tính toán trạng thái ẩn H_(t+1) tại bước thời gian tiếp
theo t+1. Quá trình này giúp RNN hiểu và duy trì thông tin quan trọng qua c bước thời
gian, làm cho phù hợp cho các nhiệm vụ đòi hỏi xử chuỗi dữ liệu như dự đoán chuỗi
thời gian. Mô hình kiến trúc RNN như trong Hình 1.
Tạp chí Khoa học Trường ĐHSP TPHCM
Phạm Trọng Huynh
226
Hình 1. Kiến trúc RNN
Để qun lí d liu và đưa d liu vào mô hình, mô hình LSTM s s dng ba cng
được đt tên là cng quên, cổng đầu vào và cổng đầu ra. Các cng này là thành phn chính
ca mô hình LSTM và chu trách nhim cho vic kim soát chung ca mô hình. Cng quên
xác đnh phn nào của thông tin cũ nên loại b da trên trng thái n trước đó và giá trị hin
ti ca d liu đu vào. Cổng đầu vào quyết đnh loi d liu nào đưc phép nhp vào mng
dựa trên thông tin liên quan nên được gii thiu cho LSTM ca mạng, được gi là trng thái
ô nh (cell state). Cổng đầu ra xác đnh trng thái n mi da trên trng thái ô nh đã được
cp nht và giá tr hin ti ca d liệu đầu vào.
Công thc tính toán cho các cng:
𝐹𝐹(𝑡𝑡)=𝜎𝜎(𝑤𝑤𝑓𝑓(𝑡𝑡−1),𝑋𝑋𝑡𝑡+𝑏𝑏𝑓𝑓) (1)
𝐼𝐼(𝑡𝑡)=𝜎𝜎(𝑤𝑤𝑖𝑖��(𝑡𝑡−1),𝑋𝑋𝑡𝑡+𝑏𝑏𝑖𝑖) (2)
𝑂𝑂(𝑡𝑡)=𝜎𝜎(𝑊𝑊0(𝑡𝑡−1),𝑋𝑋𝑡𝑡+𝑏𝑏0) (3)
𝑓𝑓(𝑥𝑥)=1
1𝑎𝑎𝑎𝑎𝑎𝑎 (4)
𝑡𝑡𝑡𝑡𝑡𝑡(𝑥𝑥)=2
1+𝑒𝑒−2𝑎𝑎 1 (5)
𝐶𝐶𝑡𝑡
=tanh(𝑤𝑤𝑐𝑐 ,[𝑡𝑡−1,𝑋𝑋𝑡𝑡]+𝑏𝑏𝑐𝑐) (6)
𝑐𝑐𝑡𝑡=𝐹𝐹𝑡𝑡.𝐶𝐶(𝑡𝑡−1)+𝐼𝐼𝑡𝑡.𝐶𝐶𝑡𝑡
(7)
𝑡𝑡=𝑂𝑂𝑡𝑡.𝑡𝑡𝑡𝑡𝑡𝑡(𝐶𝐶𝑡𝑡) (8)
trong đó:
(𝑡𝑡−1) là trng thái n trước đó, 𝑥𝑥(𝑡𝑡) là giá tr hin ti ca d liệu đầu vào, 𝐹𝐹(𝑡𝑡), 𝐼𝐼(𝑡𝑡)
𝑂𝑂(𝑡𝑡) lần lượt là giá tr ca các cổng quên, đầu o đầu ra, và W và b là các trng s
bias tương ứng (1). Hàm sigmoid (σ) được s dng đ ly thông tin t đu vào gn nhất cũng
như lớp n trước đó. Phạm vi ca hàm sigmoid (σ) dao đng t 0 đến 1 và phm vi ca hàm
tanh dao động t -1 đến 1. Nếu giá tr ca hàm sigmoid gn bng 1 thì nó gi li d liu, còn
nếu gn bng 0 thì nó loi b d liu. Mô hình kiến trúc LSTM như trong Hình 2.
Hình 2. Kiến trúc LSTM
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 2 (2025): 224-234
227
3. Kết quả và thảo luận
3.1. Môi trường thử nghiệm
Trong th nghiệm này đưc chy trên Python phiên bn 3.9 cùng vi các thư vin hc
máy như Tensorflow Sklearn và các thư viện h tr khác. Máy tính được s dng có b
vi x lí 8 nhân và 16 lung, vi b nh RAM 32GB. Ngoài ra, cũng sử dng GPU đ tăng
tc đ tính toán, vi GPU NVIDIA GeForce RTX 3080.
3.2. Bộ dữ liệu
Trong nghiên cu này s dng tp d liu mu CICDDoS2019. B d liu “DDoS
Evaluation Dataset (CICDDoS2019)” được Vin An ninh mng Canada công b vào ngày
31 tháng 10 năm 2019, bộ d liu có 225.745 mu và 85 cột được lưu dưới đnh dng CSV,
b d liu này cung cp mt tp hợp đa dạng các thông tin v các loi lưu ng mng và
các biu hin ca cuc tn công (cic/datasets/ddos-2019). Có nhiu nghiên cứu đã được trin
khai trên tp d liu này vi nhng khía cạnh khác thác khác nhau, trong đó có một s
hình hc máy như Mạng Nơron tích chập -CNNs (Doriguzzi-Corin., 2020), đt đưc kết qu
nhất định. Tuy vy, d liu ca các cuc tấn công DDoS dưới dng chui thi gian liên tc,
vic áp dng mô hình CNNs s không hiu qu. Vì mô hình này không ti ưu hóa cho d
liu tun tự, thường gây mt thông tin v th t thi gian do các phép gộp. Đặc bit CNNs
s không nm bt tt các mối tương quan dài hạn trong d liu chui thi gian. Ngoài ra khi
s dng CNNs cho chui thi gian, vic tin x lí d liu đ chuyn đổi nó thành định dng
phù hp có th phc tp và tn nhiu thi gian.
Quá trình phân loi d liu đã xác định được 128.027 mu thuc nhóm DDoS và
97.718 mu thuc nhóm BENIGN. S phân phi ca các nhãn trong tp d liệu tương đối
cân bng gia hai nhóm, vi khong 43,3% mẫu được xác đnh là không gây hi và 56,7%
mẫu được xác đnh là tn công DDoS.
Vic cân bng gia các nhãn trong tp d liu là mt yếu t quan trng khi hun luyn
hình. Điều này giúp đm bo rng mô hình không ch hiểu được các cuc tn công mng,
mà còn có kh năng phân biệt chúng vi các hot đng hp pháp mt cách hiu qu. Trong
thc tế có nhiu yếu t ảnh hưởng ti hiu sut ca mô hình dn ti quá trình d đoán chưa
được như kì vọng.
3.3. Trực quan hoá dữ liệu
Vic trc quan hóa s biến đổi ca các đc đim khác nhau theo thi gian trên tp d
liệu, để nhn biết các mu tấn công, thông qua lưu lượng truy cập bình thường và bt thưng.
Bng cách này, có th quan sát s thay đổi ca các biến và hiểu rõ hơn về các xu hướng, chu
kì ca d liu theo thi gian thc. S biến đổi ca các đc đim theo thi gian có th cung
cp thông tin quan trng trong quá trình phân tích d liu và hun luyn mô hình. D liu
theo tng thi đim (timestamp) trên tp d liu DDoS SDN, được trc quan hóa, bng cách
nhóm d liu theo thời điểm (timestamp) và tính s ng dòng trong mi nhóm và hin th
Tạp chí Khoa học Trường ĐHSP TPHCM
Phạm Trọng Huynh
228
dưới dng biu đ để có th quan sát s phân phi ca d liu qua thi gian và nhn biết các
biu hiện đặc bit trong d liu.
Hình 3. Biểu đồ biu din d liu theo tng thi đim
Ngoài ra đ so sánh s ng kết ni ca các cuc tn công DDoScác kết ni không
phi là cuc tn công DDoS (Benign) qua thi gian trên tp d liu, bng cách nhóm các
dòng d liu có nhãn “BENIGN” theo thời điểm và tính s ng trong mi nhóm và hin
th ra i dng biểu đồ, qua đó ta thể nhn biết s biến động ca các cuc tn công và
các hot đng không phi là tn công trong h thng. Nhm h tr vic phát hin sm các
cuc tấn công, đánh giá mức đ ảnh hưởng ca chúng theo thi gian thc.
Hình 4. Biểu đồ th hin s ng các kết ni tấn công và bình thường theo thi gian thc
Trong quá trình phân tích d liệu, đã tiến hành mt lot các công vic đ khám phá
sâu hơn về các đặc điểm và mi quan h gia chúng trong tp d liệu DDoS SDN. Đầu tiên
là đã xác định nhãn phân phi ca các đặc điểm phân loại để hiểu rõ hơn về s phân b ca
chúng trong tp d liệu. Bước tiếp theo tiến hành phân tích và gii thích các thuc tính TCP
flags như PSH, FIN, SYN, RST, ACK, URG ECE, nhằm hiểu được thông điệp và tác
động ca chúng trong mng. Cui cùng, trc quan hóa biến s nhóm theo nhãn trong d liu,
giúp nhn biết s phân b và mi quan h gia các nhãn trong tp d liệu. Qua đó cung cấp
thông tin ca tp d liu mt cách chi tiết, rõ ràng, h tr quá trình phân tích và đưa ra các
quyết định trong quá trình thc thi h thống cũng như bảo mt và qun lí mng.