
Kỷ yếu Hội thảo Khoa học: “An ninh Sinh viên trong thời kỳ Chuyển đổi số”
340
MÔ HÌNH CỘNG TÁC PHÁT HIỆN TẤN CÔNG MẠNG VÀ SĂN
TÌM MỐI ĐE DỌA DỰA TRÊN PHƯƠNG PHÁP HỌC LIÊN KẾT
A FEDERATED LEARNING APPROACH FOR
COLLABORATIVE INTRUSION DETECTION AND
CYBER THREAT HUNTING
Trần Đức Lương, Huỳnh Thái Thi, Nguyễn Hữu Quyền,
Vương Minh Tiến, Ngô Đức Hoàng Sơn
Trường Đại học Công nghệ Thông tin, ĐHQG-HCM
Email: 19521815@gm.uit.edu.vn
THÔNG TIN
TÓM TẮT
Từ khóa:
Trung tâm điều hành an
ninh, phương pháp học liên
kết, trình phát hiện xâm
nhập mạng, săn tìm mối đe
dọa, mạng khả lập trình,
chống tấn công nhiễm độc.
Keywords:
SOC, Federated Learning,
IDS, Threat Hunting, SDN,
anti-poisoning, LOF
Trong bối cảnh các cuộc tấn công có chủ đích ngày
càng trở nên tinh vi, nhu cầu hợp tác giữa các Trung tâm
điều hành an ninh (SOC) ở các doanh nghiệp, tổ chức ngày
càng trở nên cần thiết. Bằng việc tham gia vào quá trình
huấn luyện các trình phát hiện xâm nhập mạng (IDS) theo
phương pháp học liên kết, các tổ chức này có thể tận dụng
các nguồn thông tin dữ liệu phân tán để huấn luyện mô hình
IDS học máy phát hiện các cuộc tấn công mạng mà không
xâm phạm đến quyền riêng tư của tổ chức khác; đồng thời
làm giàu thông tin trong quá trình săn tìm mối đe dọa nhằm
phòng chống các cuộc tấn công 0-day trong tương lai. Bên
cạnh đó, cơ chế chống tấn công nhiễm độc hệ thống học
liên kết cũng được đề xuất trong đề tài. Kết quả thực
nghiệm trên tập dữ liệu Kitsune và triển khai hệ thống làm
giàu thông tin trong môi trường mạng khả lập trình cho thấy
tính khả thi của bộ giải pháp trong quá trình liên kết các
SOC nhằm phát hiện các cuộc tấn công mạng và săn tìm
mối đe dọa.
ABSTRACT
Witnessing the increasing sophistication of
Advanced Persistent Threat (APT), the need for
cooperation among Security Operations Centers (SOCs) is
becoming more and more imperative. Thus, this work
introduces a federated learning (FL) approach for intrusion
detection systems (IDS) and cyber threat hunting in the

Kỷ yếu Hội thảo Khoa học: “An ninh Sinh viên trong thời kỳ Chuyển đổi số”
341
context of SOC by leveraging the data privacy assurance
from collaborative parties. Not only do these SOC teams
take advantage of distributed data sources in training
machine learning-based IDS (ML-based IDS), but they also
enrich the outcome of ML-based IDS in recognizing
malicious indicators and the threat hunting process.
Additionally, an anti-poisoning mechanism called Local
Outlier Factor (LOF) is carried out in order to prevent
poisoning attacks against our FL-based system. The
experiment results on the Kitsune dataset and the
implementation of a knowledge enrichment system in a
Software Defined Network (SDN) context have
demonstrated the feasibility of the proposed architecture in
detecting and hunting network-based threats by
collaborative SOC teams.
TỔNG QUAN
Trong những năm gần đây, săn tìm mối đe dọa (Threat Hunting) đang được sử
dụng rộng rãi bởi các tổ chức SOC trong việc đảm bảo sự an toàn của hệ thống trước
các cuộc tấn công APT. Tuy nhiên, đây là một quá trình phụ thuộc nhiều vào kinh
nghiệm, công sức và thời gian của các chuyên gia. Trong khi đó, nhiều nhà nghiên cứu
đã tiến hành nghiên cứu các giải pháp săn tìm chủ động kết hợp với trí tuệ nhân tạo
(Artificial Intelligence - AI) mà đặc biệt là hệ thống IDS sử dụng AI. Mặt khác, dữ liệu
đầu ra của các hệ thống này thường không phù hợp cho quá trình Theat Hunting nên cần
được làm giàu một cách tự động để tăng cường hiệu quả cho cuộc săn tìm. Vì thế, việc
thiết kế một hệ thống có khả năng làm giàu thông tin [1] cho các hệ thống IDS sử dụng
AI là hết sức cần thiết.
Mặt khác, các mô hình IDS này cũng đòi hỏi khối lượng dữ liệu rất lớn dẫn đến
các quan ngại về tính riêng tư của dữ liệu trong quá trình thu thập. Bên cạnh đó, việc sử
dụng dữ liệu nội tại của tổ chức hoặc các nguồn dữ liệu được chia sẻ là không đủ để
huấn luyện tốt các mô hình IDS nhằm phát hiện các dạng tấn công tinh vi mới. Trong
bối cảnh đó, phương pháp học liên kết [2] xuất hiện như một giải pháp đầy hứa hẹn để
xây dựng mô hình học cộng tác phát hiện tấn công mạng, cho phép các tổ chức cùng
nhau huấn luyện mà vẫn đảm bảo quyền riêng tư giữa các chủ sở hữu dữ liệu. Mặc dù
vậy, phương pháp học liên kết vẫn tồn tại một số lỗ hổng khi mà nó có thể bị tấn công
đầu độc (poisoning attack) bởi các tổ chức không thiện chí. Để khắc phục điều đó, nhóm
đề xuất giải pháp phòng chống tấn công đầu độc (anti-poisoning) [3] sử dụng thuật toán

Kỷ yếu Hội thảo Khoa học: “An ninh Sinh viên trong thời kỳ Chuyển đổi số”
342
LOF nhằm xác thực các cập nhật cục bộ trước khi tổng hợp thành mô hình toàn cục
hoàn chỉnh.
PHƯƠNG PHÁP NGHIÊN CỨU
Hệ thống huấn luyện mô hình IDS máy học dựa trên phương pháp học liên
kết với cơ chế anti-poisoning
Trong mô hình tổng quan được đề xuất, từng trung tâm SOC tham gia vào quá
trình huấn luyện liên kết được xem như một vùng (zone). Trong mỗi vùng, hệ thống IDS
sẽ đóng vai trò giao tiếp trực tiếp với máy chủ FL trung tâm và cũng là nơi thực hiện
quá trình huấn luyện cục bộ (local training). Ngoài ra, cơ chế anti-poisoning sẽ được áp
dụng nhằm kiểm tra các mô hình cục bộ trước khi được tổng hợp vào mô hình chung.
Các mô hình cục bộ sẽ được xác định là Outlier hay không dựa vào điểm lân cận (Score)
được tính bởi thuật toán LOF.
Hình 1: Mô hình tổng quan
Hệ thống tự động phát hiện tấn công mạng và làm giàu thông tin phục vụ săn
tìm mối đe dọa.
Hệ thống IDS sau khi được huấn luyện thông qua học liên kết sẽ được sử dụng trong
hệ thống tự động phát hiện tấn công mạng và làm giàu thông tin (zone model trong Hình 1).
Cách thức hoạt động của nó được mô tả như sau: Đầu tiên, các dữ liệu mạng đươc từ mạng
SDN sẽ được thu thập, chuẩn hóa và lưu trữ bởi SIEM. Sau đó, dữ liệu từ nơi lưu trữ được
chuyển tiếp đến hệ thống tiền xử lý và làm giàu thông tin (Data preprocessing and enrichment
system - DPE). Ở đây, các thuộc tính cần thiết cho quá trình huấn luyện các trình phát hiện
xâm nhập sẽ được trích xuất và gửi đến hệ thống IDS. Đồng thời, hệ thống DPE cũng sẽ thực
hiện trích xuất các thông tin làm giàu từ cả dữ liệu nội tại của tổ chức SOC và dữ liệu được
chia sẻ ngoài cộng đồng thông qua hệ thống CTI. Cuối cùng, kết quả dự đoán từ hệ thống
IDS và thông tin làm giàu sẽ được lưu lại dưới dạng log. Sau đó, log này sẽ được thu thập,
phân tích và sử dụng bởi hệ thống SIEM nhằm phục vụ cho quá trình săn tìm mối đe dọa.

Kỷ yếu Hội thảo Khoa học: “An ninh Sinh viên trong thời kỳ Chuyển đổi số”
343
KẾT QUẢ THỰC NGHIỆM
Độ hiệu quả của giải pháp anti-poisoning bằng LOF
Để xem ảnh hưởng của các tấn công đầu độc lên phương pháp học liên kết với mô
hình đề xuất, chúng tôi tiến hành thực hiện hai cuộc tấn công: tấn công lật nhãn và tấn công
bằng mô hình mạng sinh đối kháng trên zone thứ hai kể từ lần cập nhật thứ năm trở đi. Kết
quả ở Hình 2 cho thấy Accuracy của mô hình cộng tác giảm đáng kể xuống còn mức xấp xỉ
40% khi bị tấn công đầu độc. Tuy nhiên, bằng việc ứng dụng cơ chế xác thực bằng LOF để
loại bỏ các thành phần tấn công, hiệu quả của mô hình đã được hồi phục và ổn định ở ngưỡng
99% đối với Accuracy. Kết quả này một phần đã chứng minh tính hiệu quả của giải pháp
anti-poisoning nhằm mang lại tính bảo mật và chính xác cho quá trình huấn luyện mô hình
phát hiện tấn công mạng trong thực tế.
Hình 2: Kết quả chống tấn công đầu độc bằng LOF
Xây dựng hệ thống phát hiện và làm giàu thông tin của trung tâm SOC phục
vụ săn tìm mối đe doạ
Hệ thống phát hiện bất thường và làm giàu thông tin được chúng tôi triển khai
theo mô hình của một SOC zone tại Hình 1. Mạng SDN được triển khai sử dụng
Containernet. Đối với SIEM, chúng tôi ứng dụng các công cụ mã nguồn mở Wazuh
cùng với ELK stack. Ngoài ra, chúng tôi đã viết một chương trình để hiện thực hệ thống
DPE. Trong mạng SDN, chúng tôi thực hiện tấn công DOS từ một máy có IP là 10.0.0.1
đến một máy khác trong mạng có IP là 10.0.0.4. Ngay sau đó, hệ thống săn tìm đã phát
hiện và trực quan hóa cuộc tấn công như
Hình 3.
Hình 3: Log tại các trung tâm SOC khi phát hiện cuộc tấn công kèm theo thông tin làm giàu
KẾT LUẬN

Kỷ yếu Hội thảo Khoa học: “An ninh Sinh viên trong thời kỳ Chuyển đổi số”
344
Đề tài đã đề xuất một bộ khung giải pháp an toàn ứng dụng FL trong quá trình
phát hiện tấn công và săn tìm mối đe dọa. So với các mô hình săn tìm mối đe dọa trước,
chúng tôi đã ứng dụng học liên kết trong việc huấn luyện các hệ thống IDS máy học
nhằm phục vụ săn tìm mối đe dọa trên mạng. Tuy nhiên, mô hình đề xuất còn tồn tại
một số hạn chế như: xác thực mô hình chưa phi tập trung, độ trễ khi truy vấn dữ liệu
trong quá trình làm giàu thông tin, chưa có cơ chế khuyến khích, …
TÀI LIỆU THAM KHẢO
[1]
H. T. Thi, N. D. H. Son, P. T. Duy and P. Van-Hau, "Federated learning-based cyber threat
hunting forAPT attack detection in SDN-enabled networks," in 21st International
Symposium on Communications and Information Technologies (ISCIT 2022),
Xi'an, China, 2022.
[2]
T. D. Luong, V. M. Tien, H. T. Anh, N. V. Luyen, N. C. Vy, P. T. Duy and P. Van-Hau,
"FedChain: A Collaborative Framework for Building Artificial Intelligence Models
using Blockchain and Federated Learning," in 2021 8th NAFOSTED Conference
on Information and Computer Science (NICS), 2021.
[3]
N. C. Vy, N. H. Quyen, P. T. Duy and P. Van-Hau, "Federated Learning-Based Intrusion
Detection in the Context of IIoT Networks: Poisoning Attack and Defense," in
Network and System Security (NSS 2021), 2021.

