Công nghệ thông tin<br />
<br />
MÔ HÌNH HỆ THỐNG PHÁT HIỆN BẤT THƯỜNG SỬ DỤNG<br />
THUẬT TOÁN PHÂN CỤM MỜ LAI GHÉP<br />
Vũ Đặng Giang1, Nguyễn Duy Thái1, Phạm Văn Nhã2*<br />
Tóm tắt: Tấn công và phòng thủ hệ thống mạng đang thu hút sự quan tâm của<br />
các nhà nghiên cứu. Các hệ thống này luôn trở thành mục tiêu ưu tiên hàng đầu của<br />
các cuộc tấn công trái phép. Vì vậy, việc củng cố hệ thống phòng thủ để có thể phát<br />
hiện xâm nhập bất thường từ bên trong và bên ngoài mạng là rất cần thiết và<br />
thường xuyên. Trong bài báo này, chúng tôi đã đề xuất Mô hình hệ thống phát hiện<br />
xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép giữa thuật toán<br />
FCM, PSO và SVM. Thực nghiệm đã được tiến hành trên bộ dữ liệu chuẩn mẫu<br />
KDD CUP ‘99. Kết quả thực nghiệm đã chứng tỏ mô hình đã đề xuất đạt được hiệu<br />
suất vượt trội so với các mô hình đã được đề xuất trước đó.<br />
Từ khóa: Phát hiện bất thường, Phân cụm mờ, Tối ưu bầy đàn, Máy vector hỗ trợ.<br />
<br />
Ký hiệu<br />
Ký hiệu Ý nghĩa<br />
U={uci} Ma trận hàm thuộc<br />
JFCM Hàm mục tiêu FCM<br />
Pc Tâm cụm<br />
Dci Khoảng cách dữ liệu giữa đối tượng thứ c và đối tượng thứ i<br />
Chữ viết tắt<br />
IDS Intrusion Detection Systems<br />
PSO Particle Swarm Optimization<br />
SVM Support Vector Machine<br />
GA Genetic Algorithms<br />
ANN Artificial Neural Network<br />
FCM Fuzzy clustering<br />
<br />
1. GIỚI THIỆU CHUNG<br />
Phát hiện xâm nhập ngày càng thu hút sự quan tâm của các nhà nghiên cứu.<br />
Hơn nữa đối với các vấn đề chứng thực người dùng truyền thống, mã hóa thông<br />
tin, tường lửa và một số công nghệ bảo vệ mạng khác, phát hiện xâm nhập được sử<br />
dụng để xác định và phân loại các cuộc tấn công trên mạng máy tính, máy chủ và<br />
máy chủ mạng. Nó có thể phát hiện các cuộc tấn công độc hại mà các phương pháp<br />
phòng thủ truyền thống không xác định được. Như vậy, nó đóng một vai trò quan<br />
trọng trong quá trình quản lý bảo mật dịch vụ Web và an toàn xử lý dữ liệu. Phát<br />
<br />
<br />
18 V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện… phân cụm mờ lai ghép.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
hiện xâm nhập nói chung được chia thành hai loại: phát hiện sử dụng sai quy cách<br />
và phát hiện bất thường.<br />
Phát hiện sử dụng sai quy cách dựa trên các cuộc tấn công đã biết và các lỗ<br />
hổng hệ thống để xây dựng các quy tắc phát hiện được sử dụng để đánh giá kết nối<br />
mạng có phải là kết nối xâm nhập hay không. Nó có tỷ lệ chính xác và tốc độ phản<br />
ứng cao, nhưng hạn chế rất lớn là không thể phát hiện các cuộc tấn công mới và<br />
các quy tắc phát hiện chỉ có thể cập nhật bằng tay. Phát hiện bất thường là xác định<br />
xem kết nối có phải là kết nối xâm nhập hay không bằng cách phát hiện độ lệch<br />
của mẫu kết nối với mẫu hành vi bình thường. [12] đã mô tả và so sánh một vài<br />
phương pháp và hệ thống phát hiện mạng bất thường. Nói chung, phát hiện bất<br />
thường có thể tìm thấy các tấn công chưa biết, nhưng vì mẫu hành vi bình thường<br />
mới thu được có thể bị nhầm lẫn với hành vi bất thường, nên tỷ lệ cảnh báo sai có<br />
thể gia tăng [16], [29].<br />
Để khắc phục những vấn đề này, một số hệ thống phát hiện xâm nhập IDS sử<br />
dụng các kỹ thuật khai phá dữ liệu và máy học đã được thiết kế, mà chủ yếu được<br />
sử dụng để điều tra phát hiện đặc tính, phân loại và phán đoán xâm nhập. [20] đã<br />
đề xuất mô hình phát hiện xâm nhập bằng cách phân cụm luồng dữ liệu kết nối,<br />
sau đó sử dụng kết quả phân cụm để phân tích và phát hiện bất thường cho mạng<br />
không dây. Cấu trúc dữ liệu ban đầu và độ phức tạp của thuật toán phân lớp có thể<br />
được giảm bởi tiến trình phân cụm, nhưng tâm cụm được khởi tạo ngẫu nhiên, nên<br />
chất lượng phân cụm bị ảnh hưởng bởi hạn chế vốn có của các thuật toán phân<br />
cụm là dễ rơi vào bẫy tối ưu cục bộ. Một số mô hình phát hiện xâp nhập hiệu quả<br />
đã được đề xuất gần đây như mô hình sử dụng mạng thần kinh nhân tạo ANN để<br />
phát hiện xâm nhập [19], sử dụng phương pháp phân cụm mờ FCM lai ghép với<br />
phương pháp xác định tâm cụm để phát hiện xâm nhập bất thường [21]. [30]<br />
nghiên cứu khả năng áp dụng của máy vector hỗ trợ SVM để xây dựng IDS. So<br />
sánh tối ưu giải thuật di truyền GA trên ANN và SVM trong các IDS đã được mô<br />
tả trong [5]. Tuy nhiên, ANN vốn có độ phức tạp trong việc khởi tạo các giá trị đặc<br />
tính phân lớp và chủ yếu được sử dụng đối với dữ liệu phi tuyến, như vậy SVM có<br />
khả năng chỉnh sửa lỗi tốt và khả năng điều khiển tốt hơn [1], [6]. Đây cũng là lý<br />
do giúp chúng tôi lựa chọn kỹ thuật SVM trong bài báo này.<br />
Mô hình phát hiện bất thường không giám sát đã được đề xuất trong [25]. Mô<br />
hình này đã sử dụng thuật toán K-Means để tự động xác định số cụm bản ghi kết<br />
nối bình thường, sau đó, xây dựng mô hình SVM một lớp. [33] đã đề xuất sử dụng<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 19<br />
Công nghệ thông tin<br />
<br />
FCM và SVM đa lớp để dự đoán nồng độ silicon trong metal nóng, [9] đề xuất mô<br />
hình IDS áp dụng kỹ thuật FCM và ANN. Nói chung, các mô hình sử dụng các kỹ<br />
thuật FCM để khởi tạo cụm thu được hiệu suất tốt hơn SVM và ANN đơn lớp. Tuy<br />
nhiên, phương pháp FCM truyền thống rất nhạy cảm với khởi tạo và dễ rơi vào bẫy<br />
tối ưu cục bộ, ảnh hưởng đến kết quả dự đoán của toàn hệ thống IDS. Các thuật<br />
toán tiến hóa như giải thuật di truyền thường được sử dụng để tìm tâm cụm khởi<br />
tạo cho các thuật toán FCM như sử dụng PSO để tìm tâm cụm khởi tạo cho FCM<br />
[27], sử dụng GA để tìm tâm cụm khởi tạo [34]. [4] đã sử dụng GA để tìm tâm<br />
cụm khởi tạo cho thuật toán FCM trong mô hình IDS sử dụng SVM. Tuy nhiên,<br />
theo kết quả nghiên cứu so sánh giữa các kỹ thuật GA và PSO từ [26], [28] cho<br />
chúng ta thấy ảnh hưởng về kích thước phân bố đối với thời gian tìm giải pháp của<br />
GA tăng theo lũy thừa còn PSO tăng theo tuyến tính; xu thế hội tụ sớm của GA<br />
thấp hơn so với PSO; không gian tìm kiếm của PSO là liên tục trong khi đối với<br />
GA là rời rạc; khả năng tránh được bẫy tối ưu cục bộ của PSO cao hơn so với GA.<br />
Như vậy, thuật toán PSO là lựa chọn phù hợp hơn so với thuật toán GA để tìm<br />
kiếm tâm cụm khởi tạo cho các thuật toán phân cụm.<br />
Trong bài báo này, chúng tôi đã đề xuất mô hình phát hiện xâm nhập bất thường<br />
PFCMS bằng cách lai ghép thuật toán FCM dựa trên thuật toán PSO và SVM.<br />
Thuật toán PSO được sử dụng để khởi tạo tâm cụm cho thuật toán phân cụm FCM<br />
để sinh các cụm có cùng thuộc tính cho SVM để phát hiện xâm nhập bất thường.<br />
Thực nghiệm được tiến hành trên các bộ dữ liệu chuẩn mẫu KDD CUP ’99. Kết<br />
quả thực nghiệm chứng tỏ mô hình đã đề xuất có thể đạt được kết quả vượt trội so<br />
với các mô hình IDS đã được đề xuất trước đó. Tiếp theo, bài báo được tổ chức<br />
như sau. Mục 2, trình bày một số vấn đề lý thuyết cơ bản liên quan đến các kỹ<br />
thuật được sử dụng trong bài báo; Mục 3, trình bày chi tiết mô hình PFCMS đề<br />
xuất; Mục 4 là một vài kết quả thực nghiệm, đánh giá hiệu suất; Mục 5, kết luận và<br />
định hướng nghiên cứu tiếp theo.<br />
2. NHỮNG VẤN ĐỀ CƠ BẢN<br />
Trong mục này, chúng tôi sẽ trình bày một số vấn đề cơ bản về lý thuyết liên<br />
quan đến bài báo. Bao gồm thuật toán Phân cụm mờ, thuật toán Tối ưu bầy đàn và<br />
kỹ thuật phân lớp Máy vector hỗ trợ.<br />
2.1. Thuật toán Phân cụm mờ<br />
Thuật toán Phân cụm dữ liệu thường được áp dụng để tìm cấu trúc của dữ liệu<br />
và đã được ứng dụng rộng rãi trong nhiều lĩnh vực chuyên môn khác nhau. Để<br />
<br />
<br />
20 V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện… phân cụm mờ lai ghép.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
nâng cao hiệu suất phân cụm dữ liệu, các thuật toán Phân cụm được kết hợp với<br />
logic mờ nhằm tăng khả năng thu nhận các vấn đề không chắc chắn trong dữ liệu,<br />
thuật toán này được gọi là thuật toán Phân cụm mờ. Thuật toán phân cụm mờ lần<br />
đầu tiên được giới thiệu bởi Dunn [13] và sau đó được sửa đổi bởi Bezdek [15]<br />
(gọi là thuật toán Fuzzy C-Means (FCM)).<br />
Trong khuôn khổ này thuật toán FCM được sử dụng trong mô đun Phân cụm để<br />
phân cụm bộ dữ liệu huấn luyện thành C cụm khác nhau. Hàm mục tiêu của FCM<br />
được cho bởi công thức (1):<br />
C N<br />
J FCM (U ; p1 , p2 ,..., pC ; X ) ucim d ci2 (1)<br />
c 1 i 1<br />
<br />
<br />
trong đó, X là tập N bản ghi dữ liệu kết nối, uci là độ thuộc của bản ghi thứ i đối<br />
với cụm c. uci bị ràng buộc bởi điều kiện (2):<br />
C<br />
<br />
u ci 1, với i=1,2, …,N (2)<br />
c 1<br />
<br />
<br />
và uci được xác định theo công thức (3):<br />
1 (3)<br />
uci 2<br />
C d ci (m 1)<br />
<br />
d<br />
j 1 ij <br />
<br />
<br />
pc là tâm cụm c, được tính theo công thức (4):<br />
N<br />
m<br />
u<br />
i 1<br />
x<br />
ci i<br />
(4)<br />
pc N<br />
m<br />
u<br />
i 1<br />
ci<br />
<br />
<br />
<br />
dci là bình phương khoảng cách Euclidean giữa bản ghi dữ liệu kết nối xi với tâm<br />
cụm vc, được định nghĩa như sau:<br />
K<br />
d ci (x ik vck ) 2 (5)<br />
k 1<br />
<br />
<br />
Số mũ m được sử dụng để điều chỉnh trọng số ảnh hưởng của các giá trị hàm<br />
thuộc, m lớn sẽ tăng độ mờ của hàm mục tiêu JFCM, m thường được lựa chọn bằng 2.<br />
Thuật toán FCM được mô tả theo các bước sau:<br />
Thuật toán 1. Thuật toán Phân cụm mờ<br />
<br />
Bước 1. Input: Tập dữ liệu X xi , xi R K , i 1..N , số cụm C (1