Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng mô hình học sâu trong phát hiện xâm nhập mạng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:60

Thêm vào BST

Báo xấu

94
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn tập trung tìm hiểu các phương pháp học máy thống kê, chú trọng đến mô hình học sâu áp dụng trong bài toán phát hiện xâm nhập mạng. Ứng dụng thực nghiệm trên các tập dữ liệu từ nguồn tin cậy như CIC-IDS-2018 [14] và tập dữ liệu do nhóm nghiên cứu tạo ra trong khuôn khổ thực hiện nhiệm vụ nghiên cứu cấp Nhà nước, mã số KC.01.28/16-20. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng mô hình học sâu trong phát hiện xâm nhập mạng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ MẠNH CƯỜNG NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH HỌC SÂU TRONG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Hà Nội - 2021
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ MẠNH CƯỜNG NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH HỌC SÂU TRONG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Chuyên ngành: Hệ thống thông tin Người hướng dẫn luận văn: PGS.TS. Nguyễn Ngọc Hóa Hà Nội - 2021
LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy cô giáo trường Đại học Công Nghệ, Đại Học Quốc Gia Hà Nội, đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu tại trường, truyền đạt cho em những kiến thức bổ ích và dạy em những bài học về cuộc sống đáng quý. Em xin gửi lời cảm ơn sâu sắc đến giảng viên PGS.TS Nguyễn Ngọc Hóa cùng toàn thể quý thầy cô thuộc bộ môn Hệ Thống Thông Tin. Thầy, cô đã tận tình hướng dẫn và định hướng cho em hoàn thành khóa luận này. Cám ơn gia đình, người thân và bạn bè đã nhiệt tình giúp đỡ động viên trong quá trình làm khóa luận. Mặc dù có nhiều cố gắng thực hiện đề tài luận văn một cách hoàn chỉnh nhất. Song luận văn còn nhiều thiếu sót. Rất mong được sự góp ý của quý thầy, cô và các bạn để luận văn được hoàn chỉnh hơn. Em xin chân thành cảm ơn! Hà Nội, tháng 04 năm 2021 Vũ Mạnh Cường i
LỜI CAM ĐOAN Em xin cam đoan các kết quả báo cáo đạt được trong luận văn này do em thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Ngọc Hóa. Tất cả các tham khảo từ những nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Luận văn không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo. Các kết quả thực nghiệm của luận văn đều được tiến hành thực nghiệm và thống kê từ kết quả thực tế. Tác giả Vũ Mạnh Cường ii
i NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH HỌC SÂU TRONG PHÁT HIỆN XÂM NHẬP MẠNG VŨ MẠNH CƯỜNG Tóm tắt luận văn Hệ thống phát hiện và phòng trống xâm nhập (Intrusion Detection and Prevention System - IDPS) nhận được nhiều sự quan tâm của các nhóm nghiên cứu trên thế giới. Thực vậy, hiện trong thư viện IEEE Xplore, tính đến tháng 12/2018, đã có 768 công trình công bố, gồm 54 bài tạp chí và 691 bài báo hội thảo. Có 10 tài liệu cho khoá học ngắn hạn trong khi số lượng sách là 2. Số liệu tổng hợp từ Google Scholar cũng ghi nhận 17.400 kết quả từ năm 2014. Tuy nhiên, hầu hết công trình đều tập trung nghiên cứu về phát hiện và phòng trống xâm nhập mạng nội bộ (Network-based Intrusion Prevention System - NetIPS). Với những tổ chức có quy mô lớn, việc kiểm soát các luồng dữ liệu vào/ra để phát hiện/phòng chống xâm nhập cần phải được thực hiện và đảm bảo được tốc độ, vừa phải có độ phát hiện chính xác cao (giảm tỷ lệ phát hiện nhầm và bỏ sót) [18]. Hiện nay, xu thế ứng dụng các phương pháp học máy thống kê đang được quan tâm ứng dụng trong bài toán phát hiện xâm nhập mạng [11]. Một trong những phương pháp phát hiện đang được đánh giá có hiệu năng phát hiện xâm nhập tốt là ứng dụng mô hình học sâu [14] [6]. Từ đó, luận văn được xác lập mục tiêu nghiên cứu, tìm hiểu các phương pháp học máy thống kê, chú trọng đến mô hình học sâu áp dụng trong bài toán phát hiện xâm nhập mạng. Chạy thử nghiệm trên tập dữ liệu tin cậy như CIC-IDS-2018 [14] và chạy thực nghiệm trên bộ dữ liệu nhóm nghiên cứu tạo ra. Từ khóa: Phát hiện xâm nhập mạng; Học sâu; An toàn bảo mật mạng.
Mục lục 1 GIỚI THIỆU CHUNG 1 1.1 Động lực nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Mục tiêu và nội dung nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3.1 Mục tiêu nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3.2 Những đóng góp chính . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 Tổ chức của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 LÝ THUYẾT LIÊN QUAN 5 2.1 Tổng quan về hệ thống phát hiện xâm nhập mạng . . . . . . . . . . . . . . . 5 2.1.1 Giới thiệu về hệ thống phát hiện xâm nhập mạng . . . . . . . . . . . 5 2.1.2 Kỹ thuật phát hiện xâm nhập mạng dựa trên dấu hiệu (SNIDS) . . . 6 2.1.3 Kỹ thuật phát hiện xâm nhập mạng dựa trên phát hiện bất thường (ANIDS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Lý thuyết học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1 Khái niệm học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2 Lược sử của học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.3 Giới thiệu về mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.3.1 Mạng nơ-ron sinh học . . . . . . . . . . . . . . . . . . . . . 14 2.2.3.2 Mạng nơ-ron nhân tạo . . . . . . . . . . . . . . . . . . . . . 15 2.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3 PHÁT HIỆN XÂM NHẬP MẠNG SỬ DỤNG MÔ HÌNH HỌC SÂU 22 3.1 Bài toán đặt ra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Mô hình IDPSDLWD phát hiện và ngăn chặn xâm nhập mạng dựa trên phân tích lưu lượng truy cập HTTP . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3 Lựa chọn khung xây dựng mô hình học sâu . . . . . . . . . . . . . . . . . . . 24 3.3.1 Keras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.2 TensorFlow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 ii
MỤC LỤC iii 3.3.3 Theano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.4 PyTorch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.5 Fastai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.6 Đánh giá và lựa chọn . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4 THỰC NGHIỆM 28 4.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2.1 Dữ liệu sinh ra trong đề tài KC.01.28/16-20 . . . . . . . . . . . . . . 29 4.2.2 Dữ liệu từ nguồn tin cậy . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3 Tối ưu hoá tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.4 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.5 Mô hình huấn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.6 Kết quả thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.6.1 Kết quả với bộ dữ liệu DS1 . . . . . . . . . . . . . . . . . . . . . . . 33 4.6.2 Kết quả với bộ dữ liệu DS2 . . . . . . . . . . . . . . . . . . . . . . . 35 4.7 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 39 5.1 Các đóng góp chính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Hạn chế . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.3 Hướng phát triển tương lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Công bố của học viên 41 TÀI LIỆU THAM KHẢO 42
Danh sách hình vẽ 1.1 Lược đồ tổ chức luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 Ví dụ về kiến trúc NIDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Ảnh kiến trúc sử dụng phương pháp SNIDS [12]. . . . . . . . . . . . . . . . 6 2.3 Ảnh kiến trúc của ANIDS [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4 Ảnh lịch sử học sâu (nguồn: Deep learning - history and background) . . . . 10 2.5 Ảnh các mô hình đạt giải cao trong cuộc thi ILSVRC (nguồn: cnns-architectures- lenet-alexnet-vgg-googlenet-resnet-and-more...) . . . . . . . . . . . . . . . . 13 2.6 Ảnh mô tả mạng nơ-ron sinh học [5]. . . . . . . . . . . . . . . . . . . . . . . 14 2.7 Mô hình cơ bản của mạng nơ-ron [5]. . . . . . . . . . . . . . . . . . . . . . . 15 2.8 Đồ thị của hàm ngưỡng [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.9 Đồ thị của hàm ReLU [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.10 Đồ thị của hàm Sigmoid [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.11 Đồ thị của hàm Tanh [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.12 Mạng FNN [5]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1 Kiến trúc mạng nơ-ron sâu của luận văn . . . . . . . . . . . . . . . . . . . . 23 3.2 Mô hình phát hiện hành vi bất thường dựa trên phân tích luồng HTTP . . . 24 4.1 Kiến trúc sinh bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Ma trận nhầm lẫn k = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.3 Ma trận nhầm lẫn k = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4 Ma trận nhầm lẫn k = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.5 Ma trận nhầm lẫn k = 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.6 Ma trận nhầm lẫn k = 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.7 Hình ảnh biểu đồ các chỉ số đánh gía trong quá trình huấn luyện DS1 . . . 34 4.8 Hình ảnh biểu đồ các chỉ số đánh gía trong quá trình huấn luyện DS2 . . . 36 iv
Danh sách bảng 2.1 Các nguyên tắc cơ bản của ANIDS [4] . . . . . . . . . . . . . . . . . . . . . . 9 4.1 Tổng số luồng HTTP trong tập dữ liệu đã được làm sạch . . . . . . . . . . . 29 4.2 Tổng số luồng HTTP trong tập dữ liệu đã được làm sạch . . . . . . . . . . . 30 4.3 Tổng số luồng HTTP trong tập dữ liệu đã được làm sạch . . . . . . . . . . . 31 4.4 Giá trị tối ưu hóa siêu tham số . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.5 Kiểm chứng chéo với k = 6 sử dụng bộ dữ liệu DS2 . . . . . . . . . . . . . . 32 4.6 Số lượng mẫu huấn luyện và kiểm tra . . . . . . . . . . . . . . . . . . . . . . 33 4.7 Kết quả các chỉ số trong khi huấn luyện DS1 sau 15 epochs . . . . . . . . . . 34 4.8 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.9 Kết quả các chỉ số đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . 35 4.10 Kết quả các chỉ số trong khi huấn luyện DS2 sau 15 epochs . . . . . . . . . . 36 4.11 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.12 Kết quả các chỉ số đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . 37 4.13 So sánh IDPSDLWD với các phương pháp khác . . . . . . . . . . . . . . . . 38 v
Danh mục thuật ngữ viết tắt IDS Intrusion Detection System Hệ thống phát hiện xâm nhập Network-Based Intrusion NIDS Hệ thống phát hiện xâm nhập mạng Detection System Intrusion Detection and IDPS Hệ thống phát hiện và ngăn chặn xâm nhập Prevention System IDPS and deep learning al- Hệ thống phát hiện và ngăn chặn xâm nhập IDPSDLWD gorithms for Webshell de- dựa trên quy tắc và các thuật toán học sâu tection để phát hiện Webshell Signature-Based Network- Hệ thống phát hiện xâm nhập mạng dựa trên SNIDS Based Intrusion Detection chữ ký System Anomaly-Based Network- Hệ thống phát hiện xâm nhập mạng dựa trên ANIDS Based Intrusion Detection bất thường System AI Artificial Intelligence Trí tuệ nhân tạo ML Machine Learning Máy học DL Deep Learning Học sâu ANN Artificial Neural Network Mạng nơ-ron nhân tạo DNN Deep Neural Network Mạng nơ-ron học sâu MLP Multi-layer Perceptron Perceptron nhiều lớp Convolutional Neural Net- CNN Mạng nơ-ron tích chập work Feedforward Neural Net- FNN Mạng nơ-ron theo chiều xuôi work DBN Deep Belief Network Mạng lưới niềm tin sâu sắc vi
DANH SÁCH BẢNG vii AE Auto-Encoder Bộ mã hoá tự động Restricted Boltzmann Ma- RBM Máy hạn chế Boltzmann chine DBN Deep Belief Network Mạng niềm tin sâu Generative Adversarial Net- GAN Mạng lưới đối thủ chung work LSTM Long short time memory Bộ nhớ thời gian ngắn hạn GRU Gated recurrent unit Cổng đơn vị định kỳ
Chương 1 GIỚI THIỆU CHUNG 1.1 Động lực nghiên cứu Trong thời đại bùng nổ công nghệ thông tin, mạng internet đã trở thành một phần của cuộc sống và ngày càng đóng vai trò quan trọng đối với con người. Mạng internet đang chi phối hầu như mọi lĩnh vực trong cuộc sống từ kinh tế, giải trí đến giáo dục và đào tạo... Song song với sự phát triển bùng nổ này là vấn đề về bảo mật, an toàn thông tin khi sử dụng mạng internet. Trong thực tế có rất nhiều các cuộc tấn công trên môi trường mạng, vì vậy thách thức trong công tác đảm bảo an toàn thông tin mạng ngày càng trở nên cấp thiết. Hiện nay, thế giới đang đối mặt với hàng loạt các sự cố rò rỉ dữ liệu, phá huỷ các hệ thống công nghệ thông tin của các tổ chức, doanh nghiệp. Theo thống kê mới nhất của trung tâm VNCERT, tính từ đầu năm 2019 đến tháng 8/2019 trung tâm ghi nhận 7.015 sự cố tấn công mạng vào các trang web của Việt Nam, trong đó có: 2570 sự cố tấn công lừa đảo (phishing); 4.203 trường hợp sự cố tấn công thay đổi giao diện; 242 sự cố website bị nhiễm mã độc (Malware) và đang có xu thế tăng so với cùng kỳ 2018 [17]. Những cuộc tấn công này gây ra những hậu quả nghiêm trọng vì vậy vấn đề an ninh ngày càng được quan tâm. Khi triển khai một hệ thống công nghệ thông tin, việc đảm bảo an toàn thông tin hệ thống là một trong những vấn đề thiết yếu. Đóng góp vào vai trò duy trì tính bền vững của hệ thống. Để làm được điều này, hệ thống cần được trang bị những công cụ để chống lại các cuộc tấn công mạng. Một trong các công cụ hữu ích đó là sử dụng tường lửa. Nhưng tưởng lửa chỉ đạt được hiệu quả cao với những mẫu tấn công đã biết trước. Do đó, cần những công cụ hỗ trợ tốt hơn cho việc đảm bảo an toàn mạng. Một trong những vấn đề đang được quan tâm hiện nay là hệ thống phát hiện xâm nhập mạng (NIDS). Xuất phát từ nhu cầu thực tiễn đó, đề tài luận văn “Nghiên cứu ứng dụng mô hình học sâu trong phát hiện xâm nhập mạng” với mục tiêu tìm hiểu các phương pháp học máy thống kê, chú trọng đến mô hình học sâu. 1
CHƯƠNG 1. GIỚI THIỆU CHUNG 1.2 Một số nghiên cứu liên quan • Nghiên cứu "Deep Learning Approach for Intelligent Intrusion Detection Sys- tem". sử dụng mô hình học sâu DNN để phát hiện xâm nhập, các cuộc tấn công mạng và tấn công máy chủ một cách kịp thời và tự động. Bài báo sử dụng DNN với nhiều lớp và chạy trên nhiều tập dữ liệu khác nhau. Kết quả bài báo thu được model với độ chính xác cao. Bên cạnh đó, tác giả đề suất mô hình có khả năng mở rộng cao được gọi là sale-hybrid-IDS-AlertNet có thể sử dụng trong thời gian thực để giám sát hiệu quả lưu lượng mạng [18]. • Nghiên cứu "Towards Detecting and Classifying Network Intrusion Traffic Using Deep Learning Frameworks.". Nghiên cứu đánh giá hiệu quả của việc sử dụng các framework học sâu trên tập dữ liệu CIC-IDS-2018. Kết quả nghiên cứu cho thấy độ chính xác rất cao lên đến 99.92 % [1]. • Nghiên cứu "Toward Generating a New Intrusion Detection Dataset and Intrusion Traffic Characterization.". Nghiên cứu hướng tới việc tạo ra tập dữ liệu phát hiện xâm nhập mạng và những đặng trưng xâm nhập mạng mới. Nghiên cứu trích xuất ra 80 đặc điểm của xâm nhập mạng, và chỉ ra thời gian ngắn nhất để phát hiện tấn công bằng cách sử dụng thuật toán Random Forest Regressor. Cuối cùng, nghiên cứu so sánh kết quả của các tập dữ liệu [14]. 1.3 Mục tiêu và nội dung nghiên cứu Xuất phát từ nhu cầu thực tế, động lực nghiên cứu, luận văn đề ra mục tiêu nghiên cứu cụ thể như sau: 1.3.1 Mục tiêu nghiên cứu Luận văn tập trung tìm hiểu các phương pháp học máy thống kê, chú trọng đến mô hình học sâu áp dụng trong bài toán phát hiện xâm nhập mạng. Ứng dụng thực nghiệm trên các tập dữ liệu từ nguồn tin cậy như CIC-IDS-2018 [14] và tập dữ liệu do nhóm nghiên cứu tạo ra trong khuôn khổ thực hiện nhiệm vụ nghiên cứu cấp Nhà nước, mã số KC.01.28/16-20 [8]. 1.3.2 Những đóng góp chính • Đề xuất mô hình IDPSDLWD kết hợp IDPS dựa trên tập luật và học sâu. Khả năng nhanh chóng phát hiện các luồng xâm nhập mạng. phương pháp IDPSDLWD cho phép 2
CHƯƠNG 1. GIỚI THIỆU CHUNG nhanh chóng phát hiện xâm nhập mạng dựa trên các thuộc tính của lưu lượng mạng. • Chạy thử nghiệm để đánh giá phương pháp IDPSDLWD được đề xuất, kết quả cho thấy rằng mô hình được đề xuất hoạt động hiệu quả cao với độ đo F1 là 99,98 % và Độ chính xác (Accuracy) là 99,96 %. Do đó, nó cung cấp khả năng phát hiện thời gian thực và ngăn chặn các luồng xâm nhập mạng bao gồm cả loại không xác định. 1.4 Tổ chức của luận văn Ngoài phần mở đầu, bố cục của luận văn được tổ chức thành 5 chương, được minh hoạ như hình sau: Hình 1.1: Lược đồ tổ chức luận văn Nội dung chính của mỗi chương bao gồm: 3
CHƯƠNG 1. GIỚI THIỆU CHUNG • Chương 1 giới thiệu chung về động lực nghiên cứu, các đóng góp chính mục tiêu và các nội dung chính của luận văn. Ngoài ra, các nghiên cứu liên quan cũng như các đóng góp chính của luận văn cũng được trình bày trong chương này. • Chương 2 có nhiệm vụ trình bày tổng quan về hệ thống phát hiện xâm nhập mạng. Trong chương này, em xin trình bày về lý thuyết liên quan đến hệ thống phát hiện xâm nhập mạng, các phương pháp nhận dạng xâm nhập. • Chương 3 của luận văn có nhiệm vụ trình bày về ứng dụng trong bài toán phát hiện xâm nhập mạng. Trong chương này, em xin trình bày về bài toán, mô hình học sâu trong việc phát hiện xâm nhập mạng. • Chương 4 của luận văn sẽ trình bày về kết quả thực nghiệm. Trong chương này em xin trình bày về môi trường cài đặt, tập dữ liệu và kết quả thu được. • Chương 5 tóm lược lại các đóng góp chính của luận văn và một số hướng phát triển trong tương lai. 4
Chương 2 LÝ THUYẾT LIÊN QUAN 2.1 Tổng quan về hệ thống phát hiện xâm nhập mạng 2.1.1 Giới thiệu về hệ thống phát hiện xâm nhập mạng Hệ thống phát hiện xâm nhập mạng (NIDS) là hệ thống phát hiện xâm nhập (IDS) dựa trên mạng. Các hành vi mạng được thu thập bởi các thiết bị mạng thông qua phản chiếu bởi các thiết bị mạng chẳng hạn như: thiết bị chuyển mạch, bộ định tuyến và vòi mạng và được phân tích để xác định các cuộc tấn công, các mối đe dọa có thể được che dấu trong lưu lượng mạng. Hình 2.1: Ví dụ về kiến trúc NIDS 5
CHƯƠNG 2. LÝ THUYẾT LIÊN QUAN Hệ thống phát hiện xâm nhập mạng đem lại những hiệu quả như sau: • Quản lý lưu lượng vào/ra của mạng và đưa ra cảnh báo nếu một luồng bị phát hiện xâm nhập mạng. • Đưa ra phân tích và thống kê được các luồng hoạt động bất thường. • Kết hợp với tường lửa để trở thành hệ thống an toàn thông tin bảo mật. Có 2 loại NIDS khác nhau dựa trên phương pháp thực hiện được sử dụng: • Phương pháp phát hiện xâm nhập mạng dựa trên chữ ký (SNIDS). • Phương pháp phát hiện xâm nhập mạng dựa trên phát hiện những bất thường (ANIDS). 2.1.2 Kỹ thuật phát hiện xâm nhập mạng dựa trên dấu hiệu (SNIDS) SNIDS là kỹ thuật dễ sử dụng nhất. Kỹ thuật này tìm kiếm các mẫu trong lưu lượng mạng và so sánh với các mẫu tấn công đã biết đã được cài đặt sẵn được gọi là tập luật. SNIDS rất tốt trong việc phát hiện những tấn công đã biết trước, nhưng phương pháp này lại không hiệu quả trong việc phát hiện những tấn công mới hoặc tấn công trước đó không nhận dạng được [14]. Hình 2.2: Ảnh kiến trúc sử dụng phương pháp SNIDS [12]. 6
CHƯƠNG 2. LÝ THUYẾT LIÊN QUAN Ưu điểm: • Với những hoạt động xâm nhập đã biết, phương pháp nhanh chóng phát hiện được hoạt động xâm nhập và đưa ra cảnh báo [14]. • Hệ thống phát hiện xâm nhập mạng bắt đầu bảo vệ mạng sau khi cài đặt ngay tức thời [13]. • Khi cảnh báo xảy ra, người dùng có thể liên kết ngay đến hoạt động xảy ra trên mạng [13]. Nhược điểm: [13] • Một trong những vấn đề lớn nhất của phương pháp này là việc so sánh các gói tin với mọi mẫu trong tập dữ liệu vì vậy xử lý toàn bộ lưu lượng truy cập rất tốn thời gian dẫn tới làm chậm thông lượng của hệ thống . • Phải luôn luôn cập nhật cơ sở dữ liệu dấu hiệu thường xuyên. • Đưa ra cảnh báo về cuộc tấn công bất kể kết quả như thế nào. Việc này dẫn đến việc gửi rất nhiều cảnh báo về các cuộc tấn công không thành công và rất khó quản lý . • Người tạo ra tập luật hoặc biết về tập luật có thể tạo ra các cuộc tấn công mà hệ thống không phát hiện ra được. • Những hiểu biết về các cuộc tấn công phụ thuộc vào hệ điều hành, phiên bản và ứng dụng do đó nó gắn liền với môi trường cụ thể. 2.1.3 Kỹ thuật phát hiện xâm nhập mạng dựa trên phát hiện bất thường (ANIDS) ANIDS là phương pháp phát hiện xâm nhập mạng dựa trên những hoạt động bất thường. Phương pháp dựa trên các mô hình học máy thống kê khác nhau để tự động học các mẫu và tạo các quy tắc phân biệt lưu lượng truy cập bình thường với các cuộc tấn công độc hại. Kiến trúc cơ bản của ANIDS bao gồm các thành phần sau: • Tham số hóa: trong giai đoạn này, các thể hiện quan sát được của hệ thống đích được biểu diễn dưới dạng thiết lập trước. • Giai đoạn huấn luyện: Hành vi bình thường hoặc bất thường của hệ thống được đặc trưng hóa và một mô hình tương ứng được xây dựng. Điều này có thể được thực hiện theo các cách khách nhau, tùy thuộc vào loại ANIDS. 7
CHƯƠNG 2. LÝ THUYẾT LIÊN QUAN • Giai đoạn phát hiện: Sau khi mô hình cho hệ thống có sẵn, nó được so sánh với lưu lượng quan sát (đã được tham số hóa). Nếu độ lệch tìm thấy vượt quá ngưỡng nhất định, một cảnh báo sẽ được kích hoạt. Hình 2.3: Ảnh kiến trúc của ANIDS [4]. Dựa trên loại xử lý liên quan tới hành vi, ANIDS được phân thành 3 loại chính đó là: • Dựa trên thống kê - hành vi của hệ thống được thể hiện từ một cách nhìn ngẫu nhiên. Sự bất thường xác định bằng cách đo điểm mức độ sai lệch từ một hành vi cụ thể sử dụng độ lệch chuẩn, trung bình, ngưỡng, xác suất. Các phương pháp tiếp cận sớm nhất sử dụng các mô hình đơn biến. Phương pháp tiếp cận sau đó sử dụng mô hình đa biến mà mô hình theo chuỗi thời gian. Trong kỹ thuật này, hoạt động lưu lượng mạng được ghi lại và một hồ sơ đại diện cho hồ sơ ngẫu nhiên của nó được tạo ra. Hồ sơ này dựa trên số liệu như tốc độ lưu lượng, số lượng gói cho mỗi giao thức, tốc độ kết nối, số lượng địa chỉ IP khác nhau... Hai tập dữ liệu được xem xét trong quá trình phát hiện bất thường: một tương ứng với hồ sơ được quan sát theo thời gian, hồ sơ còn lại dành cho hồ sơ đã được thống kê trước đó. Khi một sự kiện mạng xảy ra, hồ sơ hiện tại được xác định và ước tính điểm bất thường bằng cách so sánh hành vi. Hệ thống xâm nhập mạng sẽ gắn cờ điểm bất thường nếu điểm số vượt qua ngưỡng nhất định. • Dựa trên tri thức - cố gắng nắm bắt được các hành vi dựa trên dữ liệu trước đó về các thông số hoạt động bình thường hoặc bất thường như: thông số kỹ thuật giao thức, lưu lượng mạng... Phương pháp này phân loại dữ liệu theo bộ quy tắc bao gồm 3 bước. 8
CHƯƠNG 2. LÝ THUYẾT LIÊN QUAN Đầu tiên các thuộc tính và các lớp khác nhau được xác định từ dữ liệu huấn luyện. Thứ hai, một tập các quy tắc phân lớp, tham số, thủ tục được suy ra. thứ ba, dữ liệu kiểm tra được phân loại phù hợp. • Dựa trên học máy - thiết lập một mô hình rõ ràng hoặc ngầm định để phân loại các mẫu được phân tích. Phương pháp này sử dụng dữ liệu gán nhãn để huấn luyện ra các mô hình. Phương pháp dựa trên thống kê xây dựng mô hình, cải thiện hiệu suất dựa trên kết quả trước đó. Phương pháp sử dụng học máy có khả năng thay đổi chiến lược thực thi khi nó học được dữ liệu mới. Nhược điểm của phương pháp này là tốn kém tài nguyên. Kỹ thuật cơ bản Ưu điểm Nhược điểm Các loại phụ Dựa trên thống Không cần có Dễ được huấn Mô hình đơn biến kê: hành vi ngẫu tri thức về luồng luyện bởi những (biến ngẫu nhiên nhiên bình thường, kẻ tấn công, khó Gaussian độc lập), mô thông báo chính thiết lập cấc hình đa biến (tương xác về luồng độc thông số và chỉ quan giữa một số chỉ hại số, giả định quy số), chuỗi thời gian trình bán tĩnh không thực tế. Dựa trên tri Mạnh mẽ, linh Tốn thời gian Máy trạng thái hữu thức: dữ liệu có hoạt và khả và khó có được hạn (trạng thái và quá trước năng mở rộng dữ liệu có chất trình chuyển đổi), mô lượng cao tả ngôn ngữ (N-gram, UML,.), hệ thống chuyên gia (phân loại dựa trên quy tắc) . Dựa trên máy Tính linh hoạt Phụ thuộc cao Mô hình Markov, học: phân loại và khả năng vào giả định về mạng lưới thần kinh, các mẫu thích ứng. Nắm hành vi được logic mờ, thuật toán bắt sự phụ thuộc chấp nhận đối di truyền, phân cụm lẫn nhau với hệ thống. và phát hiện ngoại lệ. Tiêu tốn nhiều tài nguyên. Bảng 2.1: Các nguyên tắc cơ bản của ANIDS [4] . 9