Luận án Tiến sĩ Khoa học máy tính: Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng
lượt xem 7
download
Luận án Tiến sĩ Khoa học máy tính "Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng" trình bày phân tích và đánh giá các tập dữ liệu hiện đang được sử dụng để huấn luyện và kiểm tra các IDS; Chọn chỉ số đánh giá phù hợp nhất để đánh giá độ chính xác của các IDS với các đặc thù về dữ liệu; Đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp của các IDS thông qua việc xử lý dữ liệu và xây dựng mô hình học máy phù hợp với đặc thù của IDS.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2022
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số ngành: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. TRẦN VĂN LĂNG Đồng Nai, năm 2022
- LỜI CAM ĐOAN Tên tôi là: Hoàng Ngọc Thanh Sinh ngày: 13/11/1969 Nơi sinh: Bình Định Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học Lạc Hồng. Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là công trình nghiên cứu của cá nhân tôi, đây là công trình do tôi thực hiện dưới sự hướng dẫn của giảng viên, người hướng dẫn khoa học là: PGS. TS. Trần Văn Lăng. Các thuật toán, số liệu và kết quả trình bày trong luận án là hoàn toàn có được từ các thử nghiệm, trung thực và không sao chép. Nghiên cứu sinh Hoàng Ngọc Thanh
- LỜI CẢM ƠN Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. Trần Văn Lăng - người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như tâm huyết nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt nhất để tôi hoàn thành luận án này. Tôi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin, Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi trong suốt thời gian tôi tham gia nghiên cứu sinh. Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính, Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gòn, nơi tôi đang công tác. Và tôi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những người đã luôn quan tâm, động viên tôi trong suốt thời gian qua. Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tôi vững bước và vượt qua mọi khó khăn. Tác giả Hoàng Ngọc Thanh
- TÓM TẮT Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường an ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng cao khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS). Các nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong việc cải thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới. Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và cải tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng. Điều này dựa trên thực tế là: (1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các NIDS. (2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính toán. (3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát hiện xâm nhập. Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai đoạn tiền xử lý dữ liệu, cụ thể là: (1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn thuộc tính FFC và BFE đã biết. (2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện. Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting, Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm trên các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy, các giải pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS. Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những tồn tại và định hướng phát triển trong tương lai: (1) Thời gian huấn luyện các mô hình phân lớp đề xuất còn lớn, việc phối hợp đúng đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực là vấn đề cần được tiếp tục nghiên cứu. (2) Năng lực xử lý đóng vai trò quan trọng trong việc khai thác các thuật toán học máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu các tham số cho các kỹ thuật học máy là vấn đề còn bỏ ngỏ.
- ABSTRACT Stream-based intrusion detection is a growing problem in computer network security environments. Many previous researches have applied machine learning as a method to detect attacks in Network Intrusion Detection Systems (NIDS). However, these methods still have limitations of low accuracy, high false alarm rate and detecting new attacks. The content of the thesis proposes some solutions using ensemble machine learning techniques and improving data preprocessing techniques in improving the classification quality of NIDS. This is based on the fact that: (1) There is a lot of class imbalance data in the training datasets used for NIDS. (2) Machine learning algorithms can use some features that are really irrelevant to the classification goal, which reduces the quality of classification and increases computation time. (3) Ensemble classifiers outperform the single classifiers in classification accuracy. The advantages of the ensemble classifier are particularly evident in the area of network intrusion detection. To solve the problem, the thesis proposes to improve the implementation of two solutions in the data preprocessing stage, details as follows: (1) Proposing 2 feature selection algorithms on the basis of improving 2 known FFC and BFE feature selection algorithms. (2) Improving techniques for oversampling and undersampling the training dataset. The resulting data after preprocessing is used to train the ensemble classifiers using both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting, Stacking and RF) ensemble machine learning algorithms. The experimental results on the full training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions have improved the classification quality of the NIDS. In addition to the achieved results, the research results of the thesis also leave shortcomings and future development orientations: (1) The training time of the proposed classification models is still large, the coordination the right algorithms to build a hybrid, multi-label and real-time response classification model is a problem that needs to be further researched. (2) Processing capacity plays an important role in exploiting machine learning algorithms. The improvement of processing efficiency in the direction of parallel processing as well as the optimization of parameters for machine learning techniques is still an open issue.
- MỤC LỤC CHƯƠNG 1. GIỚI THIỆU ...................................................................................................1 1.1 Hệ thống phát hiện xâm nhập ........................................................................................1 1.1.1 Giới thiệu về IDS ..................................................................................................1 1.1.2 Phân loại IDS ........................................................................................................2 1.1.3 IDS sử dụng kỹ thuật học máy .............................................................................3 1.2 Tính cấp thiết của đề tài luận án ....................................................................................5 1.3 Mục tiêu nghiên cứu ......................................................................................................5 1.4 Đối tượng và phạm vi nghiên cứu .................................................................................6 1.4.1 Đối tượng nghiên cứu ...........................................................................................6 1.4.2 Phạm vi nghiên cứu ..............................................................................................6 1.5 Phương pháp nghiên cứu ...............................................................................................6 1.6 Ý nghĩa khoa học và thực tiễn .......................................................................................6 1.6.1 Ý nghĩa khoa học ..................................................................................................6 1.6.2 Ý nghĩa thực tiễn ..................................................................................................6 1.7 Những điểm đóng góp mới ............................................................................................7 1.8 Kết cấu của luận án ........................................................................................................7 CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ...............................................................8 2.1 Cơ sở lý thuyết ...............................................................................................................8 2.1.1 Lựa chọn thuộc tính ..............................................................................................8 2.1.2 Lấy mẫu lại tập dữ liệu .......................................................................................15 2.1.3 Kỹ thuật học máy................................................................................................21 2.1.4 Tập dữ liệu sử dụng cho các IDS .......................................................................27 2.1.5 Chỉ số đánh giá hiệu năng các IDS.....................................................................33 2.2 Các nghiên cứu liên quan về học máy cho IDS ...........................................................36 2.2.1 Lựa chọn thuộc tính ............................................................................................36 2.2.2 Lấy mẫu lại tập dữ liệu .......................................................................................38 2.2.3 Các mô hình học máy cho các IDS ....................................................................40 2.2.4 Nhận xét..............................................................................................................56 CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH ..................................................57 3.1 Giải pháp lựa chọn thuộc tính đề xuất .........................................................................57 3.1.1 Các chỉ số đo thông tin .......................................................................................57 3.1.2 Thuật toán loại bỏ thuộc tính ngược BFE ..........................................................58 3.1.3 Thuật toán chọn thuộc tính thuận FFC ...............................................................59 3.1.4 Thuật toán lựa chọn thuộc tính đề xuất ..............................................................61 3.2 Kết quả thực hiện .........................................................................................................65 3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms ..................................................66
- 3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode ..............................................68 3.2.3 Lựa chọn thuộc tính với kiểu tấn công Backdoor ..............................................70 3.2.4 Lựa chọn thuộc tính với kiểu tấn công Analysis ................................................72 3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce ....................................................74 3.2.6 Lựa chọn thuộc tính với kiểu tấn công DoS .......................................................76 3.2.7 Lựa chọn thuộc tính với kiểu tấn công Fuzzers .................................................78 3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits.................................................80 3.2.9 Lựa chọn thuộc tính với kiểu tấn công Generic .................................................82 3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất ....................84 CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU ............................................87 4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất ....................................................................87 4.1.1 Giải pháp tăng mẫu.............................................................................................87 4.1.2 Giải pháp giảm mẫu............................................................................................91 4.2 Kết quả thực hiện .........................................................................................................95 4.2.1 Tăng mẫu tập dữ liệu ..........................................................................................96 4.2.2 Giảm mẫu tập dữ liệu .......................................................................................106 4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu ..........................117 CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS .......................................120 5.1 Kỹ thuật phối hợp đề xuất .........................................................................................120 5.2 Kết quả thực hiện .......................................................................................................125 5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms ......................................127 5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode ..................................129 5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor ..................................131 5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis ...................................133 5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce ........................................135 5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS ..........................................137 5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers .....................................139 5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits ....................................141 5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic .....................................143 5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp .................................................145 5.4 Mô hình phân lớp lai đề xuất .....................................................................................146 CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................149 6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển ...............................149 6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án .................................................150
- DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Viết đầy đủ ABC Artificial Bee Colony ADASYN Adaptive Synthetic Sampling ANN Artificial Neural Network AUC Area Under the Curve Bagging Bootstrap Aggregation BFE Backward Feature Elimination BFS Best First Search BN Bayesian Network CA Correlation Attribute CART Classification and Regression Trees CFS Correlation-based Feature Selection CNN Convolutional Neural Network CSE Consistency Subset Evaluator CV Cross Validation DoS Denial of Service DT Decision Tree FFC Forward Feature Construction ELM Extreme Learning Machines ENN Edited Nearest Neighbors FPR False Positive Rate GA Genetic Algorithm GAR GRASP with Annealed Randomness GC Global Competence GP Genetic Programming GR Gain Ratio ICA Independent Component Analysis IDS Intrusion Detection System IG Information Gain KNN K Nearest Neighbours KNNCF K Nearest Neighbor Collaborative Filtering LC Local Competence LDA Linear Discriminant Analysis LOO Leave One Out LR Logistic Regression
- LSTM Long Short - Term Memory MARS Multivariate Adaptive Regression Splines ML Machine Learning MLP Multi Layer Perceptron MV Majority Voting NB Naïve Bayes NCR Neighborhood Cleaning Rule NSGA Non-dominated Sorting Genetic Algorithm OAR One Against Rest OSELM Sequential Extreme Learning Machine PART Partial Decision Tree PCA Principal Component Analysis PSO Particle Swarm Optimization R2L Remote to Local RBF Radial Basis Function RF Random Forest RMV Rigged Majority Voting RNN Recurrent Neural Network ROC Receiver Operating Characteristics RT Random Tree SMOTE Synthetic Minority Over-Sampling Technique SSV Separability Split Value SU Symmetrical Uncertainty SVM Support Vector Machine TPR True Positive Rate U2R User to Root WLC Weighted Local Competence WMV Weighted Majority Voting WRMV Weighted Rigged Majority Voting WTA Winner Takes All
- DANH MỤC CÁC BẢNG, BIỂU Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15 ............................................................. 30 Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15 ........................................................................... 32 Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS ................................................................. 40 Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất............................................... 45 Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất ................................................. 47 Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết .......................................................... 52 Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến ........................................................ 55 Bảng 2.8. So sánh độ chính xác tổng thể ..................................................................................... 55 Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15 ..................................... 65 Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Worms ..................... 67 Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms ................... 68 Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Worms ................... 68 Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms ........................ 68 Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Shellcode ................. 69 Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Shellcode ............... 70 Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode ............... 70 Bảng 3.9. So sánh mBFE-GR với các thuật toán khác với kiểu tấn công Shellcode .................. 70 Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor ............... 71 Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Backdoor.............. 72 Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Backdoor.............. 72 Bảng 3.13. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Backdoor ................ 72 Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Analysis ................ 73 Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis ............... 74 Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Analysis ............... 74 Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Analysis .................. 74 Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce ..................... 75 Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Recce ................... 76 Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce ................... 76 Bảng 3.21. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Recce ...................... 76 Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công DoS ....................... 77 Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS ...................... 78 Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công DoS ...................... 78 Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS ......................... 78 Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Fuzzers .................. 79 Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Fuzzers ................. 80 Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers ................. 80 Bảng 3.29. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Fuzzers ..................... 80 Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits ................. 81 Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Exploits ................ 82 Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Exploits ................ 82 Bảng 3.33. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Exploits ................... 82 Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Generic .................. 83 Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic ................ 84 Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Generic ................ 84 Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic ..................... 84
- Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công................................... 85 Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính .......................... 103 Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính ...................... 104 Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu ................................................... 105 Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms ................................ 107 Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode ............................ 108 Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor ............................ 108 Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis .............................. 109 Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce .................................. 110 Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS ..................................... 111 Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ............................. 111 Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits ............................ 112 Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic ............................. 113 Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ....................... 114 Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ................... 115 Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu ................................................ 116 Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ................................... 117 Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ....................................... 118 Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms ............. 128 Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms ........ 129 Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode ......... 130 Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode .... 131 Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor ......... 132 Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor .... 133 Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis ........... 134 Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis ...... 135 Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce ............... 136 Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce ........ 137 Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS ................ 138 Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS ........... 139 Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers .......... 140 Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers ..... 141 Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits ......... 142 Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits..... 143 Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic .......... 144 Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic ..... 145 Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn ................................................... 145 Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp ........................................... 145 Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công ............................................................ 147 Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất ................................................................... 147 Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất ..................................................... 148 Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây ....................................... 148 Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây ..................................... 148
- DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS .................................................... 4 Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp ..................................................... 16 Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE ............................................................................ 17 Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp ............................................ 20 Hình 2.4. Kỹ thuật Bootstrap ....................................................................................................... 22 Hình 2.5. Kỹ thuật Bagging ......................................................................................................... 22 Hình 2.6. Kỹ thuật Boosting ........................................................................................................ 23 Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta ..................................................................... 24 Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................ 28 Hình 2.9. Mô hình trích xuất dữ liệu UNSW-NB15 sử dụng công cụ IXIA ............................... 29 Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15 ...................................... 32 Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC ........................................................ 35 Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS ................................................................... 35 Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS..................................................................... 42 Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS ................................................... 42 Hình 3.1. Độ lợi thông tin của các thuộc tính với kiểu tấn công Worms .................................... 67 Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Worms....................................... 67 Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn công Worms ................................. 67 Hình 3.4. Độ lợi thông tin của các thuộc tính với kiểu tấn công Shellcode ................................ 68 Hình 3.5. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Shellcode................................... 69 Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn công Shellcode ............................. 69 Hình 3.7. Độ lợi thông tin của các thuộc tính với kiểu tấn công Backdoor ................................ 71 Hình 3.8. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Backdoor ................................... 71 Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn công Backdoor ............................. 71 Hình 3.10. Độ lợi thông tin của các thuộc tính với kiểu tấn công Analysis ................................ 72 Hình 3.11. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Analysis .................................. 73 Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn công Analysis ............................. 73 Hình 3.13. Độ lợi thông tin của các thuộc tính với kiểu tấn công Recce .................................... 74 Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Recce....................................... 75 Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn công Recce ................................. 75 Hình 3.16. Độ lợi thông tin của các thuộc tính với kiểu tấn công DoS ....................................... 76 Hình 3.17. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công DoS ......................................... 77 Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn công DoS .................................... 77 Hình 3.19. Độ lợi thông tin của các thuộc tính với kiểu tấn công Fuzzers ................................. 79 Hình 3.20. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Fuzzers .................................... 79 Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn công Fuzzers............................... 79 Hình 3.22. Độ lợi thông tin của các thuộc tính với kiểu tấn công Exploits................................. 81
- Hình 3.23. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Exploits ................................... 81 Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn công Exploits .............................. 81 Hình 3.25. Độ lợi thông tin của các thuộc tính với kiểu tấn công Generic ................................. 83 Hình 3.26. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Generic .................................... 83 Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn công Generic .............................. 83 Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề xuất..................... 85 Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms .......................................... 97 Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn công Shellcode ...................................... 97 Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn công Backdoor ...................................... 98 Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis ........................................ 99 Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn công Recce ............................................ 99 Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn công DoS ............................................. 100 Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn công Fuzzers........................................ 101 Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn công Exploits ....................................... 101 Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn công Generic ....................................... 102 Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất.......... 106 Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Worms ......................... 107 Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Shellcode ..................... 108 Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Backdoor ..................... 109 Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Analysis ....................... 110 Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Recce ........................... 110 Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công DoS .............................. 111 Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ........................ 112 Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Exploits ....................... 112 Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Generic ........................ 113 Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất ........ 117 Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu .............................. 121 Hình 5.2. Chọn mô hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn công ........... 122 Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn công ...................... 122 Hình 5.4. Kỹ thuật phối hợp Voting không đồng nhất với từng kiểu tấn công ......................... 122 Hình 5.5. Mô hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm ............ 125 Hình 5.6. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm................................. 126 Hình 5.7. Mô hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm ...................... 126 Hình 5.8. Mô hình IDS đề xuất phát hiện các kiểu tấn công mạng ........................................... 147
- DANH MỤC CÁC THUẬT TOÁN Thuật toán 2.1. Thuật toán Focus ...........................................................................................12 Thuật toán 2.2. Thuật toán AAB ............................................................................................12 Thuật toán 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính ..................................13 Thuật toán 2.4. Lựa chọn thuộc tính LVF ..............................................................................14 Thuật toán 2.5. Kỹ thuật tăng mẫu SMOTE ..........................................................................16 Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN ..........................................18 Thuật toán 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE ........................................................19 Thuật toán 2.8. Xác định và loại bỏ các Liên kết Tomek ......................................................20 Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate .................................................25 Thuật toán 3.1. Lựa chọn thuộc tính sử dụng BFE ................................................................58 Thuật toán 3.2. Lựa chọn thuộc tính sử dụng FFC ................................................................59 Thuật toán 3.3. Thuật toán lựa chọn thuộc tính mFFC ..........................................................63 Thuật toán 3.4. Thuật toán lựa chọn thuộc tính mBFE ..........................................................64 Thuật toán 4.1. Thuật toán tăng mẫu kết hợp với mFFC .......................................................89 Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE .......................................................90 Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC ......................................................93 Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE ......................................................94 Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất .....................123 Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất ..........124
- 1 CHƯƠNG 1. GIỚI THIỆU Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện và Cấu trúc của luận án. 1.1 Hệ thống phát hiện xâm nhập Internet là xu hướng của thời đại, mang lại lợi thế cho các cá nhân, doanh nghiệp biết tận dụng và phát huy thế mạnh của internet. Internet là chìa khóa vàng để đi đến thành công. Để đạt đến 50 triệu người dùng, phát thanh mất 38 năm, truyền hình mất 13 năm, internet chỉ cần 4 năm, và mạng xã hội facebook chỉ cần 2 năm. Internet và những công cụ trên internet, các website bán hàng, website kinh doanh online, … đã được khai thác vào các hoạt động kinh doanh và mang lại những nguồn thu lớn cho các cá nhân, doanh nghiệp. Bên cạnh những lợi ích của internet, các cơ quan, doanh nghiệp cũng phải đối đầu với mặt trái của mạng internet, một trong những mặt tiêu cực đó là vấn đề tấn công mạng. Tấn công mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính, website, cơ sở dữ liệu, hạ tầng mạng, thiết bị của các cá nhân, doanh nghiệp thông qua mạng internet với những mục đích bất hợp pháp. Mục tiêu của một cuộc tấn công mạng rất đa dạng, có thể là vi phạm dữ liệu (đánh cắp, thay đổi, mã hóa, phá hủy), cũng có thể nhắm tới sự toàn vẹn của hệ thống (gây gián đoạn, cản trở dịch vụ), hoặc lợi dụng tài nguyên của nạn nhân. Để đối phó với vấn đề tấn công mạng, một vấn đề then chốt đối với những nhà quản trị mạng ở các cơ quan, doanh nghiệp là nhanh chóng phát hiện xâm nhập và tiến tới ngăn chặn xâm nhập. Một trong những hệ thống được các nhà quản trị mạng sử dụng thông dụng hiện nay là Hệ thống phát hiện xâm nhập (Intrusion Detection System: IDS). 1.1.1 Giới thiệu về IDS IDS là hệ thống giám sát lưu lượng mạng hoặc máy chủ nhằm phát hiện ra hiện tượng bất thường, các hoạt động trái phép xâm nhập vào hệ thống mạng hoặc máy chủ của các cơ quan, doanh nghiệp. IDS có thể phân biệt các cuộc tấn công từ nội bộ hoặc từ bên ngoài. IDS có thể phát hiện dựa trên các dấu hiệu đặc biệt về nguy cơ đã biết hoặc dựa trên so sánh lưu lượng mạng hiện tại với thông số chuẩn của hệ thống để tìm ra các dấu hiệu bất thường. Tính hiệu quả của một IDS được thể hiện qua các tiêu chí: (1) Tính chính xác (Accuracy): IDS phải có độ chính xác cao, tránh các trường hợp báo động giả hoặc không phát hiện xâm nhập khi bị tấn công; (2) Hiệu năng (Performance): IDS có thể phát hiện xâm nhập trong thời gian ngắn nhất, để kịp thời có các hành động ứng phó phù hợp. Tránh tình trạng phát hiện ra khi tội phạm mạng đã gây tổn hại cho hệ thống; (3) Tính trọn vẹn (Completeness): IDS không được bỏ qua bất cứ một xâm nhập trái phép nào; (4) Khả năng chịu lỗi (Fault Tolerance): IDS phải có khả năng chống lại tấn công. Có trường hợp, bản thân IDS cũng không hoạt động khi phía xâm nhập tấn công vào chính IDS; (5) Khả năng mở rộng (Scalability): IDS phải có khả năng mở rộng để đáp ứng nhu cầu ngày càng cao của người dùng về lưu lượng dữ liệu.
- 2 1.1.1.1 Kiến trúc của IDS Kiến trúc của IDS bao gồm 3 thành phần chính: (1) Thành phần thu thập gói tin; (2) Thành phần phân tích gói tin và phát hiện xâm nhập và (3) Thành phần phản hồi nếu gói tin được xác định là một cuộc tấn công. Trong 3 thành phần này thì thành phần phân tích gói tin và phát hiện xâm nhập là thành phần quan trọng nhất, và ở thành phần này bộ cảm biến (sensor) đóng vai trò quyết định. 1.1.1.2 Các chức năng của IDS Chức năng quan trọng nhất của IDS là: (1) Giám sát lưu lượng truy cập mạng hoặc các hoạt động bất thường; (2) Cảnh báo cho người quản trị mạng khi biết được các hoạt động bất thường và (3) Có những hành động chống lại kẻ xâm nhập. Ngoài ra, IDS còn có các chức năng mở rộng như: (1) Ngăn chặn sự gia tăng của các tấn công; (2) Cập nhật, bổ sung những điểm yếu mà hệ thống chưa làm được và (3) Đánh giá chất lượng của việc thiết kế hệ thống. 1.1.1.3 Quy trình hoạt động của IDS Quy trình hoạt động của IDS gồm các bước như sau: (1) Khi có các truy cập vào ra mạng, các cảm biến trên mạng sẽ đọc các gói tin. Các cảm biến này được đặt sao cho nó có thể đọc được tất cả các gói tin vào ra trên mạng; (2) Một chương trình phát hiện nằm trong bộ cảm biến kiểm tra xem có gói tin nào có dấu hiệu xâm nhập không, khi có dấu hiệu xâm nhập thì một cảnh báo sẽ được tạo ra và gửi đến giao diện điều khiển; (3) Khi giao diện điều khiển nhận được cảnh báo, nó sẽ gửi cho người quản trị mạng, đồng thời: (4) Khởi tạo và thực hiện quy trình phản hồi ứng với từng dấu hiệu xâm nhập. 1.1.2 Phân loại IDS Hệ thống IDS được chia làm 2 loại cơ bản: - IDS dựa trên mạng (Network-based IDS: NIDS): là các IDS sử dụng dữ liệu trên toàn bộ lưu thông mạng cùng dữ liệu kiểm tra từ một hoặc một vài máy trạm để phát hiện xâm nhập. - IDS dựa trên máy chủ (Host-based IDS: HIDS): là các IDS sử dụng dữ liệu kiểm tra từ một máy chủ đơn lẻ để phát hiện xâm nhập. 1.1.2.1 IDS dựa trên mạng Hệ thống IDS dựa trên mạng sẽ kiểm tra các giao tiếp trên mạng với thời gian thực. Nó kiểm tra các giao tiếp, quét tiêu đề của các gói tin và có thể kiểm tra nội dung của các gói đó để phát hiện ra các đoạn mã nguy hiểm hay các dạng tấn công khác nhau. Ưu điểm của NIDS: quản lý được cả một mạng; trong suốt với người dùng lẫn tội phạm mạng; cài đặt và bảo trì đơn giản; có khả năng xác định lỗi ở tầng mạng và độc lập với hệ điều hành.
- 3 Nhược điểm của NIDS: có thể xảy ra trường hợp báo động giả; không thể phân tích các dữ liệu đã được mã hóa; đòi hỏi phải được cập nhật các chữ ký mới; có độ trễ giữa thời điểm bị tấn công với thời điểm phát báo động và cuối cùng là giới hạn về thông lượng. 1.1.2.2 IDS dựa trên máy chủ Bằng cách cài đặt một phần mềm trên máy chủ, HIDS quan sát tất cả những hoạt động về hệ thống và các file log, lưu lượng mạng thu thập, … HIDS cũng theo dõi hệ điều hành, những cuộc gọi hệ thống, lịch sử và những thông điệp báo lỗi trên hệ thống máy chủ. HIDS thường được cài đặt và giám sát các hoạt động trên một máy tính nhất định thay vì giám sát hoạt động của một mạng. Nhiệm vụ của HIDS là theo dõi các thay đổi trên hệ thống gồm: các tiến trình; mức độ sử dụng CPU; tình trạng RAM; tính toàn vẹn của hệ thống, ... Ưu điểm của HIDS: có khả năng xác định người dùng liên quan tới sự kiện; có khả năng phát hiện tấn công diễn ra trên một máy; có thể phân tích các dữ liệu mã hóa; và có thể cung cấp các thông tin về máy chủ trong lúc cuộc tấn công diễn ra. Nhược điểm của HIDS: thông tin từ HIDS là không đáng tin cậy ngay khi việc tấn công vào máy chủ thành công; khi hệ điều hành không thể hoạt động do bị tấn công, HIDS cũng sẽ không hoạt động được; HIDS phải được thiết lập trên từng máy chủ cần giám sát; HIDS không có khả năng phát hiện các cuộc dò quét mạng (Nmap, Netcat, ...) và cuối cùng, HIDS cần tài nguyên trên máy chủ để hoạt động. 1.1.3 IDS sử dụng kỹ thuật học máy Đối với các IDS, có ba phương pháp để phát hiện các cuộc tấn công: (1) Phát hiện dựa trên chữ ký; (2) Phát hiện dựa trên sự bất thường và (3) Phát hiện dựa trên sự kết hợp nhằm khắc phục các nhược điểm, phát huy các ưu điểm của hai phương pháp trên. Phát hiện dựa trên chữ ký được thiết kế để phát hiện các cuộc tấn công đã biết bằng cách sử dụng chữ ký của các cuộc tấn công đó. Đây là một phương pháp hiệu quả để phát hiện các cuộc tấn công đã biết được lưu trữ trong cơ sở dữ liệu IDS. Do đó, nó chính xác hơn nhiều trong việc xác định một nỗ lực xâm nhập của một cuộc tấn công đã biết. Tuy nhiên, với các kiểu tấn công mới hoặc biến thể, IDS không thể phát hiện vì chữ ký của tấn công đó không được lưu trữ. Để khắc phục sự cố này, tính năng phát hiện dựa trên sự bất thường, so sánh các hoạt động hiện tại của người dùng với các cấu hình xác định trước để phát hiện xâm nhập. Tính năng phát hiện dựa trên sự bất thường có hiệu quả chống lại các cuộc tấn công không xác định hoặc các cuộc tấn công zero-day mà không có bất kỳ bản cập nhật nào cho hệ thống. Tuy nhiên, phương pháp này thường có tỷ lệ dương tính giả cao [1]. Các tiếp cận phát hiện xâm nhập của các IDS được trình bày ở Hình 1.1. Với các IDS phát hiện xâm nhập dựa trên sự bất thường, có nhiều nghiên cứu đã đề xuất sử dụng kỹ thuật học máy (Machine Learning: ML) để phát hiện xâm nhập nhằm giảm tỷ lệ dương tính giả và tạo ra các IDS chính xác. Tuy nhiên, để đối phó với dữ liệu lớn, các kỹ thuật ML truyền thống cần nhiều thời gian cho việc huấn luyện và phân lớp dữ liệu. Sử dụng các kỹ thuật dữ liệu lớn và ML cho IDS có thể giải quyết nhiều thách thức như tốc độ và thời gian tính toán cũng như phát triển các IDS chính xác [1], [2].
- 4 Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS
- 5 1.2 Tính cấp thiết của đề tài luận án Những tiến bộ nhanh chóng của internet và lĩnh vực truyền thông đã dẫn đến sự gia tăng lớn về quy mô mạng và dữ liệu tương ứng. Nhiều cuộc tấn công mới đang được tạo ra và đặt ra những thách thức cho an ninh mạng trong việc phát hiện chính xác các cuộc tấn công. Hơn thế nữa, càng không thể bỏ qua sự hiện diện của những tội phạm mạng với mục đích là khởi động các cuộc tấn công khác trong mạng. IDS là một trong những công cụ ngăn chặn tấn công mạng bằng cách kiểm tra lưu lượng mạng, để đảm bảo tính bảo mật, tính toàn vẹn và tính khả dụng của nó. Bất chấp những nổ lực to lớn của các nhà nghiên cứu, các IDS vẫn phải đối mặt với những thách thức trong việc cải thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới. Cho đến nay, các hệ thống IDS dựa trên học máy và học sâu đang được triển khai như các giải pháp tiềm năng để phát hiện các hành vi tấn công mạng một cách hiệu quả. Khraisat và các cộng sự (2019) [3] đã trình bày chi tiết một cuộc khảo sát các nghiên cứu gần đây về phương pháp luận, loại và công nghệ của các hệ thống phát hiện xâm nhập dựa trên kỹ thuật học máy với những ưu điểm và hạn chế của chúng. Các tác giả kết luận, các cách tiếp cận như vậy vẫn còn tồn tại các thách thức trong việc tạo và cập nhật thông tin về các cuộc tấn công mới, cũng như giảm tỷ lệ cảnh báo sai và tăng độ chính xác phát hiện. Xuất phát từ những nhận định đó, chúng tôi nhận thấy việc tìm kiếm giải pháp để giải quyết những thách thức nêu trên khi xây dựng các IDS vẫn còn mang tính thời sự và cần được tiếp tục nghiên cứu. Về mặt thực tiễn, việc này có ý nghĩa rất lớn, vì nó giúp các nhà quản trị mạng tại các cơ quan, doanh nghiệp phát hiện những nguy cơ tấn công xâm nhập một cách nhanh chóng và chính xác, để từ đó phản ứng lại với các lưu lượng bất thường bằng cách ngăn chặn người dùng hoặc địa chỉ nguồn truy cập mạng một cách kịp thời và hiệu quả. Vì lẽ đó, vấn đề cấp thiết đặt ra của đề tài là tìm giải pháp để nâng cao chất lượng phân lớp của các IDS trong điều kiện tài nguyên tính toán hạn chế, đồng thời giảm tỷ lệ cảnh báo sai. 1.3 Mục tiêu nghiên cứu Mục tiêu nghiên cứu là đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp của các IDS mạng; cụ thể là nâng cao độ chính xác, đồng thời giảm tỷ lệ cảnh báo sai trong điều kiện hạn chế về tài nguyên tính toán. Nhằm thực hiện mục tiêu nghiên cứu nêu trên, luận án có các nội dung chính sau: (1) Phân tích và đánh giá các tập dữ liệu hiện đang được sử dụng để huấn luyện và kiểm tra các IDS. Để từ đó lựa chọn tập dữ liệu huấn luyện và kiểm tra, đảm bảo cho việc xây dựng các mô hình IDS hiệu quả với các hành vi bình thường hiện đại và các hoạt động tấn công tổng hợp đương đại. (2) Chọn chỉ số đánh giá phù hợp nhất để đánh giá độ chính xác của các IDS với các đặc thù về dữ liệu. (3) Đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp của các IDS thông qua việc xử lý dữ liệu và xây dựng mô hình học máy phù hợp với đặc thù của IDS.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận án Tiến sĩ Khoa học Giáo dục: Quản lý hoạt động tự học của lưu học sinh Nước Cộng hòa Dân chủ Nhân dân Lào tại Việt Nam
224 p | 160 | 31
-
Luận án Tiến sĩ Khoa học giáo dục: Vận dụng quan điểm sư phạm tương tác vào dạy học Sinh học 9 trường THCS
165 p | 155 | 23
-
Luận án Tiến sĩ Khoa học Giáo dục: Hình thành cho sinh viên kĩ năng đánh giá năng lực khoa học của học sinh theo quan điểm PISA trong dạy học Sinh học ở trường phổ thông
167 p | 160 | 18
-
Luận án Tiến sĩ Khoa học giáo dục: Quản lý chuyển đổi số trong hoạt động đào tạo ở trường đại học
270 p | 22 | 12
-
Luận án Tiến sĩ Khoa học giáo dục: Quản lý đội ngũ giáo viên trung học phổ thông ngoài công lập thành phố Hà Nội theo tiếp cận năng lực trong bối cảnh hiện nay
239 p | 12 | 9
-
Luận án Tiến sĩ Khoa học giáo dục: Giáo dục khởi nghiệp từ nghề truyền thống cho thanh niên nông thôn các tỉnh Đồng bằng Sông Hồng đáp ứng yêu cầu xây dựng nông thôn mới
277 p | 18 | 8
-
Luận án Tiến sĩ Khoa học giáo dục: Tổ chức dạy học trải nghiệm trong môn Giáo dục công dân cấp trung học cơ sở ở Hà Nội
231 p | 24 | 8
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học viết văn bản thuyết minh dựa trên tiến trình viết cho học sinh trung học phổ thông theo tiếp cận phát triển năng lực
244 p | 15 | 8
-
Luận án Tiến sĩ Khoa học vật liệu: Nghiên cứu chế tạo nón xuyên trong thiết bị nổ lõm bằng đồng kim loại và composite W-Cu có cấu trúc siêu mịn
126 p | 20 | 6
-
Luận án Tiến sĩ Khoa học giáo dục: Phát triển năng lực thực hành thí nghiệm hóa học cho sinh viên ngành Sư phạm Hóa học theo tiếp cận CDIO
272 p | 13 | 6
-
Luận án Tiến sĩ Khoa học giáo dục: Phát triển năng lực thẩm mĩ cho học sinh trung học cơ sở trên địa bàn thành phố Hà Nội thông qua dạy học môn Mĩ thuật
224 p | 10 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Phát triển năng lực khám phá tự nhiên cho học sinh trong dạy học chủ đề Vật sống, môn Khoa học tự nhiên 6
238 p | 10 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học xác suất và thống kê cho sinh viên ngành kỹ thuật mỏ và kỹ thuật địa chất theo hướng gắn với thực tiễn nghề nghiệp
166 p | 13 | 5
-
Luận án Tiến sĩ Khoa học môi trường: Nghiên cứu tài nguyên đất gò đồi phục vụ định hướng phát triển nông nghiệp bền vững tỉnh Bắc Giang
293 p | 14 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Quản lí hoạt động đánh giá kết quả học tập của sinh viên các trường đại học, học viện công an nhân dân theo tiếp cận năng lực
285 p | 10 | 4
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học hình học ở trường trung học cơ sở theo hướng phát triển chương trình ở cấp độ lớp học
226 p | 12 | 4
-
Luận án Tiến sĩ Khoa học giáo dục: Quản lí liên kết đào tạo của trường đại học tư thục với doanh nghiệp tại thành phố Hồ Chí Minh đáp ứng yêu cầu thị trường lao động
248 p | 14 | 4
-
Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu một số giải pháp tối ưu hóa hiệu năng trong mạng điện toán biên di động
166 p | 5 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn