intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án tiến sĩ Kỹ thuật: Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

Chia sẻ: Trần Văn Yan | Ngày: | Loại File: PDF | Số trang:144

21
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án đã đề xuất một mô hình kết hợp giữa phát hiện xâm nhập dựa trên dấu hiệu và phát hiện bất thường theo phương pháp dPCA được tích hợp vào một hệ thống giám sát cho phân tích và phát hiện lưu lượng bất thường, phát hiện tấn công mạng trên phân đoạn mạng có kết nối Internet.

Chủ đề:
Lưu

Nội dung Text: Luận án tiến sĩ Kỹ thuật: Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

  1. HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT v24: 11/10 Sửa theo ý kình so sánh tổng thông lượng đạt được của 3 luồng để lý giải thời gian bù trong t/h 3 dài hơn t/h 2 là do lost packet? 10/4: Sửa theo ý kiến phản biện độc lập (PBĐL) 1. v28, 16/5/2013: Sửa theo ý kiến lần 1 của PBĐL 2: Bổ sung thêm phụ lục về mô Hà Nội – 2017
  2. HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật viễn thông Mã số: 62.52.02.08 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TSKH. HOÀNG ĐĂNG HẢI Hà Nội – 2017
  3. i LỜI CAM ĐOAN Tôi xin cam đoan luận án “Nghiên cứu đề xuất phƣơng pháp phân tích và phát hiện lƣu lƣợng bất thƣờng trên mạng Internet” là công trình nghiên cứu của tôi, trừ những kiến thức tham khảo từ các tài liệu đã được chỉ rõ. Các kết quả, số liệu nêu trong luận án là trung thực, một phần đã được công bố trên các tạp chí khoa học chuyên ngành, phần còn lại chưa được công bố trong bất kỳ công trình nào khác. Tác giả Nguyễn Hà Dƣơng
  4. ii LỜI CẢM ƠN Luận án Tiến sĩ kỹ thuật này được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông. Tác giả xin chân thành cảm ơn PGS. TSKH. Hoàng Đăng Hải đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình nghiên cứu. Thầy đã có rất nhiều ý kiến quan trọng về hướng nghiên cứu để tôi hoàn thành được luận án này. Tôi xin chân thành cảm ơn các thày cô của Học viện Công nghệ Bưu chính Viễn thông, Khoa Quốc tế và Đào tạo Sau đại học, Khoa Viễn thông, Khoa Công nghệ thông tin trong quá trình học tập, nghiên cứu tại Học viện. Tôi trân trọng cảm ơn Bộ môn Kỹ thuật hệ thống, Khoa Công nghệ thông tin, Trường Đại học Xây dựng đã tạo điều kiện thuận lợi, giúp đỡ tôi trong quá trình nghiên cứu, hoàn thành luận án. Tôi xin bày tỏ sự biết ơn sâu sắc tới bố mẹ tôi, vợ tôi, tới gia đình và bạn bè đã động viên, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này. Hà nội, tháng năm Nghiên cứu sinh
  5. iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC THUẬT NGỮ VIẾT TẮT vii DANH MỤC CÁC KÝ HIỆU ix DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC BẢNG xii MỞ ĐẦU 1 1. Yêu cầu kiểm soát lưu lượng mạng Internet 1 2. Lưu lượng mạng bất thường và nhu cầu phát hiện 3 a. Khái niệm về lưu lượng mạng bất thường 3 b. Nguyên nhân gây ra lưu lượng mạng bất thường 4 c. Vấn đề phân tích và phát hiện lưu lượng mạng bất thường 6 d. Phạm vi luận án 7 3. Những đóng góp chính của luận án 8 4. Cấu trúc của luận án 10 CHƢƠNG 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1. Thu thập lưu lượng mạng Internet 11 1.1.1. Các đặc tính của lưu lượng mạng 11 1.1.2. Các phương pháp thu thập lưu lượng Internet 14 1.1.2.1. Thu thập mức gói tin 14 1.1.2.2. Thu thập mức luồng tin 15 1.2. Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường 15 1.2.1. Nhóm dựa vào thống kê 15 1.2.2. Nhóm dựa vào khai phá dữ liệu và học máy 17 1.2.3. Nhóm dựa vào tri thức 20 1.2.4. Tóm tắt ưu nhược điểm của các nhóm phương pháp 20 1.3. Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA 22 1.3.1. Cơ sở của phương pháp PCA 22
  6. iv 1.3.1.1. Dữ liệu và tham số trong miền con PCA 22 1.3.1.2. Vấn đề giảm chiều dữ liệu với PCA 26 1.3.1.3. Phân tích và phát hiện bất thường với PCA 28 1.3.2. Các phương pháp phân tích và phát hiện lưu lượng bất thường điển hình dựa trên PCA 30 1.3.2.1. Lựa chọn các thành phần chính 30 1.3.2.2. Tính khoảng cách thống kê 36 1.3.2.3. Vấn đề lựa chọn tập dữ liệu mẫu 39 1.4. Nhận xét, đánh giá 40 1.5. Kết luận chương 1 41 CHƢƠNG 2 PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG dPCA 43 2.1. Mở đầu 43 2.2. Mô hình hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 43 2.3. Công thức tính khoảng cách thống kê trong phân tích và phát hiện lưu lượng bất thường 44 2.3.1. Khoảng cách Euclidean và bình phương khoảng cách Euclidean 45 2.3.2. Bình phương khoảng cách Euclidean có trọng số 45 2.3.3. Khoảng cách Mahalanobis 46 2.3.4. Khoảng cách Manhattan 47 2.3.5. Khoảng cách Minkowski 47 2.4. Công thức Minkowski bổ sung trọng số trong miền con PCA 48 2.4.1. So sánh cách tính khoảng cách trong các phương pháp PCA điển hình trước đây với công thức đề xuất 49 2.4.1.1. Phương pháp phân tích phần dư 49 2.4.1.2. Phương pháp sử dụng thống kê T2 50 2.5. Phương pháp dPCA CT7, CT8] 50 2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA 51 2.5.2. Sự phân cấp của dPCA 53 2.5.3. Thiết lập mức ngưỡng 55 2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 56 2.6. Thử nghiệm, đánh giá kết quả 60
  7. v 2.6.1. Các sự kiện và thông số đánh giá độ chính xác 60 2.6.2. Đồ thị ROC 61 2.6.3. Lựa chọn tập dữ liệu thử nghiệm 62 2.6.4. Kịch bản thử nghiệm cho dPCA 64 2.6.5. Thử nghiệm, đánh giá phương pháp dPCA 65 2.6.5.1. Kết quả thử nghiệm dPCA1T với các tham số khác nhau 65 2.6.5.2. Thử nghiệm dPCA hai mức ngưỡng (dPCA2T) 79 2.7. Kết luận chương 2. 82 CHƢƠNG 3 PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 84 3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu 84 3.2. Phương pháp phát hiện và khử ngoại lai bằng udPCA [CT8] 85 3.3. Phương pháp phát hiện và khử ngoại lai bằng K-Means [CT4, CT5, CT8] 87 3.3.1. Khái niệm về phân cụm dữ liệu 87 3.3.2. Thuật toán phân cụm K-Means cơ bản 88 3.3.3. Phát hiện ngoại lai dựa trên K-means 89 3.3.4. Các bước phát hiện và khử ngoại lai trong tập dữ liệu mẫu với K-means 91 3.4. Thử nghiệm phát hiện và khử ngoại lai 92 3.4.1. Kịch bản thử nghiệm 92 3.4.2. Khả năng phát hiện ngoại lai của udPCA và K-means 92 3.4.3. Thử nghiệm dPCA khi đã khử ngoại lai trong tập dữ liệu mẫu 94 3.4.3.1. Thử nghiệm với dPCA1T 94 3.4.3.2. Thử nghiệm với dPCA2T 99 3.5. Đánh giá khả năng phát hiện ngoại lai của udPCA 100 3.6. Kết luận chương 3 102 CHƢƠNG 4 HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 104 4.1. Mở đầu 104 4.2. Kiến trúc hệ thống giám sát 104 4.2.1. Phạm vi thu thập dữ liệu 104 4.2.2. Kiến trúc tổng thể hệ thống giám sát 105 4.2.3. Máy trinh sát 106
  8. vi 4.2.4. Trung tâm phân tích, phát hiện và cảnh báo 109 4.3. Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu. 111 4.4. Mô hình kết hợp phát hiện bất thường với phát hiện xâm nhập dựa trên tập mẫu dấu hiệu 112 4.5. Mô phỏng thử nghiệm phát hiện tấn công của dPCA 114 4.5.1. Tập dữ liệu thử nghiệm 114 4.5.2. Mô phỏng, thử nghiệm phát hiện bất thường và một số loại tấn công 116 4.6. Kết luận chương 4 118 KẾT LUẬN VÀ KHẢ NĂNG PHÁT TRIỂN TIẾP 120 DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ 123 TÀI LIỆU THAM KHẢO 124
  9. vii DANH MỤC THUẬT NGỮ VIẾT TẮT Từ viết Tiếng Anh Tiếng Việt tắt CDF Cumulative distribution function) Hàm phân bố tích lũy DNS Domain Name System Hệ thống tên miền Phương pháp phân tích và phát Distance-based anomaly detection dPCA hiện bất thường đề xuất của method in PCA subspace luận án Distance-based anomaly detection Phương pháp dùng 1 mức dPCA1T method in PCA subspace using 1 ngưỡng threshold Distance-based anomaly detection Phương pháp dùng 2 mức dPCA2T method in PCA subspace using 2 ngưỡng threshold Empirical cumulative distribution Hàm phân bố tích lũy thực ECDF function nghiệm Trung bình dịch chuyển trọng EWMA Exponential Weighted Moving Average số theo hàm mũ IP Giao thức Internet (Internet Protocol) ISP Internet Service Provider Nhà cung cấp dịch vụ Internet Hệ thống phát hiện tấn công IDS Intrusion Detection System xâm nhập KDD Knowledge Discovery and Datamining Khoa học về dữ liệu LAN Local Area Network Mạng cục bộ PC Principal Component Thành phần chính PCA Principal Component Analysis Phân tích thành phần chính ROC Receiver Operating Curve Đồ thị biểu diễn dự đoán SNMP Simple Network Management Protocol Giao thức quản lý mạng
  10. viii SVD Singular value decomposition SVM Support Vector Machine Vector máy hỗ trợ TCP Transmission Control Protocol Giao thức điều khiển truyền tin Giao thức truyền dữ liệu của UDP User Datagram Protocol người dùng Phương pháp phát hiện và khử udPCA Uncleaned dPCA ngoại lai được đề xuất VLAN Virtual Local Area Network Mạng cục bộ ảo VPN Virtual Private Network Mạng riêng ảo WAN Wide Area Network Mạng diện rộng
  11. ix DANH MỤC CÁC KÝ HIỆU Ký hiệu Ý nghĩa c Số mũ trong công thức tính khoảng cách của dPCA C Ma trận tương quan d Khoảng cách thống kê dN Mức ngưỡng khoảng cách của phương pháp dPCA ei Vector riêng E Ma trận vector riêng k Số thành phần chính được lựa chọn K Số cụm trong K-means p Số thuộc tính ban đầu 2 T Thống kê T bình phương wi Trọng số trong công thức tính khoảng cách của dPCA xi Các thuộc tính (biến) ban đầu X Ma trận dữ liệu thuộc tính ban đầu yi Giá trị của thành phần chính Y Ma trận giá trị thành phần chính zi Biến ban đầu sau khi chuẩn hóa Z Ma trận của zi sau khi chuẩn hóa α Sai số ước lượng theo hàm phân bố tích lũy thực nghiệm β Tỷ lệ biến thiên của các thành phần chính tính theo trị riêng  Khoảng cách thống kê Euclid Khoảng cách Euclidean wEuclid Khoảng cách Euclidean trọng số Mahalanobis Khoảng cách Mahalanobis Manhattan Khoảng cách Manhattan 2 Thống kê khi bình phương (chi-square) i Trị riêng µ Giá trị trung bình
  12. x DANH MỤC CÁC HÌNH VẼ Hình A Kiến trúc phân lớp của mạng IP. 1 Hình B Sơ đồ mạng và các điểm do lưu lượng trên tuyến kết nối 2 Hình C Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng 3 Hình D Quá trình phân tích, phát hiện và xử lý lưu lượng bất thường 5 Hình 1.1. PCA trong mặt ph ng 2D (2 thành phần chính). 26 Hình 1.2. Đồ thị Scree 27 Hình 1.3. Tỷ lệ biến thiên tập trung ở 4 PC đầu 29 Hình 1.4. Xung bất thường trong lưu lượng thể hiện ở một PC 30 Hình 1.5. Phát hiện bất thường bằng cách theo dõi từng thành phần chính 32 Hình 1.6. Phát hiện bất thường dựa trên phân tích phần dư và thống kê T2 38 Hình 2.1. Mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 43 Hình 2.2. Khoảng cách Euclidean và Manhattan trong không gian 2 chiều 47 Hình 2.3. Phân cấp trong phương pháp dPCA 54 Hình 2.4. Tạo profile trong dPCA 58 Hình 2.5. Phát hiện bất thường trong dPCA 59 Hình 2.6. Đồ thị ROC 62 Hình 2.7. TP khi thay đổi số lượng PC của nhóm 3 với tập 1 67 Hình 2.8. Số kết nối bất thường phát hiện đúng của tập 1 67 Hình 2.9. Số kết nối bình thường phát hiện đúng của tập 1 68 Hình 2.10. Một số đồ thị ROC của d với tập dữ liệu 1 70 Hình 2.11. Số kết nối bất thường phát hiện đúng của tập 2 71 Hình 2.12. Số kết nối bình thường phát hiện đúng của tập 2 72 Hình 2.13. Số kết nối bất thường phát hiện đúng của tập 3 72 Hình 2.14. Số kết nối bình thường phát hiện đúng của tập 3 73 Hình 2.15. Số kết nối bất thường phát hiện đúng của tập 4 73 Hình 2.16. Số kết nối bình thường phát hiện đúng của tập 4 74 Hình 2.17. Một số đồ thị ROC của d với tập dữ liệu 2,3,4 75
  13. xi Hình 2.18. Số kết nối bất thường phát hiện đúng của tập 5 77 Hình 2.19. Số kết nối bình thường phát hiện đúng của tập 5 78 Hình 2.20. Đồ thị ROC của d với tập dữ liệu 5 nhóm 2 (c =2, wi = 1/ i ) 78 Hình 3.1. Quá trình tạo profile của dPCA có khử ngoại lai cho tập dữ liệu mẫu 85 Hình 3.2. Quá trình phát hiện ngoại lai của udPCA 86 Hình 3.3. Cụm bình thường và cụm chứa ngoại lai khi K =2 90 Hình 3.4. Phát hiện ngoại lai dựa trên khoảng cách tối đa 90 Hình 3.5. Kết hợp phân cụm và khoảng cách tối đa để phát hiện ngoại lai 91 Hình 3.6 Đồ thị ROC của d (dPCA) sau khi khử ngoại lai (tập dữ liệu 1) 96 Hình 3.7 Đồ thị ROC khi áp dụng dPCA với tập dữ liệu 5 (tập mẫu sạch) 98 Hình 3.8 Đồ thị ROC (dPCA) sau khi khử ngoại lai lai (tập dữ liệu 5) 99 Hình 4.1. Mạng nội bộ doanh nghiệp có kết nối ra Internet 105 Hình 4.2. Kiến trúc tổng thể hệ thống giám sát 105 Hình 4.3. Cấu trúc thiết bị trinh sát 106 Hình 4.4. Hệ thống phần mềm trinh sát 108 Hình 4.5. Một số sự kiện thu được tại trung tâm giám sát 110 Hình 4.6. Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 113
  14. xii DANH MỤC CÁC BẢNG Bảng A Các nguyên nhân điển hình gây ra lưu lượng bất thường 5 Bảng 1.1. Một ví dụ về dữ liệu thuộc tính 12 Bảng 2.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu Kyoto Honeypot 64 Bảng 2.2. Các tập dữ liệu thử nghiệm cho dPCA1T và dPCA2T 65 Bảng 2.3. Thử nghiệm dPCA1T với tập 1 68 Bảng 2.4. Thử nghiệm dPCA1T với tập dữ liệu 2,3,4 70 Bảng 2.5. Thử nghiệm dPCA1T với tập dữ liệu 5 76 Bảng 2.6. Thử nghiệm dPCA2T với các tham số PC chủ yếu 79 Bảng 2.7. Thử nghiệm dPCA2T với tập dữ liệu 1, 2, 3, 4, 5 80 Bảng 3.1. Các tập dữ liệu thử nghiệm 92 Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA 93 Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means 93 Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai với tập dữ liệu 1 94 Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai với tập dữ liệu 1 94 Bảng 3.6. Kết quả của dPCA1T sau khi khử ngoại lai với tập dữ liệu 2,3,4 96 Bảng 3.7. Kết quả phát hiện của dPCA1T với tập dữ liệu mẫu sạch (tập 5) 98 Bảng 3.8. Kết quả phát hiện của dPCA1T sau khi khử ngoại lai với tập 5 98 Bảng 3.9. Kết quả của dPCA2T sau khi khử ngoại lai với tập 1, 2, 3, 4, 5 99 Bảng 3.10. Kết quả phát hiện bất thường của udPCA 101 Bảng 4.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL-KDD 115 Bảng 4.2. Kết quả phát hiện của dPCA1T với một số loại tấn công 117
  15. 1 MỞ ĐẦU 1. Yêu cầu kiểm soát lƣu lƣợng mạng Internet Mạng Internet đã có sự phát triển vượt bậc trong những năm qua và trở thành nền tảng không thể thiếu được trong mọi lĩnh vực của đời sống. Về mặt công nghệ, mạng Internet dựa trên nền tảng mạng chuyển mạch gói sử dụng giao thức Internet Protocol (IP) ở lớp mạng. Hạ tầng mạng bao gồm nhiều loại công nghệ khác nhau như mạng Ethernet, mạng di động các thế hệ 2G/3G/4G,... Trên lớp mạng IP là vô số các dịch vụ và ứng dụng mạng đa dạng khác nhau. Hình A biểu thị sự phát triển đa dạng của hạ tầng và các dịch vụ/ứng dụng mạng trên cơ sở nền tảng một giao thức IP duy nhất. Lý do cơ bản nhất của kiến trúc này là tạo thành tính mở của Internet, cho phép kết nối mọi hạ tầng mạng, mọi liên kết chia sẻ dịch vụ/ứng dụng khi sử dụng IP. Điều này đã tạo điều kiện thuận lợi cho Internet phát triển mạnh mẽ trong những năm qua, tạo điều kiện cho các loại hình truyền thông người - người, người - máy, máy - người và mới đây nhất là giữa máy và máy. WWW, Email, Facebook, Blogs, File management, other Applications,.. ,... HTTP, PPP, P2P, SIP, SNMP, ,... TCP, UDP, SCTP,... IP Ethernet, WLAN, GSM, 3G/4G,... Wired, Wireless, Radio, Fiber,... Hình A. Kiến trúc phân lớp của mạng IP. Tuy nhiên, chính tính mở và sự đa dạng về hạ tầng và dịch vụ/ứng dụng đã làm cho khả năng kiểm soát mạng Internet khó khăn hơn nhiều. Người dùng mạng Internet khó nhận biết được đang sử dụng những hạ tầng mạng nào, khó nhận biết được chính xác loại dịch vụ/ứng dụng nào đang được sử dụng trên mạng. Mặt khác, rất khó kiểm
  16. 2 soát được lưu lượng ra/vào mạng Internet. Sự cố hạ tầng mạng, sự thay đổi môi trường truyền dẫn, thay đổi trong cấu hình thiết bị, những hoạt động truy cập mạng của người dùng, số lượng các dịch vụ/ứng dụng với các đặc tính lưu lượng biến thiên đa dạng khác nhau được sử dụng, ... và kể cả các hành vi rà quét, trinh sát, do thám, tấn công mạng,... đều có thể tạo nên những biến động bất thường trong lưu lượng mạng. Việc đo lường, kiểm soát, phát hiện nhanh lƣu lƣợng mạng bất thƣờng là điều hết sức cần thiết, có ý nghĩa quan trọng đối với nhà quản trị mạng, vận hành mạng. Hình B là sơ đồ mạng với các điểm đo lưu lượng trên các tuyến kết nối (link). Hình B. Sơ đồ mạng và các điểm do lưu lượng trên tuyến kết nối Kiểm soát lưu lượng và đặc biệt là phát hiện lưu lượng mạng bất thường đã là một chủ đề nghiên cứu được quan tâm nhiều trong những năm qua. Theo sơ đồ trên hình B, người quản trị mạng có thể đặt các đầu đo lưu lượng tại các tuyến kết nối hoặc tại các nút để thu thập lưu lượng. Trên cơ sở đó, người quản trị mạng có thể phân tích lưu lượng, phát hiện bất thường trong lưu lượng mạng để có thể kiểm soát lưu lượng tốt hơn. Ví dụ, điều chỉnh lưu lượng trên các tuyến để giảm tắc nghẽn mạng gây ra bới những đột biến về lưu lượng, khắc phục sự cố tạm thời về hạ tầng mạng, sự cố tuyến kết nối hay những thay đổi cấu hình thiết bị gây ra. Đặc biệt hơn, phân tích và phát hiện lưu lượng mạng bất thường cũng giúp quản trị mạng sớm phát hiện được tấn công mạng, điển hình như tấn công tràn ngập băng thông, tràn lưu lượng, tấn công từ chối dịch vụ. Vấn để kiểm soát lưu lượng mạng, cụ thể là phân tích, phát hiện lưu lượng mạng bất thường rất cần thiết trong thực tế.
  17. 3 2. Lƣu lƣợng mạng bất thƣờng và nhu cầu phát hiện a. Khái niệm về lƣu lƣợng mạng bất thƣờng Theo [4, 11, 24], "bất thường" được định nghĩa là "sự sai lệch hoặc vượt ra khỏi phạm vi một thủ tục, quy tắc hoặc khuôn dạng bình thường". Ngoại lai (outlier) được coi là “bất thường” đã được cộng đồng toán học-thống kê nghiên cứu từ khá sớm [28, 4, 32]. Bất thường được hiểu là những dữ liệu không tuân thủ một chuẩn mực xác định trước của một tập dữ liệu bình thường. Như đã giới thiệu ở phần 1, thu thập dữ liệu về lưu lượng mạng là một việc cần thiết và thường xuyên của hoạt động vận hành, khai thác và quản trị mạng. Lưu lượng mạng thu thập được có thể bao gồm cả dữ liệu bình thường và bất thường. Dữ liệu lưu lượng bình thường (có thể chứa lượng nhỏ bất thường) chứng tỏ mạng hoạt động ổn định, tin cậy theo thiết kế. Dữ liệu lưu lượng bất thường chứng tỏ có vấn đề xảy ra trên mạng liên quan đến sự cố và biến đổi bất thường của lưu lượng mạng. Hình C. Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng trên hệ tọa độ hai chiểu 24]. Hình C là ví dụ về dữ liệu bình thường và dữ liệu bất thường thu được từ mạng, được biểu diễn theo hệ tọa độ hai chiều. Các tập dữ liệu bình thường là N1 và N2 chứa đa số dữ liệu, các điểm dữ liệu O1, O2 và dữ liệu trong tập nhỏ O3 là bất thường. Lưu lượng mạng bất thường (sau đây gọi tắt là lưu lượng bất thường) là lưu lượng của những luồng tin không tuân theo ứng xử, hành vi thông thường. Luồng tin được hiểu là luồng dữ liệu có chung một số thuộc tính, được vận chuyển có hướng từ nút (địa chỉ) nguồn đến nút (địa chỉ) đích (cụ thể là địa chỉ IP).
  18. 4 Sự biến đổi bất thường này có thể do nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền, lỗi cấu hình, tăng đột ngột số lượng truy nhập của khách hàng, các hoạt động tấn công của tin tặc, phát tán thư rác, sâu máy tính, v.v.. (xem phần b). Bất thường trong lưu lượng mạng thể hiện những sự kiện ảnh hưởng đến tính sẵn sàng và hiệu năng của mạng [33, 36], nghĩa là những sự kiện gây tổn hại đến hệ thống, thiết bị và dịch vụ mạng .. mà người vận hành, quản trị mạng cần quan tâm. Xét theo mô hình phân lớp TCP/IP, bất thường có thể xuất hiện tại bất kỳ lớp nào. Ví dụ: tại lớp vật lý do cáp quang bị đứt, giao diện mạng bị hỏng; tại lớp mạng do lỗi cấu hình định tuyến; tại lớp ứng dụng do người dùng, do bị tin tặc tấn công vào hệ thống tên miền, khai thác lỗ hổng cơ sở dữ liệu và ứng dụng, v.v… Một số bất thường có thể gây ra đột biến tại nhiều lớp [36, 20, 17]. Thực tế, một bất thường hay xảy ra chỉ ở một lớp, song có thể ảnh hưởng sang lớp khác. Ví dụ, một bất thường xảy ra ở lớp vật lý, đơn cử do đứt cáp quang hay nhiễu kênh ch ng hạn. Bất thường này sẽ lan tỏa và có tác động trực tiếp vào biến đổi lưu lượng mạng ở lớp cao hơn, ví dụ lớp ứng dụng. Nếu người quản trị mạng phát hiện sớm được, lưu lượng mạng sẽ được tái định tuyến để tránh tuyến bị lỗi, nhiễu nhằm khôi phục lại lưu lượng bình thường của ứng dụng. Mặt khác, một bất thường ở lớp cao cũng có thể gây ra gián đoạn ở lớp vật lý. Ví dụ tấn công của sâu Nimda gây ra lưu lượng bất thường ở lớp ứng dụng, có thể gây ra biến động lớn ở lưu lượng lớp mạng và ảnh hưởng đến lưu lượng của các ứng dụng khác [36]. Vì vậy để phát hiện bất thường tại mỗi lớp đều cần có những thuộc tính mô tả đặc trưng cho lớp đó. Mặt khác, theo mô tả trên hình A với lớp IP là xuyên suốt, mọi bất thường đều có thể biểu hiện qua bất thường ở lưu lượng lớp mạng. Do vậy, lưu lượng mạng bất thường được phân tích chủ yếu dựa vào mô tả dữ liệu thuộc tính tại lớp mạng, điều này có ý nghĩa quan trọng hơn đối với quản trị mạng, vì xét bất thường cho từng ứng dụng ở tầng trên sẽ phải xét thêm nhiều dữ liệu đặc trưng của từng ứng dụng khác nhau sẽ làm tăng độ phức tạp của hệ thống phát hiện và khó khả thi trong thực tiễn. b. Nguyên nhân gây ra lƣu lƣợng mạng bất thƣờng
  19. 5 Bất thường xảy ra có thể do nhiều nguyên nhân. Bảng A liệt kê những nguyên nhân điển hình nhất gây ra sự kiện bất thường trong lưu lượng mạng. Bảng A. Các nguyên nhân điển hình gây ra lưu lượng bất thường Nguyên nhân Mô tả Lỗi thiết bị, lỗi đường truyền, lỗi tuyến kết nối dẫn đến tăng/giảm lưu lượng đột biến (giảm ở tuyến có lỗi, tăng Sự cố hệ thống ở tuyến khác), có thể do lỗi định tuyến, tái định tuyến, v.v… Mạng, tuyến truyền bị quá tải do gửi quá nhiều gói tin. Tắc nghẽn mạng Lưu lượng tăng đột biến ở từng tuyến kết nối. Số lượng truy nhập của người dùng quá nhiều vào một Tăng đột biến do truy trang web, một máy chủ, v.v… Lưu lượng tăng đột biến nhập người dùng ở từng tuyến kết nối. Quét thăm dò, tấn công từ chối dịch vụ làm tràn ngập Hành vi quét thăm dò băng thông gây ra. Tấn công của sâu Internet, mã độc mạng, tấn công mạng gây đột biến trong lưu lượng mạng ở từng tuyến kết nối. Để xác định nguyên nhân và xử lý, việc đầu tiên cần thực hiện là thu thập dữ liệu về lưu lượng mạng, tiến hành phân tích và phát hiện dấu hiệu bất thường. Khi phát hiện có dấu hiệu bất thường, bước tiếp theo là phân loại nguồn gốc, xác định nguyên nhân. Bước cuối cùng là xử lý các bất thường căn cứ theo nguyên nhân. Các giai đoạn trong quá trình phân tích, phát hiện và xử lý bất thường được mô tả trên hình D. Sửa lỗi, tái định tuyến, Phân tích, phát Sự cố hệ thống điều chỉnh lại hệ thống hiện lưu lượng bất thường: Phân loại Tắc nghẽn Cân bằng tải, điều - Thu thập dữ liệu nguồn gốc, xác mạng chỉnh lại hệ thống lưu lượng mạng. - Tiền xử lý. định Do người Cân bằng tải, tái hiệu - Trích chọn dữ nguyên dùng chỉnh cung cấp dịch vụ liệu. nhân - Phân tích, phát Tiếp tục phân tích loại Do tấn công, hiện. tấn công để có biện thăm dò mạng pháp ngăn chặn phù hợp (ví dụ cập nhật tập luật tường lửa…), Hình D. Quá trình phân tích, phát hiện và xử lý lưu lượng bất thường
  20. 6 Như đã mô tả trên hình, việc xác định nguyên nhân, nguồn gốc của bất thường hết sức phức tạp do tính đa dạng của nhóm các nguyên nhân gây ra bất thường, đồng thời các biện pháp xử lý cần cụ thể và phù hợp với nguyên nhân. Phân tích và phát hiện bất thường là giai đoạn quan trọng nhất trong toàn bộ quá trình và là trọng tâm trong bài luận án này. Mặc dù tách riêng với các giai đoạn khác, song giai đoạn phân tích và phát hiện bất thường cho kết quả liên quan đến phân loại nguyên nhân. Ví dụ cụ thể là, khi so sánh tập mẫu dữ liệu lưu lượng bình thường với tập mẫu dữ liệu có chứa sẵn mẫu bất thường của một số loại tấn công, ta có thể xác định được nguyên nhân bất thường là do một loại tấn công mạng. c. Vấn đề phân tích và phát hiện lƣu lƣợng mạng bất thƣờng h n tích v phát hiện lưu lượng mạng bất thường (gọi tắt là phát hiện bất thường) là giai đoạn 1 trong quá trình mô tả ở hình D, bao gồm cả thu thập dữ liệu, tiền xử lý, trích chọn đặc trưng và phân tích, phát hiện. Mục tiêu đặt ra là cần phân tích, xác định một tập hợp hoặc một phạm vi giới hạn những dữ liệu được coi là bình thường của các luồng tin và thực hiện theo dõi, so sánh dữ liệu tiếp nhận được với những dữ liệu được coi là bình thường này. Nếu dữ liệu không nằm trong tập dữ liệu bình thường sẽ được coi là bất thường. Các công trình nghiên cứu về phân tích và phát hiện lưu lượng mạng bất thường tới nay chủ yếu dựa trên một nguyên lý căn bản nhất, đó là chỉ ra các đặc tính lưu lượng mạng trong điều kiện hoạt động bình thường (tạo thành đường cơ sở - baseline) theo một cách nào đó và xác định được sự khác biệt của lưu lượng mạng đo được trong so sánh với lưu lượng mạng bình thường đã nêu. Sự khác biệt này chính là độ lệch (còn gọi là khoảng cách thống kê) giữa dữ liệu đo được so với tập dữ liệu bình thường. Ranh giới của sự khác biệt chính là mức ngưỡng (Threshold). Nếu giả thiết dữ liệu chỉ có một thuộc tính (ví dụ số bytes), dữ liệu đo được nếu có giá trị thống kê lớn hơn mức ngưỡng sẽ được coi là bất thường. Tuy nhiên, dữ liệu thực tế thường có nhiều thuộc tính, việc phát hiện bất thường sẽ phức tạp hơn nhiều do phải xem xét sự tương quan của nhiều thuộc tính trong một bài toán đa biến.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2