Tóm tắt Luận án tiến sĩ Kỹ thuật: Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

Chia sẻ: Trần Văn Yan | Ngày: | Loại File: PDF | Số trang:26

Thêm vào BST

Báo xấu

34
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung chính của đề tài được trình bày như sau: Cơ sở lý thuyết và các nghiên cứu liên quan; Phương pháp phân tích và phát hiện lưu lượng bất thường dPCA; Phương pháp khử ngoại lai trong tập dữ liệu mẫu; Hệ thống giám sát với phương pháp phát hiện lưu lượng bất thường.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án tiến sĩ Kỹ thuật: Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật viễn thông Mã số: 62.52.02.08 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017
Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông Người hướng dẫn khoa học: PGS. TSKH. Hoàng Đăng Hải Phản biện 1:…………………………………………… ……………………………………………. Phản biện 2:…………………………………………… ……………………………………………. Phản biện 3…………………………………………… ……………………………………………. Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện tại:……………………………………………………………….. ……………………………………………………………………… Vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại thư viện:……………………………….. Thư viện Quốc gia Việt Nam Thư viện Học viện Công nghệ Bưu chính Viễn thông
1 MỞ ĐẦU Phát hiện lưu lượng mạng bất thường đã là một chủ đề nghiên cứu được quan tâm nhiều trong những năm qua. Bất thường có thể do nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền, lỗi cấu hình, tăng đột ngột số lượng truy nhập của khách hàng, các hoạt động tấn công của tin tặc, phát tán thư rác, sâu máy tính v.v.. Để xác định nguyên nhân và xử lý, việc đầu tiên cần thực hiện là thu thập dữ liệu về lưu lượng mạng, tiến hành phân tích và phát hiện dấu hiệu bất thường. Sau đó cần phân loại nguồn gốc, xác định nguyên nhân và xử lý các bất thường căn cứ theo nguyên nhân. Phân tích và phát hiện bất thường là giai đoạn quan trọng trong toàn bộ quá trình và là phạm vi nghiên cứu của luận án. Cụ thể, trọng tâm của luận án là trên cơ sở lưu lượng mạng thu thập được cần có phương pháp xác định xem lưu lượng đó có phải là bất thường hay không để đưa ra cảnh báo. Đối tượng nghiên cứu của luận án là nghiên cứu các phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên phân tích thành phần chính (PCA), đề xuất một số đóng góp mới, cụ thể gồm: - Đề xuất một công thức mới cho tính khoảng cách dựa trên công thức Minkowski có bổ sung thêm trọng số. - Đề xuất một phương pháp mới có tên là dPCA sử dụng công thức tính khoảng cách nêu trên. dPCA hoạt động phân cấp dùng 1 mức ngưỡng và 2 mức ngưỡng. - Đề xuất hai phương pháp phát hiện và khử ngoại lai trong tập dữ liệu mẫu là: phương pháp udPCA và phương pháp K-means trong kết hợp với phương pháp dPCA. - Đề xuất một mô hình kết hợp giữa phát hiện xâm nhập dựa trên dấu hiệu và phát hiện bất thường theo phương pháp dPCA được tích hợp vào một hệ thống giám sát cho phân tích và phát hiện lưu lượng
2 bất thường, phát hiện tấn công mạng trên phân đoạn mạng có kết nối Internet. Phương pháp nghiên cứu được sử dụng trong luận án là nghiên cứu mô hình toán học kết hợp với mô phỏng, thử nghiệm. Cấu trúc của luận án gồm phần mở đầu, 4 chương nội dung, phần kết luận. Nội dung chính của các chương như sau: - Chương 1: Cơ sở lý thuyết và các nghiên cứu liên quan. - Chương 2: Phương pháp phân tích và phát hiện lưu lượng bất thường dPCA. - Chương 3: Phương pháp khử ngoại lai trong tập dữ liệu mẫu - Chương 4: Hệ thống giám sát với phương pháp phát hiện lưu lượng bất thường. CHƢƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 1.1. Thu thập lƣu lƣợng mạng Internet Hiện nay, phương pháp cơ bản để thu thập lưu lượng là theo gói tin hoặc luồng tin. Để phát hiện bất thường, các nghiên cứu cho thấy rằng cần tách lưu lượng thu được thành dữ liệu thuộc tính. Các thuộc tính gồm số byte, số gói tin, địa chỉ IP, cổng nguồn/ đích v.v… Việc lựa chọn thuộc tính dữ liệu rất quan trọng vì ảnh hưởng trực tiếp đến hiệu suất c ng như độ chính xác phát hiện. 1.2. Tổng quan về các phƣơng pháp, mô hình phân tích và phát hiện lƣu lƣợng bất thƣờng Trong một số năm qua, nhiều giải pháp đã được đưa ra để phân tích và phát hiện lưu lượng bất thường. Mặc dù các giải pháp hết sức đa dạng, song chúng thường được phân loại theo ba nhóm chính là: 1) nhóm dựa vào thống kê, 2) nhóm dựa vào khai phá dữ liệu và học máy, 3) nhóm dựa vào tri thức. Việc phân loại mang tính chất tương đối vì thực tế một phương pháp có thể đồng thời thuộc các nhóm
3 khác nhau. Phương pháp thống kê dựa trên giả định mô hình tuân theo một phân bố thống kê biết trước hoặc dựa trên dữ liệu thực nghiệm trong điều kiện bình thường từ đó so sánh với độ lệch hoặc khoảng cách với điều kiện bình thường để phát hiện ra bất thường. 1.3. Phƣơng pháp phân tích và phát hiện lƣu lƣợng bất thƣờng dựa trên PCA (gọi tắt là phƣơng pháp PCA) Đây là phương pháp thuộc nhóm thống kê, dựa trên thuật toán phân tích thành phần chính (Principal Component Analysis) làm nền tảng. PCA là thuật toán thống kê sử dụng phương pháp biến đổi tuyến tính trực giao nhằm chuyển một tập hợp các quan sát có sự tương quan thành tập các giá trị tuyến tính không tương quan được gọi là thành phần chính (Principal Component - gọi tắt là PC). Tập hợp quan sát với dữ liệu p-chiều được ánh xạ sang miền m-chiều (miền con hay không gian con có m thành phần chính). Số lượng thành phần chính có thể bằng hoặc ít hơn các biến ban đầu. Phương pháp chung để phân tích và phát hiện bất thường là tính khoảng cách thống kê của mỗi tập dữ liệu quan sát tới tâm hay trung bình thống kê của tập dữ liệu. Khoảng cách phổ biến là Euclidean, Mahalanobis. Những phương pháp PCA điển hình là phương pháp phân tích từng thành phần chính, phương pháp phân tích phần dư (dựa trên nhóm PC cuối), phương pháp dựa trên thống kê T2 hay khoảng cách Mahalanobis (sử dụng PC chủ yếu và thứ yếu). 1.4. Nhận xét, đánh giá Qua khảo sát các công trình nghiên cứu phân tích và phát hiện lưu lượng mạng bất thường dựa trên PCA tới nay, có thể đưa ra một số nhận xét, đánh giá như sau:  Vẫn chưa có một công thức bao quát cho tính khoảng cách để từ đó tìm ra các tham số phù hợp với mục tiêu giảm độ phức tạp tính toán song vẫn đạt hiệu quả.
4  Vấn đề sử dụng những thành phần chính nào hiệu quả và giảm được số chiều dữ liệu khi xét đến độ phức tạp của thuật toán.  Đối với các phương pháp PCA sử dụng tập dữ liệu mẫu, ngoại lai có thể xuất hiện trong tập dữ liệu mẫu làm sai lệch profile. Vì vậy việc làm sạch tập dữ liệu mẫu trước khi tạo profile là điều cần thiết. Các nghiên cứu dựa trên PCA tới nay chưa có đề xuất cụ thể nào về phương pháp loại bỏ ngoại lai trong tập dữ liệu mẫu mà thường giả thiết tập mẫu không chứa ngoại lai khi thử nghiệm.  Việc lựa chọn vị trí thu thập, lựa chọn các thuộc tính lưu lượng cần thu thập c ng góp phần quan trọng vào nâng cao hiệu quả phát hiện bất thường. 1.5. Kết luận chƣơng 1 Chương 1 đã trình bày tổng quan về cơ sở lý thuyết và các nghiên cứu liên quan đến đề tài luận án trong đó có nhận xét đánh giá về vấn đề phân tích và phát hiện lưu lượng bất thường với phương pháp PCA, những vấn đề nghiên cứu còn mở làm cơ sở cho những nghiên cứu và đề xuất ở các chương tiếp theo. CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 2.1. Mở đầu Chương 2 trình bày về mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường với dựa trên PCA, đề xuất phương pháp dPCA và thử nghiệm, đánh giá phương pháp đề xuất. 2.2. Mô hình hệ thống dựa trên phƣơng pháp PCA Hệ thống hoạt động theo hai pha: Pha tạo profile: Hệ thống cần tạo trước profile với dữ liệu sạch (dữ liệu không chứa bất thường . Pha này hoạt động ngoại tuyến (offline).
5 Pha phát hiện: Pha này hoạt động trực tuyến online . ỗi quan sát mới chứa các thuộc tính dữ liệu cần chuyển sang miền con của PCA từ áp dụng phương pháp phân tích, phát hiện bất thường. Mô hình chung của hệ thống phân tích, phát hiện lưu lượng bất thường dựa trên PCA bao gồm những thành phần sau:  Thu thập, tiền xử l dữ liệu, tách thuộc tính  Bộ biến đổi PCA: Dữ liệu sau quá trình chuẩn hóa được biến đổi để chuyển sang miền dữ liệu của PCA.  Module phân tích và phát hiện bất thường: thực hiện việc phân tích những thành phần chính nào sử dụng để phát hiện bất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng thái bình thường (profile). Từ profile đã tạo sẽ so sánh với những dữ liệu cần kiểm tra để phát hiện bất thường.  Cảnh báo: Kết quả phát hiện được đưa ra cảnh báo. 2.3. Công thức tính khoảng cách thống kê trong phân tích và phát hiện lƣu lƣợng bất thƣờng. Việc xác định hệ thống ở trạng thái bình thường hay bất thường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt là khoảng cách) của điểm đang xét từ trạng thái bình thường. Các phương pháp tính khoảng cách phổ biến là khoảng cách Euclidean, bình phương Euclidean, Mahalanobis. Những phương pháp khác như khoảng cách Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách Canberra chủ yếu chỉ được sử dụng trong các bài toán thống kê. Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số trong miền con PCA như sau: Khi chuyển sang miền con PCA, khoảng cách Minkowski từ mỗi quan sát đến tâm (gốc tọa độ của miền con PCA) sẽ là: p d   yi c (2.11) i 1
6 Tuy nhiên, mỗi biến có thể có độ biến thiên hoặc đơn vị khác nhau. Đồng thời, trong miền con PCA, không cần thiết phải tính khoảng cách cho tất cả p thành phần chính. Vì vậy, luận án bổ sung trọng số wi phù hợp với mỗi biến để làm giảm sự sai lệch trong công thức tính khoảng cách như sau: q d   wi yi c (2.13) ir Trong đó:d là khoảng cách hình thành từ các thành phần chính yi và trọng số wi tương ứng. wi là trọng số cho thành phần chính yi c là số m của| yi| và là hằng số. p là số thuộc tính ban đầu và là số biến đầu vào 1 r  q  p Trong miền con PCA, nếu chọn tham số thích hợp, ta sẽ thu được những công thức tính khoảng cách để phát hiện bất thường với hiệu quả tương đương với phương pháp đã có. 2.4. Phƣơng pháp PCA Phương pháp dPCA (Distance-based anomaly detection method in PCA subspace là phương pháp phân tích và phát hiện bất thường trong miền con PCA và sử dụng công thức tính khoảng cách (2.13). 2.4.1. Lựa chọn các tham số để tính khoảng cách trong dPCA Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập linh hoạt các tham số cho công thức tính khoảng cách (2.13).  Khi c=2, wi=1, công thức (2.13) trở thành: q d   yi 2  yr 2  yr 12  ...  yq 2 (2.18) i r Công thức này tương đương với công thức được áp dụng trong phương pháp phân tích phần dư của các nghiên cứu đã khảo sát.  Khi c=2, wi ≠ 1:
7 Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai trò là phương sai trong miền con PCA nên có thể chuẩn hóa với λi. q y2 y2 y2 yq2 d   i  r  2  ...  (2.19) ir i r 2 q Công thức 2.19 tương đương với công thức của phương pháp PCA trong các nghiên cứu đã khảo sát áp dụng thống kê T2.  Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan trong miền con PCA: q d   yi  yr  yr 1  ...  yq (2.21) i r  Khi c=1, wi ≠ 1: Do trị riêng đóng vai trò là phương sai trong miền con PCA nên có thể chuẩn hóa các giá trị |yi| với căn bậc hai của trị riêng. q yi yr y2 yq d     ...  (2.22) i r i r 2 q  Nhận xét: - wi=1 phù hợp khi tính d với các thành phần chính khi sự chênh lệch giữa các trị riêng không lớn, đặc biệt là những PC thứ yếu. - wi ≠ 1 phù hợp khi tính d với các thành phần chính khi có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất cả PC để tính khoảng cách. - Độ phức tạp của thuật toán tính khoảng cách:
8 o Khi c=2 độ phức tạp là O(kn2) với k là số PC được sử dụng, n là số lượng quan sát được tính khoảng cách o Khi c=1 độ phức tạp là O(kn). Do đó có thể sử dụng c=1 để giảm độ phức tạp tạp trong tính khoảng cách của dPCA so với các công trình nghiên cứu điển hình dựa trên PCA trước đây. 2.4.2. Sự phân cấp của dPCA Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA. Tất cả PC Cấp 1 PC thứ yếu Chế độ dPCA hoạt động Cấp 2 PC chủ yếu Phân tích từng PC Hình 2.1. Phân cấp trong phương pháp dPCA Trong đó dPCA hoạt động theo 2 cấp:  Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2. Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính khoảng cách d, có thể phát hiện được bất thường có đột biến xuất hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và nên đặt trọng số wi ≠ 1.  Cấp 2: Cấp 2 có các chế độ hoạt động
9 - Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1. - Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà cấp 2 cần xử l . Nhược điểm là phải chờ sau khi cấp 1 xử lý xong, dữ liệu coi là bình thường mới chuyển đến cấp 2. - Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC. dPCA1T chỉ sử dụng một mức ngưỡng cho khoảng cách. Khoảng cách được tính theo công thức (2.13) dùng PC thứ yếu hoặc dùng tất cả PC. Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds). dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng PC chủ yếu nhưng đồng thời c ng làm tăng tỷ lệ cảnh báo sai. Do phát hiện c ng lúc bất thường ở cả PC chủ yếu và thứ yếu, phương pháp này cho kết quả phát hiện bất thường TPR cao hơn một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2 mức ngưỡng thường c ng trả giá bằng tỷ lệ cảnh báo sai cao hơn và tốn nhiều tài nguyên hơn. Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số so với bất thường. Vì vậy nếu tỷ lệ cảnh báo sai tăng lên một chút c ng làm cho số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều.
10 Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường c ng gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC chủ yếu và thứ yếu liên tục có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng cảnh báo sai không cần thiết. Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì t y theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt hẳn cấp 2 nhằm giảm tỷ lệ cảnh báo sai trong điều kiện dữ liệu bình thường chiếm đa số và giảm mức độ tính toán. 2.4.3. Thiết lập mức ngưỡng Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số rất nhạy cảm giữa tỷ lệ phát hiện bất thường chính xác đúng và tỷ lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường). Trong luận án, mức ngưỡng được tính dựa trên hàm phân bố tích l y thực nghiệm (Empirical cumulative distribution function - ECDF). Đây là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm phân bố tích lu . Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân bố tích l y thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF 2.5. Mô phỏng, thử nghiệm Việc thử nghiệm nhằm mục đích đánh giá độ chính xác của phương pháp luận án đề xuất và so sánh với những phương pháp đã có. Tập dữ liệu thử nghiệm dựa trên tập dữ liệu đã được cộng đồng nghiên cứu chấp nhận) là Kyoto Honeypot,. Mỗi quan sát là một kết
11 nối có tổng cộng 14 thuộc tính. Các thông số đánh giá độ chính xác dựa trên các thông số phổ biến của những nghiên cứu đã có bao gồm: - TPR (True Positive Rate): Tỷ lệ giữa số quan sát bất thường phát hiện đúng và tổng số quan sát bất thường thử nghiệm - FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là bất thường và tổng số quan sát bình thường. Để so sánh với các kết quả của những nghiên cứu điển hình đã có, biểu đồ và các bảng thể hiện các nhóm tham số như sau: - Nhóm 1: nhóm sử dụng công thức (2.13) với c=2 và wi=1 tương đương phương pháp phân tích phần dư của những nghiên cứu đã có. Trên biểu đồ ký hiệu tham số (c=2, w=1). - Nhóm 2: nhóm sử dụng công thức (2.13) với c=1, wi=1/ tương đương phương pháp sử dụng thống kê T2 của những nghiên cứu đã có. Trên biểu đồ dạng cột nhóm này có ký hiệu tham số (c=2, w1). - Nhóm 3: nhóm sử dụng công thức (2.13) với c=1,wi=1. Trên biểu đồ nhóm này có ký hiệu tham số (c=1, w=1). - Nhóm 4: nhóm sử dụng công thức (2.13) với c=1, wi = 1/ i . Trên biểu đồ nhóm này có ký hiệu tham số ( c=1, w1). k là số thành phần chính được sử dụng để tính khoảng cách. TP là số kết nối phát hiện đúng Kết quả thử nghiệm thể hiện trên hình 2.3, bảng 2.3 và bảng 2.6. Nhận xét: Khi k=3, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và TPR cao hơn nhóm 1, xấp xỉ nhóm 2. Tỷ lệ cảnh báo sai FPR của nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi tăng số lượng PC lên k=5, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và TPR cao hơn nhóm 1và nhóm 2. Tỷ lệ FPR của nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi k=14 (tất cả PC), dPCA1T nhóm 3 kém hơn nhóm 1 và 2, song dPCA1T nhóm 4 cho kết quả tốt
12 Các nhóm khoảng cách Hình 2.3. Số kết nối bất thường phát hiện đúng Bảng 2.3. Thử nghiệm dPCA1T Mức ngƣỡng: 95% c wi k TPR (%) FPR (%) 2 1 3 92.4 4.7 2 1 5 91.8 5.2 2 1 14 94.4 5.3 2 1/ i 3 94.6 4.9 2 1/ i 5 91.9 5.6 2 1/ i 14 93.8 5.0 1 1 3 94.3 4.8 1 1 5 91.3 5.2 1 1 14 92.1 5.4 1 1/ i 3 94.1 4.3 1 1/ i 5 98.1 4.7 1 1/ i 14 94.4 4.3
13 hơn nhóm 2, xấp xỉ nhóm 1. FPR nhóm 3 và 4 c ng ngang bằng hoặc xấp xỉ nhóm 1, 2.Như vậy khi tăng số PC của dPCA1T (k=5), TPR không thay đổi nhiều. Sử dụng từ 3 đến 5 PC không khác biệt với sử dụng tất cả PC. Vì vậy, trong trường hợp này, số PC thứ yếu chỉ cần lựa chọn là k=3. Áp dụng c=1 trong nhóm 3 và nhóm 4 (trường hợp riêng đề xuất của luận án) có kết quả phát hiện tương đương với áp dụng c=2 của nhóm 1 và 2 (của những nghiên cứu đã có) nhưng độ phức tạp tính toán của việc tính d giảm đi. Bảng 2.4. Thử nghiệm dPCA2T PC ch ếu, PC thứ ếu, TPR FPR c wi k c wi k (%) (%) 2 1/ i 4 2 1 3 99.6 6.3 2 1/ i 4 2 1 5 92.2 6.9 2 1/ i 4 1 1 3 99.9 7.2 1 1/ i 4 1 1 3 100 8.1 1 1/ i 4 1 1 5 97.7 6.9 2 1/ i 4 2 1/ i 3 99.9 8.2 2 1/ i 4 2 1/ i 5 92.2 8.0 1 1/ i 4 1 1/ i 3 99.9 7.1 1 1/ i 4 1 1/ i 5 99.6 7.3 dPCA2T thường cho kết quả TPR cao hơn dPCA1T nhưng không nhiều. Hơn nữa FPR của dPCA2T c ng tăng lên, mức độ tính toán nhiều hơn. So với d ng c=2 các kết quả TPR và FPR của dPCA2T với c=1 c ng gần tương đương. Do vậy có thể sử dụng c=1 trong công thức tính khoảng cách với phương pháp dPCA2T hoặc kết hợp linh hoạt với c=2 trong PC chủ yếu hoặc thứ yếu để giảm độ phức tạp. PC thứ yếu có thể phát hiện những biến đổi nhỏ hơn mà những
14 PC chủ yếu không phát hiện được nên PC thứ yếu thường phát hiện được nhiều bất thường hơn. Để phát hiện nhanh chỉ cần dùng dPCA1T thứ yếu. dPCA2T có thể d ng để quét với tần suất thấp hơn để phát hiện thêm bất thường tại PC chủ yếu. 2.6. Kết luận chƣơng 2 Chương 2 đã đề xuất đề xuất công thức tính khoảng cách mới dựa trên công thức inkowski và phương pháp dPCA. So sánh phương pháp PCA đã có, dPCA được đề xuất hoạt động phân cấp để có thể phát hiện nhanh với PC thứ yếu. Cấp 2 có thể phát hiện bất thường dùng dPCA1T với tất cả PC và dPCA2T. dPCA2T cho phép lựa chọn linh hoạt các tham số hơn các phương pháp đã có trước đây. CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu Ngoại lai trong tập dữ liệu mẫu ảnh hưởng đến profile của trạng thái bình thường và làm sai lệch kết quả phát hiện. Chương 3 đề xuất phương pháp khử ngoại lai trong tập dữ liệu mẫu là udPCA và K- means. Đây là đóng góp mới của luận án mà qua khảo sát các công trình dựa trên phương pháp PCA hiện nay chưa thực hiện. 3.2. Phƣơng pháp phát hiện và khử ngoại lai bằng udPCA Phương pháp udPCA Unclean dPCA d ng để phát hiện ngoại lai trực tiếp trên tập dữ liệu thuộc tính đầu vào. uá trình tạo profile và phát hiện ngoại lai của udPCA được mô tả trong hình 3.2. Trong đó, tập dữ liệu mẫu cần khử ngoại lai được chuẩn hóa, qua biến đổi PCA và tính khoảng cách. Khoảng cách được so sánh với mức ngưỡng để phát hiện ngoại lai. Những dữ liệu bị phát hiện là ngoại lai sẽ bị loại bỏ khỏi tập dữ liệu mẫu. Tập dữ liệu mẫu đã làm sạch sau đó có thể d ng cho phương pháp dPCA. Thực
15 chất udPCA vẫn cần tạo một profile tạm thời để từ đó so sánh mức ngưỡng với các điểm hoặc quan sát. Dữ liệu đầu vào để tạo tập mẫu Chuẩn hóa PCA Tính hoảng cách Mức ngƣỡng So ánh hoảng cách và mức ngƣỡng Phát hiện ngoại lai Hình 3.2. Quá trình phát hiện ngoại lai của udPCA Profile của udPCA không dựa trên tập mẫu mà tạo trực tiếp với dữ liệu thuộc tính đầu vào. udPCA sử dụng tất cả các PC để phát hiện ngoại lai. Lý do là vì khi phát hiện ngoại lai trực tiếp trong tập mẫu, trạng thái bình thường trong profile không ổn định nên ngoại lai có thể xuất hiện ở PC bất kỳ. Vì vậy, udPCA sử dụng phương pháp 1 ngưỡng với đầy đủ các PC để có thể phát hiện được ngoại lai có mức biến thiên lớn ở những PC khác nhau. Để khử được nhiều ngoại lai cần thiết lập ngưỡng ở mức thấp hơn so với phương pháp sử dụng tập dữ liệu mẫu vì nếu đặt mức ngưỡng cao sẽ bỏ qua nhiều ngoại lai. Điều này phải trả giá bằng việc tăng tỷ lệ FPR hay số lượng dữ liệu bình thường bị phát hiện sai tăng lên.
16 Khi khử ngoại lai, không chỉ ngoại lai vượt quá mức ngưỡng bị loại bỏ mà ngay cả những dữ liệu bình thường này c ng bị loại bỏ khỏi tập dữ liệu mẫu. Đây là những dữ liệu bình thường tạo nên khoảng cách lớn hơn những dữ liệu bình thường khác nên sẽ ảnh hưởng đến các tham số trong profile. Sự ảnh hưởng này liên quan đến dữ liệu bình thường có khoảng cách lớn nên những dữ liệu này sẽ có thể bị phát hiện sai là bất thường trong dPCA. Nói cách khác việc loại bỏ những dữ liệu bình thường có khoảng cách lớn sẽ làm cho tỷ lệ cảnh báo sai FPR của dPCA tăng lên. ột k thuật để khắc phục vấn đề này là ngay sau khi thiết lập mức ngưỡng trong profile của dPCA, có thể chỉnh mức ngưỡng lên một khoảng nhất định. 3.3. Phƣơng pháp phát hiện và khử ngoại lai bằng K-Means K-means là thuật toán phân cụm phổ biến được áp dụng trong nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất. Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu: - xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường. - xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm cụm bình thường. Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu của dPCA. 3.4. Thử nghiệm phát hiện và khử ngoại lai
17 Quá trình thử nghiệm c ng được thực hiện trên dữ liệu Kyoto Honeypot. Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng của ngoại lai đến khả năng phát hiện bất thường, khả năng phát hiện ngoại lai của udPCA, khả năng phát hiện ngoại lai của K-means, hiệu quả của việc khử ngoại lai trong tập dữ liệu mẫu. Tập dữ liệu mẫu gồm có 10% là ngoại lai, 90% còn lại là kết nối bình thường. Mức ngưỡng của d được đặt bằng 75% đến 80% của ECDF. Bảng 3.2 trình bày kết quả phát hiện ngoại lai của udPCA, trong đó: - Tỷ lệ phát hiện đúng ngoại lai: là tỷ lệ số lượng ngoại lai phát hiện chính xác trên tổng số ngoại lai trong thử nghiệm. Thông số này thực chất chính là TPR. Tỷ lệ này càng cao chứng tỏ khả năng phát hiện ngoại lai càng cao. - Tỷ lệ phát hiện sai ngoại lai: là tỷ lệ số lượng dữ liệu bình thường phát hiện sai là ngoại lai trên tổng số dữ liệu bình thường thử nghiệm. Thông số này thực chất chính là FPR. Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA T lệ phát hiện đúng T lệ phát hiện c wi k ngoại lai ) ai ngoại lai ) 2 1/ i 14 99.8 16.7 1 1/ i 14 99.4 16.7 2 1/ i 14 100 16.6 1 1/ i 14 99.2 16.7 2 1/ i 14 97.7 17.0 1 1/ i 14 98.8 22.3 Bảng 3.3 là kết quả phát hiện ngoại lai bằng K-means. ức ngưỡng khoảng cách Euclidean dùng trong K-means được xác định tương ứng với 75% đến 80% của hàm phân bố tích l y thực nghiệm. Kết quả cho thấy K-means c ng có thể phát hiện ngoại lai với hiệu quả tương đương với udPCA.
18 Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means T lệ phát hiện đúng T lệ phát hiện ai ngoại lai ) ngoại lai (%) 100 15.2 100 24.1 99.7 21.8 99.3 18.0 Bảng 3.4 biểu diễn kết quả phát hiện của dPCA1T chương 2 trước khi khử ngoại lai cho tập dữ liệu mẫu. Ngoại lai làm ảnh hưởng đến khả năng phát hiện bất thường, cụ thể là làm tỷ lệ TPR suy giảm. Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai Mức ngƣỡng 5 c wi k TPR (%) FPR (%) 2 1 3 42.4 1.4 2 1/ i 3 41.5 1.1 2 1/ i 14 27.8 2.3 1 1/ i 3 29.3 2.2 1 1/ i 14 28.3 2.8 1 1 3 26.4 2.5 Bảng 3.5 biểu diễn kết quả phát hiện của dPCA một mức ngưỡng (dPCA1T) sau khi khử ngoại lai cho tập dữ liệu mẫu. Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai Mức ngƣỡng Mức ngƣỡng 95% 99% TPR FPR TPR FPR c wi k (%) (%) (%) (%) 2 1 3 99.9 15.9 99.9 6.7