Một phương thức phát hiện bất thường trong lưu lượng mạng

Chia sẻ: Wang Ziyi | Ngày: | Loại File: PDF | Số trang:4

Thêm vào BST

Báo xấu

46
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một phương thức phát hiện dấu hiệu bất thường (dPCA) trong lưu lượng mạng dựa trên thuật toán phân tích thành phần chính (PCA). Kết quả thử nghiệm của phương thức phát hiện được đánh giá dựa trên tập dữ liệu tri thức dành cho phát hiện xâm nhập NSL-KDD. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một phương thức phát hiện bất thường trong lưu lượng mạng

HộiHội ThảoThảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Một Phƣơng Thức Phát Hiện Bất Thƣờng Trong Lƣu Lƣợng Mạng Nguyễn Hà Dƣơng Khoa Công nghệ thông tin, Trƣờng Đại học Xây Dựng Hà Nội Email: duongnh@nuce.edu.vn Abstract— Phát hiện lưu lượng mạng bất thường có thể giúp phát ví dụ sự tăng đột biến của lƣu lƣợng ngƣời dùng tới một dịch hiện sớm những nguy cơ tấn công mạng do hoạt động tấn công vụ hoặc sự suy giảm đột ngột lƣu lƣợng do sự cố liên quan đến của tin tặc có thể gây ra sự biến đổi không bình thường của lưu thiết bị mạng. Nếu xét riêng trong lĩnh vực an ninh mạng, chức lượng mạng, nghĩa là những thăng giáng của lưu lượng so với lưu năng của IDS và ADS là nhƣ nhau vì cùng có mục tiêu phát lượng bình thường của mạng. Trong bài báo này, tác giả đề xuất hiện tấn công vào hệ thống. Trong thực tế, phƣơng pháp phát một phương thức phát hiện dấu hiệu bất thường (dPCA) trong hiện của IDS thƣờng dựa trên dấu hiệu biết trƣớc của tập mẫu lưu lượng mạng dựa trên thuật toán phân tích thành phần chính nhƣ đã trình bày ở trên mà các hệ thống điển hình là Snort, Bro (PCA). Kết quả thử nghiệm của phương thức phát hiện được [10, 11]. Trong khi đó, ADS thƣờng dựa trên các phƣơng pháp đánh giá dựa trên tập dữ liệu tri thức dành cho phát hiện xâm và mô hình thống kê, khai phá dữ liệu, học máy v.v.. [1-8]. nhập NSL-KDD. Trong một số nghiên cứu [1-7], phƣơng pháp phát hiện bất Keywords- lưu lượng bất thường; phát hiện lưu lượng bất thƣờng trong lƣu lƣợng mạng dựa trên thuật toán PCA đã thường; phát hiện xâm nhập; an ninh mạng. chứng minh khả năng phát hiện với độ chính xác tƣơng đối cao và có thể ứng dụng trên mạng trực tuyến. Vì vậy, tác giả đã lựa I. GIỚI THIỆU chọn sử dụng PCA đề đề xuất một thuật toán và phƣơng thức Phát hiện sớm các nguy cơ tấn công mạng là một nhu cầu phát hiện lƣu lƣợng bất thƣờng trong mục II. Mục III trình bày cấp thiết trong thực tế. Những hoạt động tấn công thƣờng gây kết quả thử nghiệm của phƣơng thức phát hiện. Mục IV là phần ra những biến đổi không bình thƣờng, những thăng giáng của kết luận của bài báo. lƣu lƣợng mạng, thậm chí tạo ra lƣu lƣợng đột biến so với lƣu lƣợng bình thƣờng trên mạng. Vì vậy việc phát hiện lƣu lƣợng II. PHƢƠNG THỨC ĐỀ XUẤT PHÁT HIỆN LƢU LƢỢNG bất thƣờng có thể giúp sớm tìm ra những dấu hiệu tấn công, BẤT THƢỜNG DỰA TRÊN PCA điển hình là các tấn công DoS, Scan, v.v.. A. Cơ sở thuật toán PCA Một hệ thống phát hiện tấn công hiện nay thƣờng đƣợc gọi với tên: hệ thống phát hiện xâm nhập (Intrusion Detection Phân tích thành phần chính (Principal Component Analysis System - IDS) [8-11]. Trong IDS, nhìn chung có hai phƣơng – PCA) là một thuật toán thƣờng sử dụng để giảm số chiều dữ pháp chính để phát hiện tấn công là: phát hiện dựa trên dấu liệu nhƣng vẫn giữ đƣợc phần lớn đặc tính của dữ liệu. Mỗi trị hiệu và phát hiện bất thƣờng [8]. Phƣơng pháp phát hiện dựa riêng của thành phần chính tƣơng ứng một phần với sự biến trên dấu hiệu (signature-based detection) thƣờng đòi hỏi phải thiên của các thuộc tính hay biến trong dữ liệu. Trị riêng càng biết trƣớc mẫu dấu hiệu tấn công đã lƣu trong cơ sở dữ liệu và lớn thì càng chứa nhiều biến thiên và vector riêng tƣơng ứng so sánh lƣu lƣợng thu đƣợc từ mạng với các mẫu dấu hiệu lƣu phản ánh quy luật biến thiên càng lớn nên càng quan trọng. Do sẵn. Tuy nhiên, phƣơng pháp này chỉ có thể phát hiện đƣợc vậy, những thành phần chính quan trọng nhất cần đƣợc xếp những dấu hiệu tấn công đã biết mà không phát hiện đƣợc các trƣớc các thành phần không quan trọng. loại tấn công mới. Mặt khác, tin tặc có thể dễ dàng thay đổi Dữ liệu trong PCA đƣợc biểu diễn bởi các trục tạo thành một vài chi tiết để biến tấn công trở thành một kiểu mới, không bởi các vector riêng. Trong dữ liệu dùng để huấn luyện không còn chứa dấu hiệu biết trƣớc trong cơ sở dữ liệu tập mẫu để chứa dữ liệu bất thƣờng, những trục tƣơng ứng đƣợc coi là qua đó vƣợt qua đƣợc khả năng phát hiện của phƣơng thức này. bình thƣờng. Những điểm nằm cách xa những trục bình thƣờng Phƣơng pháp thứ hai không đòi hỏi mẫu dấu hiệu biết trƣớc, này có thể nghi ngờ là bất thƣờng. cho phép phát hiện xâm nhập dựa trên hành vi bất thƣờng (hành vi bất thƣờng đƣợc hiểu là hành vi tấn công). Vì vậy, Gọi X là một tập dữ liệu gồm n quan sát với p biến X1, phƣơng pháp này cho phép phát hiện đƣợc những kiểu tấn công X2,… Xp đƣợc tổ chức thành ma trận nxp (n hàng, p cột). Mỗi mới. biến biểu thị một thuộc tính của dữ liệu ban đầu. Mỗi quan sát x=(x1, x2,…,xp)T chứa p thuộc tính khác nhau. Gọi R là ma trận Hệ thống chỉ áp dụng phƣơng pháp phát hiện bất thƣờng tƣơng quan pxp tính đƣợc từ X, (k, ek) là các cặp trị riêng và còn đƣợc gọi với tên hệ thống phát hiện bất thƣờng (Anomaly vector riêng của R đƣợc sắp xếp theo thứ tự giảm dần của trị Detection System - ADS) [8]. ADS không chỉ phát hiện tấn riêng (1 2 … p>0), khi đó thành phần chính thứ i của công mà còn có thể phát hiện những sự kiện bất thƣờng khác, một quan sát x sẽ đƣợc tính nhƣ sau: ISBN: 978-604-67-0635-9 92 92
Hội Hội Thảo Quốc Thảo GiaGia Quốc 2015 vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và CôngNghệ và Công NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) yi eT Một giá trị ngƣỡng dN đƣợc xác định dựa vào hàm phân bố  i z ei1 z1  ei 2 z2  ...  eip z p (1) tích lũy thực nghiệm của độ lệch d (empirical cumulative trong đó: yi là thành phần chính thứ i của quan sát x ban đầu, distribute function - ecdf) và đƣợc tính trên dữ liệu huấn luyện. i=1…p, ei=(ei1,ei2,…,eip)T là vectơ riêng thứ i Khi có một quan sát mới, giá trị d sẽ đƣợc tính dựa trên z = (z1, z2,…,zp)T là vectơ đã chuẩn hóa của x theo công thức: những tham số huấn luyện nhƣ sau: xk  xk  Chuẩn hóa dữ liệu dựa trên giá trị trung bình và căn bậc zk  (2) sk hai của phƣơng sai cho mỗi thuộc tính (biến đầu vào). với xk là giá trị trung bình, sk là phƣơng sai của biến thứ k,  Sử dụng vectơ riêng để chuyển mỗi quan sát mới sang k = 1…p. các trục của miền con PCA. Đối với bài toán phát hiện bất thƣờng, khi xử lý một lƣợng  Tính giá trị d dựa trên (3) và so sánh với ngƣỡng đã dữ liệu lớn nhiều biến sẽ làm tăng thời gian xử lý dữ liệu và tốn thiết lập dN khi huấn luyện tài nguyên của hệ thống. Vì vậy, áp dụng thuật toán PCA có thể giảm thiểu số chiều không cần thiết và tăng hiệu quả tận Nếu d > dN, quan sát mới đƣợc coi là bất thƣờng. Ngƣợc lại dụng tài nguyên hệ thống. quan sát đó đƣợc coi là bình thƣờng. Phƣơng thức phát hiện này trong bài báo đƣợc đặt tên là dPCA. B. Phương thức phát hiện đề xuất (dPCA) Trong [1-3, 6], các tác giả theo dõi sự thay đổi các giá trị III. THỬ NGHIỆM PHƢƠNG THỨC PHÁT HIỆN DPCA thành phần chính và phát hiện sự thay đổi bất thƣờng trên các thành phần chính nhất định. Các thành phần chính có thể phân A. Tập dữ liệu NSL-KDD chia thành những thành phần quan trọng phản ánh quy luật KDD (Knowledge Data Mining Data Set) là những tập dữ biến thiên của lƣu lƣợng y(m) trong trạng thái bình thƣờng của liệu tri thức thuộc các lĩnh vực khác nhau nhƣ: y tế, an ninh hệ thống và những thành phần dƣ thừa phản ánh sự biến thiên mạng, kinh tế .. đƣợc tổng hợp từ những điều kiện thực tế và sử không theo quy luật y(p-m). Trong [1, 6], độ lớn của phần dƣ tái dụng trong các thuật toán, phƣơng pháp khai phá dữ liệu. Một tạo tƣơng ứng với y(p-m) đƣợc phân tích từ đó phát hiện ra những tập dữ liệu hay sử dụng để kiểm nghiệm các phƣơng thức phát dấu hiệu bất thƣờng dựa trên mức ngƣỡng. Một cách tƣơng tự hiện xâm nhập là KDD-CUP 99 [12]. Đây là tập dữ liệu đã qua là tính khoảng cách Euclidean giữa dữ liệu chuẩn hóa z và dữ tiền xử lý từ tập dữ liệu DARPA 1998. KDD-CUP 99 tách ra liệu tái tạo từ những thành phần chính y(m) [2]. Tuy nhiên sự tái những trƣờng dữ liệu đặc trƣng (thuộc tính) từ các gói tin (một tạo lại z từ những thành phần chính y(m) làm tăng mức độ xử lý số thuộc tính nhƣ bảng 1) sau đó tổng hợp lại cho từng kết nối. của hệ thống. Trong [3], khoảng cách Mahalanobis dựa trên Các trƣờng dữ liệu hay thuộc tính trở thành các biến đầu vào thành phần chính chủ yếu và thứ yếu đƣợc sử dụng để phân cho cơ chế phát hiện tấn công. Tổng cộng có 42 trƣờng dữ liệu tích dấu hiệu bất thƣờng. trong đó trƣờng số 42 đánh nhãn (labeling) mỗi kết nối là bình thƣờng hoặc tên một loại tấn công. Dữ liệu đƣợc phân loại Từ những nghiên cứu trên có thể thấy bằng cách theo dõi sự thành các lớp: Bình thƣờng (Normal) hoặc các lớp tấn công biến thiên của các thành phần chính trong miền con của PCA (DoS, PROBE, R2L, U2R). hoặc trong miền gốc ban đầu sau khi tái tạo và so sánh với đƣờng cơ sở đƣợc coi là bình thƣờng, chúng ta có thể phát hiện KDD-CUP 99 tồn tại một số vấn đề mà điển hình là có quá ra dấu hiệu bất thƣờng trong lƣu lƣợng của mạng. nhiều dữ liệu dƣ thừa và trùng lặp [12]. Điều này ảnh hƣởng đến kết quả đánh giá hiệu quả của phƣơng thức phát hiện trong Theo dõi từng giá trị PCA không hiệu quả khi sự biến thiên những nghiên cứu sử dụng tập dữ liệu này [2, 3, 6, 12]. của các biến ban đầu phân tán sang các thành phần chính khác nhau của không gian con PCA. Vì vậy cần kết hợp các thành Bài báo này sử dụng tập dữ liệu NSL-KDD cho việc thử phần chính này lại trong thuật toán phát hiện bất thƣờng. nghiệm thuật toán phát hiện bất thƣờng. NSL-KDD là tập dữ liệu đƣợc phát triển từ tập KDD-CUP 99 nhƣng đã loại bỏ Tiếp theo, bài báo đề xuất một thuật toán phát hiện dấu hiệu những kết nối dƣ thừa hoặc trùng lặp [12]. Do đã khắc phục bất thƣờng trong không gian con của PCA: đƣợc một số nhƣợc điểm quan trọng trong KDD-CUP 99, q NSL-KDD là một tập dữ liệu có độ tin cậy cao hơn KDD-CUP d   wi yi c (3) 99 khi thử nghiệm các phƣơng thức phát hiện bất thƣờng. ir Trong đó: 1  r  q  p , wi là trọng số cho thành phần B. Các thông số đánh giá trong thử nghiệm chính yi đƣợc lựa chọn dựa trên thực nghiệm, d là độ lệch hình True Positive (TP): Sự kiện một mẫu tấn công đƣợc phát thành từ các thành phần chính yi và trọng số tƣơng ứng wi, c là hiện chính xác số mũ của yi. c là hằng số, có thể là số thực hoặc số nguyên. wi , c đƣợc lựa chọn dựa trên thực nghiệm. False Positive (FP): Sự kiện một mẫu bị phát hiện là tấn công nhƣng thực tế lại là mẫu bình thƣờng Tập hợp các giá trị của d đƣợc tính trên tất cả các quan sát với dữ liệu huấn luyện sạch (không chứa bất thƣờng) sẽ tạo nên True Negative (TN): Sự kiện một mẫu bình thƣờng đƣợc đƣờng cơ sở để phát hiện ngoại lai. Vì vậy có thể coi d là độ phát hiện chính xác lệch của mỗi quan sát để xét quan sát đó là bình thƣờng hay bất False Negative (FN): Sự kiện một mẫu đƣợc hệ thống phát thƣờng. hiện là bình thƣờng nhƣng thực tế lại là mẫu tấn công. 93 93
HộiHội Thảo Quốc Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông vàCông Thông và CôngNghệ Nghệ Thông Thông TinTin (ECIT (ECIT 2015) 2015) Precision (Độ chinh xác): Bằng tỷ lệ số mẫu phát hiện tấn rerror_rate % số kết nối có lỗi đồng bộ REJ công chính xác và tổng số mẫu phát hiện là tấn công trong tập dữ liệu kiểm tra diff_srv_rate % số kết nối đến cùng dịch vụ đang xét TP dst_host_count Số lƣợng địa chỉ đích Precision  (4) dst_host_srv_count TP  FP Số lƣợng kết nối đến cùng địa chỉ đích đang xét và cùng dịch vụ đích True Positive Rate (TPR) còn gọi là Recall: Tỷ lệ giữa số mẫu tấn công phát hiện chính xác và số mẫu tấn công thực tế Bảng 2 thống kê kết quả phát hiện với trọng số wi =1 và trong tập dữ liệu kiểm tra hằng số c =1. Công thức (3) trở thành: TP d =| yr|+ |yr+1|+ …+ |yq| (8)  TPR  (5) TP  FN B NG II. KẾT QU THỬ NGHIỆM 1 False Positive (FPR): Tỷ lệ giữa số mẫu tấn công phát hiện sai và số mẫu bình thƣờng trong tập dữ liệu kiểm tra k Precision (%) TPR (%) FPR (%) TA (%) 13 95.3 75.3 3.2 86.8 FP FPR  (6) 3 94.6 87.2 4.3 92.1 TN  FP Total Accuracy (TA) : Độ chính xác tổng bằng số mẫu phát Do trị riêng i phản ánh mức biến thiên của các trục thành hiện chính xác của cả tấn công và bình thƣờng trên số mẫu của phần chính tạo nên bởi vectơ riêng ei nên có thể i đƣa vào tập dữ liệu trọng số wi của công thức (3). Bảng 3 thống kê kết quả phát hiện với trọng số wi = i và TP  TN hằng số c =1. Công thức (3) trở thành: TA  (7) TP  FP  TN  FN C. Thử nghiệm và kết quả d = r |yr|+ r+1 |yr+1|+ …+q|yq|  Quá trình thử nghiệm đƣợc thực hiện dựa trên phần mềm Matlab R2013a. Bài báo sử dụng 1000 kết nối bình thƣờng B NG III. KẾT QU THỬ NGHIỆM 2 dùng để huấn luyện; 50000 kết nối cả tấn công và bình thƣờng đƣợc lựa chọn ngẫu nhiên để kiểm tra độ chính xác của phƣơng k Precision (%) TPR (%) FPR (%) TA (%) thức phát hiện. Do tập dữ liệu có rất nhiều thuộc tính nên bài 13 96.7 68.4 3.3 83.6 báo chỉ lựa chọn những thuộc tính cần thiết đƣợc liệt kê trong bảng 1. Quá trình thử nghiệm lựa chọn tất cả các thành phần 3 95.0 85.6 3.8 92.0 chính và một số thành phần chính cuối cùng từ đó thống kê tỷ lệ phát hiện thành công và cảnh báo sai. Kết quả của phƣơng Bảng 4 thống kê kết quả phát hiện với trọng số wi = i1/ 2 và thức phát hiện bất thƣờng đƣợc thống kê trong các bảng 2-6. hằng số c =1. Công thức (3) trở thành: Giá trị k trong các bảng 2-6 là số thành phần chính. B NG I. THUỘC TÍNH DÙNG TRONG THỬ NGHIỆM  d r1/ 2 yr  r1/21 yr 1  ...  q1/ 2 yq    Features Meaning duration Thời gian của kết nối B NG IV. KẾT QU THỬ NGHIỆM 3 protocol_type Loại giao thức k Precision (%) TPR (%) FPR (%) TA (%) service Dịch vụ (ví dụ HTTP) 13 95.1 69.9 3.1 84.4 src_bytes Số lƣợng byte gửi từ nguồn đến đích 3 94.8 87.6 4.1 92.1 dst_bytes Số lƣợng byte gửi từ đích về nguồn num_access_files Số lƣợng truy nhập file điều khiển Bảng 5 thống kê kết quả phát hiện với trọng số wi = 1/ i và hằng số c =2. Công thức (3) trở thành: Số lƣợng kết nối đến cùng địa chỉ count đích đang xét trong 2s srv_count Số lƣợng kết nối đến cùng dịch vụ yr2 yr21 yq2 đích đang xét trong 2s  d    ...    r r 1 q serror_rate % số kết nối có lỗi đồng bộ SYN 94 94
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) B NG V. KẾT QU THỬ NGHIỆM 4 IV. KẾT LUẬN k Precision (%) TPR (%) FPR (%) TA (%) Trên cơ sở những nghiên cứu về phát hiện lƣu lƣợng bất 13 95.4 80.3 3.4 89.1 thƣờng dựa trên thuật toán PCA, bài báo đề xuất một thuật toán cho đƣờng cơ sở của phƣơng thức phát hiện lƣu lƣợng bất 3 95.1 87.2 3.8 92.1 thƣờng. Kết quả thử nghiệm cho thấy sự thay đổi độ chính xác của của phƣơng thức đề xuất với những tham số khác nhau của Bảng 6 thống kê kết quả phát hiện với trọng số wi = thuật toán đƣờng cơ sở cũng nhƣ số lƣợng thành phần chính. 1/ i và hằng số c =1. Công thức (3) trở thành: Ngoài ra, kết quả cũng cho thấy việc phát hiện bất thƣờng của phƣơng thức đề xuất (dPCA) có thể thực hiện đƣợc với những thành phần chính cuối cùng đƣợc coi là phần dƣ với điều kiện lƣu lƣợng mạng dùng cho dữ liệu tập huấn đầu vào không chứa yr yr 1 yq bất thƣờng (dữ liệu sạch).  d   ...    r r 1 q TÀI LIỆU THAM KH O [1] A. Lakhina, M. Crovella, and C. Diot, “Diagnosing network-wide traffic B NG VI. KẾT QU THỬ NGHIỆM 5 anomalies,” in Proc. of ACM SIGCOMM, pp. 219–230, 2004. [2] W. Wang and R. Battiti, “Identifying Intrusions in Computer Networks k Precision (%) TPR (%) FPR (%) TA (%) with Principal Component Analysis,” in Proc. of IEEE ARES, 2006. 13 95.6 81 3.2 89.3 [3] M. Shyu, S. Chen, K. Sarinnapakorn, L. Chang, "Principal Componentbased Anomaly Detection Scheme", Foundations and Novel 3 95.2 87.1 3.8 92.0 Approaches in Data Mining, Vol. 9, pp. 311-329, 2006. [4] Y. Bouzida, “Efficient intrusion detection using principal component analysis,” in Proc. of 7th World Multiconference on Systemics, Nhận xét: Kết quả thử nghiệm cho thấy khi lựa chọn wi = Cybernetics and Informatics, 2003. 1, wi = i, wi = i1/ 2 có sự chênh lệch tỷ lệ TPR rất lớn giữa k = [5] D. Brauckhoff, K. Salamatian, M. May, “Applying PCA for Traffic 3 và k = 13. TPR cho biết khả năng phát hiện tấn công trong Anomaly Detection: Problems and Solutions,” in Proc. of IEEE INFOCOM, 2009. tổng số tấn công đƣa vào kiểm tra. Điều đó cho thấy các giá trị [6] A. Lakhina, M. Crovella, and C. Diot Diot, “Mining anomalies using ngoại lai thƣờng nằm ở những thành phần chính cuối cùng traffic feature distributions,” in Proc. of ACM SIGCOMM, 2005. đƣợc coi là phần dƣ. Quy luật biến thiên của hệ thống trong [7] L. Mechtri, F.D. Tolba, N.Ghoualmi, “Intrusion detection using điều kiện bình thƣờng khi không có tấn công thƣờng nằm ở principal component analysis,” in Proc. of IEEE ICESMA, 2010. những thành phần chính đầu tiên. Do vậy khi lựa chọn k = 13, [8] M.H.Bhuyan, D.K.Bhattacharyya, J.K.Kalita, “Network Anomaly nếu khuyếch đại các thành phần chính này bằng wi = i, wi = Detection: Methods, Systems and Tools,” in Proc. of IEEE c Communications Surveys and Tutorials, Vol. 16, pp. 303 – 336, 2013. i1/ 2 thì sự chênh lệch của w i yi giữa những thành phần [9] K. Wankhade, S. Patka, R. Thool, “An Overview of Intrusion Detection chính đầu tiên và cuối cùng càng lớn và làm mất đi một số giá Based on Data Mining Techniques,” in Proc. of IEEE CSNT, 2013. trị ngoại lai trong d. So với kết quả trong các nghiên cứu [2, 3, [10] C. Kacha, K. A. Shevade, “Comparison of Different Intrusion Detection 6], tác giả nhận định rằng kết quả đạt đƣợc là tƣơng đƣơng and Prevention Systems,” Intl. Journal of Emerging Technology and nhƣng giảm đƣợc mức độ tính toán cho thuật toán của đƣờng Advanced Engineering, Vol.2, Iss.12, pp.243-245, 2012. cơ sở với công thức (8), (11) và (12). Công thức (8) có thể áp [11] S. Myers, J. Musacchio, N. Bao, “Intrusion Detection Systems: A dụng cho phần dƣ khi sự chênh lệch giữa các thành phần chính Feature and Capability Analysis,” Tech.Report UCSC-SOE-10-12, Jack Baskin School of Engineering, 2010. cuối cùng là không nhiều. Thử nghiệm với công thức (11) và [12] M. Tavallaee, E. Bagheri, W. Lu, A.A. Ghorbani, “A Detailed (12) cho kết quả tƣơng đƣơng nhau nhƣng áp dụng công thức Analysis of the KDD CUP 99 Data Set,” In the Proc. of IEEE (12) giảm đƣợc mức độ tính toán vì trọng số wi là cố định trong CISDA 2009. khi không phải tính bình phƣơng của các thành phần chính. [13] The KDD99 cup data, http://kdd.ics.uci.edu Khi lựa chọn trọng số wi = 1/ i , wi = 1/ i coi nhƣ chuẩn /databases/kddcup99/kddcup99.html, 1999 [14] The NSL-KDD data, http://nsl.cs.unb.ca/nsl-kdd, 2009. hóa yi c trong miền con PCA nên sự chênh lệch TPR không quá nhiều giữa các giá trị k. Đồng thời, kết quả thử nghiệm trong bài báo có độ tin cậy cao hơn [2, 3, 6] vì sử dụng tập dữ liệu  NSL-KDD đã khắc phục đƣợc một số nhƣợc điểm quan trọng ảnh hƣởng đến hiệu quả đánh giá của phƣơng thức phát hiện với KDD-CUP 99.  95 95