intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu

Chia sẻ: Phó Cửu Vân | Ngày: | Loại File: PDF | Số trang:6

8
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu" đề xuất phương pháp tiền xử lý dữ liệu mạng trước khi ảnh hóa để sử dụng với mạng học sâu CNN phân loại đa lớp. Phương pháp được áp dụng để xử lý bộ dữ liệu NSL-KDD dùng tập kiểm tra KDDTest+ riêng cho kết quả rất khả quan. Kết quả cũng cho thấy tiền xử lý dữ liệu vẫn là khâu cần thiết khi áp dụng học sâu vào xây dựng các mô hình phát hiện tấn công mạng. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu

  1. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Phương Pháp Xử Lý Dữ Liệu Trước Ảnh Hóa Để Huấn Luyện Mô Hình Phát Hiện Tấn Công Mạng Dựa Vào Học Sâu Hà Thanh Dũng1, Nguyễn Hồng Sơn2 1Khoa Công nghệ thông tin Trường Đại học Sài Gòn, 2Khoa Công nghệ thông tin II , Học Viện Công Nghệ Bưu Chính Viễn Thông Email: htdung@sgu.edu.vn, sonngh@ptit.edu.vn Abstract— Áp dụng công nghệ học sâu để xây dựng các nổ của hệ thống thông tin đi kèm với đó là sự đa dạng mô hình phát hiện tấn công mạng đang là một xu thế phổ và phức tạp của hoạt động tấn công. biến. Đặc biệt, ảnh hóa dữ liệu mạng tạo ra dạng ảnh quen thuộc đối với mạng CNN(Convolutional Neural Khi công nghệ học máy dần đi vào thực tiễn đã xuất Network) để có sự phân loại tốt như trong thị giác máy hiện nhiều nghiên cứu áp dụng học máy để xây dựng tính là một cách làm rất sáng tạo. Tuy nhiên việc phát các giải pháp phát hiện thích ứng hơn. Ban đầu các hiện nhiều loại tấn công dùng mô hình CNN phân loại đa thuật toán học máy truyền thống như rừng ngẫu nhiên lớp với tập dữ liệu mạng được ảnh hóa vẫn còn hạn chế. (RF- random forests), mạng neural tự tổ chức (SOM- Trong bài báo này chúng tôi đề xuất phương pháp tiền xử Self-Organizing Map), máy vectơ hỗ trợ (SVM - lý dữ liệu mạng trước khi ảnh hóa để sử dụng với mạng support vector machines) và mạng neural nhân tạo học sâu CNN phân loại đa lớp. Phương pháp được áp (ANNs- Artificial Neural Networks) đã được sử dụng dụng để xử lý bộ dữ liệu NSL-KDD dùng tập kiểm tra rộng rãi trong việc phát triển mô hình phân loại xâm KDDTest+ riêng cho kết quả rất khả quan. Kết quả cũng cho thấy tiền xử lý dữ liệu vẫn là khâu cần thiết khi áp nhập mạng dựa trên các dữ liệu thật được thu thập từ dụng học sâu vào xây dựng các mô hình phát hiện tấn mạng. Tuy nhiên, khi các tập dữ liệu ngày càng lớn cả công mạng. về kích thước và số loại tấn công, các thuật toán học máy truyền thống không thể đáp ứng được với môi Keywords- Tiền xử lý dữ liệu, NSL-KDD, CNN trường mạng thực tế như vậy [2]. Đặc biệt, khi yêu cầu I. GIỚI THIỆU độ chính xác cao hơn, giảm tỷ lệ dương tính giả và yêu cầu phát hiện được các cuộc tấn công mới thì các thuật Ngày nay chuyển đổi số là xu hướng tất yếu và các hệ toán học máy thông thường trở nên bất cập [3,4]. Gần thống thông tin đóng vai trò rất quan trọng trong đời đây, sự thành công của việc áp dụng công nghệ học sâu sống, kinh tế và xã hội. An toàn cho các hệ thông tin (Deep Learning) trong các lĩnh vực như thị giác máy càng trở nên cấp thiết trong khi các hình thái tấn công tính và xử lý ngôn ngữ tự nhiên đã tạo động lực cho mạng không ngừng phát triển. Giờ đây các chủ thể tấn các nghiên cứu áp dụng học sâu vào bài toán phát hiện công đã có thể sử dụng trí tuệ nhân tạo (AI) để tăng tấn công mạng. Tuy nhiên không như trong lĩnh vực thị cường các cuộc tấn công dạng công nghệ xã hội (social giác máy tính, kinh nghiệm và kiến thức về học sâu engineering attack) và tận dụng phần mềm độc hại dưới trong lĩnh vực an toàn thông tin còn khá khiêm tốn. Sự dạng dịch vụ MaaS (malware-as-a-service) để thực khác biệt lớn nhất dễ nhận ra đó là khác biệt về dạng hiện các cuộc tấn công của mình[1]. Trong bối cảnh dữ liệu giữa hai lĩnh vực, một bên là dữ liệu ảnh và một như vậy các cơ chế và biện pháp phòng chống cũng bên là dữ liệu gói tin mạng. Để có thể sử dụng mạng phải được cải tiến liên tục và bài toán phát hiện tấn học sâu như CNN cần biến đổi điểm dữ liệu trong công mạng luôn mang tính thời sự. Trong hệ thống an không gian đặc trưng của dữ liệu gói về dạng ma trận ninh mạng bao gồm nhiều thành phần chức năng khác phù hợp với ngõ vào mạng CNN. Và đó là cách làm nhau nhưng chức năng phát hiện luôn là nền tảng. Một phổ biến trong các nghiên cứu gần đây khi dùng dữ liệu hệ thống phòng thủ mạnh trước hết phải mạnh vể năng mạng với các kiến trúc mạng học sâu CNN. Sở trường lực phát hiện. Tuy nhiên thực tế cho thấy phát hiện tấn của các mạng CNN học sâu là khả năng học rất tốt các công không phải là nhiệm vụ dễ dàng, luôn có một tỉ lệ biểu diễn trong dữ liệu ảnh. Để có thể khai thác sở sai sót nhất định. Trong nỗ lực xây dựng hạ tầng phòng trường này đối với dữ liệu thu thập từ mạng, trong thời thủ mạng, các thiết bị được giao nhiệm vụ phát hiện gian gần đây có xu thế biến đổi dữ liệu mạng sang dạng mang tính chuyên trách đã được xây dựng như IDS ảnh, hay còn gọi là ảnh hóa dữ liệu mạng. Nhằm (Intrusion Detection System), IPS (intrusion chuyển dữ liệu mạng sang dạng mà kiến trúc CNN prevention system) hay IDP (intrusion detection and quen thuộc như trong thị giác máy tính. prevention). Trong các thể hệ trước của các thiết bị này thường sử dụng các kỹ thuật dựa vào mẫu tấn công đã Một khía cạnh khác, trong khi tiền xử lý dữ liệu là khâu biết, dựa vào dấu hiệu bất thường hay dựa vào đặc tính mất nhiều công sức cho các mô hình học máy truyền thống kê của các yếu tố nào đó có liên quan. Theo thời thống thì trong mô hình học sâu cho thị giác máy tính gian các kỹ thuật này không còn hiệu quả vì sự bùng gần như không phải tiền xử lý dữ liệu. Đây là điều khá hấp dẫn khi áp dụng học sâu với dữ liệu mạng được ISBN ............ 978-604-80-8932-0 311
  2. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) ảnh hóa. Nhưng điều này có phải là thực tế, đó là lý do được đề xuất trong nghiên cứu [4]. Mô hình này có đưa chúng tôi đến nghiên cứu trong bài báo này. Theo thể giám sát hiệu quả lưu lượng mạng trong thời gian hiểu biết của chúng tôi về áp dụng mô hình học sâu cho thực để cảnh báo quản trị viên hệ thống về các cuộc bài toán phát hiện tấn công mạng sử dụng các bộ dữ tấn công mạng có thể xảy ra. Thiết kế bao gồm một liệu chuẩn phổ biến như KDD CUP 99, NSL-KDD thì mô hình học sâu DNN để xử lý và phân tích dữ liệu độ chính xác trên tập kiểm tra chuẩn vẫn chưa như quy mô rất lớn trong thời gian thực. Các tác giả đã mong muốn, đặc biệt là trong phân loại đa lớp [6]. Do thử nghiệm mô hình trên các bộ dữ liệu khác nhau, đó thay vì ảnh hóa một cách trực tiếp trên dữ liệu mạng bao gồm NSL-KDD. Trên NSL-KDD, kết quả tốt chúng tôi không bỏ qua khâu tiền xử lý mà đã tiến hành nhất để phân loại nhị phân là 80,7% và 76,5% cho một số xử lý trên dữ liệu mạng trước khi ảnh hóa thành phân loại đa lớp. tập dữ liệu ảnh để huấn luyện mô hình theo kiến trúc Trong [10] các tác giả đã phát triển một mô hình CNN. phát hiện xâm nhập bằng DNN. Mô hình được đề Các kết quả có thể xem như là đóng góp từ bài báo của xuất bao gồm bốn lớp ẩn được kết nối đầy đủ và chúng tôi gồm: được đào tạo bằng bộ dữ liệu NSL-KDD. Mô hình (1) Đề xuất phương pháp tiền xử lý dữ liệu mạng khi DNN thu được có độ chính xác cho phân loại hai lớp xây dựng tập ảnh để huấn luyện mô hình học sâu. và năm lớp lần lượt là 84,70% và 77,55%. Mô hình được đề xuất vượt trội hơn các thuật toán học máy (2) Nâng được độ chính xác của mô hình với tập dữ truyền thống, bao gồm NB, J48, RF, Bagging và liệu KDDtest+ được cung cấp trong bộ dữ liệu NSL- Adaboost về độ chính xác. KDD [5,18], cao hơn so với các công trình đã công bố gần đây [4,6,7, 8,9, 10,11,19] Học sâu và học máy truyền thống có thể được kết hợp để cải thiện độ chính xác phát hiện xâm nhập. (3) Cung cấp minh chứng tiền xử lý dữ liệu vẫn rất cần Phương pháp học sâu kết hợp với SVM để phát hiện thiết khi áp dụng mạng học sâu vào xây dựng mô hình xâm nhập mạng đã được đề xuất trong [16]. Bộ mã phát hiện tấn công mạng. hóa tự động được sử dụng để thu thập tập dữ liệu Trong nghiên cứu này chúng tôi sử dụng kiến trúc đào tạo ở ngõ vào, trong khi SVM được sử dụng để CNN để xây dựng mô hình và sử dụng bộ dữ liệu NSL- xây dựng mô hình phân loại. Mô hình được đào tạo KDD [5] để huấn luyện mô hình cũng như kiểm tra và đánh giá bằng bộ dữ liệu NSL-KDD. Độ chính đánh giá tính hiệu quả của mô hình. Để việc đánh giá xác thu được đối với phân loại hai lớp và năm lớp khách quan và cập nhật hơn, chúng tôi cũng tham khảo lần lượt là 84,96% và 80,48%. Những kết quả này kết quả của các công trình tương tự được công bố trong vượt trội hơn hiệu suất của các phương pháp truyền thời gian gần đây để so sánh. Phương pháp được đề thống, chẳng hạn như J48, Bayesian, RF và SVM xuất đã đạt được độ chính xác cao, vượt trội so với các thông thường. mô hình khác đã giới thiệu trong bài báo và được thiết Các tác giả trong [8] đã trình bày một cuộc khảo sát kế để giải quyết bài toán phân loại đa lớp. về các phương pháp học sâu cho các hệ thống phát Phần còn lại của bài báo có bố cục như sau: Phần 2 hiện xâm nhập dựa trên sự bất thường, bao gồm phân tổng quan các công trình nghiên cứu tiêu biểu trong loại các IDS khác nhau và các hướng nghiên cứu những năm gần đây trong nỗ lực xây dựng mô hình trong tương lai. Tương tự, trong [9] cung cấp đánh phát hiện xâm nhập mạng hiệu quả dựa vào học máy giá IDS dựa trên các phương pháp học sâu, cũng và học sâu. Phần 3 trình bày chi tiết phương pháp tiền trình bày các bộ dữ liệu khác nhau được sử dụng xử lý được đề xuất. Áp dụng phương pháp tiền xử lý trong NIDS và hiệu suất của bảy mô hình học sâu được đề xuất để thực hiện các mô hình phân loại đa theo hai bộ dữ liệu về lưu lượng truy cập mới. lớp với tập dữ liệu NSL-KDD được trình bày chi tiết Một mô hình phát hiện xâm nhập mạng dựa vào học trong phần 4, bao gồm kết quả kiểm tra. Bài báo chuyển giao được trình bày trong [11], trong đó sử được kết thúc với một số kết luận về kết quả nghiên dụng mô hình đã được đào tạo VGG-16. Mô hình sử cứu được trình bày trong phần 5. dụng lại các trọng số được đào tạo trước trên tập dữ II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN liệu ImageNet ở phần đầu và huấn luyện phân loại Áp dụng học máy vào xây dựng các mô hình phát tấn công ở phần sau dùng bộ dữ liệu NSL-KDD. hiện xâm nhập đã trở thành một trong những hướng Ngoài ra các tác giả cũng đã cài đặt các mô hình đã nghiên cứu phổ biến nhằm xây dựng các hệ thống được đào tạo khác như VGG19, MobileNet, ResNet- NIDS(Network Based Intrusion Detection System) 50 và Inception V3 để đánh giá và so sánh hiệu suất. có hiệu quả cao. Các thuật toán học máy truyền Kết quả thử nghiệm cho thấy VGG-16 vượt trội hơn thống được sử dụng từ rất sớm giúp xác định những các mô hình đã được đào tạo khác. Độ chính xác thu gói tin bất thường như Naive Bayes (NB), SVM, được lần lượt là 89,30% cho phân loại nhị phân và Random Forest, phân cụm mờ [6,7]. 78,39% cho phân loại 5 lớp. Gần đây hướng nghiên cứu được tiếp nối với việc áp Một mô hình theo hướng kết hợp đã được đề xuất dụng các mạng học sâu DNN (Deep Neural trong [19], sử dụng kết hợp các thuật toán Logistic Network). Một mô hình như vậy có khả năng mở Regression, Random Forest, Naïve Bayes để khai rộng được gọi là Scale-Hybrid-IDS-AlertNet đã thác năng lực phân loại tốt nhất của từng mô hình. ISBN ............ 978-604-80-8932-0 312
  3. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Nghiên cứu này sử dụng bộ dữ liệu NSL-KDD, so Bộ dữ liệu NSL-KDD được tạo ra, như là một phiên sánh dựa trên các tham số đánh giá khác nhau và độ bản đã sửa đổi, tối ưu hóa của KDD’99[5] từ Đại học chính xác thu được là 81,67% cho phân loại 5 lớp. New Brunswick. Đây là một tập dữ liệu đánh giá các Nhìn chung các nghiên cứu phát triển các mô hình bộ phân loại được chính xác hơn vì các bản ghi dư phân loại để phát hiện xâm nhập mạng sử dụng thừa đã được loại bỏ. Bộ dữ liệu này được tải xuống phương pháp học máy thông thường hoặc học sâu từ [18], gồm: tập KDDTrain+ được xem là tập huấn đều thu được kết quả tốt trong phân loại nhị phân (2 luyện đầy đủ với 125973 bản ghi và tập KDDTest+ lớp). Tuy nhiên kết quả phân loại đa lớp vẫn còn hạn được xem là tập kiểm tra đầy đủ với 22544 bản ghi. chế và thấp hơn nhiều so với phân loại nhị phân. Do Mỗi mẫu tin trong tập dữ liệu bao gồm 41 giá trị đó vẫn cần nhiều nỗ lực nghiên cứu cho hướng này. thuộc tính liên quan đến chính lưu lượng, một nhãn III. PHƯƠNG PHÁP ĐỀ XUẤT (tấn công hoặc không tấn công) và một giá trị điểm (mức độ nghiêm trọng của lưu lượng đầu vào). Tập Trong nghiên cứu này, chúng tôi sử dụng kiến trúc dữ liệu NSL-KDD có 4 lớp tấn công bao gồm: Tấn CNN để xây dựng các mô hình phân loại đa lớp áp công từ chối dịch vụ (Denial of Services – DoS), do dụng cho hệ thống phát hiện xâm nhập. CNN là một thám (Probe), User to Root (U2R) và Remote to trong những mạng học tập có khả năng hiểu các cấu Local (R2L). trúc phức tạp và đã ứng dụng thành công trong các nhiệm vụ liên quan đến phân loại hình ảnh, phát hiện Trong khi tập dữ liệu đào tạo có 22 loại tấn công, tập đối tượng và các ứng dụng khác trong thị giác máy dữ liệu test có 37 loại, có đến 17 loại tấn công chưa tính và xử lý ngôn ngữ tự nhiên. Thế mạnh của CNN từng xuất hiện trong bộ dữ liệu đào tạo. Ngoài ra có 2 là tận dụng mối tương quan không gian thời gian loại tấn công trong tập đào tạo không xuất hiện trong trong dữ liệu và học biểu diễn hiệu quả[7]. Mô hình tập dữ liệu kiểm tra. Tất cả những điều này được tạo ra của chúng tôi được xây dựng bằng cách sử dụng bộ nhằm kiểm tra khả năng và mức độ thông minh của các dữ liệu NSL-KDD với tập huấn luyện là KDDTrain+ mô hình học máy. Bảng 1 mô tả các dạng tấn công có và tập kiểm tra là KDDTest+. Để khai thác ưu điểm trong bộ dữ liệu NSL-KDD. Bảng 1: Các dạng tấn công có trong bộ dữ liệu NSL-KDD của CNN, chúng tôi sẽ biến đổi tập dữ liệu NSL- Lớp tấn công Kiểu tấn công KDD từ dạng dữ liệu gói lưu thông trên mạng thành Dos apache2,back,land,neptune,mailbomb,pod,proc hình ảnh, gọi tắt là ảnh hóa dữ liệu mạng. Tuy nhiên esstable,smurf,teardrop,udpstorm,worm(10) chúng tôi đề xuất thực hiện một số bước tiền xử lý R2L ftp_write, guess_passwd, httptunnel, imap, dữ liệu trước khi ảnh hóa và nhờ đó huấn luyện mô multihop, named, phf, sendmail, hình có kết quả khả quan hơn. Sau đây chúng tôi sẽ snmpgetattack, snmpguess, spy, warezclient, warezmaster, xlock, xsnoop(16) mô tả bộ dữ liệu được dùng và chi tiết về phương Probe ipsweep,mscan,nmap,portsweep,saint,satan(6) pháp tiền xử lý được đề xuất. U2R buffer_overflow,loadmodule,perl,ps,rootkit,sql 3.1. Bộ dữ liệu NSL-KDD attack,xterm(7) Hình 1: Các bước tiền xử lý dữ liệu 3.2. Phương pháp tiền xử lý dữ liệu Trong tổng số 41 thuộc tính của bộ dữ liệu NSL- KDD, có 3 thuộc tính ở dạng chuỗi gồm protocol, Chúng tôi đề xuất phương pháp tiền xử lý dữ liệu service, flag và 38 thuộc tính còn lại có giá trị là qua các bước được minh họa trên hình 1, bao gồm số. Các thuộc tính kiểu chuỗi cần phải mã hóa ba bước chính sau đây: thành dữ liệu số để phù hợp với mô hình học máy. (1)Số hóa dữ liệu chuỗi: Biến đổi dữ liệu chuỗi về dạng số. - Thuộc tính protocol biểu diễn kiểu giao thức kết (2)Cân bằng dữ liệu: Cân chỉnh và bổ sung để số nối có 3 giá trị và thuộc tính flag có 11 giá trị lượng giữa các loại mẫu không quá chênh lệch. được sử dụng để biểu thị trạng thái kết nối hoặc (3)Mã hóa các giá trị lớn của các thuộc tính: Biến để xử lý việc kiểm soát một kết nối cụ thể. đổi các giá trị rất lớn xuất hiện trong các thuộc tính Trong bài báo này, chúng tôi đề xuất sử dụng kỹ về dạng biểu diễn bao gồm các giá trị thành phần thuật mã hóa One-Hot[13] đối với các thuộc tính nhỏ theo hệ đếm cơ số 256. protocol và flag. Dữ liệu của các thuộc tính 3.2.1. Số hóa dữ liệu chuỗi protocol, flag được chuyển đổi thành các véc tơ nhị phân. Ví dụ thuộc tính protocol có 3 giá trị ISBN ............ 978-604-80-8932-0 313
  4. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) ICMP, TCP và UDP được biểu diễn thành: (1,0,0), serror_rate, srv_rerror_rate, same_srv_rate, diff_srv_rate, (0,1,0) và (0,0,1). Tương tự, thuộc tính flag có 11 srv_diff_host_rate, dst_host_same_srv_rate, dst_host_diff_srv_rate, dst_host_same_src_port_rate, loại tương ứng, cũng được mã hóa để tạo ra vector dst_host_srv_diff_host_rate, dst_host_serror_rate, nhị phân gồm 11 thành phần. dst_host_srv_serror_rate, dst_host_rerror_rate, dst_host_srv_rerror_rate, rerror_rate. - Thuộc tính service bao gồm 70 giá trị kiểu chuỗi, chúng tôi sử dụng kỹ thuật mã hóa nhãn để chuyển Bảng 4: Các thuộc tính có chứa giá trị lớn hơn 255 đổi thành các số tương ứng cho từng giá trị chuỗi. Số thuộc Số Kiểu dữ Mã hóa nhãn là một kỹ thuật được sử dụng trong TT Tên thuộc tính liệu Miền giá trị tính sau chuyển học máy và phân tích dữ liệu để chuyển đổi các đổi biến phân loại thành định dạng số (sử dụng thư 1 Duration Integers 0 - 54451 2 viện scikit-learn). Từ đây, các giá trị của thuộc 2 Src_Bytes Integers 0 - 1379963888 4 tính service được đổi thành các số từ 0 đến 69. 3 Dst_Bytes Integers 0 - 309937401 4 4 Num_Compromised Integers 0 - 7479 2 Sau bước biến đổi này, trong tập dữ liệu đào tạo 5 Num_Root Integers 0 - 7468 2 số lượng thuộc tính từ 41 được tăng lên thành 53 6 Count Integers 0 - 511 2 thuộc tính. Đây là tập dữ liệu được chúng tôi áp 7 Srv_Count Integers 0 - 511 2 dụng trực tiếp vào đào tạo mô hình phân loại sử Với mục tiêu của bài báo là tiền xử lý dữ liệu và dụng Random Forest khi tiến hành cài đặt và đánh biến đổi dữ liệu ngõ vào CNN ở dạng ảnh, nên mỗi giá các mô hình ở mục 4. thuộc tính được xem là một điểm ảnh, có giá trị từ 3.2.2. Cân bằng dữ liệu [0-255]. Tuy nhiên có một số thuộc tính của dữ Trong tập dữ liệu đào tạo, khi đào tạo phân loại liệu có chứa giá trị rất lớn, trong khi cũng có nhị phân thì phân bố giữa lớp bình thường và tấn những giá trị nhỏ, nếu sử dụng phương pháp thông công là tương đối đồng đều. Nhưng khi tiến hành thường để thay đổi các con số về dải giá trị theo tỉ phân loại với 5 lớp thì phân bố dữ liệu là không lệ sẽ làm thay đổi bản chất của dữ liệu. Vì vậy, đều, thậm chí có sự mất cân bằng khá lớn giữa các chúng tôi đề xuất biến đổi một thuộc tính có chứa phương thức tấn công. Bảng 2 mô tả sự mất cân các con số rất lớn thành nhiều thuộc tính thành bằng rõ rệt giữa các lớp tấn công, đặc biệt có rất ít phần, từ một cột dữ liệu thành nhiều cột dữ liệu. dữ liệu cho các dạng tấn công R2L và U2R. Trên cơ sở biểu diễn con số có giá trị lớn từ hệ đếm thập phân về hệ đếm cơ số 256 theo công thức Bảng 2: Mô tả sự mất cân bằng giữa các lớp tấn công Loại tấn công Số mẫu tin Loại tấn công Số mẫu tin (1) với B=256. Điều này nhằm mục đích bảo toàn Normal 67343 R2L 995 dữ liệu của tập dữ liệu. Dos 45927 U2R 52 𝑛−1 Probe 11656 𝑉𝑎𝑙𝑢𝑒(𝐴𝑡𝑡) = ∑(𝑎 𝑖 𝑥𝐵 𝑖 ) (1) Có một số kỹ thuật xử lý tạo cân bằng cho tập dữ 𝑖=0 liệu, trong đó có nhóm kỹ thuật tự phát sinh mẫu Trong đó: nhằm gia tăng số mẫu cho nhóm thiểu số. Trong • ai là ký số thuộc [0,255]; nghiên cứu này chúng tôi sử dụng phương pháp • 𝑉𝑎𝑙𝑢𝑒(𝐴𝑡𝑡):Giá trị của thuộc tính, lớn ADASYN được đề xuất trong[15]. ADASYN là hơn 255; phương pháp sinh mẫu nhằm gia tăng kích thước mẫu của nhóm thiểu số. Với mỗi một mẫu thuộc • n=Int(LOG (MAX(Value(Att)),B)))+1 nhóm thiểu số sẽ lựa chọn ra k mẫu láng giềng gần Int là hàm lấy phần nguyên, LOG là hàm logaric nhất với nó và thực hiện tổ hợp tuyến tính để tạo và MAX là hàm lấy giá trị lớn nhất. Tham số n là ra mẫu bổ sung. Bảng 3 mô tả số lượng từng loại số lượng thuộc tính sẽ được thêm vào, với giá trị tấn công trong tập dữ liệu huấn luyện trước và tương ứng của từng mẫu tin là bộ giá trị (a0, a1, …, sau khi cân bằng dữ liệu bằng kỹ thuật an-1) ADASYN. Số lượng mẫu tin sau khi tăng cường Ví dụ: Thuộc tính Src_Bytes có giá trị lớn nhất là dữ liệu là 336771 mẫu tin, tăng thêm 210798 mẫu 1379963888, được tính số thuộc tính mới như sau: so với bộ dữ liệu huấn luyện ban đầu. Bảng 3: Phân bố tập dữ liệu huấn luyện trước và sau n=Int(Log(1379963888,256))+1=4 khi xử lý cân bằng 1379963888 = 82𝑥2563 + 64𝑥2562 + 147𝑥2561 + 240𝑥2560 , do Trước khi cân bằng dữ liệu Sau khi cân bằng dữ liệu đó tạo ra được bộ mới 4 giá trị (82,64,147,240). Lớp Số mẫu Lớp Số mẫu Normal 67343 Normal 67238 Như vậy từ thuộc tính Src_Bytes, chúng tôi bổ DoS 45927 DoS 67510 sung 4 thuộc tính. Sau đó thực hiện tương tự với Probe 11656 Probe 67344 các thuộc tính còn lại. Bảng 4 trình bày 7 thuộc R2L 995 R2L 67336 tính có chứa giá trị lớn hơn 255 và số thuộc tính U2R 52 U2R 67343 Tổng cộng 125973 Tổng cộng 336771 được tạo ra sau biến đổi. 3.2.3. Mã hóa các giá trị lớn của các thuộc tính Sau phép biến đổi này, tổng số thuộc tính của tập dữ Đầu tiên giá trị của các thuộc tính là số thực được liệu đào tạo từ 53 trở thành 64 thuộc tính. chuyển thành số nguyên bằng cách nhân với 100. Phương pháp tiền xử lý dữ liệu này được thực hiện Các thuộc tính số thực bao gồm: srv_serror_rate, thống nhất trên cả 2 bộ dữ liệu đào tạo vào kiểm tra. ISBN ............ 978-604-80-8932-0 314
  5. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) IV.ÁP DỤNG PHƯƠNG PHÁP TIỀN XỬ LÝ Với mô hình học sâu dùng CNN chúng tôi sẽ huấn THỰC HIỆN CÁC MÔ HÌNH VÀ KIỂM THỬ luyện và kiểm tra mô hình CNN tương ứng với hai 4.1. Cấu hình máy tính được sử dụng trường hợp tập dữ liệu ảnh nói trên: Chúng tôi tiến hành đào tạo các model dựa vào - Trường hợp 1: Các vector 64 giá trị được chuyển cấu hình thiết bị cơ bản: thành ma trận 8x8x1, tương ứng một ảnh xám. Mô hình được huấn luyện để phân loại 5 lớp tương CPU: Intel® Xeon® @ 2.30GHz, 8 core. ứng với 5 loại lưu lượng trong tập dữ liệu. Kết quả RAM: 64GB chạy tập kiểm tra cho độ chính xác phân loại đa GPU: Tesla T4 15GB lớp là 81,01% 4.2. Xây dựng và thử nghiệm với mô hình dùng - Trường hợp 2: Ảnh màu tương ứng với ma trận Random Forest. 8x8x3. Mô hình được huấn luyện để phân loại 5 Một số thuộc tính của bộ dữ liệu NSL-KDD có phạm lớp tương ứng với 5 loại lưu lượng trong tập dữ vi rất lớn giữa giá trị tối đa và tối thiểu, chẳng hạn liệu. Kết quả chạy tập kiểm tra cho độ chính xác như sự khác biệt giữa giá trị tối đa và tối thiểu trong phân loại đa lớp là 82,6% thuộc tính “duration[0, 58329]”, trong đó giá trị tối Hình 2 là hình ảnh của một số mẫu dữ liệu sau khi đa là 58329 và mức tối thiểu là 0. Cũng có sự khác được ảnh hóa. biệt lớn trong các giá trị của các thuộc tính khác, chẳng hạn như ''src_bytes'' và ''dst_bytes'', do đó làm cho các giá trị thuộc tính khó so sánh được và không phù hợp để xử lý cho các mô hình học máy. Vì vậy, trước khi đưa dữ liệu vào để đào tạo, chúng tôi tiến hành chuẩn hóa bằng cách sử dụng kỹ thuật chuẩn Hình 2 Một số ảnh của các mẫu dữ liệu mạng hóa Min-Max thông dụng để ánh xạ tất cả các giá trị được ảnh hóa thuộc tính vào phạm vi [0, 1]. Việc chuẩn hóa này Công thức đánh giá hiệu năng: được thực hiện dựa vào hàm (2). Để đánh giá hiệu suất của mô hình, các thước đo 𝑥 𝑖 − 𝑀𝑖𝑛 hiệu suất sau được tính toán: Accuracy, Precision, 𝑥𝑖 = (2) Max − Min Recall, và F-score. Trong đó xi biểu thị từng điểm dữ liệu, Min biểu thị (1) Accuracy: Là tỷ lệ phần trăm các bản ghi mức tối thiểu giá trị từ tất cả các điểm dữ liệu và Max được phân loại chính xác và được tính bằng biểu thị mức tối đa giá trị từ tất cả các điểm dữ liệu phương trình (3) sau: cho từng thuộc tính. Accuracy = 𝑇𝑃+𝑇𝑁 (3) Dữ liệu sau khi chuẩn hóa, đào tạo với mô hình học 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 máy sử dụng Random Forest, kết quả chạy tập kiểm (2) Precision: Là tỷ lệ phần trăm bản ghi được tra cho độ chính xác 81,05% cho phân loại đa lớp. phân loại chính xác là bất thường trên tổng số mẫu được phân loại là bất thường. Độ chính 4.3. Xây dựng và thử nghiệm với mô hình học sâu xác được tính bằng phương trình (4) sau: dùng kiến trúc CNN Precision = 𝑇𝑃 (4) Cấu hình các lớp trong mạng CNN được xây dựng 𝑇𝑃+𝐹𝑃 để đào tạo dữ liệu đã được ảnh hóa: (3) Recall: Còn được gọi là tỷ lệ dương tính thực, là tỷ lệ phần trăm mẫu tin được phân loại - 2 lớp tích chập 32 kênh với kernel là 3x3, padding chính xác là bất thường trên tổng số mẫu bất là same hàm kích hoạt relu, 1 lớp maxpool kích thường. Tỷ lệ phát hiện có thể được tính bằng thước 2x2. phương trình (5) như sau: - 2 lớp tích chập 64 kênh với kernel là 3x3, padding 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 (5) là same hàm kích hoạt relu, 1 lớp maxpool kích 𝑇𝑃+𝐹𝑁 thước 2x2. (4) F-score: Là thước đo kết hợp cả độ chính xác - 3 lớp tích chập 128 kênh kernel là 3x3, padding là và tỷ lệ phát hiện. F-score được tính bằng same, hàm kích hoạt relu, 1 lớp maxpool kích thước phương trình (6) như sau: 2x2. 𝐹 − 𝑠𝑐𝑜𝑟𝑒 = 2 ∗ Precision ∗ recall Precision ∗ recall (6) - 1 lớp Flatten Trong đó: - 1 lớp đầy đủ 512 đơn vị sử dụng hàm kích hoạt relu, – TP (True Positive): lượng mẫu dương tính thực 1 lớp đầy đủ 64 đơn vị sử dụng hàm kích hoạt relu. sự được phân loại dương tính. - 1 ngõ ra 5 đơn vị sử dụng hàm kích hoạt Softmax – TN (True Negative): lượng mẫu âm tính thực sự Tập dữ liệu mạng sau tiền xử lý sẽ lần lượt được được phân loại âm tính. ảnh hóa thành hai tập ảnh: tập ảnh xám và tập ảnh – FN (False Negative): lượng mẫu dương tính màu, cả hai đều có kích thước ảnh là 8x8. được phân loại âm tính. – FP (False Positive): lượng mẫu âm tính được phân loại dương tính. ISBN ............ 978-604-80-8932-0 315
  6. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) 4.4. Đánh giá và so sánh kết quả [4] Vinayakumar R, Alazab M, Soman K, et al. “Deep learning approach for intelligent intrusion detection Để kiểm tra mô hình được xây dựng từ phương system”, IEEE Access, Volume: 7, pp. 41525 – 41550 pháp tiền xử lý dữ liệu trước ảnh hóa được đề xuất, [5] Tavallaee M, Bagheri E, Lu W, et al., “A detailed chúng tôi đã chạy mô hình để phân loại đa lớp, cụ analysis of the KDD cup 99 data set”, IEEE thể là năm lớp ứng với 5 loại lưu lượng trong tập Symposium on Computational Intelligence for dữ liệu, gồm lưu lượng thông thường và 4 loại tấn Security and Defense Applications, Ottawa, Canada: IEEE, 2009. pp. 1–6, 08-10 July 2009 công. Sử dụng bộ dữ liệu kiểm tra KDDTest+ gồm [6] Thaseen IS, Kumar CA. “Intrusion detection model 22455 mẫu và so sánh các mô hình dựa trên các using fusion of chi-square feature selection and multi độ đo accuracy(3), precision(4), recall(5), F- class SVM”, J King Saud Univ Comput Inform Sci. Vol. score(6). Bảng 5 mô tả kết quả so sánh giữa kết 29, Issue 4, pp. 462-472, October 2017 quả của nghiên cứu với các nghiên cứu khác được [7] Tama BA, Comuzzi M, Rhee K-H. “TSE-IDS: A two- công bố gần đây. Trong đó mô hình dùng Random stage classifier ensemble for intelligent anomaly-based intrusion detection system”, IEEE Forest là một thuật toán học máy truyền thống có Access,Vol.7,pp.94497–94507, 2019 độ chính xác 81,05% và mô hình CNN dùng ảnh [8] Aldweesh A, Derhab A, Emam AZ, “Deep learning xám có độ chính xác 81,01% là tương đương với approaches for anomaly-based intrusion detection các kết quả trong công trình [14,16,17] và cao hơn systems: A survey, taxonomy, and open issues”, Knowl kết quả trong [11]. Trường hợp mô hình CNN ứng Based Syst., Vol.189, No.105124, 2019 [9] Ferrag MA, Maglaras L, Moschoyiannis S, et al., “Deep với tập huấn luyện là ảnh màu (8x8x3) cho kết quả learning for cyber security intrusion detection: khả quan nhất: các giá trị accuracy, precision, Approaches, datasets, and comparative study”, J Inform recall, F-score lần lượt là 82.6%, 83.80%, Secur Appl. Vol. 50, No. 102419, 24 December 2019 82.50%, 80.90%, trong khi các giá trị tương ứng [10] Altwaijry N, Alqahtani A, Al-Turaiki I, “A deep của nghiên cứu MCNN-DFS[14] là 81.44%, 81%, learning approach for anomaly-based network 84%, 80%. intrusion detection”, In: Tian Y, Ma T, Khan MK (Eds.), First International Conference on Big Data Bảng 5: Bảng So sánh kết quả của các mô hình phân and Security, Nanjing, China: Springer, 2019 loại 5 lớp [11] Mohammad Masum, Hossain Shahriar, Hisham M. Mô hình Accuraycy Precision Recall F-score Haddad. A Transfer Learning with Deep Neural (%) (%) (%) (%) Network Approach for Network Intrusion Detection. VGG-16 +DNN[11] 78.39 International Journal of Intelligent Computing Research, VGG-19 +DNN[11] 74.62 Vol. 12(1), pp. 1087-1095, 2021 MCNN[14] 81.1 83 81 80 [12] Haibo He, Yang Bai, Edwardo A. Garcia, and Shutao MCNN-DFS[14] 81.44 81 84 80 L, “ADASYN: Adaptive Synthetic Sampling Approach RNN-IDS[17] 81.29 for Imbalanced Learning”, 2008 IEEE International SVM[16] 80.48 Joint Conference on Neural Networks (IEEE World Random Forest 81.05 88.02 81.30 83.02 Congress on Computational Intelligence), 2008 CNN ảnh xám 81.01 84.00 81.01 79.76 [13] Kedar Potdar, Worli Mumbai, “A Comparative Study CNN ảnh màu 82.6 83.80 82.50 80.90 of Categorical Variable Encoding Techniques for Neural Network Classifiers”, International Journal of Computer V. KẾT LUẬN Applications, Vol. 175, No. 4, 2017 Phương pháp tiền xử lý dữ liệu mạng trước ảnh [14] Isra Al-Turaiki1,*,i and Najwa Altwaijry, “A hóa cho các mô hình phát hiện tấn công mạng Convolutional Neural Network for Improved dùng CNN đã được đề xuất. Phương pháp đã được Anomaly-Based Network Intrusion Detection”, Mary Ann Liebert, Inc., Vol. 9, No. 3, 2021 áp dụng vào xây dựng mô hình phân loại đa lớp [15] Y. Chuan-long, Z. Yue-fei, F. Jin-long, and H. Xin- để có thể phát hiện từng loại tấn công khác nhau. zheng, “A Deep Learning Approach for Intrusion Các trường hợp mô hình đã được thực hiện gồm Detection using Recurrent Neural”, Networks, IEEE mô hình dùng Random Forest và CNN. Trong đó, Access, vol. 5, pp. 11, 2017. mô hình học sâu CNN với tập dữ liệu ảnh màu đã [16] Al-Qatf M, Lasheng Y, Al-Habib M, et al., “Deep được tiền xử lý cho kết quả vượt trội so với các learning approach combining sparse autoencoder with SVM for network intrusion detection”, IEEE Access., trường hợp khác. Kết quả chứng tỏ tính hiệu quả Vol. 6, pp. 52843–52856, 2018 của phương pháp tiền xử lý được đề xuất và cũng [17] Chuanlong Yin , Yuefei Zhu, Jinlong Fei, And cung cấp một minh chứng cho tiền xử lý vẫn cần Xinzheng He, “A Deep Learning Approach for thiết khi áp dụng học sâu vào các ứng dụng mà dữ Intrusion Detection Using Recurrent Neural liệu sinh ra không phải là dạng ảnh. Networks”, IEEE Access, Vol. 5, pp. 21954 – 21961, 2017. TÀI LIỆU THAM KHẢO [18] NSL-KDD dataset, tải online tại trang web: [1] Raja Patel, Protecting Against Sophisticated https://www.unb.ca/cic/datasets/nsl.html Cyberattacks Requires Layered Defenses, Forbes [19] V.J.Immanuel Jeo Sherin,Dr.N. Radhika, “Stacked Technology Council, Aug 9, 2023 Ensemble-IDS Using NSL-KDD Dataset”,Journal of [2] Lina Zhou, Shimei Pan, Jianwu Wang, Athanasios Pharmaceutical Negative Results,Vol.13,No.3, 2022 V. Vasilakos,”Machine learning on big data: Opportunities and challenges”, Neurocomputing., Volume 237, pp. 350-361, 2017 [3] Liu H, Lang B., “Machine learning and deep learning methods for intrusion detection systems: A survey”. Appl Sci. Vol.9(20):4396, 2019 ISBN ............ 978-604-80-8932-0 316
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2