Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên

Chia sẻ: Wang Ziyi | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

38
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất phương pháp trích chọn các đặc trưng mới cho vấn đề nhận biết các yêu cầu kết nối HTTP ở dạng bình thường hay bất thường. Các đặc trưng này được trích xuất từ thông tin liên quan đến phương thức HTTP, địa chỉ URL và payload của yêu cầu kết nối. Các thử nghiệm được thực hiện sử dụng các bộ phận lớp hồi quy logistic, máy hỗ trợ véc tơ, XGBoost và rừng ngẫu nhiên trên bộ dữ liệu HTTP DATASET CSIC 2010. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên

Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên Nguyễn Hồng Quang và Hoàng Phú Hoan Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nôi Email: quangnh@soict.hust.edu.vn, hoangphuhoan2012@gmail.com Abstract— Vấn đề ngăn chặn tấn công Web là một vấn đề quan Một nhược điểm quan trọng của phương pháp tiếp cận trọng để duy trì sự họat động hiệu quả của các Website. Trong signature-based là phương pháp này lại không có khả năng nghiên cứu này, chúng tôi đã đề xuất phương pháp trích chọn các phát hiện đối với các lỗ hổng chưa được công bố. Đây chính là đặc trưng mới cho vấn đề nhận biết các yêu cầu kết nối HTTP ở phương pháp mà các hacker mũ đen chuyên nghiệp thường dạng bình thường hay bất thường. Các đặc trưng này được trích xuất từ thông tin liên quan đến phương thức HTTP, địa chỉ URL dùng để tấn công vào các hệ thống quan trọng, được bảo vệ kĩ, và payload của yêu cầu kết nối. Các thử nghiệm được thực hiện tuy nhiên các phương pháp bảo vệ này hầu hết lại chỉ có tác sử dụng các bộ phân lớp hồi quy logistic, máy hỗ trợ véc tơ, dụng đối với các dạng tấn công đã biết. XGBoost và rừng ngẫu nhiên trên bộ dữ liệu HTTP DATASET Một xu hướng nổi lên trong các nghiên cứu gần đây là sử CSIC 2010. Kết quả đạt được độ chính xác 98% với bộ phân lớp dụng mô hình học máy trong việc phát hiện tấn công web [4]. hồi quy logistic và 100% với ba phương pháp còn lại. Điều này Mô hình học máy này thay vì việc phải cập nhật các phương khẳng định các đặc trưng mới là rất hiệu quả cho vấn đề này. pháp bảo vệ chống lại các phương thức tấn công mới thì sẽ chỉ cần dựa trên các thuộc tính, đặc điểm của các yêu cầu HTTP Keywords- yêu cầu kết nối HTTP, trích chọn đặc trưng, phát hiện bất thường, an ninh mạng, hồi quy logistic, máy hỗ trợ véc tơ, tới Website để xác định yêu cầu này là bình thường hay bất rừng ngẫu nhiên. thường. Ưu điểm của phương pháp này ở việc dễ dàng bảo trì, mở rộng, không cần có đội ngũ theo dõi và cải tiến ngày đêm để cập nhật khả năng đánh chặn đối với các kiểu tấn công mới. I. GIỚI THIỆU Phần tiếp theo mô tả phương pháp tiền xử lý và trích chọn Ngành công nghệ thông tin càng phát triển thì đồng thời đặc trưng. Phần 3 mô tả tập dữ liệu và các thử nghiệm. Cuối khả năng mất an toàn thông tin càng cao. Đặc biệt với các ứng cùng là kết luận. dụng public rộng rãi đối với người dùng như một Website thì II. TIỀN XỬ LÝ VÀ TRÍCH CHỌN ĐẶC TRƯNG khả năng trở thành mục tiêu tấn công lại càng lớn. Điều này đặt 2.1. Tiền xử lý dữ liệu ra một yêu cầu cấp thiết phải nâng cấp khả năng phòng chống Đầu tiên dữ liệu sẽ được xử lý bởi bước tiền xử lý. Bước tấn công cho các website. Để giúp các Website có khả năng tự này thực hiện loại bỏ đi các thành phần không cung cấp thông bảo vệ mình, các công ty về an ninh mạng đưa ra các ứng dụng tin cho quá trình phân loại. Dữ liệu được giữ lại bao gồm: bảo vệ Website tự động được gọi chung với tên WAF (Web  Phương thức: chứa thông tin về phương thức được sử Application Firewall). Công nghệ này chủ yếu phát hiện và dụng trong yêu cầu. Trong trường hợp của tập dữ liệu chặn các tấn công website dựa trên việc phân tích các yêu cầu này thì có ba phương thức được sử dụng đó là GET, HTTP (HTTP traffic) dựa trên phương pháp signature-based [1] POST, PUT. Thông tin này có ý nghĩa quan trọng đối [5][7][8]. Phương pháp này chủ yếu tập trung vào việc phân với cách thức Server xử lý yêu cầu. tích đặc điểm của các kiểu tấn công, từ đó các chuyên gia về  URI: đây là dữ liệu cung cấp thông tin về tài nguyên bảo mật sẽ tạo ra các luật mới nhằm lọc và ngăn chặn các yêu được yêu cầu truy cập trên Server. Các dữ liệu này cầu bất thường (abnormal traffic) thỏa mãn các điều kiện của phản ánh nhu cầu truy vấn thực sự của máy khách. các luật này. Nói cách khác là các yêu cầu giống với các đặc Phần này cũng xác định các dữ liệu sẽ được người điểm của một tấn công đã biết trước thì sẽ bị ngăn chặn. Điều dùng cung cấp cho Server (nếu có). đó đòi hỏi cần có một đội kỹ sư bảo mật luôn luôn túc trực để  Payload: đây là dữ liệu quan trọng nhất trong bộ dữ liên tục cập nhật các luật để chống lại các kiểu tấn công mới liệu. Phần này chứa toàn bộ dữ liệu chính mà người được phát hiện. Trong bối cảnh có rất nhiều kiểu traffic tấn dùng gửi lên Server cũng như là dữ liệu chủ yếu trong công khác nhau, trong đó lại có các hình thức tấn công phức việc phân tích, xử lý của Server đối với yêu cầu tương tạp, rất khó viết luật thì phương pháp này sau một thời gian sẽ ứng. dẫn tới vấn đề là khó duy trì, quản lý. Ngoài ra theo thời gian, Các dữ liệu được loại bỏ gồm có toàn bộ các trường dữ liệu tập luật càng lớn thì thời gian xử lý sẽ càng lớn, từ đó gây ra trong phần đầu của yêu cầu HTTP như Host, Protocol, User- một loạt các vấn đề khác liên quan đến duy trì tính hoạt động Agent, Cache, Accept, Cookies, Connection... Các dữ liệu trên hiệu quả của hệ thống như bộ nhớ, băng thông, ... hoặc là đều chứa một giá trị duy nhất đối với tất cả các yêu cầu hoặc là chứa dữ liệu khác nhau đối với từng yêu cầu theo một 230
định dạng hoàn toàn giống nhau nên được coi là không có giá Việc kiểm tra độ dài của URL là một thuộc tính mang lại trị đối với quá trình xử lý. thông tin hữu ích vì trong quá trình hacker thu thập thông tin 2.2. Trích chọn đặc trưng hay trong quá trình khai thác nhiều loại lổ hổng phổ biến thì độ Trong nghiên cứu này, chúng tôi đưa ra các đặc trưng mới dài của URL cũng thay đổi nhiều. Giá trị trả về là độ dài của dựa trên các nghiên cứu về bảo mật Web. Chúng tôi chia nhóm URL. các đặc trưng cần thiết cho quá trình phát hiện tấn công vào ba Ví dụ: http://localhost:8080/travelnet/home.jsp => giá trị trả nhóm lớn bao gồm: về là độ dài len(“/travelnet/home.jsp”)  Phương thức: bao gồm các đặc tính liên quan tới b4. Đếm số lượng kí tự đặc biệt (không phải các chữ cái bình phương thức gửi dữ liệu lên Server. thường trong URL)  URL: bao gồm các đặc tính liên quan tới URL. Thuộc tính này dựa trên đánh giá về việc trong quá trình thu  Payload: bao gồm các đặc tính liên quan tới dữ liệu thập thông tin trên Server thì hacker thường sử dụng một số được gửi lên Server. các công cụ quét để tìm ra toàn bộ các đường dẫn được ẩn dấu a. Đặc trưng trích xuất từ phương thức của yêu cầu HTTP trên server. Do vậy điều này sẽ khiến cho trong đường dẫn xuất Đây là một thuộc tính quan trọng vì hacker có thể sử dụng hiện thêm nhiều kí tự như “/”, “.”, “#” … Đây là một trong những phương thức như PUT, DELETE … để thực hiện các những đặc điểm để phát hiện tấn công. Giá trị trả về sẽ là số yêu cầu lên Server thay vì những phương thức thông thường lượng kí tự đặc biệt trong URL. Ví dụ: như GET, POST. Trong tập dữ liệu này để mô tả phương thức http://localhost:8080/6909030637832563290.jsp.OLD => giá được sử dụng trong yêu cầu, mỗi phương thức được biểu diễn trị trả về là 22. bởi một giá trị số tương ứng: GET -> 1, POST ->2, PUT -> 3. c. Các đặc trưng trích xuất từ payload Ví dụ: c1. Xuất hiện các kí tự nằm ngoài bảng mã so với tập học PUT http://localhost:8080/tienda1/publico/anadir.jsp Thông thường thì khi sử dụng một ứng dụng Web, một HTTP/1.1 => giá trị trả về là 3 người dùng thông thường sẽ chỉ đơn giản là sử dụng các chức b. Các đặc trưng trích xuất từ URL năng có sẵn của Website đó. Khi đó dữ liệu được gửi lên b1. URL không tồn tại Server là những dữ liệu đã được chuẩn bị từ trước và luôn bao Nếu là một người dùng thông thường thì việc truy cập vào gồm những kí tự có ý nghĩa và in được. Mặt khác, hacker một địa chỉ URL không tồn tại là một việc rất ít khi có thể xảy thường sử dụng những kí tự dưới dạng đã được mã hóa khi ra và nếu có thì cũng là do tính năng đó không còn được hỗ trợ muốn khai thác các lỗ hổng liên quan tới tràn bộ đệm hay giới từ phía ứng dụng Web. Tuy nhiên, đối với hacker thì việc truy hạn độ dài kí tự. Vì vậy, ta có thể coi đây như là một dấu hiệu cập vào các URL không tồn tại lại là một trong các bước để thu của việc tấn công. Nếu dữ liệu trong requests mới có xuất hiện thập thông tin của Server. Bằng cách cố gắng truy cập vào các các kí tự nằm ngoài bảng mã thì giá trị của thuộc tính này sẽ là URL không tồn tại, các file backup, file default, admin-site, 1, ngược lại là 0. Ví dụ: hacker có thể thu thập được các thông tin về hệ điều hành, cấu http://localhost:8080/tienda1/publico/entrar.jsp?errorMsg= hình, phiên bản Web-Server hoặc thậm chí là mã nguồn của %2B => giá trị trả về là 1. Website. Để khai thác đặc điểm này, chúng tôi đã tạo ra một c2. Đếm các kí tự đặc biệt, thường được sử dụng trong các tấn danh sách bao gồm tất cả các URL của Website dựa vào việc công Web phổ biến phân tích tập dữ liệu ban đầu. Sau đó tiến hành so sánh các Dựa vào kinh nghiệm nghiên cứu về bảo mật Web cùng với URL trong yêu cầu HTTP với danh sách này để xác định xem tham khảo các tài liệu liên quan, chúng tôi đã thống kê ra một URL trên có tồn tại hay là không. URL tồn tại là URL giống số các kí tự thường được sử dụng trong tấn công Web như SQL với một trong các URL trong tập training. Nếu URL không tồn injection, XSS, LFI, command injection … cũng như không tại thì giá trị của thuộc tính là 1, ngược là thì giá trị sẽ là 0. xuất hiện trong tập dữ liệu thường. Ví dụ như: "/>", "*", "/*", Ví dụ: "*/", "'", '"', "#", "-- -", "[", "]". Giá trị của thuộc tính này sẽ là http://localhost:8080/tienda1/publico/pagar.jsp~ => đường dẫn số lượng mẫu nêu trên xuất hiện trong payload. Ví dụ: được hacker sử dụng để tìm các file bản sao trên server => http://localhost:8080/tienda1/publico/autenticar.jsp?modo=1 or không tồn tại => trả về 1 1=1-- - => giá trị trả về là 1. b2. Kiểm tra kí tự và string bất thường trong URL c3. Đếm số lần xuất hiện các từ khóa mang khả năng tấn công Tập kí tự và string bất thường được định nghĩa bao gồm: OWASP TOP 10 [16] là một bản báo cáo hàng năm để "~", "backup", "bak", "zip", "sql", "%". Đây là những kí tự và thống kê lại các lỗ hổng được đánh giá là nguy hiểm và phổ từ khóa thường được hacker sử dụng trong việc tìm kiếm biến nhất trong năm. Dựa vào báo cáo này, chúng tôi đã thống những tài liệu sao lưu, file cơ sở dữ liệu, những file được giấu kê ra một loạt các lỗ hổng hay gặp phải ở các hệ thống trên Server hoặc đơn giản chỉ là hacker đang thực hiện việc tìm Website, từ đó lập ra danh sách một số các từ khóa thông dụng kiếm trên URL để thu thập nhiều thông tin nhất có thể trên thường được sử dụng để tiến hành các cuộc tấn công web. Ví Website. Nếu có tồn tại kí tự bất thường thì giá trị thuộc tính dụ như: “union select”, “order by”. “1=1-- -”, “/etc/passwd”, bằng 1, ngược lại thì bằng 0. Ví dụ: “onerror=” … Giá trị của thuộc tính sẽ là số lượng các pattern http://localhost:8080/tienda1/miembros/imagenes.BAK => được tìm thấy trong payload. Ví dụ: đường dẫn được hacker sử dụng để tìm kiếm file backup trên http://localhost:8080/tienda1/publico/pagar.jspmodo=/etc/pass Server => có chứa từ khóa bất thường => trả về 1 wd => giá trị trả về sẽ là 1 b3. Độ dài của URL c4. Xuất hiện giá trị nằm ngoài tập hữu hạn của một thuộc tính 231
Trong một ứng dụng Web thì các tham số được truyền lên Ví dụ: modo=entrar&login=modestin&pwd=es Server do một người dùng thực sự tương tác với Website đó %27pec%27ia%2Fl => giá trị trả về là 42 thường là xác định và trong một số trường hợp thì giá trị của 2.3. Nhận dạng phân loại truy vấn HTTP các tham số đó cũng chỉ nằm trong một tập hữu hạn. Ví dụ như Để thực hiện nhận dạng phân loại HTTP thành 1 trong hai giá trị của biến “Submit” thường là “submit” đối với giao diện loại bình thường và bất thường, chúng tôi tiến hành áp dụng đăng nhập hay ID của một sản phẩm thì thường cũng chỉ có giá nhiều mô hình học máy khác nhau, kết hợp cùng với các nhóm trị trong một dải từ 0 đến N với N là số lượng của sản phẩm thuộc tính đã được giới thiệu thiệu ở phần trước. Các phương đó… Dựa vào đặc điểm này cộng với việc phân tích tập dữ liệu pháp học máy được tiến hành thử nghiệm bao gồm: hồi quy bình thường ban đầu, chúng tôi lọc ra các tham số có số lượng logistics (Logistic Regression), máy hỗ trợ véc tơ (Support giá trị là hữu hạn và sau đó sẽ so sánh giá trị của các tham số Vector Machine), XGBoost, rừng ngẫu nhiên (Random Forest). này trong các yêu cầu mới với tập hữu hạn đó. Nếu giá trị đó Các phương pháp được đánh giá dựa trên thông số là tỷ lệ phát không nằm trong tập được xác định từ trước thì đó sẽ là một hiện đúng (TPR - True Positive Rate). Quá trình đánh giá áp dấu hiệu cho thấy đó là một yêu cầu do hacker gửi lên. Lý do là dụng phương pháp đánh giá chéo K tập, tức là tập dữ liệu ban vì việc chèn dữ liệu không bình thường vào dữ liệu của người đầu sẽ được chia làm 10 phần bằng nhau, sau đó từng phần một dùng là một việc làm phổ biến của hacker khi muốn khai thác sẽ được chỉ định làm tập đánh giá, chín phần còn lại sẽ dùng lỗ hổng của ứng dụng web. Nếu request gửi lên xuất hiện giá trị làm tập học. Giá trị trung bình của FPR sẽ được dùng để đánh nằm ngoài tập hữu hạn thì giá trị của thuộc tính sẽ là 1, ngược giá hiệu năng của từng mô hình. lại thì là 0. Ví dụ: III. THỬ NGHIỆM VÀ ĐÁNH GIÁ http://localhost:8080/tienda1/publico/anadir.jsp? 3.1. Tập dữ liệu id=aaaaaaaaaaaaaaaa => giá trị trả về sẽ là 1 Nghiên cứu trong bài báo này được thực hiện trên tập dữ c5. Trật tự các thuộc tính đối với từng URL cụ thể hoặc xuất liệu CSIC 2010 [14]. Bộ dữ liệu này được công bố bởi hội hiện thuộc tính nằm ngoài các thuộc tính có thể xuất hiện đồng nghiên cứu quốc gia Tây Ban Nha và cập nhật lần cuối Nếu là một người dùng thông thường, người sử dụng các vào năm 2012. Các yêu cầu HTTP trong bộ dữ liệu được tạo chức năng của Website như đúng những gì được người phát một cách tự động bằng cách mô phỏng những yêu cầu thật với triển thiết kế thì chắc chắn rằng dữ liệu do người dùng gửi lên mục tiêu là một trang Web thương mai điện tử với các chức Server sẽ luôn có một dạng xác định vì dạng này đã được lập năng cơ bản như đăng kí, giỏ hàng… trình từ trước và gửi lên nhờ vào các biểu mẫu HTML hay Javascript. Dựa vào đặc điểm này, từ việc phân tích tập dữ liệu Bảng 1. Kết quả nhận dạng phân loại các yêu cầu truy nhập ban đầu ta sẽ lập ra một tập các tham số theo thứ tự xác định HTTP theo dạng bất thường hay không bất thường sử dụng bộ cùng với địa chỉ URL tương ứng. Sau đó sẽ dùng cơ sở dữ liệu phân lớp hồi quy logistic với các bộ đặc trưng. Trong bảng này này để đối chiếu tới trật tự các tham số được gửi lên trong yêu N là tổng số đặc trưng, FPR là tỷ lệ nhận dạng đúng truy vấn cầu cần dự đoán. Nếu trật tự các tham số trong yêu cầu mới bất thường. không đúng so với trật tự chuẩn đã được lưu lại gắn liền với URL tương ứng thì giá trị của thuộc tính sẽ là 1, ngược lại thì là Tập đặc trưng N FPR 0. Ví dụ: id=1&xxxxx=JamF3n+IbE9rico&random_hacker_para=85 Trích xuất từ method 1 0.78 => giá trị trả về là 1 Trích xuất từ URL 4 0.95 c6. So sánh độ lệch về độ dài của một payload với mức trung bình đối với URL nhất định. Trích xuất từ payload 7 0.98 Thuộc tính này dựa trên việc khi hacker muốn chèn các dữ Trích xuất từ method and URL 5 0.76 liệu bất thường vào một truy vấn để tiến hành khai thác các lỗ hổng như SQLi, buffer overflow, LFI, XSS .. thì dữ liệu được Trích xuất từ method and payload 8 0.99 thêm vào truy vấn sẽ có độ dài thay đổi nhiều so với độ dài ban Trích xuất từ URL and payload 11 0.98 đầu. Do đó ta có thể sử dụng sự chênh lệch này như là một thuộc tính. Giá trị thuộc tính được tính toán như sau: p = (l- Trích xuất từ method, URL and 12 0.99 u)/u, trong đó p là giá trị thuộc tính, l là độ dài của câu truy vấn payload trong yêu cầu hiện tại, u là độ dài trung bình của truy vấn đó xét trên tập huấn luyện Tập dữ liệu bao gồm 36000 yêu cầu bình thường và hơn Ví dụ: modo=entrar&login=modestin&pwd=es 25000 yêu cầu bất thường. Tập kí tự được sử dụng là các kí tự %27pec%27ia%2Fl => giá trị trả về là (42-32)/32 = 0,3125 Latin. Các yêu cầu độc hại bao gồm rất nhiều loại như các kiểu (giả sử độ dài trung bình của payload của url tương ứng là 32) tấn công như SQL injection, XSS, Local File Inclusion, CRLF c7. Độ dài của truy vấn (payload) injection, lộ lọt thông tin, buffer overflow… Cấu trúc của mỗi Việc kiểm tra độ dài của câu truy vấn là một thuộc tính yêu cầu trong tập dữ liệu bao gồm đầy đủ các thành phẩn của mang lại thông tin hữu ích vì trong quá trình hacker thu thập một HTTP request như method, host, url, query, phiên bản http, thông tin hay trong quá trình khai thác nhiều loại lổ hổng phổ User-Agent, Cookie, Connection… biến thì độ dài của truy vấn cũng thay đổi nhiều. Giá trị trả về là độ dài của payload. 232
3.2. Các phương pháp thử nghiệm nhận dạng RandomForest. Tuy nhiên do đặc thù của bộ dữ liệu mà nghiên Các thử nghiệm nhận dạng phân loại yêu cầu HTTP bình cứu này mới chỉ tập trung vào việc phát hiện tấn công dựa trên thường hay bất thường được thực hiện để đánh giá ảnh hưởng dữ liệu thu thập từ URL, payload, phương thức. Trong khi đó, của tập đặc trưng đề xuất, bao gồm : thực tế hacker có thể thực hiện nhiều loại tấn công Web thông  Chỉ sử dụng đặc trưng trích xuất từ phương thức. qua các trường khác trong header như Cookies, User-agent…  Chỉ sử dụng đặc trưng trích xuất từ URL. Vì vậy trong tương lại, chúng tôi sẽ tiếp tục nghiên cứu hoàn  Chỉ sử dụng đặc trưng trích xuất từ payload. thiện mô hình để có khả năng phát hiện tấn công trong mọi trường dữ liệu của các yêu cầu HTTP cũng như nâng cấp khả  Sử dụng đặc trưng trích xuất từ method and URL. năng xử lý phân tích xử lý đối với lượng dữ liệu lớn trong quá  Sử dụng đặc trưng trích xuất từ method and payload. trình huấn luyện.  Sử dụng đặc trưng trích xuất từ URL and payload. LỜI CÁM ƠN  Sử dụng đặc trưng trích xuất từ method, URL and Nghiên cứu này được tài trợ bởi công ty CyberLotus payload. Technology, Việt Nam. Các thử nghiệm được thực hiện với mô hình hồi quy logistic, máy hỗ trợ véc tơ, XGBoost và rừng ngẫu nhiên. Kết TÀI LIỆU THAM KHẢO quả của các thử nghiệm này được mô tả ở bảng 1 và bảng 2. [1] Rafal Kozik, Michal Choraś, Rafal Renk, Witold Holubowicz. “A Proposal of Algorithm for Web Applications Cyber Attack Detection”. 13th IFIP International Conference on Computer Information Systems Bảng 2. Kết quả nhận dạng phân loại các yêu cầu truy nhập and Industrial Management (CISIM), Nov 2014, Ho Chi Minh City, HTTP theo dạng bất thường hay không bất thường sử dụng bộ Vietnam. Springer, Lecture Notes in Computer Science, LNCS-8838, phân lớp máy hỗ trợ véc tơ, XGBoost và rừng ngẫu nhiên. Bộ pp.680-687, 2014, Computer Information Systems and Industrial Management. doi 10.1007/978-3-662-45237-0_61 tham số sử dụng bao gồm 12 đặc trưng trích xuất từ method, [2] Althubiti, Sara; Yuan, Xiaohong; and Esterline, Albert, "Analyzing URL and payload. Trong bảng này, FPR là tỷ lệ nhận dạng HTTP requests for web intrusion detection" KSU Proceedings on đúng truy vấn bất thường. Cybersecurity Education, Research and Practice. 2, 2017. [3] Nguyen, H.T., et al. "Application of the generic feature selection Mô hình học máy FPR measure in detection of web attacks”. Computational Intelligence in Security for Information Systems. Berlin: Springer, 2011, 25-32. Máy hỗ trợ véc tơ 0.997 [4] Eiei Han, “Analyzing and classifying Web application attacks”, International Journal of Advances in Electronics and Computer Science, XGBoost 1.0 ISSN: 2393-2835 Volume-2, Issue-4, April-2015. [5] Melody Moh, Santhosh Pininti, Sindhusha Doddapaneni, and Teng- Rừng ngẫu nhiên 1.0 Sheng Moh, “Detecting Web Attacks Using Multi-Stage Log Analysis”, 2016 IEEE 6th International Conference on Advanced Conputing Kết quả ở bảng 1 cho thấy nếu chỉ sử dụng đặc trưng trích [6] Shailendra Rathore, Pradip Kumar Sharma, and Jong Hyuk Park, xuất từ phương thức thì kết quả nhận dạng rất thấp. So sánh 3 “XSSClassifier: An Efficient XSS Attack Detection Approach Based on Machine Learning Classifier on SNSs”, J Inf Process Syst, Vol.13, No.4, nhóm đặc trưng trích xuất từ phương thức, URL và payload thì pp.1014~1028, August 2017. nhóm đặc trưng trích xuất từ payload cho kết quả cao nhất. [7] David Atienza, Álvaro Herrero and Emilio Corchado , “Neural Analysis Như vậy thông tin payload là một thông tin quan trọng để phát of HTTP Traffic for Web Attack Detection”, International Joint hiện yêu cầu HTTP bình thường hay bất thường. Conference, Advances in Intelligent Systems and Computing 369, DOI 10.1007/978-3-319-19713-5_18, Springer International Publishing Ngoài ra từ bảng 1 cũng cho chúng ta thấy kết quả tốt hơn Switzerland 2015. khi kết hợp các tập đặc trưng với nhau. Ta có thể thấy rằng việc [8] Yao Pan, Fangzhou Sun, Jules White, Douglas Schmidt, Jacob Staples, phân tích dữ liệu để phát hiện tấn công đạt kết quả tốt nhất khi Lee Krause, “Detecting Web Attacks with End-to-End Deep Learning”, ta sử dụng tất cả các đặc trưng trích xuất từ cả ba nhóm là IEEE Transactions on Dependable and Secure Computing URL, phương thức và payload. Ngoài ra kết quả ở bảng 2 cho [9] Farhan Douksieh Abdi and Lian Wenjuan, “Malicious Url detection thấy hai phương pháp phân lớp là XGBoost và Random Forest using convolutional neural network”, International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), Vol.7, đều cho kết quả phân loại chính xác tới tuyệt đối. No.6, December 2017. Hơn nữa để so sánh với các nghiên cứu trước đó, thì [10] Asaad Moosa, “Artificial Neural Network based Web Application phương pháp tiếp cận trong nghiên cứu của chúng tôi cũng cho Firewall for SQL Injection”, World Academy of Science, Engineering kết quả cao hơn hẳn so với nghiên cứu của chính tác giả của bộ and Technology International Journal of Computer and Information Engineering Vol:4, No:4, 2010. dữ liệu CSIC vào năm 2016 [3]. Ở nghiên cứu này độ chính [11] C. Torrano-Gimenez, A. Perez-Villegas, G. Alvarez, “An Anomaly- xác tốt nhất (FPR) mà tác giả đạt được là 93,65%. based Web Application Firewall”. In Proc. of International Conference on Security and Cryptography (SECRYPT 2009), pp. 23-28. INSTICC Press. Milan, Italia, 2009. IV. KẾT LUẬN [12] Fredrik Valeur, Darren Mutz, and Giovanni Vigna , “A Learning-Based Approach to the Detection of SQL Attacks”, Proceedings of the Trong nghiên cứu này, chúng tôi đã đề xuất các đặc trưng Conference on Detection of Intrusions and Malware and Vulnerability mới cho vấn đề nhận biết các yêu cầu HTTP bình thường hay Assessment (DIMVA), Vienna, Austria, July 2005. bất thường. Các đặc trưng này được trích xuất từ thông tin liên [13] Christopher Kruegel, Giovanni Vigna, “Anomaly Detection of Web- quan đến phương thức, URL và payload của yêu cầu HTTP. based Attacks”, proceedings of the ACM Conference on Computer and Kết quả đạt được độ chính xác 100% sử dụng XGBoost và Communication Security (CCS), Washington, DC, October 2003. 233
[14] Giménez, C.T., Villegas, A.P., and Marañón, G.A., HTTP Dataset CSIC [17] OpenResty, https://openresty.org/en/ (2018) 2010, http://www.isi.csic.es/dataset/ [18] “Analyzing Web Traffic”, ECML/PKDD 2007 Discovery Challenge, [15] Krügel, Christopher & Vigna, Giovanni, “Anomaly detection of web- September 17-21, 2007, Warsaw, Poland, based attacks”, Proceedings of the 10th ACM Conference on Computer http://www.lirmm.fr/pkdd2007-challenge/ and Communications Security, CCS 2003, Washington, DC, USA, October 27-30. [16] OWASP, OWASP Top 10, 2017 (https://www.owasp.org/index.php/Category:OWASP_Top_Ten_Project) 234