27
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
PHƯƠNG PHÁP XÂY DỰNG VECTOR ĐẶC TRƯNG DỰA TRÊN
CHUYN ĐI CẤU TRÚC VÀ THỐNG KÊ CHUỖI TRUY VN
TRONG MÔ HÌNH NHN DNG BẤT THƯỜNG TƯNG LA
NG DNG WEB
Huỳnh Hoàng Tân1*, Trần Văn Hoài2
1Trường Đại học Công nghệ Đồng Nai
2Trường Đại học Bách khoa TP. HCM
*Tác giả liên hệ: Huỳnh Hoàng Tân, huynhhoangtan@dntu.edu.vn
THÔNG TIN CHUNG
TÓM TẮT
Ngày nhận bài: 28/02/2024
Ngày nay, internet đã trở nên ph biến, cùng vi s phát
trin mnh m công nghệ điện toán đám mây, IoT và điện
thoại thông minh đã thúc đẩy s gia tăng nhanh chóng của
ng dụng phát triển trên nền tảng web. Để bo v các ứng
dng web, h thống phát hiện/ngăn chặn xâm nhập trái
phép được phát triển được gọi là tường la ng dng web
(WAF). Chức năng nhận dng tấn công trên WAF thường
được phân loại thành hai phương pháp dựa trên quy tc
bất thường. hình dựa trên bất thường v thuyết có
th nhn dạng các truy vấn độc hại chưa đưc biết đến bng
cách quan sát các dữ liu truy vn. Trong nghiên cứu này,
chúng tôi đề xuất phương pháp xây dựng vector đặc trưng
bằng cách chuyển đổi cấu trúc và thống kê các thành phần
ca chui truy vấn. Sau đó, vector đặc trưng s là đầu vào
cho các thuật toán phân loại không giám sát để nhn dng
truy vn bất thường. Kết qu th nghim vi thuật toán K-
means, DBSCAN, Isolation Forest cho thấy DBSCAN
độ chính xác cao nhất (Accuracy>96%, F1-Score >97%),
ngay c đối vi ng dng web d nhn dng nhầm như xác
thực đăng ký. Tính hiệu qu của phương pháp sử dng
d liệu không cần dán nhãn trước nên giúp việc trin khai
trên WAF dễ dàng hơn.
Ngày nhận bài sửa: 02/05/2024
Ngày duyệt đăng: 30/05/2024
T KHOÁ
Bo mt ng dng web;
Nhn dng bất thường truy vn web;
Nhn dng tấn công web.
1. GII THIU
Ngày nay, ng dụng web đã trở nên phổ
biến với các ưu điểm truy cập mọi nơi chỉ
cần kết ni internet, triển khai và cập nht d
dàng, yêu cầu h thống đơn giản hơn (thường
ch yêu cầu cao máy chủ web) so vi ng
dng truyn thống (phát triển dưới dạng cài đặt
tại máy tính để bàn). Do đó, ng dng web tr
thành đối tượng tấn công của ti phm mng
máy tính. Theo báo cáo Verizon Data Breach
Investigations Report (DBIR) 2023 (Langlois et
al., 2023) đến 80% hành động tấn công gây
s c h thống là nhầm vào ứng dng web.
WAF được xem là công c hu hiệu để bo
v ng dụng web trước các tấn công. WAF là
mt lp bo mt trung gian gia ng dng web
28
S: 03-2024
người dùng nhằm phát hiện, ngăn chặn truy
vn trái phép. Chức năng kiểm tra truy vn
(WAF inspection) của WAF thể phân tích
các lung d liu truy cập vào ng dng web
bao gm giao thức HTTP HTTPS. Đối vi
các kết nối hóa HTTPS, chức năng này sử
dng mt chng ch SSL/TLS được cấp để
chuyn d liu chuyn t dạng hóa sang
dạng văn bản thô để kim tra ni dung. Chc
năng nhận dng tấn công trên WAF thường bao
gồm hai phương pháp là dựa trên quy tắc và bất
thường. Phương pháp dựa trên quy tắc d dàng
xây dựng hiu qu cao khi bo v chng
lại các truy vn tấn công đã biết hoc to ra
chính sách phù hợp vi ng dng web. Hn chế
ca phương pháp này là yêu cầu hiểu rõ chi tiết
c th của các mối đe dọa phụ thuộc vào
s d liệu các quy tắc. Phương pháp dựa trên sự
bất thường s quan sát các truy cp đến ng
dng web để xây dựng một mô hình có thể phát
hiện các truy vấn bt hợp pháp. Do đó, mô hình
thể nhn ra mt truy vn tấn công chưa được
biết đến hay không trong cơ sở d liu. Tuy
nhiên, phương pháp dựa trên sự bất thường gp
phi mt s thách thức sau:
+ Khi triển khai WAF thông thường s
không biết trước được đặc điểm ca ng dng
web cn bo v như: nền tảng web phát triển,
ngôn ngữ phát triển, h thng quản lý nội dung
s dụng, … dù rằng điều này ảnh hưởng rt ln
đến loi tấn công, khai thác l hng đối vi h
thống. Do đó, phương pháp nhận dng bt
thường phải khả năng x độc lp với các
đặc điểm ca ng dng web.
+ Thông thường t l nhân dạng nhầm các
truy vấn bình thường thành tấn công trong các
h thng dựa trên bất thường cao hơn so với các
h thng dựa trên quy tắc (Dong et al., 2018;
Sureda Riera et al., 2020; Dau et al., 2022).
+ Phương pháp dựa trên bất thường đòi hỏi
rt nhiều tài nguyên nh toán đ xây dựng
hình (Dau et al., 2022).
+ Khi triển khai WAF, các truy vấn th
bao gồm các truy vấn đc hại bình thường.
thế, d liu được thu thp t động để hun
luyn các thuật toán phân loi giám sát khó
thc hin.
+ WAF x được truy vn chế độ thi
gian thc, tốc độ x nhanh điều này th
không phù hợp mt s hình thời gian
hun luyn lớn thuật toán mức độ tính
toán phức tp.
Trong báo cáo này, chúng tôi đề xut
phương pháp trích xut thông tin ca chui truy
vn bng k thut chuyn đổi cu trúc và thống
kê chuỗi truy vn nhm tạo ra vector đặc trưng.
Sau đó, vector là đầu vào cho phương pháp học
không giám sát để phân loại thành hai lớp bt
thường và bình thường. Phương pháp không bị
ảnh hưởng bi k thut chuyển đổi ký tự (URL
Encoding) giao thức hóa https do được
thc hin sau khi chức năng kim tra ca WAF
thực thi nên d liu kết ni lúc này đã được gii
thành dng d liệu n bản thô. Những đóng
góp chính của nghiên cứu này như sau:
(1) Đề xuất cách tiếp cn chuyển đổi cu
trúc thống chuỗi truy vấn để xây dựng
vector đặc trưng không phụ thuộc vào đặc
điểm ng dng web c th.
(2) Áp dụng phương pháp học không giám
sát phù hợp để phát hin truy vn bất thường
dựa vào bộ d liệu vector đặc trưng.
Phn 2 cung cấp s nghiên cứu liên
quan v các phương pháp và mô hình phát hiện
tấn công web dựa trên sự bất thường. Phần 3
t chi tiết v k thut chuyển đổi cấu trúc
thống chuỗi truy vấn để y dựng vector đặc
trưng. Phần 4 trình bày việc thu thập xử
trước d liu để thc hin kim nghim. Tiếp
theo, phần 5 đánh giá hiệu qu của phương pháp
bằng cách sử dụng các phương pháp học không
giám sát. Cuối cùng, phn 6 kết luận các
hướng nghiên cứu trong tương lai.
2. NHỮNG CÔNG TRÌNH NGHIÊN CỨU
LIÊN QUAN
Mt trong nhng vấn đ bản trong bo
mt ng dụng web kết ni t phía người dùng
rất khó để kiểm soát như mong muốn. Người
29
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
dùng thể to hoặc tùy chỉnh bt k d liu
đầu vào nào đ đưc chuyn tr lại máy chủ
web x lý. ng dụng web trao đổi thông tin vi
người dùng thông qua giao thức HTTP/S trên
môi trường mng. Mt URL (Uniform
Resource Locator) được s dụng để xác định
duy nht một tài nguyên trên Web. Một URL
cấu trúc minh ha như hình 1:
http(s)://www.example.com:8080/products/search?q=1&enable = true
Tên tham số
Chuỗi truy vấn
Giá tr tham
số
Giao thc Địa chỉ Cổng Đường dẫn
Hình 1. mô tả cấu trúc của truy vn ng dng
web
Cấu trúc URL bao gồm giao thức, địa ch
máy chủ, cng kết ni, đường dẫn và chuỗi truy
vn. dụ: “/Products/search đường dn
nhằm xác định tài nguyên cụ th trong máy chủ.
Tuy nhiên, đối vi ng dụng web đường dn
thường có nghĩa là mt chức năng (hành động)
c thể. Hình 1, tả chức năng tìm kiếm sn
phẩm, tự “?” xác định bắt đầu chui truy vn,
tự “&” phân cách các tham số trong chui
truy vấn, “q=1&enable=true” là nội dung chui
truy vn. “q=1” một tham s với “q” tên,
“1” là giá trị.
Để đảm bảo tính ổn định và an toàn của h
thống, máy chủ web thưng cấu hình mặc định
gii hn kích thước tối đa của chui truy vn
(bng 1) mặc trong tiêu chuẩn chính thức
RFC 2616 (HTTP/1.1) không qui định một cách
ràng. Ngoài ra, qua khảo sát các thiết b WAF
của các nhà cung cp thiết b bo mt ni tiếng
Barracuda, Fortinet Imperva cho thấy cu
hình mặc định, khuyến ngh kích thước nh hơn
4096 bytes (bng 2).
Bng 1. Độ dài tối đa chuỗi truy vn trong cu
hình mặc định của các máy chủ web
Tên máy chủ
Tên thuộc tính
Giá trị
(byte)
Microsoft IIS
(2022)
maxQueryString
2048
Apache
LimitRequestLine
8190
(Core - Apache
HTTP Server
Version 2.4, n.d.)
Nginx
(Module
Ngx_Http_Core_
Module, n.d.)
large_client_head
er_buffers
4096
Bng 2. Thông tin cấunh khuyến ngh, mặc định
của các nhà cung cấp WAF
Nhà cung cấp
Tên thuộc tính
Giá trị
(byte)
Barracuda
(Configuring
Request Limits,
2020)
- Chiều dài tối đa
truy vn
- Chiều dài tối đa
URL
4096
4096
Fortinet
(Configuring an
HTTP Protocol
Constraint
Policy, n.d.)
- Chiều dài tên
tham s URL tối đa
- Chiều dài giá trị
tham s URL tối đa
1024
4096
Imperva
(Imperva
Documentation
Portal, n.d.)
Chiều dài giá trị
tham s URL tối đa
4096
Các truy vấn độc hi tấn công vào ng dng
web thường thay đổi s phân phối trình tự
ca ký t trong chui. Trong danh sách Top 10
OWASP (d án mở v bo mt ng dng Web)
có nhiều l hng bo mt s dụng các kỹ thut
thay đổi ni dung ca http, url như: lỗi nhúng
mã (A03); phá vỡ kiểm soát truy cập (A01); s
dụng thành phần đã tồn ti l hng (A06), các
k thuật khai thác thông tin dựa trên cấu trúc
http như: http parameter pollution, http verb
tampering, http flood, http host header, http
header injection, …
Nhiều hình nhn dng tấn công dựa trên
s bất thường đã được nghiên cứu chủ yếu
tập trung vào phân tích yêu cầu http. Các
hình nhận dng bất thường trên một yêu cầu đầu
vào có thể phân thành các nhóm là: dựa trên kỹ
thut thống các tham số http (Kruegel &
Vigna, 2003; Kruegel et al., 2005), dựa trên
chuyển đi chui url sang dạng các vector đặc
trưng hoặc ma trận sau đó dùng các thuật toán
30
S: 03-2024
phân lớp để phát hin bất thường (Kruegel et
al., 2005; Vartouni et al., 2018; Le Dinh &
Xuan, 2017; Dau et al., 2022), kết hp nhiu
thông tin của một yêu cu http.
Theo nghiên cứu ca Kruegel, các mô hình
nhn dng da vào cấu trúc yêu cầu http s kim
tra cấu trúc nh logic của một yêu cu gi
đến máy chủ, nhằm phát hiện các cấu trúc lỗi
độc hi bao gồm: đường dn, tham s ca ca
mt truy vn (thông tin loại tham số, giá trị,
phân bố tự, chiều dài, …) (Kruegel & Vigna,
2003; Kruegel et al., 2005). Ngoài ra, mô hình
Markov n (Corona et al., 2009) được s dng
phân tích các thuộc tính các giá trị tương ng
trong các truy vấn.
Truy vn http bao gm các tham s chuỗi
tự, vì vậy nhiều mô hình đã sử dng k thut
trích xuất dạng tự, chuỗi tự sang vector
đặc trưng. Một cách tiếp cn ph biến chia
url thành nhiều ký tự theo các quy tắc nht định
sau đó sử dụng các vectơ khác nhau đ đại
din cho từng tự (Li et al., 2020). Theo
Sureda Riera, k thut N-Gram được các
nghiên cứu s dng nhiu nht vi s bài báo là
12, tiếp theo là kỹ thut Bag-Of-Word với 2 bài
báo (Sureda Riera et al., 2020). Ngoài ra, mạng
neural nhân tạo cũng được áp dụng chuyển đổi
các url dng chuỗi tự thành các vectơ hoặc
ma trận trong đó chủ yếu Stacked Auto-
encoder và Word2vec.
Đối với hình kết hp nhiều thông tin
ca một yêu cầu http, Yao Pan , Fangzhou Sun,
nhóm đề xuất áp dụng hình end-to-end
deep learning để phát hiện các cuộc tấn công,
s dụng công cụ RSMT (robust software
modeling tool) t động theo dõi t hành
vi thi gian thc của các ng dng web (Pan et
al., 2019). Tianlong Liu, Yu Qi, Liang Shi
Jianan Yan đề xuất hình Locate-Then-
Detect dùng nhận dng tấn công thời gian thc
thông qua Attention-based Deep Neural
Networks (Liu et al., 2019), mô hình chia thành
2 chức năng chính Payload Location
Network (PLN) để tạo ra các khu vực khả
năng là bất thường t s ng lớn các truy cp
Payload Classification Network (PCN) đ
phát hiện chính xác các cuộc tấn công trong c
khu vc do PLN to ra.
3. PHƯƠNG PHÁP ĐỀ XUT
Mô hình dựa trên kỹ thut thng kê tả
một đặc trưng của một u cầu hợp pháp, chẳng
hạn như độ dài tham số truy vấn, phân phối
t trong tham s chế độ chuyển đổi ký tự ca
tham s (Li et al., 2020). Tuy nhiên, hình
dựa vào các tính năng được trích xuất th công
nên chỉ th phát hiện các kiểu tấn công cụ
th.
Đối với mô hình xây dựng vector đặc trưng
dựa trên dựa trên kỹ thut N-Gram, nhưng N-
Chuỗi truy vấn
Chuỗi tên giá
trị thuộc tính
Chuỗi giá tr
thuộc tính
Số lượng ký t
đặc biệt
Chiều dài lớn nhất
của chuỗi ký tự đặc
biệt liên tiếp nhau
V1
CityHash32
Chiều dài chuỗi
thuộc tính
V2 V3 V4 V5 , V6 , V7 , V8 , V9 , V10 , V11
1-Gram
Vector đặc trưng
Hình 2. mô tả thành phn của vector đc trưng
31
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
gram ngn d b tấn công bắt chước, trong đó
k tấn công cẩn thận thêm các ký tự để tiến gn
hơn đến phân phối N-gram d kiến (Betarte et
al., 2018). Các cuộc tấn công bắt chước tr nên
khó khăn hơn nhiều khi s dng N-gram bc
cao hơn. Tuy nhiên, nếu N càng lớn thì kích
thước của đặc trưng tăng lên theo cấp s nhân
dẫn đến chi phí tính toán lớn tốn b nh
(Vartouni et al., 2018).
𝑆 = {𝑁 𝑔𝑟𝑎𝑚𝑖| 𝑖 = 1, 2,3 . . , 𝐶𝑁} (1)
Trong đó, S chuỗi phát sinh, C số
ợng tự, N số N-gram la chn. Ví dụ vi
n = 2, C = 63 thì S = 632 = 3,969. Do đó, mt
s mô hình s dụng các kỹ thut gim s ng
t giảm s chiều đặc trưng như PCA,
StackAutoEncoder (Vartouni et al., 2018;
Betarte et al., 2018; Dau et al., 2022).
Betarte và Li đưa ra k thut Word
Embedding s chuyn yêu cầu http v dạng các
token đặc trưng để xây dựng ma trận các đặc
trưng sau đó dùng các thuật toán phân loại để
xác định yêu cầu bất thường (Betarte et al.,
2018; Li et al., 2020). Hn chế độ chính xác
của hình phụ thuộc vào kinh nghiệm phân
tích chuỗi thành các token điều chỉnh c
thông số phù hợp cho mô hình huấn luyn.
Với các phân tích trên, chúng tôi đề xut
xây dựng vector đặc trưng dựa trên k thut
chuyển đổi cấu trúc chui truy vn sang dng
hóa 1-gram kết hp các thông số thng
v chiều dài, số ợng tự đặc bit, chiu
dài lớn nht ca chuỗi tự đặc biệt liên tiếp
nhau, chiều dài chuỗi thuộc nh (mô tả hình 2).
3.1 Chuyển đổi cấu trúc chuỗi truy vn
Cho mt chức năng web có chui truy vn
𝑞 = ((𝑎1, 𝑏1),(𝑎2, 𝑏2), , (𝑎n, 𝑏n)) vi n
số ợng c thuộc tính, trong đó 𝑎i, 𝑏i ln
ợt tên giá trị ca thuộc tính to ra hai
chui con lần lượt là:
Một là: chuỗi tên thuộc tính
strA = ("1" + a1+ "2" + a2+ . + “n”
+ a𝑛) (2)
Vic s dụng công thức (2) nhằm đảm bo
tránh trường hợp cùng kết qu đối vi hai
chuỗi khác nhau khi gom các tên thuộc tính
thành một chuỗi. Ví dụ: xem xét hai chui truy
vn (chui 1) id=123&passwd=123, (chui 2)
idpasswd=123
Áp dụng công thức (2), ta :
(chui 1) => 1id2passwd
(chui 2) => 1idpasswd
Như vậy, kết qu là hai chuỗi khác nhau so
vi vic ghép các ký tự vi nhau s cùng giá
tr là “idpasswd”
Hai là: chuỗi giá trị thuộc tính
strB = (b1+ b2+ . + b𝑛) (3)
Trong đó giá trị 𝑏i được mã hóa theo bảng sau:
Bng 3. Ni dung mã hóa giá trị thuộc tính
Giá trị thuộc tính
Giá trị
mã hóa
Ch toàn ký tự alphabet
<C>
Ch toàn là số
<N>
Ch toàn ký tự đặc bit
<S>
Ch toàn ký tự alphabet và số
<M>
Ch toàn ký tự alphabet t đặc
bit
<Q>
Ch toàn số và ký tự đc bit
<P>
Bao gồm t alphabet, s tự
đặc bit
<Z>
Bng 3 hóa giá tr thuộc tính nhằm biu
din s phân bố phân loại tự ca thuc
tính. Theo William hình phân phối tự ca
thuộc tính dựa trên khái nim v s ''bình
thường'' hoặc ''thường xuyên'' trong các tham s
truy vn bằng cách quan sát việc phân phối các
tự trong giá trị ca tham s (William et al.,
2006). Cách tiếp cận này dựa trên quan sát cho
thy các thuộc tính cấu trúc thông thường ít