T
P CHÍ KHOA HC
T
NG ĐI HC SƯ PHM TP H CHÍ MINH
Tp 22, S 5 (2025): 801-813
HO CHI MINH CITY UNIVERSITY OF EDUCATION
JOURNAL OF SCIENCE
Vol. 22, No. 5 (2025): 801-813
ISSN:
2734-9918
Websit
e: https://journal.hcmue.edu.vn https://doi.org/10.54607/hcmue.js.22.5.4699(2025)
801
Bài báo nghiên cứu*
MÔ HÌNH C-ViDNet
H TR PHÁT HIN BO LC TRONG HC ĐƯNG
Nguyễn Viết Hưng, Tạ Công Phi*, Lê Tấn Lộc, Ngô Quang Khánh, Trần Thanh Nhã
Trường Đại học Sư phạm Thành phố Hồ Chí Minh, Việt Nam
*Tác gi liên h: T Công Phi Email: tacongphi1@gmail.com
Ngày nhn bài: 20-01-2025; ngày nhn bài sa: 23-4-2025; ngày duyt đăng: 24-4-2025
TÓM TT
Bo lc hc đưng là mt vn đ phc tp và đáng lo ngi trong h thng giáo dc ca nhiu
quc gia trên thế gii, trong đó Vit Nam. Mc dù đã có nhiu mô hình phát hin bo lc t động
được phát trin da trên trí tu nhân to, nhưng việc trin khai thc tế vn còn gp nhiều khó khăn
do độ phc tp và chi phí tính toán lớn. Đ khc phc các hn chế này, nghiên cu của chúng tôi đề
xut xây dng mt mô hình C-ViDNet (Campus Violence Detection Network) phát hin bo lc hc
đường t động vi s ng tham s nh nhằm tăng cường kh năng phát hiện và phn ng nhanh
vi các v vic bo lực trong môi trường giáo dục. Đầu tiên, YOLOX được s dụng để xác đnh ca
những ngưi xut hin trong khung hình. Tiếp theo, thế ca những người này được trích xut bng
HRNet và chuyn đi thành 3D Heatmap Volumes, giúp gim nhiu và loi b các yếu t nn không
cn thiết. Sau đó, một kiến trúc gm hai luồng đưc triển khai để hc các đặc trưng từ 3D Heatmap
Volumes. Trong đó, một lung tập trung vào đặc trưng không gian ca tư thế, trong khi lung còn
li theo dõi s thay đi thế của con người gia các khung hình. Kết qu t C-ViDNet cho thy
tiềm năng trong việc phát trin mô hình phát hin bo lc hc đường t động. Gii pháp này không
ch gim bt s ph thuc vào giám sát th công mà còn đảm bo phát hin kp thi các tình hung
bo lc, h tr nhà trường trong vic xây dng môi trường an toàn hơn cho học sinh.
T khóa: bo lc; bo lc học đường; nhn dng hành vi; th giác máy tính; x nh; Yolo
1. Gii thiu
Bo lực nói chung đã được xác đnh rõ ràng là mt vấn đề nghiêm trọng đối vi sc
khe cộng đồng (Rutherford et al., 2007). Không có quc gia hoc cộng đồng nào không b
ảnh hưởng bi bo lc (World Health Organization, Regional Office for the Eastern
Mediterranean, 2024). Bo lc còn đc bit nguy him trong môi trưng hc đường, nơi học
sinh, sinh viên đang trong giai đoạn phát trin quan trng v c th cht ln tâm lí. Theo
khoản 5 Điều 2 ca Ngh định 80/2017/NĐ-CP, bo lc hc đường là hành vi ngược đãi,
đánh đập, bo hành; làm tn hi đến sc khe, thân th; s nhục, lăng mạ đến danh d
Cite this article as: Nguyen, V. H., Ta, C. P., Le, T. L., Ngo, Q. K., & Tran, T. N. (2025). C-ViDNet: amodel
for supporting violence detection in schools. Ho Chi Minh City University of Education Journal of Science,
22(5), 801-813. https://doi.org/10.54607/hcmue.js.22.5.4699(2025)
Tạp chí Khoa học Trường ĐHSP TPHCM
Nguyễn Viết Hưng và tgk
802
nhân phm; ty chay, cô lp, rung ry và những hành động gây ảnh hưởng nng n ti sc
khe tinh thn và th cht ca bn hc trong các t chc, s giáo dc (Government, 2017).
Trên toàn cu, bo lc hc đưng là mt vấn đề nghiêm trng, vi khong mt na s hc
sinh trong độ tui 13-15, tương đương khoảng 150 triu tr em, báo cáo rng h đã tri qua
bo lc gia các bạn đồng trang lứa trong xung quanh trường học. Đáng lo ngại hơn,
khong 720 triu tr em trong độ tui đi hc sng các quc gia mà lut pháp không bo v
các em khi hình pht th xác trưng (UNICEF, 2021).
Bo lc hc đưng gây ra nhiu hu qu nghiêm trng, ảnh hưởng sâu sc đến c nn
nhân, th phm môi trưng giáo dc. V mt tâm lí, nạn nhân thường phi đi mt vi
các vn đ như trầm cm, lo âu, và s hãi, dn đến cm giác cô lập, có nguy cơ cao phát triển
các ri lon tâm thn, thm chí là t t. Đi vi th phm, vic tham gia vào các hành vi bo
lc có th hình thành các hành vi lch lc, to tin đ cho các hành đng vi phm pháp lut
trong tương lai. Ngoài ra, bạo lc hc đường còn tác động tiêu cc đến kết qu hc tp. Nn
nhân thường mt tp trung, gim hng thú vi vic hc xu hướng b hc, trong khi
th phạm cũng thể b gián đoạn quá trình hc tp do phi đi mt vi các bin pháp k
lut t nhà trường và pháp lut.
Vic xây dng mt môi trưng hc đưng an toàn, lành mạnh điều kin tiên quyết
để đảm bo cht lưng giáo dc. Hin nay, các mô hình học sâu như mạng nơ-ron tích chp
(CNN) và mạng nơ-ron hồi quy (RNN), đã cho thấy hiu qu cao trong nhiu nhim v như
nhn dạng hành động, giám sát an ninh và phát hin bt thường trong đám đông. Do đó,
th ng dng hc sâu đ xây dng mt h thng có kh năng phát hiện và cnh báo nhanh
chóng các tình hung bo lc, góp phn bo v và duy trì môi trường học đường an toàn.
Trong nghiên cu này, mô hình C-ViDNet đưc đ xut đ phát hin bo lc hc
đường quac tác đng vt lí gia các cá nhân (dưới 7 người), da trên chui khung hình t
video giám sát. Phương pháp này sử dng các 3D heatmap volumes, cho phép trích xut đc
trưng thế của người trong không gian và thi gian mà không cn thông tin phông nn.
Quy trình này lần lượt phát hiện người thông qua YOLOX, ước lượng thế bng HRNet
và chuyển đổi thành 3D Heatmaps Volume cho mi thế. Sau đó, các 3D heatmap này
được x qua mt kiến trúc gm hai lung, vi mt lung trích xut đặc trưng không gian
t tư thế và mt lung trích xut đc trưng thi gian t s thay đi của tư thế. Đặc trưng từ
c hai luồng được kết hp qua lp Fusion và tiến hành phân loi đ d đoán xác suất video
có cha bo lc.
2. Đối tượng và phương pháp nghiên cứu
Phn này tp trung trình bày hai ni dung chính: 1) Đối ng nghiên cu: Bao gm
vic phát hin hành vi bo lc học đường thông qua d liu t camera giám sát, cùng vi
vic nghiên cu và áp dng các mô hình hc sâu trong nhn din bo lc; và 2) Phương pháp
nghiên cu: Trình bày chi tiết quy trình xây dng mô hình C-ViDNet nhm h tr hiu qu
trong vic phát hin bo lực trong môi trường hc đưng.
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 5 (2025): 801-813
803
2.1. Đối tưng nghiên cu
Các phương pháp truyền thng trong vic phát hiện và ngăn chặn bo lc ch yếu da
vào con người, nhưng chúng tồn ti nhiu hn chế, chng hạn như khó phát hiện các hành vi
tinh vi, không th theo dõi liên tc, và d b chi phi bi yếu t ch quan. Trong khi đó, sự
phát trin mnh m ca các h thng camera giám sát hiện đại đã tr thành công c quan
trng trong vic đm bảo an ninh, đặc bit là phát hin bo lc (Parui et al., 2023). Tuy
nhiên, s gia tăng nhanh chóng của ng d liu t các h thng này đã đt ra thách thc
ln trong vic xây dựng các phương pháp tự động, có kh năng xử và phân tích hàng triu
video vi đ chính xác cao và tc đ nhanh chóng (Kumar et al., 2023). Đặc bit, các h
thống trường học ngày càng được trang b camera giám sát đ đảm bo an ninh hc đưng.
Trong bi cnh này, s tiến b vượt bc ca trí tu nhân tạo đã m ra hi phát trin các
gii pháp t động, hiu qu hơn để phát hiện và ngăn chặn bo lc hc đưng.
Trong vài năm qua, đã nhiều nghiên cu tp trung vào bài toán phát hin bo lc
trong video. Mt ng nghiên cứu đáng chú ý phát hin bo lc da trên phân tích âm
thanh t video, cho phép nhn din hành vi ngay c khi hình nh không rõ ràng (Yildiz et
al., 2023; Santos et al., 2021). Đồng thời, các phương pháp phát hiện bo lc da trên hình
ảnh đã đạt được nhng tiến b ln nh s phát trin ca th giác máy tính và x video
(Divya et al., 2024; Ghalley et al., 2024).
Các mô hình hcu như CNN 3D-CNN đã đưc s dụng để phân tích các khung
hình và video, nhn din chính xác các hành vi bo lực như đánh, đấm, hay xô đẩy da trên
các đc trưng trc quan. Ngoài ra, s kết hp gia phân tích âm thanh và hình ảnh đã dẫn
đến vic phát triển các mô hình đa phương thức, tn dng thông tin t c hai ngun d liu
(Khan et al., 2024; Wu et al., 2023). Nhng mô hình này không ch tăng cường độ chính xác
mà còn ci thin kh năng phát hiện bo lc trong các tình hung phc tp, nơi dữ liu t
mt nguồn đơn lẻ là không đủ.
2.2. Phương pháp phát hiện bo lc trong học đường
Nghiên cu này đ xut C-ViDNet mô hình có kh năng phát hin bo lc hc đưng
qua các tác đng vt gia các cá nhân trong mt nhóm nh da trên chui khung hình t video
giám sát. C-ViDNet s dng phương pháp tin x đầu vào ca mô hình PoseC3D (Duan et
al., 2022) - 3D heatmap volumes, làm d liu đu vào cho các mô hình phát hin bo lc theo
chui khung hình. Phương pháp này giúp hình hc đưc s thay đi không gian và thi gian
thông qua vic sp xếp tun t các tư thế ca con ngưi, cng như giúp gim bt đc trưng đu
vào bng cách loi b phông nn và ch tp trung vào s biến đi ca tư thế.
Xây dng Limb Pseudo Heatmap
Đầu tiên chúng tôi tiến hành xây dng các Limb Pseudo Heatmap (bản đồ nhit mô
phỏng chi) để biu din trc quan v trí và phm vi ảnh hưởng ca mt đon chi c th (như
cẳng tay, đùi, cẳng chân) trong mt khung hình nh. Quy trình này gồm ba bước chính: Phát
hiện người (Human Detection), Ước lưng tư thế (Pose Estimation) và Chuyn đi sang 3D
Heatmaps Volume (Khi bản đồ nhit 3D).
Tạp chí Khoa học Trường ĐHSP TPHCM
Nguyễn Viết Hưng và tgk
804
Hình 1. Minh ha chi tiết cho 17 Limb Pseudo Heatmap
Để phát hiện người trong từng khung nh, hình YOLOX được s dng. Sau khi
hoàn thành bước Human Detection, mỗi người xut hin trong khung hình s được khoanh
vùng bng mt bounding box (hp gii hn). Các bounding box này s đu vào cho mô
hình HRNet, mô hình có kh năng dự đoán chính xác các đim chính (keypoints) trong không
gian cho nhiều người ng lúc. Sau đó, thông tin các keypoints từ mỗi khung hình được
chuyn thành các Heatmap 2D theo chi gọi Limb Pseudo Heatmaps, ch thước
𝐻𝐻×𝑊𝑊, trong đó 𝐻𝐻 𝑊𝑊 là chiu dài và chiu rộng tương ng ca mi Limb Pseudo
Heatmap. Trong trường hợp hai người tr lên, các chi tương ng s được biu din trên
cùng mt Limb Pseudo Heatmap. Ví d, nếu trong một khung hình hai người bt tay nhau,
thì s có mt Limb Pseudo Heatmap 𝑙𝑙𝑖𝑖 duy nht biu din cánh tay ca c hai người.
Vi mi khung hình, có 𝑘𝑘(𝑥𝑥𝑘𝑘,𝑦𝑦𝑘𝑘,𝑐𝑐𝑘𝑘) keypoints, trong đó 𝑥𝑥𝑘𝑘,𝑦𝑦𝑘𝑘 lần lượt ta đ 𝑥𝑥, 𝑦𝑦
trong không gian 2D ca khung hình và 𝑐𝑐𝑘𝑘 là đ tin cy (confidence score) cho biết mc đ
chính xác ca vic phát hiện keypoint này. Đầu tiên, vi mi khung hình, chúng tôi to 𝐾𝐾
Limb Pseudo Heatmap 𝐿𝐿 [0]𝐾𝐾×𝐻𝐻×𝑊𝑊vi 𝐾𝐾 là s ng limb (chi), Giá tr ca Limb Pseudo
Heatmap 𝐿𝐿 s được cp nht theo công thc (1):
Lkij = eD(i,j),seg[ak,bk]2
2×σ2×min (cak,cbk)
(1)
trong đó, 𝑘𝑘 [0, 𝐾𝐾], 𝑖𝑖 [0, 𝐻𝐻], 𝑗𝑗 [0, 𝑊𝑊], limb th 𝑘𝑘 tương ứng với khung xương được to
bi hai keypoint 𝑎𝑎𝑘𝑘, 𝑏𝑏𝑘𝑘, vi
𝐷𝐷 là hàm tính khong cách t điểm (𝑖𝑖,𝑗𝑗) đến đường ni
𝑠𝑠𝑠𝑠𝑠𝑠[𝑎𝑎𝑘𝑘,𝑏𝑏𝑘𝑘] (hay 𝑠𝑠𝑠𝑠𝑠𝑠(𝑥𝑥𝑎𝑎𝑘𝑘,𝑦𝑦𝑎𝑎𝑘𝑘, (𝑥𝑥𝑏𝑏𝑘𝑘,𝑦𝑦𝑏𝑏𝑘𝑘)]) và 𝜎𝜎 (mc định 0.6) được s dụng để kim
soát phân phi giá tr của các điểm quanh keypoint (phân phi chun). 𝑐𝑐𝑎𝑎𝑘𝑘,𝑐𝑐𝑏𝑏𝑘𝑘 là đ tin cy
ca hai keypoint 𝑎𝑎𝑘𝑘, 𝑏𝑏𝑘𝑘.
Các Limb Pseudo Heatmap s được điu chỉnh kích thước cho phù hp và sp xếp
chng lên nhau theo thi gian 𝑇𝑇. Quá trình này to ra các 3D Heatmap Volume cho tng
limb 𝑘𝑘. Đu ra cui cùng s có kích thước tng là 𝑇𝑇×𝐾𝐾×𝑊𝑊×𝐻𝐻. Hình 1 minh ha chi tiết
cho 17 Limb Pseudo Heatmap.
Two-Stream Network
C-ViDNet gm hai lung được ly cm hng t nghiên cu (Islam et al., 2021) để phát
hin bo lc trong hc đưng thông qua d liệu video. Đối vi luồng đầu tiên, 17 3D
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 5 (2025): 801-813
805
Heatmap Volume có s chiu là 𝐾𝐾×𝑇𝑇×𝑊𝑊×𝐻𝐻 vi 𝐾𝐾 = 17 s chuyển đổi thành mt 3D
Heatmap 𝑯𝑯 duy nht có s chiu là 𝑇𝑇×𝑊𝑊×𝐻𝐻 được tính toán theo công thc (2):
𝐇𝐇tij =max(Ltij
1, Ltij
2, , Ltij
k)
(2)
trong đó, 𝑯𝑯𝑡𝑡𝑖𝑖𝑡𝑡 là pixel th (𝑖𝑖,𝑗𝑗) ca heatmap th 𝑡𝑡 𝐿𝐿𝑡𝑡𝑖𝑖𝑡𝑡
𝑘𝑘 là pixel th (𝑖𝑖,𝑗𝑗) ca heatmap th
𝑡𝑡 ca Limb Pseudo Heatmap th 𝑘𝑘 trong 3D Heatmap Volume vi 𝑡𝑡 [0, 𝑇𝑇], 𝑘𝑘 [1, 𝐾𝐾], 𝑖𝑖
[0, 𝑊𝑊] 𝑗𝑗 [0, 𝐻𝐻]. Đi vi lung này, mc tiêu không phi gim ảnh hưng các đặc trưng
ca nh nền, thay vào đó luồng này s tp trung vào vic hc tp các đặc trưng về không
gian như tư thế, v trí của người. Hình 2 minh ha chi tiết v 3D Heatmap 𝑯𝑯.
Hình 2. Minh ha cho 3D Heatmap 𝑯𝑯
Lung th hai s tp trung vào s thay đổi gia các heatmap lin k trong 𝑯𝑯 nhm
trích xuất được nhng thông tin v thời gian như chuyển động, các thay đổi v tư thế người
được gi là Differences Heatmap đưc biu diễn như trong công thức (3):
Hdi= Hi+1 Hi
trong đó, 𝐻𝐻𝑖𝑖 là heatmap th 𝑖𝑖 t 3D Heatmap 𝑯𝑯 đầu vào và 𝐻𝐻𝑑𝑑𝑖𝑖 là Differences Heatmap biu
din s khác nhau gia hai heatmap th 𝑖𝑖 𝑖𝑖+ 1, nếu 𝑯𝑯 𝑡𝑡 heatmap thì s 𝑡𝑡 1 s
khác nhau như thế. Hình 3 minh ha chi tiết v Differences Heatmap 𝐻𝐻𝑑𝑑𝑖𝑖.
Kích thước mỗi Limb Pseudo Heatmap là 224 × 224. Tuy nhiên, để kết hợp thêm đặc
trưng về màu sc nhm mc đích tăng cưng các đc trưng v s thay đổi gia các heatmap,
các Limb Pseudo Heatmap đưc áp dng colormap viridis (bản đồ màu viridis) và có s
chiu là 224 × 224 × 3. Colormap này s dụng các màu xanh lá cây và xanh dương để biu
din d liu thấp và các màu vàng và cam để biu din các giá tr d liệu cao hơn trong bản
đồ nhit (heatmap).
Hình 3. Minh ha cho Differences Heatmap 𝐻𝐻𝑑𝑑𝑖𝑖.
Mng hun luyn trưc MobileNet-v2 s trích xuất hình đặc trưng từ d liệu đầu vào
ca mi lung. MobileNet-V2 s dng các lp depthwise separable convolutions (phép tích
chp tách theo chiu sâu) thay vì tích chập thông thường, giúp gim s ng tham s
tăng hiu qu tính toán. Sau đó, các đặc trưng từ mi lung s được đưa qua mt lp
ConvLSTM vi 64 filter (b lọc), kích thước đu ra 7 × 7 × 64. Tiếp tc qua mt lp Max-
Pooling vi window size (2,2) để giảm kích thước đặc trưng không gian không mất nhiu
thông tin quan trng.