T
P CHÍ KHOA HC
T
NG ĐI HC SƯ PHM TP H CHÍ MINH
Tp 22, S 11 (2025): 1980-1992
HO CHI MINH CITY UNIVERSITY OF EDUCATION
JOURNAL OF SCIENCE
Vol. 22, No. 11 (2025): 1980-1992
ISSN:
2734-9918
Websit
e: https://journal.hcmue.edu.vn https://doi.org/10.54607/hcmue.js.22.11.5160(2025)
1980
Bài báo nghiên cứu1
FUSED-A: MÔ HÌNH ĐA LUỒNG DA TN CƠ CH CHÚ Ý
ĐỂ PHÁT HIN SM BO LC HC ĐƯNG
Nguyễn Viết Hưng
Trường Đại học Sư phạm Thành phố Hồ Chí Minh, Việt Nam
*Tác gi liên h: Nguyn Viết HưngEmail: hungnv@hcmue.edu.vn
Ngày nhn bài: 30-7-2025; Ngày nhn bài sa: 30-10-2025; Ngày duyt đăng: 15-11-2025
TÓM TT
Bo lc học đường là mt vấn đề nghiêm trng, ảnh hưởng đến sc khe hc sinh và cht
ợng môi trường giáo dc. Tuy nhiên, hu hết nghiên cu hin ti tp trung vào bo lc trong bi
cnh công cng hoc đin nh, vn khác biệt đáng kể vi hành vi bo lc học đường – thường tinh
vi và khó quan sát. Bên cnh đó, s thiếu ht d liu chuyên bit cũng là rào cn ln trong vic phát
trin h thng giám sát hiu quả. Để khc phc nhng hn chế này, nghiên cứu đề xut FUSED-A,
mt kiến trúc hc sâu đa luồng tích hợp đặc trưng không gianthi gian t chui nh RGB và d
liệu khung xương 2D thông qua cơ chế Guided Dot-Product Attention. Mô hình cho phép hc tương
quan gia chuyn động thể và ng cnh hình ảnh, giúp tăng cường độ chính xác trong nhn din
hành vi. Đồng thi, b d liu EduSafe-Early được xây dng vi 10 lớp hành động nhm phc v
phát hin sm hành vi bt thưng. Các thc nghim cho thy FUSED-A vưt tri so vi nhiều phương
pháp hiện đại, m ra hướng tiếp cn hiu qu cho các h thng giám sát bo lc học đường thông
minh và ng dng thc tin cao.
T khóa: bo lc hc đưng; nhn dng hành vi; phát hin hành vi bt thưng; th giác máy
tính; tin bo lc; YOLO
1. Gii thiu
Bạo lực học đường nh vi hành hạ, ngược đãi, đánh đập; xâm hại thân thể, sức
khỏe; lăng mạ, xúc phạm danh dự, nhân phẩm; lập, xua đuổi và các hành vi cố ý khác gây
tổn hại về thể chất, tinh thần của người học xảy ra trong sở giáo dục hoặc lớp độc lập
(Government of Vietnam, 2017). Bạo lực học đường gây ra những hệ lụy sâu rộng, tác động
trực tiếp gián tiếp đến nhiều khía cạnh của nhân, gia đình, nhà trường hội. Về
mặt thể chất, bạo lực học đường gây ra những tổn thương nghiêm trọng dẫn đến các vấn đề
sức khỏe lâu dài, cản trở khả năng tham gia học tập hoạt động hàng ngày của học
sinh (Nguyen et al., 2025). Về mặt tâm , nạn nhân phải đối mặt với những tổn thương
nghiêm trọng như rối loạn lo âu, trầm cảm (Tran et al., 2025a; Ta et al., 2025), từ đó làm
Cite this article as: Nguyen, V. H. (2025). Fused-a: A multi-stream attention-based model for early detection
of school violence. Ho Chi Minh City University of Education Journal of Science, 22(11), 1980-1992.
https://doi.org/10.54607/hcmue.js.22.11.5160(2025)
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 11 (2025): 1980-1992
1981
giảm hiệu suất học tập và cản trở shình thành nhân cách. Bạo lực học đường còn góp phần
gia tăng bất ổn cộng đồng, làm tăng gánh nặng cho hệ thống y tế công cộng và chi phí kinh
tế liên quan đến việc khắc phục hậu quả, đồng thời làm suy giảm chất lượng nguồn nhân lực
tương lai, gây ra những tác động lâu dài đối với sự phát triển bền vững của xã hội.
Trên toàn cầu, có hơn 150 triệu học sinh đã từng bị bạo lực học đường, khoảng 50% em
học sinh trong độ tuổi 13-15 từng bị bắt nạt (UNICEF Vietnam, 2018). Còn ở Việt Nam, trong
giai đoạn 5 năm từ 2017 đến 2022, đã xảy ra tổng cộng 2624 vụ bạo lực học đường, với 7209
đối tượng liên quan (Nguyen, 2023). Trong bi cnh đó, vic xây dng mt mô hình phát
hin sm bo lc hc đưng không ch mang ý nghĩa khoa hc mà còn có giá tr thiết thc đi
vi công tác giáo dc và bo v hc sinh. Phát hin sm là yếu t then cht đ can thip kp thi,
ngăn chn s leo thang ca hành vi bo lc và hn chế hu qu tâm kéo dài đi vi nn nhân.
Hiện nay, các công trình nghiên cứu về bạo lực thường tập trung vào việc phát hiện
hành vi bạo lực xã hội (Tang et al., 2024; Mishra et al., 2025; Andrade et al., 2025) thường
không hiu qu trong môi trường thc tế như trưng học, nơi các hành vi bạo lc có th din
ra tinh vi, nhanh chóng thường b che giấu dưới nhng hình thc tưng chng vô hi.
Mt trong nhng rào cn ln nht chính là s khan hiếm ca các b d liu chuyên bit cho
bi cnh hc đưng. Hu hết các b d liu hin có tp trung vào bo lực trong môi trường
công cng hoc trong phim nh, vi đc đim hành vi và ng cnh rt khác bit so vi hc
đường. Vic thiếu d liu không ch cn tr kh năng huấn luyn các mô hình hcu đ
chính xác cao mà còn hn chế tính kh dng ca các h thng giám sát thông minh trong
môi trưng giáo dc.
Để gii quyết nhng thách thc này, nghiên cu này đ xut FUSED-A, mt kiến trúc
hc sâu đa lung tích hợp đặc trưng không gianthi gian t chui nh và d liu khung
xương, sử dng chế chú ý (attention) để tăng ng hiu qu phát hin hành vi bo lc
trong môi trường học đường. Những đóng góp chính của nghiên cu này gm:
- Mô hình FUSED-A đưc đ xut, mt kiến trúc đa lung tích hợp đặc trưng t chui
ảnh RGB khung xương 2D thông qua chế chú ý, nhm nâng cao hiu qu nhn din
hành động bo lc hc đường trong môi trường video.
- B d liu chuyên bit v hành vi bo lc hc đưng EduSafe-Early được đ xut, bao
gm 10 lớp hành động bo lc và không bo lc.
- Thực nghiệm và phân tích hệ thống các mô hình học sâu như ResNet50, MobileNetV3
kết hợp với LSTM, BiLSTM, GRU và BiGRU để so sánh hiệu suất trên từng loại dữ liệu và
phương pháp hợp nhất đặc trưng.
- Mô hình đề xuất đạt hiệu suất vượt trội so với các phương pháp SOTA trên bộ dữ liệu
đề xuất EduSafe-Early.
2. Đối tượng và phương pháp nghiên cứu
2.1. Các công trình liên quan
Tạp chí Khoa học Trường ĐHSP TPHCM
Nguyễn Viết Hưng
1982
Các nghiên cu gần đây đã khai thác tiềm năng của hc sâu trong vic phát hin hành
vi bo lực (Tran et al., 2024). (Omarov et al., 2022) đề xut một phương pháp phát hin hành
vi bo lc dựa trên khung xương người, không yêu cu phn cng tính toán cao, phù hp
vi các h thống giám sát trong môi trường hc đường. Phương pháp này gồm hai giai đon:
trích xuất đặc trưng tư thế người t chui nh và phân loại hành động bng mạng nơ-ron để
xác đnh các hành vi bo lực. Phương đề xut đt đ chính xác lên ti 97% trong nhn din
hành vi gây hn trên b d liu t xây dng. (Ye et al., 2020) phát trin h thng da trên
video s dng KNN, đặc trưng optical flow và bộ phân loi hai tng DT-SVM, đt đ chính
xác 97,6% và cho thy kh năng phân biệt tt gia hành vi bo lc và hot động thường
nht. Bên cạnh đó, (Haque et al., 2024) gii thiu mô hình BrutNet kết hp CNN và GRU,
không s dụng optical flow nhưng vẫn đạt đ chính xác 90% trên tp d AVDC. Gần đây,
(Perseghin & Foresti, 2023) công b h thng da trên CNN 2D đưc hun luyn trên b d
liệu Daily School Break (DSB), đạt đ chính xác 95% và có th trin khai vi chi phí thp
trong môi trường hc đưng thc tế. Gần đây, nghiên cứu ca (Tran et al., 2025b) m rng
hướng tiếp cn bng cách ng dng mng tích chập đồ th (GCN) đ khai thác đc trưng
chuyn đng t khung xương. hình SKE-A3TGCN đưc đ xut s dng chế chú ý
không gianthi gian nhm tp trung vào các khp quan trng trong hành vi bo lc. Kết qu
thc nghim trên nhiu tp d liu như HockeyFight, RWF-2000 và Movies cho thy mô hình
đạt hiu sut t tri, đc bit trong bi cnh đ phân gii thp và môi tng biến đng.
Tuy đạt kết qu cao, phn ln các mô hình trên vn da vào các b d liu không
chuyên bit cho bo lc hc đưng như Hockey Fight, Movies hoặc Violent Flow, vn đưc
thu thp t phim nh, YouTube hoc môi trưng xã hi nói chung. Các tp d liu này không
phản ánh đúng tính chất tinh vi và kín đáo của bo lc hc đường, đồng thi thưng có cht
ng hình nh thp và thiếu đa dạng v bi cnh. Ngay c các tp d liu chuyên biệt hơn
như Daily School Break (DSB) (Perseghin & Foresti, 2023) hay video t xây dng ca (Ye
et al., 2020) cũng còn nhiều hn chế, ch yếu v quy mô (ch khong 100 video ngn) và s
ng lớp hành động chưa phong phú. Điều này làm hn chế kh năng tổng quát hóa ca mô
hình và trin khai thc tế trong trường hc gp nhiều khó khăn. Do đó, cần có một hướng
tiếp cn phù hợp hơn với thc tế trưng hc, c v mô hình ln d liu.
2.2. Phương pháp phát hiện sm bo lc trong học đường
Nghiên cu này mô hình FUSED-A nhm phát hin bo lc hc đưng t video giám
sát bao gm hai nhánh x song song: nhánh RGB để khai thác đặc trưng không gian thi
gian t d liu hình ảnh và nhánh Skeleton đ khai thác đặc trưng hành vi từ khung xương
người. C hai nhánh đều s dng kiến trúc BiLSTM đ mô hình hóa mi quan h theo chui
thi gian giữa các khung hình, sau đó được tích hợp thông qua cơ chế chú ý. Cách tiếp cn
này cho phép mô hình tn dng hiu qu c hai ngun thông tin b tr - thông tin ng cnh
t hình nh RGB và thông tin hành vi t chuyển động khung xương. Chi tiết v kiến trúc
ca FUSED-A được trình bày như trong Hình 1.
Tạp chí Khoa học Trường ĐHSP TPHCM
Tập 22, Số 11 (2025): 1980-1992
1983
Hình 1. Kiến trúc FUSED-A tích hợp đặc trưng không gianthi gian
t chui nh và d liệu khung xương
2.2.1. Trích xuất đặc trưng không gian thi gian
Mỗi video đầu vào được chuẩn hóa thành 30 khung hình có kích thước (224×224×3).
Các khung hình này được đưa vào mạng ResNet50 đã tiền hun luyn trên b d liu
ImageNet đ trích xut đặc trưng không gian. Mỗi khung hình được ánh x thành mt vector
đặc trưng 2048 chiều, kết qu là chuỗi đặc trưng có kích thước (30×2048) đại din cho toàn
b video. Chui đặc trưng này sau đó được đưa vào hai lp BiLSTM liên tiếp để mô hình
hóa quan h thi gian gia các khung hình. Lp BiLSTM đu tiên gồm 128 đơn vị n và tr
v toàn b chui đu ra nhm bo toàn thông tin theo tng thời điểm, trong khi lp th hai
gồm 64 đơn vị n ch gi li hidden state (trng thái n) cui cùng, nén toàn b chui vào
mt biu din đc trưng c định giàu thông tin. Để hn chế hin tưng quá khp (overfitting),
Dropout vi t l 0.2 được áp dng sau mi lp BiLSTM.
2.2.2. Trích xuất đặc trưng khung xương
Đối với nhánh Skeleton, mỗi khung hình được xử bằng YOLO11 Pose để phát hiện
các điểm khung xương. Cụ thể, mỗi đối tượng người được biểu diễn bằng 36 đặc trưng, bao
gồm tọa độ (x, y) của 13 điểm khớp chính 10 góc tạo bởi các cặp khớp (như được th
hiện trong Hình 2). Trong nghiên cứu này, chúng tôi tập trung vào hai đối tượng chính trong
mỗi khung hình, dẫn đến việc trích xuất 72 đặc trưng khung xương.
Hình 2. Các đặc trưng điểm và góc khung xương được sử dụng
Tạp chí Khoa học Trường ĐHSP TPHCM
Nguyễn Viết Hưng
1984
Các góc đặc trưng phản ánh tư thế tại các khớp chính, được tính toán bằng công thức
cosin giữa hai vector tạo thành bởi ba điểm liên tiếp A, B C (với B là điểm trung gian).
Góc tại điểm B được tính theo công thức:
cos θ=(𝑥𝑥1 𝑥𝑥2)(𝑥𝑥3 𝑥𝑥2)+(𝑦𝑦1 𝑦𝑦2)(𝑦𝑦3 𝑦𝑦2)
(𝑥𝑥1 𝑥𝑥2)2+(𝑦𝑦1 𝑦𝑦2)2 (𝑥𝑥3 𝑥𝑥2)2+(𝑦𝑦3 𝑦𝑦2)2(1)
trong đó:
(𝑥𝑥1,𝑦𝑦1),(𝑥𝑥2,𝑦𝑦2),(𝑥𝑥3,𝑦𝑦3) là tọa độ của của ba khớp A, B và C.
𝜃𝜃 là góc tạo bởi hai vector 𝐵𝐵𝐵𝐵
𝐵𝐵𝐵𝐵
Tương tự như nhánh RGB, các đặc trưng khung xương được sắp xếp thành chuỗi
kích thước (30×72) và đưa qua hai lớp BiLSTM với kiến trúc tương tự: lớp đầu có 128 đơn
vị ẩn trả về chuỗi đầy đủ, lớp sau có 64 đơn vị ẩn và chỉ giữ lại đầu ra cuối cùng.
2.2.3. Kết hợp đặc trưng thông qua cơ chế chú ý tích vô hướng có hướng dẫn
Để kết hợp đặc trưng thai nhánh RGB Skeleton, chế chú ý tích vô hướng có
hướng dẫn (Guided Dot-Product Attention GDPA) được đề xuất để tối ưu hóa quá trình
kết hợp thông tin. GDPA giúp hình tập trung vào những tín hiệu quan trọng hơn bằng
cách tính toán điểm tương quan giữa hai nguồn dữ liệu. Cụ thể, thay vì áp dụng trọng số lên
cả hai nhánh, chỉ đặc trưng khung xương được điều chỉnh, trong khi đặc trưng hình ảnh
được giữ nguyên. Điều này được thiết kế dựa trên việc đặc trưng RGB cung cấp thông tin
ngữ cảnh phong phú ổn định hơn, có thể đóng vai trò làm nguồn tham chiếu để điều chỉnh
đặc trưng khung xương vốn thường bị ảnh hưởng bởi lỗi phát hiện điểm hoặc dao động
chuyển động nhỏ. Việc giữ nguyên đặc trưng RGB trong khi điều chỉnh đặc trưng khung
xương nhằm hướng dẫn nhánh động học học cách thích nghi tốt hơn với ngữ cảnh không
gian – thời gian của toàn bộ cảnh quay.
Đầu tiên, ma trận chú ý được tính bằng các nhân hai vector đặc trưng từ hai nhánh
𝐹𝐹𝑅𝑅𝑅𝑅𝑅𝑅,𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑹𝑹128×1, theo công thức:
𝑀𝑀=𝐹𝐹𝑅𝑅𝑅𝑅𝑅𝑅 ×𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
𝑇𝑇(2)
Trong đó, 𝑀𝑀 𝑹𝑹128×128 ma trận chú ý, phản ánh mức độ liên quan giữa các đặc trưng
hình ảnh khung xương, còn 𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
𝑇𝑇 𝑹𝑹1×128 ma trận chuyển vị của đặc trưng khung
xương sau khi đi qua các lớp BiLSTM. Sau đó, các điểm này được chuẩn hóa bằng hàm
softmax để tạo ra ma trận trọng số chú ý 𝛼𝛼:
𝛼𝛼=𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑥𝑥(𝑀𝑀) (3)
Ma trận này sau đó được sử dụng để điều chỉnh đặc trưng khung xương bằng phép
nhân ma trận:
𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
=𝛼𝛼𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 (4)
Trong đó 𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
𝑹𝑹128×1 là đặc trưng khung xương sau khi đã được điều chỉnh.
Cuối cùng, đặc trưng hình ảnh ban đầu được ghép nối (concatenate) với đặc trưng khung
xương đã được điều chỉnh để tạo ra một biểu diễn thống nhất:
𝐹𝐹
𝑓𝑓𝑓𝑓𝑠𝑠𝑓𝑓𝑠𝑠𝑠𝑠 =𝐹𝐹𝑅𝑅𝑅𝑅𝑅𝑅||𝐹𝐹𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
(5)