
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 21
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN AI VÀ ỨNG DỤNG
TRONG PHÂN LOẠI HÀNH VI BẤT THƯỜNG
RESEARCH SOME AI ALGORITHM AND APPLICATION
IN CLASSIFICATION OF ABNORMAL BEHAVIOR
Ngô Anh Tiến1,*, Ngọ Công Bình1,
Nguyễn Đăng Dũng1, Nguyễn Lan Anh2
1Lớp CNTT 04 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: ngoanhtien902@gmail.com
TÓM TẮT
Các mô hình dựa trên mạng tích chập sâu đã chiếm ưu thế trong các công việc giải thích hình ảnh gần đây, chúng tôi
đã nghiên cứu xem liệu các mô hình lặp lại hay “sâu tạm thời” có hiệu quả đối với các vấn đề liên quan đến trình tự, thị
giác hay không. Chúng tôi phát triển một kiến trúc tích chập lặp lại (Recurrent convolutional architecture) phù hợp cho
việc học dữ liệu trực quan quy mô lớn, có thể đào tạo từ đầu đến cuối và chứng minh giá trị của các mô hình này trong các
nhiệm vụ nhận dạng video điểm chuẩn. Trong bài báo này, chúng tôi đã tìm cách để có thể xây dựng một ứng dụng phân
loại hành vi bất thường. Sau quá trình sàng lọc tất cả các mô hình truyền thống và mô hình học sâu, cuối cùng chúng tôi
sẽ triển khai phương pháp tiếp cận LRCN bằng cách kết hợp các lớp Convolution và LSTM trong một mô hình duy nhất.
Các lớp Convolutional được sử dụng để trích xuất đặc điểm không gian từ các khung và các đặc điểm không gian được
trích xuất sẽ được đưa đến (các) lớp LSTM ở mỗi bước thời gian để lập mô hình chuỗi thời gian. Bằng cách này, mạng sẽ
học trực tiếp các đặc điểm không gian theo thời gian trong quá trình đào tạo toàn diện, tạo ra một mô hình mạnh mẽ, từ đó
xác định xem hành vi trong camera giám sát có bất thường hay không.
Từ khóa: Phân loại hành vi bất thường; nhận dạng trực quan; học sâu; LRCN.
ABSTRACT
Models based on deep convolutional networks have dominated recent image interpretation tasks; we investigate
whether models which are also recurrent, or “temporally deep”, are effective for tasks involving sequences, visual and
otherwise. We develop a novel recurrent convolutional architecture suitable for large-scale visual learning which is end-
to-end trainable, and demonstrate the value of these models on benchmark video recognition tasks. In this paper, we sought
to build an anomalous behavior classification application. After screening all the traditional and deep learning models, we
will finally implement the LRCN approach by combining Convolution and LSTM layers in a single model. Convolutional
layers are used to extract spatial features from frames, and the extracted spatial features are fed to the LSTM layer(s) at
each time step to model the time series. In this way, the network directly learns spatial features over time during
comprehensive training, creating a robust model, thereby determining whether the behavior in surveillance cameras is
abnormal or not.
Keywords: Classification of abnormal behavior; visual recognition; deep learning; LRCN.
CHỮ VIẾT TẮT
AI Artificial intelligence Trí tuệ nhân tạo
CNN Convolutional Neural Networks Mạng nơ-ron tích chập
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
RNN Recurrent Neural Network Mạng nơ-ron tái phát
LSTM Long-short Term Memmory Bộ nhớ ngắn-dài hạn
LRCN Long-term Recurrent Convolutinal Network Mạng tích chập tái phát dài hạn

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 221. GIỚI THIỆU
Camera giám sát ngày càng được sử dụng nhiều ở những
nơi công cộng, ví dụ như ở nhà, đường phố, ngã tư, ngân
hàng, trung tâm mua sắm,... để tăng cường an toàn công
cộng. Tuy nhiên, năng lực giám sát của các cơ quan thực thi
pháp luật chưa theo kịp. Kết quả là có sự thiếu sót rõ ràng
trong việc sử dụng camera giám sát. Một nhiệm vụ quan
trọng trong giám sát video là phát hiện các sự kiện bất
thường như tai nạn giao thông, tội phạm hoặc các hoạt động
bất hợp pháp. Nhìn chung, các hiện tượng bất thường hiếm
khi xảy ra so với các hoạt động bình thường. Vì vậy, để
giảm thiểu lãng phí nhân công và thời gian, việc phát triển
các thuật toán thị giác máy tính thông minh để phân loại
video bất thường tự động là một nhu cầu cấp thiết và là cơ
sở để phát triển việc nghiên cứu các bài toán phát hiện hành
vi bất thường trong tương lai. Mục đích của hệ thống phân
loại hành vi bất thường trong thực tế là phân loại về một
hoạt động đi chệch khỏi khuôn mẫu thông thường.
Theo cùng nguồn cảm hứng thúc đẩy các mô hình tích
chập sâu hiện tại, chúng tôi ủng hộ các mô hình nhận dạng
video sâu về chiều thời gian, tức là có sự tái diễn theo thời
gian của các biến tiềm ẩn. Các mô hình RNN nổi tiếng là
“sâu về thời gian”. Một hạn chế đáng kể của các mô hình
RNN gọi là hiệu ứng “độ dốc biến mất” (vanishing
gradient): khả năng lan truyền ngược tín hiệu lỗi qua một
khoảng thời gian tầm xa không thể thực hiện được trong
thực tế. Một lớp mô hình cho phép học dài hạn và tăng
cường trạng thái ẩn bằng các cơ chế phi tuyến tính để khiến
trạng thái lan truyền mà không sửa đổi, được cập nhật bằng
cách sử dụng ô nhớ đơn giản như cổng thần kinh. Tính hữu
dụng của nó đã trở nên rõ ràng trong các kết quả gần đây
báo cáo việc học nhận dạng giọng nói trên quy mô lớn và
các mô hình dịch ngôn ngữ.
Ở đây chúng tôi chỉ ra rằng các mô hình tích chập tái
phát dài hạn(LRCN) thường có thể áp dụng cho mô hình
hóa chuỗi thời gian trực quan; chúng tôi chỉ rõ rằng trong
các nhiệm vụ trực quan nơi các mô hình thời gian tĩnh hoặc
phẳng đã được sử dụng trước đây, LRCN dài hạn có thể
mang lại sự cải thiện đáng kể khi có sẵn dữ liệu đào tạo lớn
để tìm hiểu hoặc tinh chỉnh cách biểu diễn.
Chúng tôi khởi tạo kiến trúc để xuất của mình (hình 1).
Đầu tiên, chúng tôi cho thấy rằng việc kết nối trực tiếp mô
hình tích chập trực quan với các mạng LSTM, chúng tôi có
thể huấn luyện các mô hình nhận dạng video nắm bắt được
các phụ thuộc trạng thái thời gian phức tạp. Mặc dù các tập
dữ liệu hoạt động video được gán nhãn có thể không có
hành động hoặc hoạt động cực kỳ phức tạp.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Phân loại bất thường là một trong những vấn đề thách
thức và tồn tại lâu dài nhất trong thị giác máy tính. Cho đến
nay, các mô hình CNN để xử lý video đã xem xét thành
công việc học các bộ lọc không gian-thời gia 3D trên dữ
liệu chuỗi thô và học các biểu diễn từng khung hình. Ji và
cộng sự (2013) với việc giới thiệu các mạng CNN 3D để
nhận dạng hành động của con người, mở rộng khả năng
trích xuất đặc trưng từ không gian sang thời gian. Mô hình
này trích xuất các đặc điểm từ cả chiều không gian và thời
gian bằng cách thực hiện các phép cuộn 3D, từ đó thu được
thông tin chuyển động được mã hóa trong nhiều khung liền
kề. Nghiên cứu này được bổ sung bởi Karpathy và cộng sự
(2014) đã áp dụng CNN cho việc phân loại video trên quy
mô lớn, chứng minh khả năng của CNN trong việc trích
xuất đặc trưng không gian từ các khung hình video. Tiếp
theo, Simonyan và Zisserman (2014) giới thiệu mô hình
Two-stream CNN cho nhận dạng hành động trong video,
khai thác cả thông tin không gian và thời gian một cách độc
lập, từ đó cho thấy sự quan trọng của việc kết hợp cả hai
loại thông tin này.
Mạng thần kinh tái phát(RNN) từ lâu đã được khám phá
trong các ứng dụng nhận thức trong nhiều thập kỷ, với nhiều
kết quả khác nhau. Nghiên cứu đầu tiên của Hochreiter và
Schmidhuber (1997) giới thiệu mạng LSTM (Long Short-
Term Memory), một kiến trúc mạng nơ-ron đặc biệt hiệu quả
trong việc xử lý và ghi nhớ thông tin dài hạn trong chuỗi thời
gian. Baccouche và cộng sự (2011) đã thử nghiệm việc học
sâu tuần tự cho nhận dạng hành động của con người, cung
cấp cơ sở cho việc sử dụng các mô hình LSTM để học các
mẫu thời gian từ các đặc trưng không gian trích xuất bởi
CNN,một mô hình sâu hoàn toàn tự động, học cách phân loại
hành động của con người mà không cần sử dụng bất kỳ kiến
thức nào trước đó. Tiếp theo, Zaremba, Sutskever và Vinyals
(2013) đã thảo luận về các kỹ thuật điều chuẩn cho mạng nơ-
ron hồi tiếp (RNN), giúp cải thiện hiệu suất và độ ổn định của
các mô hình LSTM. Ngoài ra, các nghiên cứu nền tảng về
RNN của Rumelhart, Hinton và Williams (1985), cũng như
của Williams và Zipser (1989), đã cung cấp các thuật toán
học tập quan trọng, đặt nền móng cho các phát triển sau này
trong lĩnh vực học sâu và mạng nơ-ron hồi tiếp.
Tóm lại, các nghiên cứu trên đã tạo nền tảng lý thuyết
và thực tiễn vững chắc cho việc phát triển mô hình LRCN
trong nghiên cứu này, giúp chúng tôi tận dụng sức mạnh
của cả mạng tích chập và LSTM để phân loại hành vi trong
video một cách hiệu quả.
3. PHƯƠNG PHÁP VÀ TƯ LIỆU
Chúng tôi sẽ triển khai phương pháp tiếp cận LRCN
bằng cách kết hợp các lớp Convolution và LSTM trong một
mô hình duy nhất. Các lớp Convolutional được sử dụng để
trích xuất đặc điểm không gian từ các khung và các đặc
điểm không gian được trích xuất sẽ được đưa đến (các) lớp
LSTM ở mỗi bước thời gian để lập mô hình chuỗi thời
gian. Bằng cách này, mạng sẽ học trực tiếp các đặc điểm
không gian theo thời gian trong quá trình đào tạo toàn diện,
tạo ra một mô hình mạnh mẽ.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 23
Hình 1. Quy trình đưa dữ liệu đầu vào, tiền xử lý dữ liệu và mô
hình LRCN đến khi cho kết quả đầu ra
Ngoài ra, CNN còn có thể được huấn luyện bằng GPU
giúp tăng tốc độ huấn luyện lên rất nhiều lần, với lượng dữ
liệu đầu vào lớn thì điều này rất hữu ích.
Hình 2. Lớp bao bọc TimeDistributed
Chúng tôi cũng sẽ sử dụng lớp bao bọc TimeDistributed,
cho phép áp dụng cùng một lớp cho mọi khung hình của
video một cách độc lập. Vì vậy, nó tạo ra một lớp (xung
quanh nó được bao bọc) có khả năng lấy hình dạng đầu vào
(no_of_frames, width, height, num_of_channels) nếu hình
dạng đầu vào ban đầu của lớp đầu vào là (width, height,
num_of_channels) sẽ rất có lợi vì nó cho phép nhập toàn bộ
video vào mô hình chỉ trong một lần chụp.
4. THỰC NGHIỆM
4.1. Cơ sở dữ liệu
Ở đây chúng tôi dùng bộ dữ liệu “Các video của Camera
giám sát có chứa các hành vi bất thường và bình thường”.
Tập dữ liệu này được xây dựng dựa trên tập dữ liệu được
xây dựng từ Sultani, W., Chen, C., & Shah, M. (2018). Phát
hiện sự bất thường trong thế giới thực trong các video giám
sát. Trung tâm Nghiên cứu Thị giác Máy tính (CRCV). Tập
dữ liệu này chứa các video dựa trên 13 loại sau: Lạm dụng,
bắt giữ, đốt phá, tấn công, tai nạn, trộm cắp, nổ, đánh nhau,
cướp, bắn súng, trộm cắp, trộm cắp trong cửa hàng và phá
hoại. Mỗi video được gắn nhãn là bình thường (0) hoặc bất
thường (1) tùy theo nội dung của nó.
Có tổng cộng 16853 video, trong đó 9676 video được
gắn nhãn là Bình thường và 7177 là bất thường.
Nguồn:
https://www.kaggle.com/datasets/mateohervas/dcsass-dataset
4.2. Huấn luyện
Mô hình đều được huấn luyện trên Google Colab. Mô
hình huấn luyện trên một tập dữ liệu chuẩn bị sẵn các file
train, test, validation riêng. Thay đổi chu kỳ sau mỗi lần
train để kiểm tra độ fit của mô hình.
Hình 3. Mô hình huấn luyện
Hình 4. Mô hình huấn luyện

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 24
Hình 5. Kết quả huấn luyện mô hình LRCN
4.3. Đánh giá trên tập thực nghiệm
Sau nhiều lần huấn luyện thì hệ thống đã được nâng cao
độ chính xác lên đến 83%.
Hình 6. Độ chính xác của hệ thống
4.4. Triển khai hệ thống
Sau khi đã hoàn thiện việc huấn luyện và thử nghiệm
các mô hình của các bài toán con, chúng tôi sẽ thực hiện
triển khai chạy hoàn chỉnh trên Google Colab. Yêu cầu về
phần cứng, chỉ cần máy tính đáp ứng tác vụ văn phòng một
cách mượt mà là được (CPU 2-4 nhân, GPU,…).
Truyền một video qua đường dẫn:
Hình 7. Truyền video test
Sau đó bấm chạy để hệ thống chẩn đoán.
Hình 8. Kết quả cho ra hành động bất thường
5. KẾT LUẬN
Bài báo đã đưa ra một phương pháp sử dụng mạng nơ
ron tích chập CNN kết hợp mạng chuyển đổi tái phát dài
hạn (LRCN) phát hiện và phân loại hành vi thông qua video
giám sát hành vi của đối tượng áp dụng các kiến thức về trí
tuệ nhân tạo và học sâu. Đây sẽ là cơ sở để các nghiên cứu
về phân loại ảnh và AI nói chung có thể được phát triển
trong tương lai với những cải tiến về tốc độ và độ chính xác
cao.
Chúng tôi đã trình bày về mạng tích chập tái phát dài
hạn(LRCN), một loại mô hình có chiều sâu cả về mặt không
gian và thời gian, đồng thời có khả năng áp dụng linh hoạt
cho nhiều nhiệm vụ thị giác khác nhau liên quan đến đầu
vào và đàu ra tuần tự. Kết quả của chúng tôi chứng minh
một cách nhất quán rằng: Bằng cách học động lực với mô
hình chuỗi sâu, chúng tôi có thể cải thiện các phương pháp
trước đây vốn chỉ học phân cấp sâu các tham số trong miền
trực quan và các phương pháp lấy biểu diễn trực quan cố
định của đầu vào và chỉ tìm hiểu động học của chuỗi đầu ra.
Khi lĩnh vực thị giác máy tính phát triển vượt xa các
nhiệm vụ với đầu vào dự đoán tĩnh, chúng tôi hình dung
rằng các công cụ mô hình hóa trình tự “sâu gấp đôi” như
mạng tích chập tái phát dài hạn(LRCN) sẽ trở thành phần
trung tâm của hầu hết các hệ thống thị giác, như các kiến
trúc tích chập gần đây đã có. Việc dễ dàng kết hợp các công
cụ này vào quy trình nhận dạng hình ảnh hiện tại khiến
chúng trở thành lựa chọn tự nhiên cho các vấn đề về nhận
thức với đầu vào trực quan hoặc đầu ra tuần tự thay đổi theo
thời gian mà các phương pháp này có thể tạo ra với ít tiền
xử lý đầu vào và không có tính năng được thiết kế bằng tay.
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Phương Nga, Trần Hùng Cường, 2021. Giáo trình trí tuệ nhân tạo. NXB Thống kê.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 25[2]. A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, 2008. Robust real-time unusual event detection using multiple
fixedlocation monitors. TPAMI.
[3]. A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei, 2014. Large-scale video classification
with convolutional neural networks. In CVPR.
[4]. A. Basharat, A. Gritai, and M. Shah, 2008. Learning object motion patterns for anomaly detection and improved
object detection. In CVPR.
[5]. B. Anti and B. Ommer, 2011. Video parsing for abnormality detection. In ICCV.
[6]. C. Lu, J. Shi, and J. Jia, 2013. Abnormal event detection at 150 fps in matlab. In ICCV.
[7]. D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri, 2015. Learning spatiotemporal features with 3d
convolutional networks. In ICCV.
[8]. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, 2014. Dropout: A simple way to prevent
neural networks from overfitting, J. Mach.
[9]. Stuart Russell, Peter Norvig, 2020. Artificial Intelligence: A Modern Approach, 4th Edition, Pearson.
[10]. Waqas Sultani, Chen Chen, Mubarak Shah, 2018. Real-world Anomaly Detection in Surveillance Videos. Cornell
University Library.

