Nghiên cứu thuật toán AI và ứng dụng phân loại hành vi bất thường

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 21

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN AI VÀ ỨNG DỤNG

TRONG PHÂN LOẠI HÀNH VI BẤT THƯỜNG

RESEARCH SOME AI ALGORITHM AND APPLICATION

IN CLASSIFICATION OF ABNORMAL BEHAVIOR

Ngô Anh Tiến1,*, Ngọ Công Bình1,

Nguyễn Đăng Dũng1, Nguyễn Lan Anh2

1Lớp CNTT 04 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

2Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

*Email: ngoanhtien902@gmail.com

TÓM TẮT

Các mô hình dựa trên mạng tích chập sâu đã chiếm ưu thế trong các công việc giải thích hình ảnh gần đây, chúng tôi

đã nghiên cứu xem liệu các mô hình lặp lại hay “sâu tạm thời” có hiệu quả đối với các vấn đề liên quan đến trình tự, thị

giác hay không. Chúng tôi phát triển một kiến trúc tích chập lặp lại (Recurrent convolutional architecture) phù hợp cho

việc học dữ liệu trực quan quy mô lớn, có thể đào tạo từ đầu đến cuối và chứng minh giá trị của các mô hình này trong các

nhiệm vụ nhận dạng video điểm chuẩn. Trong bài báo này, chúng tôi đã tìm cách để có thể xây dựng một ứng dụng phân

loại hành vi bất thường. Sau quá trình sàng lọc tất cả các mô hình truyền thống và mô hình học sâu, cuối cùng chúng tôi

sẽ triển khai phương pháp tiếp cận LRCN bằng cách kết hợp các lớp Convolution và LSTM trong một mô hình duy nhất.

Các lớp Convolutional được sử dụng để trích xuất đặc điểm không gian từ các khung và các đặc điểm không gian được

trích xuất sẽ được đưa đến (các) lớp LSTM ở mỗi bước thời gian để lập mô hình chuỗi thời gian. Bằng cách này, mạng sẽ

học trực tiếp các đặc điểm không gian theo thời gian trong quá trình đào tạo toàn diện, tạo ra một mô hình mạnh mẽ, từ đó

xác định xem hành vi trong camera giám sát có bất thường hay không.

Từ khóa: Phân loại hành vi bất thường; nhận dạng trực quan; học sâu; LRCN.

ABSTRACT

Models based on deep convolutional networks have dominated recent image interpretation tasks; we investigate

whether models which are also recurrent, or “temporally deep”, are effective for tasks involving sequences, visual and

otherwise. We develop a novel recurrent convolutional architecture suitable for large-scale visual learning which is end-

to-end trainable, and demonstrate the value of these models on benchmark video recognition tasks. In this paper, we sought

to build an anomalous behavior classification application. After screening all the traditional and deep learning models, we

will finally implement the LRCN approach by combining Convolution and LSTM layers in a single model. Convolutional

layers are used to extract spatial features from frames, and the extracted spatial features are fed to the LSTM layer(s) at

each time step to model the time series. In this way, the network directly learns spatial features over time during

comprehensive training, creating a robust model, thereby determining whether the behavior in surveillance cameras is

abnormal or not.

Keywords: Classification of abnormal behavior; visual recognition; deep learning; LRCN.

CHỮ VIẾT TẮT

AI Artificial intelligence Trí tuệ nhân tạo

CNN Convolutional Neural Networks Mạng nơ-ron tích chập

ANN Artificial Neural Network Mạng nơ-ron nhân tạo

RNN Recurrent Neural Network Mạng nơ-ron tái phát

LSTM Long-short Term Memmory Bộ nhớ ngắn-dài hạn

LRCN Long-term Recurrent Convolutinal Network Mạng tích chập tái phát dài hạn

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 221. GIỚI THIỆU

Camera giám sát ngày càng được sử dụng nhiều ở những

nơi công cộng, ví dụ như ở nhà, đường phố, ngã tư, ngân

hàng, trung tâm mua sắm,... để tăng cường an toàn công

cộng. Tuy nhiên, năng lực giám sát của các cơ quan thực thi

pháp luật chưa theo kịp. Kết quả là có sự thiếu sót rõ ràng

trong việc sử dụng camera giám sát. Một nhiệm vụ quan

trọng trong giám sát video là phát hiện các sự kiện bất

thường như tai nạn giao thông, tội phạm hoặc các hoạt động

bất hợp pháp. Nhìn chung, các hiện tượng bất thường hiếm

khi xảy ra so với các hoạt động bình thường. Vì vậy, để

giảm thiểu lãng phí nhân công và thời gian, việc phát triển

các thuật toán thị giác máy tính thông minh để phân loại

video bất thường tự động là một nhu cầu cấp thiết và là cơ

sở để phát triển việc nghiên cứu các bài toán phát hiện hành

vi bất thường trong tương lai. Mục đích của hệ thống phân

loại hành vi bất thường trong thực tế là phân loại về một

hoạt động đi chệch khỏi khuôn mẫu thông thường.

Theo cùng nguồn cảm hứng thúc đẩy các mô hình tích

chập sâu hiện tại, chúng tôi ủng hộ các mô hình nhận dạng

video sâu về chiều thời gian, tức là có sự tái diễn theo thời

gian của các biến tiềm ẩn. Các mô hình RNN nổi tiếng là

“sâu về thời gian”. Một hạn chế đáng kể của các mô hình

RNN gọi là hiệu ứng “độ dốc biến mất” (vanishing

gradient): khả năng lan truyền ngược tín hiệu lỗi qua một

khoảng thời gian tầm xa không thể thực hiện được trong

thực tế. Một lớp mô hình cho phép học dài hạn và tăng

cường trạng thái ẩn bằng các cơ chế phi tuyến tính để khiến

trạng thái lan truyền mà không sửa đổi, được cập nhật bằng

cách sử dụng ô nhớ đơn giản như cổng thần kinh. Tính hữu

dụng của nó đã trở nên rõ ràng trong các kết quả gần đây

báo cáo việc học nhận dạng giọng nói trên quy mô lớn và

các mô hình dịch ngôn ngữ.

Ở đây chúng tôi chỉ ra rằng các mô hình tích chập tái

phát dài hạn(LRCN) thường có thể áp dụng cho mô hình

hóa chuỗi thời gian trực quan; chúng tôi chỉ rõ rằng trong

các nhiệm vụ trực quan nơi các mô hình thời gian tĩnh hoặc

phẳng đã được sử dụng trước đây, LRCN dài hạn có thể

mang lại sự cải thiện đáng kể khi có sẵn dữ liệu đào tạo lớn

để tìm hiểu hoặc tinh chỉnh cách biểu diễn.

Chúng tôi khởi tạo kiến trúc để xuất của mình (hình 1).

Đầu tiên, chúng tôi cho thấy rằng việc kết nối trực tiếp mô

hình tích chập trực quan với các mạng LSTM, chúng tôi có

thể huấn luyện các mô hình nhận dạng video nắm bắt được

các phụ thuộc trạng thái thời gian phức tạp. Mặc dù các tập

dữ liệu hoạt động video được gán nhãn có thể không có

hành động hoặc hoạt động cực kỳ phức tạp.

2. CÁC NGHIÊN CỨU LIÊN QUAN

Phân loại bất thường là một trong những vấn đề thách

thức và tồn tại lâu dài nhất trong thị giác máy tính. Cho đến

nay, các mô hình CNN để xử lý video đã xem xét thành

công việc học các bộ lọc không gian-thời gia 3D trên dữ

liệu chuỗi thô và học các biểu diễn từng khung hình. Ji và

cộng sự (2013) với việc giới thiệu các mạng CNN 3D để

nhận dạng hành động của con người, mở rộng khả năng

trích xuất đặc trưng từ không gian sang thời gian. Mô hình

này trích xuất các đặc điểm từ cả chiều không gian và thời

gian bằng cách thực hiện các phép cuộn 3D, từ đó thu được

thông tin chuyển động được mã hóa trong nhiều khung liền

kề. Nghiên cứu này được bổ sung bởi Karpathy và cộng sự

(2014) đã áp dụng CNN cho việc phân loại video trên quy

mô lớn, chứng minh khả năng của CNN trong việc trích

xuất đặc trưng không gian từ các khung hình video. Tiếp

theo, Simonyan và Zisserman (2014) giới thiệu mô hình

Two-stream CNN cho nhận dạng hành động trong video,

khai thác cả thông tin không gian và thời gian một cách độc

lập, từ đó cho thấy sự quan trọng của việc kết hợp cả hai

loại thông tin này.

Mạng thần kinh tái phát(RNN) từ lâu đã được khám phá

trong các ứng dụng nhận thức trong nhiều thập kỷ, với nhiều

kết quả khác nhau. Nghiên cứu đầu tiên của Hochreiter và

Schmidhuber (1997) giới thiệu mạng LSTM (Long Short-

Term Memory), một kiến trúc mạng nơ-ron đặc biệt hiệu quả

trong việc xử lý và ghi nhớ thông tin dài hạn trong chuỗi thời

gian. Baccouche và cộng sự (2011) đã thử nghiệm việc học

sâu tuần tự cho nhận dạng hành động của con người, cung

cấp cơ sở cho việc sử dụng các mô hình LSTM để học các

mẫu thời gian từ các đặc trưng không gian trích xuất bởi

CNN,một mô hình sâu hoàn toàn tự động, học cách phân loại

hành động của con người mà không cần sử dụng bất kỳ kiến

thức nào trước đó. Tiếp theo, Zaremba, Sutskever và Vinyals

(2013) đã thảo luận về các kỹ thuật điều chuẩn cho mạng nơ-

ron hồi tiếp (RNN), giúp cải thiện hiệu suất và độ ổn định của

các mô hình LSTM. Ngoài ra, các nghiên cứu nền tảng về

RNN của Rumelhart, Hinton và Williams (1985), cũng như

của Williams và Zipser (1989), đã cung cấp các thuật toán

học tập quan trọng, đặt nền móng cho các phát triển sau này

trong lĩnh vực học sâu và mạng nơ-ron hồi tiếp.

Tóm lại, các nghiên cứu trên đã tạo nền tảng lý thuyết

và thực tiễn vững chắc cho việc phát triển mô hình LRCN

trong nghiên cứu này, giúp chúng tôi tận dụng sức mạnh

của cả mạng tích chập và LSTM để phân loại hành vi trong

video một cách hiệu quả.

3. PHƯƠNG PHÁP VÀ TƯ LIỆU

Chúng tôi sẽ triển khai phương pháp tiếp cận LRCN

bằng cách kết hợp các lớp Convolution và LSTM trong một

mô hình duy nhất. Các lớp Convolutional được sử dụng để

trích xuất đặc điểm không gian từ các khung và các đặc

điểm không gian được trích xuất sẽ được đưa đến (các) lớp

LSTM ở mỗi bước thời gian để lập mô hình chuỗi thời

gian. Bằng cách này, mạng sẽ học trực tiếp các đặc điểm

không gian theo thời gian trong quá trình đào tạo toàn diện,

tạo ra một mô hình mạnh mẽ.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 23

Hình 1. Quy trình đưa dữ liệu đầu vào, tiền xử lý dữ liệu và mô

hình LRCN đến khi cho kết quả đầu ra

Ngoài ra, CNN còn có thể được huấn luyện bằng GPU

giúp tăng tốc độ huấn luyện lên rất nhiều lần, với lượng dữ

liệu đầu vào lớn thì điều này rất hữu ích.

Hình 2. Lớp bao bọc TimeDistributed

Chúng tôi cũng sẽ sử dụng lớp bao bọc TimeDistributed,

cho phép áp dụng cùng một lớp cho mọi khung hình của

video một cách độc lập. Vì vậy, nó tạo ra một lớp (xung

quanh nó được bao bọc) có khả năng lấy hình dạng đầu vào

(no_of_frames, width, height, num_of_channels) nếu hình

dạng đầu vào ban đầu của lớp đầu vào là (width, height,

num_of_channels) sẽ rất có lợi vì nó cho phép nhập toàn bộ

video vào mô hình chỉ trong một lần chụp.

4. THỰC NGHIỆM

4.1. Cơ sở dữ liệu

Ở đây chúng tôi dùng bộ dữ liệu “Các video của Camera

giám sát có chứa các hành vi bất thường và bình thường”.

Tập dữ liệu này được xây dựng dựa trên tập dữ liệu được

xây dựng từ Sultani, W., Chen, C., & Shah, M. (2018). Phát

hiện sự bất thường trong thế giới thực trong các video giám

sát. Trung tâm Nghiên cứu Thị giác Máy tính (CRCV). Tập

dữ liệu này chứa các video dựa trên 13 loại sau: Lạm dụng,

bắt giữ, đốt phá, tấn công, tai nạn, trộm cắp, nổ, đánh nhau,

cướp, bắn súng, trộm cắp, trộm cắp trong cửa hàng và phá

hoại. Mỗi video được gắn nhãn là bình thường (0) hoặc bất

thường (1) tùy theo nội dung của nó.

Có tổng cộng 16853 video, trong đó 9676 video được

gắn nhãn là Bình thường và 7177 là bất thường.

Nguồn:

https://www.kaggle.com/datasets/mateohervas/dcsass-dataset

4.2. Huấn luyện

Mô hình đều được huấn luyện trên Google Colab. Mô

hình huấn luyện trên một tập dữ liệu chuẩn bị sẵn các file

train, test, validation riêng. Thay đổi chu kỳ sau mỗi lần

train để kiểm tra độ fit của mô hình.

Hình 3. Mô hình huấn luyện

Hình 4. Mô hình huấn luyện

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 24

Hình 5. Kết quả huấn luyện mô hình LRCN

4.3. Đánh giá trên tập thực nghiệm

Sau nhiều lần huấn luyện thì hệ thống đã được nâng cao

độ chính xác lên đến 83%.

Hình 6. Độ chính xác của hệ thống

4.4. Triển khai hệ thống

Sau khi đã hoàn thiện việc huấn luyện và thử nghiệm

các mô hình của các bài toán con, chúng tôi sẽ thực hiện

triển khai chạy hoàn chỉnh trên Google Colab. Yêu cầu về

phần cứng, chỉ cần máy tính đáp ứng tác vụ văn phòng một

cách mượt mà là được (CPU 2-4 nhân, GPU,…).

Truyền một video qua đường dẫn:

Hình 7. Truyền video test

Sau đó bấm chạy để hệ thống chẩn đoán.

Hình 8. Kết quả cho ra hành động bất thường

5. KẾT LUẬN

Bài báo đã đưa ra một phương pháp sử dụng mạng nơ

ron tích chập CNN kết hợp mạng chuyển đổi tái phát dài

hạn (LRCN) phát hiện và phân loại hành vi thông qua video

giám sát hành vi của đối tượng áp dụng các kiến thức về trí

tuệ nhân tạo và học sâu. Đây sẽ là cơ sở để các nghiên cứu

về phân loại ảnh và AI nói chung có thể được phát triển

trong tương lai với những cải tiến về tốc độ và độ chính xác

cao.

Chúng tôi đã trình bày về mạng tích chập tái phát dài

hạn(LRCN), một loại mô hình có chiều sâu cả về mặt không

gian và thời gian, đồng thời có khả năng áp dụng linh hoạt

cho nhiều nhiệm vụ thị giác khác nhau liên quan đến đầu

vào và đàu ra tuần tự. Kết quả của chúng tôi chứng minh

một cách nhất quán rằng: Bằng cách học động lực với mô

hình chuỗi sâu, chúng tôi có thể cải thiện các phương pháp

trước đây vốn chỉ học phân cấp sâu các tham số trong miền

trực quan và các phương pháp lấy biểu diễn trực quan cố

định của đầu vào và chỉ tìm hiểu động học của chuỗi đầu ra.

Khi lĩnh vực thị giác máy tính phát triển vượt xa các

nhiệm vụ với đầu vào dự đoán tĩnh, chúng tôi hình dung

rằng các công cụ mô hình hóa trình tự “sâu gấp đôi” như

mạng tích chập tái phát dài hạn(LRCN) sẽ trở thành phần

trung tâm của hầu hết các hệ thống thị giác, như các kiến

trúc tích chập gần đây đã có. Việc dễ dàng kết hợp các công

cụ này vào quy trình nhận dạng hình ảnh hiện tại khiến

chúng trở thành lựa chọn tự nhiên cho các vấn đề về nhận

thức với đầu vào trực quan hoặc đầu ra tuần tự thay đổi theo

thời gian mà các phương pháp này có thể tạo ra với ít tiền

xử lý đầu vào và không có tính năng được thiết kế bằng tay.

TÀI LIỆU THAM KHẢO

[1]. Nguyễn Phương Nga, Trần Hùng Cường, 2021. Giáo trình trí tuệ nhân tạo. NXB Thống kê.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 25[2]. A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, 2008. Robust real-time unusual event detection using multiple

fixedlocation monitors. TPAMI.

[3]. A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei, 2014. Large-scale video classification

with convolutional neural networks. In CVPR.

[4]. A. Basharat, A. Gritai, and M. Shah, 2008. Learning object motion patterns for anomaly detection and improved

object detection. In CVPR.

[5]. B. Anti and B. Ommer, 2011. Video parsing for abnormality detection. In ICCV.

[6]. C. Lu, J. Shi, and J. Jia, 2013. Abnormal event detection at 150 fps in matlab. In ICCV.