TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 26, S 1 (2024)
33
TÓM TT VIDEO DA TRÊN BIU DIỄN ĐẶC TRƯNG CỦA ĐOẠN CLIP
Nguyn Hoài Nam, Lê Quang Chiến
Khoa Công ngh Thông tin, Trường Đại hc Khoa học, Đại hc Huế
Email: nhoainamdev@gmail.com, lqchien@husc.edu.vn
Ngày nhn bài: 26/6/2024; ngày hoàn thành phn bin: 12/7/2024; ngày duyệt đăng: 01/11/2024
TÓM TT
Vi s gia tăng khối lượng đa dng ca d liu video, vic tìm kiếm, trích xut
thông tin và hiu ni dung ngày càng phc tp tn thi gian. Tóm tt video, bng
cách rút gn video dài thành phiên bn ngắn hơn hoặc hình ảnh đi din, ni lên
như một gii pháp tiềm năng. Kỹ thut này có nhiu ng dng trong giáo dc, gii
trí, an ninh, nâng cao năng suất tri nghiệm người dùng. Các phương pháp m
tt truyn thng cho hiu sut trung bình do hn chế trong x ni dung phc tp,
trong khi các k thut hc sâu hiện đại đã có tiến b đáng kể. Bài báo này gii thiu
cách tiếp cn da trên biu diễn đặc trưng của đoạn clip, khai thác thông tin không
gian và thời gian qua cơ chế hc t chú ý (self-attention). Bên cạnh đó, chúng tôi đề
xuất hai phương pháp tóm tt phù hp cho ng cnh ngoi tuyến trc tuyến da
trên các biu diễn đặc trưng này. Kết qu thc nghim cho thy cách tiếp cn này có
tiềm năng lớn cho các ng dng tóm tt video thc tế.
T khóa: Biu diễn đặc trưng, học sâu, self-attention, tóm tt video.
1. M ĐẦU
Tóm tt video, hay còn gọi Video Summarization, đã nổi lên như một gii pháp
tiềm năng để khai thác tiềm năng từ d liu video. Nó bao gm vic rút gn mt video
dài thành mt phiên bn ngắn hơn hoặc mt lot các hình ảnh đại din, trong khi vn
gi li thông tin ct lõi và ý chính ca ni dung gc. Mc tiêu to ra các bn tóm tt
phản ánh chính xác và đầy đủ ni dung thiết yếu, giúp gim thiu thi gian cn thiết đ
người dùng nm bắt các điểm chính ca video.
Tóm tt video đưc ng dng trong nhiều lĩnh vực khác nhau, m ra nhiều
hi mi. T giáo dc, giải trí, an ninh đến nghiên cu khoa hc, nó có th nâng cao hiu
sut làm vic tri nghiệm người dùng trong các bi cảnh đa dạng. d, mt video
gc t mt s kin th thao có th đưc rút gn thành mt bn tóm tt vài phút, nêu bt
nhng khonh khc quan trng nhất như bàn thắng và các qu đá pht đn.
Tóm tt video da trên biu diễn đặc trưng của đoạn clip
34
Các phương pháp tóm tt video gần đây sử dng nhiu k thut hình khác
nhau, t các phương pháp truyền thống đến các k thut hc sâu hiện đại, để đạt được
hiu sut tóm tt tối ưu. Các phương pháp truyền thống như CSUV [1] tập trung vào các
k thut tóm tắt video bản như phân đoạn video la chọn đoạn tóm tt. Mc
những phương pháp này đã tiên phong trong lĩnh vực tóm tắt video, chúng thường
hiu sut trung bình do hn chế trong vic x lý và hiu ni dung video phc tp. Các
phương pháp học sâu đã tạo ra bước tiến ln trong tóm tt video, nh kh năng xử
d liu phc tp và hc t ng ln d liu. Ví d, VS-LMM [2] s dng s tương hỗ
gia hình nh và ngôn ng để tăng cường tính mch lc ca bn tóm tt, dppLSTM [3]
kết hp quá trình Determinantal Point Process (DPP) vi mng Long Short-Term
Memory (LSTM), re-seq2seq [4] s dng khung sequence-to-sequence để x d liu
tun tto ra các bn tóm tt mch lc. Ngoài ra, Summary Transfer [5] áp dng hc
chuyển giao để điu chnh các mô hình tóm tắt trong các lĩnh vực video khác nhau, ci
thin tính tng quát ca mô hình. Cui cùng, DR-DSN [6] s dng học tăng cường sâu
để tóm tt đng, tối ưu hóa sựn bng giữa độ dài và thông tin ca bn tóm tt.
Trong bài báo này, chúng tôi gii thiu mt cách tiếp cn da trên biu diễn đặc
trưng của đoạn clip. Cách biu din này khai thác thông tin v không gian và thi gian
thông qua chế hc t chú ý (self-attention). Thông qua các biu din này, chúng tôi
cũng đề xuất hai phương pháp tóm tắt video lần lượt theo các ng cnh ngoi tuyến
trc tuyến. Các kết qu thí nghim cho thy cách tiếp cn này có tiềm năng to lớn trong
vic tóm tt video cho các ng dng thc tế.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Biu diễn đặc trưng clip dựa trên Timesformer
Hình 1 biu din kiến trúc tng quan ca hình Timesformer [7]. Kiến trúc này
đưc cu hình theo hình Timesformer-baseline được hun luyện trước trên tp d
liu Kinetics-600 [8]. Theo kiến trúc, mô hình s nhận đầu vào là các clip ngắn được ct
ra t video gốc ban đầu. Mỗi clip này sau khi đi qua mô hình sẽ trích xut ra biu din
đặc trưng tương ứng, đây đặc trưng sẽ đưc s dng cho thut toán tóm tt video
được đề xuất. Các bước chính để trích xuất đặc trưng của clip thông qua hình
Timesformer bao gm:
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 26, S 1 (2024)
35
Hình 1. Minh ho kiến trúc tng quan mô hình Timesformer.
(1) Input clip: Mô hình nhận đầu vào là mt clip 𝑋 𝐻×𝑊×3×𝐹 , trong đó bao gồm
F khung hình RGB (Red, Green, Blue) với kích thước 𝐻 𝑝𝑥 ×𝑊 𝑝𝑥 đưc ly t
video gc.
(2) Phân rã: Mi khung hình đưc chia thành các patch nh kích thước 𝑃 𝑝𝑥 ×𝑃 𝑝𝑥,
các patch này không chng chéo nhau. Những patch này sau đó được làm
phng thành các vector 𝑥(𝑝,𝑡) 3𝑃2 vi p v trí ca patch t v trí ca
khung hình.
(3) Nhúng tuyến tính: Mi patch 𝑥(𝑝,𝑡) đưc nhúng thành embedding vector
𝑧(𝑝,𝑡)
0 𝐷 thông qua mt ma trn nhúng 𝐸 𝐷×3𝑃2th học được, kết hp
vi positional embedding vector 𝑒(𝑝,𝑡)
𝑝𝑜𝑠 𝐷. Công thc 1 biu din cho phép
nhúng tuyến tính này:
𝑧(𝑝,𝑡)
0=𝐸𝑥(𝑝,𝑡)+ 𝑒(𝑝,𝑡)
𝑝𝑜𝑠 (1)
(4) Transformer Encoder: Timesformer bao gm L khối mã hóa. Các bước thc hin
ti mi khi mã hóa l (l=1..L) được minh họa như trong Hình 2. Cụ th, mi khi
mã hóa l, giá tr các vector query 𝑞(𝑝,𝑡)
(𝑙,𝑎) đưc tính cho mi patch t đại din 𝑧(𝑝,𝑡)
(𝑙1)
đã hoá khối trước. Trong đó, 𝑞(𝑝,𝑡)
(𝑙,𝑎)vector query ca patch v trí (p, t),
ti khi mã hóa l và ti attention head a. Tiếp theo, trng s self-attention
(𝑝,𝑡)
(𝑙,𝑎) 𝑁𝐹 + 1 cho mỗi query được nh thông qua dot-product gia vector
query key, sau đó áp dụng hàm Softmax để chun hóa trng s. Cui cùng,
Tóm tt video da trên biu diễn đặc trưng của đoạn clip
36
ni tt c các vector đầu ra đã hoá từ tt c các attention head, kết hp s
dụng residual connection đưa qua một lp Multi-Layer Perceptron (MLP)
truyn kết qu 𝑧(𝑝,𝑡)
(𝑙) cho khi mã hoá tiếp theo.
Hình 2. Minh ho kiến trúc khi mã hóa l s dng Divided Space-Time Self-Attention.
Trong bài báo gc [7], nhiều phương pháp tính toán self-attention khác nhau đã
đưc th nghim. Các kết qu phân tích ch ra rằng, phương pháp Divided Space-Time
Self-Attention (T+S) cho thy s hiu qu trong vic hc cu trúc thi gian - không gian
trong video. vy, trong nghiên cu này, chúng tôi áp dụng phương pháp T+S trong
mi khối mã hóa đ trích xut đặc trưng của mi clip.
(5) Clip Embedding: Biu diễn đặc trưng clip y đưc ly t khi mã hoá cui cùng
L sau khi áp dng hàm chun hóa LN() theo Công thc 2.
𝑦=𝐿𝑁(𝑧(0,0)
(𝐿)) 𝐷 (2)
2.2. Thut toán tóm tt video
Da vào hình Timesformer, mỗi clip đầu vào s đưc trích xut thành mt
vector 768-dims. Các vector này, sau đó, s đưc s dụng để thc hin tóm tt video.
Trong bài báo này, chúng tôi đề xut hai thut toán tóm tắt video tương ng vi hai cách
tiếp cn riêng cho bài toán này: (1) Tóm tt video ngoi tuyến; và (2) Tóm tt video trc
tuyến.
2.2.1. Thut toán tóm tt video ngoi tuyến
ớc đầu tiên ca thut toán này s dụng phương pháp phân cụm K-means vi
K là s ng cm bng 15 phần trăm tổng s biu diễn đặc trưng (các vector 768-dims)
đưc trích xut. Sau khi thc hin phân cm, ta s được K cm vi mi cm bao gm
các biu diễn đặc trưng của các clip tương đồng với nhau. Bước tiếp theo thc hin tính
khong cách gia mi m cm danh sách biu diễn đặc trưng để tìm ra clip tương
ng khong cách gn nht vi mi tâm cm. Kết qu ta được danh sách K clip
đưc chn. Cui cùng, da trên danh sách K clip này, chúng ta s chn ra các khung
hình (frame) đại din. Thuật toán được biu diễn như trong Hình 3 dưới đây.
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 26, S 1 (2024)
37
Hình 3. Minh ha thut toán tóm tt video ngoi tuyến da trên phân cm K-means
2.2.2. Thut toán tóm tt video trc tuyến
Hình 4. Minh ha thut toán tóm tt video trc tuyến
Thut toán tóm tt video trc tuyến đưc biu diễn như trong Hình 4. Thiết lp
clip đầu tiên là điểm khởi đầu, thut toán bt đu duyt t clip th 2. Ti mỗi clip đang
xét, thut toán thc hin so sánh s khác nhau gia clip hin ti vi clip kế trước. Nếu