TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 79
NGHIÊN CỨU CHUỖI ẢNH TUẦN TỰ VÀ ỨNG DỤNG MỘT SỐ KỸ THUẬT
DEEP LEARNING ĐỂ DỰ ĐOÁN ẢNH TIẾP THEO
RESEARCH ON SEQUENTIAL IMAGE SEQUENCE AND APPLICATIONS
SOME DEEP LEARNING MODELS TO PREDICT THE NEXT IMAGE
Trần Duy Đình Hải1,*, Lê Thị Ngọc2,
Nguyễn Thị Mai2, Nguyễn Xuân Hoàng3
1Lớp KTPM 03 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Lớp HTTT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: haitdd@fit-haui.edu.vn
TÓM TẮT
Nghiên cứu chuỗi ảnh tuần tự ứng dụng một số kỹ thuật Deep Learning để dự đoán ảnh tiếp theo gồm những nội
dung chính sau: Nghiên cứu tổng quan các hình Deep Learning: khái niệm, cách thức hoạt động, ng dụng, ưu
nhược điểm của các hình. Tiếp đến tìm hiểu các hình được ứng dụng trong dự đoán ảnh tiếp theo: hình mạng
nơ-ron hồi quy đồng nhất (IRNN), Long Short-Term Memory (LSTM), Latent Video Transformer (LVT) và hệ suy diễn
mờ phức - không thời gian. Từ đó đưa ra đánh giá về ưu, nhược điểm của các mô hình trong việc dự đoán ảnh tiếp theo.
Từ khóa: Học sâu, dự đoán ảnh, IRNN, LSTM, LVT, Transformer, Latent Space, hệ suy diễn mờ phức.
ABSTRACT
Research on sequential image sequence and applications some Deep Learning models to predict the next image includes
the following main contents: Overview of Deeplearning model: concept, operation, application, pros and cons; Deep
learning models. Next is to learn some models used for next image prediction including: IRNN, LSTM, LVT, Complex
Fuzzy. Then, evaluate the advantages and disadvantages of the models in predicting the next image.
Keywords: Deeplearning, Image prediction, IRNN, LSTM, LVT, Transformer, Latent Space, Complex Fuzzy.
1. GIỚI THIỆU
Nhu cầu về các hệ thống có khả năng dự đoán ảnh tiếp
theo ngày càng tăng cao trong nhiều lĩnh vực như an ninh,
y tế, giải trí. Khả năng dự đoán này mở ra tiềm năng ứng
dụng trong tạo hiệu ứng đặc biệt, phục hồi ảnh, n ảnh. Sự
phát triển mạnh mẽ của Deep Learning hình
Transformer tạo điều kiện thuận lợi cho việc nghiên cứu
phát triển đề tài này. Chuỗi ảnh tuần tự và ứng dụng Deep
Learning để dự đoán ảnh tiếp theo là một đề tài nghiên cứu
thu hút sự quan tâm bởi tính cấp thiết, tiềm năng ứng dụng
rộng lớn và khả năng giải quyết vấn đề hiệu quả. Với nguồn
dữ liệu dồi dào, cộng đồng nghiên cứu sôi động, đây lĩnh
vực đầy hứa hẹn cho những đột phá khoa học và ứng dụng
thực tiễn trong tương lai.
Trong thời gian gần đây, các hình Deep Learning đã
trở thành công cụ mạnh mẽ trong việc dự đoán, xử dữ
liệu dạng chuỗi. Các mô hình này đã được thiết kế để xử
các vấn đề phức tạp liên quan đến dữ liệu không gian
thời gian. Một số mô hình như Recurrent Neural Networks
(RNN), Long Short-Term Memory Transformer được sử
dụng rộng rãi, đều khả năng tự học cách biểu diễn dữ
liệu từ dữ liệu thô, điều này giúp chúng ta có thxử được
các chuỗi dữ liệu tuần tự phức tạp mà không cần phải tạo ra
các đặc trưng thủ công.
Tuy nhiên, việc thiết kế các hình Deep Learning hiệu
quả cho việc dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần
tự vẫn còn là một thách thức. Sự phức tạp và tính động của
dữ liệu đầu vào gây ra nhiều khó khăn trong việc thiết kế
các mô hình này.
Xuất phát từ vấn đề trên, nhóm tác giả tiến hành nghiên
cứu về chuỗi ảnh tuần tự và một số hình Deep Learning
để dự đoán ảnh tiếp theo.
2. SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN
CỨU
2.1. Chuỗi ảnh tuần tự
Chuỗi ảnh tuần tự hay còn gọi sequential image
sequence, một tập hợp c hình ảnh được sắp xếp theo
một thứ tự nhất định để thể hiện một quá trình hoặc một sự
kiện diễn ra theo thời gian, các hình ảnh trong chuỗi tuần tự
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 80thường được liên kết với nhau về mặt nội dung. Chuỗi ảnh
tuần tự đóng một vai trò quan trọng trong việc dự đoán ảnh
kế tiếp, cung cấp các xu hướng diễn ra theo thời gian. Các
ảnh trong chuỗi mối quan hệ phụ thuộc theo thời gian
với nhau. Thông tin từ ảnh trước có thể ảnh hưởng hoặc liên
quan đến nội dung của ảnh tiếp theo, từ đó làm tăng khả
năng dự đoán chính xác.
Hình 1. Ví dụ về chuỗi ảnh tuần tự
2.2. Một số hình Deep Learning sử dụng cho bài toán
chuỗi ảnh tuần tự
- Mô hình LSTM (Long Short-Term Memory)
hình LSTM được Hochreiter Schmidhuber đề
xuất vào năm 1997, là một trong những phát triển mới nhất
của mô hình RNN nhằm khắc phục vấn đề độ dốc biến mất
vấn đề phụ thuộc xa của hình RNN. hình RNN
một chuỗi các đun lặp đi lặp lại của mạng nơ-ron.
Trong các hình RNN tiêu chuẩn, mô-đun lặp có cấu trúc
rất đơn giản, thường là một tầng tanh. Các mô hình LSTM
cũng cấu trúc trình tự ơng tự như RNN, nhưng các -
đun lặp lại cấu trúc hơi khác. LSTM gồm 4 thành phần
(cell, forget gate, input gate, output gate) tương tác với nhau
một cách rất đặc biệt.
Hình 2. Cấu trúc của mô hình LSTM
Cổng forget nhiệm vụ chọn thông tin bị bỏ quên từ
trạng thái trước. Thông tin được lấy từ đầu vào xttrạng
thái ẩn (hidden state) ht-1 qua hàm kích hoạt đưa về giá trị
(0, 1)
Thông tin mới sau đó được lưu trữ trong đầu vào trạng
thái hiện tại. Cổng đầu vào truyền thông tin trạng thái hiện
tại trạng thái ẩn của cổng trước qua 2 hàm: hàm kích hoạt
trả về giá trị (0, 1) để quyết định giá trị nào cần được cập
nhật và hàm kích hoạt tanh tạo một vector mới Ct giá tr
(-1,1) để thêm vào trạng thái.
Sau đó, ô mới (cell state) Ct cập nhật trạng thái từ các
thông tin bị bỏ qua ở ô trước đó ft * Ct-1 và khi đó thông tin
mới sẽ được cập nhật ở đầu vào it * C~t.
Cổng output xác định thông tin đầu ra của trạng thái
hiện tại bằng cách sử dụng giá trị trả về của hàm kích hoạt
để quyết định xuất bao nhiêu thông tin trạng thái. Trạng
thái mới Ct được chuyển cho hàm tanh để trả về giá trị
(-1,1). Kết hợp 2 giá trị được xuất thành đầu ra cho trạng
thái ẩn (hidden state).
Từ cách thức hoạt động trên, LSTM được đánh giá
vượt trội hơn so với RNN, thể truy vấn được thông tin từ
một tập thông tin lớn hơn. vậy, LSTM rất thích hợp để
dự báo chuỗi thời gian trong dài hạn, từ đó thể ứng dụng
cho bài toán dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần
tự.
- Mạng nơ-ron hồi quy đồng nhất (IRNN - Identity
Recurrent Neural Network)
Mạng IRNN được đề xuất bởi nhóm các nhà nghiên cứu
đến từ Google gồm Navdeep Jaitly Geoffrey Hinton.
IRNN được thiết kế để giữ được thông tin qua nhiều bước
thời gian không mất đi do vấn đề biến mất gradient -
một vấn đề phổ biến trong các mô hình RNN thông thường
khi xử lý các chuỗi dữ liệu dài.
IRNN khả năng khởi tạo ổn định hơn so với RNN
nhờ ma trận trọng số khởi tạo được thiết lập là ma trận đơn
vị với tỷ lệ 0,01. Nhờ sự khởi tạo ổn định này, IRNN có thể
duy trì đạo hàm lỗi cho các đơn vị ẩn trong quá trình lan
truyền ngược theo thời gian một cách không đổi.
IRNN một giải pháp thay thế đơn giản hơn các kiến
trúc phức tạp như LSTM, giúp chúng dễ đào tạo triển
khai hơn trong khi vẫn thể đạt được hiệu suất tương
đương hoặc thể hơn trong các tác vụ liên quan đến sự
phụ thuộc u dài. Ngoài ra IRNN còn làm khá tốt trong việc
nắm bắt các mối quan hệ tương quan tầm xa trong chuỗi dữ
liệu. Làm cho chúng rất phù hợp với các tác vụ việc hiểu
các mối quan hệ thời gian rộng rất quan trọng, chẳng hạn
như việc dự báo hay mô hình hóa ngôn ngữ
Để đánh giá hiệu quả của các mô hình LSTM, RNN
IRNN với độ dài chuỗi thay đổi, một bộ dữ liệu gồm
100.000 và 10.000 dụ đã được tạo ra. Trạng thái ẩn của
các mạng này được cố định thành 100 đơn vị. LSTM có s
lượng tham số gấp 4 lần tốn nhiều thời gian tính toán hơn
4 lần so với RNN do cấu trúc phức tạp hơn. Khi độ dài chuỗi
(T) tăng n 150, hiệu suất của LSTM RNN bắt đầu giảm
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 81sút. Tiếp tục thử nghiệm với các giá trị T khác nhau (150,
200, 300, 400), kết quả được thể hiện trong hình dưới đây
và các tham số tối ưu cho từng hình cũng được ghi chép
trong bảng 1.
Hình 3. Biểu đồ hiệu suất của các mô hình khi T thay đổi
Bảng 1. Bảng hiệu suất của các mô hình với T thay đổi
Chú thích: (lr learning rate hay tốc độ học, gc gradient
clipping – gradient bùng nổ, fb là forget gate bias – hệ số điều chỉnh
độ “quên” của forget gate trong LSTM )
Từ kết quả thử nghiệm trên ta có thể thấy, IRNN mang
lại hiệu quả ngang với LSTM, thậm chí thể tốt hơn trong
một số trường hợp, trong khi LSTM tốn tài nguyên tính toán
và phức tạp hơn IRNN gấp ít nhất 4 lần. Thế nhưng với sự
đơn giản đó của IRNN, khi xử các tác vụ mà sự phụ thuộc
lâu dài rất quan trọng cần hình phức tạp, LSTM có
kiến trúc được điều chỉnh tốt với số lượng lớn các tham số
thể vượt trội hơn IRNN, thể hiện hiệu suất vượt trội trong
các tình huống đòi hỏi quản lý bộ nhớ chi tiết và nhận dạng
mẫu phức tạp.
- Latent Video Transformer (LVT)
Latent Video Transformer là một mô hình được đề xuất
cho các tác vụ tạo video một tác vụ được phát triển dựa
trên bài toán ban đầu về việc dự đoán ảnh dựa trên chuỗi
ảnh tuần tự cho trước đây thể gọi các khung hình
hay frames.
Trong phương pháp này, thay dự đoán nh thứ n+1
dựa trên chuỗi ảnh T gồm n ảnh cho trước (gồm chuỗi ảnh
liên tiếp từ T0 đến T), LVT stiếp tục sử dụng ảnh thứ n+1,
sau đó dự đoán ảnh thứ n+2 dựa trên tập T1 gồm n+1 ảnh.
Điểm khác biệt lớn nhất của LVT so với những hình
khác được sử dụng để tạo video hay dự đoán ảnh sự kết
hợp giữa Latent Space mô hình Transformer, cải thiện
hiệu năng, tốc độ i nguyên cần thiết để giải quyết bài
toán. Trong đó:
Latent Space hay còn gọi không gian tiềm ẩn, không
gian nhúng,… là không gian tại đó dữ liệu được biểu diễn
lại với các đặc trưng phục vụ cho các dự đoán của mô hình
hay nói cách khác Latent Space là một định nghĩa đơn giản
và duy nhất là đại diện của dữ liệu dưới dạng “nén”.
Hình 4. Mô hình hoạt động của Latent Space
Ta có một dụ đơn giản như sau: giả sử tập dữ liệu ban
đầu của chúng ta hình ảnh kích thước 5x5x1. Kích
thước latent space sẽ được đặt 3x1, nghĩa là điểm dữ
liệu nén là một vectơ có 3 chiều.
Bây giờ mỗi một điểm dữ liệu nén 5x5x1 chỉ được xác
định duy nhất bởi 3 số, điều đó có nghĩa là chúng ta có thể
vẽ biểu đồ dữ liệu này trên Mặt phẳng 3D (Một số là x, số
kia là y, số kia là z).
Hình 5. Biểu đồ dữ liệu hiển thị trong Latent Space của ma trận
5x5x1
Bất cứ khi nào chúng ta vẽ graph cho các điểm hoặc nghĩ
về các điểm trong latent space, chúng ta thể ởng tượng
chúng các tọa độ trong không gian nơi các điểm
"similar" ở gần nhau hơn trên biểu đồ.
Transformer: là một kiến trúc mạng nơ-ron được thiết
kế đặc biệt để xdữ liệu dạng chuỗi, như ngôn ngữ tự
nhiên và nhiều nhiệm vụ khác, bao gồm cả xử lý ảnh.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 82 hình Transformer bao gồm hai phần chính
encoder decoder được cấu tạo bởi các layer lặp đi lặp lại.
Hình 6. Mô hình hoạt động của Transformer
Encoder cấu trúc gồm 4 lớp giống nhau, mỗi lớp sẽ
2 sub-layers. Sub-layer thứ nhất một chế multi-
head self-attention. Self-attention chế giúp hình
Transformer thể tập chung vào các phần khác nhau trong
chuỗi vector đầu vào của mô hình khi đưa ra dự đoán. Còn
sub-layer thứ hai là một mạng kết nối đầy đủ feed-forward
neural network là mạng nơ-ron nhân tạo nơi thông tin chỉ di
chuyển theo một hướng tiến về phía trước (từ input, qua các
lớp ẩn đến output) được sử dụng sau lớp Self-attention để
xử lý thông tin và đưa ra dự đoán.
Decoder: Cấu trúc của Decoder rất giống với Encoder.
Tuy nhiên, Decoder thêm một lớp Attention nữa giúp
tập trung vào các output từ Encoder. Điều này giúp Decoder
có thể sử dụng thông tin từ toàn bộ chuỗi đầu vào để đưa ra
dự đoán về vector tiếp theo.
Cả Encoder và Decoder đều sử dụng Positional
Encoding để đưa thông tin về vị trí của các từ vào mô hình.
Điều này giúp mô hình thể nắm bắt được thông tin thứ
tự của các phần ttrong chuỗi đầu vào sau khi xử chúng
“song song”.
- Hệ suy diễn mờ phức – không thời gian
Hệ suy diễn mờ phức, còn được biết đến là Hệ suy diễn
mờ, là một thành phần chính của bất kỳ hệ thống logic mờ
nào. Nó sử dụng lý thuyết tập mờ, các quy tắc IF-THEN
quá trình suy luận mờ để tìm ra đầu ra tương ứng với các
đầu vào rõ ràng.
Hệ suy diễn mờ (mô tả trong hình sau) cấu trúc
bản như sau:
Giao diện mờ hóa: chuyển đổi các lớp đầu vào các biên
độ phù hợp với các giá trị ngôn ngữ.
sở trí thức bao gồm 2 phần:
sdữ liệu: định nghĩa các hàm thuộc của các tập
mờ được sử dụng trong các luật mờ
Bộ luật: gồm các luật mờ IF – THEN
Đơn vị thực thi: thực hiện các hoạt động suy diễn trong
các luật.
Giao diện giải mờ: chuyển đổi các giá trkết quả m
của hệ suy diễn ra các lớp đầu ra
Hình 7. Sơ đồ tổng quan của hệ suy diễn mờ phức
Các bước suy diễn mờ:
Mờ hóa các biến đầu vào: cần mờ hóa những giá trị
để tham gia vào quá trình suy diễn
Áp dụng các toán tử mờ (AND hoặc OR) cho các giả
thiết của từng luật.
Áp dụng phép kéo theo đtính toán giá trị các giá trị
từ giả thiết đến kết luận của từng luật.
Áp dụng toán tử gộp để kết hợp các kết quả trong từng
luật thành một kết quả duy nhất cho cả hệ.
Giải mờ kết quả tìm được cho ta một số rõ.
Hình 8. Thuật toán ADAM
Phương pháp này tập trung vào việc xử chuỗi hình
ảnh đầu vào để thu được bộ dữ liệu gồm hai phần chính:
thực và pha. Ban đầu, quá trình tiền xử lý được áp dụng để
tạo ra phần thực và pha, trong đó phần pha được định nghĩa
là sai khác giữa hai ảnh liên tiếp tại cùng một vị trí. Dữ liệu
sau khi tiền xử được chia thành các cụm tương ứng s
dụng thuật toán FCM. Từ kết quả phân cụm, hệ luật mờ
phức dạng tam giác được tạo ra. Trong bước giải mờ, các
tham số cho hàm giải mờ được tối ưu hóa bằng thuật toán
ADAM, nhằm xác định các tham số phù hợp. Luật giải m
phức dạng tam giác được áp dụng để giải mờ dữ liệu không
gian. Các điểm ảnh dự đoán của phần thực và phần pha tiếp
tục được đưa vào thuật toán ADAM để huấn luyện tối
ưu hóa hệ số phụ thuộc, từ đó cải thiện kết quả dự đoán hình
ảnh.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 83
Hình 9. hình được đề xuất để dự đoán ảnh với hsuy diễn
mờ phức
Nhằm đảm bảo chất lượng cũng như tính đa dạng của
các tình huống thực nghiệm về dữ liệu, các thuật toán
các độ đo đối sánh, tiến hành sử dụng các thuật toán PFC-
PFR, SeriesNet (thuật toán sử dụng mô hình mạng LSTM),
Deep Slow Feature Analysis (DSFA) để so sánh và các kết
quả thực nghiệm được sử dụng độ đo RMSE (trung bình
phương sai), R2 (Rsquare) để đánh giá, sau đó sử dụng
phương pháp phân tích ANOVA để phân tích kết quả.
Kết quả RMSE của phương pháp đề xuất (Spatial CFIS)
các thuật toán so sánh (PFC-PFR, SeriesNet, DSFA)
trên bộ dữ liệu Hải quân Hoa kỳ với hình nh có kích thước
100x100 Pixels được thể hiện như trong bảng 2.
Bảng 2. Kết quả của thuật toán đề xuất và các thuật toán so sánh
với độ đo R2 trên bộ dữ liệu có kích thước 100x100 Pixels
Biểu đồ trình bày kết quả R2 của phương pháp đề xuất
(Spatial CFIS) các thuật toán so sánh (PFC-PFR,
SeriesNet, DSFA) trên bộ dữ liệu Hải quân Hoa kỳ với hình
ảnh có kích thước 100x100 Pixels như hình 10.
Kết quả R2 của phương pháp đề xuất (Spatial CFIS)
các thuật toán so sánh (PFC-PFR, SeriesNet, DSFA) trên
bộ dữ liệu Hải quân Hoa kỳ với hình ảnh kích thước
500x500 Pixels được được thể hiện trong bảng 3.
Hình 10. R2 của các thuật toán với nh kích thước 100x100 Pixels
của bộ dữ liệu Hải quân Hoa kỳ
Bảng 3. So sánh trung bình R2 của các thuật toán cho tập dữ liệu
500x500 Pixels
3. KẾT LUẬN
Nghiên cứu đã trình y được bản về một số hình
Deep Learning và một số mô hình khác được sử dụng để xử
lý các loại dữ liệu dạng chuỗi như chuỗi ảnh, câu từ,... Báo
cáo cũng đã đưa ra những đánh giá thử nghiệm các
hình với những bộ dữ liệu khác nhau. Mặc dù chưa thể xây
dựng được một chương trình thử nghiệm hoàn chỉnh, nhưng
một số một hình cũng đã được cài đặt và thử nghiệm.
Kết quả đạt được
Nghiên cứu tổng quan về một số hình Deep
Learning.
Tìm hiểu, cài đặt thực nghiệm hình LSTM đánh
giá một số công cụ phần mềm, phương pháp được sử dụng
trong việc dự đoán ảnh kế tiếp bao gồm LSTM, IRNN,
LVT, Fuzzy-M.
Hướng nghiên cứu trong tương lai
Nghiên cứu và xây dựng hoàn thiện hệ thống dự đoán
ảnh dựa trên chuỗi ảnh tuần tự sử dụng một trong số những
phương pháp đã nghiên cứu.
Áp dụng với ảnh viễn thám, từ đó thể dự đoán về
sự thay đổi của bề mặt trái đất, ứng dụng với việc dự báo
thời tiết, thiên tai.
Tiếp tục nghiên cứu, cải thiện các hình được sử
dụng để dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần tự
nói riêng, các hình được dùng để xử dữ liệu dạng
chuỗi thời gian nói chung.
Tích hợp với các mô hình khác để xây dựng ứng dụng
thông minh hơn.