Dự đoán ảnh tiếp theo: Nghiên cứu chuỗi ảnh tuần tự và ứng dụng kỹ thuật Deep Learning

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 79

NGHIÊN CỨU CHUỖI ẢNH TUẦN TỰ VÀ ỨNG DỤNG MỘT SỐ KỸ THUẬT

DEEP LEARNING ĐỂ DỰ ĐOÁN ẢNH TIẾP THEO

RESEARCH ON SEQUENTIAL IMAGE SEQUENCE AND APPLICATIONS

SOME DEEP LEARNING MODELS TO PREDICT THE NEXT IMAGE

Trần Duy Đình Hải1,*, Lê Thị Ngọc2,

Nguyễn Thị Mai2, Nguyễn Xuân Hoàng3

1Lớp KTPM 03 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

2Lớp HTTT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

*Email: haitdd@fit-haui.edu.vn

TÓM TẮT

Nghiên cứu chuỗi ảnh tuần tự và ứng dụng một số kỹ thuật Deep Learning để dự đoán ảnh tiếp theo gồm những nội

dung chính sau: Nghiên cứu tổng quan các mô hình Deep Learning: khái niệm, cách thức hoạt động, ứng dụng, ưu và

nhược điểm của các mô hình. Tiếp đến là tìm hiểu các mô hình được ứng dụng trong dự đoán ảnh tiếp theo: mô hình mạng

nơ-ron hồi quy đồng nhất (IRNN), Long Short-Term Memory (LSTM), Latent Video Transformer (LVT) và hệ suy diễn

mờ phức - không thời gian. Từ đó đưa ra đánh giá về ưu, nhược điểm của các mô hình trong việc dự đoán ảnh tiếp theo.

Từ khóa: Học sâu, dự đoán ảnh, IRNN, LSTM, LVT, Transformer, Latent Space, hệ suy diễn mờ phức.

ABSTRACT

Research on sequential image sequence and applications some Deep Learning models to predict the next image includes

the following main contents: Overview of Deeplearning model: concept, operation, application, pros and cons; Deep

learning models. Next is to learn some models used for next image prediction including: IRNN, LSTM, LVT, Complex

Fuzzy. Then, evaluate the advantages and disadvantages of the models in predicting the next image.

Keywords: Deeplearning, Image prediction, IRNN, LSTM, LVT, Transformer, Latent Space, Complex Fuzzy.

1. GIỚI THIỆU

Nhu cầu về các hệ thống có khả năng dự đoán ảnh tiếp

theo ngày càng tăng cao trong nhiều lĩnh vực như an ninh,

y tế, giải trí. Khả năng dự đoán này mở ra tiềm năng ứng

dụng trong tạo hiệu ứng đặc biệt, phục hồi ảnh, nén ảnh. Sự

phát triển mạnh mẽ của Deep Learning và mô hình

Transformer tạo điều kiện thuận lợi cho việc nghiên cứu và

phát triển đề tài này. Chuỗi ảnh tuần tự và ứng dụng Deep

Learning để dự đoán ảnh tiếp theo là một đề tài nghiên cứu

thu hút sự quan tâm bởi tính cấp thiết, tiềm năng ứng dụng

rộng lớn và khả năng giải quyết vấn đề hiệu quả. Với nguồn

dữ liệu dồi dào, cộng đồng nghiên cứu sôi động, đây là lĩnh

vực đầy hứa hẹn cho những đột phá khoa học và ứng dụng

thực tiễn trong tương lai.

Trong thời gian gần đây, các mô hình Deep Learning đã

trở thành công cụ mạnh mẽ trong việc dự đoán, xử lý dữ

liệu dạng chuỗi. Các mô hình này đã được thiết kế để xử lý

các vấn đề phức tạp liên quan đến dữ liệu không gian và

thời gian. Một số mô hình như Recurrent Neural Networks

(RNN), Long Short-Term Memory và Transformer được sử

dụng rộng rãi, đều có khả năng tự học cách biểu diễn dữ

liệu từ dữ liệu thô, điều này giúp chúng ta có thể xử lý được

các chuỗi dữ liệu tuần tự phức tạp mà không cần phải tạo ra

các đặc trưng thủ công.

Tuy nhiên, việc thiết kế các mô hình Deep Learning hiệu

quả cho việc dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần

tự vẫn còn là một thách thức. Sự phức tạp và tính động của

dữ liệu đầu vào gây ra nhiều khó khăn trong việc thiết kế

các mô hình này.

Xuất phát từ vấn đề trên, nhóm tác giả tiến hành nghiên

cứu về chuỗi ảnh tuần tự và một số mô hình Deep Learning

để dự đoán ảnh tiếp theo.

2. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN

CỨU

2.1. Chuỗi ảnh tuần tự

Chuỗi ảnh tuần tự hay còn gọi là sequential image

sequence, là một tập hợp các hình ảnh được sắp xếp theo

một thứ tự nhất định để thể hiện một quá trình hoặc một sự

kiện diễn ra theo thời gian, các hình ảnh trong chuỗi tuần tự

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 80thường được liên kết với nhau về mặt nội dung. Chuỗi ảnh

tuần tự đóng một vai trò quan trọng trong việc dự đoán ảnh

kế tiếp, cung cấp các xu hướng diễn ra theo thời gian. Các

ảnh trong chuỗi có mối quan hệ phụ thuộc theo thời gian

với nhau. Thông tin từ ảnh trước có thể ảnh hưởng hoặc liên

quan đến nội dung của ảnh tiếp theo, từ đó làm tăng khả

năng dự đoán chính xác.

Hình 1. Ví dụ về chuỗi ảnh tuần tự

2.2. Một số mô hình Deep Learning sử dụng cho bài toán

chuỗi ảnh tuần tự

- Mô hình LSTM (Long Short-Term Memory)

Mô hình LSTM được Hochreiter và Schmidhuber đề

xuất vào năm 1997, là một trong những phát triển mới nhất

của mô hình RNN nhằm khắc phục vấn đề độ dốc biến mất

và vấn đề phụ thuộc xa của mô hình RNN. Mô hình RNN

là một chuỗi các mô đun lặp đi lặp lại của mạng nơ-ron.

Trong các mô hình RNN tiêu chuẩn, mô-đun lặp có cấu trúc

rất đơn giản, thường là một tầng tanh. Các mô hình LSTM

cũng có cấu trúc trình tự tương tự như RNN, nhưng các mô-

đun lặp lại có cấu trúc hơi khác. LSTM gồm có 4 thành phần

(cell, forget gate, input gate, output gate) tương tác với nhau

một cách rất đặc biệt.

Hình 2. Cấu trúc của mô hình LSTM

Cổng forget có nhiệm vụ chọn thông tin bị bỏ quên từ

trạng thái trước. Thông tin được lấy từ đầu vào xt và trạng

thái ẩn (hidden state) ht-1 qua hàm kích hoạt  đưa về giá trị

(0, 1)

Thông tin mới sau đó được lưu trữ trong đầu vào trạng

thái hiện tại. Cổng đầu vào truyền thông tin ở trạng thái hiện

tại và trạng thái ẩn của cổng trước qua 2 hàm: hàm kích hoạt

 trả về giá trị (0, 1) để quyết định giá trị nào cần được cập

nhật và hàm kích hoạt tanh tạo một vector mới Ct có giá trị

(-1,1) để thêm vào trạng thái.

Sau đó, ô mới (cell state) Ct cập nhật trạng thái từ các

thông tin bị bỏ qua ở ô trước đó ft * Ct-1 và khi đó thông tin

mới sẽ được cập nhật ở đầu vào it * C~t.

Cổng output xác định thông tin đầu ra của trạng thái

hiện tại bằng cách sử dụng giá trị trả về của hàm kích hoạt

 để quyết định xuất bao nhiêu thông tin trạng thái. Trạng

thái mới Ct được chuyển cho hàm tanh để trả về giá trị

(-1,1). Kết hợp 2 giá trị được xuất thành đầu ra cho trạng

thái ẩn (hidden state).

Từ cách thức hoạt động trên, LSTM được đánh giá là

vượt trội hơn so với RNN, có thể truy vấn được thông tin từ

một tập thông tin lớn hơn. Vì vậy, LSTM rất thích hợp để

dự báo chuỗi thời gian trong dài hạn, từ đó có thể ứng dụng

cho bài toán dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần

tự.

- Mạng nơ-ron hồi quy đồng nhất (IRNN - Identity

Recurrent Neural Network)

Mạng IRNN được đề xuất bởi nhóm các nhà nghiên cứu

đến từ Google gồm Navdeep Jaitly và Geoffrey Hinton.

IRNN được thiết kế để giữ được thông tin qua nhiều bước

thời gian mà không mất đi do vấn đề biến mất gradient -

một vấn đề phổ biến trong các mô hình RNN thông thường

khi xử lý các chuỗi dữ liệu dài.

IRNN có khả năng khởi tạo ổn định hơn so với RNN

nhờ ma trận trọng số khởi tạo được thiết lập là ma trận đơn

vị với tỷ lệ 0,01. Nhờ sự khởi tạo ổn định này, IRNN có thể

duy trì đạo hàm lỗi cho các đơn vị ẩn trong quá trình lan

truyền ngược theo thời gian một cách không đổi.

IRNN là một giải pháp thay thế đơn giản hơn các kiến

trúc phức tạp như LSTM, giúp chúng dễ đào tạo và triển

khai hơn trong khi vẫn có thể đạt được hiệu suất tương

đương hoặc có thể hơn trong các tác vụ liên quan đến sự

phụ thuộc lâu dài. Ngoài ra IRNN còn làm khá tốt trong việc

nắm bắt các mối quan hệ tương quan tầm xa trong chuỗi dữ

liệu. Làm cho chúng rất phù hợp với các tác vụ mà việc hiểu

các mối quan hệ thời gian rộng là rất quan trọng, chẳng hạn

như việc dự báo hay mô hình hóa ngôn ngữ

Để đánh giá hiệu quả của các mô hình LSTM, RNN và

IRNN với độ dài chuỗi thay đổi, một bộ dữ liệu gồm

100.000 và 10.000 ví dụ đã được tạo ra. Trạng thái ẩn của

các mạng này được cố định thành 100 đơn vị. LSTM có số

lượng tham số gấp 4 lần và tốn nhiều thời gian tính toán hơn

4 lần so với RNN do cấu trúc phức tạp hơn. Khi độ dài chuỗi

(T) tăng lên 150, hiệu suất của LSTM và RNN bắt đầu giảm

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 81sút. Tiếp tục thử nghiệm với các giá trị T khác nhau (150,

200, 300, 400), kết quả được thể hiện trong hình dưới đây

và các tham số tối ưu cho từng mô hình cũng được ghi chép

trong bảng 1.

Hình 3. Biểu đồ hiệu suất của các mô hình khi T thay đổi

Bảng 1. Bảng hiệu suất của các mô hình với T thay đổi

Chú thích: (lr là learning rate hay tốc độ học, gc là gradient

clipping – gradient bùng nổ, fb là forget gate bias – hệ số điều chỉnh

độ “quên” của forget gate trong LSTM )

Từ kết quả thử nghiệm ở trên ta có thể thấy, IRNN mang

lại hiệu quả ngang với LSTM, thậm chí có thể tốt hơn trong

một số trường hợp, trong khi LSTM tốn tài nguyên tính toán

và phức tạp hơn IRNN gấp ít nhất 4 lần. Thế nhưng với sự

đơn giản đó của IRNN, khi xử lý các tác vụ mà sự phụ thuộc

lâu dài là rất quan trọng và cần mô hình phức tạp, LSTM có

kiến trúc được điều chỉnh tốt với số lượng lớn các tham số

có thể vượt trội hơn IRNN, thể hiện hiệu suất vượt trội trong

các tình huống đòi hỏi quản lý bộ nhớ chi tiết và nhận dạng

mẫu phức tạp.

- Latent Video Transformer (LVT)

Latent Video Transformer là một mô hình được đề xuất

cho các tác vụ tạo video – một tác vụ được phát triển dựa

trên bài toán ban đầu về việc dự đoán ảnh dựa trên chuỗi

ảnh tuần tự cho trước ở đây có thể gọi là các khung hình

hay frames.

Trong phương pháp này, thay vì dự đoán ảnh thứ n+1

dựa trên chuỗi ảnh T gồm n ảnh cho trước (gồm chuỗi ảnh

liên tiếp từ T0 đến T), LVT sẽ tiếp tục sử dụng ảnh thứ n+1,

sau đó dự đoán ảnh thứ n+2 dựa trên tập T1 gồm n+1 ảnh.

Điểm khác biệt lớn nhất của LVT so với những mô hình

khác được sử dụng để tạo video hay dự đoán ảnh là sự kết

hợp giữa Latent Space và mô hình Transformer, cải thiện

hiệu năng, tốc độ và tài nguyên cần thiết để giải quyết bài

toán. Trong đó:

 Latent Space hay còn gọi là không gian tiềm ẩn, không

gian nhúng,… là không gian tại đó dữ liệu được biểu diễn

lại với các đặc trưng phục vụ cho các dự đoán của mô hình

hay nói cách khác Latent Space là một định nghĩa đơn giản

và duy nhất là đại diện của dữ liệu dưới dạng “nén”.

Hình 4. Mô hình hoạt động của Latent Space

Ta có một ví dụ đơn giản như sau: giả sử tập dữ liệu ban

đầu của chúng ta là hình ảnh có kích thước 5x5x1. Kích

thước latent space sẽ được đặt là 3x1, có nghĩa là điểm dữ

liệu nén là một vectơ có 3 chiều.

Bây giờ mỗi một điểm dữ liệu nén 5x5x1 chỉ được xác

định duy nhất bởi 3 số, điều đó có nghĩa là chúng ta có thể

vẽ biểu đồ dữ liệu này trên Mặt phẳng 3D (Một số là x, số

kia là y, số kia là z).

Hình 5. Biểu đồ dữ liệu hiển thị trong Latent Space của ma trận

5x5x1

Bất cứ khi nào chúng ta vẽ graph cho các điểm hoặc nghĩ

về các điểm trong latent space, chúng ta có thể tưởng tượng

chúng là các tọa độ trong không gian nơi mà các điểm

"similar" ở gần nhau hơn trên biểu đồ.

 Transformer: là một kiến trúc mạng nơ-ron được thiết

kế đặc biệt để xử lý dữ liệu dạng chuỗi, như ngôn ngữ tự

nhiên và nhiều nhiệm vụ khác, bao gồm cả xử lý ảnh.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 82Mô hình Transformer bao gồm hai phần chính là

encoder và decoder được cấu tạo bởi các layer lặp đi lặp lại.

Hình 6. Mô hình hoạt động của Transformer

Encoder có cấu trúc gồm 4 lớp giống nhau, mỗi lớp sẽ

có 2 sub-layers. Sub-layer thứ nhất có một cơ chế multi-

head self-attention. Self-attention là cơ chế giúp mô hình

Transformer có thể tập chung vào các phần khác nhau trong

chuỗi vector đầu vào của mô hình khi đưa ra dự đoán. Còn

sub-layer thứ hai là một mạng kết nối đầy đủ feed-forward

neural network là mạng nơ-ron nhân tạo nơi thông tin chỉ di

chuyển theo một hướng tiến về phía trước (từ input, qua các

lớp ẩn đến output) được sử dụng sau lớp Self-attention để

xử lý thông tin và đưa ra dự đoán.

Decoder: Cấu trúc của Decoder rất giống với Encoder.

Tuy nhiên, Decoder có thêm một lớp Attention nữa giúp nó

tập trung vào các output từ Encoder. Điều này giúp Decoder

có thể sử dụng thông tin từ toàn bộ chuỗi đầu vào để đưa ra

dự đoán về vector tiếp theo.

Cả Encoder và Decoder đều sử dụng Positional

Encoding để đưa thông tin về vị trí của các từ vào mô hình.

Điều này giúp mô hình có thể nắm bắt được thông tin thứ

tự của các phần tử trong chuỗi đầu vào sau khi xử lý chúng

“song song”.

- Hệ suy diễn mờ phức – không thời gian

Hệ suy diễn mờ phức, còn được biết đến là Hệ suy diễn

mờ, là một thành phần chính của bất kỳ hệ thống logic mờ

nào. Nó sử dụng lý thuyết tập mờ, các quy tắc IF-THEN và

quá trình suy luận mờ để tìm ra đầu ra tương ứng với các

đầu vào rõ ràng.

Hệ suy diễn mờ (mô tả trong hình sau) có cấu trúc cơ

bản như sau:

 Giao diện mờ hóa: chuyển đổi các lớp đầu vào các biên

độ phù hợp với các giá trị ngôn ngữ.

 Cơ sở trí thức bao gồm 2 phần:

 Cơ sở dữ liệu: định nghĩa các hàm thuộc của các tập

mờ được sử dụng trong các luật mờ

 Bộ luật: gồm các luật mờ IF – THEN

 Đơn vị thực thi: thực hiện các hoạt động suy diễn trong

các luật.

 Giao diện giải mờ: chuyển đổi các giá trị kết quả mờ

của hệ suy diễn ra các lớp đầu ra

Hình 7. Sơ đồ tổng quan của hệ suy diễn mờ phức

Các bước suy diễn mờ:

 Mờ hóa các biến đầu vào: cần mờ hóa những giá trị rõ

để tham gia vào quá trình suy diễn

 Áp dụng các toán tử mờ (AND hoặc OR) cho các giả

thiết của từng luật.

 Áp dụng phép kéo theo để tính toán giá trị các giá trị

từ giả thiết đến kết luận của từng luật.

 Áp dụng toán tử gộp để kết hợp các kết quả trong từng

luật thành một kết quả duy nhất cho cả hệ.

 Giải mờ kết quả tìm được cho ta một số rõ.

Hình 8. Thuật toán ADAM

Phương pháp này tập trung vào việc xử lý chuỗi hình

ảnh đầu vào để thu được bộ dữ liệu gồm hai phần chính:

thực và pha. Ban đầu, quá trình tiền xử lý được áp dụng để

tạo ra phần thực và pha, trong đó phần pha được định nghĩa

là sai khác giữa hai ảnh liên tiếp tại cùng một vị trí. Dữ liệu

sau khi tiền xử lý được chia thành các cụm tương ứng sử

dụng thuật toán FCM. Từ kết quả phân cụm, hệ luật mờ

phức dạng tam giác được tạo ra. Trong bước giải mờ, các

tham số cho hàm giải mờ được tối ưu hóa bằng thuật toán

ADAM, nhằm xác định các tham số phù hợp. Luật giải mờ

phức dạng tam giác được áp dụng để giải mờ dữ liệu không

gian. Các điểm ảnh dự đoán của phần thực và phần pha tiếp

tục được đưa vào thuật toán ADAM để huấn luyện và tối

ưu hóa hệ số phụ thuộc, từ đó cải thiện kết quả dự đoán hình

ảnh.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 83

Hình 9. Mô hình được đề xuất để dự đoán ảnh với hệ suy diễn

mờ phức

Nhằm đảm bảo chất lượng cũng như tính đa dạng của

các tình huống thực nghiệm về dữ liệu, các thuật toán và

các độ đo đối sánh, tiến hành sử dụng các thuật toán PFC-

PFR, SeriesNet (thuật toán sử dụng mô hình mạng LSTM),

Deep Slow Feature Analysis (DSFA) để so sánh và các kết

quả thực nghiệm được sử dụng độ đo RMSE (trung bình

phương sai), R2 (Rsquare) để đánh giá, sau đó sử dụng

phương pháp phân tích ANOVA để phân tích kết quả.

Kết quả RMSE của phương pháp đề xuất (Spatial CFIS)

và các thuật toán so sánh (PFC-PFR, SeriesNet, DSFA)

trên bộ dữ liệu Hải quân Hoa kỳ với hình ảnh có kích thước

100x100 Pixels được thể hiện như trong bảng 2.

Bảng 2. Kết quả của thuật toán đề xuất và các thuật toán so sánh

với độ đo R2 trên bộ dữ liệu có kích thước 100x100 Pixels

Biểu đồ trình bày kết quả R2 của phương pháp đề xuất

(Spatial CFIS) và các thuật toán so sánh (PFC-PFR,

SeriesNet, DSFA) trên bộ dữ liệu Hải quân Hoa kỳ với hình

ảnh có kích thước 100x100 Pixels như hình 10.

Kết quả R2 của phương pháp đề xuất (Spatial CFIS) và

các thuật toán so sánh (PFC-PFR, SeriesNet, DSFA) trên

bộ dữ liệu Hải quân Hoa kỳ với hình ảnh có kích thước

500x500 Pixels được được thể hiện trong bảng 3.

Hình 10. R2 của các thuật toán với ảnh kích thước 100x100 Pixels

của bộ dữ liệu Hải quân Hoa kỳ

Bảng 3. So sánh trung bình R2 của các thuật toán cho tập dữ liệu

500x500 Pixels

3. KẾT LUẬN

Nghiên cứu đã trình bày được cơ bản về một số mô hình

Deep Learning và một số mô hình khác được sử dụng để xử

lý các loại dữ liệu dạng chuỗi như chuỗi ảnh, câu từ,... Báo

cáo cũng đã đưa ra những đánh giá và thử nghiệm các mô

hình với những bộ dữ liệu khác nhau. Mặc dù chưa thể xây

dựng được một chương trình thử nghiệm hoàn chỉnh, nhưng

một số một hình cũng đã được cài đặt và thử nghiệm.

 Kết quả đạt được

 Nghiên cứu tổng quan về một số mô hình Deep

Learning.

 Tìm hiểu, cài đặt thực nghiệm mô hình LSTM và đánh

giá một số công cụ phần mềm, phương pháp được sử dụng

trong việc dự đoán ảnh kế tiếp bao gồm LSTM, IRNN,

LVT, Fuzzy-M.

 Hướng nghiên cứu trong tương lai

 Nghiên cứu và xây dựng hoàn thiện hệ thống dự đoán

ảnh dựa trên chuỗi ảnh tuần tự sử dụng một trong số những

phương pháp đã nghiên cứu.

 Áp dụng với ảnh viễn thám, từ đó có thể dự đoán về

sự thay đổi của bề mặt trái đất, ứng dụng với việc dự báo

thời tiết, thiên tai.

 Tiếp tục nghiên cứu, cải thiện các mô hình được sử

dụng để dự đoán ảnh tiếp theo dựa trên chuỗi ảnh tuần tự

nói riêng, các mô hình được dùng để xử lý dữ liệu dạng

chuỗi thời gian nói chung.

 Tích hợp với các mô hình khác để xây dựng ứng dụng

thông minh hơn.

Nghiên cứu chuỗi ảnh tuần tự và ứng dụng một số kỹ thuật deep learning để dự đoán ảnh tiếp theo

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi