BỘ GIÁO DỤC VÀ ĐÀO TO
ĐẠI HỌC CH KHOA HÀ NỘI
Nguyễn Hồng Quân
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP
TRÍCH CHỌN ĐC TRƯNG DỰA TRÊN HỌC U
TRONG TÁI DỊNH DANH NGƯỜI
Ngành: Kỹ thuật điện tử
số: 9520203
TÓM TT LUẬN ÁN TIẾN KỸ THUẬT ĐIỆN TỬ
Nội 2024
Công trình y được hoàn thành tại:
Đại học Bách Khoa Nội
Người hướng dẫn khoa học:
1. TS. Võ Cường
2. TS. Nguyễn Vũ Thắng
Phản biện 1: PGS.TS. Trần Đức Tân
Phản biện 2: PGS.TS. Phạm Văn Cường
Phản biện 3: PGS.TS. Hoàng Văn Xiêm
Luận án được bảo v trước Hội đồng đánh giá luận án tiến
cấp Đại học Bách khoa Nội họp tại Đại học Bách khoa Nội
Vào hồi 08 giờ 30 phút, ngày 05 tháng 01 năm 2024
thể tìm hiểu luận án tại thư viện:
1. Thư viện T Quang Bửu - Đại học Bách khoa Nội
2. Thư viện Quốc gia Việt Nam
MỞ ĐU
1. Tính cấp thiết
Các bài toán bản của lĩnh vực thị giác y tính như: phát hiện, theo vết đối tượng
trên ảnh, phân lớp ảnh,... đều phải đối mặt với vấn đề trích chọn đặc trưng ảnh. Chất lượng
đặc trưng ảnh tính chất quyết định đến kết quả của bài toán. Do đó trích chọn đặc trưng
của ảnh/video luôn được sự quan tâm nghiên cứu của các nhà khoa học. Bên cạnh đó, sự phát
triển của học sâu đã giải quyết được nhiều hạn chế của các phương pháp trích chọn đặc trưng
th công và mang lại những kết quả đáng kể. Trích chọn đặc trưng ảnh dựa trên các mạng
học sâu ngày càng phổ biến với nhiều sự lựa chọn khác nhau. Tuy nhiên, khi xét những ngữ
cảnh ràng buộc nhất định như hình dạng, kích thước đối tượng trong ảnh, số lượng thể hiện
(ảnh) của một đối tượng, ... thì vấn đề y vẫn còn nhiều thách thức cần lời giải. Do đó,
luận án y tập chung đề xuất các phương pháp trích trọn đặc trưng học sâu nhằm nâng cao
chất lượng cho hình tái định danh người sử dụng hình ảnh thu nhận từ các camera giám
sát. Ngoài ra, nhằm mục đích tận dụng các ưu thế v mặt tốc độ và tiết kiệm năng lượng so
với các b xử đồ họa chuyên dụng (GPU), luận án cũng tập trung nghiên cứu và đề xuất
một phương pháp nén mạng học sâu nhằm đạt được các hình phù hợp cho việc triển khai
chúng trên các thiết bị phần cứng bị giới hạn nhiều v mặt tài nguyên. như mạch tích hợp
FPGA.
2. Mục tiêu nghiên cứu
Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh
người dựa trên học sâu. Ngoài ra, nhằm hướng tới các ứng dụng thể dễ dàng triển khai
trong nhiều điều kiện thực tế, mục tiêu nghiên cứu thể được mở rộng hơn bao gồm nén
mạng hướng tới triển khai trên các thiết bị phần cứng
Cải tiến hình tái định danh người, trong đó dựa trên các kiến trúc mạng học sâu Nơ-ron
hồi quy để tổng hợp đặc trưng mức chuỗi ảnh (video).
3. Đối ợng, phạm vi nghiên cứu và những thách thức
Với các mục tiêu được đặc ra như trên, đối tượng nghiên cứu của luận án được xác định
các hình ảnh, chuỗi hình ảnh người thu nhận được từ camera giám sát.
Do thị giác y tính một lĩnh vực rộng lớn với nhiều bài toán thách thức, nên các
nghiên cứu của luấn án giới hạn ch yếu trong khuôn khổ bài toán tái định danh cho người
đi b và một số bài toán liên quan khác như: Phát hiện và theo vết đối tượng. Trong đó tập
chung vào trích chọn đặc trưng ảnh/video.
4. Phương pháp nghiên cứu
Phương pháp thu thập, phân tích và tổng kết kinh nghiệm: Tìm hiểu và thu thập số liệu
các công trình nghiên cứu liên quan. Từ đó, tiến hành phân tích để tìm ra ưu và nhược điểm
của từng phương pháp làm căn cứ đề xuất các cái tiến phù hợp
1
Phương pháp quan sát: Quan sát đối tượng nghiên cứu từ đó tìm ra các đặc điểm chung
Từ đó kết hợp với kết quả tìm hiểu phương pháp trích chọn đặc trưng dựa trên hc sâu đề
xuất một phương pháp trích chọn đặc trưng hiệu quả cho i toán tái định danh
Phương pháp phỏng và thực nghiệm: Tiến hành các thực nghiệm trên các sở dữ
liệu dùng chung. So sánh với các kết quả nghiên cứu trước. Từ đó rút ra kết luận.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Luận án hướng tới cải tiến và phát triển hình học sâu cho việc trích chọn đặc trưng
ảnh/video một cách hiệu quả hơn cho tái định danh người. ràng trích chọn đặc trưng
vấn đề nghiên cứu quan trọng bởi quyết định trực tiếp đến chất ợng của bất kỳ hình
học y nào không chỉ dừng lại bài toán tái định danh người. Kết quả nghiên cứu thu được
thể làm nền tảng cho các nghiên cứu khác nhằm nâng cao chất lượng hình cho các bài
toán khác trong thị giác y tính. Bên cạnh đó, tái định danh người một bài toán phổ biến
và tính ứng dụng cao. Tái định danh nhằm xác định lại một người khi người đó được quan
sát bởi các camera giám sát khác nhau. Trong bài toán y, đối tượng quan m hình ảnh
người được thu nhận bởi các camera giám sát khác nhau. Thành công thu được từ các kết
quả nghiên cứu cho bài toán tái định danh thể được áp dụng trong các hệ thống tìm kiếm
người dựa trên hình ảnh thu nhận được từ camera giám sát trên thực tế. Ngoài ra, việc nghiên
cứu, thử nghiệm các phương pháp nén mạng cũng mang lại ý nghĩa rất quan trọng. Nhờ đó
thể triển khai các kiến trúc mạng học sâu trên các thiết bị phần cứng tài nguyên hạn
chế. Từ các phân tích trên chứng tỏ luận án ý nghĩa v mặt khoa học và thực tiễn.
6. Các đóng góp
Đề xuất cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông tin cục
b của ảnh người nhằm nâng cao chất lượng đặc trưng ảnh trong bài toán tái định danh
người sử dụng hình ảnh từ mạng camera giám sát. Cụ thể luận án đã thực hiện cải tiến
mạng ResNet-50 để trích đặc trưng ảnh đồng thời đề xuất phương pháp đối sánh đặc trưng
thu được dựa trên độ đo khoảng cách EMD (Earth Movers Distance) cho tái định danh
người. Kết quả được trình y tại [CT7, 8]. Ngoài ra, luận án đề xuất một phương pháp
nén mạng học sâu hướng tới việc triển khai trên phần cứng FPGA, đồng thời thử nghiệm
phương pháp y với mạng học sâu VGG16-SSD phục vụ bài toán phát hiện đối tượng.
Kết quả được trình y tại [CT6]
Đề xuất cải tiến hình tái định danh dựa trên chuỗi hình ảnh sử dụng các biến thể
mạng RNN cho việc tổng hợp các đặc trưng mức chuỗi ảnh. y dựng một sở dữ liệu
phục vụ đánh giá đầy đủ các pha trong một hệ thống tái định danh bao gồm phát hiện,
theo vết và tái định danh người. Các hình ảnh của CSDL được thu nhận tại trường Đại
học Bách Khoa Nội. Kết quả được công b tại [CT1, 2, 3, 4, 5]
7. Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, Luận án được chia thành 4 chương:
Chương 1: Trình bày các nghiên cứu liên quan đến học sâu, các hình mạng học sâu
tiêu biểu và vấn đề trích chọn đặc trung sử dụng các hình học sâu, các nghiên cứu liên
2
quan đến bài toán phát hiện, theo vết và tái định danh đối tượng trên ảnh sử dụng đặc
trưng học sâu.
Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao chất lượng
đặc trưng ảnh cho tái định danh người bằng cách khai thác các thông tin ảnh cục bộ.
Chương 3: Đánh giá hiệu quả của một số biến thể mạng RNN cho việc trích chọn đặc trưng
mức chuỗi ảnh. Đề xuất cải tiến hình tái định dựa trên chuỗi ảnh sử dụng các biến thể
mạng RNN.
Chương 4: Đề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai các mạng
y phần cứng FPGA.
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1 Trích chọn đặc trưng hình ảnh
Nhiệm vụ của trích chọn đặc trưng biến đổi dữ liệu thô thành các véc-tơ đặc trưng.
Đặc trưng được phân chia thành hai nhóm chính dựa trên phương pháp trích chọn đặc trưng:
(1) đặc trưng được trích chọn th công (hand-crafted features) và (2) đặc trưng được trích
chọn dựa trên hình học sâu.
Nếu các đặc trưng th công dựa chủ yếu vào tri thức cũng như kinh nghiệm của các nhà
nghiên cứu, các chuyên gia, đặc trưng học sâu được trích chọn dựa vào hình đã được huấn
luyện từ trước. Các hình này thường được huấn luyện trên một tập sở dữ liệu đủ lớn, đủ
đa dạng để thể áp dụng vào bất kỳ bài toán nào. Một số kiến trúc học sâu: (1) Mạng Nơ-ron
học sâu - Deep neural networks (DNN); (2) Mạng Nơ-ron tích chập - Convolutional neural
networks (CNN); (3) Deep belief networks - DBN ; (4) Mạng Nơ-ron hồi quy - Recurrent
neural networks (RNN)
1.2 Một số kiến trúc mạng tích chập phổ biến
Mạng tích chập kiến trúc mạng học sâu được sử dụng nhiều trong lĩnh vực thị giác
y tính. Các mạng y được tạo nên bởi các lớp mạng, trong đó các lớp tích chập đóng vai
trò quan trọng. Cùng với các nghiên cứu, các mạng tích chập được cải tiến với nhiều thay đổi
khác nhau trong kiến trúc để mang lại hiệu quả cao hơn. Theo đó sự ra đời của các kiến
trúc mạng như: LeNet-5, AlexNet, VGG, GoogleNet, ResNet
1.3 Mạng Nơ-ron hồi quy
Mạng Nơ-ron hồi quy (Recurent Neural Netwwork - RNN) thường được sử dụng trong
các bài toán để trích xuất thông tin mang tính thời gian hoặc chuỗi dữ liệu. Ngoài ra các mạng
loại y còn được sử dụng rất nhiều trong các bài toán xử ngôn ngữ tự nhiên. Các mạng
Nơ-ron hồi quy ra đời với ý tưởng chính sử dụng một bộ nhớ để lưu lại thông tin từ những
bước tính toán xử trước để dựa vào thể đưa ra những tính toán, dự đoán chính xác
nhất cho bước dự đoán hiện tại.
3