intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:29

7
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của đề tài "Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người" là nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh người dựa trên học sâu. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai trong nhiều điều kiện thực tế, mục tiêu nghiên cứu có thể được mở rộng hơn bao gồm nén mạng hướng tới triển khai trên các thiết bị phần cứng.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI DỊNH DANH NGƯỜI Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội −2024
  2. Công trình này được hoàn thành tại: Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. TS. Võ Lê Cường 2. TS. Nguyễn Vũ Thắng Phản biện 1: PGS.TS. Trần Đức Tân Phản biện 2: PGS.TS. Phạm Văn Cường Phản biện 3: PGS.TS. Hoàng Văn Xiêm Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội Vào hồi 08 giờ 30 phút, ngày 05 tháng 01 năm 2024 Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội 2. Thư viện Quốc gia Việt Nam
  3. MỞ ĐẦU 1. Tính cấp thiết Các bài toán cơ bản của lĩnh vực thị giác máy tính như: phát hiện, theo vết đối tượng trên ảnh, phân lớp ảnh,... đều phải đối mặt với vấn đề trích chọn đặc trưng ảnh. Chất lượng đặc trưng ảnh có tính chất quyết định đến kết quả của bài toán. Do đó trích chọn đặc trưng của ảnh/video luôn được sự quan tâm nghiên cứu của các nhà khoa học. Bên cạnh đó, sự phát triển của học sâu đã giải quyết được nhiều hạn chế của các phương pháp trích chọn đặc trưng thủ công và mang lại những kết quả đáng kể. Trích chọn đặc trưng ảnh dựa trên các mạng học sâu ngày càng phổ biến với nhiều sự lựa chọn khác nhau. Tuy nhiên, khi xét ở những ngữ cảnh ràng buộc nhất định như hình dạng, kích thước đối tượng trong ảnh, số lượng thể hiện (ảnh) của một đối tượng, ... thì vấn đề này vẫn còn nhiều thách thức cần có lời giải. Do đó, luận án này tập chung đề xuất các phương pháp trích trọn đặc trưng học sâu nhằm nâng cao chất lượng cho mô hình tái định danh người sử dụng hình ảnh thu nhận từ các camera giám sát. Ngoài ra, nhằm mục đích tận dụng các ưu thế về mặt tốc độ và tiết kiệm năng lượng so với các bộ xử lý đồ họa chuyên dụng (GPU), luận án cũng tập trung nghiên cứu và đề xuất một phương pháp nén mạng học sâu nhằm đạt được các mô hình phù hợp cho việc triển khai chúng trên các thiết bị phần cứng bị giới hạn nhiều về mặt tài nguyên. như mạch tích hợp FPGA. 2. Mục tiêu nghiên cứu − Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh người dựa trên học sâu. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai trong nhiều điều kiện thực tế, mục tiêu nghiên cứu có thể được mở rộng hơn bao gồm nén mạng hướng tới triển khai trên các thiết bị phần cứng − Cải tiến mô hình tái định danh người, trong đó dựa trên các kiến trúc mạng học sâu Nơ-ron hồi quy để tổng hợp đặc trưng mức chuỗi ảnh (video). 3. Đối tượng, phạm vi nghiên cứu và những thách thức Với các mục tiêu được đặc ra như trên, đối tượng nghiên cứu của luận án được xác định các hình ảnh, chuỗi hình ảnh người thu nhận được từ camera giám sát. Do thị giác máy tính là một lĩnh vực rộng lớn với nhiều bài toán thách thức, nên các nghiên cứu của luấn án giới hạn chủ yếu trong khuôn khổ bài toán tái định danh cho người đi bộ và một số bài toán liên quan khác như: Phát hiện và theo vết đối tượng. Trong đó tập chung vào trích chọn đặc trưng ảnh/video. 4. Phương pháp nghiên cứu Phương pháp thu thập, phân tích và tổng kết kinh nghiệm: Tìm hiểu và thu thập số liệu các công trình nghiên cứu liên quan. Từ đó, tiến hành phân tích để tìm ra ưu và nhược điểm của từng phương pháp làm căn cứ đề xuất các cái tiến phù hợp 1
  4. Phương pháp quan sát: Quan sát đối tượng nghiên cứu từ đó tìm ra các đặc điểm chung Từ đó kết hợp với kết quả tìm hiểu phương pháp trích chọn đặc trưng dựa trên học sâu đề xuất một phương pháp trích chọn đặc trưng hiệu quả cho bài toán tái định danh Phương pháp mô phỏng và thực nghiệm: Tiến hành các thực nghiệm trên các cơ sở dữ liệu dùng chung. So sánh với các kết quả nghiên cứu trước. Từ đó rút ra kết luận. 5. Ý nghĩa khoa học và thực tiễn của đề tài Luận án hướng tới cải tiến và phát triển mô hình học sâu cho việc trích chọn đặc trưng ảnh/video một cách hiệu quả hơn cho tái định danh người. Rõ ràng trích chọn đặc trưng là vấn đề nghiên cứu quan trọng bởi nó quyết định trực tiếp đến chất lượng của bất kỳ mô hình học máy nào không chỉ dừng lại ở bài toán tái định danh người. Kết quả nghiên cứu thu được có thể làm nền tảng cho các nghiên cứu khác nhằm nâng cao chất lượng mô hình cho các bài toán khác trong thị giác máy tính. Bên cạnh đó, tái định danh người là một bài toán phổ biến và có tính ứng dụng cao. Tái định danh nhằm xác định lại một người khi người đó được quan sát bởi các camera giám sát khác nhau. Trong bài toán này, đối tượng quan tâm là hình ảnh người được thu nhận bởi các camera giám sát khác nhau. Thành công thu được từ các kết quả nghiên cứu cho bài toán tái định danh có thể được áp dụng trong các hệ thống tìm kiếm người dựa trên hình ảnh thu nhận được từ camera giám sát trên thực tế. Ngoài ra, việc nghiên cứu, thử nghiệm các phương pháp nén mạng cũng mang lại ý nghĩa rất quan trọng. Nhờ đó có thể triển khai các kiến trúc mạng học sâu trên các thiết bị phần cứng có tài nguyên hạn chế. Từ các phân tích trên chứng tỏ luận án có ý nghĩa về mặt khoa học và thực tiễn. 6. Các đóng góp − Đề xuất cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông tin cục bộ của ảnh người nhằm nâng cao chất lượng đặc trưng ảnh trong bài toán tái định danh người sử dụng hình ảnh từ mạng camera giám sát. Cụ thể luận án đã thực hiện cải tiến mạng ResNet-50 để trích đặc trưng ảnh đồng thời đề xuất phương pháp đối sánh đặc trưng thu được dựa trên độ đo khoảng cách EMD (Earth Movers Distance) cho tái định danh người. Kết quả được trình bày tại [CT7, 8]. Ngoài ra, luận án đề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai trên phần cứng FPGA, đồng thời thử nghiệm phương pháp này với mạng học sâu VGG16-SSD phục vụ bài toán phát hiện đối tượng. Kết quả được trình bày tại [CT6] − Đề xuất cải tiến mô hình tái định danh dựa trên chuỗi hình ảnh có sử dụng các biến thể mạng RNN cho việc tổng hợp các đặc trưng mức chuỗi ảnh. Xây dựng một cơ sở dữ liệu phục vụ đánh giá đầy đủ các pha trong một hệ thống tái định danh bao gồm phát hiện, theo vết và tái định danh người. Các hình ảnh của CSDL được thu nhận tại trường Đại học Bách Khoa Nà Nội. Kết quả được công bố tại [CT1, 2, 3, 4, 5] 7. Bố cục của luận án Ngoài phần mở đầu và phần kết luận, Luận án được chia thành 4 chương: − Chương 1: Trình bày các nghiên cứu liên quan đến học sâu, các mô hình mạng học sâu tiêu biểu và vấn đề trích chọn đặc trung sử dụng các mô hình học sâu, các nghiên cứu liên 2
  5. quan đến bài toán phát hiện, theo vết và tái định danh đối tượng trên ảnh sử dụng đặc trưng học sâu. − Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao chất lượng đặc trưng ảnh cho tái định danh người bằng cách khai thác các thông tin ảnh cục bộ. − Chương 3: Đánh giá hiệu quả của một số biến thể mạng RNN cho việc trích chọn đặc trưng mức chuỗi ảnh. Đề xuất cải tiến mô hình tái định dựa trên chuỗi ảnh sử dụng các biến thể mạng RNN. − Chương 4: Đề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai các mạng này phần cứng FPGA. CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 Trích chọn đặc trưng hình ảnh Nhiệm vụ của trích chọn đặc trưng là biến đổi dữ liệu thô thành các véc-tơ đặc trưng. Đặc trưng được phân chia thành hai nhóm chính dựa trên phương pháp trích chọn đặc trưng: (1) đặc trưng được trích chọn thủ công (hand-crafted features) và (2) đặc trưng được trích chọn dựa trên mô hình học sâu. Nếu các đặc trưng thủ công dựa chủ yếu vào tri thức cũng như kinh nghiệm của các nhà nghiên cứu, các chuyên gia, đặc trưng học sâu được trích chọn dựa vào mô hình đã được huấn luyện từ trước. Các mô hình này thường được huấn luyện trên một tập cơ sở dữ liệu đủ lớn, đủ đa dạng để có thể áp dụng vào bất kỳ bài toán nào. Một số kiến trúc học sâu: (1) Mạng Nơ-ron học sâu - Deep neural networks (DNN); (2) Mạng Nơ-ron tích chập - Convolutional neural networks (CNN); (3) Deep belief networks - DBN ; (4) Mạng Nơ-ron hồi quy - Recurrent neural networks (RNN) 1.2 Một số kiến trúc mạng tích chập phổ biến Mạng tích chập là kiến trúc mạng học sâu được sử dụng nhiều trong lĩnh vực thị giác máy tính. Các mạng này được tạo nên bởi các lớp mạng, trong đó các lớp tích chập đóng vai trò quan trọng. Cùng với các nghiên cứu, các mạng tích chập được cải tiến với nhiều thay đổi khác nhau trong kiến trúc để mang lại hiệu quả cao hơn. Theo đó là sự ra đời của các kiến trúc mạng như: LeNet-5, AlexNet, VGG, GoogleNet, ResNet 1.3 Mạng Nơ-ron hồi quy Mạng Nơ-ron hồi quy (Recurent Neural Netwwork - RNN) thường được sử dụng trong các bài toán để trích xuất thông tin mang tính thời gian hoặc chuỗi dữ liệu. Ngoài ra các mạng loại này còn được sử dụng rất nhiều trong các bài toán xử lý ngôn ngữ tự nhiên. Các mạng Nơ-ron hồi quy ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin từ những bước tính toán xử lý trước để dựa vào nó có thể đưa ra những tính toán, dự đoán chính xác nhất cho bước dự đoán hiện tại. 3
  6. 1.4 Phát hiện đối tượng trên ảnh sử dụng học sâu Các bộ phát hiện đối tượng dựa trên học sâu được chia làm 2 nhóm chính là: Loại một giai đoạn (one-stage detector) và loại hai giai đoạn (two-stage detector). - Bộ phát hiện đối tượng hai giai đoạn (Fast R-CNN, Faster R-CNN): Lựa chọn các vùng ứng viên (ROI) trong ảnh, sau đó phân loại các vùng ứng viên đó sử dụng mạng CNN. Việc dự đoán nhãn và vị trí của đối tượng trong ảnh được thực hiện trong hai bước độc lập. - Bộ phát hiện đối tượng hai giai đoạn (YOLO, SSD): dự đoán nhãn và vị trí của đối tượng trong toàn bộ bức ảnh chỉ với một lần chạy thuật toán duy nhất. 1.5 Theo vết đối tượng sử dụng học sâu Theo vết đối tượng làm nhiệm vụ kết nối các vùng hình ảnh của một người trên các khung hình liên tiếp theo thời gian. Bài toán theo vết đối tượng có thể được phân loại dựa trên các khía cạnh khác nhau: a) Dựa vào số lượng đối tượng cần theo vết − Theo vết một đối tượng duy nhất trong video (Single Object Tracking - SOT) − Theo vết đồng thời nhiều đối tượng (Multiple Object Tracking - MOT) b) Dựa vào phương pháp theo vết − Tracking-based detection: dự đoán vị trí của các đối tượng trong khung hình hiện tại thông qua việc cập nhật vị trí của đối tượng trong các khung hình trước đó, được gọi là Generative trackers; ví dụ, bộ lọc Kalman, bộ lọc hạt (Particle filter), hay theo vết dựa trên kernel (kernel-based tracking). − Tracking-by-detection: Các vùng ảnh đối tượng được phát hiện trong từng khung hình, sau đó, các vùng ảnh thuộc cùng một đối tượng được kết nối với nhau, được gọi là Discriminative trackers, ví dụ: SORT và DeepSORT. 1.6 Bài toán tái định danh người và các vấn đề liên quan Tái định danh người được định nghĩa là bài toán so khớp (matching) hình ảnh của một người khi người đó di chuyển trong một mạng camera giám sát, đôi một không chồng lấn nhau về trường quan sát. Các nghiên cứu gần đây về việc áp dụng các kỹ thuật học sâu cho bài toán tái định danh vẫn tập chung vào việc cải tiến các giải thuật trích chọn đặc trưng bao gồm cả đặc trưng mức ảnh và đặc trưng mức chuỗi ảnh. Dữ liệu, các chiến lược huấn luyện trong đó có việc cải tiến các hàm mất mát hoặc các chiến lược kết hợp nhiều đặc trưng đều đã được nghiên cứu. Tuy nhiên, do những thách thức lớn của bài toán nên mặc dù đã đạt được nhiều bước tiến nhưng hướng nghiên cứu này vẫn đang được quan tâm của nhiều nhà khoa học. 1.7 Nén mạng học sâu và triển khai trên FGPA Triển khai các mạng học sâu thường đòi hỏi rất nhiều tài nguyên phần cứng như bộ nhớ, khả năng tính toán và năng lượng. Điều làm cản trở việc triển khai các thiết bị biên như là: Raspberry, Jetson nano hoặc các mạch logic FPGA. Do đó một yêu cầu đặt ra là nén mạng. Các kỹ thuật nén mạng nói chung có thể chia làm 2 loại chính là cắt tỉa và lượng tử hóa. Tuy 4
  7. nhiên, việc tìm ra các phương pháp nén mạng tối ưu lại trờ thành một thách thức cho các nhà nghiên cứu. 1.8 Kết luận chương Dựa trên cơ sở khảo sát tình hình nghiên cứu như đã trình bày ở trên, bài toán trích chọn đặc trưng đối tượng trên ảnh dựa trên học sâu không chỉ dừng lại ở việc sinh ra đặc trưng cho ảnh đầu vào tương ứng sử dụng các mô hình mạng học sâu mà còn rất nhiều vấn đề liên quan cần phải được giải quyết. CHƯƠNG 2 TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI 2.1 Đặt vấn đề Mô hình chung để giải quyết bài toán tái định danh có thể được thể hiện như Hình 2.1. Sơ đồ này có thể được áp dụng cho cả tái định danh sử dụng đơn hình ảnh và sử dụng đa hình ảnh. Trong phần trích chọn đặc trưng, các đặc trưng mức ảnh được trích chọn cho toàn Đơn ảnh Chuỗi ảnh Trính đặc Trích đặc trưng mức trưng mức ảnh chuỗi ảnh Tập truy vấn So khớp Học độ đo Kết hợp Kết quả và xếp muộn truy vấn hạng Đơn ảnh Chuỗi ảnh Trính đặc Trích đặc trưng mức trưng mức ảnh chuỗi ảnh Tập tìm kiếm Phần trích chọn đặc trưng Phần so khớp đặc trưng Hình 2.1 Mô hình chung cho bài toán tái định danh. bộ ảnh của tập truy vấn và tập tìm kiếm. Các đặc trưng này có thể là các đặc trưng thủ công như: GOG, LOMO hoặc đặc trưng học sâu như: ResNet-50. Đối với trường hợp tái định danh sử dụng đơn hình ảnh, các đặc trưng này được chuyển sang phần so khớp. Ngược lại, nếu là tái định danh sử dụng đa hình ảnh thì các đặc trưng mức ảnh của cùng một người sẽ được cho qua một bộ tổng hợp đặc trưng mức chuỗi ảnh nhằm tạo ra một đặc trưng của một chuỗi các hình ảnh. Trong phần so khớp, một giải thuật học khoảng cách như giải thuật XQDA có thể được sử dụng nhằm ánh xạ các véc-tơ đặc trưng sang một không gian con có khả năng phân biệt tốt hơn các đối tượng khác nhau. Các đặc trưng cũng có thể được sử dụng độc lập hoặc được kết hợp thông qua sơ đồ kết hợp muộn với nhiều sơ đồ khác nhau bao gồm cả kết hợp với ngưỡng thích nghi. Cuối cùng, khối so khớp và xếp hạng có nhiệm vụ đưa ra kết quả dự đoán. Các mạng tích chập (CNN) thông thường chỉ làm việc với các đặc trưng toàn cục của ảnh. Điều này có thể làm mất đi các đặc trưng cục bộ nhất là hình ảnh người trong cho bài 5
  8. toán tái định danh có các bộ phận được phân bố theo chiều dọc của ảnh. Do đó cần có những thay đổi để phát huy các đặc trưng cục bộ khi sử dụng các mạng học sâu. 2.2 Phương pháp đề xuất 2.2.1 Đề xuất 1: Trích đặc trưng cục bộ cho ảnh dựa trên thay đổi kiến trúc ResNet50 Biến thể ResNet-50 của mạng ResNet [8] là kiến trúc mạng học sâu phổ biến trong thị giác máy tính và nhiều lĩnh vực khác. Trong mô hình tái định danh được đề xuất trên, mạng ResNet-50 được áp dụng cho để trích chọn đặc trưng mức ảnh của người đi bộ. Nhận thấy rằng, các bộ phận của người đi bộ trong ảnh được phân bố theo chiều dọc ảnh như: đầu, cổ, vai, thân trên,... Trong khi đó việc lấy giá trị trung bình các giá trị bản đồ đặc trưng (Feature map) tại tầng "AVG pool"của ResNet-50 có thể làm mất đi các đặc trưng của từng vùng trên cơ thể. Do đó, luận án đề xuất trích chọn đặc trưng trên nhiều vùng ảnh riêng biệt phân theo chiều dọc. Số lượng vùng có thể được thay đổi tùy thuộc vào đối tượng quan tâm. Trong trường hợp này là 7 vùng. Cách thức thực hiện được thể hiện bởi Hình 2.2. Nhằm giảm chi phí tính toán mà không thay đổi bản chất của phương pháp đề xuất, lớp gộp (AVG-pool) kích thước cửa sổ 7x7 cuối cùng bằng lớp gộp với kích thước cửa sổ 1x7. 2048x7x1 64x112x112 256x56x56 512x28x28 1024x14x14 2048x7x7 AVG Block 1 Block 2 Block 3 Block 4 Block 5 pool (1,7) Hình 2.2 Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh Lớp gộp kích thước 1x7 sẽ tổng hợp bản đồ đặc trưng ở lớp phía trước (7x7x2048) để thu được một bản đồ đặc trưng kích thước 7x1x2048 tương ứng với 7 véc-tơ đặc trưng của 7 vùng trên ảnh. Sau đó, 7 véc-tơ 2048 chiều này có thể được ghép nối với nhau để tạo nên véc-tơ đặc trưng duy nhất (ResNet50-7Stripes) biểu diễn ảnh của một người với kích thước là 2048 × 7 = 14, 336 thay vì 2, 048 như mạng gốc. Hoặc 7 véc-tơ này có thể được sử dụng một cách độc lập nhau. Lúc đó cần sử dụng thêm một độ đo khoảng cách giữa hai tập đặc trưng cục bộ này. 2.2.2 Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn Mỗi loại đặc trưng có ưu nhược điểm riêng, một bộ mô tả có thể hiệu quả trên một cơ sở dữ liệu này nhưng lại không hiệu quả trên một cơ sở dữ liệu khác. Luận án đề xuất áp dụng chiến lược kết hợp muộn đặc trưng ResNet50-7Stripes với một số trưng khác dựa trên quy tắc nhân và quy tắc cộng được mô tả như trong các công thức (2.1) và (2.2). Kết hợp muộn dựa trên quy tắc nhân N  Y ωQ(i) N X j (i) (i) Similarity(Q, I ) = simQ,I j , với ωQ = 1. (2.1) i=1 i=1 6
  9. Kết hợp muộn dựa trên quy tắc cộng N  X  N X j (i) (i) (i) Similarity(Q, I ) = simQ,I j × ωQ , với ωQ = 1. (2.2) i=1 i=1 Similarity(Q, I j ) là độ đo tương tự giữ người cần truy vấn Q và một người trong tập tìm (i) kiếm I j , simQ,I j là độ đo giữa hai người ứng với mỗi đặc trưng i, N = 3 là số đặc trưng đang (i) xét, và wQ là trọng số của đặc trưng i tương ứng với người truy vấn Q. Để đánh giá hiệu năng của phương pháp đề xuất với các chiến lược kết hợp đặc trưng khác nhau, trong nghiên (i) cứu này, wQ được xác định theo hai cách. Cách thứ nhất, các đặc trưng được gán các trọng (i) (i) số bằng nhau, có nghĩa là wQ = 1/N . Cách thứ hai, wQ được xác định thích nghi theo ảnh truy vấn đầu vào dự trên nghiên cứu của Zheng và cộng sự [28]. 2.2.3 Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ đo EMD Việc nối các đặc trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng của hai ảnh trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh truy vấn sẽ thực sự khớp với vùng ảnh nào của ảnh tìm kiếm. Do đó thay vì việc nối đặc trưng cục bộ của từng vùng ảnh lại với nhau thì sử dụng chúng độc lập và coi chúng là một tập hợp các đặc trưng. Dựa trên cơ sở nghiên cứu [17], nghiên cứu sinh đề suất thay thế khoảng cách DMLI bởi khoảng cách EMD [22] cho việc tính khoảng cách giữa hai tập véc-tơ đặc trưng cục bộ của hai ảnh. Khoảng cách dl giữa chúng được mô tả như Hình 2.3 và công thức 2.3. Chi phí tính toán khoảng cách EMD nhỏ hơn DMLI. Hình 2.3 Một ví dụ về việc tính toán khoảng cách EMD giữa hai tập đặc trưng cục bộ của hai ảnh người H X X H dl (Q, I) = dij fij (2.3) i=1 j=1 7
  10. trong đó dij là khoảng cách Euclide được chuẩn hóa về đoạn [0..1] giữa đặc trưng cục bộ thứ i của ảnh Q với đặc trưng cục bộ thứ j của ảnh I. fij là đại lượng học được trong quá trình huấn luyện. Cuối cùng hai hàm mất mát softmax và triplet được sử dụng để huấn luyện mạng. Cụ thể, giá trị mất mát L được tính toán theo công thức L = LID + LgT + LlT , (2.4) trong đó, LID là giá trị mất mát theo định danh (ID) của đối tượng sử dụng hàm mất mát softmax, LgT , LlT là hai giá trị mất mát theo hàm mất mát triplet tương ứng với hai nhánh cục bộ và toàn cục của mạng. 2.3 Thử nghiệm và kết quả 2.3.1 Cơ sở dữ liệu cho bài toán tái định danh Các thử nghiệm được thực hiện trên CSDL VIPeR [7], PRID-2011 [9], iLIDS-VID [24], Market1501-Partial và DukeMTMCReID-Partial [17]. Kết quả tái định danh được thể hiện bằng đường cong CMC (Cummulative Matching Characteristic) hoặc bảng xếp hạng. Mỗi giá trị trên đường cong CMC thể hiện tỷ lệ so khớp đúng tại mỗi thứ hạng (rank). 2.3.2 Đánh giá hiệu quả của đặc trưng cục bộ với chiến lược nối đơn giản Phần này tập chung làm nổi bật hiệu quả của đặc trưng cục bộ thu được bởi mạng ResNet-50 đã được cải tiến trên các CSDL cho bài toán tái định danh là: VIPER , PRID- 2011 và iLIDS-VID. - ResNet50/ResNet50-7Stripes: đặc trưng được trích chọn dựa trên mạng ResNet-50 gốc/ ResNet-50 cải tiến, sử dụng bộ trọng số tiền huấn luyện (pre-trained) trên bộ dữ liệu ImageNet. - ResNet50-TP/ResNet50-TP7Stripes: đặc trưng được trích xuất dựa trên mạng ResNet- 50 gốc/ ResNet-50 cải tiến với bộ trọng số được hiệu chỉnh lại trên cơ sở dữ liệu PRID-2011 theo [6]. Bảng 2.1 Kết quả so khớp đúng khi sử dụng đặc trưng ResNet trên cơ sở dữ liệu VIPER. VIPER R=1 R=5 R=10 R=15 R=20 ResNet50 (gốc) 7.15 21.55 31.46 38.64 43.48 ResNet50-7Stripes 15.57 36.08 48.64 56.08 62.50 ResNet50-TP 18.51 41.96 55.06 62.78 69.02 ResNet50-TP7Stripes 28.16 56.08 69.02 75.79 80.70 Bảng 2.1 hiển thị tỷ lệ so khớp đúng tại một số thứ hạng quan trọng (1, 5, 10, 20) khi thực hiện các thử nghiệm trên hai cơ sở dữ liệu VIPeR. Bảng 2.2 đưa ra tỷ lệ so khớp đúng tại một số thứ hạng(1, 5, 10, 20) khi thực hiện các thử nghiệm trên hai cơ sở dữ liệu PRID-2011 và iLIDS-VID. Đặc trưng được trích chọn theo phương pháp đề xuất ResNet50-7Stripes và ResNet50-TP7Stripes đạt được kết quả tốt hơn so với đặc trưng ResNet50 và ResNet50-TP được trích chọn theo mô hình gốc. Điều này cho thấy các thông tin cục bộ theo vùng đóng vai trò quan trọng trong mô tả ảnh của một người. 8
  11. Bảng 2.2 Kết quả so khớp đúng khi sử dụng đặc trưng ResNet trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. PRID-2011 iLIDS-VID Features R=1 R=5 R=10 R=20 R=1 R=5 R=10 R=20 ResNet50 Different fusion Different fusion (original) schemes schemes with 3 feature 57.19 83.03 with 3 features on PRID-2011 89.78 94.38 20.60 fusion Different 38.27schemes 49.33 with3 62.07 features on iLIDS-VID 100 ResNet50-7Stripes 73.26 92.92 95.96 98.09 32.13 55.53 68.07 79.73 ResNet50-TP 80.56 96.29 98.76 99.78 53.13 76.47 84.53 91.27 90 ResNet50-TP7Stripes 87.42 97.08 98.65 99.44 73.87 92.00 96.33 98.93 80 100 100 Matching rates 7090 90 Tỷ lệ khớp (%) Tỷ lệ khớp (%) 6080 90.34% 90.34% GOG GOG 80 67.13% 67.13% GOGGOG 83.93% 83.93% LOMO LOMO 60.20% 60.20% LOMO LOMO 87.42% 87.42% ResNet50-TP7Stripes ResNet 73.87% ResNet50-TP7Stripes 73.87% ResNet50-TP7Stripes 93.26% Adaptive 93.26% Adaptive-weight Product-rule 5070 93.82% Equal-we 93.82% Equal-weight Product-rule 70 84.00% Adaptive-weight 84.00% Product-rule Adaptive-weight Product-rule 85.60% Equal-weight 85.60% Product-rule Equal-weight Product-rule 93.48% Adaptive 93.48% Adaptive-weight Sum-rule 84.00% Adaptive-weight 84.00% Sum-rule Adaptive-weight Sum-rule 93.82% Equal-we 93.82% Equal-weight Sum-rule 85.73% Equal-weight 85.73% Sum-rule Equal-weight Sum-rule 4060 60 55 1010 15 20 5 5 10 10 15 15 20 20 Hạng Rank Hạng Rank (a) (a) (a) (b)(b) HìnhHình Hình 2.3 2.4lệTỷsolệ khớp Tỷ lệ so so 2.3 Tỷ khớp khớp khi khi khisửsửsửdụng dụngcác dụng các đặc cácđặc đặctrưng trưng trưngriêng riêng lẻ lẻ riêng và và lẻkivàáp dụngdụng áp các kikiáp dụngchiến các lược kết cácchiến chiếnlược kếtkết lược hợp muộn. a) cơ sở dữ liệu PRID-2011 b) cơ sở dữ liệu iLIDS-VID. hợp hợp muộn. muộn. a) a)cơ cơsở sởdữ dữliệu liệuPRID-2011 PRID-2011and andb)b)cơcơsởsởdữdữliệu liệuiLIDS-VID. iLIDS-VID. 2.3.3 Đánh giá hiệu quả của đặc trưng cục bộ với các chiến lược kết hợp muộn 2.2.3 2.2.3 Đánh Đánh Đặc trưng giá kết kếtquảquảcủa củađề giáResNet50-TP7Stripes đềxuất xuất trong sẽ đượctrong chiến sử dụngchiến lược lược trong các kếtkết chiến hợp lượchợp muộn muộn kết hợp muộn cùng Hình Hình 2.3 với các2.3 thể đặcthể hiện hiện trưng tỷ LOMO lệ so tỷ lệvàso khớp GOG.khớp đúng đúng Hình trong trong 2.4 thể các hiệncác trường tỷ lệtrường hợp so khớphợp hoặc đúnghoặc chỉ trongchỉ sử các sửdụng dụng trường từng hợptừngđặc đặc trưng riêng trưnghoặcriêngchỉlẻlẻsửhoặc dụngáp hoặc áp dụng từng đặc các dụng cácchiến trưng riênglược chiến lẻ hoặc lược kếtáphợp kết dụng hợp đặccáctrưng. đặc chiến trưng. Mặc lược Mặckếtdùhợp dùđặcđặctrưng đặc trưngGOG trưng. Mặc GOG tỏtỏ rara dù đặc trưng GOG tỏ ra hiệu quả trong việc mô tảhợp ảnh với hiệu hiệu quả quả trong trong việc việc mô môtả tảảnh ảnh người, người, nhưng nhưng khi khikếtkết hợpngười, vớiđặcnhưng đặctrưng trưng khi kết như khác khác hợp với đặc vẫn nhưRestNet RestNet vẫn có trưng khác như RestNet vẫn có thể nâng cao độ chính xác cho bài toán tái định danh. Bảng có thể thể nâng nângcao caođộ độchính chínhxác xácchochobài bàitoán toántái táiđịnh địnhdanh. danh.BảngBảng2.3 2.3sososánhsánhgiữagiữacác cáckếtkết quảquả 2.3 so sánh giữa các kết quả đạt được của phương pháp đề xuất với các kết quả của một số đạt đạt được được của của phương pháp đề xuất với các cáckết kếtquả củacủamộtmộtsốPhương sốnghiên cứu hiệnhiệncó trên hai nghiên cứuphương khác trênpháp hai cơđềsởxuất dữ liệuvớiPRID-2011 quả và iLIDS-VID. nghiênphápcứuđề xuất tỏcó ra trên hai cơ cơ sở sở dữ dữliệu liệu PRID-2011 PRID-2011 và vàiLIDS-VID. iLIDS-VID. Có Cóthể thểthấy thấy rõrõưuưuđiểm của phương pháp đềđề xuất so hiệu quả hơn khi tỷ lệ so khớp đúng tại xếp hạng thứ nhất tăngđiểm tươngcủa ứngphương 3.2% và pháp 15.6% so xuất so với với cácvớiphương các các kết pháp phương pháp quả khác. đứng thứTỷ khác. hailệ[20] Tỷ lệsosotrên khớphaiđúng khớp cơ sởtại đúng tạixếp dữ xếphạng liệu hạngthứ PRID-2011thứnhất nhất và tăng tăngtương iLIDS-VID. tương ứng ứng3.2% 3.2% vàvà 15.6% 15.6% so sovớivớicác cáckếtkếtquả quảđạtđạtđược đượctrong trong[17] [17]trên trênhai haicơcơsởsởdữdữliệu liệuPRID-2011 PRID-2011vàvàiLIDS-VID. iLIDS-VID. Bảng 2.3 So sánh kết quả đạt được của phương pháp đề xuất với các phương pháp hiện có Bảngtrên 2.3haiSocơsánh sở dữ kết liệuquả PRID-2011 và của đạt được iLIDS-VID. phươngKết quảđề pháp tốt xuất nhất với đượccác in đậm. phương pháp hiện có Bảng 2.3 So sánh kết quả đạt được của phương pháp đề xuất với các phương pháp hiện có trên trên hai hai cơ cơ sở sởdữ dữliệu liệuPRID-2011 PRID-2011vàvàiLIDS-VID. iLIDS-VID. Kết Kếtquả quảtốttốtnhất nhất được đượcininđậm. đậm. Methods PRID-2011 iLIDS-VID Matching rate (%) Rank=1 Rank=5 Rank=20 Rank=1 Rank=5 Rank=20 Methods CAR [27], TCSVT 2017 83.3 PRID-2011 93.3 96.7 60.2 iLIDS-VID 85.1 94.2 Methods PRID-2011 iLIDS-VID AMOC+EpicFlow Matching rate [16],(%) TCSVT 2018 Rank=1 83.7 98.3 Rank=5 100 Rank=20 68.7 Rank=1 94.3 Rank=5 99.3 Rank=20 Matching GOG+XQDA [20],rate MTA (%) 2019 Rank=1 90.6 Rank=5 100.0 98.4 Rank=20 70.1 Rank=192.7Rank=599.1Rank=20 CAR [23], TCSVT 2017 83.3 93.3 96.7 60.2 85.1 94.2 CAR [23], TCSVT 2017 Ours 83.3 93.8 93.3 100.0 99.2 96.7 85.7 60.2 97.7 85.1 99.9 94.2 AMOC+EpicFlow [13], TCSVT 2018 83.7 98.3 100 68.7 94.3 99.3 AMOC+EpicFlow [13], TCSVT 2018 83.7 98.3 100 68.7 94.3 99.3 GOG+XQDA [17], MTA 2019 90.6 98.4 100.0 70.1 92.7 99.1 GOG+XQDA 2.3.4 Ours [17], MTA 2019 Đánh giá hiệu quả của đặc93.8 90.6 trưng cục98.4 bộ với100.0 khoảng 70.1 cách97.792.7 EMD 99.9 99.1 99.2 100.0 85.7 KếtOurs quả kiểm thử trên hai CSDL này 93.8 được99.2 100.0 thể hiện 85.7 2.4.97.7 trong Bảng Trong đó 99.9 Global 2.3 (hoặc KếtLocal) luậnthể hiện việc sử dụng đặc trưng toàn cụa (hoặc cục bộ). DMLI và EMD là hai 2.3 Kết luận Nội dung chương này đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích chọn Nội dung chương này đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích chọn đặc trưng của 7 phần trên ảnh người. Các thử 9 nghiệm được thực hiện trên ba cơ sở dữ liệu đặc trưng của 7 phần trên ảnh người. Các thử nghiệm được thực hiện trên ba cơ sở dữ liệu VIPeR, PRID-2011 và iLIDS-VID cho bài toán tái định danh đã thể hiện hiệu quả của phương
  12. độ đo cho phép tính khoảng cách giữa hai tập đặc trưng cục bộ. re-ranking là giải thuật cải thiện trật tự sắp xếp thứ hạng cho kết quả so khớp. Bảng 2.4 So sánh kết quả thu được từ phương pháp đề xuất và phương pháp gốc trên 3 CSDL VIPeR, Market1501-Partial and DukeMTMCReID-Partial datasets. Phương pháp VIPeR Market1501_Partial DukeMTMC_Partial Tỷ lệ khớp (%) Hạng 1 Hạng 5 Hạng 20 Hạng 1 Hạng 5 Hạng 20 Hạng 1 Hạng 5 Hạng 20 Global 38.30 67.76 88.03 74.73 87.24 94.16 65.93 79.18 87.75 Local (DMLI) 40.20 73.12 89.95 77.32 92.14 94.78 68.28 81.44 88.90 Local (EMD) 47.82 76.31 93.02 77.97 89.45 94.91 68.54 81.86 88.65 Global + Local (DMLI) 40.89 72.82 89.91 77.22 89.28 94.82 68.33 81.00 89.27 Global + Local (DMLI) + re-ranking 31.78 65.36 89.88 83.40 89.51 93.57 77.03 83.31 89.03 Global + Local (EMD) 47.84 76.62 93.48 78.04 89.13 95.00 69.08 81.93 88.64 Global + Local (EMD) + re-ranking 33.36 68.64 88.97 83.36 89.25 93.64 78.47 84.47 89.41 Ngoài ra để thấy rõ được sự khác biệt khi sử dụng số lượng các vùng ảnh khác nhau. Các thử nghiệm với số lượng vùng khác nhau cũng đã được thực hiện. Để thu được bản đồ đặc trưng có kích thước phù hợp với số vùng ảnh mong muốn, ảnh đầu vào sẽ được thay đổi kích thước trước khi cho qua mạng. Kết quả thử nghiệm với số lượng vùng ảnh khác nhau được thể hiện trong Bảng 2.5. Nhận thấy rằng khi sử dụng số lượng vùng ảnh là 12 sẽ cho kết quả cao nhất trên CSDL VIPER. Khi dùng quá ít hoặc quá nhiều vùng, kết quả đạt được đều thấp hơn. Tuy nhiên, trong trường hợp sử dụng nhiều vùng hơn sẽ yêu cầu nhiều tài nguyên tính toán khoảng cách EMD hơn. Bảng 2.5 So sánh việc chia số lượng vùng khác nhau trên CSDL VIPER Result Embedding mAP R-1 R-5 R-10 R-20 4 50.92 37.11 66.58 76.34 87.72 6 54.93 42.13 70.61 81.65 89.12 8 60.41 47.84 76.62 86.47 93.48 10 58.32 44.61 75.04 85.13 93.40 12 62.11 49.59 77.65 86.93 93.52 14 60.92 46.50 78.82 89.23 90.76 2.4 Kết luận chương Trong chương này, luận án đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích chọn đặc trưng cục bộ của nhiều phần trên ảnh người. Căn cứ vào đề xuất này, nhiều kịch bản thử nghiệm cho bài toán tái định danh đã được tiến hành trên 5 CSDL khác nhau. Kết quả cho thấy, (1) đặc trưng cục bộ mang lại hiệu quả tốt hơn đặc trưng toàn cục trong hầu hết các thử nghiệm. (2) Các đặc trưng cục bộ vẫn mang lại hiệu quả trong các chiến lược kết hợp muộn với các đặc trưng GOG, LOMO ngay cả khi nó không cho hiệu quả tốt nhất khi sử dụng đọc lập. (3) Việc sử dụng độ đo EMD cho kết quả không thua kém khi sử dụng độ đo 10
  13. DMLI thậm chí có phần nhỉnh hơn trong khi việc tính toán đơn giản hơn. CHƯƠNG 3 KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI 3.1 Đặt vấn đề Trong thực tế, các hệ thống thị giác máy tính thường thu nhận được nhiều hơn một hình ảnh của đối tượng cần quan sát. Nhận thấy rằng, một chuỗi các hình ảnh nhất là chuỗi các hình ảnh được sắp xếp theo thời gian thu nhận sẽ mang lại nhiều thông tin hơn là một hình ảnh đơn lẻ. Khi đó, ngoài các thông tin về mặt không gian như các ảnh đơn lẻ chúng còn chứa các thông tin theo chiều thời gian. Sử dụng các mạng Nơ-ron hồi quy (Recurrent Neural Networks) cho việc khai thác các thông tin mức chuỗi hình ảnh đã và đang được quan tâm. Điển hình là các nghiên cứu [19, 25, 16]. Mục tiêu của chương này là tìm ra phương pháp vận dụng các mạng RNN để khai thác các đặc trưng mức chuỗi ảnh nhằm nâng cao hiệu quả các mô hình cho bài toán tái định danh người. Ngoài ra, chất lượng các chuỗi hình ảnh của người cũng ảnh hưởng nhiều đến chất lượng đặc trưng thu nhận được. Do đó các bước phát hiện và theo vết đối tượng cũng được nghiên cứu và đánh giá trong chương này trên cơ sở xây dựng một CSDL đáp ứng hết các yêu cầu đánh giá một hệ thống tái định danh thực. 3.2 Một số kiến trúc mạng Nơ-ron hồi quy phổ biến 3.2.1 Recurrent Neural Network (RNN) Mạng Nơ-ron hồi quy (RNN - recurrent neural networks) là một mạng Nơ-ron truyền đạt với một vòng lặp. Trong đó một đơn vị xử lý (nút) được thực hiện lặp lại nhiều lần. Hình 3.1 mô tả một mạng RNN được trải ra. Đầu vào là một chuỗi X = (x1 , x2 , ..., xT ), trong đó mỗi Woh Trải ra Woh Woh Woh Whh Whh Whh Whh Whh Whx Whx Whx Whx Hình 3.1 Cấu trúc một nút trong mạng RNN xt có thể là một véc-tơ. Ứng với mỗi thời điểm (tương ứng với mỗi nút), RNN cập nhật các trạng thái ẩn (h1 , h2 , ..., hT ) đồng thời trả về kết quả đầu ra O = (o1 , o2 , ..., oT ). Hàm truyền đạt của RNN tại thời điểm t được diễn tả như sau: ht = tanh(Whx xt + Whh ht−1 + bh ) (3.1) ot = tanh(Woh ht + bo ) 11
  14. 3.2.2 Long Short-term Memory (LSTM) LSTM [10] được đề xuất nhằm hạn chế sự suy hao thông tin từ các nút (đơn vị xử lý) phía trước khi chúng được chuyển qua các nút ở xa phía sau như trong RNN. Mỗi nút trong một mạng LSTM được bổ sung các cổng (gate) và có thêm ô trạng thái ẩn (cell state) làm việc như các phần tử nhớ (Hình 3.2). So với RNN, một mạng LSTM học được các đặc trưng ot-1 ot Ot+1 ht Ct-1 Ct ft it ot gt ht-1 ht Xt-1 Xt Xt+1 Hình 3.2 Cấu trúc một nút trong mạng LSTM tạm thời có chọn lọc hơn, có khả năng nhớ tốt hơn so với RNN. 3.2.3 Long Short-term Memory với cặp cổng (LSTMC) LSTMC là một cải tiến của LSTM. Trong đó tích hợp hai cổng quên (f ) và cổng vào (i) thành một cổng duy nhất được gọi là cặp cổng (Couple gate). Số lượng tham số của kiến trúc LSTMC giảm đi so với kiến trúc gốc. Với ý tưởng là thay thế những thông tin đã bị loại bỏ bằng một thông tin khác. 3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP) LSTMP được giới thiệu bới Gers và Schmidhuber vào năm 2000. Sự khác biệt của nó so với phiên bản gốc là việc thêm vào các kết nối lỗ nhìn (Peephole Connections). Việc thêm vào các kết nối giữa đầu vào và các cổng làm cho LSTMP trở lên phức tạp hơn, chứa nhiều tham số hơn. 3.2.5 Gated Recurrent Unit (GRU) GRU là một biến thể được coi là khác biệt nhất so với LSTM nguyên bản. Không chỉ các cổng quên f và cổng vào i được gộp lại thành một mà các trạng thái ô và các trạng thái ẩn cũng được gộp lại. Điều này làm cho kiến trúc của GRU trở lên đơn giản hơn trong khi vẫn giữ được khả năng lưu giữ các thông tin tạm thời. 3.3 Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định danh sử dụng chuỗi hình ảnh Trên cơ sở mô hình RFA (Recurrent Feature Aggregation Network) [25]. Mô hình này tương tự với mô hình tổng quát cho bài toán tái định danh thể hiện trong Hình 2.1. Trong đó, kiến trúc LSTM sẽ lần lượt được thay thế bởi các biến thể khác của RNN. Các thử nghiệm được thực hiện trên hai CSDL PRID-2011 và iLIDS-VID nhằm tìm ra kiết trúc RNN hiệu quả nhất. Độ đo tương đồng Cosine được sử dụng để so khớp các đặc trưng (Hình 3.3). 12
  15. LSTM Đặc trưng Chuỗi ảnh mức ảnh Nối truy vấn LSTM LSTM So khớp LSTM Chuỗi ảnh Đặc trưng trong tập tìm mức ảnh Nối kiếm LSTM LSTM Trích đặc trưng mức ảnh Trích đặc trưng mức chuỗi ảnh So khớp các cặp đặc trưng Hình 3.3 Mô hình thử nghiệm tái định danh sử dụng chuỗi hình ảnh Bước 1. Trích đặc trưng mức ảnh: Đặc trưng LBP&Color được trích chọn trên tất cả các ảnh (đặc trưng mức ảnh) cho cả tập huấn luyện và kiểm thử. Bước 2. Trích đặc trưng mức chuỗi ảnh: lần lượt các kiến trúc RNN, LSTM, LSTMP, LSTMC và GRU sẽ được áp dụng để trích đặc trưng mức chuỗi hình ảnh từ mỗi 10 véc-tơ đặc trưng mức ảnh tương ứng bằng cách ghép nối tất cả 10 đầu ra của các mạng Nơ-ron hồi quy để tạo ra một véc-tơ 5120 chiều. Bước 3. So khớp các cặp đặc trưng: Độ đo tương đồng Cosine theo Công thức 3.2 được sử dụng để xác định sự tương đồng của 2 véc-tơ đặc trưng. Siq .Sjg dij = (3.2) kSiq kkSig k Trong đó Siq và Sjg là hai vector đặc trưng ở mức chuỗi ảnh của người thứ i trong tập truy vấn (Probe) và người j trong tập tìm kiếm (Gallery). Với mỗi thử nghiệm, mô hình được huấn luyện trên tập huấn luyện. Chiến lược dừng sớm cũng đã được áp dụng để tránh hiện tượng quá khớp (over fitting). Tất cả các thử nghiệm được triển khai trên cùng một máy tính với CPU Intel® Xeon E3-1245 v5, GPU NVIDIA Titan X GPU. Bảng 3.1 So sánh kết quả khi dùng các kiến trúc mạng Nơ-ron hồi quy khác nhau CSDL iLIDS-VID PRID-2011 Độ chính xác % Hạng 1 Hạng 5 Hạng 10 Hạng 20 Hạng 1 Hạng 5 Hạng 10 Hạng 20 RNN 34.4 64.8 76.8 87.5 44.0 76.1 88.7 96.2 GRU 48.4 74.3 83.0 91.3 59.2 87.2 95.3 98.8 LSTMC 46.2 72.2 81.4 90.3 53.8 81.5 92.6 97.8 LSTM 44.5 71.9 82.0 90.1 54.9 84.2 93.7 98.4 LSTMP 45.7 71.8 81.9 90.2 54.1 81.8 91.5 97.8 Kết quả thử nghiệm lần lượt với 5 biến thể của mạng Nơ-ron hồi quy được tổng hợp trong 2 bảng (3.1 và 3.2). Số lượng tham số của kiến trúc RNN là nhỏ nhất nhưng cũng cho độ chính xác thấp nhất. Kiến trúc LSTM và các biến thể của nó đem lại độ chính xác tương 13
  16. Bảng 3.2 So sánh thời gian thực thi Thời gian huấn luyện (ms/iter) Kiến trúc Số lượng tham số Thời gian kiểm tra(ms/seq) Batch =1 Batch =8 Batch=16 RNN 30.707.712 12,784 54,029 103,963 6,643 GRU 91.073.024 27,778 65,187 121,961 7,265 LSTMC 91.335.168 28,001 66,245 124,772 7,354 LSTM 121.780.224 36,694 69,664 132,197 8,462 LSTMP 122.566.656 37,977 71,861 134,724 9,629 tự nhau. Kiến trúc GRU cho kết quả tốt nhất trên toàn bộ các hạng và trên cả hai tập dữ liệu mặc dù không phải là kiến trúc phức tạp nhất. 3.4 Cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc GRU Các thực nghiệm ở phần trên cho thấy hiệu quả của kiến trúc GRU so với các biến thể khác trong việc tạo ra. Tuy nhiên, đặc trưng (LBP&Color) lại khá hạn chế. Đề xuất sử dụng đặc trưng học sâu từ mạng VGG16. Các thử nghiệm hướng tới đến hai mục tiêu: (1) So sánh hiệu quả các chiến lược tổng hợp (thay thế phép nối) theo thời gian; (2) Chứng mình hiệu quả của đặc trưng mức ảnh khi sử dụng mạng VGG16. Bảng 3.3 thể hiện kết quả thử nghiệm của mô hình được đề xuất với các chiến lược tổng hợp đặc trưng khác nhau mức chuỗi ảnh từ các đầu ra của mạng GRU. TP Mean, TP Max và Concat lần lượt biểu thị các chiến lược lấy giá trị trung bình, giá trị lớn nhất và ghép nối. Trong đó, chiến lược lấy trưng bình mang lại kết quả nhỉnh hơn trong khi kích thước véc-tơ đặc trưng nhỏ hơn so với chiến lược nối. Bảng 3.4 so sánh kết quả đật được với các nghiên cứu khác. Đối với tập dữ liệu nhiều thách Bảng 3.3 So sánh hiệu suất của mô hình được đề xuất khi áp dụng các chiến lược gộp theo thời gian khác nhau Dataset iLIDS-VID PRID-2011 CMC Rank 1 5 10 20 1 5 10 20 VGG-GRU+TP Mean 49.8 77.4 86.5 93.5 75.1 93.7 97.5 99.5 VGG-GRU+TP Max 49.1 76.8 86.3 93.4 74.6 93.5 97.7 99.5 VGG-GRU+Concat 49.8 77.4 86.5 93.4 74.3 93.5 97.5 99.5 iLIDS-VID, độ chính xác ở hạng 1 tăng nhẹ (0,5%) so với kiến trúc gốc nhưng có hai ưu thế. Một là, kích thước véc-tơ đặc trưng mức chuỗi ảnh trong mô hình được đề xuất trên nhỏ hơn 10 lần (do lấy trung bình). Hai là, mô hình đề xuất chỉ dùng độ đo tương đồng Cosine đơn giản hơn nhiều so với giải thuật học độ đo khoảng cách RankSVM [1]. Sự chênh lệch về hiệu suất được mở rộng trong tập dữ liệu đơn giản hơn (PRID-2011). Bảng 3.4 So sánh hiệu quả của mô hình được đề xuất với các nghiên cứu khác Dataset iLIDS-VID PRID-2011 CMC Rank 1 5 10 20 1 5 10 20 VGG-GRU+TP Mean 49.8 77.4 86.5 93.5 75.1 93.7 97.5 99.5 LBP&Color+RFA-Net+RankSVM [25] 49.3 76.8 85.3 90.0 58.2 85.8 93.4 97.9 LBP&Color+RFA-Net+Cosine [25] 44.5 71.9 82.0 90.1 54.9 84.2 93.7 98.4 STFV3D+KISSME [12] 44.3 71.7 83.7 91.7 64.1 87.3 89.9 92.0 14
  17. 3.5 Nâng cao hiệu quả mô hình bằng đặc trưng thủ công (GOG) kết hợp sử dụng thuật toán học độ đo khoảng cách Đặc trưng thủ công mức ảnh của mô hình RFA được thay thế bởi đặc trưng thủ công GOG. Biến thể LSTM được áp dụng với chiến lược nối các dữ liệu đầu ra để tổng hợp đặc trưng mức chuỗi ảnh. Cuối cùng áp dụng giải thuật tối ưu độ đo khoảng cách XQDA [15] cho giai đoạn so khớp đặc trưng. Hình 3.4 thể hiện kết quả thu được. Dễ thấy, việc thay thế đặc trưng LBP&Color bởi đặc trưng GOG đem lại hiệu quả cao hơn việc chỉ thay thế giải thuật học độ đo khoảng cách RankSVM bởi XQDA trên CSDL PRID-2011. Tuy nhiên, phương pháp được đề xuất tăng mạnh trên CSDL PRID-2011 nhưng chỉ tăng nhẹ trên CSDL iLIDS-VID. Bảng 3.5 so sánh phương pháp được đề xuất với phương pháp khác. 1 0 0 9 0 8 0 M a tc h in g r a te ( % ) 7 0 6 0 5 0 4 1 .6 1 % L B P - C o lo r + R a n k S V M 4 0 4 2 .9 4 % L B P - C o lo r + X Q D A 4 0 .4 5 % G O G + R a n k S V M 4 2 .7 3 % G O G + X Q D A 3 0 5 1 0 1 5 2 0 R a n k (a) PRID- 2011 (b) iLIDS-VID Hình 3.4 Kết quả thử nghiệm với mô hình đề xuất Bảng 3.5 So sánh kết quả của phương pháp đề xuất và một số phương pháp khác trên 2 CSDL PRID-2011 và iLIDS-VID PRID 2011 iLIDS-VID Phương pháp Hạng 1 Hạng 5 Hạng 10 Hạng 20 Hạng Hạng 5 Hạng 10 Hạng 20 TAPR [5] 68.6 94.6 97.4 98.9 55.0 87.5 93.8 97.2 RNN [19] 70.0 90.0 95.0 97.0 58.0 84.0 91.0 96.0 DFCP [14] 51.6 83.1 91.0 95.5 34.5 63.3 74.5 84.4 TDL [26] 56.7 80 87.6 93.6 56.3 87.6 95.6 98.3 RFA-Net [25] 53.6 82.9 92.8 97.9 41.6 69.7 80.2 89.2 Ours 70.4 93.4 97.6 99.3 42.7 73.6 84.7 93.3 3.6 Triển khai và đánh giá một hệ thống tái định danh Một hệ thống thị giác máy tính trên thực tế bao gồm nhiều giai đoạn thực hiện. Mỗi kết quả của khâu trước sẽ ảnh hưởng đến kết quả của giai đoạn kế tiếp, một hệ thống tái định danh cũng vậy. Nó gồm ba khâu cơ bản: phát hiện, theo vết và tái định danh. Trong chương này, tác giả hướng tới một hệ thống tái định danh với cả 3 giai đoạn trên để có cái nhìn đầy đủ hơn về khi áp dụng các kỹ thuật học sâu cho các bài toán của thị giác máy tính. Ngoài ra tác giả cùng đã tiến hành thu thập và xây dựng một cơ sở dữ liệu hình ảnh để phục vụ cho các thử nghiệm. 15
  18. 3.6.1 Mô tả hệ thống Một hệ thống tái định danh có thể được mô tả như hình 3.5. Camera 1 So khớp Camera 2 Thu nhận hình ảnh Phát hiện người Theo vết người Tái định danh Hình 3.5 Phương pháp đề xuất cho một hệ thống tái định danh hoàn toàn tự động. Mục đích chính của chương này đó là đánh giá hiệu năng tổng thể của toàn hệ thống khi các công đoạn được thực hiện hoàn toàn tự động. Đối với công đoạn phát hiện, hai trong số các phương pháp phát hiện đối tượng được đánh giá là hiệu quả và phổ biến là YOLOv3 và Mask R-CNN được để xuất sử dụng. Bên cạnh đó, DeepSORT với các ưu điểm vượt trội được đề xuất cho công đoạn theo vết đối tượng. Cuối cùng, mô hình tái định danh với mạng ResNet50 cải tiến (đã trình bày trong Chương 2) được áp dụng cho công đoạn tái định danh. 3.6.2 Xây dựng cơ sở dữ liệu FAPR Trên thực tế, các cơ sở dữ liệu dùng chung hiện có thường được xây dựng riêng cho từng bài toán. Với bài toán phát hiện đối tượng có thể sử dụng các CSDL như: ImageNet, COCO,... Với bài toán theo vết đối tượng có thể sử dụng các CSDL như MOT. Với bài toán tái định danh có VIPeR, PRID-2011,... Tuy nhiên, rất khó để tìm thấy một cơ sở dữ liệu được xây dựng để có thể dùng chung cho cả 3 bài toán này nhất là các CSDL được xây dựng trong nước. Do đó, việc xây dựng một CSDL đáp ứng yêu cầu trên là cần thiết. CSDL Fully Automated Person ReID (FAPR) gồm 15 videos đã được phân tách thành từng ảnh và được thu thập trong ba ngày với hai camera tĩnh có vùng quan sát không chồng lấn nhau. Độ phân giải của ảnh thu nhận là Full HD (1920 × 1080), tốc độ thu hình 20 khung hình/s (fps) trong cả hai môi trường trong nhà (Indoor) và ngoài trời (Outdoor). Các nhãn của CSDL được gán bằng tay với một số mô tả về một phần cơ sở dữ liệu được thể hiện trên Bảng 3.6. Bảng 3.6 6/12 video và nhãn trong cơ sở dữ liệu FAPR Tên video #Số lượng ảnh #Số lượng BB #BB/Ảnh #IDs #Tracklets 20191105_indoor_left 947 1502 1.59 10 11 20191105_indoor_right 474 1119 2.36 10 10 20191105_indoor_cross 1447 3087 2.13 10 21 20191105_outdoor_left 765 1565 2.05 11 11 20191105_outdoor_right 470 1119 2.38 10 11 20191105_outdoor_cross 1009 2620 2.60 9 17 Cơ sở dữ liệu FAPR hội tụ nhiều thách thức và tiêu chuẩn cho các bài toán đặt ra. Cụ thể là: Có sự thay đổi lớn về điều kiện chiếu sáng trong nhà và ngoài trời (indoor và outdoor); 16
  19. kích thước, góc nhìn vùng ảnh người biến động lớn trong quá trình di chuyển; dữ liệu thu nhận từ 2 camera không có sự chồng lấn về trường quan sát; sự che lấp xuất hiện với nhiều mức độ khác nhau (hard và easy); người di chuyển theo các hướng khác nhau như từ trái, từ phải và từ hai phía (left, right, cross). Quá trình gán nhãn được thực hiện thông qua việc sử dụng phần mềm LabelImg. Cuối cùng ta có tập CSDL với 11.876 khung hình chia làm 15 tập nhỏ tương ứng với 15 video. Trong đó có 28.567 vùng ảnh chứa người (BB - Bounding Box) được gán đánh dấu và gán định danh ứng với 181 chuỗi hình ảnh (Tracklets) của cùng một định danh (ID). 3.6.3 Đánh giá phần phát hiện và theo vết người trên CSDL FAPR Để đánh giá hiệu quả của việc kết hợp giữa các phương pháp phát hiện và theo vết khác nhau, YOLOv3 và Mask R-CNN được đề xuất cho bước phát hiện đối tượng, trong khi đó DeepSORT được sử dụng cho bước theo vết. Bảng 3.7 và 3.8 mô tả kết quả khi áp dụng YOLOV3. Dễ thấy Prcn và Rcll có sự biến đổi lớn giữa các video. Điều này chứng tỏ sự khác biệt lớn về thách thức của mỗi video. Hình 3.6 mô tả một số ví dụ về kết quả thu được trong các bước phát hiện và theo vết đối tượng. Bảng 3.7 Kết quả phát hiện người trên cơ sở dữ liệu FAPR khi sử dụng bộ phát hiện YOLOv3. Đánh giá khâu phát hiện (1) Videos FP↓ FN↓ Rcll(%)↑ Prcn(%)↑ F1-score(%)↑ indoor 80 51 95.6 93.2 94.4 outdoor_easy 70 65 97.5 97.3 97.4 outdoor_hard 533 460 93.0 92.0 92.5 20191104_indoor_left 164 215 83.3 86.7 85.0 20191104_indoor_right 118 188 85.2 90.1 87.6 20191104_indoor_cross 142 244 76.9 85.1 80.8 20191104_outdoor_left 249 160 88.0 82.5 85.2 20191104_outdoor_right 203 197 86.0 85.6 85.8 20191104_outdoor_cross 213 134 85.7 79.1 82.3 Bảng 3.8 Kết quả theo vết người trên cơ sở dữ liệu FAPR khi sử dụng bộ phát hiện YOLOv3 và bộ theo vết DeepSORT. Đánh giá khâu theo vết (2) Videos GT MT↑ PT↑ ML↓ IDF1(%)↑ IDP(%)↑ IDR(%)↑ IDs↓ FM↓ MOTA(%)↑ MOTP↓ indoor 7 7 0 0 91.5 90.4 92.7 7 11 88.0 0.26 outdoor_easy 7 7 0 0 74.5 74.4 74.6 6 16 94.5 0.21 outdoor_hard 20 19 1 0 78.0 77.6 78.4 30 67 84.4 0.28 20191104_indoor_left 10 8 2 0 83.8 85.5 82.1 7 24 70.0 0.34 20191104_indoor_right 13 8 5 0 79.6 81.9 77.4 9 16 75.1 0.30 20191104_indoor_cross 10 5 4 1 68.0 71.6 64.7 12 29 62.3 0.29 20191104_outdoor_left 10 8 2 0 73.5 71.2 76.0 10 48 68.6 0.33 20191104_outdoor_right 11 7 3 1 70.6 70.5 70.8 17 45 70.3 0.29 20191104_outdoor_cross 12 8 2 2 71.9 69.2 75.0 14 33 61.6 0.30 3.6.4 Đánh giá phần tái định danh trên CSDL FAPR Đặc trưng ResNet50_7stripe được sử dụng cho bước biểu diễn ảnh người. Đặc trưng mức chuỗi ảnh cho tất cả các ảnh trong quỹ đạo di chuyển của 1 người (tracklet) thu được bằng cách lấy trung bình các đặc trưng mức ảnh. Đô đo Cosine được dùng để so khớp các đặc trưng. 12/15 video được sử dụng, trong đó một nửa số video này được thu thập trong cùng một ngày (Bảng 3.9) với hai camera cố định được lắp đặt trong cả hai môi trường: trong phòng và ngoài trời. Các ngữ cảnh được đề cập tới trong các thử nghiệm này gồm ba tình huống khác nhau: (1) người đi bộ chỉ chuyển động từ trái qua phải, (2) chỉ chuyển động từ phải qua trái và (3) 17
  20. (a) (b) (c) Hình 3.6 Ví dụ về kết quả thu được trong bước theo vết a) Bị chuyển đổi ID, b) một tracklet chỉ có một vài bounding box, c) tracklet tốt. chuyển động theo cả hai hướng và có sự che khuất nhau. (4) trộn toàn bộ dữ liệu của các ngữ cảnh trên. Bảng 3.9 Kết quả tái định danh (%) tại hạng thứ nhất trên FAPR Ngữ cảnh Tập truy vấn Tập tìm kiếm Tỷ lệ so khớp đúng (%) 1 20191105_indoor_left 20191105_outdoor_left 100.00 2 20191105_indoor_right 20191105_outdoor_right 75.00 3 20191105_indoor_cross 20191105_outdoor_cross 57.14 4 20191105_indoor_all 20191105_outdoor_all 78.57 3.7 Kết luận chương Các kết quả của thử nghiệm cho thấy kiến GRU tỏ ra hiệu quả nhất so với các biến thể khác của RNN. Tuy nhiên so với LSTM thì sự vượt trội này không quá khác biệt. Đặc trưng học sâu mức ảnh VGG16 hoặc đặc trưng thủ công GOG mang lại hiệu quả tốt hơn đặc trưng LBP&Color. Khi áp dụng thêm giải thuật học độ đo XQDA, hiệu quả các mô hình cũng tăng mạnh trên CSDL PRID-2011 và tăng nhẹ trên CSDL iLIDS-VID. CSDL FAPR được dây dựng có thể được sử dụng để đánh giá hiệu năng của một hệ thống tái định danh đầy đủ các bước trong thực tế. Kết quả thử nghiệm trên CSDL này phù hợp với các kết quả thử nghiệm trên các CSDL phổ biến khác. CHƯƠNG 4 NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA 4.1 Đặt vấn đề Những nghiên cứu gần đây về mạng Nơ-ron học sâu (Deep Neural Networks - DNN) đã đem lại hiệu quả cao trong việc nghiên cứu và ứng dụng thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác. Tuy nhiên, đi cùng với hiệu suất vượt trội của DNN là những đòi hỏi rất cao về chi phí phần cứng máy tính. Những chi phí về thời gian tính toán, chi phí về bộ nhớ có xu hướng ngày càng tăng. Ví dụ mô hình mạng học sâu VGG-19 [23] yêu cầu về chi phí tính toán lên đến 19,6 tỷ FLOP và yêu cầu bộ nhớ để lưu trữ mô hình lên đến 549 MB 18
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2