Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:127

Thêm vào BST

Báo xấu

16
lượt xem 10
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài "Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người" nhằm mục đích nghiên cứu tổng quan về vai trò của ảnh nhiệt trong phát hiện và theo vết đối tượng người, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói chung và các thuật toán kết hợp ảnh màu và ảnh nhiệt để phát hiện và theo vết đối tượng người nói riêng. Đề xuất các thuật toán có khối lượng tính toán, tốc độ phù hợp để tiếp tục thử nghiệm kết hợp ảnh màu và ảnh nhiệt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU Hà Nội – 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI Ngành: Mạng máy tính và truyền thông dữ liệu Mã số: 9480102 LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Trần Quang Đức Hà Nội - 2023
LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các số liệu, kết quả trình bày trong luận án là trung thực và chưa từng được tác giả khác công bố. Hà Nội, ngày tháng năm 2023 Giáo viên hướng dẫn Nghiên cứu sinh PGS. TS. Trần Quang Đức Đào Vũ Hiệp i
LỜI CẢM ƠN Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy, cô. Đặc biệt, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến PGS.TS. Trần Quang Đức - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS.TS. Nguyễn Linh Giang, TS. Trần Nguyên Ngọc, ThS Mạc Đình Hiếu và các bạn sinh viên tại Trung tâm an toàn an ninh thông tin/Trường Công nghệ thông tin và Truyền thông/Đại học Bách Khoa Hà Nội đã nhiệt tình hướng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án. Tôi xin cảm ơn cơ quan công tác, gia đình và người thân đã luôn bên tôi, ủng hộ và động viên tôi trong suốt quá trình nghiên cứu. Tôi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2023 Nghiên cứu sinh Đào Vũ Hiệp ii
MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i LỜI CẢM ƠN ............................................................................................................. ii DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... vi DANH MỤC CÁC HÌNH VẼ ................................................................................... ix DANH MỤC CÁC BẢNG ....................................................................................... xii MỞ ĐẦU .................................................................................................................... 1 1. Bối cảnh nghiên cứu ......................................................................................... 1 2. Những thách thức và mục tiêu nghiên cứu....................................................... 5 3. Đối tượng và phạm vi nghiên cứu .................................................................... 6 4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu....................................... 6 5. Điểm mới của luận án....................................................................................... 7 6. Cấu trúc của luận án ......................................................................................... 7 Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU ................................. 9 1.1. Vai trò của ảnh nhiệt trong bài toán phát hiện và theo vết đối tượng .............. 9 1.1.1. Khái quát về tín hiệu hồng ngoại ........................................................................... 9 1.1.2. Khả năng mô tả đối tượng của các tín hiệu hồng ngoại .................................... 11 1.2. Kỹ thuật học sâu áp dụng trong bài toán phát hiện và theo vết đối tượng ............ 13 1.2.1. Cơ bản về mạng nơ ron tích chập ........................................................................ 14 1.2.2. Một số phương pháp phát hiện đối tượng sử dụng kỹ thuật học sâu ............... 15 1.2.3. Một số phương pháp theo vết đối tượng sử dụng kỹ thuật học sâu ................. 17 1.3. Bài toán phát hiện đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu và ảnh nhiệt ................................................................................................... 19 1.3.1. Phân tích bài toán .................................................................................................. 19 1.3.2. Bộ dữ liệu thử nghiệm .......................................................................................... 20 1.3.3. Độ đo hiệu năng .................................................................................................... 22 1.3.4. Các nghiên cứu có liên quan ................................................................................ 23 1.4. Bài toán theo vết đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu và ảnh nhiệt ........................................................................................................... 34 1.4.1. Phân tích bài toán .................................................................................................. 34 1.4.2. Bộ dữ liệu thử nghiệm .......................................................................................... 35 iii
1.4.3. Độ đo hiệu năng .................................................................................................... 36 1.4.4. Các nghiên cứu có liên quan ................................................................................ 37 1.5. Kết luận chương 1 .......................................................................................... 43 Chương 2. PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG KẾT HỢP ẢNH MÀU VÀ ẢNH NHIỆT ........................................................................................... 44 2.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến hiệu năng phát hiện và theo vết đối tượng người ....................................................................................... 44 2.1.1. Khảo sát ảnh hưởng của độ chiếu sáng đến hiệu năng phát hiện và theo vết đối tượng người ...................................................................................................................... 44 2.1.2. Khảo sát ảnh hưởng cường độ nhiệt đến hiệu năng phát hiện và theo vết đối tượng người ...................................................................................................................... 47 2.2. Các phương pháp để xác định độ chiếu sáng ................................................. 47 2.2.1. Các phương pháp để ước lượng độ chiếu sáng phổ biến .................................. 47 2.2.2. Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng .............................. 51 2.3. Đánh giá chất lượng phát hiện và theo vết đối tượng trên ảnh nhiệt ............. 56 2.4. Phương pháp xác định trọng số kết hợp ảnh màu và ảnh nhiệt trong phát hiện và theo vết người ................................................................................................... 58 2.5. Kết luận chương 2 .......................................................................................... 64 Chương 3. PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT ............................................................. 65 3.1. Các kỹ thuật nền tảng ..................................................................................... 65 3.1.1. Các thuật toán YOLO ........................................................................................... 65 3.1.2. Thuật toán SiamDW_ST ...................................................................................... 72 3.2. Thuật toán kết hợp ảnh màu và ảnh nhiệt ở mức điểm ảnh để phát hiện đối tượng người ........................................................................................................... 74 3.2.1. Mô tả thuật toán ..................................................................................................... 74 3.2.2. Đánh giá kết quả .................................................................................................... 74 3.3. Thuật toán kết hợp thời gian thực ở mức kết quả để phát hiện đối tượng người ......... 78 3.3.1. Mô tả thuật toán ..................................................................................................... 78 3.3.2. Đánh giá kết quả .................................................................................................... 79 3.4. Thuật toán phát hiện đối tượng người một giai đoạn sử dụng độ nhiễu và cường độ nhiệt ....................................................................................................... 80 3.4.1. Mô tả thuật toán ..................................................................................................... 80 iv
3.4.2. Điều kiện thử nghiệm ........................................................................................... 82 3.4.3. Kết quả thử nghiệm so sánh với các phương pháp xác định trọng số khác .... 82 3.4.4. Kết quả thử nghiệm so sánh các mức kết hợp .................................................... 83 3.4.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến .................................. 84 3.5. Thuật toán theo vết đối tượng người sử dụng độ nhiễu và cường độ nhiệt ... 88 3.5.1. Mô tả thuật toán ..................................................................................................... 88 3.5.2. Điều kiện thử nghiệm ........................................................................................... 89 3.5.3. Kết quả thử nghiệm so sánh với các thuật toán phổ biến trên toàn bộ các chuỗi đối tượng người................................................................................................................ 90 3.5.4. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban ngày ............................................................................................................... 90 3.5.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban đêm ................................................................................................................ 91 3.5.6. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bị che khuất ........................................................................ 91 3.5.7. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước thay đổi ............................................................ 92 3.5.8. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều khung hình camera chuyển động ....................................................... 92 3.5.9. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có các đối tượng chuyển động liên tục ............................................................. 92 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN............................................ 102 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ................. 104 TÀI LIỆU THAM KHẢO ...................................................................................... 105 v
DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết STT Tiếng Anh Ý nghĩa Tiếng Việt tắt 1 DL Deep Learning Học sâu Convolutional Neural Mạng nơ ron tích chập 2 CNN Network 3 GPU Graphic Processing Unit Đơn vị xử lý đồ họa ILSVRC ImageNet Large Scale Visual Bộ dữ liệu ảnh lớn trong cuộc 4 Recognition Challenge thi nhận dạng trực quan 5 VOT Visual Object Tracking Theo vết đối tượng trực quan Bộ dữ liệu các đối tượng thông Microsoft Common Objects in 6 COCO dụng trong nhiều ngữ cảnh của COntext (MS COCO) Microsoft 7 OCR Optical Character Recognition Nhận dạng ký tự Histogram of Oriented Lược đồ hướng gradient 8 HOG Gradients 9 ROI Region of Interest Vùng quan tâm Tỷ lệ diện tích vùng giao nhau 10 IoU Intersection over Union trên vùng hợp nhau của khung dự đoán và khung chuẩn Very Deep Convolutional Tên một mạng nơ ron: Mạng 11 VGG Networks tích chập rất sâu 12 FCN Fully Convolutional Network Mạng tích chập đầy đủ 13 RPN Region Proposal Network Mạng đề xuất vùng Mạng kết nối chéo giữa các 14 CSPNet Cross Stage Partial Network tầng Mạng kim tự tháp đặc trưng là 15 FPN Feature Pyramid Network một kiến trúc phát hiện đối tượng ở nhiều tỷ lệ Mạng tổng hợp đường cho 16 PAN Path Aggregation Network phép kết hợp đặc trưng từ nhiều tầng nơ ron tích chập vi
Đặc trưng kết hợp từ nhiều 17 ACF Aggregated Channel Features kênh Tên một thuật toán phát hiện 18 SSD Single Shot Multibox Detector đối tượng một giai đoạn. Huấn luyện để xác định các 19 Siamese Sililarity Learning ảnh tương tự nhau Discriminative Correlation Bộ lọc tương quan phân biệt 20 DCF Filters 21 NCC Normalized Cross-Correlation Tương quan chéo chuẩn hóa Thuật toán theo vết đối tượng 22 SiamFC Fully-Convolutional Siamese sử dụng lớp tích chập đầy đủ để xác định vị trí đối tượng Tên một thuật toán theo vết Minimum Output Sum of 23 MOSSE đối tượng sử dụng huấn luyện Squared Error DCF Tên một thuật toán theo vết Accurate Tracking by Overlap 24 ATOM đối tượng sử dụng phương Maximization pháp tối đa độ chồng lấn Tên một thuật toán phát hiện đối tượng người sử dụng kết Cross-Modality interactive 25 CIAN hợp ảnh màu và ảnh nhiệt sử attention network dụng ngữ nghĩa của ảnh để làm trọng số 26 SNR Signal to Noise Ratio Tỷ lệ tín hiệu trên nhiễu Độ chính xác trung bình, được 27 mAP mean Average Precision sử dụng để đánh giá các thuật toán phát hiện đối tượng Tỷ lệ lỗi trung bình trên miền 28 LAMR Log Average Miss Rate logarit sử dụng để đánh giá các thuật toán phát hiện đối tượng Tỷ lệ phát hiện sai trên số 29 FPPI False Positive Per Image lượng ảnh được thử nghiệm vii
30 fps frame per second Khung hình trên giây Tên một thuật toán loại bỏ các 31 NMS Non-Maximum Suppression ước lượng trùng nhau trong bài toán phát hiện đối tượng Tên thuật toán phát hiện đối Noise - Aware Multispectral tượng kết hợp ảnh màu và ảnh 32 NAMPD Perdestrian Detector nhiệt sử dụng độ nhiễu và cường độ nhiệt Tên một lớp để kết hợp các đặc trưng của ảnh màu và ảnh Multispectral channel feature 33 MCFF nhiệt. Trong đó có thể huấn fusion luyện để tạo ra trọng số kết hợp tối ưu. viii
DANH MỤC CÁC HÌNH VẼ Hình 1.1. Chất lượng của ảnh màu kém đi khi điều kiện chiếu sáng kém khi trời tối. ............. 9 Hình 1.2 Dải tần số sóng điện từ tương ứng với các loại tín hiệu [31]. ................... 10 Hình 1.3. Năng lượng phát xạ từ vật đen tuyệt đối theo nhiệt độ và từng bước sóng [2]....... 13 Hình 1.4. Nguyên tắc nhận thức của mạng Nơ ron trong vỏ não [32]. .................... 14 Hình 1.5. Tính toán bản đồ đặc trưng của từng lớp tích chập [32]. ......................... 15 Hình 1.6. Kiến trúc chung của các mạng nơ ron phát hiện đối tượng [13]. ............. 16 Hình 1.7. Kiến trúc cơ bản của các thuật toán phát hiện đối tượng hai giai đoạn [7]. .... 17 Hình 1.8. Kiến trúc cơ bản của các thuật toán phát hiện đối tượng một giai đoạn [10]. . 17 Hình 1.9. Kiến trúc chung của các thuật toán Siamese để theo vết đối tượng [19]. 18 Hình 1.10. Tạo ảnh huấn luyện bằng ảnh Gauss hai chiều với đỉnh là tâm đối tượng [20] ... 19 Hình 1.11. Một số khó khăn của bài toán phát hiện đối tượng [41]. ........................ 20 Hình 1.12. Minh họa các chỉ số TP, FP, FN, TN. .................................................... 22 Hình 1.13. Hai kiến trúc kết hợp sớm và kết hợp muộn trong công bố của Wagner [46]. .... 24 Hình 1.14. Các kiến trúc kết hợp đặc trưng mức sớm, mức giữa, mức muộn của vanilla CovNet [44]..............25 Hình 1.15. Kết hợp mức giữa sử dụng BDT [39]. .................................................... 25 Hình 1.16. Kiến trúc tương tác để tạo trọng số của thuật toán CIAN [30] .............. 26 Hình 1.17. Các kiến trúc kết hợp của các thuật toán phát hiện đối tượng hai giai đoạn [1]...........27 Hình 1.18. Sơ đồ mạng nhận thức độ chiếu sáng [1]. ............................................. 29 Hình 1.19. Tạo dữ liệu huấn luyện phân vùng yếu [45]. .......................................... 29 Hình 1.20. Sơ đồ mạng kết hợp phân vùng và phát hiện đối tượng (MSDS) [45]... 30 Hình 1.21. Kiến trúc lớp Multispectral channel feature fusion [60] ........................ 31 Hình 1.22. Phân tích giá trị riêng đa phân giải ......................................................... 32 Hình 1.23. Sơ đồ thuật toán phân tích ảnh thành hai thành phần [26]. .................... 33 Hình 1.24. Sơ đồ thuật toán DenseFusion ................................................................ 34 Hình 1.25. Hàm mật độ xác xuất của chiều dài các chuỗi [56]. .............................. 37 Hình 1.26. Sơ đồ mạng IoU-Net. .............................................................................. 38 Hình 1.27. Mô tả sự khác nhau giữa RoI Pooling và PrRoI Pooling[16]. ............... 40 Hình 1.28. Sơ đồ thuật toán ATOM[16]. ................................................................. 40 Hình 2.1. Kết quả phát hiện đối tượng vào ban ngày lần lượt đối với ảnh màu và ảnh nhiệt .......45 Hình 2.2. Kết quả phát hiện đối tượng vào ban đêm lần lượt đối với ảnh màu và ảnh nhiệt ........45 Hình 2.3. Đường cong EAO theo số lượng khung hình của từng trường hợp ......... 46 Hình 2.4. Chỉ số Key mô tả các độ chiếu sáng khác nhau trong ảnh. ...................... 50 Hình 2.5. Chỉ số Key và Range mô tả độ chiếu sáng vào ban ngày và ban đêm. .... 51 Hình 2.6. Một số trường hợp sử dụng range và key không cho kết quả đúng ......... 52 Hình 2.7. Sơ đồ của phép biến đổi wavelet, ví dụ ở đây là 3 bước .......................... 53 Hình 2.8. Các hàm cơ sở (hàm mẹ) theo Daubechies với n=4 ................................. 54 Hình 2.9.Tham số được tính theo hàm Daubechies (n=4) ....................................... 54 ix
Hình 2.10. Hàm phân bố xác xuất của các chỉ số Key (hình a, b, c); Range (hình d, e, f) và độ nhiễu (hình g, h, i). .................................................................................. 56 Hình 2.11. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản của đối tượng người với nền trong bộ dữ liệu KAIST ............................................. 58 Hình 2.12. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản của đối tượng người với nền trong bộ dữ liệu VOT ................................................. 58 Hình 3.1. Kiến trúc phát hiện đối tượng YOLO [10] ............................................... 66 Hình 3.2. Mô tả ước lượng vị trí đối tượng của thuật toán YOLOv2 ...................... 69 Hình 3.3. Thuật toán YOLOv4 ................................................................................. 71 Hình 3.4. Mô tả kiến trúc SiamDW_ST [22] ........................................................... 73 Hình 3.5. Sơ đồ các bước thuật toán SiamDW_ST .................................................. 74 Hình 3.6. Sơ đồ tạo ảnh trộn từ ảnh màu và ảnh nhiệt sử dụng trọng số được đề xuất .... 75 Hình 3.7. Kết quả đánh giá hiệu năng của thuật toán được đề xuất và các thuật toán phổ biến như MSVD, Two-Scale w/Sal, DenseFusion và FusionGan. Hình a, b, c là biểu đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban đêm và toàn bộ dữ liệu KAIST. Hình d là biểu đồ tổng hợp chỉ số LAMR ............................................................................ 76 Hình 3.8. Theo từng cột là ảnh màu, ảnh nhiệt, ảnh trộn tạo bởi thuật toán đề xuất, Two-sacle w/ Sal, MSVD, DenseFusion và FusionGan. Theo hàng là các ngữ cảnh khác nhau trong trường, ngoài đường, trong phố (ngày và đêm). ............................ 77 Hình 3.10. Cấu trúc của thuật toán phát hiện đối tượng........................................... 78 Hình 3.10. Đường cong MR - FPPI của thuật toán được đề xuất. ........................... 80 Hình 3.11. Sơ đồ kết hợp của thuật toán NAMPD ................................................... 81 Hình 3.12. Kết quả đánh giá hiệu năng của thuật toán NAMPD và các chế xác định trọng số khác. Hình a, b, c là biểu đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban đêm và toàn bộ dữ liệu. Hình d là biểu đồ tổng hợp chỉ số LAMR ............................... 85 Hình 3.13. Kết quả đánh giá hiệu năng của thuật toán NAMPD và các thuật toán phổ biến như ACF+T+HOG; IAF R-CNN; CIAN; MSDS-RCNN; FusionCSPNet. Hình a, b, c là biểu đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban đêm và toàn bộ dữ liệu. Hình d là biểu đồ tổng hợp chỉ số LAMR ............................................................................ 86 Hình 3.14. Minh họa một số kết quả phát hiện đối tượng theo hàng dọc là IAF R- CNN, CIAN, MSDS-RCNN, FusionCSPNet và NAMPD ...................................... 87 Hình 3.15. Sơ đồ kết hợp ảnh màu và ảnh nhiệt trong thuật toán theo vết đối tượng ...... 89 Hình 3.16. Sơ đồ lớp kết hợp IoU có trọng số ......................................................... 89 Hình 3.17. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến trên toàn bộ các chuỗi dữ liệu theo vết đối tượng người ................... 94 Hình 3.18. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban ngày ................................................ 95 Hình 3.19. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban đêm ................................................. 96 x
Hình 3.20. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bị che khuất............ 97 Hình 3.21. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước thay đổi 98 Hình 3.22. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều khung hình camera chuyển động ............ 99 Hình 3.23. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán phổ biến riêng trên với các chuỗi dữ liệu có đối tượng chuyển động liên tục 100 Hình 3.24. Minh họa so sánh kết quả theo vết đối tượng của các thuật toán lần lượt trừ trên xuống: Phương pháp đề xuất, SiamDW_T, DiMP, FSRPN, CIRSDCF ... 101 xi
DANH MỤC CÁC BẢNG Bảng 1.1. Bảng mô tả phân loại các tín hiệu hồng ngoại theo ................................ 11 Bảng 1.2. Mô tả các tập dữ liệu của bộ dữ liệu KAIST ........................................... 21 Bảng 1.3. So sánh kết quả phát hiện đối tượng (chỉ số LAMR) của thuật toán IAN [1] ....... 28 Bảng 1.4. Thuật toán xác định hàm mất mát của lớp IoU ........................................ 38 Bảng 1.5. Kết quả đo lường EAO, A, R của một số thuật toán theo vết đối tượng . 42 Bảng 1.5. So sánh một số thuật toán theo vết đối tượng người kết hợp ảnh màu và ảnh nhiệt ....43 Bảng 1.6. Tốc độ xử lý của một số thuật toán theo vết kết hợp ảnh màu và ảnh nhiệt...................43 Bảng 2.1. So sánh chỉ số EAO, A, R của các thuật toán theo vết đối tượng trong các điều kiện ban ngày và ban đêm ................................................................................ 46 Bảng 2.2. Đánh giá độ chính xác phát hiện đối tượng trên từng tập dữ liệu của KAIST ..............48 Bảng 2.4. Đặt trọng số kết hợp cho các tập dữ liệu huấn luyện với bộ KAIST ....... 60 Bảng 2.5. Đặt trọng số kết hợp cho các tập dữ liệu huấn luyện với bộ VOT-RGBT ............. 63 Bảng 3.1. So sánh độ chính xác và tốc độ của YOLO và Fast R-CNN, Faster R-CNN ...............67 Bảng 3.2 Kết quả so sánh độ chính xác và tốc độ của một số thuật toán phát hiện đối tượng phổ biến .......................................................................................................... 71 Bảng 3.3. So sánh độ chính xác của một số thuật toán tạo ảnh trộn từ ảnh màu và ảnh nhiệt ......75 Bảng 3.4. Kết quả so sánh về độ chính xác và tốc độ các thuật toán theo vết đối tượng ...............80 Bảng 3.5. Bảng mô tả kết quả đánh giá chỉ số LAMR với cách xây dựng trọng số khác nhau ...83 Bảng 3.6. Bảng mô tả kết quả đánh giá chỉ số LAMR với các mức kết hợp khác nhau ...............84 Bảng 3.7. Tốc độ xử lý của một số thuật toán phát hiện đối tượng phổ biến........... 86 Bảng 3.8. So sánh chỉ số EAO, A, R ở các mức kết hợp ảnh màu và ảnh nhiệt ...... 88 Bảng 3.9. So sánh độ chính xác, độ ổn định, chỉ số EAO của phương pháp đề xuất và một số thuật toán theo vết đối tượng kết hợp ảnh màu và ảnh nhiệt ................... 93 xii
MỞ ĐẦU 1. Bối cảnh nghiên cứu Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều lĩnh vực như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn; giám sát các vị trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công nghiệp, giám sát hoạt động, phát hiện các nguy hiểm, cháy, nổ…; trong an ninh, quốc phòng, giám sát, phát hiện xâm nhập bất hợp pháp biên giới và có thể sử dụng để điều khiển các loại vũ khí, hỏa lực. Các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mô tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên, khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở nên kém đi. Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bước sóng dài (8÷14 µm), gọi tắt là ảnh nhiệt, không bị ảnh hưởng trong các trường hợp này [1]. Mặt khác, các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí không cao. Vì vậy, các hướng nghiên cứu kết hợp ảnh màu với ảnh nhiệt bắt đầu được chú ý thời gian gần đây. Phát hiện và theo vết đối tượng (object detection and tracking) là các kỹ thuật thị giác máy tính cơ bản được sử dụng để phát hiện các sự kiện xảy ra trong tầm quan sát. Đối tượng người là đối tượng phổ biến, mang đầy đủ các khó khăn cơ bản của bài toán phát hiện và theo vết như: Diện mạo thay đổi, kích thước, hình dạng đối tượng thay đổi; dễ bị lẫn trong bối cảnh phức tạp (clutter background); đôi khi xuất hiện không đầy đủ trong khung hình (occlusion) và có thể xuất hiện trong môi trường có độ chiếu sáng thay đổi (illumination change). Mặt khác, người cũng tương tự như các loài sinh vật khác, có tỷ lệ nước trong cơ thể hơn 65%, tỷ lệ hấp thụ với các sóng điện từ ở bước sóng (9 ÷ 11) μm từ bên ngoài vào khoảng từ 0,9 đến 0,97 và bức xạ phát xạ cơ bản phụ thuộc vào nhiệt độ của đối tượng [2]. Nhiệt độ bề mặt cơ thể người vào khoảng 30 đến 40 độ C nên sẽ phát xạ mạnh nhất tín hiệu ở bước sóng từ 8 đến 14 μm, là tín hiệu để tạo ra ảnh nhiệt. Vì vậy, nghiên cứu kết hợp ảnh màu và ảnh nhiệt trong bài toán phát hiện và theo vết đối tượng người có thể minh chứng được hiệu quả kết hợp trong nhận dạng ảnh nói chung. Trong những năm gần đây, cùng với sự phát triển của phần cứng và kỹ thuật trong các mạng nơ ron trong học sâu (DL - Deep learning), phát hiện và theo vết đối tượng sử dụng mạng nơ ron tích chập (CNN - Convolutional Neural Network) cho 1
thấy hiệu quả vượt trội so với các thuật toán trước đây [3] [4]. Nhờ khả năng “học” với một lượng dữ liệu lớn, đa ngữ cảnh cũng như khả năng trích rút các đặc trưng một cách tự động, quá trình suy luận (inference) sẽ cho độ chính xác cao, có thể phát hiện và theo vết đối tượng có kích thước, hình dạng, diện mạo thay đổi; bối cảnh lộn xộn hoặc đối tượng chỉ xuất hiện một phần trong khung hình. Đối tượng người là một đối tượng phổ biến trong các bộ dữ liệu huấn luyện để phát hiện và theo vết đối tượng. Do đó, về cơ bản các thuật toán phát hiện và theo vết đối tượng người đều được phát triển từ các thuật toán phát hiện và theo vết đối tượng nói chung và được huấn luyện chuyển giao (transfer learning) để phù hợp với các bộ dữ liệu chuyên biệt đối với đối tượng người. Đối với các thuật toán phát hiện đối tượng nói chung và đối tượng người nói riêng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một giai đoạn hoặc kiến trúc hai giai đoạn. - Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển từ thuật toán R-CNN, trong đó sẽ có 02 giai đoạn riêng biệt là: (i) Đề xuất các vùng có khả năng là đối tượng; (ii) Thực hiện kép 02 việc là phân loại đối tượng và điều chỉnh khung phát hiện đối tượng cho chuẩn xác. Điển hình của là các thuật toán phát hiện đối tượng như: R-CNN [5], Fast R-CNN [6], Faster R-CNN [7] và Libra R-CNN [8]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như Cascade R-CNN [9]. - Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập đầy đủ (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time). Ngoài ra để giảm khối lượng tính toán mà không làm giảm nhiều độ chính xác, có một số kỹ thuật mới được áp dụng như vi kiến trúc - microarchitecture như các mạng: SqueezeNet; MobileNet; ShuffleNet hoặc Darknet19/53; kỹ thuật Cross Stage Partial Network (CSPNet), kết nối chéo giữa các tầng hay DenselyNet, tổng hợp kết nối từ các tầng. Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến như các thuật toán họ YOLO [10], [11], [12], [13]; SSD [14] hay RetinaNet [15]. Về cơ bản thì các thuật toán theo kiến trúc hai giai đoạn sẽ cho độ chính xác cao hơn nhưng tốc độ chậm hơn kiến trúc một giai đoạn. Tuy nhiên, hiện nay cùng với sự phát triển của các phương pháp giảm khối lượng tính toán cũng như tăng độ chính xác, các thuật toán phát hiện đối tượng một giai đoạn cũng có kết quả rất tốt. Do đó, sẽ phù hợp khi sử dụng trên các thiết bị di động, hệ thống giám sát diện rộng, rô bốt hay xe tự lái… 2
Đối với các thuật toán theo vết đối tượng nói chung và đối tượng người nói riêng được phát triển theo hai hướng tiếp cận [16]: (i) Xác định vị trí đối tượng tại khung hình tiếp theo thông qua đối sánh khung hình với biểu diễn đối tượng (trực tiếp hoặc đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) Huấn luyện một tập các bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại khung hình tiếp theo. - Theo vết đối tượng thông qua đối sánh đầu tiên sử dụng trực tiếp tương quan của giá trị điểm ảnh thuộc vùng đối tượng với khung hình cần xác định vị trí đối tượng như trong [17], sau đó phát triển sử dụng đối sánh với biến đổi affine của đối tượng [18], hay sử dụng nhiều đặc trưng của đối tượng như trong [19]. Gần đây, bên cạnh những thành công trong bài toán phát hiện đối tượng, mạng nơ ron tích chập cũng được sử dụng để nâng cao độ chính xác đối sánh ảnh. Cụ thể, mạng nơ ron tích chập sau khi huấn luyện trên một bộ dữ liệu lớn sẽ thực hiện trích chọn đặc trưng từ đối tượng và khung hình hiện tại để đối sánh, xác định vị trí đối tượng. Các mạng như vậy được gọi là mạng Siamese (Similarity Learning) [20]. - Theo vết đối tượng dựa trên huấn luyện bộ lọc DCF được công bố đầu tiên trong thuật toán MOSSE, trong đó ảnh sử dụng để huấn luyện được xây dựng bằng hàm Gauss hai chiều với đỉnh là vị trí của tâm đối tượng được xác định trong khung hình trước; trong các khung hình tiếp theo, trọng số của bộ lọc được cập nhật khi định vị được đối tượng [21]. Để cải tiến có các phương pháp như KCF [22], tăng số lượng đối tượng bằng phép dịch vòng (Circulant) để phân biệt hay CSRDCF nâng cao hiệu năng nhờ kết hợp ước lượng nhiều lớp DCF bởi nhiều loại đặc trưng như ảnh đa mức xám (Grayscale), HoG (Histogram of Gradient), ColorNames [23]. Tương tự như các loại đặc trưng khác, đặc trưng tích chập cũng có thể được sử dụng để huấn luyện DCF và cho kết quả tốt. Nhìn chung, các thuật toán dựa trên đối sánh đối tượng sử dụng mạng nơ ron tích chập có thể xác định chính xác vị trí của đối tượng, nhưng có điểm yếu trong việc phân biệt đối tượng với nền, làm giảm độ ổn định (chỉ số Robustness), trong khi các thuật toán dựa trên DCF do được huấn luyện trực tuyến có thể phân biệt đối tượng với nền tốt. Do đó, các thuật toán có hiệu năng cao kết hợp cả hai hướng tiếp cận này thành hai bước trong một thuật toán: (i) bước phân loại (classification) sử dụng DCF với đặc trưng tích chập để bóc tách đối tượng và phát hiện các vị trí có khả năng là đối tượng trong khung hình mới; (ii) bước ước lượng (estimation) để từ các vị trí có khả năng là đối tượng trong khung hình mới, ước đoán vị trí chính xác của đối tượng. 3
Trong [16] đề xuất thuật toán theo hướng này là thuật toán ATOM (Accurate Tracking by Overlap Maximization), trong đó bước ước lượng vị trí xác định qua độ chồng lấn (overlap) thay vì ước lượng trực tiếp vị trí như các các thuật toán sử dụng mạng Siamese. Sau đó, thuật toán SiamDW_ST [24] nâng cao độ sâu của đặc trưng tích chập bằng cách sử dụng ResNet-50 thay vì ResNet-18 kết hợp một số kỹ thuật để nâng cao tốc độ tính toán. Trong khi đó, thuật toán DiMP [25] cải tiến bước phân loại để đạt độ chính xác cao hơn. Mỗi thuật toán có độ chính xác và tốc độ khác nhau, do đó khi lựa chọn thuật toán phù hợp cần có thử nghiệm cụ thể. Sử dụng mạng nơ ron tích chập được huấn luyện với các đối tượng ở nhiều ngữ cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa dạng của đối tượng; phần nào giải quyết được bài toán nền phức tạp và đối tượng bị che khuất một phần. Tuy nhiên, khi điều kiện chiếu sáng kém đi thì các thuật toán phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng cao hiệu năng. - Các thuật toán phát hiện đối tượng người kết hợp ảnh màu và ảnh nhiệt được phát triển bằng cách từ các mô hình đã được huấn luyện với tập dữ liệu lớn (như COCO), thực hiện huấn luyện chuyển giao với tập dữ liệu có các cặp ảnh màu - ảnh nhiệt có góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết hợp với nhau theo các mức sau: + Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images) kết hợp đầy đủ thông tin của cả ảnh màu và ảnh nhiệt, đồng thời thuận tiện trong quan sát như trong [26], [27], [28]. + Kết hợp ở mức đặc trưng: Đặc trưng được tạo từ ảnh màu và ảnh nhiệt được kết hợp bằng một lớp Network-in-Network ở một số mức như: Early Fusion - Mức sớm (ngay sau khối đặc trưng đầu tiên); Halfway Fusion - Mức giữa (sau khối đặc trưng gần cuối cùng) và Late Fusion - Mức muộn (sau khối đặc trưng cuối cùng) [1]. + Kết hợp ở mức kết quả: Ghép sau khi đã có kết quả từ từng nhánh về ước lượng khung đối tượng và độ tin cậy. Nhìn chung, kết hợp ở mức điểm ảnh cho hiệu năng phát hiện đối tượng thấp, nhưng thuận tiện trong quan sát khi tạo ra được ảnh trộn. Kết hợp đặc trưng ở mức giữa cho hiệu năng cao nhất, kể cả khi so với mức kết quả [29]. Tuy nhiên, kết hợp ở mức kết quả có ưu điểm là có thể tận dụng thêm thông tin để hậu xử lý, nâng cao độ chính xác phát hiện đối tượng. Gần đây, nhận thấy ảnh màu và ảnh nhiệt có đóng góp khác nhau khi kết hợp trong điều kiện độ chiếu sáng khác nhau, một số tác giả công bố một số kỹ thuật xây 4
dựng trọng số kết hợp như: Thuật toán CIAN (Cross-Modality Interactive Attention Network) sử dụng mã hóa phân vùng ngữ nghĩa (sematic segmentation) để xác định trọng số, kết hợp đặc trưng mức giữa; thuật toán IAF R-CNN [1] (Illumination Aware Fusion R-CNN) sử dụng một nhánh mạng nơ ron tích chập để ước lượng độ chiếu sáng, từ đó xây dựng trọng số kết hợp ở mức kết quả; Zhiwei Cao và cộng sự công bố trong [29] một thuật toán kết hợp sử dụng trọng số được xây dựng thông qua một lớp MCFF (Multispectral channel feature fusion) được huấn luyện tối ưu kết quả kết hợp ảnh màu và ảnh nhiệt. - Đối với các thuật toán theo vết đối tượng người kết hợp ảnh màu với ảnh nhiệt thì tùy thuộc vào cấu trúc của thuật toán có thể kết hợp ở nhiều mức tương tự như với các thuật toán phát hiện đối tượng [30]. 2. Những thách thức và mục tiêu nghiên cứu Từ bối cảnh nghiên cứu đã phân tích ở trên, có thể nhận thấy các thuật toán phát hiện và theo vết đối tượng người để có thể áp dụng trong thực tế vẫn còn tồn tại một số thách thức như sau: - Thách thức liên quan đến độ chính xác và tốc độ xử lý: Các khó khăn cơ bản của bài toán phát hiện và theo vết đối tượng như sự thay đổi của diện mạo, màu sắc và tư thế của đối tượng; sự phức tạp của nền hay đối tượng chỉ xuất hiện một phần có thể được giải quyết bằng kỹ thuật học sâu. Tuy nhiên, để có thể sử dụng trong các hệ thống cần đáp ứng thời gian thực cần phải có phương án giảm khối lượng tính toán mà độ chính xác không bị giảm nhiều. Cũng như kết hợp nhiều nguồn ảnh để nâng cao độ chính xác phát hiện và theo vết đối tượng. - Thách thức liên quan đến xác định đóng góp của từng kênh khi kết hợp ảnh màu và ảnh nhiệt: Khi điều kiện chiếu sáng tốt, ảnh màu sẽ cũng cấp nhiều thông tin về đối tượng như màu sắc, hình dạng, kích thước chính xác… Nhưng khi trời tối, sương mù, trời mưa thì ảnh nhiệt không bị ảnh hưởng và cung cấp được thông tin về đối tượng. Do đó, khi kết hợp sử dụng nhiều nguồn ảnh cần dựa vào các đặc điểm về môi trường chiếu sáng trên để xây dựng trọng số kết hợp để nâng cao tối đa được hiệu năng phát hiện và theo vết đối tượng. Ngoài ra, các tập dữ liệu để huấn luyện, thử nghiệm phát hiện đối tượng dựa trên đa nguồn ảnh có các cặp ảnh màu - ảnh nhiệt, nhưng không có thông tin về trọng số để kết hợp. Trong khi đó các tập dữ liệu để thử nghiệm theo vết đối tượng chỉ có thông tin về đối tượng ở khung hình đầu tiên ở mỗi chuỗi. Do đó, việc xây dựng tập dữ liệu và đánh dấu để huấn luyện trọng số kết hợp ảnh màu và ảnh nhiệt cũng là thách thức lớn. 5
- Thách thức liên quan đến phương án kết hợp ảnh màu và ảnh nhiệt: Trong các kiến trúc phát hiện và theo vết đối tượng dựa trên kỹ thuật học sâu, các đặc trưng của kênh ảnh màu và ảnh nhiệt có quan hệ phi tuyến, do đó khi kết hợp đơn giản ở các mức sớm sẽ cho hiệu năng không cao. Vì vậy, cần phải nghiên cứu và xác định được phương án kết hợp để có thể phát huy được tối đa hiệu năng phát hiện và theo vết đối tượng. Từ những thách thức trên, mục tiêu nghiên cứu của luận án là nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh nhìn thấy trong bài toán phát hiện và theo vết đối tượng người. 3. Đối tượng và phạm vi nghiên cứu Đối tượng và phạm vi nghiên cứu chính của luận án như sau: - Nghiên cứu tổng quan về vai trò của ảnh nhiệt trong phát hiện và theo vết đối tượng người, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói chung và các thuật toán kết hợp ảnh màu và ảnh nhiệt để phát hiện và theo vết đối tượng người nói riêng. Đề xuất các thuật toán có khối lượng tính toán, tốc độ phù hợp để tiếp tục thử nghiệm kết hợp ảnh màu và ảnh nhiệt. - Nghiên cứu ảnh hưởng của điều kiện chiếu sáng đến chất lượng của ảnh màu và ảnh nhiệt, hiệu năng của các thuật toán phát hiện, theo vết đối tượng người trên ảnh. Đề xuất và minh chứng hiệu quả của các độ đo trên ảnh để xác định được điều kiện chiếu sáng của môi trường và nâng cao hiệu năng phát hiện và theo vết đối tượng. - Nghiên cứu thuật toán học sâu phát hiện đối tượng người dựa trên kết hợp ảnh màu và ảnh nhiệt. Đề xuất sử dụng độ nhiễu trên ảnh màu và cường độ nhiệt trên ảnh nhiệt để xây dựng trọng số kết hợp và khảo sát các mức kết hợp, so sánh kết quả với một số thuật toán phổ biến. - Nghiên cứu thuật toán học sâu theo vết đối tượng người dựa trên kết hợp ảnh màu và ảnh nhiệt. Ứng dụng phương pháp xây dựng trọng số kết hợp dựa trên độ nhiễu và cường độ nhiệt để áp dụng trong các bài toán theo vết đối tượng, thử nghiệm và so sánh kết quả với một số thuật toán phổ biến. 4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu Luận án có những đóng góp về mặt khoa học và thực tiễn như sau: a) Về ý nghĩa khoa học Điều kiện thiếu sáng là một vấn đề lớn trong bài toán phát hiện và theo vết đối tượng người. Việc kết hợp thông tin từ ảnh màu và ảnh nhiệt trong luận án giúp bù trừ điểm mạnh yếu của hai loại nguồn ảnh này và giải quyết tốt hơn các bài toán phát 6