Tóm tắt Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người
lượt xem 4
download
Đề tài "Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người" nhằm mục đích nghiên cứu tổng quan về vai trò của ảnh nhiệt trong phát hiện và theo vết đối tượng người, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói chung và các thuật toán kết hợp ảnh màu và ảnh nhiệt để phát hiện và theo vết đối tượng người nói riêng. Đề xuất các thuật toán có khối lượng tính toán, tốc độ phù hợp để tiếp tục thử nghiệm kết hợp ảnh màu và ảnh nhiệt.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tóm tắt Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI Ngành: Mạng máy tính và truyền thông dữ liệu Mã số: 9480102 TÓM TẮT LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU Hà Nội – 2023
- Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS. Trần Quang Đức Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội Vào hồi …….. giờ, ngày ….. tháng ….. năm ……… Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội 2. Thư viện Quốc gia Việt Nam
- MỞ ĐẦU 1.1. Bối cảnh nghiên cứu Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều lĩnh vực như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn; giám sát các vị trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công nghiệp, giám sát hoạt động, phát hiện các nguy hiểm, cháy, nổ…; trong an ninh, quốc phòng, giám sát, phát hiện xâm nhập bất hợp pháp biên giới và có thể sử dụng để điều khiển các loại vũ khí, hỏa lực. Các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mô tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên, khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở nên kém đi. Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bước sóng dài (8÷14 µm), gọi tắt là ảnh nhiệt, không bị ảnh hưởng trong các trường hợp này [1]. Mặt khác, các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí không cao. Vì vậy, các hướng nghiên cứu kết hợp ảnh màu với ảnh nhiệt bắt đầu được chú ý thời gian gần đây. Đối với các thuật toán phát hiện đối tượng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một giai đoạn hoặc kiến trúc hai giai đoạn. - Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển từ thuật toán R-CNN như: Fast R-CNN [4], Faster R- CNN [5] và Libra R-CNN [6]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như Cascade R-CNN [7]. - Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập kết nối toàn phần (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time). Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến như YOLO v1, v2, v3, v4 [8], [9], [10], [11]; SSD [12] hay RetinaNet [13]. - Đối với các thuật toán theo vết đối tượng được phát triển theo hai hướng tiếp cận: (i) Xác định vị trí đối tượng tại khung hình tiếp theo thông 1
- qua đối sánh biểu diễn đối tượng (trực tiếp hoặc đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) huấn luyện một tập các bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối tượng vị trí của đối tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại khung hình tiếp theo. Sử dụng mạng nơ ron tích chập được huấn luyện với các đối tượng ở nhiều ngữ cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa dạng của đối tượng; phần nào giải quyết được bài toán nền lộn xộn (clutter background) và đối tượng bị che khuất một phần (occlusion). Tuy nhiên, khi điều kiện chiếu sáng kém đi thì các thuật toán phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng cao hiệu năng. - Các thuật toán phát hiện đối tượng kết hợp ảnh màu và ảnh nhiệt được phát triển bằng cách từ các mô hình đã được huấn luyện với tập dữ liệu lớn (như COCO), thực hiện huấn luyện chuyển giao (transfer learning) với tập dữ liệu có các cặp ảnh màu - ảnh nhiệt có góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết hợp với nhau theo các mức sau: + Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images). + Kết hợp ở mức đặc trưng. + Kết hợp ở mức kết quả. Một số tác giả công bố một số kỹ thuật xây dựng trọng số kết hợp như: Thuật toán CIAN (Cross-Modality Interactive Attention Network [28]; thuật toán IAF R-CNN (Illumination Aware Fusion R- CNN) [24]; Zhiwei Cao công bố trong [29] một thuật toán kết hợp sử dụng trọng số được xây dựng thông qua một lớp MCFF (Multispectral channel feature fusion) được huấn luyện tối ưu kết quả kết hợp ảnh màu và ảnh nhiệt. Tuy đã nhận thấy độ chiếu sáng có ảnh hưởng lớn đến đóng góp của ảnh màu và ảnh màu khi kết hợp, nhưng chưa có nghiên cứu đầy đủ về các tác nhân ảnh hưởng và xây dựng trọng số dựa trên các tác nhân đó. 2
- - Đối với các thuật toán theo vết đối tượng kết hợp ảnh màu với ảnh nhiệt thì tùy thuộc vào cấu trúc của thuật toán có thể kết hợp ở nhiều mức tương tự như với các thuật toán phát hiện đối tượng [28]. Tuy nhiên, do đối với bài toán theo vết đối tượng chỉ có thông tin về đối tượng ở khung hình đầu tiên nên chưa chưa có công bố nào nghiên cứu về trọng số khi kết hợp ảnh màu và ảnh nhiệt. 1.2. Những thách thức và mục tiêu nghiên cứu Từ bối cảnh nghiên cứu đã phân tích ở trên, có thể nhận thấy các kỹ thuật phát hiện và theo vết đối tượng ứng dụng phương pháp học sâu dựa trên kết hợp ảnh màu và ảnh nhiệt có thể nâng cao đáng kể hiệu năng. Tuy nhiên, để có thể áp dụng trong các hệ thống điện toán biên hay các hệ thống rô bốt, điều khiển xử lý thời gian thực vẫn còn tồn tại một số thách thức như sau: - Thách thức liên quan đến độ chính xác và tốc độ xử lý. - Thách thức liên quan đến phương án kết hợp ảnh màu và ảnh nhiệt. - Thách thức liên quan đến xây dựng tập dữ liệu và đánh dấu dữ liệu để huấn luyện trọng số kết hợp. Từ những thách thức trên, mục tiêu nghiên cứu của đề tài là nghiên cứu các kỹ thuật phát hiện và bám bắt đối tượng ứng dụng phương pháp học sâu dựa trên ảnh màu và ảnh nhiệt, có tốc độ phù hợp với các ứng dụng điện toán biên, xử lý thời gian thực và độ chính xác được nâng cao. 1.3. Đối tượng và phạm vi nghiên cứu Đối tượng và phạm vi nghiên cứu chính của luận án như sau: - Nghiên cứu tổng quan, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói chung và các thuật toán kết hợp ảnh màu và ảnh nhiệt nói riêng. Đề xuất các thuật toán có khối lượng tính toán, tốc độ phù hợp với bài toán phát hiện và theo vết đối tượng trong điện toán biên. - Nghiên cứu ảnh hưởng của điều kiện chiếu sáng đến chất lượng của ảnh màu và ảnh nhiệt, hiệu năng của các thuật toán phát hiện, theo vết đối tượng trên ảnh. Đề xuất và minh chứng hiệu quả của 3
- các độ đo trên ảnh để xác định được điều kiện chiếu sáng của môi trường và nâng cao hiệu năng phát hiện và theo vết đối tượng. - Nghiên cứu thuật toán học sâu phát hiện đối tượng người dựa trên kết hợp ảnh màu và ảnh nhiệt. Đề xuất sử dụng độ nhiễu trên ảnh màu và cường độ nhiệt trên ảnh nhiệt để xây dựng trọng số kết hợp và khảo sát các mức kết hợp, so sánh kết quả với một số thuật toán phổ biến. - Nghiên cứu thuật toán học sâu theo vết đối tượng dựa trên kết hợp ảnh màu và ảnh nhiệt. Ứng dụng phương pháp xây dựng trọng số kết hợp dựa trên độ nhiễu để áp dụng trong các bài toán theo vết đối tượng, thử nghiệm và so sánh kết quả với một số thuật toán phổ biến. 1.4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu Luận án có những đóng góp về mặt khoa học và thực tiễn như sau: a) Về ý nghĩa khoa học Điều kiện thiếu sáng là một vấn đề lớn trong bài toán phát hiện và theo vết đối tượng người. Việc kết hợp thông tin từ ảnh màu và ảnh nhiệt trong luận án giúp bù trừ điểm mạnh yếu của hai loại nguồn ảnh này và giải quyết tốt hơn các bài toán phát hiện, theo vết đối tượng nói riêng và các bài toán khác trong lĩnh vực thị giác máy tính nói chung. Việc kết hợp hai hay nhiều nguồn thông tin thế nào cho hiệu quả, bổ trợ cho nhau là một bài toán không đơn giản. Nếu giải pháp có tính tổng quát thì bài toán có thể mở rộng cho các nguồn dữ liệu và bài toán tương đồng khác. Những đóng góp của luận án được thể hiện trong 04 công bố, trong đó có 01 bài báo trên tạp chí thuộc danh mục ISI; 01 bài báo trên tạp chí được Hội đồng chức danh giáo sư chuyên ngành tính điểm; 02 báo cáo tại các hội nghị chuyên ngành trong nước và quốc tế. Đối với cộng đồng khoa học, kết quả của luận án sẽ cung cấp thêm nguồn tài liệu tham khảo hữu ích, phục vụ cho việc nghiên cứu trong lĩnh vực có liên quan. Ý nghĩa khoa học của đề tài được mô tả tại phần Mở đầu và được nhấn mạnh trong phần Kết luận của luận án. b) Ý nghĩa thực tiễn: 4
- Các kết quả nghiên cứu, thử nghiệm và các thuật toán phát hiện và theo vết đối tượng sử dụng đa nguồn ảnh đã được xây dựng trong khuôn khổ nghiên cứu của luận án có thể ứng dụng được trong các hệ thống giám sát sử dụng điện toán biên như các hệ thống: Giám sát an ninh biên giới; giám sát an toàn, an ninh trong nhà máy sản xuất; giám sát giao thông thông minh… 1.5. Điểm mới của luận án - Phương pháp xây dựng trọng số kết hợp ảnh màu và ảnh nhiệt sử dụng độ nhiễu trên ảnh màu và cường độ nhiệt trên ảnh nhiệt. - Thuật toán học sâu phát hiện đối tượng người sử dụng kết hợp có trọng số đa nguồn ảnh ở mức kết quả cho hiệu năng tốt so với các thuật toán phổ biến. - Thuật toán học sâu theo vết đối tượng sử dụng kết hợp có trọng số đa nguồn ảnh ở mức đặc trưng sau ước lượng IoU cho hiệu năng tốt so với các thuật toán phổ biến. 1.6. Cấu trúc của luận án Từ những nội dung NCS đã thực hiện trong quá trình nghiên cứu, kết quả đã được trình bày trong luận án theo cấu trúc sau. - Chương 1. Tổng quan về các vấn đề nghiên cứu - Chương 2. Phương pháp xác định trọng số trong kết hợp ảnh màu và ảnh nhiệt - Chương 3. Phương pháp phát hiện và theo vết đối tượng với độ nhiễu và cường độ nhiệt. Cuối cùng là Kết luận và phương hướng phát triển. 5
- Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU 1.1. Vai trò của ảnh nhiệt trong bài toán phát hiện và theo vết đối tượng Như ta đã biết, ảnh màu được tạo bởi tín hiệu bước sóng khả kiến (0,4÷0,7) μm có thể mô tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng. Tuy nhiên, khi điều kiện chiếu sáng của môi trường kém đi, ảnh màu không cung cấp đủ thông tin để phát hiện và theo vết đối tượng 1.1.1.Khái quát về tín hiệu hồng ngoại Do hiệu ứng cửa sổ không khí (atmospheric windows) nên có một số bước sóng bị hấp thụ bởi khí và độ ẩm trong không khí. Chính vì vậy, chỉ có ba dải bước sóng hay được sử dụng là từ (0,7 ÷ 1,4) µm, (3 ÷ 5) µm và (8 ÷14) µm [30]. 1.1.2.Khả năng mô tả đối tượng của các tín hiệu hồng ngoại Hầu hết các đối tượng trên bề mặt trái đất đều có nhiệt độ thấp hơn bề mặt của mặt trời nên bước sóng tại đó các vật có cường độ bức xạ lớn nhất (bước sóng đỉnh) ngắn hơn. Với các đối tượng có nhiệt độ (-10 ÷ 50) oC (263 ÷ 323 K) sẽ có bước sóng đỉnh vào khoảng (9 ÷ 11) μm. 1.2. Bài toán phát hiện đối tượng dựa trên kết hợp ảnh màu và ảnh nhiệt 1.2.1.Phân tích bài toán Gần đây, hầu hết các phương pháp phát hiện đối tượng đều dựa trên học sâu và mạng nơron tích chập (Convolutional Neural Network) [6]. Qua đó, sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa dạng của đối tượng; phần nào giải quyết được bài toán nền lộn xộn (clutter background) và đối tượng bị che khuất một phần (occlusion). Tuy nhiên, khi điều kiện chiếu sáng (lighting condition) kém đi thì các thuật toán phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng cao hiệu năng. 6
- 1.2.2.Bộ dữ liệu thử nghiệm Bộ ảnh KAIST do Hwang và các đồng nghiệp xây dựng là một bộ ảnh thử nghiệm phát hiện đối tượng người gồm cả ảnh màu và ảnh nhiệt [34]. Trong đó bao gồm 95,328 cặp ảnh màu - ảnh nhiệt có góc nhìn đã được quy đổi tương đương về góc nhìn, đã được đánh dấu đối tượng. 1.2.3.Độ đo hiệu năng Đối với bộ dữ liệu KAIST, cũng như các bộ dữ liệu phát hiện người khác thường sử dụng chỉ số LAMR, được tính dựa trên đường cong mr (Miss Rate) - FPPI (False Positive per Image) (Hình 1.5). Trong đó mr và FPPI được tính bằng công thức 1.6, 1.7 như sau. 𝑎𝑐𝑐𝑇𝑁 𝑎𝑐𝑐𝑇𝑃 𝑀𝑅 = =1− (1.1) 𝑛𝑝𝑜𝑠 𝑛𝑝𝑜𝑠 𝑎𝑐𝑐𝐹𝑃 𝐹𝑃𝑃𝐼 = (1.2) 𝑛𝐼𝑚𝑎𝑔𝑒𝑠 Trong đó, accTN là số lượng tích lũy đối tượng đúng bị bỏ qua, accTP là số lượng tích lũy đối tượng đúng được phát hiện đúng, npos là số tượng tích lũy đối tượng và nImages là số lượng ảnh trong bộ dữ liệu thử nghiệm đã được duyệt qua. LAMR được tính bằng tổng trên miền Logarit với 𝐹𝑃𝑃𝐼 ∈ [10 , 10 ]. 1.2.4.Các nghiên cứu có liên quan 1.2.4.1. Các thuật toán sử dụng ảnh màu và ảnh nhiệt để nâng cao hiệu năng phát hiện đối tượng a) Các thuật toán kết hợp theo kiến trúc hai giai đoạn b) Các thuật toán theo kiến trúc một giai đoạn 1.2.4.2. Các thuật toán kết hợp ảnh màu và ảnh nhiệt để tạo ảnh trộn a) Multi-resolution Singular Value Decomposition (MSVD) b) Two-scale image fusion of visible and infrared images using saliency detection 7
- c) Thuật toán Dense Fusion d) Thuật toán Fusion GAN 1.3. Bài toán theo vết đối tượng dựa trên đa nguồn ảnh 1.3.1.Phân tích bài toán Với các thuật toán học sâu, trong đó, pha huấn luyện được thực hiện huấn luyện trước (offline) với cơ sở dữ liệu lớn. Quá trình theo vết đối tượng sẽ sử dụng mạng nơ ron tích chập đã được huấn luyện kết hợp với đối tượng đã được xác định trong khung hình trước và khung hình hiện tại tạo thành đặc trưng; sau khi thực hiện phép tương quan sẽ cho vị trí của đối tượng trong khung hình hiện tại (Hình 1.20). z 127x127x3 6x6x128 * x 22x22x128 255x255x3 Hình 1.1. Theo vết đối tượng bằng phương pháp đối sánh sử dụng mạng nơ ron học sâu 1.3.2.Bộ dữ liệu thử nghiệm Bộ dữ liệu VOT RGB-T là bộ dữ liệu phổ biến nhất để đánh giá hiệu năng các thuật toán theo vết đối tượng, trong đó bao gồm 20083 cặp ảnh màu và ảnh nhiệt có cùng một góc nhìn. Trong đó, có 43 chuỗi vào ban ngày, 17 chuỗi vào ban đêm; có 2798 khung hình đối tượng theo vết bị che khuất (occlusion); không có khung hình có độ chiếu sáng thay đổi; 17751 khung hình có chuyển động thay đổi; 10927 khung hình có đối tượng kích thước thay đổi; 2019 khung hình có camera chuyển động. 8
- 1.3.3.Độ đo hiệu năng Trong cuộc thi VOT, có 03 độ đo chủ yếu được dùng để phân tích hiệu năng của thuật toán theo vết đối tượng là: (i) Độ chính xác (A - Accuracy); (ii) Độ ổn định (R - Robustness); (iii) Độ bao phủ trung bình kỳ vọng (EAO - Expected Average Overlap). 1.3.4.Các nghiên cứu có liên quan 1.3.4.1. Các thuật toán theo vết đối tượng có hiệu năng cao 1.3.4.2. Các thuật toán theo vết đối tượng kết hợp ảnh màu và ảnh nhiệt Một số thuật toán theo vết đối tượng sử dụng kết hợp ảnh màu và ảnh nhiệt có hiệu năng cao như CISRDCF, FSRPN, SiamDW_T hay mfDiMP chủ yếu được phát triển từ các thuật toán theo vết đối tượng có hiệu năng cao. Thuật toán CISRDCF [48] được phát triển từ thuật toán theo vết đối tượng trên ảnh màu CSRDCF, trong đó sử dụng 31 kênh HoG (9 theo 9 hướng không nhạy với độ tương phản (contrast insensitive), 18 kênh nhạy với độ tương phản (contrast sensitive) và 4 kênh tổng hợp năng lượng theo 4 hướng; 10 kênh Colornames và 01 kênh mức xám được cộng lại để huấn luyện trực tuyến đối tượng ở khung hình trước để phát hiện đối tượng ở khung hình sau. Thuật toán FSRPN được phát triển từ thuật toán SiamRPN++ [49] theo vết đối tượng trên ảnh màu, trong đó sử dụng mạng lõi ResNet-50. Thuật toán SiamDW_T được phát triển dựa trên thuật toán SiamDW_ST theo vết đối tượng trên ảnh màu và được mở rộng bằng việc kết hợp giữa hai kênh ở mức sau khi có hai bộ các vị trí được phát hiện trong giai đoạn phân loại đối tượng của thuật toán. Thuật toán 9
- mfDiMP [50] có phương pháp kết hợp tương tự như thuật toán SiamDW_T. 1.4. Kết luận chương 1 Để phát triển các thuật toán phát hiện và theo vết đối tượng có hiệu năng tốt và tốc độ phù hợp trong điện toán biên có thể lựa chọn thuật toán họ YOLO để phát hiện đối tượng và thuật toán SiamDW_T để theo vết đối tượng. 10
- Chương 2. PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG KẾT HỢP ẢNH MÀU VÀ ẢNH NHIỆT 2.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến hiệu năng phát hiện đối tượng Như vậy, vào ban đêm ảnh nhiệt cho hiệu năng phát hiện đối tượng tốt hơn, trong khi đó ban ngày ảnh màu cho hiệu năng phát hiện đối tượng tốt hơn. Tiếp tục thử nghiệm trên từng tập dữ liệu trong bộ dữ liệu dùng để huấn luyện (từ set06÷set11) (cụ thể tại Bảng 2.1) cho thấy đối với một số tập dữ liệu có cường độ nhiệt (giá trị độ sáng trung bình của ảnh nhiệt mô tả cường độ nhiệt) cao, hiệu năng phát hiện đối tượng trên ảnh nhiệt có xu hướng giảm xuống. 2.2. Các phương pháp để ước lượng độ chiếu sáng phổ biến Một số phương pháp phổ biến được tính thông qua độ sáng của ảnh màu là Range và Key [51], là các chỉ số thường được dùng để xác định độ chiếu sáng của môi trường để điều chỉnh tông màu (tone) của ảnh phù hợp với điều kiện chiếu sáng và đặc tả được đối tượng. 2.3. Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng Khi khảo sát ta có thể thấy một số trường hợp như sau: Vào buổi tối khi có đèn chiếu sáng, nhưng không chiếu sáng vào khu vực đối tượng, mặc dù độ sáng của ảnh cao, nhưng ảnh màu vẫn có ít thông tin để phát hiện tốt đối tượng; hoặc trong trường hợp ban ngày, nhưng ở các vị trí trong bóng râm, cường độ sáng của ảnh thấp, nhưng ảnh màu vẫn có đủ thông tin để phát hiện tốt đối tượng (Hình 2.5). Do tính chất của phép biến đổi tiểu ba là kích thước của các hệ số giảm nhanh nên ta có thể ước lượng nhiễu với một số lượng bước giới hạn J, dựa trên trung bình độ lệch tuyệt đối (MAD = Mean Absolute Deviation) của các hệ số tần số cao W bằng công thức 2.4. 𝑀𝐴𝐷(𝑊) 𝜎 = (2.1) 0,6745 11
- Để so sánh với khả năng ước lượng độ chiếu sáng của các chỉ số Key, Range và độ nhiễu, từng cặp tập dữ liệu có cùng ngữ cảnh (trong trường học, set00 – ngày, set03 - đêm; trên đường, set01 - ngày, set04 - đêm; trong phố, set02 - ngày, set05 - đêm) sẽ được tính hàm mật độ xác xuất (probability density function) đối với từng chỉ số Key, Range và độ nhiễu (cụ thể tại Hình 2.7). Kết quả cho thấy các chỉ số Key và Range có nhiều vùng chồng lấn khi xác định ngày-đêm, trong khi chỉ số độ nhiễu cho phép phân biệt rõ ràng ngày - đêm trong từng bộ dữ liệu. Hình 2.1. Hàm phân bố xác xuất của các chỉ số Key (hình a, b, c); Range (hình d, e, f) và độ nhiễu (hình g, h, i). Màu đỏ nét liền biểu thị số liệu ban ngày, màu xanh nét đứt biểu thị ban đêm 12
- 2.4. Đánh giá chất lượng phát hiện và theo vết đối tượng trên ảnh nhiệt Kết quả cho thấy tương quan đối với tập dữ liệu ngày là -0,789 và tập dữ liệu đêm là -0,899 là giá trị tương quan cao. Như vậy, ảnh nhiệt có cường độ sáng cao sẽ làm cho tương quan khu vực của đối tượng người có độ tương phản thấp. Hình 2.2. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản của đối tượng với nền 2.5. Phương pháp xác định trọng số kết hợp đa nguồn ảnh 2.5.1.Phương pháp xác định trọng số kết hợp đa nguồn ảnh trong bài toán phát hiện người Để xác định trọng số, thuật toán sẽ có 02 mô đun để tính độ nhiễu và cường độ nhiệt đối với từng cặp ảnh. Hàm tính trọng số đối với từng cặp ảnh i như công thức 2.10 và công thức 2.11, với 𝑦 (𝑡 , 𝑝) là hàm vector. 𝑦 (𝑡 , 𝑝) = 𝛼 𝑒 () + 𝛼 𝑒 () +1 (2.2) 13
- 0 𝑦 (𝑡 , 𝑝) < 0 𝑤 = 𝑤 (𝑡 , 𝑝) 0 ≤ 𝑦 (𝑡 , 𝑝) < 1 (2.3) 1 𝑦 (𝑡 , 𝑝) > 1 Trong đó, đối với từng cặp ảnh, 𝑤 = 𝑤 là trọng số kết hợp đối với ảnh màu; 𝑤 = 1 − 𝑤 là trọng số kết hợp đối với ảnh nhiệt. 𝑡 bao gồm {𝜎 (𝑖), 𝐿 (𝑖)} , 𝜎 (𝑖) ∈ [0,1] là độ nhiễu trên ảnh màu, được quy về vùng [0,1], 𝐿 (𝑖) ∈ [0,1] là cường độ nhiệt trên ảnh nhiệt, được quy về vùng [0,1]. 𝑝 là vector bao gồm các tham số 𝛼 , 𝛽 , 𝛼 , 𝛽 , vector này sẽ được ước lượng dựa trên tập dữ liệu huấn luyện. Vector 𝑝 sẽ được xác định dựa trên thuật toán Levenberg- Marquardt (LM) [70], một thuật toán ước lượng đường cong (curve- fitting) dựa trên tối thiểu hóa bình phương sai số giữa dữ liệu 𝑦 và ước lượng 𝑦 (𝑡 , 𝑝). Để xây dựng được tập dữ liệu {𝑦 }, cần phải có trọng số kết hợp của từng cặp ảnh màu - ảnh nhiệt i. Để xây dựng được tập dữ liệu này cần phải khảo sát dựa trên các tập dữ liệu huấn luyện. Trong bộ dữ liệu huấn luyện của KAIST có 06 tập huấn luyện (set00÷set05), sẽ được chia thành các tập con sao cho có độ lệch chuẩn về độ nhiễu không quá 0,05 và độ lệch chuẩn về cường độ nhiệt không quá 5. Sau đó thử nghiệm kết hợp kết quả phát hiện đối tượng ở mức ScoreFusion (nhân trọng số với điểm tin cậy, rồi ghép lại đưa chung vào một thuật toán NMS) và đưa ra chỉ số LAMR. Trọng số ở kênh ảnh màu được đặt theo bước 0,05 với giá trị từ 0÷1,0. 14
- 2.5.2.Phương pháp xác định trọng số kết hợp đa nguồn ảnh trong bài toán theo vết đối tượng Từ ý tưởng sử dụng độ nhiễu và độ tương phản để xây dựng trọng số kết hợp đa nguồn ảnh có có thể tính trọng số 𝜔 = 𝜔 là trọng số của nhánh ảnh màu thông qua nhiễu độ nhiễu của ảnh màu 𝜎 ∈ [0,1] và chất lượng của mô tả đối tượng trong ảnh nhiệt thể hiện bằng độ tương phản Weber của đối tượng với nền được chuẩn hóa nằm trong dải [0,1]. 𝜔 = 𝛼 𝑒 + 𝛼 𝑒 +1 (2.4) 15
- Chương 3. PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT 3.1. Các kỹ thuật nền tảng 3.1.1.Các thuật toán YOLO 3.1.2.Thuật toán SiamDW_ST 3.2. Thuật toán kết hợp đa nguồn ảnh ở mức điểm ảnh Để tạo ra ảnh trộn có khả năng quan sát tốt và có lượng tin lớn từ ảnh màu và ảnh nhiệt, trong luận án sử dụng thuật toán tương tự như thuật toán Two-scale image fusion of visible and infrared images using saliency detection [25]. Trong đó ảnh nhiệt và ảnh màu được phân tích thành thành phần cơ sở và thành phần chi tiết. Thành phần cơ sở được cộng trung bình, trong khi đó thành phần chi tiết được cộng bằng trọng số 𝜔 = 𝜔 và 𝜔 = (1 − 𝜔 ) , 𝜔 được tính từ công thức 2.10 và 2.11. Bảng 3.1. So sánh hiệu năng của một số thuật toán tạo ảnh trộn từ ảnh màu và ảnh nhiệt Phương Two-scale PP đề MSVD DenseFusion FusionGAN pháp w/Sal xuất LAMR 20,91 17,70 19,92 17,44 15,52 16
- 3.3. Thuật toán kết hợp thời gian thực ở mức kết quả 3.3.1.Mô tả thuật toán Hình 3.1. Cấu trúc của thuật toán phát hiện đối tượng 3.3.2.Đánh giá kết quả Bảng 3.2. Kết quả so sánh về độ chính xác và tốc độ các thuật toán theo vết đối tượng Không Phương Ảnh Ảnh ACF+ PP đề Choi Park trọng pháp màu nhiệt T+THOG xuất số LAMR 43,26 50,52 54,40 36,56 47,31 31,36 34,11 (%) Tốc độ 0,02 0,02 - 0,05 2,73 0,58 0,052 (s) 17
- 3.4. Thuật toán phát hiện đối tượng người một giai đoạn sử dụng độ nhiễu và cường độ nhiệt 3.4.1.Mô tả thuật toán Hình 3.2. Sơ đồ kết hợp của thuật toán NAMPD Lớp kết hợp và hậu xử lý được cải tiến, bổ sung thuật toán Distance Intersection over Union (DIoU) thay cho IoU trong loại bỏ các khung dự đoán đối tượng dư thửa tại mỗi kênh và để ghép đúng khung bao dự đoán đối tượng giữa hai kênh sử dụng dụng thuật toán Hungary (Hungarian Algorithm) [59]. Thuật toán xử lý các khung hình dư thừa áp dụng thêm Distance Intersection over Union (DIoU), gọi là DIoU-NMS được mô tả như sau. Đối với mỗi khung hình sẽ có hai tập 𝐵 và 𝐵 là khung bao đối tượng dự đoán của kênh ảnh màu và kênh ảnh nhiệt. Đối với mỗi tập khung bao dự đoán này cần xác định các nhóm khung bao có thể mô tả cùng một đối tượng. 18
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kinh tế: An ninh tài chính cho thị trường tài chính Việt Nam trong điều kiện hội nhập kinh tế quốc tế
25 p | 312 | 51
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Chiến lược Marketing đối với hàng mây tre đan xuất khẩu Việt Nam
27 p | 187 | 18
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Thúc đẩy tăng trưởng bền vững về kinh tế ở vùng Đông Nam Bộ đến năm 2030
27 p | 212 | 17
-
Tóm tắt Luận án Tiến sĩ Luật học: Hợp đồng dịch vụ logistics theo pháp luật Việt Nam hiện nay
27 p | 279 | 17
-
Tóm tắt Luận án Tiến sĩ Y học: Nghiên cứu điều kiện lao động, sức khoẻ và bệnh tật của thuyền viên tàu viễn dương tại 2 công ty vận tải biển Việt Nam năm 2011 - 2012
14 p | 272 | 16
-
Tóm tắt Luận án Tiến sĩ Triết học: Giáo dục Tư tưởng Hồ Chí Minh về đạo đức cho sinh viên trường Đại học Cảnh sát nhân dân hiện nay
26 p | 156 | 12
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu tính toán ứng suất trong nền đất các công trình giao thông
28 p | 223 | 11
-
Tóm tắt Luận án Tiến sĩ Kinh tế Quốc tế: Rào cản phi thuế quan của Hoa Kỳ đối với xuất khẩu hàng thủy sản Việt Nam
28 p | 183 | 9
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển kinh tế biển Kiên Giang trong tiến trình hội nhập kinh tế quốc tế
27 p | 61 | 8
-
Tóm tắt Luận án Tiến sĩ Xã hội học: Vai trò của các tổ chức chính trị xã hội cấp cơ sở trong việc đảm bảo an sinh xã hội cho cư dân nông thôn: Nghiên cứu trường hợp tại 2 xã
28 p | 151 | 8
-
Tóm tắt Luận án Tiến sĩ Luật học: Các tội xâm phạm tình dục trẻ em trên địa bàn miền Tây Nam bộ: Tình hình, nguyên nhân và phòng ngừa
27 p | 207 | 8
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phản ứng của nhà đầu tư với thông báo đăng ký giao dịch cổ phiếu của người nội bộ, người liên quan và cổ đông lớn nước ngoài nghiên cứu trên thị trường chứng khoán Việt Nam
32 p | 185 | 6
-
Tóm tắt Luận án Tiến sĩ Luật học: Quản lý nhà nước đối với giảng viên các trường Đại học công lập ở Việt Nam hiện nay
26 p | 137 | 5
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các yếu tố ảnh hưởng đến xuất khẩu đồ gỗ Việt Nam thông qua mô hình hấp dẫn thương mại
28 p | 21 | 4
-
Tóm tắt Luận án Tiến sĩ Ngôn ngữ học: Phương tiện biểu hiện nghĩa tình thái ở hành động hỏi tiếng Anh và tiếng Việt
27 p | 124 | 4
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cơ sở khoa học và khả năng di chuyển của tôm càng xanh (M. rosenbergii) áp dụng cho đường di cư qua đập Phước Hòa
27 p | 9 | 4
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các nhân tố ảnh hưởng đến cấu trúc kỳ hạn nợ phương pháp tiếp cận hồi quy phân vị và phân rã Oaxaca – Blinder
28 p | 28 | 3
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển sản xuất chè nguyên liệu bền vững trên địa bàn tỉnh Phú Thọ các nhân tố tác động đến việc công bố thông tin kế toán môi trường tại các doanh nghiệp nuôi trồng thủy sản Việt Nam
25 p | 173 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn