Phân vùng đối tượng trên video với visual saliency và optical flow

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

21
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong đề tài này, nhóm tác giả đề xuất một phương pháp mới cho việc phân vùng đối tượng trên video bằng việc dùng phát hiện vật thể nổi bật làm phương pháp phân vùng chính, cộng với việc sử dụng lan truyền mask bằng optical flow và nhận biết vật biến mất hay xuất hiện lại nhờ vào phương pháp phát hiện đối tượng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân vùng đối tượng trên video với visual saliency và optical flow

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học PHÂN VÙNG ĐỐI TƯỢNG TRÊN VIDEO VỚI VISUAL SALIENCY VÀ OPTICAL FLOW Nguyễn Toàn Anh*, Trình Xuân Sơn, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên hệ: ntanh@apcs.vn TÓM TẮT Phân vùng đối tượng trên video là một vấn đề có nhiều ứng dụng như video matting và tái tạo ba chiều. Tuy nhiên, chưa có quá nhiều sự quan tâm cho vấn đề này như là đối với những vấn đề như nhận dạng đối tượng và phân vùng ảnh. Trong đề tài này, nhóm tác giả đề xuất một phương pháp mới cho việc phân vùng đối tượng trên video bằng việc dùng phát hiện vật thể nổi bật làm phương pháp phân vùng chính, cộng với việc sử dụng lan truyền mask bằng opti- cal flow và nhận biết vật biến mất hay xuất hiện lại nhờ vào phương pháp phát hiện đối tượng. Hướng tiếp cận này tận dụng những phương pháp hiện đại nhất và có thể dễ dàng thay thế bằng những phương pháp mới hơn và tốt hơn. Những đánh giá về hiệu năng được thực hiện trên bộ dữ liệu DAVIS 2016 dành cho phân vùng đối tượng đơn dùng một mask đầu tiên cho thấy rằng hướng tiếp cận được đề xuất có thể so sánh với các phương pháp hiện đại trên cùng vấn đề này. Từ khóa: Phân vùng đối tượng video, visual saliency, nhận diện vật thể nổi bật, optical flow, nhận diện vật thể. VIDEO OBJECT SEGMENTATION WITH VISUAL SALIENCY AND OPTICAL FLOW Nguyen Toan Anh*, Trinh Xuan Son, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: ntanh@apcs.vn ABSTRACT Video object segmentation is a problem that has a variety of applications such as automatic video matting and 3D reconstruction. However, there is not much focus on the subject com- paring to problems like object recognition and image seg-mentation. In this thesis, the authors seek to propose a novel approach for doing video object segmentation using salient object de-tection as the main segmentation method, with mask propagation by optical flow and disap-pearance and reappearance detection using object detection. The approach takes advantage of state-of-the-art methods and can be easily adapted to newer and better methods. Evaluations performed on the DAVIS 2016 dataset for single-mask-object segmentation show that the proposed approach is comparable to state-of-the-art methods on the same problem. Keywords: Video object Segmentation, visual saliency, salient object detection, optical flow, object detection. TỔNG QUAN vụ của chúng ta là phân vùng đối tượng đó ra Phân vùng ngữ nghĩa là quá trình phân chia khỏi một chuỗi các bức ảnh (video), thay vì bức ảnh đầu vào thành những phân vùng chỉ là một tấm ảnh duy nhất. thuộc về bất kỳ lớp nào được định trước, biến Tính saliency của một vật thể được định một bức ảnh thành một dạng dễ phân tích nghĩa là khả năng vật thể đó nổi bật hơn hẳn hơn (Shapiro and Stockman, 2001). Phân những thứ lân cận (Achanta et al., 2009). Nói vùng đối tượng, một vấn đề về phân vùng theo một cách khác, nó có thể được hiểu như ngữ nghĩa, quan tâm về việc phân chia của là khả năng lôi kéo sự chú ý từ những người một hay nhiều vật thể trong bối cảnh trong quan sát. Với các hệ thống máy tính, nhận khi thông tin nền thường bị bỏ qua. Với phân biết visual saliency cho phép chúng ta sử vùng đối tượng trong video, chúng ta được dụng những phương pháp chọn lọc đối tượng cung cấp một đối tượng quan tâm và nhiệm nhanh chóng thay vì phải sử dụng các 129
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học phương pháp vét cạn để xử lý hình ảnh, ví dụ chỉ ra đối tượng nổi bật nhất trong khung nhưng việc quét toàn bộ các phần của một ảnh. Phương pháp này xét trên tổng thể bức bức ảnh để tìm thấy vùng hoặc đối tượng ảnh chứ không chú tâm vào phân vùng nào quan tâm (Itti and Koch, 2000) hơn. Hơn thế nữa, phương pháp phát hiện đối (Navalpakkam and Itti, 2005). Nhận diện vật tượng nổi bật không cần đến thông tin của thể nổi bật, vấn đề của việc nhận diện những mask, vì những gì chúng ta đang làm là tìm đối tượng nào, thay vì những vùng nào gây và chỉ ra những vật nổi bật nhất trong khung sự chú ý, còn đóng góp vào rất nhiều các ứng hình. Do đó, khi được áp dụng vào để phân dụng khác, một trong số đó là phân vùng vùng đối tượng trong video, đối tượng mà ta ảnh/video (Wang, Shen and Porikli, 2015). đang phân vùng có thể không phải là đối Phân vùng ngữ nghĩa có rất nhiều ứng dụng, tượng quan tâm thực sự. Vì vậy, đề xuất sử từ video matting tự động tới tái tạo ba chiều. dụng mask để giới hạn vùng tìm kiếm trước Thêm vào đó, cùng với sự phá triển của công khi phân vùng sử dụng visual saliency. nghệ thông tin, các nội dung đa phương tiện, Tuy nhiên, chỉ với một cái mask của khung đặc biệt là video, trở thành một nguồn dữ liệu hình đầu tiên của cả chuỗi là được cho, khổng lồ. Do đó, những ứng dụng của phân không có cách nào phương pháp phát hiện vùng ngữ nghĩa vào video đang dần trở nên đối tượng nổi bật có thể theo dấu đối tượng rất quan trọng. Việc nghiên cứu và phát triển quan tâm khi nó di chuyển trong cảnh. Do các thuật toán và phương pháp hiệu quả cho đó, ta cần có một phương pháp theo dõi để phân vùng video rất cần thiết. Tuy nhiên, cập nhật mask, và chúng tôi đề xuất sử dụng ngay cả với nguồn cầu tăng dần về việc phân optical flow cho nhiệm vụ này. vùng đối tượng trong video, vẫn có sự thiếu Chỉ còn có một vấn đề duy nhất với việc sử hụt về các thuật toán và phương pháp để giải dụng visual saliency như một phương pháp quyết chúng. Theo Perazzi và các đồng sự, phân vùng đối tượng trong video. Bởi vì có một khoảng cách về mặt hiệu năng giữa chúng ta phụ thuộc vào việc phát hiện đối các thuật toán về phân vùng video và những tượng nổi bật, kể cả khi ta xác định được phương pháp tương tự dùng để giải quyết vùng quan tâm, việc liệu rằng đối tượng thực phân vùng hình ảnh và nhận diện đối tượng. sự có nằm trong đó hay không lại hoàn toàn Vì vậy, những lý do đó thúc đẩy nhóm tác bị lờ đi. Điều này có thể dẫn tới việc phương giả tạo ra một phương pháp mới để thực hiện pháp sẽ phân vùng một đối tượng hoàn toàn việc phân vùng đối tượng trong video. Ý khác khi chúng ta mất dấu đối tượng. Để tưởng ban đầu là dùng phương pháp phát tránh điều này, chúng tôi đề xuất bổ sung hiện đối tượng nổi bật làm phương pháp thêm một cơ chế để phát hiện việc biến mất phân vùng bởi vì dựa trên quan sát cho thấy và xuất hiện lại của đối tượng. visual saliency có thể được thực hiện với tốc Chúng tôi thực hiện những thí nghiệm của độ và độ chính xác cao. mình trên bộ dữ liệu DAVIS 2016. Bộ dữ Do đó, mục tiêu của nhóm tác giả trong đề liệu DAVIS được tạo ra gần đây với mục tài này là đề xuất một hướng tiếp cận mới đích tập trung vào việc phân vùng đối tượng cho vấn đề phân vùng đối tượng trong video trong vid-eo. Bộ dữ liệu này chứa những sử dụng phương pháp phát hiện vật thể nổi chuỗi video với độ phân giải cao bao quát bật cho việc phân vùng. Hướng tiếp cận còn nhiều hoạt động cho bốn lớp được phân bổ sử dụng optical flow để truyền thông tin đều: người, động vật, xe cộ, đối tượng khác mask để giới hạn vùng tìm kiếm và phương (Perazzi et al., 2016). pháp phát hiện đối tượng nhằm nhận biết Bộ dữ liệu DAVIS bao gồm hai tập con. Tập việc vật thể biến mất và xuất hiện lại. Hướng DAVIS 2016 chú trọng vào việc hỗ trợ trong tiếp cận được đề xuất có thể tận dụng những việc tìm hiểu về phân vùng một đối tượng có phương pháp hiện đại và đủ linh hoạt để có dùng mask trong khi DAVIS 2017 tập trung thể thay vào những phương pháp mới hơn và vào phân vùng nhiều đối tượng có dùng tốt hơn. mask. Tập 2016 phù hợp cho mục đích của chúng tôi trong việc thử nghiệm các phương VẬT LIỆU VÀ PHƯƠNG PHÁP pháp đề xuất. Đầu tiên, nội dung của nó đủ Phát hiện đối tượng nổi bật giải quyết việc đa dạng để chắc rằng chúng tôi đã bao hàm 130
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học đủ các trường hợp khi thực hiện tập thí thay vì chỉ thông tin từ mask đầu tiên để cập nghiệm đầu tiên. Thứ hai, những thang đo đi nhật. kèm với tập DAVIS có ý nghĩa và được định Kết quả của sự thay đổi này là việc lan nghĩa rõ ràng để có thể đánh giá phương truyền mask tốt hơn vì thông tin mới được pháp của chúng tôi. Thứ ba, bởi vì tập thêm vào trong quá trình cập nhật ở mỗi DAVIS 2017 chưa có sẵn hoàn toàn, nên khó khung hình, giảm bớt cả nhiễu lẫn mất mát. để chúng tôi đánh giá phương pháp của mình Tuy nhiên, việc sử dụng kết quả phân vùng bằng các thang đo về lượng. Vì thế, DAVIS để cập nhật dẫn đến một vấn đề khác. Nếu 2016 là lựa chọn cho việc tìm hiểu của chúng kết quả phân vùng cho khung hình đó tệ, cái tôi. mask được cập nhật cũng sẽ tệ theo, và điều Để thực hiện việc theo dõi đối tượng và lan đó ảnh hưởng xấu tới việc phân vùng khung truyền mask cho phương pháp, chúng tôi tiến ảnh tiếp theo. hành thí nghiệm sử dụng EpicFlow để tạo ra Để tránh tình huống nguy hiểm này, chúng các optical flow giữa các cặp khung hình liên tôi đề xuất áp dụng một chặn dưới trên kích tiếp trong một chuỗi và sử dụng những kết thước của bounding box được tạo ra từ mask. quả đó để cập nhật mask. Sử dụng optical Lý do là kết quả phân vùng tệ chỉ khiến cho flow, chúng tôi có thể lan truyền thông tin các bounding box nhỏ đi, không to lên. Đây mask. Tuy nhiên, có ba vấn đề chính với là bởi vì chúng tôi sử dụng bounding box từ phương pháp cập nhật mask này: mask bị giới hạn vùng quan tâm cho việc • Vì chỉ có mask đầu tiên cho mỗi chuỗi ảnh phân vùng và kết quả phân vùng chỉ có thể là có sẵn, không có đủ thông tin để có thể cập lớn ngang ngửa bounding box. Dựa vào hai nhật mask hiệu quả. Nói cách khác, nhiễu và heuristic sau, chúng tôi đề xuất cách để xác mất mát do thiếu thông tin mới ảnh hưởng tới định chặn dưới: quá trình cập nhật. • Phép hợp giữa mask và kết quả phân vùng • Thông tin sẽ mất rất nhanh khi đối tượng cho một khung hình khi được sử dụng cùng trong cảnh bị biến dạng. với optical flow cho ra kết quả theo dõi tốt • Optical flow trở nên không hữu dụng khi hơn. vật bị che khuất hay biến mất. • Khi đối tượng quan tâm trong cảnh thay đổi Hầu hết các vấn đề chung quy là quá trình kích thước của nó, kích thước bé nhất của đối cập nhật mask chỉ có thông tin cũ từ mask tượng đó không bé hơn 20% kích thước khi đầu tiên để làm việc. Do đó, chúng tôi sử nó xuất hiện lần đầu tiên. dụng kết quả phân vùng tại mỗi khung hình 60 40 20 0 0.0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0 -20 -40 -60 -80 -100 -120 True positive ratio >= 0.5 True positive ratio < 0.5 Hình 1. Tỷ lệ True positive cho các tỷ lệ diện tích đối tượng trên vùng bounding box khác nhau 131
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Heuristic thứ hai có từ một thí nghiệm mà đề xuất, như có thể thấy ở Hình 2 gồm ba trong đó chúng tôi lấy ngẫu nhiên 1.000 thành phần khác nhau: mảnh ảnh từ tập DAVIS 2016 và thực hiện  Mô-đun phân vùng: chịu trách nhiệm phân phân vùng. Kết quả phân vùng sau đó được vùng đối tượng ra khỏi cảnh. đánh giá. Hình dung trực quan về kết quả có  Mô-đun optical flow: chịu trách nhiệm lan thể quan sát ở Hình 1, nó diễn tả rằng những truyền thông tin từ mask trong chuỗi, giúp kết quả tốt hầu như có tỉ lệ đối tượng trên tạo mask mới và bounding box mới. vùng rơi vào trong đoạn [0.2, 0.7].  Mô-đun phát hiện đối tượng: Phát hiện đối Với những heuristic đó, chúng tôi chọn chặn tượng trong cảnh, chịu trách nhiệm trong dưới của kích thước bounding box của một việc theo dõi khi đối tượng biến mất hay xuất chuỗi ảnh là kích thước của bounding box hiện lại. đầu tiên của chuỗi. Cấu trúc cuối cùng được Hình 2. Cấu trúc cuối cùng cho phương pháp phân vùng đối tượng nổi bật trong video có sử dụng lan truyền mask và nhận diện sự xuất hiện lại KẾT QUẢ VÀ THẢO LUẬN Trên tập val của DAVIS 2016, phương pháp Những kết quả thí nghiệm được cho thấy của chúng tôi, kể cả có hoặc không có chức trong Bảng 1 và Bảng 2, ta có thể thấy rằng năng phát hiện vật thể biến mất hay xuất hiện mô hình cuối cùng của chúng tôi đạt được lại, có kết quả tương đương với phương pháp những kết quả tương đương OFL, kết quả VPN trong khi đó DHSNet lý tưởng có kết xếp thứ tư khi xét trên tập trainval của quả tốt hơn phương pháp ở vị trí thứ ba. DAVIS 2016 cho tới thời điểm tháng 7/2017. Bảng 1. So sánh kết quả với các phương pháp khác trên tập DAVIS 2016 trainval. Hạng chính thức tính tới tháng bảy năm 2017. Kết quả của chúng tôi được tô xanh lá (trường hợp lý tưởng) và xanh dương (phương pháp hiện tại). Model 1 và Model 2 lần lượt là phương pháp của chúng tôi trước và sau khi xét tới đối tượng biến mất và xuất hiện lại 𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇 Official Rank OSVOS N/A N/A N/A N/A N/A N/A N/A - MSK 0.803 0.935 0.089 0.758 0.882 0.095 0.189 1 Ideal 0.756 0.902 0.043 0.722 0.870 0.052 0.348 - VPN 0.750 0.901 0.093 0.724 0.842 0.136 0.300 2 Model2 0.719 0.842 0.085 0.680 0.800 0.091 0.382 - OFL 0.711 0.800 0.227 0.679 0.780 0.240 0.224 3 Model1 0.688 0.802 0.112 0.649 0.768 0.119 0.379 - BVS 0.665 0.764 0.260 0.656 0.774 0.236 0.317 4 132
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Bảng 2. So sánh kết quả với các phương pháp khác trên tập DAVIS 2016 val. Hạng chính thức tính tới tháng bảy năm 2017. Kết quả của chúng tôi được tô xanh lá (trường hợp lý tưởng) và xanh dương (phương pháp hiện tại). Model 1 và Model 2 lần lượt là phương pháp của chúng tôi trước và sau khi xét tới đối tượng biến mất và xuất hiện lại 𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇 Official Rank OSVOS 0.798 0.936 0.149 0.806 0.926 0.150 0.378 1 MSK 0.797 0.931 0.089 0.754 0.871 0.090 0.218 2 Ideal 0.760 0.900 0.050 0.722 0.860 0.050 0.343 - VPN 0.719 0.854 0.081 0.678 0.788 0.099 0.376 - Model2 0.702 0.823 0.124 0.655 0.690 0.144 0.324 3 OFL 0.697 0.825 0.079 0.660 0.765 0.084 0.379 - Model1 0.680 0.756 0.264 0.634 0.704 0.272 0.222 4 BVS 0.600 0.669 0.289 0.588 0.679 0.213 0.347 5 KẾT LUẬN VÀ ĐỀ NGHỊ Những kết quả từ thí nghiệm của nhóm tác Nhóm tác giả đề xuất phương pháp thực hiện giả đã cho thấy những hạn chế của phương phân vùng đối tượng trong video sử dụng pháp. Có hai vấn đề chủ yếu với phương phương pháp phát hiện đối tượng nổi bật, pháp được đề xuất: cùng với optical flow để giúp trong việc lan  Với các chuỗi ảnh mà dễ bị che khuất, truyền mask và phương pháp phát hiện đối phương pháp không thể trả về kết quả nhất tượng để phát hiện khi đối tượng biến mất và quán. xuất hiện lại. Chúng tôi tiến hành nhiều thí  Sử dụng YOLO để phát hiện đối tượng biến nghiệm để tìm hiểu về tính khả thi của mất và xuất hiện lại có hạn chế bởi vì đối phương pháp và tìm ra những các để cải thiện tượng quan tâm cần phải được gán nhãn nhất những kết quả hiện tại. Kết quả lý tưởng nhất quán trong suốt chuỗi ảnh. được tạo ra từ việc kết hợp thông tin từ Cần phải tiến hành nhiều thí nghiệm hơn và ground-truth khích lệ chúng tôi tạo nên một trên nhiều bộ dữ liệu khác để giúp chúng ta mô hình tốt. Dù nó vẫn có nhiều hạn chế, xác định những vấn đề này, cũng như cải phương pháp được đề xuất có thể so sánh thiện những kết quả hiện tại. Hơn thế nữa, được với những phương pháp hiện đại nhất. những thí nghiệm được thực hiện trên cùng Kết luận, đề tài của chúng tôi cung cấp cái một bộ dữ liệu và nhiều bộ dữ liệu có thể nhìn sâu sắc vào việc áp dụng visual saliency cung cấp thêm những cái nhìn mới. như một phương pháp phân vùng ngữ nghĩa. TÀI LIỆU THAM KHẢO ACHANTA, R., HEMAMI, S., ESTRADA, F. AND SUSSTRUNK, S. (2009) “Frequency- tuned Salient Region Detection”, Computer Vision and Pattern Recognition, 2009. CVPR 2009, Miami Beach. ITTI, L. AND KOCH, C. (2000) “A saliency-based search mechanism for overt and covert shifts of visual attention”, Vision Research, vol. 40, pp. 1489–1506. NAVALPAKKAM, V. AND ITTI, L. (2005) “Modeling the influence of task on attention”, Vision Research, vol. 45, pp. 205–231. PERAZZI, F., PONT-TUSET, J., MCWILLIAMS, B., GOOL, L.V., GROSS, M. AND SORKINE-HORNUNG, A. (2016) “A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation”, Conference on Computer Vision and Pattern Recognition 2016, CVPR 2016, Honolulu. SHAPIRO, L.G. AND STOCKMAN, G.C. (2001) Computer Vision, Pearson. WANG, W., SHEN, J. AND PORIKLI, F. (2015) “Saliency-Aware Geodesic Video Object Segmentation”, Conference on Computer Vision and Pattern Recognition 2015, CVPR15, Honolulu. 133