Tái nhận dạng phương tiện giao thông sử dụng mạng kết hợp các đặc trưng học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

54
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết tập trung nghiên cứu về các đặc trưng được dùng biểu diễn phương tiện và các kết quả thử nghiệm sẽ được đánh giá trên bộ dữ liệu VeRi-776, đây là bộ dữ liệu chuyên phục vụ bài toán tái nhận dạng phương tiện giao thông. Với mục tiêu kết hợp các đặc trưng học sâu nhằm cải thiện hiệu quả tìm kiếm phương tiện và lưu trữ đặc trưng, chúng tôi đã thực hiện một vài thử nghiệm trên hai loại đặc trưng VGG16, Vcolor và thiết kế một mạng nơron để kết hợp hai đặc trưng trên.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tái nhận dạng phương tiện giao thông sử dụng mạng kết hợp các đặc trưng học sâu

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00063 TÁI NHẬN DẠNG PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƯNG HỌC SÂU Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy PTN Truyền thông Đa phƣơng tiện, Đại học Công nghệ Thông tin ĐHQG TP. HCM hoangtrinh1001@gmail.com {sonnt, tiepnv, khangnttm, duyld}@uit.edu.vn TÓM TẮT: Công trình này nghiên cứu về bài toán tái nhận dạng phương tiện giao thông. Cho một ảnh phương tiện, nhiệm vụ bài toán tái nhận dạng phương tiện giao thông là tìm kiếm trong tập dữ liệu các phương tiện có cùng định danh với phương tiện trong ảnh. Đây là một bài toán đang nhận được rất nhiều sự quan tâm của cộng đồng vì khả năng ứng dụng của nó, đặc biệt trong các hệ thống camera giám sát giao thông. Trong bài báo này, chúng tôi tập trung nghiên cứu về các đặc trưng được dùng biểu diễn phương tiện và các kết quả thử nghiệm sẽ được đánh giá trên bộ dữ liệu VeRi-776, đây là bộ dữ liệu chuyên phục vụ bài toán tái nhận dạng phương tiện giao thông. Với mục tiêu kết hợp các đặc trưng học sâu nhằm cải thiện hiệu quả tìm kiếm phương tiện và lưu trữ đặc trưng, chúng tôi đã thực hiện một vài thử nghiệm trên hai loại đặc trưng VGG16, Vcolor và thiết kế một mạng nơron để kết hợp hai đặc trưng trên. Các kết quả thực nghiệm cho thấy, đặc trưng được rút trích từ mạng nơron được đề xuất không những có hiệu quả cao hơn so với các đặc trưng riêng biệt mà còn giảm được số chiều của đặc trưng cần lưu trữ đến 3 lần. Từ khóa: Tái nhận dạng phương tiện giao thông, đặc trưng học sâu, kết hợp đặc trưng học sâu. I. GIỚI THIỆU Tái nhận dạng phƣơng tiện giao thông là một bài toán thƣờng đƣợc sử dụng trong quá trình tìm kiếm và theo dõi phƣơng tiện. Mặc dù đã tồn tại nhiều phƣơng pháp để theo dõi và nhận dạng đối tƣợng nhƣ theo dõi bằng GPS hoặc theo dõi bằng tín hiệu sóng Bluetooth1, hầu hết chỉ có thể áp dụng vào các phƣơng tiện công cộng hoặc phƣơng tiện của một tổ chức nhất định. Sự phát triển của hệ thống camera giám sát giao thông trong các thành phố lớn đã mang lại một nhiều thuận lợi cho việc xây dựng một hệ thống theo dõi phƣơng tiện giao thông thông qua áp dụng bài toán tái nhận diện phƣơng tiện giao thông vào các dữ liệu thu thập đƣợc (Vehicle re-identification). Hình 1. Mục tiêu của tái nhận dạng phƣơng tiện giao thông là tìm ra ảnh của mục tiêu đã di chuyển qua vùng quan sát của nhiều camera khác nhau Việc tái nhận dạng phƣơng tiện giao thông trong một hệ thống gồm nhiều camera khác nhau tồn tại rất nhiều thách thức. Đặc biệt, trong môi trƣờng thực tế, khả năng tái nhận dạng càng thấp do các phƣơng tiện có thể bị che khuất, các ảnh hƣởng của ánh sáng, góc quay,… Ngoài ra, với tính chất đặc biệt của loại dữ liệu, một vài sự nhập nhằng khi so sánh hai ảnh của hai phƣơng tiện có thể xảy ra, ví dụ nhƣ hai phƣơng tiện có định danh khác nhau nhƣng 1 Thông tin đƣợc tham khảo từ http://www.libelium.com/vehicle_traffic_monitoring_bluetooth_sensors_over_zigbee/
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy 483 có ngoại hình hoàn toàn tƣơng đồng hay cùng một phƣơng tiện có thể có thông tin thị giác rất khác nhau ở các góc chụp khác nhau,... cũng là các vấn đề lớn cần giải quyết để tái nhận dạng các phƣơng tiện một cách chính xác. Để giải quyết các thách thức trên, các thông tin bổ sung nhƣ không gian và thời gian thƣờng đƣợc cung cấp nhằm tăng hiệu quả so khớp. Tuy nhiên việc chỉ sử dụng duy nhất một đặc trƣng liệu có đủ để biễu diễn phƣơng tiện. Để trả lời câu hỏi này, trong công trình [1], Xinchen Liu và cộng sự đã đề xuất một mô hình kết hợp các đặc trƣng thủ công BOW_SIFT [4], BOW_CN [5] và đặc trƣng học sâu GoogleNet [6] dựa trên kết hợp độ tƣơng đồng theo trọng số gọi là Fusion of Attributes and Color feaTures (FACT) [1]. Cách kết hợp đặc trƣng của FACT đã giúp tăng hiệu quả chung của hệ thống tái nhận dạng phƣơng tiện, tuy nhiên FACT gặp nhiều hạn chế vì quá phụ thuộc vào các trọng số kết hợp cho trƣớc, điều này dẫn đến sự thiếu linh hoạt khi muốn mở rộng mô hình, đồng thời, các đặc trƣng thủ công trong FACT dƣờng nhƣ không đóng góp nhiều cho mô hình kết hợp (xem hình 2). Hình 2. Mô hình Fusion of Attributes and Color feaTures. Nhằm giải quyết vấn đề hạn chế về tọn số của mô hình FACT, trong bài báo này, chúng tôi đã đề xuất một mô hình kết hợp hai đặc trƣng học sâu bằng mạng nơron với các trọng số đƣợc học tự động. Cụ thể, chúng tôi đánh giá đặc trƣng rút trích từ mạng học sâu gồm Vcolor từ bài toán nhận dạng màu sắc phƣơng tiện giao thông và VGG16 [2] từ bài toán tái nhận dạng phƣơng tiện giao thông trên bộ dữ liệu chuyên về tái nhận dạng phƣơng tiện giao thông là VeRi- 776 [1], [3] (776 phƣơng tiện và 50.000 ảnh). Từ các kết quả thực nghiệm, chúng tôi đƣa ra một số nhận xét về các kết quả thu đƣợc. Phần còn lại của bài báo đƣợc tổ chức nhƣ sau: trong phần II chúng tôi sẽ trình bày các công trình liên quan đƣợc sử dụng trong bài báo này. Phần III sẽ trình bày các đặc trƣng học sâu đƣợc khảo sát trong bài báo này và mô hình kết hợp các đặc trƣng học sâu đƣợc đề xuất. Phần IV, chúng tôi sẽ trình bày môi trƣờng thực nghiệm, kết quả thu đƣợc và thảo luận về kết quả tƣơng ứng với các phƣơng pháp. Cuối cùng, Phần V sẽ kết luận bài báo và đƣa ra các hƣớng nghiên cứu tiếp theo. II. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi trình bày về mô hình đƣợc sử dụng phổ biến trong quá trình tái nhận dạng phƣơng tiện giao thông dựa trên đặc trƣng thị giác và các bài toán liên quan đến phƣơng tiện giao thông. Hình 3. Mô hình phổ biến tái nhận dạng phƣơng tiện giao thông dựa trên đặc trƣng thị giác Tái nhận dạng phƣơng tiện giao thông dựa trên đặc trƣng thị giác. Mô hình phổ biến đƣợc sử dụng trong bài toán tái nhận dạng phƣơng tiện giao thông dựa vào đặc trƣng thị giác gồm hai bƣớc chính là rút trích đặc trƣng và so khớp đƣợc thực hiện theo thứ tự lần lƣợt (xem hình 3). Các phƣơng pháp rút trích đặc trƣng hiện nay đƣợc chia làm hai loại: đặc trƣng thủ công và đặc trƣng học sâu. Các đặc trƣng sau khi đƣợc rút trích sẽ đƣợc dùng trong bƣớc so khớp để tính độ tƣơng đồng giữa các cặp ảnh. Dựa trên độ tƣơng đồng đã tính, các ảnh trong tập dữ liệu sẽ đƣợc sắp xếp theo thứ tự tăng dần độ tƣơng đồng hoặc giảm dần độ khác biệt so với ảnh tìm kiếm.
484 TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU Các bài toán liên quan đến phƣơng tiện giao thông. Cho đến hiện tại, bài toán tái nhận diện phƣơng tiện giao thông đã kế thừa khá nhiều lợi ích từ bài toán phân loại phƣơng tiện giao thông. Cụ thể, nhiều đặc trƣng học sâu đạt hiệu quả cao từ bài toán phân loại phƣơng tiện giao thông đã đƣợc áp dụng cho bài toán tái nhận diện phƣơng tiện giao thông nhƣ GoogleNet, VGG16. Tuy nhiên, để tránh trƣờng hợp overfit vào tập dữ liệu mang tính cá nhân của bài toán tái nhận diện phƣơng tiện giao thông, hầu hết đặc trƣng chỉ đƣợc rút trích từ mô hình với trọng số của bài toán phân loại phƣơng tiện giao thông. Bài toán nhận diện màu sắc của phƣơng tiện giao thông đã đạt đƣợc nhiều thành tựu khả quan trong thời gian gần đây. Nhiều mô hình học sâu đã đƣợc đề xuất nhƣ Vcolor [4], NIN [5],… đã mang lại hiệu quả thực sự ấn tƣợng. Đặc biệt, các mô hình này vẫn đạt kết quả tốt khi đƣợc áp dụng trên các bộ dữ liệu thực tế trong môi trƣờng nội thành. Các kĩ thuật tăng độ đa dạng của dữ liệu. Các kĩ thuật tăng độ đa dạng của dữ liệu thƣờng đƣợc áp dụng cho các bài toán với bộ dữ liệu nhỏ. Các kĩ thuật hình học đơn giản nhƣ xoay, lật, thu phóng,… đã đƣợc sử dụng rộng rãi vì tính đơn giản của chúng. Tuy nhiên, trong môi trƣờng thực tế, các kĩ thuật này dƣờng nhƣ không thể mô phỏng hết các biến thể có thể xảy ra của dữ liệu. Để tạo ra các dữ liệu phù hợp với yêu cầu trên, hai kĩ thuật tăng độ đa dạng của dữ liệu dựa trên máy học đã đƣợc giới thiệu là Generative adversarial networks (GANs) [6] và Neural Style Transfer [7]. Một mô hình GANs có thể chuyển hoá một ảnh từ điều kiện môi trƣờng này sang điều kiện môi trƣờng khác sau khi đã đƣợc huấn luyện một cách có điều kiện trên các dữ liệu tƣơng ứng. Sử dụng GANs tuy có thể đạt đƣợc kết quả tốt, tuy nhiên lại tốn khá nhiều chi phí tính toán. Nhằm giảm chi phí, ta có thể sử dụng một phƣơng pháp ít tốn kém hơn là neural style transfer đã đƣợc giới thiệu trƣớc GANs. Với Neural Style Transfer, các thông tin khác nhau nhƣ cấu trúc, môi trƣờng, màu sắc,… sẽ đƣợc thu thập và trộn lẫn vào nhau, bằng cách này chúng ta có thể tái tạo lại một biến thể của dữ liệu tƣơng tự nhƣ GANs. Điều hạn chế của mô hình này là ảnh đầu ra sẽ hơi thiên hƣớng hội hoạ hơn so với GANs. III. CÁC ĐẶC TRƢNG HỌC SÂU VÀ MÔ HÌNH KẾT HỢP ĐẶC TRƢNG Trong phần này, chúng tôi sẽ giới thiệu các đặc trƣng học sâu và mô hình kết hợp đặc trƣng đƣợc sử dụng trong thực nghiệm. Cụ thể, chúng tôi sử dụng mạng học sâu VGG16 và Vcolor để tiến hành rút trích đặc trƣng. 3.1. VGG16 [2] VGG16 là một mô hình mạng học sâu đƣợc công bố Simonyan và Zisserman. Đƣợc chứng minh là mô hình học sâu hiệu quả cho việc rút trích đặc trƣng thị giác, đồng thời VGG16 đã đƣợc chứng minh đạt hiệu quả cao trong bài toán phân loại phƣơng tiện giao thông (93,2 % rank 5 trong project DeepCar [8]). VGG16 có kiến trúc gồm 13 lớp conv với 3 lớp cuối là fully connected layer. VGG16 sử dụng các bộ lọc có kích thƣớc nhỏ 3x3 (xem hình 3) để học các đặc trƣng thị giác từ đơn giản ở các bộ lọc đầu và càng phức tạp hơn khi đi về cuối của mô hình. Dựa trên các hƣớng dẫn của The Keras Blog [9] và những xem xét về hình ảnh thu thập đƣợc từ camera giám sát giao thông trong thực tế, chúng tôi giảm kích thƣớc ảnh đầu vào còn 150x150 so với 224x224 của mô hình gốc. Sau đó, nhằm tránh overfit vào các đặc trƣng cấp cao của tập dữ liệu huấn luyện, chúng tôi chọn rút đặc trƣng tại lớp pooling cuối cùng trƣớc khi chuyển tiếp qua các lớp fully connected. Hình 4. Kiến trúc mạng VGG16 3.2. Vcolor [4] Mô hình học sâu Vcolor đƣợc đề xuất bởi Reza Fuad Rachmadi và cộng sự năm 2017 có thể xác định đƣợc đặc trƣng về mặt màu sắc của phƣơng tiện giao thông. Vcolor đặc biệt hiệu quả với hệ màu RGB và đang là mô hình tốt nhất trong bài toán nhận diện màu sắc phƣơng tiện giao thông trong hệ màu này. Nhằm kế thừa những lợi ích từ bài toán nhận diện màu sắc phƣơng tiện giao thông vào bổ sung thông tin màu sắc cho kết hợp, chúng tôi sử dụng trọng số và mô hình đƣợc công bố trong bài báo Vehicle Color Recognition using Convolutional Neural Network[], sau đó chúng tôi rút trích đặc trƣng tại lớp fc2 để làm đầu vào cho mạng kết hợp.
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy 485 Hình 5. Kiến trúc mạng Vcolor [4] 3.3. Mô hình kết hợp đặc trƣng học sâu Nhƣ đã trình bày, với mục tiêu kết hợp các đặc trƣng học sâu không chịu phụ thuộc vào các trọng số cho trƣớc. Dựa trên kĩ thuật neural style transfer, chúng tôi đã thiết kế một mạng kết hợp các đặc trƣng đƣợc rút trích từ hai mạng học sâu VGG16 và Vcolor, sau khi huấn luyện qua tập dữ liệu tái nhận dạng phƣơng tiện giao thông, chúng tôi sử dụng mô hình này để rút trích đặc trƣng kết hợp tại lớp fully connected. Hình 6. Mạng kết hợp đƣợc đề xuất Trong đó: Lớp Concat làm nhiệm vụ nối hai đặc trƣng đầu vào. Lớp fully connected làm nhiệm vụ kết hợp, trộn lẫn các đặc trƣng lại với nhau nhằm tạo ra một đặc trƣng tổng quát hơn cho ảnh phƣơng tiện. Số chiều của lớp này là 4096 đƣợc lựa chọn dựa trên cấu trúc VGG16. Đây cũng là lớp rút trích đặc trƣng của mạng Lớp Softmax làm nhiệm vụ phân loại các đặc trƣng đầu ra từ lớp fully connected theo định danh trong quá trình huấn luyện. IV. THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Bộ dữ liệu Hình 7. Minh hoạ quá trình thu thập dữ liệu của bộ dữ liệu VeRi-776 [3]
486 TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU Để đánh giá hiệu quả của mạng kết hợp đƣợc đề xuất, chúng tôi tiến hành các thực nghiệm trên bộ dữ liệu VeRi-776 [1] [3]. Đây là bộ dữ liệu chuyên về bài toán tái nhận dạng phƣơng tiện giao thông duy nhất có cung cấp thêm các thông tin không gian và thời gian, điều này có thể giúp mở rộng các thử nghiệm sau này. VeRi-776 bao gồm 50.000 ảnh của 776 phƣơng tiện đƣợc thu thập từ 20 camera khác nhau đƣợc lắp đặt trong phạm vi 1 km2 trong vòng 24 tiếng. Mỗi phƣơng tiện có thể đƣợc thu thập thông qua từ 2 đến 18 camera. Để tiến hành thực nghiệm, chúng tôi sử dụng cách phân chia bộ dữ liệu đƣợc cung cấp bởi tác giả của bộ dữ liệu VeRi-776. Cụ thể, VeRi-776 đƣợc chia làm hai tập huấn luyện và kiểm tra theo tỉ lệ 3:1. Tập huấn luyện bao gồm 37,781 ảnh và tập kiểm tra gồm 11.579 ảnh. Riêng trong tập kiểm tra, 1.678 ảnh sẽ đƣợc dùng nhƣ ảnh tìm kiếm. Ngoài VeRi-776, bộ dữ liệu VehicleID [10] cũng là một bộ dữ liệu thông dụng trong bài toán này. Tuy nhiên, mặc dù VehicleID lớn hơn VeRi-776 về số lƣợng định danh, cụ thể là 26.267 so với 776 của VeRi-776, các phƣơng tiện trong VehicleID chỉ đƣợc chụp từ phía trƣớc hoặc phía sau. Trong khi đó, phƣơng tiện trong VeRi-776 đƣợc thu thập với nhiều góc quay, điều kiện môi trƣờng khác nhau khiến chúng không quá khác biệt so với điều kiện thực tế. 4.2. Phƣơng pháp đánh giá Khi tìm kiếm bằng ảnh của một phƣơng tiện cần tái nhận dạng, hệ thống tái nhận dạng phƣơng tiện giao thông sẽ trả về một danh sách xếp hạng các ảnh của các phƣơng tiện đã đƣợc thu thập trƣớc đó tại các vị trí camera. Các ảnh này đƣợc xếp hạng theo thứ tự giảm dần độ tƣơng đồng hoặc tăng dần của độ khác biệt với ảnh của phƣơng tiện cần tái nhận dạng. Trong bài báo này chúng tôi sử dụng độ đo sự khác biệt L2-normalization. Mục tiêu của bài toán tái nhận dạng phƣơng tiện giao thông là của phƣơng tiện cần tìm có độ khác biệt càng thấp càng tốt, nghĩa là ngƣời sử dụng có thể tìm thấy đối tƣợng theo dõi càng sớm càng tốt. Hiện nay, nhiều phƣơng pháp để đánh giá hiệu suất của một hệ thống tái nhận dạng phƣơng tiện giao thông đã đƣợc đề xuất. Trong bài báo này, chúng tôi sử dụng các độ đo phổ biến đƣợc sử dụng trong nhiều công trình nghiên cứu khoa học trên thế giới bao gồm: mean Average Precision (mAP), Rank i. Trong đó, mAP biểu thị độ chính xác trung bình tƣơng ứng với từng ảnh đƣợc tìm kiếm trong số 1.678 ảnh, rank i là tỉ lệ kết quả thứ i trong danh sách xếp hạng là kết quả đúng. Với độ đo rank i, với i càng nhỏ, kết quả tại rank i càng cao càng tốt. Với mỗi ảnh tìm kiếm q, giá trị Average Precision cho ảnh tìm kiếm q đƣợc tính toán nhƣ sau: AP(q) = ∑ () () (1) Trong đó, P(i) biễu diễn precision tại vị trí thứ i, giá trị weight(i) sẽ là 1 hoặc 0 tƣơng ứng với kết quả tại vị trí đó có liên quan hay không. Từ đó, mAP cho một tập ảnh đƣợc tính nhƣ sau: mAP = ∑ ( ) (2) Trong đó, n_q biễu diễn tổng số lƣợng ảnh tìm kiếm (bằng 1.678 đối với VeRi-776). Dựa theo thiết lập thử nghiệm của Xinchen Liu [], với mỗi ảnh tìm kiếm q, chỉ có ảnh có cùng định danh với q nhƣng đƣợc thu thập tại các camera khác mới đƣợc sử dụng để tính mAP cũng nhƣ rank 1 và rank 5. 4.3. Kết quả thực nghiệm Trong phần này, chúng tôi thực hiện các thử nghiệm trên bộ dữ liệu VeRi-776. Các kết quả tái nhận dạng phƣơng tiện giao thông theo độ đo mAP và rank i (với i = 1, 5) đƣợc công bố trong bảng 1. Nhằm đánh giá hiệu quả của các đặc trƣng, chúng tôi thử nghiệm sử dụng riêng biệt các đặc trƣng trong quá trình so khớp. So sánh giữa kết quả giữa VGG16 đƣợc huấn luyện trên tập huấn luyện của VeRi-776 và FACT, ta có thể nhận thấy VGG16 cho kết qua mAP thấp hơn FACT 0,4 % với độ đo mAP vì hiện tƣợng overfitting khi huấn luyện mô hình học sâu trên tập dữ liệu ở mức thực thể. Trong khi đó, đặc trƣng Vcolor cho kết quả rất thấp khi đứng riêng biệt. Nguyên nhân dễ nhận thấy là do chính mô hình Vcolor chƣa từng đƣợc huấn luyện qua bộ dữ liệu phƣơng tiện ở cấp độ thực thể. Với giả thuyết rằng sự có mặt của Vcolor trong kết hợp sẽ giúp mạng kết hợp tạo nên các đặc trƣng đa dạng và tổng quát hơn, dựa trên lý thuyết về Neural Style Transfer, chúng tôi thực nghiệm kết hợp hai đặc trƣng VGG16 và Vcolor bằng mạng kết hợp đƣợc đề xuất. Tuy đạt hiệu quả thấp khi đứng riêng biệt, Vcolor vẫn có khả năng làm tăng hiệu của bộ rút trích đặc trƣng, cụ thể với kết hợp hai đặc trƣng, hiệu quả của đặc trƣng rút trích từ mạng kết hợp đã tăng 3,75 % mAP, 2,2 % với Rank 1 và 3,4 % cho rank 5 khi so sánh với trƣờng hợp chỉ sử dụng đặc trƣng VGG16. Điều này chứng minh các thông tin mà Vcolor học đƣợc từ bài toán nhận dạng màu sắc phƣơng tiện có thể hỗ trợ bù đắp cho các phần bị thiếu hụt của mô hình chung. Tiếp tục so sánh sang mô hình kết hợp FACT. Với các trọng số đƣợc học tự động trong quá trình huấn luyện, đặc trƣng đƣợc rút trích từ mạng kết hợp đƣợc đề xuất cho kết quả tốt hơn mô hình kết hợp FACT ở cả 3 độ đo mAP, rank 1, rank 5. Cụ thể, đặc trƣng từ mạng kết hợp đƣợc đề xuất cho kết quả cao
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy 487 hơn mô hình FACT lần lƣợt là 3,35 %, 13,53 % và 3,28 % ở ba độ đo mAP, rank 1 và rank 5. Rõ ràng, việc kết hợp với đặc trƣng Vcolor đƣợc huấn luyện trên bộ dữ liệu nhận diện màu sắc đã giúp mô hình bù trừ đƣợc một số trƣờng hợp overfitting của VGG16 và tăng hiệu năng của mô hình. Từ hình 8 ta thấy kết quả từ mô hình kết hợp đƣợc đề xuất cho kết quả cao vƣợt trội so với các phƣơng pháp khác. Ngoài ra với đầu ra của đặc trƣng rút trích là 4.096 chiều, mạng kết hợp không chỉ giúp tăng hiệu quả chung của đặc trƣng mà còn giảm số chiều của đặc trƣng cần lƣu trữ xuống 3 lần. Bảng 1. Kết quả thực nghiệm Phƣơng pháp mAP(%) Rank 1 (%) Rank 5 (%) VGG16 18,09 62,28 73,36 Vcolor 3,45 13,59 24,43 FACT 18,49 50,95 73,48 Mô hình kết hợp 21,84 62,87 74,91 Hình 8. Kết quả thực nghiệm V. KẾT LUẬN Trong bài báo này, chúng tôi đề xuất một mô hình mới để kết hợp các đặc trƣng học sâu. Dựa trên kỹ thuật Neural Style Transfer chúng tôi đã thiết kế một mạng nơron kết hợp hai đặc trƣng VGG16 và Vcolor. Kết quả thực nghiệm trên bộ dữ liệu VeRi-776 đã cho thấy hiệu quả rõ rệt của việc rút trích đặc trƣng từ mạng kết hợp đƣợc đề xuất. Đồng thời, mạng kết hợp đề xuất còn giúp giảm số chiều đặc trƣng cần lƣu trữ đi 3 lần trong khi vẫn tăng hiệu năng của đặc trƣng. Tuy nhiên, mô hình mạng của chúng tôi vẫn còn khá đơn giản, do đó, trong tƣơng lai, chúng tôi sẽ tiếp tục thiết kế các mạng kết hợp phức tạp hơn cũng nhƣ cung cấp thêm cho mạng nhiều loại đặc trƣng hơn nhằm tăng tính tổng quát của mô hình. Ngoài ra, việc mô hình đề xuất chỉ sử dụng thông tin trích xuất từ ảnh thu thập giúp mô hình có thể mở rộng áp dụng trên bất kì loại đối tƣợng nào nhƣ ngƣời, động vật, xe máy,… có dữ liệu đƣợc thu thập từ nhiều camera. VI. LỜI CẢM ƠN Nghiên cứu đƣợc tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ đề tài mã số B2015-26-01. VIII. TÀI LIỆU THAM KHẢO [1] Liu X., Liu W., Ma H., Fu H. "Large-scale vehicle re-identification in urban surveillance videos" in IEEE International Conference on Multimedia and Expo, 2016. [2] Karen Simonyan, Andrew Zisserman. "Very Deep Convolutional Networks for Large-scale Image Recognition" in International Conference on Learning Representations, 2015.
488 TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU [3] Liu X., Liu W., Mei T., Ma H.. "A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance" in European Conference on Computer Vision, 2016. [4] Reza Fuad Rachmadi, I Ketut Eddy Purnama and Mauridhi Hery Purnomo. "Vehicle Color Recognition using Convolutional Neural Network" in arXiv:1510.07391v2 [cs.CV], 2017. [5] Boyang Su, Jie Shao, Jianying Zhou, Xiaoteng Zhang, Lin Mei. "Vehicle Color Recognition in The Surveillance with Deep Convolutional Neural Networks" in Joint International Mechanical, Electronic and Information Technology Conference, 2015. [6] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. "Generative Adversarial Nets" in NIPS, 2014. [7] P.Rosinand, J.Collomosse. "Image and video-based artistic stylisation". Springer Science & Business Media, vol. 42, 2012. [8] Charleo85. "GitHub" 14 10 2017. [Online]. Available: https://github.com/Charleo85/DeepCar. [9] F. Chollet. "The Keras Blog". 5 6 2016. [Online]. Available: https://blog.keras.io/building-powerful-image- classification-models-using-very-little-data.html. [10] Liu, Hongye and Tian, Yonghong and Wang, Yaowei and Pang, Lu and Huang, Tiejun. "Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles" in IEEE Conference on Computer Vision and Pattern Recognition, 2016. [11] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. "Going Deeper with Convolutions" in arXiv:1409.4842 [cs.CV], 2014. [12] Linjie Yang, Ping Luo, Chen Change Loy, Xiaoou Tang. "A Large-Scale Car Dataset for Fine-Grained Categorization and Verification" in Computer Vision and Pattern Recognition, 2015. [13] Liang Zheng, Shengjin Wang, Wengang Zhou, and Qi Tian. "Bayes merging of multiple vocabularies for scalable image retrieval" in CVPR, 2014. [14] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, Jiahao Bu, and Qi Tian. "Scalable person re- identification: A benchmark" in ICCV, 2015. VEHICLE RE-IDENTIFICATION USING FUSION OF DEEP FEATURES Trinh Man Hoang, Nguyen Thanh Son, Nguyen Vinh Tiep, Nguyen Tan Tran Minh Khang, Le Dinh Duy ABSTRACT: This paper researches about the vehicle re-identification problem. With a vehicle image as an input, the task of vehicle re-identification problem is to search the dataset for the vehicle with the same identity as the vehicle in the image. This is a problem that is receiving a great deal of attention from the community because of its applicability, especially in traffic camera systems. In this paper, we focus on the features used in vehicle representations and the test results will be evaluated on the VeRi-776 dataset, which is specific for the vehicle re-identification problem. With the goal of combining deep features to improve the of vehicle identity searching and features storing efficiency, we have done several tests on the VGG16, Vcolor and designed a neural network to fuse them. Experimental results show that the feature extracted from the neural network is not only more effective than individual incorporating feature, but also reduces the size of feature that need to be stored up to three times. Keywords: Vehicle Re-Identification, Deep features, incorporating Deep features.