Tóm tắt Luận án Tiến sĩ Kỹ thuật: Tái định danh trong hệ thống camera giám sát tự động

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

18
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài nghiên cứu nhằm xây dựng phương pháp biểu diễn hiệu quả cho bài toán tái định danh dựa trên nhiều thể hiện (multi-shot); nâng cao độ chính xác tái định danh; tích hợp và đánh giá ảnh hưởng của phát hiện và theo vết lên hiệu năng của một hệ thống tái định danh. Mời các bạn tham khảo nội dung chi tiết đề tài!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật: Tái định danh trong hệ thống camera giám sát tự động

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THÚY BÌNH TÁI ĐỊNH DANH TRONG HỆ THỐNG CAMERA GIÁM SÁT TỰ ĐỘNG Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội −2020
Công trình này được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Phạm Ngọc Nam 2. PGS.TS. Lê Thị Lan Phản biện 1: PGS.TS Trần Đức Tân Phản biện 2: PGS.TS Lê Nhật Thăng Phản biện 3: PGS.TS Ngô Quốc Tạo Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi giờ......., ngày...... tháng...... năm Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU Động lực nghiên cứu Sự phát triển của các kỹ thuật xử lý ảnh, nhận dạng cho phép xây dựng các hệ thống phân tích tự động nội dung của video. Các hệ thống này thường chia thành bốn bước chính: phát hiện, theo vết, tái định danh và nhận dạng. Trong đó tái định danh được định nghĩa là bài toán kết nối ảnh/chuỗi ảnh của một người khi người đó di chuyển trong vùng giám sát của camera này đến camera khác [7]. Mặc dù đã đạt được những thành công nhất định, tái định danh vẫn chưa được triển khai rộng rãi trong thực tế do độ chính xác chưa cao. Tùy vào số ảnh sử dụng cho biểu diễn người, tái định danh có thể chia thành tái định danh dựa trên 1 thể hiện (single-shot) và tái định danh dựa trên nhiều thể hiện (multi-shot). Biểu diễn toán học của bài toán tái định danh Cho một người truy vấn Qi và N người trong tập tìm kiếm Gj , trong đó j = 1, N . n o (l) Qi = qi , l = 1, ni n o (1) (k) Gj = gj , k = 1, mj ni và mj là số ảnh tương ứng của người Qi và Gj . Danh tính của người cần truy vấn Qi được xác định như sau [26]: j ∗ = arg min d (Qi , Gj ) , (2) j trong đó d (Qi , Gj ) được định nghĩa là khoảng cách giữa hai người Qi và Gj . Cũng có thể sử dụng độ đo tương tự giữa hai người thay cho việc tính khoảng cách. Khi đó danh tính của người cần truy vấn được xác định: j ∗ = arg max Sim (Qi , Gj ) , (3) j Thách thức Tái định danh người trong mạng camera giám sát có nhiều thách thức. Trong đó, ba thách thức chính là (1) sự thay đổi lớn về diện mạo bề ngoài của người khi người đó được quan sát trong các điều kiện khác như về ánh sáng, góc quan sát và tư thế (2) Một số lượng lớn các ảnh được dùng để biểu diễn một người; (3) Chất lượng của bước phát hiện và theo vết tự động ảnh hưởng đến hiệu năng của tái định danh. Mục tiêu Luận án có ba mục tiêu chính như sau: 1
• Xây dựng phương pháp biểu diễn hiệu quả cho bài toán tái định danh dựa trên nhiều thể hiện (multi-shot). Mục tiêu đầu tiên của luận án đó là tìm ra một giải pháp nhằm giảm chi phí tính toán và dung lượng bộ nhớ cần cho việc lưu trữ dữ liệu nhưng vẫn đảm bảo độ chính xác trong bài toán tái định danh . • Nâng cao độ chính xác tái định danh. Nâng cao độ chính xác là một trong những mục tiêu quan trọng nhất của các nghiên cứu về tái định danh. Do đó, mục tiêu thứ hai của luận án đó là nâng cao độ chính xác tái định danh dựa trên các chiến lược kết hợp các đặc trưng khác nhau nhằm khai thác được ưu điểm của từng đặc trưng. • Tích hợp và đánh giá ảnh hưởng của phát hiện và theo vết lên hiệu năng của một hệ thống tái định danh. Một hệ thống giám sát thực tế bao gồm ba khâu chính: phát hiện người, theo vết và tái định danh. Tuy nhiên, các nghiên cứu hiện nay thường dựa trên kết quả của phát hiện và theo vết thủ công. Khi triển khai một hệ thống thực tế, chất lượng của phát hiện và theo vết sẽ ảnh hưởng đến hiệu năng của tái định danh. Với mục tiêu hướng đến triển khai kết quả nghiên cứu trên thực tế, luận án thực hiện tích hợp và đánh giá định lượng về ảnh hưởng của phát hiện và theo vết lên tái định danh. Giới hạn và phạm vi nghiên cứu Đối tượng của luận án là tái định danh có giám sát bao gồm cả tái định danh dựa trên một thể hiện và nhiều thể hiện. Các nghiên cứu trong luận án dựa trên các ràng buộc sau: • Dữ liệu hình ảnh và video được thu trong điều kiện ánh sáng ban ngày. • Tái định danh được thực hiện trong khoảng thời gian ngắn, diện mạo bề ngoài và quần áo của mỗi người sẽ không thay đổi. Trong phạm vi của luận án không xét đến trường hợp những người trong cơ sở dữ liệu mặc đồng phục. • Tái định danh trong trường hợp cơ sở dữ liệu khép kín (close-set), mỗi người xuất hiện ít nhất trong trường quan sát của hai camera khác nhau. Đóng góp Luận án bao gồm hai đóng góp chính như sau: • Đóng góp 1: Đề xuất một phương pháp hiệu quả cho bài toán tái định danh dựa trên nhiều thể hiện. Phương pháp được đề xuất gồm bốn bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng, tổng hợp đặc trưng và đối sánh. Trong đề xuất này, thay bằng việc sử dụng toàn bộ khung hình, một số khung hình đại diện được lựa chọn để biểu diễn người. Hai chiến lược được đề xuất đó là sử dụng các khung hình trong một chu kỳ bước chân hoặc bốn khung hình đại diện. Giảm số lượng khung hình biểu diễn người, chi phí tính toán cũng như dung lượng bộ nhớ cần thiết cho việc lưu trữ dữ liệu giảm đáng kể nhưng vẫn đảm bảo độ chính xác tái định danh. • Đóng góp 2: Mỗi đặc trưng có hiệu quả riêng trong biểu diễn người, nhằm khai thác ưu điểm cũng như hạn chế nhược điểm của từng đặc trưng, luận án đề xuất một số chiến 2
lược kết hợp cho bài toán tái định danh dựa trên nhiều thể hiện và các thử nghiệm được thực hiện trên cả hai ngữ cảnh của bài toán tái định danh. Ngoài việc gắn các trọng số bằng nhau cho mỗi đặc trưng, đóng góp này cũng đề cập tới trọng số thích nghi với người cần truy vấn. Cấu trúc của luận án Bên cạnh phần Giới thiệu và Kết luận, luận án gồm bốn chương chính. Chương 1 đánh giá và tổng hợp các nghiên cứu trong và ngoài nước hiện nay nhằm có cái nhìn tổng quan về tái định danh một cách toàn diện. Chương 2 đề xuất một phương pháp hiệu quả cho bài toán tái định danh dựa trên nhiều thể hiện, khắc phục những khó khăn: chi phí tính toán lớn, yêu cầu dung lượng bộ nhớ lưu trữ lớn. Chương 3 giới thiệu một số chiến lược kết hợp đặc trưng cho bài toán tái định danh, các thử nghiệm được thực hiện trên cả hai ngữ cảnh của bài toán tái định danh. Chương 4 trình bày về một hệ thống tái định danh hoàn toàn tự động bao gồm các ba khâu chính: phát hiện người, theo vết và tái định danh. Ảnh hưởng của khâu phát hiện và phân đoạn ảnh tới chất lượng của tái định danh cũng được đề cập tới trong luận án này. CHƯƠNG 1 CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Cơ sở dữ liệu và độ đo đánh giá 1.1.1 Cơ sở dữ liệu Nhằm đánh giá hiệu quả của một phương pháp đề xuất, luận án này sử dụng năm cơ sở dữ liệu benchmark bao gồm: VIPeR, CAVIAR4REID, RAiD, PRID-2011 và iLIDS-VID . Trong số năm cơ sở dữ liệu này, CAVIAR4REID và RAID được sử dụng trong ngữ cảnh thứ nhất của bài toán, ba cơ sở dữ liệu còn lại được sử dụng trong ngữ cảnh thứ hai. Bảng 1.1 đưa ra một số đặc điểm của các cơ sở dữ liệu dùng trong luận án. Bảng 1.1 Một số cơ sở dữ liệu được sử dụng trong luận án. Datasets Time #ID #Cam #Images Label Full frames Resolution Single-shot Multiple-shot Setting VIPeR 2007 632 2 1,264 hand 128x48 X 2 CAVIAR4REID 2011 72 2 1,220 hand vary X 1 RAiD 2014 43 4 6,920 hand 128x64 X 1 PRID-2011 2011 934 2 24,541 hand + 128x65 X X 2 iLIDS-VID 2016 300 2 42,495 hand vary X 2 1.1.2 Độ đo đánh giá Đường cong CMC (Cumulative Matching Characteristic) thường được sử dụng để đánh giá hiệu năng của một phương pháp trong bài toán tái định danh [23]. Giá trị của đường cong CMC tại mỗi xếp hạng là tỷ số giữa đối sánh đúng và tổng số người cần truy vấn. 1.2 Trích chọn đặc trưng Thông thường, để biểu diễn một người, các thông tin liên quan đến sinh trắc học (mắt, mống mắt, dáng đi) và vẻ bề ngoài được khai thác. Tuy nhiên, trong bài toán tái định danh, 3
hình ảnh hay videos thường được thu bởi camera có độ phân giải thấp, rất khó để trích chọn thông tin về mống mắt hay mắt của con người. Do đó, đa số các nghiên cứu về bài toán tái định danh hiện nay dựa trên những thông tin về diện mạo bề ngoài của một người (màu sắc, kết cấu của trang phục,...) [12]. Các đặc trưng được phân chia thành hai loại cơ bản: đặc trưng tự thiết kế và đặc trưng học sâu. 1.3 Học khoảng cách Mục tiêu chính của học khoảng cách đó là tìm ra một độ đo phù hợp và hiệu quả cho quá trình đối sánh: tối thiểu hóa khoảng cách của các đối tượng cùng phân lớp và tối đa hóa khoảng cách của các đối tượng thuộc các phân lớp khác nhau. Học khoảng cách có thể được hiểu là học một không gian con mà các vector được chiếu lên không gian con đó thỏa mãn điều kiện đã đề cập ở trên. 1.4 Chiến lược kết hợp cho bài toán tái định danh Chiến lược kết hợp đặc trưng được phân chia thành hai nhóm chính: Kết hợp ở mức đặc trưng (kết hợp sớm) và ở mức điểm số (kết hợp muộn). Trong chiến lược kết hợp sớm, các vector đặc trưng được kết nối với nhau để sinh ra một vector cuối cùng có số chiều lớn hơn để biểu diễn ảnh. Các chiến lược kết hợp muộn kết hợp các điểm số/độ tương tự có được sau quá trình đối sánh ứng với mỗi đặc trưng theo một hàm toán học nào đó. 1.5 Lựa chọn các khung hình đại diện Một vấn đề đặt ra khi giải quyết bài toán tái định danh dựa trên nhiều thể hiện đó là lựa chọn khung hình nào để biểu diễn một người. Lựa chọn toàn bộ các khung hình sẽ tạo nên một áp lực không hề nhỏ đến quá trình tính toán và lưu trữ dữ liệu. Một số nghiên cứu đề xuất chỉ sử dụng một số khung hình đại diện để biểu diễn người, giúp giảm chi phí tính toán, dung lượng bộ nhớ lưu trữ nhưng vẫn đảm bảo độ chính xác tái định danh. 1.6 Hệ thống tái định danh tự động hoàn toàn Một hệ thống định danh tự động hoàn toàn gồm ba khâu chính: phát hiện người, theo vết và tái định danh. Tuy nhiên, có rất ít các nghiên cứu đề cập đến việc xây dựng một hệ thống hoàn chỉnh, đánh giá và phân tích ảnh hưởng của hai khâu phát hiện người và theo vết lên độ chính xác của khâu tái định danh. CHƯƠNG 2 TÁI ĐỊNH DANH DỰA TRÊN NHIỀU THỂ HIỆN THÔNG QUA LỰA CHỌN KHUNG HÌNH ĐẠI DIỆN VÀ TỔNG HỢP ĐẶC TRƯNG 2.1 Giới thiệu Nội dung của chương này đề cập tới một phương pháp hiệu quả cho bài toán tái định danh trên dựa nhiều thể hiện thông qua việc lựa chọn khung hình đại diện và tổng hợp đặc 4
trưng. Mục tiêu của phương pháp đề xuất này là loại bỏ thông tin dư thừa và tăng tốc độ tính toán. 2.2 Phương pháp đề xuất 2.2.1 Tổng quan của phương pháp Hình 2.1 mô tả phương pháp đề xuất cho bài toán tái định danh dựa trên nhiều thể Gallery sequences Temporal pooling layer Extract Min-pooling walking cycles Image-level Average-pooling features Extract 4 key Person matching frames Max-pooling Representative frames selection ID person A probe sequence Extract walking cycles Min-pooling Image-level features Average-pooling Extract 4 key frames Max-pooling Temporal pooling layer Hình 2.1 Phương pháp đề xuất bao gồm bốn khâu chính: lựa chọn khung hình đại diện, trích chọn đặc trưng, tổng hợp đặc trưng và đối sánh. hiện, gồm bốn bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng mức ảnh, tổng hợp đặc trưng và đối sánh. Mục tiêu của bước đầu tiên là lựa chọn các khung hình đại diện để biểu diễn một người. Ba chiến lược được đề cập tới: bốn khung hình đại diện, các khung hình trong một chu kỳ bước chân và toàn bộ các khung hình. Đặc trưng Gaussian of Gaussian (GOG) [18] được trích chọn trên các khung hình đại diện này và được tổng hợp để sinh ra vector đặc trưng duy nhất. Kỹ thuật học khoảng cách Cross-view Quadratic Discriminative Analysis (XQDA) [14]được đề xuất sử dụng trong bước đối sánh với mục tiêu xếp hạng những người trong cơ sở dữ liệu tìm kiếm và xác định danh tính của một người cần truy vấn. Phương pháp đề xuất được mô tả chi tiết trong hai thuật toán: thuật toán 2.1 được thực hiện trong pha huấn luyện, trong khi đó thuật toán 2.2 được thực hiện trong pha kiểm tra. 2.2.2 Lựa chọn khung hình đại diện Trước hết, một chu kỳ bước chân được lựa chọn từ tập hợp các chu kỳ bước chân của một người trong quá trình di chuyển của người đó dựa trên năng lượng chuyển động Flow Engery Profile (FEP)[22]. Tiếp theo, bốn khung hình đại diện được trích ra từ chu kỳ đó. Bốn khung hình đại diện được lựa chọn dựa vào giá trị cực tiểu, cực đại của FEP và hai khung hình tương ứng với giá trị trung bình của mức năng lượng này. Để lựa chọn chính xác các khung hình đại diện, tín hiệu FEP được đưa qua bộ lọc Gaussian để loại bỏ nhiễu. 5
Algorithm 2.1: Algorithm for training phase (Off-line process). Input: Image sequences on cross-view cameras: X = {Xi } , i = 1, Ntr ; Z = {Zj } , j = 1, Ntr . Ntr is the number of persons used for training. Output: Model parameters: W, M Step 1: Select representative frames for each person Sub-step 1.1: Extract walking cycles for each pedestrian for i ← h 1, Ntr ndo oi (c) (ci,1 ) (ci,2 ) (ci,lc ) Xi = xi , xi , ...xi = Cycle − extraction (Xi ) for j ← h 1, Ntrndo oi (c) (c ) (c ) (c ) Zj = zj j,1 , zj j,2 , ...zj j,lc = Cycle − extraction (Zj ) Sub-step 1.2: Extract four key frames from a random walking cycle for i ← h 1, Ntr n do oi (k) (k ) (k ) (k ) (k ) (c) Xi = xi 1 , xi 2 , xi 3 , xi 4 = Keyframe − extraction Xi for j ← h 1, Ntrndo oi (k) (k1 ) (k2 ) (k3 ) (k4 ) (c) Zj = zj , zj , zj , zj = Keyframe − extraction Zj Step 2: Compute feature vectors at image-level for i ← 1, Ntr do for li ← 1, len(i) do fili = Feature− extraction (xlii ) for j ← 1, Ntr do for lj ← 1, len(j) do l l fj j = Feature− extraction (zjj ) /* len(i) and len(j) are length of the image sequences of Xi and Zj . */ Step 3: Compute the final feature for person representation for i ← 1, Ntr do Fif inal = Temporal_pooling fili , pool_ choice for j ← 1, Ntr do n o l Fjf inal = Temporal_pooling fj j , pool_ choice Step 4: Compute the sub-space projection matrix and learned kernel metric based on XQDA algorithm FX = Fifinal FZ = Fjfinal [W, M ] = XQDA (FX , FZ ) 2.2.3 Trích chọn đặc trưng mức ảnh Trong số các đặc trưng được đề xuất cho bài toán tái định danh, bộ mô tả GOG [18] được đánh giá là một trong số những bộ mô tả hiệu quả nhất. Bộ mô tả GOG vượt trội không chỉ so với các đặc trưng tự thiết kế mà còn tốt hơn cả một số đặc trưng học sâu. Ngoài ra, đặc trưng GOG được trích chọn trên bốn không gian màu khác nhau (RGB, Lab, HSV và nRnG), sau đó các vector đặc trưng này được ghép với nhau để tạo nên vector đặc trưng cuối cùng để biểu diễn người. 6
Algorithm 2.2: Algorithm for test phase (On-line process). Input: A query person: Qi A gallery of persons G = {Gj } , j = 1, Nts . (Nts is the number of person in the gallery set.) Parameters of the trained model: W, M Output: A ranked list of gallery persons corresponding to a given query person Step 1: Select representative frames for each person Sub-step h n1.1: Extract walkingoi cycles for each pedestrian (c) (ci,1 ) (ci,2 ) (ci,lc ) Qi = qi , qi , ...qi = Cycle − extraction (Qi ) for j ← h 1, Ntsndo oi (c) (g ) (g ) (c ) Gj = gj j,1 , gj j,2 , ...gj j,lc = Cycle − extraction (Gj ) Sub-step h 1.2: Extract four keyoi n frames from a random walking cycle frames (k) (k1 ) (k2 ) (k3 ) (k4 ) (c) Qi = qi , qi , qi , qi = Keyframe − extraction Qi for j ← h 1, Ntsndo oi (k) (k1 ) (k2 ) (k3 ) (k4 ) (c) Gj = gj , gj , gj , gj = Keyframe − extraction Gj Step 2: Compute feature vectors at image-level for li ← 1, len(i) do fili = Feature− extraction (qili ) for j ← 1, Nts do for lj ← 1, len(j) do l l fj j = Feature− extraction (gjj ) /* len(i) and len(j) are length of the image sequences of Qi and Gj in one of three cases: all frames, cycle, and four key frames. */ Step 3: Compute the final feature for person representation Fif inal = Temporal_pooling fili , pool_ choice for j ← 1, Ntr do n o l Fjf inal = Temporal_pooling fj j , pool_ choice Step 4: Calculate distance between each person in gallery and the query person for j ← 1, Nts do d(Qi , Gj ) = distance(Fif inal , Fjf inal , W, M ) Step 5: Rank gallery persons in ascending order of distance between each of gallery person to the query person (1) (2) (N [Ri , Ri , ...Ri ts )] = ranked_list (d(Qi , Gj )) 2.2.4 Tổng hợp đặc trưng Mục tiêu của việc tổng hợp đặc trưng là (1) giúp quá trình so sánh/đối sánh giữa hai đối tượng trở nên đơn giản hơn và (2) giảm thời gian tính toán cũng như bộ nhớ cần cung cấp cho việc lưu trữ dữ liệu. Trong nghiên cứu này, ba chiến lược được đề xuất: cực tiểu, cực đại và trung bình. 7
2.2.5 Đối sánh XQDA được mở rộng từ thuật toán Bayesian face và Keep It Simple and Straightforward MEtric(KISSME) [11], trong đó, bài toán phân đa lớp được chuyển về bài toán phân lớp nhị phân: các cặp ảnh/chuỗi ảnh có cùng của một người hay không? Điểm nổi bật của kỹ thuật XQDA đó là học đồng thời khoảng cách và các dữ liệu được thu thập từ các trường quan sát của các camera khác nhau. 2.3 Các kết quả thử nghiệm Các thử nghiệm được thực hiện trên hai cơ sở dữ liệu dùng chung benchmark: PRID-2011 và iLIDS-VID để chứng minh hiệu quả của phương pháp đề xuất. 2.3.1 Đánh giá về lựa chọn khung hình đại diện và tổng hợp đặc trưng Trong phần này, các thử nghiệm được thực hiện trong ba trường hợp: bốn khung hình 1 0 0 100 9 0 90 80 Matching rates (%) 8 0 M a tc h in g r a te s ( % ) 70 7 0 60 6 0 50 9 0 .5 6 % P R ID _ a ll fr a m e s 41.09% iLIDS_4 key frames 5 0 7 9 .1 0 % P R ID _ w a lk in g c y c le 40 44.14% iLIDS_walking cycle 7 7 .1 9 % P R ID _ 4 k e y fra m e s 70.13% iLIDS_all frames 4 0 30 5 1 0 1 5 2 0 5 10 15 20 R a n k Rank (a) (b) Hình 2.2 Đánh giá hiệu năng của đặc trưng GOG trên cơ sở dữ liệu a) PRID-2011 và b) iLIDS-VID với ba chiến lược lựa chọn khung hình đại diện. đại diện, các khung hình trong một chu kỳ bước chân và tất cả các khung hình. Mỗi trường hợp này được đánh giá (1) trên bốn không gian màu (RGB, Lab, HSV, và nRnG) và kết hợp của các không gian màu này và (2) ba chiến lược tổng hợp đặc trưng. Các kết quả đạt được chỉ ra rằng đa số kết quả tốt nhất khi áp dụng chiến lược tổng hợp đặc trưng dựa vào giá trị trung bình trên cả hai tập dữ liệu huấn luyện và kiểm tra. Trong trường hợp ghép nối các vector trên tất cả bốn không gian màu, độ chính xác tại xếp hạng đầu tiên (rank-1) cho kết quả tốt nhất trên cơ sở dữ liệu PRID-2011 là: 77.19%, 79.10%, and 90.56% tương ứng với các trường hợp bốn khung hình đại diện, một chu kỳ bước chân và tất cả các khung hình. Kết luận này cũng đúng khi làm việc trên cơ sở dữ liệu iLIDS-VID. Các kết quả này được biểu diễn bởi các đường cong CMC trên hình 3. Độ chính xác tại xếp hạng thứ 1 khi sử dụng các khung hình trong một chu kỳ chỉ tăng 1.91%, nhưng tăng đến 12.47% khi sử dụng toàn bộ các khung hình. Trong trường hợp với cơ sở dữ liệu iLIDS-VID, các giá trị đó tương ứng là 3.05% và 20.58%. Tuy nhiên, các kết quả tại xếp hạng thứ 20 với các chiến lược này tương đối cao và không khác nhau nhiều. Điều này mở ra một hy vọng khi triển khai giải pháp này trong 8
một hệ thống tìm kiếm thực tế, khi danh sách tìm kiếm từ hàng trăm/hàng nghìn người được rút gọn còn 20 người. 2.3.2 Đánh giá sự cân bằng giữa độ chính xác và thời gian tính toán Bảng 2.1 so sánh hiệu năng của ba chiến lược lựa chọn khung hình đại diện trên các khía cạnh: độ chính xác tái định danh, thời gian tính toán, và dung lượng bộ nhớ cần cho việc lưu trữ dữ liệu đối với cơ sở dữ liệu PRID-2011. Các giá trị trong Bảng 2.1 được tính toán trên một lần thử nghiệm ngẫu nhiên trên cơ sở dữ liệu PRID-2011. Số lượng ảnh trung bình của mỗi người trên camera A và camera B là khoảng 100, và mỗi chu kỳ bước chân có khoảng trung bình 13 khung hình. Các thử nghiệm được thực hiện trên máy tính có thông số như sau: Intel(R) Core(TM) i5-4440 CPU @ 3.10GHz, 16GB RAM. Về lưu trữ dữ liệu, mỗi ảnh có kích thước 128 × 64 điểm ảnh với độ sâu 24-bit sẽ chiếm 24KB (128 × 64 × 24 = 196, 608 bits =24 KB). Do đó,dung lượng bộ nhớ cần để lưu trữ dữ liệu là 96KB, 312KB, và 2,400KB ứng với trường hợp sử dụng bốn khung hình đại diện, một chu kỳ bước chân và tất cả các khung hình. Khi sử dụng các khung hình trong một chu kỳ bước chân thì độ chính xác tại xếp hạng thứ nhất tăng xấp xỉ 2% so với khi chỉ sử dụng bốn khung hình đại diện, tuy nhiên, thời gian tính toán gần gấp đôi. Sử dụng toàn bộ khung hình của một người cho phép đạt được độ chính xác tại xếp hạng thứ nhất là 90.56%, tuy nhiên, trường hợp này yêu cầu thời gian tính toán và dung lượng bộ nhớ lớn hơn nhiều so với trường hợp chỉ sử dụng bốn khung hình đại diện. Ngoài ra, tại các thứ hạng cao hơn, độ chính xác giữa các chiến lược lựa chọn khung hình chênh lệch nhau không đáng kể. Từ đó cho phép NCS đưa ra gợi ý cho việc lựa chọn các khung hình đại diện. Đối với một cơ sở dữ liệu nhiều thách thức và trong một ứng dụng mà yêu cầu kết quả trả về phải đúng trong những xếp hạng đầu tiên thì nên sử dụng toàn bộ khung hình trong biểu diễn người. Chiến lược này là một lựa chọn phù hợp nếu khả năng tính toán của máy tính mạnh. Trong trường hợp ngược lại, nếu kết quả trả về không yêu cầu phải là các xếp hạng đầu tiên thì chỉ cần sử dụng bốn khung hình đại diện hoặc các khung hình trong một chu kỳ bước chân. Bảng 2.1 So sánh 3 chiến lược lựa chọn các khung hình đại diện trên khía cạnh độ chính xác tại xếp hạng thứ nhất, thời gian tính toán và dung lượng bộ nhớ cần cung cấp đối với cơ sở dữ liệu PRID-2011. Accuracy at Computational time for each person (s) Methods Memory rank-1 Frame Feature Person Feature pooling Total time selection extraction matching Four key frames 77.19 7.500 3.960 0.024 0.004 11.488 96 KB Walking cycle 79.10 7.500 12.868 0.084 0.004 20.452 312 KB All frames 90.56 0.000 98.988 1.931 0.004 100.919 2,400 KB 2.3.3 So sánh với các nghiên cứu liên quan Bảng 2.2 so sánh kết quả đạt được của phương pháp đề xuất với các nghiên cứu hiện nay, hai kết quả tốt nhất được in đậm. Trên cơ sở dữ liệu PRID-2011, phương pháp đề xuất vượt 9
Bảng 2.2 So sánh giữa phương pháp đề xuất với các nghiên cứu hiện nay trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. Hai kết quả tốt nhất được in đậm. Datasets PRID 2011 iLIDS-VID Matching rates (%) Rank=1 Rank=5 Rank=20 Rank=1 Rank=5 Rank=20 AMOC+EpicFlow, TCSVT 2018 83.7 98.3 100 68.7 94.3 99.3 Two-stream MR, TII 2018 78.7 95.2 99.2 59.4 89.8 99.1 RNN, CVPR 2016 70.0 90.0 97.0 58.0 84.0 96.0 DFCP, CVPR 2017 51.6 83.1 95.5 34.5 63.3 84.4 RFA-Net (LBP-Color), ECCV 2016 53.6 82.9 97.9 41.6 69.7 89.2 CAR, TCSVT 2017 83.3 93.3 96.7 60.2 85.1 94.2 HOG3D + DVR, TPAMI 2016 40.0 71.7 92.2 39.5 61.1 81.0 STFV3D + KISSME, ICCV 2015 64.1 87.3 92.0 44.3 71.7 91.7 TAPR, ICIP 2016 68.6 94.4 98.9 55.0 87.5 97.2 Four key frames 77.2 94.7 99.4 41.1 69.5 90.4 Proposed method A walking cycle 79.1 95.0 99.4 44.1 71.7 90.6 All frames 90.5 98.4 100 70.1 92.7 99.1 trội hơn tất các phương pháp được đề cập ở đây, thậm chí khi so sánh với các phương pháp dựa trên các mạng học sâu. Đối với cơ sở dữ liệu nhiều thách thức và có sự che khuất lớn như iLIDS-VID, phương pháp đề xuất vẫn đạt được kết quả cao tại xếp hạng thứ nhất, với các xếp hạng cao hơn thì kết quả đạt được thấp hơn so với hai phương pháp [15, 24]. Tuy nhiên hai phương pháp này đều yêu cầu chi phí tính toán lớn, khả năng tính toán vượt trội của máy tính khi khai thác thông tin cả về diện mạo và chuyển động của người đi bộ. Ngoài ra khi so sánh với các phương pháp cùng theo hướng tiếp cận trích chọn chu kỳ bước chân [22, 16, 6], chúng ta có thể đưa ra một số nhận xét sau. Các kết quả đạt được trong phương pháp của Wang và cộng sự [22] thấp hơn nhiều so với phương pháp được đề xuất, thậm chí chỉ sử dụng bốn khung hình đại diện trên cả hai cơ sở dữ liệu PRID-2011 và iLIDS-VID. Các kết quả đạt được trong hai phương pháp [16, 6] trên cơ sở dữ liệu PRID-2011 thấp hơn so với phương pháp đề xuất khi dùng bốn khung hình đại diện, và tương đương với kết quả khi sử dụng các khung hình trong một chu kỳ bước chân trên cơ sở dữ liệu iLIDS-VID. Một so sánh nữa giữa phương pháp đề xuất và các phương pháp được đề xuất trong [5, 8, 9], các phương pháp này đều tập trung vào việc lựa chọn khung hình đại diện dựa trên việc phân cụm (clustering). Trong [5], bộ mô tả HOG được đề xuất sử dụng để biểu diễn ảnh, từ đó tính toán độ tương tự giữa hai ảnh liên tiếp. Trên cơ sở đó, chuỗi ảnh được phân đoạn dựa trên các điểm cực tiểu cục bộ của độ tương tự và các khung hình đại diện được lựa chọn là các khung hình trung tâm của mỗi cụm. Tuy nhiên, việc sử dụng HOG được trích chọn trên toàn bộ khung hình sẽ không có tính bền vững bằng việc tính toán FEP trên nửa dưới của khung hình. Với các nghiên cứu của Hassen và cộng sự [8, 9], các tác giả đề xuất sử dụng bộ mô tả Hiệp phương sai để biểu diễn ảnh và thuật toán Mean-shift để phân cụm, từ đó xác định các khung hình đại diện. Cả hai bước này đều yêu cầu chi phí tính toán cao, dung lượng bộ nhớ cần để lưu trữ dữ liệu lớn, và sẽ càng trở nên thách thức lớn khi làm việc trên cơ sở dữ liệu lớn. 2.4 Kết luận và hướng nghiên cứu tiếp theo Chương này đề xuất một phương pháp hiệu quả cho bài toán tái định danh dựa trên nhiều thể hiện với hai đóng góp chính. Thứ nhất, NCS đề xuất các chiến lược lựa chọn khung 10
hình đại diện và tổng hợp đặc trưn nhằm giảm thời gian tính toán cũng như dung lượng bộ nhờ cần để lưu trữ dữ liệu. Các đánh giá định lượng được thực hiện trên hai cơ sở dữ liệu dùng chung PRID-2011 và iLIDS-VID. Thứ hai, NCS đưa ra các khuyến nghị về việc sử dụng các chiến lược lựa chọn khung hình đại diện cũng như tổng hợp đặc trưng. Trong hướng nghiên cứu tiếp theo, phương pháp đề xuất sẽ được mở rộng và thử nghiệm trên các cơ sở dữ liệu lớn, nhiều thách thức hơn. Kết quả chính của chương này được công bố tại công trình nghiên cứu số 7. CHƯƠNG 3 NÂNG CAO HIỆU NĂNG TÁI ĐỊNH DANH DỰA TRÊN KẾT HỢP CÁC ĐẶC TRƯNG 3.1 Giới thiệu Chương này trình bày nội dung liên quan đến chiến lược kết hợp đặc trưng nhằm nâng cao độ chính xác tái định danh. Cả hai loại đặc trưng tự thiết kế và đặc trưng học sâu được sử dụng trong việc biểu diễn ảnh. Đối với đặc trưng tự thiết kế, bộ mô tả GOG [18] và KDES [1] được sử dụng, đối với đặc trưng học sâu, hai trong số mạng nơ-ron tích chập mạnh nhất hiện nay là GoogLeNet và ResNet được khai thác. Ngoài ra, nhằm đánh giá vai trò của mỗi đặc trưng, các trọng số được gắn cho các đặc trưng có thể bằng nhau hoặc thích nghi với từng người truy vấn. Các thử nghiệm được thực hiện trên cả hai ngữ cảnh của bài toán tái định danh. Multiple images Feature (Gallery) extraction ID1 Extracting GOG feature ID2 Extracting Early fusion Training KDES feature SVM ID3 Extracting CNN feature Training phase Model A query image (probe) Feature extraction Extracting GOG feature Product-rule- based late fusion Matching Extracting Early fusion SVM and ID KDES feature Prediction person ranking Extracting Query-adaptive CNN feature late fusion Testing phase Hình 3.1 Phương pháp đề xuất cho bài toán tái định danh dựa trên ảnh-đa ảnh. 11
3.2 Chiến lược kết hợp đặc trưng cho ngữ cảnh thứ nhất Tái định danh dựa trên nhiều thể hiện có thể được phân loại thành hai trường hợp: ảnh-đa ảnh (single-versus-multi, SvsM) hay đa ảnh-đa ảnh (multi-versus-multi MvsM). Hướng tiếp cận ảnh-đa ảnh được coi là một trường hợp đặc biệt của bài toán tái định danh dựa trên nhiều thể hiện, trong đó mỗi người chỉ có duy nhất một ảnh trong tập truy vấn nhưng có nhiều ảnh trên tập tìm kiếm. Hướng tiếp cận này phản ánh một tình huống trong thực tế khi tìm kiếm một kẻ tình nghi hoặc tội phạm mà chỉ có duy nhất một hình ảnh của người đó. 3.2.1 Tái định danh dựa trên ảnh-đa ảnh 3.2.1.1 Phương pháp đề xuất Hình 3.1 mô tả phương pháp được đề xuất cho bài toán tái định danh dựa trên ảnh-đa ảnh. Trong phương pháp này, tái định danh được định nghĩa như một bài toán tìm kiếm thông tin trong đó mô hình về vẻ bề ngoài của mỗi người đã được học từ các ảnh trong tập tìm kiếm và danh tính của người cần truy vấn được xác định dựa trên xác suất thuộc vào từng mô hình của ảnh truy vấn của người đó. 3.2.1.2 Chiến lược kết hợp đặc trưng Kết hợp sớm: Các vector tương ứng với từng loại đặc trưng được ghép nối với nhau để tạo nên một vector đặc trưng có số chiều lớn hơn. Kết hợp muộn: Kết hợp muộn là kết hợp ở mức điểm số, trong đó các danh sách xếp hạng ứng với từng đặc trưng được kết hợp với nhau để đưa ra danh sách xếp hạng cuối cùng. Các trọng số được gán cho các đặc trưng có thể bằng nhau hoặc có thể học thích nghi với người cần truy vấn. Các trọng số thích nghi được Zheng và cộng sự giới thiệu lần đầu tiên vào năm 2015 [25], tuy nhiên nhóm tác giả mới chỉ triển khai cho bài toán tái định danh dựa trên một thể hiện và trong luận án này, chiến lược kết hợp này được mở rộng cho bài toán tái định danh dựa trên nhiều thể hiện. Gọi Sim(q, Gj )prod−equal−weight , Sim(q, Gj )prod−adaptive−weight , và Sim(q, Gj )(m) lần lượt là độ tương tự giữa ảnh truy vấn q và một người Gj trong tập tìm kiếm trong trường hợp trọng số bằng nhau, trọng số thích nghi, và ứng với đặc trưng thứ m. - Quy tắc nhân với trọng số bằng nhau: M Y Sim(m) (q, Gj ) . Sim(q, Gj )prod−equal−weight = (3.1) m=1 - Quy tắc nhân với trọng số thích nghi: M Y ωq(m) Sim(q, Gj )prod−adaptive−weight = Sim(m) (q, Gj ) , (3.2) m=1 (m) trong đó ωq là trọng số ứng với đặc trưng thứ m đối với ảnh truy vấn q và Sim(m) (q, Gj ) là xác suất mà ảnh truy vấn q thuộc vào mô hình của người Gj . 12
3.2.2 Tái định danh dựa trên đa ảnh-đa ảnh Bài toán tái định danh dựa trên đa ảnh-đa ảnh được định nghĩa như một hàm kết hợp của các khâu tái định danh dựa trên ảnh-đa ảnh. Hình 3.2 mô tả phương pháp để xuất cho bài toán tái định danh dựa trên đa ảnh-đa ảnh. Trong phương pháp này không yêu cầu sự ràng buộc về thời gian giữa các ảnh của cùng một người. Độ đo tương tự giữa một người trong tập truy vấn và một người trong tập tìm kiếm được định nghĩa như sau: mi Y Sim(Qi , Gj ) = Sim(qil , Gj ), (3.3) l=1 trong đó, Sim(qil , Gj ) đã được xác định trong phần trước (tái định danh dựa trên ảnh-đa ảnh). Query images (probe) Image-images person Ranked list_1 Image_1 re-identification Ranked list_2 Late fusion Image_2 Image-images person Matching and ID re-identification based on person ranking Product rule Image-images person Ranked list_n Image_n re-identification Hình 3.2 Phương pháp đề xuất cho tái định danh dựa trên đa ảnh-đa ảnh không yêu cầu sự liên kết về thời gian. 3.2.3 Kết quả thử nghiệm trong ngữ cảnh thứ nhất Trong thử nghiệm này, hai cơ sở dữ liệu: CAVIAR4REID và RAiD được sử dụng nhằm đánh giá hiệu năng của phương pháp đề xuất cho bài toán tái định danh trong cả hai trường hợp: dựa trên ảnh-đa ảnh và đa ảnh-đa ảnh. Cơ sở dữ liệu CAVIAR4REID được thiết lập với hai trường hợp. Trong trường hợp A, mỗi người sẽ có 5 ảnh trong mỗi tập truy vấn và 5 ảnh trong tập tìm kiếm. Ngược lại, trong trường hợp B, mỗi người sẽ có 5 ảnh trong tập truy vấn và số ảnh còn lại của người đó được đưa vào tập tìm kiếm. 3.2.3.1 Tái định danh dựa trên ảnh-đa ảnh Thử nghiệm đầu tiên đánh giá hiệu quả của đặc trưng GOG so với các đặc trưng KDES và CNN. Quan sát hình 3.3, mặc dù là một đặc trưng tự thiết kế nhưng kết quả đạt được khi sử dụng đặc trưng GOG hoàn toàn có thể cạnh tranh với đặc trưng học sâu CNN. Thử nghiệm thứ hai nhằm đánh giá hiệu quả của các sơ đồ kết hợp khi kết hợp hai hoặc ba đặc trưng khác nhau. Các kết quả đạt được được chỉ ra như trên hình 3.4. Với việc kết hợp các đặc trưng, tỷ lệ đối sánh đúng tại xếp hạng thứ nhất tăng từ 2% đến 5% so với trong trường hợp chỉ sử dụng một đặc trưng hoặc KDES hoặc CNN. 3.2.3.2 Tái định danh dựa trên đa ảnh-đa ảnh Hình 3.5 biểu diễn các đường cong CMC khi sử dụng từng loại đặc trưng cho bài toán tái định danh dựa trên đa ảnh-đa ảnh trong trường hợp A của cơ sở dữ liệu CAVIAR4REID. 13
1 0 0 1 0 0 1 0 0 9 0 9 0 9 0 M a tc h in g r a te s ( % ) 8 0 M a tc h in g r a te s ( % ) M a tc h in g r a te s ( % ) 8 0 8 0 7 0 7 0 7 0 6 0 6 7 .4 7 % G O G + S V M 6 0 8 2 .8 3 % G O G + S V M 6 0 8 4 .8 6 % G O G + S V M 5 0 6 5 .5 0 % K D E S + S V M 8 1 .1 9 % K D E S + S V M 8 1 .6 0 % K D E S + S V M 6 2 .6 4 % C N N + S V M 8 2 .8 9 % C N N + S V M 8 4 .7 9 % C N N + S V M 4 0 5 0 5 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 R a n k R a n k R a n k (a) (b) (c) Hình 3.3 Đánh giá hiệu năng của ba đặc trưng (GOG, KDES, CNN) với 10 lần thử nghiệm trên các cơ sở dữ liệu (a) CAVIAR4REID-trường hợp A (b) CAVIAR4REID-trường hợp B (c) RAiD trong trường hợp ảnh-đa ảnh. C M C - R A iD S v s M C M C - C A V IA R 4 R E ID S v s M (c a s e A ) C M C - C A V IA R 4 R E ID S v s M (c a s e B ) 1 0 0 1 0 0 1 0 0 9 0 9 0 8 0 8 0 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) 8 0 7 0 7 0 6 0 6 0 4 9 .9 7 % S D A L F 5 9 .6 3 % S D A L F 3 7 .6 9 % S D A L F 8 6 .9 7 % E a r ly - fu s io n(K D E S + C N N ) 8 6 .8 5 % E a r ly - fu s io n (K D E S + C N N ) 5 0 6 7 .3 1 % E a r ly - fu s io n (K D E S + C N N ) 5 0 8 8 .6 1 % P ro d u c t-ru le (K D E S + C N N ) 8 7 .6 3 % P r o d u c t- r u le (K D E S + C N N ) 7 0 .6 4 % P ro d u c t-ru le ( K D E S + C N N ) 8 8 .1 7 % Q u e ry -a d a p tiv e ( K D E S + C N N ) 6 0 8 7 .2 7 % Q u e ry -a d a p tiv e ( G O G + K D E S + C N N ) 7 0 .6 1 % Q u e ry -a d a p tiv e (K D E S + C N N ) 8 8 .1 7 % E a r ly - fu s io n (G O G + K D E S + C N N ) 8 9 .2 9 % E a r ly - fu s io n (G O G + K D E S + C N N ) 4 0 7 2 .5 0 % E a r ly - fu s io n (G O G + K D E S + C N N ) 4 0 9 0 .3 3 % P ro d u c t-ru le ( G O G + K D E S + C N N ) 8 8 .4 6 % P r o d u c t- r u le (G O G + K D E S + C N N ) 7 3 .5 8 % P ro d u c t-ru le ( G O G + K D E S + C N N ) 8 9 .8 3 % Q u e ry -a d a p tiv e ( G O G + K D E S + C N N ) 8 8 .9 8 % L a te - fu s io n (G O G + K D E S + C N N ) 7 3 .6 1 % Q u e ry -a d a p tiv e (G O G + K D E S + C N N ) 3 0 3 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 R a n k R a n k R a n k (a) (b) (c) Hình 3.4 Đánh giá hiệu năng của ba chiến lược kết hợp khi sử dụng hai hoặc ba đặc trưng với 10 lần thử nghiệm ngẫu nhiên trên các cơ sở dữ liệu (a) CAVIAR4REID-trường hợp A (b) CAVIAR4REID-trường hợp B (c) RAiD trong trường hợp ảnh-đa ảnh . C M C - C A V IA R 4 R E ID M v s M (c a s e A ) 1 0 0 9 5 9 0 M a tc h in g r a te ( % ) 8 5 8 0 6 7 .5 0 % S D A L F 9 1 .5 3 % M v s M G O G + S V M 7 5 9 1 .3 9 % M v s M K D E S + S V M 7 0 8 8 .0 6 % M v s M C N N + S V M 9 4 .4 4 % M v s M E a r ly - f u s io n 6 5 9 3 .8 9 % M v s M P r o d u c t- r u le 9 4 .3 1 % M v s M Q u e r y - a d a p t iv e 6 0 5 1 0 1 5 2 0 R a n k Hình 3.5 Đường cong CMC ứng với tái định danh dựa trên đa ảnh-đa ảnh trong trường hợp A của cơ sở dữ liệu CAVIAR4REID. Độ chính xác tại xếp hạng thứ nhất lần lượt là 91.53%, 91.39% and 88.06% khi sử dụng GOG, KDES, và CNN. Ngoài ra, ba chiến lược kết hợp vẫn tỏ ra hiệu quả trong trường hợp này, độ 14
chính xác tại xếp hạng thứ nhất xấp xỉ bằng 94%. Bảng 3.1 tổng hợp tỷ lệ đối sánh đúng ứng với trường hợp B của cơ sở dữ liệu CAVIAR4REID và RAiD. Bảng này đã chỉ ra những kết quả rất ấn tượng với độ chính xác tại xếp hạng thứ nhất lên đến 100%. Chúng ta có thể thấy được một kết quả rất tốt tại xếp hạng thứ 5 thậm chí là xếp hạng thứ nhất trên cơ sở dữ liệu RAiD. Bảng 3.1 Tỷ lệ đối sánh đúng trong trường hợp đa ảnh-đa ảnh trong a) trường hợp B của CAVIAR và b) RAiD. Methods Rank=1 Rank=5 Rank=10 Rank=20 Methods Rank=1 Rank=5 Rank=10 Rank=20 SDALF[4] 81.67 96.11 98.06 98.89 SDALF[4] 86.05 93.02 95.35 100.00 M vsMGOG+SV M 98.89 100.00 100.00 100.00 M vsMGOG+SV M 100.00 100.00 100.00 100.00 M vsMKDES+SV M 98.75 99.86 100.00 100.00 M vsMKDES+SV M 99.07 99.07 99.07 99.30 M vsMCN N +SV M 98.47 99.72 99.86 99.86 M vsMCN N +SV M 99.30 99.30 99.30 99.30 M vsMEarly−f usion 99.72 100.00 100.00 100.00 M vsMEarly−f usion 99.77 99.77 99.77 99.77 M vsMP roduct−rule 99.58 99.86 99.86 99.86 M vsMP roduct−rule 98.37 98.37 98.60 98.60 M vsMQuery−adaptive 99.72 100.00 100.00 100.00 M vsMQuery−Adaptive 99.77 99.77 99.77 100.00 Bảng 3.2 So sánh kết quả đạt được tại xếp hạng thứ nhất của một số nghiên cứu liên quan (*) được hiểu là kết quả có được bằng cách áp dụng các chiến lược đã được đề xuất trước đó với 10 lần thử nghiệm ngẫu nhiên trên cơ sở dữ liệu CAVIAR4REID trong trường hợp A. Image-to-images Images-to-images Methods (N=5) (N=5) SDALF 37.69 67.50 KDES 65.50 91.39(*) LSTM - 86.39(*) WSC 45.60 61.10 ISR - 90.10 DDLM 80.10 92.30 The proposed method 73.61 94.44 Bảng 3.2 tổng kết tỷ lệ đối sánh đúng tại xếp hạng thứ nhất của phương pháp được đề xuất trong chương này với các nghiên cứu mới nhất hiện nay cho cả hai trường hợp tái định danh dựa trên ảnh-đa ảnh và đa ảnh-đa ảnh trên cơ sở dữ liệu CAVIAR4REID trường hợp A. 3.3 Chiến lược kết hợp với trường hợp ngữ cảnh thứ hai 3.3.1 Phương pháp đề xuất Hình 3.6 mô tả phương pháp được đề xuất cho bài toán tái định danh dựa trên nhiều thể hiện với việc tích hợp thêm mô-đun kết hợp các đặc trưng vào sơ đồ đã được đề xuất trong Chương 2. Phương pháp này gồm năm bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng ở mức ảnh và mức chuỗi, học khoảng cách, kết hợp muộn thích nghi, đối sánh và xếp hạng. Ngoài ra, hai chiến lược kết hợp dựa trên toán tử nhân và cộng được xem xét trong nghiên cứu này và vai trò của từng đặc trưng được đánh giá thông qua trọng số gắn cho nó. 3.3.2 Kết quả thử nghiệm Các kết quả đạt được với các chiến lược được đề xuất được chỉ ra trên hình 3.7 và 3.8 ứng với từng trường hợp trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. Một số kết luận được đưa ra như sau. Thứ nhất, mặc dù GOG và ResNet là hai trong số những đặc trưng hiệu quả cho bài toán tái định danh nhưng sự kết hợp hai đặc trưng này vẫn mang đến một kết quả 15
Gallery Image-level sequences features Extract Extracting GOG walking cycles features Sequence- level features Extracting Extract 4 key ResNet features frames A probe Metric learning Query-adaptive Matching and ID person sequence late fusion ranking ID person Extract Extracting GOG walking cycles features Sequence- level features Extracting Extract 4 key ResNet features frames Image-level features Hình 3.6 Phương pháp đề xuất cho bài toán tái định danh dựa trên nhiều thể hiện với việc kết hợp kỹ thuật học khoảng cách trong sơ đồ kết hợp đặc trưng. 1 0 0 1 0 0 1 0 0 9 5 9 5 9 5 9 0 9 0 9 0 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) 8 5 8 5 8 5 8 0 8 0 8 0 7 5 7 5 7 5 7 0 7 7 .1 9 % G O G 7 0 7 9 .1 0 % G O G 7 0 9 0 .5 6 % G O G 6 9 .4 4 % R e s N e t 7 1 .3 6 % R e s N e t 8 0 .5 6 % R e s N e t 6 5 8 2 .8 4 % P r o d u c t- r u le a d a p tiv e w e ig h ts 6 5 8 4 .5 7 % P r o d u c t- r u le a d a p tiv e w e ig h ts 6 5 9 1 .4 6 % P r o d u c t- r u le a d a p tiv e w e ig h ts 8 2 .0 4 % S u m - r u le a d a p tiv e w e ig h ts 8 2 .6 5 % S u m - r u le a d a p tiv e w e ig h ts 8 9 .8 9 % S u m - r u le a d a p tiv e w e ig h ts 6 0 6 0 6 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 R a n k R a n k R a n k (a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person person cycle Hình 3.7 Tỷ lệ đối sánh đúng với các chiến lược kết hợp khác nhau trên cơ sở dữ liệu PRID- 2011 khi sử dụng a) bốn khung hình đại diện b) các khung hình trong một chu kỳ bước chân c) tất cả các khung hình 1 0 0 1 0 0 1 0 0 9 0 9 0 9 0 8 0 8 0 8 0 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) 7 0 7 0 7 0 6 0 6 0 6 0 5 0 5 0 5 0 4 1 .0 9 % G O G 4 4 .1 4 % G O G 7 0 .1 3 % G O G 4 9 .1 1 % R e s N e t 5 0 .7 0 % R e s N e t 6 7 .6 7 % R e s N e t 4 0 4 0 4 0 5 7 .4 6 % P r o d u c t- r u le a d a p tiv e w e ig h ts 6 0 .6 1 % P r o d u c t- r u le a d a p tiv e w e ig h ts 8 0 .7 3 % P r o d u c t- r u le a d a p tiv e w e ig h ts 6 2 .2 1 % S u m - r u le a d a p tiv e w e ig h ts 6 4 .3 8 % S u m - r u le a d a p tiv e w e ig h ts 8 1 .8 0 % S u m - r u le a d a p tiv e w e ig h ts 3 0 3 0 3 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 5 1 0 1 5 2 0 R a n k R a n k R a n k (a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person person cycle Hình 3.8 Tỷ lệ đối sánh đúng với các chiến lược kết hợp khác nhau trên cơ sở dữ liệu iLIDS- VID khi sử dụng a) bốn khung hình đại diện b) các khung hình trong một chu kỳ bước chân c) tất cả các khung hình 16
tốt hơn. Với cơ sở dữ liệu PRID-2011, độ chính xác tại xếp hạng thứ nhất tăng 5.65%, 5.47%, và 0.9% ứng với các trường hợp sử dụng bốn khung hình đại diện, các khung hình trong một chu kỳ bước chân và tất cả các khung hình. Với cơ sở dữ liệu iLIDS-VID, độ chính xác tại xếp hạng thứ nhất tăng lần lượt 13.1%, 13.68%, và 14.13% khi áp dụng các chiến lược lựa chọn khung hình đại diện khác nhau. Có thể thấy đặc trưng ResNet lại tỏ hiệu quả với cơ sở dữ liệu nhiều thách thức như iLIDS-VID, do ResNet với cấu trúc học sâu có thể học được sự phức tạp của nền và trích chọn được những thông tin hữu ích cho quá trình biểu diễn ảnh. Bảng 3.3 Bảng 3.3 So sánh giữa phương pháp đề xuất với các nghiên cứu liên quan mới nhất hiện nay trên hai cơ sở dữ liệu PRID-2011 và iLIDS-VID. Hai kết quả tốt nhất được in đậm. Methods PRID-2011 iLIDS-VID Matching rate (%) Rank=1 Rank=5 Rank=20 Rank=1 Rank=5 Rank=20 TAPR, ICIP 2016 68.6 94.4 98.9 55.0 87.5 97.2 AMOC+EpicFlow, TCSVT 2018 83.7 98.3 100 68.7 94.3 99.3 Two-stream MR, TII 2018 78.7 95.2 99.2 59.4 89.8 99.1 RNN, CVPR 2016 70.0 90.0 97.0 58.0 84.0 96.0 HOG3D + DVR, TPAMI 2016 40.0 71.7 92.2 39.5 61.1 81.0 STFV3D + KISSME, ICCV 2015 64.1 87.3 92.0 44.3 71.7 91.7 CAR, TCSVT 2017 83.3 93.3 96.7 60.2 85.1 94.2 DFCP, CVPR 2017 51.6 83.1 95.5 34.5 63.3 84.4 CRF, CVPR 2017 77.0 93.0 98.0 61.0 85.0 97.0 CFFM, SPIC 2020 93.3 95.5 100.0 82.0 95.3 100.0 Four key frames 77.2 94.7 99.4 41.1 69.5 90.4 GOG+XQDA, Chapter 2 A walking cycle 79.1 95.0 99.4 44.1 71.7 90.8 All frames 90.6 98.4 100.0 70.1 92.7 99.1 Four key frames 82.8 96.2 99.7 57.5 83.1 95.6 Proposed method A walking cycle 84.6 96.8 99.7 60.6 84.8 96.2 (Product-rule-based) All frames 91.5 99.0 100.0 80.7 96.7 99.6 Four key frames 82.0 96.0 99.7 62.2 85.4 96.3 Proposed method A walking cycle 82.7 96.2 99.7 64.4 86.5 96.5 (Sum-rule-based) All frames 89.9 98.8 100.0 81.8 96.1 99.6 so sánh với các kết quả đạt được của phương pháp đề xuất với một số nghiên cứu mới nhất hiện nay. So sánh với kết quả đạt được ở Chương 2, độ chính xác tại thứ hạng thứ nhất trong trường hợp sử dụng toàn bộ khung hình của một người là xấp xỉ, nhưng trong hai trường hợp còn lại thì độ chính xác tăng đến 5.7% và 21.1% tương ứng trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. Trong nghiên cứu của Liu và cộng sự, đặc trưng tự thiết kế LOMO và đặc trưng học sâu PCN (PCA-based Neural Network) được kết hợp với nhau nhằm khai thác ưu điểm của mỗi đặc trưng. Tuy nhiên, trong nghiên cứu này chưa thấy rõ được vai trò của từng đặc trưng. Trong nghiên cứu của Chen và cộng sự [2], hai cấu trúc mạng học sâu CNN và RNN được sử dụng để trích chọn các thông tin về không gian và thời gian. Kết quả đạt được tại xếp hạng thứ nhất trên cơ sở dữ liệu PRID-2011 và iLIDS-VID là 77.0% và 61.0%, thấp hơn kết quả của phương pháp đề xuất khi chỉ sử dụng bốn khung hình đại diện (82.0% và 62.6%). Kế thừa các kết quả đạt được trong [2], nhóm nghiên cứu này đã xem xét vai trò của mỗi ảnh trong một chuỗi là khác nhau thông qua cấu trúc mạng Attention. Mặc dù sử dụng nhiều mạng học sâu với độ phức tạp tính toán cao, thời gian tính toán lớn nhưng độ chính xác tại xếp hạng thứ nhất của phương pháp này chỉ cao hơn phương pháp đề xuất trong Chương này là 1.8% và 0.2% trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. 17
3.4 Kết luận Chương này đã đề xuất một số chiến lược kết hợp cho cả hai ngữ cảnh của bài toán tái định danh. Trong ngữ cảnh thứ nhất, bài toán tái định danh được định nghĩa như một bài toán tìm kiếm thông tin. Các kết quả đạt được đã chứng minh được tính ưu việt của phương pháp và không yêu cầu sự ràng buộc về mặt thời gian giữa các khung hình của cùng một người. Đối với ngữ cảnh thứ hai, đưa ra phương pháp mới là sự kết hợp giữa học khoảng cách vào sơ đồ kết hợp đặc trưng. Những kết quả chính trong chương này được công bố trong công trình thứ 5 và thứ 6 của tác giả. CHƯƠNG 4 ĐÁNH GIÁ ĐỊNH LƯỢNG MỘT KẾT NỐI ĐẦY ĐỦ CỦA HỆ THỐNG TÁI ĐỊNH DANH 4.1 Giới thiệu Một hệ thống giám sát thực tế gồm ba bước cơ bản: phát hiện người, theo vết và tái định danh. Tuy nhiên, đa phần các nghiên cứu về tái định danh hiện nay đều làm việc trên các vùng không gian chứa đối tượng được phát hiện một cách thủ công, các vùng không gian này bao sát người. Khi đó, tái định danh được thực hiện với chất lượng đầu vào là hoàn hảo. Tuy nhiên, khi các bước phát hiện người và theo vết được thực hiện tự động sẽ mang đến một số thách thức cho bài toán tái định danh, ví dụ: vùng không gian được khoanh chỉ chứa một phần cơ thể người, hoặc có sự che khuất lớn trong khâu phát hiện hoặc sự chuyển đổi danh tính (ID Switch) do sự xuất hiện/biến mất của một người, một tracklet của một người bị phân tách thành nhiều tracklet con xảy ra trong quá trình theo vết. Mục đích của chương này là đánh giá hiệu năng một kết nối đầy đủ của hệ thống tái định danh. Do hạn chế về mặt thời gian, nên trong luận án này NCS chỉ đánh giá sự ảnh hưởng của khâu phát hiện và phân đoạn tự động tới chất lượng của tái định danh. 4.2 Hệ thống tái định danh hoàn toàn tự động Một hệ thống giám sát hoàn toàn tự động được mô tả như trên Hình 4.1 gồm các bước: phát hiện người, phân đoạn, theo vết và tái định danh. Trong thực tế, các bước phát hiện và phân đoạn ảnh thường được tích hợp với nhau. Các vùng không gian chứa người (bounding boxes) được sinh ra trong bước phát hiện người tự động, sau đó, kỹ thuật phân đoạn ảnh thực hiện loại bỏ nền nhằm giảm nhiễu cho quá trình tái định danh. Các vùng không gian tương ứng của một người trong cùng một trường quan sát của camera được kết nối với nhau thông qua các kỹ thuật theo vết. Cuối cùng, tái định danh thực hiện nhiệm vụ liên kết các vùng không gian đó của cùng một người trên các trường quan sát của các camera khác nhau. 18