Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:136

Thêm vào BST

Báo xấu

31
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu cụ thể của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video nhằm đạt được hiệu năng cao trên hai phương diện tốc độ và độ chính xác; cải tiến các mô hình dùng để phát hiện đối tượng trong video gồm: dò tìm và nhận dạng hình dáng của đối tượng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

i LỜI CAM ĐOAN Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Thái Nguyên, ngày tháng 08 năm 2020 Tác giả luận án
ii LỜI CẢM ƠN Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới hai Thầy. Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá trình thực hiện luận án. Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong quá trình hoàn thành và bảo vệ luận án. Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để tôi có thời gian tập trung nghiên cứu, thực hiện luận án. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng gửi tặng đến các thành viên trong Gia đình. Tôi xin trân trọng cảm ơn!
iii MỤC LỤC LỜI CAM ĐOAN ........................................................................................... i LỜI CẢM ƠN ................................................................................................ ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ........................................ vi DANH MỤC CÁC BẢNG .......................................................................... viii DANH MỤC HÌNH VẼ ................................................................................ ix PHẦN MỞ ĐẦU ............................................................................................ 1 1. Tính cấp thiết .......................................................................................... 1 2. Mục tiêu nghiên cứu của luận án ............................................................. 2 3. Đối tượng, phạm vi nghiên cứu của luận án ............................................ 3 4. Đóng góp chính của luận án .................................................................... 4 5. Phương pháp và nội dung nghiên cứu ..................................................... 5 6. Cấu trúc luận án ...................................................................................... 5 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO ...................................................................... 7 1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video .............................................................................................................. 7 1.1.1. Khái quát về video ...................................................................... 7 1.1.2. Bài toán thay thế đối tượng trong video .................................... 12 1.1.3. Một số khái niệm ...................................................................... 16 1.1.3.1. Dò tìm đối tượng trong video ........................................... 16 1.1.3.2. Nhận dạng hình dạng đối tượng trong video .................... 16 1.1.3.3. Phát hiện đối tượng trong video ....................................... 16 1.1.3.4. Phân vùng đối tượng ........................................................ 17 1.1.3.5. Video inpainting .............................................................. 18 1.1.3.6. Thay thế đối tượng trong video ........................................ 19 1.1.4. Các thách thức cho bài toán thay thế đối tượng......................... 19 1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng trong video ................................................................................................... 22
iv 1.2.1. Dò tìm đối tượng ...................................................................... 22 1.2.1.1. Dựa trên điểm đặc trưng .................................................. 22 1.2.1.2. Dựa trên các mô hình từng phần của đối tượng ................ 23 1.2.1.3. Dựa trên mạng nơron nhân chập ...................................... 24 1.2.1.4. Phát hiện đối tượng quảng cáo ......................................... 25 1.2.2. Nhận dạng hình dạng đối tượng ................................................ 26 1.2.2.1. Lượng tử hóa vector ......................................................... 26 1.2.2.2. Lượng tử hóa tích đề các .................................................. 29 1.2.2.3. Độ đo khoảng cách .......................................................... 30 1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN ................. 32 1.2.3. Các kỹ thuật hoàn thiện video................................................... 34 1.2.3.1. Video inpainting dựa trên lấy mẫu ................................... 35 1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36 1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ...... 37 Kết luận chương 1 ..................................................................................... 38 CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO ......................... 39 2.1. Dò tìm đối tượng trong video ............................................................. 39 2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO ......................... 40 2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv ......................... 42 2.1.2.1. Cải tiến trong hàm loss .................................................... 42 2.1.2.2. Cải tiến trong kiến trúc mạng ........................................... 46 2.1.2.3. Trích chọn đặc trưng ........................................................ 49 2.1.3. Ước lượng, đánh giá mô hình cải tiến ....................................... 49 2.1.3.1. Dữ liệu kiểm thử .............................................................. 49 2.1.3.2. Độ đo ước lượng .............................................................. 50 2.1.3.3. Môi trường cài đặt ........................................................... 52 2.1.3.4. Ước lượng, đánh giá ........................................................ 52 2.2. Nhận dạng hình dạng đối tượng ......................................................... 59 2.2.1. Mô hình lập chỉ mục PSVQ ...................................................... 60
v 2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ........................ 64 2.2.3. Ước lượng, đánh giá ................................................................. 68 2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử ............................. 69 2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ ......... 71 2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73 2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ bậc kết hợp PSVQ ........................................................................ 75 Kết luận chương 2 ..................................................................................... 80 CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81 3.1. Phân vùng đối tượng .......................................................................... 81 3.1.1. Các kỹ thuật phân vùng thực thể ............................................... 82 3.1.2. Mô hình phân vùng thực thể ..................................................... 84 3.1.2.1. Phát sinh mặt nạ vùng ...................................................... 85 3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ........................... 87 3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................. 90 3.2. Mô hình hoàn thiện video ................................................................... 92 3.2.1. Kiến trúc mô hình V-RBPconv ................................................. 94 3.2.2. Mô hình kiến trúc mạng RBPconv ............................................ 95 3.2.3. Hàm loss ................................................................................... 99 3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ...................... 100 3.2.4.1. Môi trường thực nghiệm ................................................ 101 3.2.4.2. Kết quả so sánh định tính .............................................. 103 3.2.4.3. Kết quả so sánh định lượng ............................................ 104 Kết luận chương 3 ................................................................................... 109 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 110 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN.................................................................................................. 112 TÀI LIỆU THAM KHẢO .......................................................................... 113 PHỤ LỤC .................................................................................................. 122
vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU Từ viết Tên đầy đủ (và tạm dịch) tắt ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất) ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng) Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và AVI hình ảnh bên trong) CAM Class Activation Map (Bản đồ kích hoạt lớp) CPU Central processing unit (Bộ vi xử lý trung tâm) CNN Convolution Neural Network (Mạng nơron tích chập) DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu) FID Frechet Inception Distance (khoảng cách Frechet) Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất FVI kỳ) FCN Fully Convolutional Network (Mạng tích chập đầy đủ) GAN Generative Adversarial Networks (Mạng sinh đối kháng) GPU Graphics processing unit (Bộ xử lý đồ họa) HD High Definition (chuẩn độ nét cao) HOG Histogram of oriented gradients (Biểu đồ hướng gradient) IoU Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao) Inverted file index Asymmetric distance computation (Chỉ mục IVFADC danh sách ngược của ADC) Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng LPIPS đồng các mẫu ảnh) MSE Mean square error (Lỗi bình phương trung bình) MPEG Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động) NMS Non-Maxima Suppression (Loại bỏ các điểm không cực trị)
vii Từ viết Tên đầy đủ (và tạm dịch) tắt National Television System Committee (Ủy ban quốc gia về các hệ NTSC thống truyền hình) PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa) PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu) PAL Phase Alternation Line (Hệ truyền hình màu xoay pha) PQ Product quantization (Lượng tử hóa tích đề các) PSL Peak Simulation Layer (Tầng kích hoạt cực đại) Product sub-vector quantization (Lượng tử hóa tích đề các cụm PSVQ vector) RGB Red, Green, Blue (Hệ màu RGB) RoI Region of Interest (Vùng chứa đối tượng) Region-based Convolutional Neural Networks (Mạng nơron tích R-CNN chập dựa trên đề xuất vùng) SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ) SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD) SURF Speeded up robust features (Đặc trưng SURF) SD Standard Denfinition (Độ nét tiêu chuẩn) SSIM Structural Similarity Index (Chỉ số đồng nhất có cấu trúc) VGG Visual Geometry Group (Nhóm hình học trực quan) YOLO You only look once (Mạng nhìn đối tượng chỉ một lần)
viii DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang bảng 2.1 Thông số phần cứng thực nghiệm mô hình YOLO-Adv 52 2.2 Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 55 So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu 2.3 58 Flickrlogos-32 2.4 Các tập dữ liệu đặc trưng 69 2.5 Các tham số dùng để xây dựng các bộ lượng tử 75 So sánh kết quả của mô hình sử dụng với các phương pháp 3.1 khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện 90 khác nhau. Kết quả định lượng trên tập dữ liệu Places2 của các mô 3.2 106 hình: CA, Pconv, EC và RBPConv. Kết quả định lượng trên tập dữ liệu FVI với các mô hình: 3.3 107 EC, CombCN, 3Dgated và V- RBPConv Số lượng đối tượng cho các tập huấn luyện và kiểm thử của A.1 124 tập dữ liệu FlickrLogo-47.
ix DANH MỤC HÌNH VẼ Số hiệu Tên hình vẽ Trang hình vẽ 1.1 Cấu trúc phân cấp của video 7 1.2 Sơ đồ chuyển đổi dữ liệu video 11 1.3 Một số ứng dụng chèn/thay thế logo trong video 12 1.4 Mô hình phát hiện và thay thế đối tượng trong video 13 1.5 Các kiểu phân vùng ảnh 17 1.6 Các ví dụ về hoàn thiện, tái tạo ảnh/video 18 1.7 Một số trở ngại trong phát hiện đối tượng quảng cáo 19 1.8 Mô hình lượng tử hóa tích đề các 28 1.9 Mô hình nhận dạng hình dạng đối tượng 32 1.10 Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting 34 2.1 Ý tưởng chính của mô hình YOLO 40 2.2 Cách tính IoU 41 2.3 Kiến trúc chi tiết mạng YOLO-Adv 47 2.4 Mô hình trích chọn đặc trưng 48 2.5 Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 53 2.6 Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 54 2.7 Một số hình ảnh phát hiện Logo 57 2.8 Chất lượng mã hóa PSVQ 70 2.9 Tốc độ tìm kiếm ANN trên các tập đặc trưng 72 2.10 Ảnh hưởng của tham số (d,k) trên các tập dữ liệu 74
x Số hiệu Tên hình vẽ Trang hình vẽ 2.11 Hiệu năng thực thi trên các tập đặc trưng 77 Một số kết quả trực quan nhận dạng hình dạng đối tượng 2.12 78 quảng cáo 3.1 Mô hình huấn luyện mạng phân vùng ảnh 83 3.2 Ví dụ về làm tinh mặt nạ 85 3.3 Mô hình phân vùng thực thể Mask R-CNN 87 Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu 3.4 89 PASCAL VOC 2012 3.5 Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012 91 3.6 Kiến trúc mô hình video inpainting 3DGated 92 3.7 Kiến trúc mô hình video inpainting V-RBPconv 93 3.8 Kiến trúc mô hình RBPconv 95 3.9 Kiến trúc khối residual cải tiến 96 3.10 Một số mặt nạ minh họa 101 3.11 So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình 102 3.12 So sánh trực quan của các mô hình video inpainting 103 Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 A.1 122 (bên dưới) được thể hiện trong các bounding box A.2 Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47 123
1 PHẦN MỞ ĐẦU 1. Tính cấp thiết Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng, người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và dự báo sẽ tiếp tục tăng mạnh trong những năm tới. Tận dụng những video sẵn có với nội dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh, video thể thao, video về các sự kiện đặc biệt, ... các đối tượng quảng cáo ngày nay được tích hợp trực tiếp trong nội dung của các video này. Các ví dụ điển hình là chèn billboard, nhãn hiệu, ảnh quảng cáo vào vị trí thích hợp quanh sân vận động trong video thể thao khi không thể đặt trực tiếp tại sân; loại bỏ hoặc thay thế các trademark trong một đoạn phim bằng một biểu tượng khác. Việc thay thế, chèn thêm này phần lớn được hoàn thiện một cách thủ công thông qua các công nghệ hiệu chỉnh trong quá trình hậu xử lý video. Quá trình thay thế thủ công thường được thực hiện bằng cách duyệt qua tất cả các khung hình (frame) để nhận diện các frame tiềm năng, thích hợp cho việc tích hợp hình ảnh quảng cáo. Sau đó dò tìm vùng thích hợp trong các frame này để đặt hình ảnh quảng cáo hoặc tìm các hình ảnh quảng cáo, đối tượng không phù hợp để thay thế bằng hình ảnh quảng cáo mới. Cuối
2 cùng là hoàn thiện, làm mượt, tạo tính chân thực cho video. Quá trình xử lý này được xem là một tiến trình con trong bài toán hậu xử lý video đã và đang thu hút được nhiều nghiên cứu trong cộng đồng thị giác máy tính với mục đích tạo ra các công cụ xử lý tự động, giảm thiểu tối đa sự can thiệp của con người nhưng vẫn thu được ảnh kết quả có độ chân thực cao hơn. Tuy nhiên, các hệ thống công nghệ thị giác vẫn còn nhiều hạn chế và giới hạn khi xử lý video. Phát hiện và thay thế đối tượng trong video nói chung và video có nội dung tích hợp đối tượng quảng cáo nói riêng là một chuỗi các tiến trình cốt lõi trong quá trình hậu xử lý video. Nó bao hàm các kỹ thuật phân tích, xử lý video để dò tìm, nhận dạng các đối tượng cũng như tư thế, hình dạng của chúng trong video từ đó có những tác động hợp lý vào đối tượng và hoàn thiện video sau khi có những tác động này. Ngoài ra, từng tiến trình con trong quá trình hậu xử lý video này còn có thể được ứng dụng rời rạc trong nhiều lĩnh vực khác như nhận dạng hành động, phân tích video, tóm tắt video, giám sát trực quan, thống kê đối tượng, xóa bỏ đối tượng khỏi video, hiệu chỉnh cảnh sau quay. Với sự bùng nổ số lượng video có sẵn cả trực tuyến và ngoại tuyến như đã minh họa bên trên làm cho việc phân tích, xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung. 2. Mục tiêu nghiên cứu của luận án Mục tiêu cụ thể của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video nhằm đạt được hiệu năng cao trên hai phương diện tốc độ và độ chính xác. Cải tiến các mô hình dùng để phát hiện đối tượng trong video gồm: dò tìm và nhận dạng hình dáng của đối tượng. Nghiên cứu cải tiến các kỹ thuật liên quan đến bài toán thay thế đối
3 tượng gồm: phân vùng, trích chọn phần hiển thị của đối tượng trong các vùng ảnh; hoàn thiện các vùng bị phá hủy do quá trình xử lý như loại bỏ hoặc thay thế tạo ra. Các cải tiến trên cũng có thể được mở rộng, ứng dụng vào để giải quyết một số bài toán trong lĩnh vực thương mại như: tích hợp đối tượng quảng cáo vào vị trí thích hợp trong video có sẵn nội dung; phân tích thị trường, nhận dạng, thống kê sản phẩm trong các video quảng cáo; chèn đối tượng quảng cáo vào vùng ảnh thích hợp, thay thế đối tượng quảng cáo trong các video thể thao; hiệu chỉnh cảnh quay, xóa bỏ đối tượng không mong muốn xuất hiện trong các cảnh quay của video phim ảnh, quảng cáo. 3. Đối tượng, phạm vi nghiên cứu của luận án Do giới hạn về thời gian, luận án không tập trung nhiều vào nghiên cứu cấu trúc, định dạng, sự cấu thành của video, phân đoạn cảnh quay, trích chọn frame, đồng bộ phần hình ảnh và âm thanh. Luận án sử dụng dữ liệu đầu vào là phần hình ảnh của đoạn video đã được ghi lại theo chuẩn MPEG-4 (Moving Picture Experts Group) dùng cho truyền hình vô tuyến, mạng và Internet. Phần hình ảnh video đầu vào được mã hóa kích thước 720p hoặc 480p với tỷ lệ khung hình 16:9, tức là có độ phân giải 1280 x 720px hoặc 854 x 480px và giả thiết đã được phân thành một chuỗi các frame liên tiếp nhau. Đối tượng được luận án tập trung nghiên cứu là các kỹ thuật dò tìm, nhận dạng đối tượng tự động, các kỹ thuật hoàn thiện video theo hướng tiếp cận đối tượng trên chuỗi frame ảnh liên tục đã được trích chọn. Hướng tới mục tiêu phát triển hệ thống thay thế đối tượng trong các video thể thao, quảng cáo, phim ảnh phục vụ mục đích thương mại, phân tích thị trường, phạm vi của đối tượng nhận dạng, thay thế được giới hạn là các hình ảnh tĩnh, hai chiều của đối tượng quảng cáo. Đối tượng này thường được thể hiện nổi bật trong video để thu hút người xem nên có tính phân biệt với các đối tượng khác và với nền mà nó hiển thị. Bên cạnh đó kích thước của đối tượng
4 nghiên cứu trong video không quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều vì nếu quá nhỏ thì sẽ không thu hút được người xem. Vùng phá hủy sinh ra sau khi xóa bỏ hoặc thay thế đối tượng cần được hoàn thiện trong quá trình hậu xử lý video được luận án tập trung nghiên cứu sẽ có kích thước và hình dạng bất kỳ. Tuy nhiên khi thay thế hai đối tượng thường có tính tương đồng cao về kích thước, vì vậy luận án tập trung nhiều vào nghiên cứu các vùng trống có hình dạng chủ yếu dưới dạng đường cong, đường kẻ, đường thẳng, hình điểm với độ dày không quá lớn. 4. Đóng góp chính của luận án Xuất phát từ phạm vi nghiên cứu, các vấn đề luận án nghiên cứu gồm: Vấn đề 1: Nghiên cứu, cải tiến mô hình dò tìm, định vị đối tượng trong video theo thời gian thực. Vấn đề 2: Nghiên cứu, cải tiến kỹ thuật đối sánh, tìm kiếm ứng dụng cho bài toán nhận dạng hình dạng của đối tượng tìm thấy trong video. Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để trích chọn vùng hiển thị của đối tượng. Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video sau hiệu chỉnh video. Trên cơ sở nghiên cứu các vấn đề nêu trên, luận án đã có ba đóng góp chính là: (i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo hướng tiếp cận mạng tích chập học sâu (Deep Convolution Neural Network – DCNN). Trong mô hình cải tiến tốc độ dò tìm đối tượng không những vẫn đạt được theo thời gian thực mà độ chính xác cũng được gia tăng đáng kể, có tính bền vững cao trong dò tìm lớp đối tượng phổ quát, ảnh đầu vào không cần qua bước tiền xử lý. Kết quả đưa ra của mô hình bao gồm: tọa độ bao đóng hình
5 chữ nhật quanh các thể hiện của lớp đối tượng truy vấn trong ảnh và kèm theo vector đặc trưng rất giàu thông tin của nó (CT1). (ii) Cải tiến kỹ thuật nhận dạng hình dạng của đối tượng dựa trên phương pháp lập chỉ mục vector đặc trưng. Tập dữ liệu về hình dạng của đối tượng sau khi trích chọn đặc trưng được lập chỉ mục bằng kỹ thuật lượng tử hóa tích đề các cụm vector (Product sub-vector quantization – PSVQ). Kỹ thuật này kết hợp với cây phân cụm thứ bậc được sử dụng để tìm ra hình dạng tương đồng nhất với đối tượng truy vấn (CT2, CT3, CT4 và CT6). iii) Cải tiến mô hình hoàn thiện vùng bị phá hủy trong ảnh với hình dạng và kích thước bất kỳ sinh, áp dụng trong video inpainting nhằm bảo toàn tính kết cấu về không gian và thời gian trong tái tạo vùng bị phá hủy sinh ra trong video sau hiệu chỉnh (CT5). 5. Phương pháp và nội dung nghiên cứu Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm. Phương pháp lý thuyết: Tổng hợp một số công bố liên quan đến bài toán dò tìm, nhận dạng đối tượng, hoàn thiện vùng bị phá hủy trong ảnh, video. Cụ thể nghiên cứu các mạng tích chập học sâu ứng dụng trong dò tìm đối tượng, hoàn thiện ảnh, video, các kỹ thuật lập chỉ mục trên tập dữ liệu lớn các vector đặc trưng và các thuật toán tìm kiếm ảnh theo nội dung, một số thuật toán về hoàn thiện các vùng mất mát thông tin trong video. Phương pháp thực nghiệm: Thực hiện cài đặt các thuật toán của luận án, chạy thử nghiệm trên các tập dữ liệu được sử dụng phổ biến trong cộng đồng nghiên cứu. 6. Cấu trúc luận án Cấu trúc luận án được tổ chức thành 3 chương như sau:
6 Chương 1: Tổng quan về bài toán phát hiện và thay thế đối tượng trong video. Trình bày các nghiên cứu liên quan đến bài toán phát hiện đối tượng bao gồm hai pha dò tìm và nhận dạng, bài toán thay thế đối tượng quảng cáo trong các video thuộc lĩnh vực thương mại gồm các công đoạn phân vùng, thay thế và hoàn thiện video. Bên cạnh đó, luận án đưa ra mô hình tổng quát cho hệ thống thay thế đối tượng trong video cùng các khái niệm liên quan. Thông qua đó xác định rõ vấn đề đặt ra cần nghiên cứu, vị trí nghiên cứu, xu hướng phát triển để đưa ra các giải pháp giải quyết vấn đề đặt ra. Chương 2: Phát hiện đối tượng trong video. Trình bày chi tiết mô hình YOLO-Adv cải tiến, phát triển từ mô hình dò tìm đối tượng YOLO tương thích với lớp bài toán dò tìm đối tượng quảng cáo trong video. Các kết quả thực nghiệm trên tập dữ liệu flickrlogos-47 được phân tích, chứng minh độ chính xác và tốc độ dò tìm đối tượng của mô hình cải tiến là nhanh hơn các phiên bản của mô hình YOLO và các mô hình hiện tại khác. Tiếp theo, kỹ thuật lập chỉ mục dữ liệu PSVQ (Product sub-vector quantization) cải tiến, phát triển từ phương pháp lập chỉ mục lượng tử hóa tích đề các (product quantization-PQ) trên tập dữ liệu vector đặc trưng có số chiều lớn ứng dụng cho bài toán nhận dạng hình dạng của đối tượng được trình bày chi tiết. Các kết quả thực nghiệm trên tập dữ liệu có số chiều lớn như ANN_GIST, VGG cũng được trình bày ngay sau phần trình bày lý thuyết. Chương 3: Thay thế đối tượng và hoàn thiện video. Trình bày kỹ thuật phân vùng thực thể áp dụng để trích chọn vùng đối tượng xuất hiện trong ảnh. Tiếp theo, kỹ thuật hoàn thiện, tái tạo video V-RBPconv dựa trên nền tảng của mô hình RBPConv được sử dụng cho bài toán tái tạo các vùng bị phá hủy. Những vùng này có sự đa dạng về hình dạng và kích thước sinh ra sau trong quá trình hậu xử lý như loại bỏ, thay thế đối tượng không mong muốn khỏi video. Cuối cùng, các kết quả thực nghiệm của mô hình trên các tập dữ liệu phổ biến cũng được trình bày.
7 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Trong chương tổng quan này luận án trình bày mô hình tổng quan cho bài toán phát hiện và thay thế đối tượng trong video, mô tả chi tiết các thành phần trong hệ thống cũng như đưa ra các khái niệm có liên quan. Bên cạnh đó luận án hệ thống lại các nghiên cứu liên quan đến các mô hình, kỹ thuật áp dụng trong hệ thống phát hiện và thay thế đối tượng, phân tích ưu, nhược điểm của các kỹ thuật này làm tiền đề cho những nội dung nghiên cứu trong các chương sau đó. Cụ thể, tổng quan về bài toán phát hiện và thay thế đối tượng trong video được trình bày trong phần 1.1. Các nghiên cứu liên quan đến mô hình dò tìm đối tượng trong video được phân tích trong phần 1.2. Tiếp theo, các kỹ thuật nhận dạng đối tượng được trình bày trong phần 1.3. Cuối cùng các nghiên cứu liên quan đến hoàn thiện vùng bị phá hủy trong video được trình bày trong phần 1.4. Hình 1.1. Cấu trúc phân cấp của video 1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video 1.1.1. Khái quát về video Video là sự phối hợp đồng bộ thu hoặc phát một chuỗi các hình ảnh và âm thanh theo thời gian thực để thể hiện thế giới thực. Bản chất của video là
8 tập hợp các khung hình (frame), mỗi khung hình tương ứng là một ảnh tĩnh. Tập hợp các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn tạo thành một lia (Shot). Tập các shot liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết tạo thành một cảnh quay (Scene). Cấu trúc phân cấp của video được thể hiện trong hình 1.1. Video truyền thống các tín hiệu thu và phát dưới dạng tương tự. Tín hiệu hình ảnh và tín hiệu âm thanh được phát đồng bộ nhau. Tuy nhiên, các thao tác với video ở dạng tương tự như điều khiển, khử nhiễu, ... rất phức tạp. Vì vậy, ngày nay các video tương tự ít được sử dụng mà thay bằng các video số. Với video số các tín hiệu thu và phát chuỗi hình ảnh âm thanh được số hóa thành dãy bít 0 và 1. Dữ liệu video được lưu trữ ở dạng bít 0 và 1 nên việc tác động lên video đơn giản hơn nhiều so với video tương tự. Dữ liệu video số là các đoạn phim đã được số hóa, ghi thành tệp trên đĩa cứng, đĩa CD, đĩa DVD, hoặc các thiết bị lưu trữ khác mà máy tính có thể hiểu được. Một tệp video thông thường có hai phần: dữ liệu hình ảnh và dữ liệu âm thanh. Khi phát, các dữ liệu hình ảnh và các dữ liệu âm thanh được phát đồng bộ nhau. Kích cỡ khuôn hình của video phải được xác định rõ theo định dạng chuẩn của video xuất ra. Ví dụ: kích cỡ khuôn hình 720x480 điểm ảnh cho hệ NTSC, 720x576 điểm ảnh cho hệ PAL. Hoặc có thể xác định khuôn hình 320x240 điểm ảnh cho các video có kích cỡ nhỏ, có thể sử dụng trên Web. Kích cỡ khuôn hình tăng đồng nghĩa với việc tiêu tốn nhiều bộ nhớ và thời gian xử lý hơn khi hiển thị hay soạn thảo video. Khi xử lý video số, kích cỡ khuôn hình tham chiếu đến độ phân giải. Các thuộc tính rất quan trọng của khuôn hình khi soạn thảo video gồm: điểm ảnh, tỷ lệ của khuôn hình, độ phân giải, độ sâu mầu. Mối liên hệ giữa các yếu tố này là rất quan trọng như kích cỡ khuôn hình và
9 yêu cầu bộ nhớ; độ phân giải cao hơn thì hình ảnh chi tiết hơn và do đó yêu cầu cần nhiều bộ nhớ cho soạn thảo hơn. Tỷ lệ khuôn hình là tỷ lệ kích thước chiều ngang/chiều dọc của ảnh. Ví dụ: tỷ lệ khuôn hình của video trong các hệ thống truyền hình NTSC (National Television System Committee) là 4:3. Video thông thường hiện nay sử dụng tỷ lệ 16:9. Tỷ lệ của khuôn hình không chỉ là các cạnh mà nó còn liên quan đến các chuẩn video. Ví dụ: tỷ lệ 4:3 là chuẩn cho các sản phẩm video của hệ điều hành Windows, Mac, khuôn hình 720x480 điểm ảnh sử dụng cho chuẩn NTSC. Khi video được phát, các khung hình lần lượt được hiển thị ở tốc độ nhất định. Tốc độ phát hình là số hình ảnh được phát trong thời gian một giây. Các video phổ biến được phát với tốc độ từ 25 đến 30 hình/giây. Video số được hình thành từ rất nhiều ảnh số liên tục nên có kích cỡ rất lớn. Do đó để lưu trữ người ta phải tìm mọi cách để giảm thiểu kích cỡ của video. Một trong các cách này là sử dụng độ phân giải phù hợp cho video. Nhiều nghiên cứu đã chứng minh rằng mắt người bị giới hạn về khả năng nhìn. Với màu sắc được hiển trị trên màn hình thì mắt người chỉ nhận biết được sự khác nhau của chất lượng hình ảnh chuyển động với độ phân giải dưới 72 dpi (72 điểm ảnh/inch). Đối với các hình ảnh chuyển động có độ phân giải cao hơn thì mắt người không nhận biết được. Vì vậy, video số sử dụng độ phân giải 72dpi. Đây là tiêu chuẩn cho tất cả các thiết bị thu video số thông thường như các máy quay số (digital camera), các thiết bị chuyển đổi dữ liệu video từ dạng tương tự sang dạng số. Một số trường hợp đặc biệt khi cần có video chất lượng rất cao như các đoạn phim sử dụng cho việc phân tích khoa học cần phóng to lên nhiều lần thì phải dùng những máy quay đặc biệt để có thể tăng độ phân giải của video lên trên 72 dpi. Trong trường hợp này dữ liệu video sẽ lớn lên khá nhiều. Ví dụ: tăng độ phân giải lên 300 dpi thì kích cỡ của tệp video tăng lên trên 4 lần.
10 Bên cạnh đó người ta đã sử dụng nhiều biện pháp như giảm kích cỡ khuôn hình, giảm độ sâu mầu, nhưng hữu hiệu hơn cả vẫn là sử dụng các thuật toán nén video, như các thuật toán nén AVI (Audio Video Interleave), MPEG. Các thuật toán này đảm bảo cho việc sử dụng các tệp video trên máy tính cũng như truyền dữ liệu video trên mạng là hiệu quả trong thời gian thực. Hiện nay, đã có rất nhiều thuật toán nén video khác nhau, nhưng nền tảng vẫn chủ yếu dựa trên các thuật toán nén ảnh. Mỗi chuẩn nén được gọi là một định chuẩn video. Video có thể được phân loại theo mục đích sử dụng như: video số sử dụng cho soạn thảo, video số sử dụng cho đầu cuối. Căn cứ vào mục đích sử dụng này mà có các phương pháp thích hợp xử lý. Video số sử dụng cho soạn thảo thường có chất lượng rất cao. Thông thường sử dụng các thuật toán nén không mất thông tin. Các dữ liệu video này được lưu trữ và xử lý trên các thiết bị đặc biệt, chuyên dụng như lưu trên các ổ cứng có tốc độ đọc ghi nhanh, có các thiết bị phần cứng hỗ trợ xử lý video, máy tính tốc độ cao có trang bị các chíp đặc biệt hỗ trợ xử lý đồ hoạ... Video số sử dụng cho đầu cuối là các sản phẩm video số có chất lượng thấp hơn so với video dùng làm soạn thảo nên kích cỡ lại nhỏ hơn rất nhiều (nhỏ hơn vài chục lần so với video gốc) do sử dụng các thuật toán nén mất mát thông tin. Video số đầu cuối có thể sử dụng trên mạng, Internet hoặc các ứng dụng thông thường. Trong lớp các video số này, người ta lại phân thành nhóm các sản phẩm nhỏ hơn như video ghi trên đĩa quang (Compact Disc – CD) hay đĩa phim kỹ thuật số (Digital Video Disc – DVD), video phân phối trên mạng. Các sản phẩm video số ghi trên đĩa CD là sản phẩm có chất lượng tương đối cao và được phân phối rộng khắp trên thị trường. Nó sử dụng định chuẩn nén MPEG-1. Một đĩa CD có dung lượng 700Mb lưu trữ được 80 phút video. Các sản phẩm video số ghi trên đĩa DVD có sức chứa 4,7 Gb. Do đó, người ta có thể nâng cấp chất lượng video số cao hơn chuẩn MPEG–1 bằng cách sử dụng