intTypePromotion=1
zunia.vn Tuyển sinh 2023 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:6

30
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM" trình bày hai nội dung quan trọng: i) phân tích và đánh giá ảnh hưởng của các tham số lượng tử tới hiệu năng mã hóa VCM và ii) đề xuất một mô hình ước lượng các tham số lượng tử cho VCM để đạt được hiệu quả học máy cao nhất nhưng đòi hỏi dung lượng thông tin video là ít nhất. Kết quả nghiên cứu được đánh giá trên nền tảng chuẩn mã hóa High Efficiency Video Coding (HEVC) và ứng dụng phát hiện đối tượng trong video. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM

  1. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM Võ Gia Khánh, Lê Minh Hoàng, Nguyễn Việt Hà, Hoàng Văn Xiêm Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội vogiakhanhbk2000@gmail.com, lhoang17062000@gmail.com, hanv@vnu.edu.vn, xiemhoang@vnu.edu.vn Tóm tắt: Ngày nay, các ứng dụng học máy và thị giác tâm. Ngày càng nhiều ứng dụng trong ngành yêu cầu mã máy tính trên nền tảng dữ liệu video ngày càng được khai hóa VCM với mục đích là để nén hình ảnh, video cho thác rộng rãi. Các bài toán như nhận dạng đối tượng, các bài toán trí tuệ nhân tạo như nhận dạng vật thể, phân phân loại và phân tách đối tượng trong video được sử tích sự kiện, phân loại hình ảnh. dụng ở hầu hết các lĩnh vực từ dân dụng, y tế tới quốc phòng, an ninh. Một thách thức với các ứng dụng này là Với bài toán nhận dạng vật thể, sau khi dữ liệu được hiệu năng mã hóa (nén) video cho mục đích máy học đi qua một bộ mã hóa, để trung bình độ chính xác của (Video coding for machine – VCM) còn chưa được chuẩn việc nhận dạng vật thể (mAP) càng cao, ta cần chọn một hóa và nghiên cứu đầy đủ. Đặc biệt, do đặc tính thị giác tham số lượng tử (Quantization parameter - QP) tương người và thị giác máy là khác nhau, ảnh hưởng của mức ứng với hệ số nén hợp lý cũng như số lượng bit mỗi pixel độ nén (điều chỉnh qua thông số lượng tử mã hóa) là khác (bpp) đủ. Tuy nhiên, mAP sẽ bị giới hạn tại một mức nhau. Để hiểu rõ vấn đề này, bài báo trình bày hai nội nào đủ và không thể tăng thêm cho dù tiếp tục tăng bpp. dung quan trọng: i) phân tích và đánh giá ảnh hưởng của Việc đánh giá ảnh hưởng và lựa chọn mức QP để tối ưu các tham số lượng tử tới hiệu năng mã hóa VCM và ii) đề mức mAP cho bài toán nhận dạng vật thể là vấn đề chính xuất một mô hình ước lượng các tham số lượng tử cho VCM để đạt được hiệu quả học máy cao nhất nhưng đòi được đề cập trong bài báo này. hỏi dung lượng thông tin video là ít nhất. Kết quả nghiên Trong phần tiếp theo của bài báo, chúng tôi trình bày cứu được đánh giá trên nền tảng chuẩn mã hóa High tổng quan về mô hình mã hóa VCM và các nghiên cứu Efficiency Video Coding (HEVC) và ứng dụng phát hiện liên quan (phần II). Trong phần III, chúng tôi trình bày đối tượng trong video. kết quảkhảo sát ảnh hưởng của việc lựa chọn mức tham số lượng tử để tối ưu hiệu năng cho VCM. Phần IV Từ khóa: Mã hóa video cho máy học (VCM), Chuẩn mã chúng tôi mô tả đề xuất mô hình lựa chọn tham số lượng hóa HEVC, tham số lượng tử - QP, Thị giác máy tử. Cuối cùng là đưa ra kết luận (Phần V). I. GIỚI THIỆU II. TỔNG QUAN VỀ VCM VÀ CÁC NGHIÊN Trong thời đại 4.0 hiện nay, với sự phát triển mạnh CỨU LIÊN QUAN mẽ của các ứng dụng đa phương tiện, các dạng thông tin A. Tổng quan về VCM video cần được lưu trữ và truyền tải ngày càng nhiều. Do đó, có nhiều các mối lo ngại về cách quản lý và lưu Các phương pháp mã hóa video truyền thống mục trữ một lượng thông tin video khổng lồ như vậy. Từ đầu đích tạo ra video tốt nhất trong điều kiện tốn ít lượng bit thế kỷ 21 đến nay, ngày càng nhiều các chuẩn mã hóa nhất đồng thời mang lại hình ảnh tái tạo có chất lượng video như H.264/AVC [1], H.265/HEVC [2], tiêu chuẩn tốt nhất nhằm phục vụ cho con người. Tuy nhiên, với mã hóa video âm thanh AVS [3] được ra đời nhằm phục sự gia tăng của các ứng dụng học máy, cùng sự phát vụ mục đích truyền thông và trải nghiệm của con người. triển đa dạng của các loại cảm biến, nhiều nền tảng Trong khi đó, thị giác máy đã trở thành một trong thông minh đã được triển khai với yêu cầu dữ liệu lớn, những lĩnh vực nghiên cứu được quan tâm và cũng đã ví dụ: kết nối phương tiện giao thông (connected đạt được những tiến bộ rõ rệt trong thời gian vừa qua. vehicles), thành phố thông minh như mô tả trong hình Công nghệ thị giác máy được ứng dụng trong các bài 1. toán trí tuệ nhân tạo như việc nhận dạng vật thể, nhận dạng khuôn mặt hoặc được sử dụng như công cụ phân tích ảnh trong y tế bằng các thuật toán học sâu. Cơ chế hoạt động của thị giác máy đó là việc đối chiếu các mẫu điểm ảnh (pixel) trong ảnh, tức là quan tâm đến độ chính xác và độ tin cậy của hình ảnh. Tuy nhiên, các chuẩn mã hóa video cho đến thời điểm hiện tại chquan tâm đến chất lượng hình ảnh hay tốc độ khung hình để tối ưu trải nghiệm cho thị giác con người [4-6]. Việc nghiên cứu và phát triển một mô hình mã hóa Hình 1: Ví dụ về giao thông thông minh Video for Machine (VCM) [7] đang là chủ đề được quan ISBN 978-604-80-7468-5 84
  2. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Dựa trên các nhu cầu tiềm năng đó, nhóm chuyên tối ưu hóa được cho các mạng nơ ron, nhằm mục đích gia các hình ảnh động (MPEG) đã triển khai nghiên cứu là đạt được độ trung thực đặc trưng cao hơn là độ trung mã hóa video cho các mô hình máy học (VCM). Hình 3 thực pixel. mô tả một ví dụ về mã hóa VCM theo đề xuất của Bài báo [12] đã tận dụng mô hình nén và mô hình MPEG. Bằng cách nén các đặc trưng sau đó sử dụng tổng hợp để đưa ra một khung mã hóa hình ảnh hỗ trợ các đặc trưng giải nén cho các mô hình học máy, đồng thời các bài toán thị giác máy tính và nhận thức phương pháp nén mới này sẽ giúp tiết kiệm được rất con người. [12] đã đào tạo một mạng lưới tái tạo lại hình nhiều lượng bit trong khi đó vẫn đảm bảo được chất ảnh một cách trung thực từ các biểu diễn nhỏ gọn. Kết lượng của mô hình học máy. Tiêu chí đặt ra của VCM: quả bài báo đã thể hiện được tính ưu việt của phương pháp đề xuất về chất lượng ảnh và khả năng phát hiện • Kích thước bitstream của nén VCM phải nhỏ hơn các mốc (đặc trưng) trên khuôn mặt. khi nén bằng phương pháp truyền thống như: VVC, Bài báo [13] đề xuất mức lượng tử hóa thích ứng tri HEVC,… giác dựa trên mạng nơ-ron sâu (DNN) sử dụng bộ mã • Sử dụng các tính năng sau khi nén cho các bài toán hóa HEVC với mục đích giảm tốc độ bit mà vẫn duy trì AI – Artificial Intelligence như là: Nhận diện vật thể chất lượng hình ảnh. Thuật toán sử dụng mô hình của (Object Detection), phân đoạn vật thể mạng VGG-16 để trích xuất các đặc trưng của ảnh gốc (segmentation), theo dõi vật thể (object tracking),… và ảnh được tái tạo. • Hiệu suất của các bài toán AI phải tốt hơn các Trong nghiên cứu [14], tác giả đã đề xuất một khung phương pháp nén truyền thống. Hiệu suất này được mã hóa video có cấu trúc ngữ nghĩa (Semantically đo bằng các phương pháp thích hợp với các bài toán structured video coding - SSVC) để hỗ trợ các bài toán AI. Ví dụ như: mAP. AI. Khung mã hóa SSVC kết hợp với chuỗi bit có cấu • Cho phép tái tạo video phục vụ cho người bằng cách trúc ngữ nghĩa (Semantically structured bitstream - bổ sung thêm một luồng nén bằng phương pháp SSB) có khả năng hỗ trợ rõ ràng các phân tích đa truyền thống: VVC, HEVC. phương tiện thông minh không đồng nhất mà không cần Hình 2 là một mô hình VCM được đề xuất bởi nhóm phải giải nén hoàn toàn. MPEG. Mô hình này bao gồm một bộ mã hóa/giải mã, Bài báo [15] đưa ra một khung mã hóa hình ảnh video được mã hóa sao cho tối ưu hiệu năng các bài toán khuôn mặt mới bằng cách tận dụng cả mô hình nén và thị giác máy. mô hình tổng quát, để hỗ trợ đồng thời bài toán thị giác máy và nhận thức của con người. Một mạng lưới được đào tạo để tái tạo lại hình ảnh một cách trung thực từ các biểu diễn nhỏ gọn. Nghiên cứu [16] đã sử dụng mô hình dự đoán và mô hình sinh để cải tiến kỹ thuật nén nâng cao cho cả thị giác máy và thị giác con người. Cụ thể, [16] sử dụng mạng học sâu để tạo lại khung hình video. Bằng cách Hình 2. Hệ thống VCM của nhóm MPEG trích xuất những sự chuyển động lưa thưa bằng mô hình dự đoán, mạng đã biểu diễn đặc trưng để tạo ra các B. Các nghiên cứu liên quan khung được mã hóa thông qua một mô hình chung, dựa Trong nghiên cứu [8], tác giả đã đề xuất một khung trên sự xuất hiện của các khung chính đã được mã hóa. mã hóa video có thể mở rộng hỗ trợ thị giác máy tính (cụ thể là phát hiện đối tượng), và hỗ trợ cho thị giác III. ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG con người bằng luồng bit lớp nâng cao. Khung đề xuất Phần này nói về mô hình kiểm thử và phương pháp bao gồm các thành phần từ cả mã hóa video thông đề xuất để lựa chọn tham số lượng tử. thường và kết hợp mạng học sâu. Nghiên cứu [9] mô tả một cách tiếp cận mã hóa A. Mô hình đánh giá video thích ứng cho các hệ thống thị giác máy tính. Mô hình chúng tôi đưa ra sẽ có kiến trúc như sau: Nhóm tác giả đã chỉ ra cách kiểm soát chất lượng nén video (điều chỉnh tham số lượng tử) để các bộ phát hiện đối tượng tự động vẫn có thể xử lý video thu được, đồng thời cải thiện được hiệu suất phát hiện vật. Hình 3. Mô hình đánh giá Nghiên cứu [10] đã đề xuất một mô hình tối ưu hóa Video đầu vào sẽ được đưa vào bộ mã hóa HEVC mã hóa video và mã hóa đặc trưng cho thị giác máy và ở các mức lượng tử khác nhau. Sau đó, video giải nén thị giác con người. Các giải pháp tiềm năng, kết quả sơ sẽ được đưa vào bài toán AI - Artificial Intelligence, ở bộ cũng như hướng nghiên cứu trong tương lai của đây chúng tôi sử dụng bài toán nhận diện vật thể (object VCM đã được đề cập tới. detection) để kiểm thử. Phương pháp đo độ chính xác Bài báo [11] đã trình bày một phương pháp tối ưu sử dụng trong nghiên cứu này là mAP (mean average hóa tỉ lệ biến dạng. Khung giải mã trả về một luồng bit precision). ISBN 978-604-80-7468-5 85
  3. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Hình 4: Kết quả khảo sát mối quan hệ giữa mAP vs bpp Hai thông số chúng tôi dùng để đánh giá độ chính quả mã hóa có thể tăng gấp đôi so với chuẩn mã hóa xác là độ chính xác trung bình (mAP) và số lượng bit H.264. HEVC hiện nay đang được sử dụng chủ yếu bởi trên mỗi pixel (bpp) được tính theo công thức sau: các công ty cần streaming nội dung 4K. Bài toán nhận diện vật thể 1 𝑚𝐴𝑃 = ∑𝑘=𝑛 𝑘=1 𝐴𝑃𝑘 (1) Hiện nay, có rất nhiều bài toán đòi hỏi ta phải xác 𝑛 định tên vật thể (object classification) và tọa độ vật thể Trong đó: trên ảnh (object localization) và kết hợp hai khái niệm + n là số lượng lớp các vật thể cần nhận diện trên ta có bài toán object detection. + k là thứ tự lớp vật thể nhận diện Các kiến trúc dùng để giải quyết bài toán object + AP (Average Precision) là độ chính xác trung bình detection hiện nay được chia làm hai loại chính đó là của một vật thể one-stage và two-stage [17]: 𝑏𝑖𝑡𝑟𝑎𝑡𝑒 × 1000 (2) • One-stage: Mô hình hiện đối tượng một giai đoạn là 𝑏𝑝𝑝 = các mô hình mà bỏ qua bước tìm kiếm vùng (region 𝑤𝑖𝑑𝑡ℎ × ℎ𝑒𝑖𝑔ℎ𝑡 × 𝑓𝑟𝑎𝑚𝑒_𝑟𝑎𝑡𝑒 proposal). Mô hình tìm kiếm vật thế bằng cách chạy một lần lấy mẫu dày đặc các vị trí. Vì vậy tốc độ của Trong đó: các mô hình này rất cao. Ví dụ: SSD, Yolo, …. + bitrate là số lượng bit truyền được trong mỗi giây • Two-stage: Mô hình tìm kiếm đối tượng qua hai + frame rate là số lượng khung hình hiển thị được bước là tìm kiếm vùng có thể có vật rồi sau đó mới trong một giây tìm kiếm vật thể trong vùng đó. Ví dụ: RCNN, Chuẩn mã hóa H.265/HEVC Faster-RCNN, …. Chuẩn mã hóa H.265 [2] là thành quả nghiên cứu Ưu điểm của các mô hình này là độ chính xác rất của ITU – T VCEG và ISO/IEC MPEG và được công cao. Nhưng nhược điểm là tốc độ không cao bằng các bố vào năm 2013. Đơn vị mã hóa của H.265 có thể được mô hình one-stage. lựa chọn từ 8×8 pixel tới 64×64 pixel cho mỗi Do cần độ chính xác cao để đánh giá cho bài toán macroblock, khác với H.264 cố định với kích thước nhận diện vật thể, chúng tôi chọn mô hình Faster- 16×16. H.265 tiết kiệm khoảng 50% tốc độ bit và hiệu RCNN cho hệ thống của mình. ISBN 978-604-80-7468-5 86
  4. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Bảng I. CHUỖI CÁC VIDEO KIỂM THỬ MÔ HÌNH Độ phân giải Chuỗi video Số đoạn video Số khung hình mã hóa Tốc độ khung hình RaceHorses 3 300 30 Class C BasketballDrill 5 500 50 832x480 PartyScene 5 500 50 BQMall 6 600 60 RaceHorses 3 300 30 Class D BlowingBubbles 5 500 50 416x240 BasketballPass 5 500 50 BQSquare 6 600 60 tôi đề xuất phân chia các nội dung video thành 3 nhóm B. Kết quả và phân tích ứng với dải mAP tương ứng như trong hình 6 gồm: Hình 4 mô tả các xu hướng thường gặp khi khảo sát • Nhóm (a) (điểm màu xanh dương), các đoạn mối quan hệ giữa mAP và bpp cho 9 chuỗi video phổ video có mAP trong khoảng (0.8~1); biến trong đánh giá các chuẩn HEVC [2]. Từ hình 4 trên nhận thấy luôn tồn tại một điểm với mức hệ số lượng tử • Nhóm (b) (điểm màu cam), các đoạn video có tiêu tốn lượng bit ít nhưng cho hiệu quả bài toán nhận mAP trong khoảng (0.6~0.8); diện vật thể cao. Với các chuỗi video có độ phân giải • Nhóm (c) (điểm màu xám), các đoạn video có cao ở class B (các chuỗi BasketballDrive, BQTerrace, mAP trong khoảng (0.2~0.6). ParkScene), thì điểm hội tụ sẽ cho kết quả rất ấn tượng, độ chính xác cho bài toán nhận diện vật thể tốt nhất Ở đây, mối quan hệ giữa mAP và bpp được xác định trong khi đó lượng bit tiêu tốn rất ít so với các điểm mã đối với các mô hình như sau: hóa với mức hệ số lượng tử thấp hơn. Những video có • Mô hình power: nội dung tương tự BQTerrace và BQSquare sẽ cho điểm hội tụ sớm, điều này là rất tốt vì nó sẽ tiết kiệm được rất 𝑚𝐴𝑃 = 𝛼 × (𝑏𝑝𝑝)𝛽 (3) nhiều lượng bit. Chuỗi video BasketballPass có độ phân giải thấp và nhiều sự chuyển động cho tốc độ hội tụ khá • Mô hình power: chậm. Hình 5 mô tả điểm hội tụ của chuỗi video khảo sát. Khi giảm mức QP đến một mức nhất định thì mAP 𝑚𝐴𝑃 = 𝛼 × 𝑏𝑝𝑝2 + 𝛽 × 𝑏𝑝𝑝 + 𝛾 (4) không tăng nữa mà sẽ hội tụ tại một điểm. • Mô hình power: 𝑚𝐴𝑃 = 𝛼 × ln(𝑏𝑝𝑝) + 𝛽 (5) • Mô hình power: 𝑚𝐴𝑃 = 𝛼 × 𝑒 𝑏𝑝𝑝×𝛽 (6) Trong đó, 𝛼, 𝛽, 𝛾 là các tham số mô tả mô hình, được tính thông qua thực nghiệm. Các tham số 𝛼, 𝛽, 𝛾 tương Hình 5. Mô phỏng điểm hội tụ của chuỗi video ứng của từng mô hình (3-6) được tối ưu hóa cho các chuỗi video trong tập huấn luyện và được đánh giá lại IV. MÔ HÌNH LỰA CHỌN THAM SỐ LƯỢNG trong tập gồm các video ở bảng I. TỬ QP Để lựa chọn mô hình toán học phù hợp cho mối quan hệ giữa hiệu năng học máy (đo lường qua chỉ số mAP) và hiệu năng nén (đo lường qua lượng bit cần mã hóa – bpp), chúng tôi thử nghiệm một số mô hình phổ biến như hàm power, hàm logrith, hàm mũ, và hàm đa thức. Các chuỗi video RaceHorses, BasketballPass và BlowingBubbles được sử dụng để tối ưu các tham số mô hình, các đoạn video trong chuỗi thuộc class C, D như mô tả ở bảng I được sử dụng để đánh giá sai số của các mô hình đề xuất. mAP được đo lường và lượng bit cần mã hóa (bpp) được tính như mô tả ở mục III. Do kết quả Hình 6. Kết quả phân cụm mã hóa VCM theo mAP mAP tương ứng phụ thuộc vào nội dung video, chúng ISBN 978-604-80-7468-5 87
  5. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) (a) (b) (c) Hình 7: Kết quả đánh giá các mô hình toán học mối quan hệ giữa hiệu năng học máy (mAP) và hiệu năng mã hóa (bpp) cho các chuỗi video huấn luyện (a) BlowingBubbles_416x240_50_2 (b) RaceHorses_416x240_30_0 (c) BasketballPass_416x240_50_3 Hình 7 thể hiện kết quả fitting model với các dữ liệu phát triển để tính toán hiệu năng mã hóa video cho các chúng tôi đưa ra. Chúng tôi xem xét giá trị 𝑅2 thể hiện ứng dụng học máy. sự phù hợp của mô hình với dữ liệu, R càng lớn thì mô hình càng tốt. Nhìn vào kết quả trên ta thấy mô hình VI. LỜI CÁM ƠN Logarith, 𝑚𝐴𝑃 = 𝛼 × ln(𝑏𝑝𝑝) + 𝛽, cho kết quả tốt Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa nhất. học và công nghệ Quốc gia (NAFOSTED) trong đề tài Bảng II trình bày kết quả đánh giá sai số tương ứng mã số 102.01-2020.15 cho các mô hình ở trên. Trên cơ sở kết quả khảo sát từ bảng II, mô hình logarith được lựa chọn để mô tả mối TÀI LIỆU THAM KHẢO quan hệ giữa mAP và bpp. Do vậy, giá trị lượng tử phù [1] T. Wiegand, G. J. Sullivan, G. Bjøntegaard and A. Luthra, hợp có thể được xác định thông qua tối ưu giá trị bpp "Overview of the H.264/AVC video coding standard," IEEE để đạt được mAP cao nhất, cụ thể: TCSVT, vol. 13, pp. 560-576, 2003. [2] G. J.Sullivan, J.-R. Ohm, W.-J. Han and T. Weigand, "Overview of the High Efficiency Video Coding (HEVC) standard," IEEE 𝑏𝑝𝑝𝑜𝑝𝑡 ≜ 𝑎𝑟𝑔𝑀𝑎𝑥{𝛼 × ln(𝑏𝑝𝑝) + 𝛽} (7) TCSVT, Vol. 22, no. 12, pp. 1649-1668, Dec. 2012. [3] L. Fan, S. Ma, F. Wu, “Overview of AVS video standard”, 2004 𝑑(𝛼 × ln(𝑏𝑝𝑝) + 𝛽) (8) IEEE International Conference on Multimedia and Expo 𝑏𝑝𝑝𝑜𝑝𝑡 ≜ =0 (ICME) (IEEE Cat. No.04TH8763), Jun 2004. 𝑑(𝑏𝑝𝑝) [4] X. HoangVan, L. Dao Thi Hue, T. Nguyen Canh, “A Trellis based rate allocation and virtual reference frame for High Khi đó, áp dụng mô hình R-Q [18], ta tính được QP: Efficiency Video Coding”, Electronics, Vol. 10, No. 12, 1384, Dec. 2021. 𝑄𝑃 ≜ 𝑓 −1 (𝑏𝑝𝑝𝑜𝑝𝑡 ) (9) [5] X. HoangVan, S. NguyenQuang, F. Pereira, “Versatile video coding based quality scalability with joint layer reference”, IEEE Signal Processing Letters, Vol. 27, pp. 2079-2083, Nov. Trong đó hàm 𝑏𝑝𝑝𝑜𝑝𝑡 = 𝑓(𝑄𝑃) có thể được ước 2020. xác định qua thực nghiệm. [6] X. HoangVan, HH Nguyen, “Enhancing quality for VVC compressed videos with multi-frame quality enhancement V. KẾT LUẬN model”, International Conference on Advanced Technologies for Communications, pp. 172-174, Nha Trang, Vietnam, Oct. Trong bài báo này, chúng tôi đã trình bày kết quả 2020. khảo sát ảnh hưởng của tham số lượng tử (thể hiện [7] “Update on Video Coding for Machine – MPEG139”, ISO/IEC thông qua giá trị bpp) tới hiệu quả VCM (mAP), từ đó JTC 1/SC 29/WG2/N00223, Jul. 2022. đề xuất mô hình lựa chọn tham số lượng tử phù hợp. [8] H. Choi, Ivan V. Bajic, “Scalable Image Coding for Humans Kết quả đánh giá mô hình giúp xác được được mô hình and Machines”, arXiv:2105.12653, May 2021. phù hợp nhất. Trong tương lai, nghiên cứu có thể được ISBN 978-604-80-7468-5 88
  6. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) [9] L. Galteri, M. Bertini, L. Seidenari and A. Del Bimbo, "Video HEVC Encoder”, IEEE Access, Vol 8, pp. 37052 – 37065, Feb. Compression for Object Detection Algorithms," 2018 24th 2022. International Conference on Pattern Recognition (ICPR), 2018, [14] X. Jin, Ruoyu Feng, S. Sun, Runsen Feng, T. He, Z. Chen, pp. 3007-3012, doi: 10.1109/ICPR.2018.8546064. “Semantically Video Coding: Instill Static-Dynamic Clues into [10] L.-Y. Duan, J. Liu, W. Yang, T. Huang, W. Gao, "Video Coding Structured Bitstream for AI Tasks”, arXiv:2201.10162, 2022. for Machines: A Paradigm of Collaborative Compression and [15] S. Yang, Y. Hu, W. Yang, L.-Y Duan, J. Liu, “Towards Coding Intelligent Analytics", IEEE Transaction on Image Processing, for Human and Machine Vision: Scalable Face Image Coding”, Vol. 29, pp. 8680 - 8695, Aug. 2020. IEEE Transactions on Multimedia, Vol. 23, pp. 2957-2971, [11] K. Fischer, F. Brand, C. Herglotz, A. Kaup, “Video Coding for Mar. 2021. Machines with Feature-Based Rate-Distortion Optimization”, [16] S. Xia, et al., “An Emerging Coding Paradigm Vcm: A Scalable 2020 IEEE 22nd International Workshop on Multimedia Signal Coding Approach Beyond Feature And Signal”, 2020 IEEE Processing (MMSP), Sep. 2020. International Conference on Multimedia and Expo (ICME), [12] Y. Hu, S. Yang, W. Yang, L.-Y. Duan, J. Liu, “Towards Coding Vol. 23, pp. 2957 – 2971, Mar. 2021. For Human And Machine Vision: A Scalable Image Coding [17] L. Weng, "Object Detection Part 4: Fast Detection Models," Approach”, 2020 IEEE International Conference on Online Available: https://lilianweng.github.io/lil- Multimedia and Expo (ICME), Jun. 2020. log/2018/12/27/object-detection-part-4.html, Dec. 2018. [13] I. Marzuki, D. Sim, “Perceptual Adaptive Quantization [18] Z. Wu, S. Xie, K. Zhang, and R. Wu, "Rate Control in Video Parameter Selection Using Deep Convolutional Features for Coding", in Recent Advances on Video Coding. London, United Kingdom: IntechOpen, 2011. Bảng II KẾT QUẢ KIỂM THỬ 3 TRƯỜNG HỢP CHO 3 CHUỖI VIDEO ĐƯỢC SỬ DỤNG ĐỂ HUẤN LUYỆN Power Polynomial Logarithmic Explonential Tên chuỗi video model model model model BasketballPass_416x240_50_0 0,120 0,156 0,096 0,185 BlowingBubbles_416x240_50_1 0,233 0,214 0,211 0,249 BlowingBubbles_416x240_50_4 0,105 0,125 0,074 0,161 BlowingBubbles_416x240_50_5 0,090 0,115 0,062 0,158 PartyScene_832x480_50_1 0,124 0,108 0,092 0,147 (a) PartyScene_832x480_50_2 0,146 0,114 0,115 0,150 PartyScene_832x480_50_3 0,173 0,130 0,144 0,157 PartyScene_832x480_50_4 0,126 0,088 0,097 0,113 RaceHorse_832x480_30_0 0,119 0,126 0,097 0,155 0,137 0,131 0,110 0,164 BasketballPass_416x240_50_1 0,115 0,110 0,066 0,147 BlowingBubbles_416x240_50_3 0,151 0,122 0,097 0,166 BQMall_832x480_60_5 0,196 0,125 0,142 0,160 PartyScene_832x480_50_0 0,184 0,110 0,124 0,151 (b) RaceHorses_416x240_30_1 0,147 0,138 0,092 0,196 RaceHorses_416x240_30_2 0,127 0,130 0,083 0,172 RaceHorses_832x480_30_1 0,174 0,146 0,113 0,199 RaceHorses_832x480_30_2 0,185 0,134 0,128 0,179 0,160 0,127 0,106 0,171 BasketballDrill_832x480_50_0 0,109 0,090 0,075 0,114 BasketballDrill_832x480_50_1 0,098 0,084 0,066 0,107 BasketballDrill_832x480_50_2 0,116 0,124 0,118 0,130 BasketballDrill_832x480_50_3 0,087 0,067 0,057 0,087 BasketballDrill_832x480_50_4 0,078 0,065 0,047 0,088 BasketballPass_416x240_50_2 0,108 0,109 0,096 0,148 BasketballPass_416x240_50_4 0,048 0,050 0,043 0,062 BQMall_832x480_60_0 0,153 0,152 0,132 0,159 BQMall_832x480_60_1 0,098 0,076 0,067 0,097 (c) BQMall_832x480_60_2 0,153 0,166 0,138 0,169 BQMall_832x480_60_3 0,199 0,194 0,203 0,183 BQMall_832x480_60_4 0,099 0,086 0,069 0,101 BQSquare_416x240_60_0 0,163 0,168 0,159 0,175 BQSquare_416x240_60_1 0,105 0,100 0,075 0,131 BQSquare_416x240_60_2 0,105 0,078 0,077 0,102 BQSquare_416x240_60_3 0,115 0,093 0,083 0,112 BQSquare_416x240_60_4 0,112 0,101 0,075 0,124 BQSquare_416x240_60_5 0,121 0,120 0,094 0,139 0,115 0,107 0,093 0,124 ISBN 978-604-80-7468-5 89
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2