Cải tiến hiệu năng bộ mã hóa video H.266/VVC dựa trên phương pháp đánh giá chất lượng VMAF
lượt xem 2
download
Bài viết "Cải tiến hiệu năng bộ mã hóa video H.266/VVC dựa trên phương pháp đánh giá chất lượng VMAF" đề xuất một mô hình dự đoán tham số lượng tử hóa được điều chỉnh dựa trên VMAF để mã hóa video và đạt được chất lượng cảm quan tốt hơn với tốc độ bit hợp lý. Cụ thể, quá trình tối ưu hóa RD của mã hóa video VVC được cải thiện bằng cách sử dụng điểm số VMAF để tìm bản đồ tham số lượng tử tối ưu. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Cải tiến hiệu năng bộ mã hóa video H.266/VVC dựa trên phương pháp đánh giá chất lượng VMAF
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Cải tiến hiệu năng bộ mã hóa video H.266/VVC dựa trên phương pháp đánh giá chất lượng VMAF Vũ Hữu Tiến†, Nguyễn Thị Thanh Tâm†, Đỗ Ngọc Minh∗ † Học Viện Công Nghệ Bưu Chính Viễn Thông ∗ Trường Đại học Công nghệ - ĐHQGHN Email: tienvh@ptit.edu.vn, ntttam@ptit.edu.vn, dongocminh@vnu.edu.vn Tóm tắt—Trong thời đại bùng nổ về dữ liệu lớn như lên đáng kể. Điều đó khiến cho các hệ thống hiện nay hiện nay, video đang đóng vai trò ngày càng quan trọng đang đối mặt với thách thức lớn về việc truyền tải, lưu trong nhiều lĩnh vực như giáo dục, giải trí, tiếp thị, thậm trữ và xử lý video. Để giải quyết vấn đề này, việc phát chí trong nghiên cứu khoa học và phân tích dữ liệu. Để triển các phương pháp mã hóa video hiệu quả cao là đảm bảo chất lượng trải nghiệm video của người dùng, việc đánh giá chất lượng video theo góc độ cảm quan điều cần thiết. (Perceptual Video Quality Assessment - VQA) trở nên Theo đó, các nhà nghiên cứu và tổ chức trên khắp thế cực kỳ quan trọng. Gần đây, Netflix đã phát triển mô giới đã có những đóng góp đáng kể cho việc phát triển hình đánh giá chất lượng VMAF (Video Multimethod công nghệ mã hóa video. Các tiêu chuẩn mã hóa video Assessment Fusion), một mô hình VQA toàn diện kết hợp lần lượt ra đời với thế hệ đầu tiên là MPEG [1], sau đó các đặc điểm không gian và thời gian để dự đoán chất lượng cảm quan. Mô hình này có sự tương quan mạnh mẽ đến AVC (Advanced Video Coding) [2], HEVC (High hơn với hệ thống thị giác người so với các phép đo thông Efficiency Video Coding) [3] và chuẩn mới nhất hiện thường. Trong bối cảnh này, nghiên cứu đề xuất một mô nay VVC (Versatile Video Coding) [4]. Trong suốt ba hình dự đoán tham số lượng tử hóa được điều chỉnh dựa thập kỷ qua, nhiều công nghệ mã hóa tiên tiến đã được trên VMAF để mã hóa video và đạt được chất lượng cảm phát triển để cải thiện hiệu suất nén cho video. Đặc biệt quan tốt hơn với tốc độ bit hợp lý. Cụ thể, quá trình tối ưu với chuẩn mã hóa video VVC mới nhất hiện nay, các hóa RD của mã hóa video VVC được cải thiện bằng cách nghiên cứu đang tập trung vào việc cải thiện hiệu năng sử dụng điểm số VMAF để tìm bản đồ tham số lượng tử tối ưu. Kết quả cho thấy rằng hiệu suất nén của mã hóa mã hóa trong nhiều khía cạnh khác nhau như [5], [6], VVC với phương pháp đề xuất tiết kiệm gần 1% bitrate [7], [8], [9]. và có chất lượng tốt hơn khi so với mã hóa truyền thống Tuy nhiên, các chuẩn mã hóa video thường sử dụng chuẩn VVC. Hơn nữa, mô hình đề xuất có thể điều chỉnh các thuật toán nén dữ liệu để giảm kích thước. Trong QP của video mã hóa để đạt được mức điểm VMAF sát đó, mã hóa mất dữ liệu thường được sử dụng vì nó đem với kỳ vọng của người dùng. lại độ nén cao nhưng việc áp dụng có thể làm mất đi Từ khóa—Đánh giá chất lượng video theo góc độ cảm quan (VQA - Perceptual Video Quality Assessment), một phần thông tin trong video và ảnh hưởng đến chất Chuẩn H.266/VVC, Chỉ số đánh giá kết hợp (VMAF - lượng. Thông thường chất lượng này được đánh giá bằng Video Multimethod Assessment Fusion) các chỉ số khách quan như PSNR (Peak Signal to Noise Ratio) nhưng nó không phản ánh đúng chất lượng của I. GIỚI THIỆU Hệ thống Thị giác Người (HVS). Do đó, việc phát triển mô hình đánh giá chất lượng dựa trên thị giác người A. Bối cảnh trong mã hóa video trở thành một trong những mục tiêu Ngày nay, sự phát triển của công nghệ trong việc ghi quan trọng nhất. hình, hiển thị và xử lý video đã cung cấp cho người Bên cạnh phương pháp đánh giá khách quan, các dùng trải nghiệm hình ảnh thực tế và sống động hơn. phương pháp đánh giá video chủ quan như MOS (Mean Các tiêu chuẩn mới lần lượt ra đời, từ độ phân giải tiêu Opinion Score) có nhược điểm là phản hồi chậm, phụ chuẩn (SD) lên độ phân giải cao (HD), 4K/8K, Ultra- thuộc vào người tham gia, gây ra sự mệt mỏi cho họ, có HD (UHD) và hơn thế nữa. Thêm vào đó, các ứng dụng khả năng thay đổi theo thời gian và đòi hỏi tài nguyên, thực tế ảo (VR) và thực tế tăng cường (AR) đang tăng chi phí lớn. Do đó, để khắc phục nhược điểm của các ISBN 978-604-80-8932-0 276
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) phương pháp đánh giá hiện nay và phản ánh đúng nhất C. Đóng góp chính của bài báo với trải nghiệm của người dùng, các nhà nghiên cứu đã Tuy chỉ số VMAF đã được nghiên cứu và phát triển cho ra đời chỉ đánh giá kết hợp đa phương pháp trên để cải thiện hiệu năng mã hóa nhưng các giải pháp áp video VMAF (Video Multimethod Assessment Fusion) dụng trên chuẩn H266/VVC chưa có nhiều. Thêm vào [10]. Chỉ số này được tạo ra bởi Netflix bằng cách sử đó, việc xây dựng mối quan hệ gần đúng giữa chỉ số dụng SVM (Support Vector Machine) để kết hợp nhiều VMAF (không được xây dựng bởi một công thức cụ chỉ số cơ bản cho việc đánh giá chất lượng video. VMAF thể) với SSE chưa đạt được độ chính xác cao. Mặt khác, đã được sử dụng trên những nền tảng cung cấp video việc can thiệp vào quá trình tối ưu hóa RD và hàm tính hàng đầu trên thế giới như Netflix, nơi mà trải nghiệm chi phí và tính toán lại giá trị QP có thể ảnh hưởng đến của người dùng được đặt lên hàng đầu. Thêm vào đó, nó hiệu suất của bộ mã hóa. Do đó, nghiên cứu này sẽ tập đã được chứng minh rằng có độ chính xác cao hơn so trung khai thác chỉ số đánh giá chất lượng VMAF để dự với các chỉ số truyền thống [11] [12] và được sử dụng đoán giá trị QP phù hợp cho việc cải thiện hiệu năng hiệu quả trong các ngành công nghiệp [13] [14]. mã hóa chuẩn VVC nhằm đáp ứng đúng nhất với trải nghiệm mà người dùng mong muốn. B. Khai thác chỉ số đánh giá chất lượng trong mã hóa Cấu trúc của bài báo này vẫn như sau. Mục II mô tả video phương pháp đề xuất. Sau đó, Mục III mô tả kết quả và Hiện nay, việc sử dụng các chỉ số đánh giá chất lượng phân tích. Cuối cùng, Mục IV kết luận về nghiên cứu trong chuẩn mã hóa video là rất quan trọng, nó ảnh và hướng phát triển trong tương lai. hưởng trực tiếp đến kết quả của bộ mã hóa. Đối với II. PHƯƠNG PHÁP ĐỀ XUẤT chỉ số đánh giá SSE (Sum Square Error) được dùng trong các chuẩn mã hóa video hiện nay, các phương A. Kiến trúc tổng quát pháp hướng đến việc cải thiện quá trình tối ưu hóa RD Nhằm mục tiêu cải tiến hiệu năng mã hóa phục vụ cho (Rate-Distortion) như [15] đã được đề xuất. Tuy nhiên, trải nghiệm của người dùng, phương pháp đề xuất quy việc sử dụng SSE không phản ánh đúng chất lượng thị trình dự đoán QP dựa trên điểm số VMAF kỳ vọng đầu giác con người, vì vậy các nghiên cứu tiếp theo đã được vào của người dùng như được minh họa trong Hình 1. thực hiện để hướng đến việc tối ưu hiệu năng mã hóa Đầu tiên, khung hình được chia thành các Đơn vị cây và cho chất lượng cảm nhận thị giác tốt hơn. Theo đó, mã hóa (CTU – Coding Tree Unit) kích thước 128×128 Huang và cộng sự [16] đề xuất mô hình tối ưu hóa RD và sau đó tiếp tục được chia thành các Đơn vị mã hóa dựa trên chỉ số SSIM. Tiếp theo đó là các nghiên cứu (CU - Coding Unit) có kích thước nhỏ hơn. [17], [18] cũng hướng đến nhiệm vụ cải thiện chất lượng Mặc dù trong chuẩn VVC, kích thước của CU rất đa thị giác dựa trên chỉ số đánh giá SSIM. dạng từ 4×4 đến 128×128. Tuy nhiên, để đảm bảo hiệu Ngày nay, với sự phát triển của các chỉ số đánh giá quả đánh giá của chỉ số VMAF thì kích thước của CU dựa trên học sâu như VMAF đã mang lại chất lượng phải đủ lớn và cố định để giảm độ phức tạp trong quá đánh giá phản ánh gần hơn với hệ thống thị giác con trình xây dựng mô hình dự đoán. Hơn nữa, khi CTU người. Do đó, chỉ số VMAF đang được nghiên cứu và thực hiện quá trình phân vùng thì bắt buộc phải chia phát triển rộng rãi trong lĩnh vực mã hóa video. Các thành các CU có kích 64 × 64 và sau đó mới thực hiện nghiên cứu này được thực hiện ở nhiều giai đoạn trong phân chia thành các kích thước đa dạng hơn như 32×16, quá trình mã hóa. Đầu tiên, VMAF có thể được áp dụng 8 × 32, v.v. Do đó, nghiên cứu chọn CU có kích 64 × 64 sớm ở giai đoạn tiền xử lý như trong nghiên cứu của làm đầu vào cho mô hình CNN dự đoán QP dựa trên Zvezdakova và cộng sự [19]. Theo đó, một bộ lọc làm điểm VMAF kỳ vọng, hay còn gọi là mô hình VCNN. sắc nét và cân bằng lược đồ xám đã được sử dụng để tiền Sau khi QP của từng CU kích thước 64 × 64 được dự xử lý video đầu vào nhằm cải thiện chất lượng video dựa đoán, ta thu được bản đồ QP của cả khung hình. Bản trên chỉ số VMAF. Ngoài ra, một cách tiếp cận khác của đồ QP này được dùng cho quá trình lượng tử và mã hóa Luo và cộng sự [20] dựa trên việc khai thác mối tương khung hình hiện tại. Cuối cùng, khung hình thu được quan của chỉ số VMAF và SSE để điều chỉnh quá trình sau quá trình mã hóa trên sẽ có mức chất lượng tương tối ưu hóa RD trên chuẩn H265/HEVC. Gần đây, nhóm đồng với điểm VMAF kỳ vọng. nghiên cứu của chúng tôi đã khai thác chỉ số VMAF để dự đoán giá trị QP cho mã hóa video độ phân giải thấp B. Dự đoán QP sử dụng mô hình VCNN [21] và đạt được kết quả vượt trội so với mã hóa truyền Học sâu và mạng Neural tích chập (CNN) đã được thống trên chuẩn H264/AVC. ứng dụng rộng rãi trong lĩnh vực mã hóa video, đặc ISBN 978-604-80-8932-0 277
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) lớp tích chập đầu tiên để trích xuất các tính năng cấp thấp cho việc dự đoán QP của CU. Tương tự ở lớp thứ hai và thứ ba, dữ liệu được nhân chập với các hạt nhân 2 × 2 (24 bộ lọc cho lớp thứ hai và 32 bộ lọc cho lớp thứ ba) để trích xuất các tính năng cấp cao hơn. • Lớp kết hợp: Tất cả các dữ liệu đầu ra của lớp tích chập thứ hai và thứ ba được kết hợp với nhau a tạo thành một vectơ đặc trưng (⃗ ). • Các lớp kết nối đầy đủ: Tất cả các thành phần trong ⃗ đi qua ba lớp kết nối đầy đủ, bao gồm hai a Hình 1: Sơ đồ tổng quát của phương pháp đề xuất lớp ẩn và một lớp đầu ra. Hai lớp kết nối đầy đủ ẩn liên tiếp tạo ra các vectơ đặc trưng và lớp đầu ra tạo ra tạo ra giá trị QP dự đoán cho mỗi CU. biệt là để cải thiện hiệu suất và chất lượng của quá Ngoài ra, điểm VMAF kỳ vọng được thêm vào để trình mã hóa. Trong đó, M. Xu và cộng sự [22] đã đề điều chỉnh việc dự đoán QP. Theo đó, điểm VMAF xuất phương pháp dựa trên học sâu để giảm độ phức tạp được bổ sung như một thành phần trong các vectơ mã hóa của HEVC ở chế độ nội khung và liên khung. đặc trưng. Điều này cho phép VCNN thích ứng với Mục tiêu của họ là dự đoán và kết thúc sớm quá trình các điểm VMAF khác nhau trong việc dự đoán QP phân vùng của CU có kích thước 64 × 64, tương đồng của CU. với kích thước của CU mà nghiên cứu hướng đến. Đầu ra của mô hình mạng này là xác suất phân cấp của mỗi Cuối cùng, để đánh giá hiệu quả của việc huận luyện CU trong CTU. Từ đó đưa ra một cơ chế kết thúc quy và kiểm thử mô hình VCNN thì nghiên cứu đề xuất sử trình phân vùng CU để tiết kiệm thời gian tính toán. dụng hàm đánh giá Sai số trung bình tuyệt đối (MAE - Kết quả thử nghiệm cho thấy phương pháp học sâu này Mean Absolute Error). Hàm MAE được tính toán theo hoạt động tốt hơn nhiều so với các phương pháp tiếp công thức 1. cận hiện đại khác về cả giảm độ phức tạp và hiệu suất 1 n RD. Do đó, nghiên cứu đã lấy cảm hứng từ mô hình M AE = |yj − yj | ˆ (1) n trên để xây dựng mô hình mạng CNN dự đoán QP của j=1 CU đầu vào có kích thước 64 × 64 với điểm VMAF kỳ trong đó, yj là giá trị QP dự đoán và yj là giá trị QP ˆ vọng như được minh họa trong Hình 2. thực tế của của CU thứ j. C. Thay đổi nhân tử Lagrange Để huấn luyện mô hình VCNN trong việc ước tính giá trị QP cho các CU, nghiên cứu đề xuất một mô hình tối ưu hóa RD dựa trên VMAF để tạo ra bộ dữ liệu huấn luyện. Cụ thể, dựa trên giả định rằng sự biến dạng (D - Distortion) có mối quan hệ nghịch đảo với chất lượng. Thêm vào đó, điểm VMAF dao động từ 0 đến 100 với điểm cao hơn biểu thị chất lượng tốt hơn. Do đó, biến dạng DV M AF được tính bằng phương trình sau đây: Hình 2: Kiến trúc của mô hình mạng VCNN 100 DV M AF = (2) V M AF Cấu trúc của VCNN bao gồm: Khi sử dụng độ biến dạng DV M AF trong quá trình mã • Lớp tiền xử lý: CTU ban đầu được chuyển thành hóa, quá trình RDO được định nghĩa như sau: định dạng kênh Y và được chuẩn hóa về giá trị trong khoảng 0-1. min{JV M AF } với JV M AF = DV M AF + λR (3) • Các lớp tích chập: dữ liệu đã được tiền xử lý đi qua ba lớp tích chập. Cụ thể, dữ liệu được nhân trong đó R là tốc độ bit của khung hình và λ là nhân tử chập với lần lượt 16 hạt nhân kích thước 4 × 4 ở Lagrange. Khi đường cong RDV M AF có tính chất lồi ISBN 978-604-80-8932-0 278
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Bảng I: Đặc tính các chuỗi video kiểm thử Chuỗi Độ phân Tốc độ Số khung hình Video giải khung hình mã hóa Vidyo1 1080x720 30 100 Vidyo3 1080x720 30 100 ParkScene 1920x1080 24 100 BasketballDrive 1920x1080 50 100 BQTerrace 1920x1080 60 100 và cả hai đều khả vi ở mọi điểm, hàm JV M AF đạt cực tiểu khi đạo hàm của nó bằng 0. Theo đó, ta có: ∂JV M AF ∂DV M AF ∂R = +λ =0 (4) ∂QP ∂QP ∂QP Do đó, λ được xác định theo QP bằng công thức (4). Hình 3: Đồ thị hàm mất mát của quá trình Huấn luyện III. KIỂM THỬ VÀ ĐÁNH GIÁ và Kiểm thử A. Điều kiện kiểm thử Việc đánh giá hiệu quả của phương pháp đề xuất được thực hiện trên phần mềm tham chiều VVC VTM20.2 với được mã hóa 50 khung hình với cấu hình RandomAcess tập dữ liệu gồm 5 video như được mô tả trong Bảng I. và GOP là 32. Sau đó, dữ liệu được đưa vào mô hình Cấu hình mã hóa RandomAcess được sử dụng, với 4 hệ VCNN để huấn luyện với 30 epoch và thu được giá trị số lượng tử {22, 27, 32, 37}. MAE đạt 2.52 như được minh họa trong Hình 3. Sau đó, nghiên cứu sử dụng chỉ số Bjontegaard [23] bao gồm chỉ số về tỉ lệ tiết kiệm bitrate (BD-rate) và tỉ C. Đánh giá hiệu năng mã hóa lệ tăng VMAF (BD-VMAF) để đánh giá hiệu suất mã hóa của phương pháp đề xuất với VTM20.2. Nhằm kiểm tra hiệu quả của phương pháp đề xuất, B. Quá trình gán nhãn và huấn luyện nghiên cứu đã sử dụng phần mềm mới nhất hiện nay của VVC để so sánh với kết quả đạt được. Dựa vào Nhãn của dữ liệu là giá trị QP mà có chi phí J là kết quả của Bảng II có thể thấy phương pháp đề xuất nhỏ nhất với cùng một mức VMAF. Đầu tiên, một khung giúp tiết kiệm 0.63% lượng bitrate dùng để mã hóa khi hình được mã hóa với QP từ 22 đến 42. Sau đó với mỗi so sánh với cùng mức chất lượng, trong khi độ lợi về QP, thông tin về Bitrate, QP và điểm VMAF được thu VMAF tăng trung bình 0.55%. Tất cả các chuỗi video thập. Bởi vì các điểm VMAF gần nhau có chất lượng kiểm thử đều cho kết quả tiết kiệm từ 0.1% đến 1.32% khá tương đồng với nhau và để đảm bảo chất lượng video lượng bitrate và ở trường hợp tốt nhất thì phương pháp nên chúng được chia thành 9 nhóm cách đều nhau 5 đơn đã tiết kiệm tới 1.32% với tỉ lệ tăng về VMAF là 0.37%. vị từ VMAF có điểm là 55. Theo đó, nghiên cứu thu Ngoài ra, nhằm biểu thị rõ hơn kết quả đạt được, được các nhóm VMAF như sau: Hình 4 cho thấy đường cong chất lượng của phương pháp đề xuất tốt hơn một mức nhỏ so với bộ mã hóa GV M AFi = {V M AFi1 , V M AFi2 , . . . , V M AFin } video VVC gốc. (5) Cuối cùng, khi mã hóa các chuỗi video bằng trong đó, GV M AFi là nhóm VMAF mức i và V M AFij VTM20.2 và đo điểm VMAF cho mỗi QP để làm đầu là điểm V M AF của QP thứ j nằm trong nhóm i. Sau vào cho phương pháp đề xuất. Theo đó, sự sai khác giữa đó, chí phí JV M AF của QP thứ j trong nhóm i được giá trị VMAF kỳ vọng và dự đoán dao động từ 0 đến tính. Cuối cùng, bản đồ QP tương ứng của QP thứ j có 3 và đặc biệt phương pháp đề xuất có điểm trung bình chi phí JV M AF nhỏ nhất trong nhóm i được chọn làm được làm tròn bằng với điểm VMAF kỳ vọng. Do đó, nhãn cho dữ liệu của tất các QP trong nhóm. nghiên cứu đã chứng minh rằng, phương pháp đề xuất Với quy trình gán nhãn trên, nghiên cứu thực hiện mã hóa được chuỗi video có điểm VMAF đầu ra bám thu thập dữ liệu trên 11 chuỗi video có độ phân giải rất sát và nằm trong cùng một mức so với điểm VMAF 1280 × 720, 1600 × 1200 và 1920 × 1080. Mỗi video kỳ vọng đầu vào. ISBN 978-604-80-8932-0 279
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) IV. KẾT LUẬN [7] X. HoangVan and H.-H. Nguyen, “Enhancing quality for vvc compressed videos with multi-frame quality enhancement Trong nghiên cứu này, một quy trình tối ưu hóa RD model,” in 2020 International Conference on Advanced Tech- mới được đề xuất dựa trên chỉ số VMAF nhằm nâng nologies for Communications (ATC), 2020, pp. 172–176. [8] X. HoangVan, S. NguyenQuang, and F. Pereira, “Versatile video cao trải nghiệm của người dùng. Thay vì sử dụng QP coding based quality scalability with joint layer reference,” IEEE để lựa chọn mức độ nén cho video, phương pháp được Signal Processing Letters, vol. 27, pp. 2079–2083, 2020. đề xuất dự đoán QP dựa vào điểm VMAF mong muốn [9] X. HoangVan, “Adaptive quantization parameter estimation for hevc based surveillance scalable video coding,” ở đầu vào. Kết quả cho thấy với cùng mức chất lượng Electronics, vol. 9, no. 6, 2020. [Online]. Available: VMAF, phương pháp đề xuất giúp giảm bitrate trung https://www.mdpi.com/2079-9292/9/6/915 bình 0.63% và độ lợi về điểm VMAF tăng trung bình [10] Z. Li, A. Aaron, I. Katsavounidis, A. Moorthy, M. Manohara et al., “Toward a practical perceptual video quality metric,” The 0.55%. Thêm vào đó, mô hình đề xuất giúp đạt được Netflix Tech Blog, vol. 6, no. 2, p. 2, 2016. video sau mã hóa có điểm VMAF tương đồng với kỳ [11] C. Lee, S. Woo, S. Baek, J. Han, J. Chae, and J. Rim, “Com- vọng đầu vào. Do đó, nghiên cứu đã góp phần tăng trải parison of objective quality models for adaptive bit-streaming services,” in 2017 8th International Conference on Information, nghiệm của người dùng. Trong tương lai, nghiên cứu sẽ Intelligence, Systems & Applications (IISA). IEEE, 2017, pp. tập trung vào việc điều chỉnh QP của những phân vùng 1–4. có kích thước nhỏ hơn và có thể kết thúc sớm quá trình [12] R. Rassool, “Vmaf reproducibility: Validating a perceptual prac- tical video quality metric,” in 2017 IEEE international sym- phân vùng dựa vào chỉ số VMAF. Qua đó, điều này posium on broadband multimedia systems and broadcasting giúp tăng hiệu năng mã hóa video dựa trên việc đánh (BMSB). IEEE, 2017, pp. 1–2. giá đúng chất lượng cảm nhận của người dùng và giảm [13] B. García, L. López-Fernández, F. Gortázar, and M. Gallego, “Practical evaluation of vmaf perceptual video quality for webrtc thời mã hóa. applications,” Electronics, vol. 8, no. 8, p. 854, 2019. [14] R. Rassool, “Vmaf reproducibility: Validating a perceptual prac- LỜI CẢM ƠN tical video quality metric,” in 2017 IEEE international sym- posium on broadband multimedia systems and broadcasting Nghiên cứu này được tiến hành trong khuôn khổ đề (BMSB). IEEE, 2017, pp. 1–2. tài hợp tác giữa Học viện Công nghệ Bưu chính Viễn [15] G. J. Sullivan and T. Wiegand, “Rate-distortion optimization for thông và Tập đoàn Naver - Hàn Quốc mã số 01-PTIT- video compression,” IEEE signal processing magazine, vol. 15, no. 6, pp. 74–90, 1998. NAVER-2022. [16] Y.-H. Huang, T.-S. Ou, P.-Y. Su, and H. H. Chen, “Perceptual rate-distortion optimization using structural similarity index as TÀI LIỆU THAM KHẢO quality metric,” IEEE Transactions on Circuits and Systems for [1] D. Le Gall, “Mpeg: A video compression standard for multime- Video Technology, vol. 20, no. 11, pp. 1614–1624, 2010. dia applications,” Communications of the ACM, vol. 34, no. 4, [17] C. Yeo, H. L. Tan, and Y. H. Tan, “On rate distortion optimiza- pp. 46–58, 1991. tion using ssim,” IEEE Transactions on Circuits and Systems for [2] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, Video Technology, vol. 23, no. 7, pp. 1170–1181, 2013. “Overview of the h. 264/avc video coding standard,” IEEE Trans- [18] S. Wang, A. Rehman, Z. Wang, S. Ma, and W. Gao, “Ssim- actions on circuits and systems for video technology, vol. 13, motivated rate-distortion optimization for video coding,” IEEE no. 7, pp. 560–576, 2003. Transactions on Circuits and Systems for Video Technology, [3] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview vol. 22, no. 4, pp. 516–529, 2011. of the high efficiency video coding (hevc) standard,” IEEE [19] A. Zvezdakova, S. Zvezdakov, D. Kulikov, and D. Vatolin, Transactions on Circuits and Systems for Video Technology, “Hacking vmaf with video color and contrast distortion,” arXiv vol. 22, no. 12, pp. 1649–1668, 2012. preprint arXiv:1907.04807, 2019. [4] B. Bross, Y.-K. Wang, Y. Ye, S. Liu, J. Chen, G. J. Sullivan, [20] Z. Luo, Y. Huang, X. Wang, R. Xie, and L. Song, “Vmaf and J.-R. Ohm, “Overview of the versatile video coding (vvc) oriented perceptual optimization for video coding,” in 2019 standard and its applications,” IEEE Transactions on Circuits and IEEE International Symposium on Circuits and Systems (ISCAS). Systems for Video Technology, vol. 31, no. 10, pp. 3736–3764, IEEE, 2019, pp. 1–5. 2021. [21] T. H. Vu, H. P. Cong, T. Sisouvong, X. HoangVan, S. Nguyen- [5] X. HoangVan, L. Dao Thi Hue, and T. Nguyen Canh, “A Quang, and M. DoNgoc, “Vmaf based quantization parameter trellis based temporal rate allocation and virtual reference prediction model for low resolution video coding,” in 2022 frames for high efficiency video coding,” Electronics, vol. 10, International Conference on Advanced Technologies for Com- no. 12, 2021. [Online]. Available: https://www.mdpi.com/2079- munications (ATC), 2022, pp. 364–368. 9292/10/12/1384 [22] M. Xu, T. Li, Z. Wang, X. Deng, R. Yang, and Z. Guan, [6] X. HoangVan, S. NguyenQuang, M. DinhBao, M. DoNgoc, “Reducing complexity of hevc: A deep learning approach,” IEEE and D. Trieu Duong, “Fast qtmt for h.266/vvc intra prediction Transactions on Image Processing, vol. 27, no. 10, pp. 5044– using early-terminated hierarchical cnn model,” in 2021 Inter- 5059, 2018. national Conference on Advanced Technologies for Communica- [23] G. Bjøntegaard, “Calculation of average psnr differ- tions (ATC), 2021, pp. 195–200. ences between rd-curves,” 2001. [Online]. Available: https://api.semanticscholar.org/CorpusID:61598325 ISBN 978-604-80-8932-0 280
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Bảng II: Kết quả so sánh hiệu năng mã hóa Phương pháp đề xuất VMAF VMAF Chuỗi video QP với VTM20.2 kỳ vọng dự đoán BD-Rate BD-VMAF 22 94 93 27 92 92 Vidyo1 -0.68 0.26 32 88 88 37 82 81 22 100 98 27 93 92 Vidyo3 -0.70 1.20 32 87 84 37 76 75 22 95 93 27 89 89 ParkScene -0.10 0.34 32 77 77 37 62 63 22 100 100 27 97 98 BasketballDrive -0.35 0.58 32 87 88 37 73 75 22 97 98 27 94 95 BQTerrace -1.32 0.37 32 89 91 37 82 84 Trung bình 87 87 -0.63 0.55 (a) (b) (c) (d) (e) Hình 4: Đồ thị minh họa sự phụ thuộc của Bitrate và VMAF. ISBN 978-604-80-8932-0 281
CÓ THỂ BẠN MUỐN DOWNLOAD
-
9 mẹo tiết kiệm năng lượng trong nhà
3 p | 144 | 26
-
Nghiên cứu nâng cao hiệu quả sử dụng họ động cơ CUMMINS làm máy chính cho đội tàu lưới kéo, chương 20
5 p | 143 | 24
-
Điều kiện dừng sớm cho thuật toán giải mã phân cực BP cải tiến
9 p | 23 | 6
-
Nghiên cứu thực hiện chuyển đổi số trong quản lý năng lượng và bảo dưỡng trong các doanh nghiệp sản xuất tại Việt Nam
11 p | 45 | 5
-
Phương pháp tạo thông tin phụ trợ dựa trên kỹ thuật học máy cho mã hóa video Wyner-Ziv
7 p | 37 | 5
-
Nghiên cứu mô phỏng hệ thống điều khiển tin học công nghiệp ứng dụng trong cơ cấu nâng cần trục dẫn động điện
10 p | 72 | 3
-
Nghiên cứu, thiết kế, mô phỏng và chế tạo bộ thay dao tự động của máy CNC nhiều trục
8 p | 41 | 3
-
Xây dựng và đánh giá hiệu năng mã hóa video phân tán với chuẩn VVC cải tiến
6 p | 12 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn