Luận văn Thạc sĩ Công nghệ kỹ thuật Điện tử Truyền thông: Kỹ thuật mã hóa video phân tán DVC và ứng dụng kỹ thuật DVC trong mạng cảm biến hình ảnh không dây

Chia sẻ: Yi Yi | Ngày: | Loại File: PDF | Số trang:49

Thêm vào BST

Báo xấu

66
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn tập trung tìm hiểu về chuẩn mã hóa video thế hệ mới H.265/HEVC[7], mô hình mã hóa video phân tán DVC và từ đó nghiên cứu, đề xuất nhằm cải tiến thông tin phụ đối với mã hóa video thế hệ mới H.265/HEVC[7]. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ kỹ thuật Điện tử Truyền thông: Kỹ thuật mã hóa video phân tán DVC và ứng dụng kỹ thuật DVC trong mạng cảm biến hình ảnh không dây

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Anh Tuấn KỸ THUẬT MÃ HÓA VIDEO PHÂN TÁN DVC VÀ ỨNG DỤNG KỸ THUẬT DVC TRONG MẠNG CẢM BIẾN HÌNH ẢNH KHÔNG DÂY LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG Chuyên ngành: Kỹ thuật viễn thông HÀ NỘI, 2019
LỜI CAM ĐOAN Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực và chƣa hề đƣợc sử dụng để bảo vệ học vị nào. Mọi sự giúp đỡ trong luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc rõ ràng và đƣợc phép công bố. Hà Nội, ngày … tháng … năm 2019 Ngƣời thực hiện Nguyễn Anh Tuấn 1
LỜI CẢM ƠN Đƣợc sự phân công của Khoa Điện tử viễn thông, trƣờng Đại học Công nghệ, dƣới sự hƣớng dẫn của TS Hoàng Văn Xiêm và TS Đinh triều Dƣơng, tôi đã hoàn thành luận văn. Để hoàn thành luận văn này tôi xin cảm ơn các Thầy cô trong Khoa Điện tử viễn thông, trƣờng Đại học Công nghệ đã nhiệt tình dạy dỗ, cung cấp phƣơng pháp, kiến thức trong suốt thời gian học tập. Tôi xin chân thành cảm ơn tới hai thầy giáo TS Hoàng Văn Xiêm, TS Đinh triều Dƣơng và Ths Phí Công Huy đã tận tình hƣớng dẫn và chỉ bảo tôi rất nhiều cả về kiến thức cũng nhƣ phƣơng pháp làm việc trong quá trình thực hiện và hoàn thành luận văn. Mặc dù đã cố gắng và tích cực trong việc thực hiện luận văn nhƣng không thể tránh đƣợc những sai sót nhất định, tôi rất mong nhận đƣợc sự đóng góp của các Thầy cô và các bạn đồng nghiệp để hoàn chỉnh luận văn và có hƣớng phát triển hơn nữa. Tôi xin chân thành cảm ơn. 2
MỤC LỤC CÁC THUẬT NGỮ VIẾT TẮT................................................................................................. 4 DANH MỤC BẢNG .................................................................................................................. 6 DANH MỤC SƠ ĐỒ, HÌNH VẼ ............................................................................................... 7 LỜI MỞ ĐẦU ............................................................................................................................ 8 1. Lý do lựa chọn đề tài .......................................................................................................... 8 2. Mục đích nghiên cứu ........................................................................................................ 10 3. Đối tƣợng nghiên cứu ....................................................................................................... 10 4. Phạm vi và phƣơng pháp nghiên cứu ............................................................................... 10 5. Cấu trúc luận văn .............................................................................................................. 10 CHƢƠNG I. TỔNG QUAN VỀ MÃ HÓA VIDEO DỰ ĐOÁN HEVC VÀ MÃ HÓA PHÂN TÁN DVC ................................................................................................................................ 12 1.1. Giới thiệu chung ............................................................................................................ 12 1.2. Mã hóa video dự đoán chuẩn HEVC ............................................................................. 13 1.2.1. Sơ đồ cấu trúc ......................................................................................................... 13 1.2.2. Mã hóa trong khung (Intra coding) ........................................................................ 16 1.2.3. Mã hóa liên khung (Inter coding) ........................................................................... 17 1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử ............................................. 17 1.2.5. Mã hóa entropy ....................................................................................................... 18 1.2.6. Bộ lọc khối và bù thích ứng mẫu SAO ................................................................... 20 1.3. Mã hóa video phân tán (DVC – Distributed Video Coding) ......................................... 20 1.3.1. Định lý Slepian-Wolf và định lý Wyner-Ziv .......................................................... 20 1.3.2. Kiến trúc mã hóa video phân tán DISCOVER ....................................................... 22 1.4. Kết luận chƣơng ............................................................................................................ 23 CHƢƠNG II. XÂY DỰNG MÔ HÌNH MÃ HÓA VIDEO TIÊN TIẾN THẾ HỆ MỚI TRÊN NỀN CHUẨN H.265/HEVC .................................................................................................... 25 2.1. Kiến trúc mã hóa video phân tán với bộ mã hóa H.265/HEVC .................................... 25 2.2. Tạo thông tin phụ ........................................................................................................... 27 2.3. Ứng dụng DVC trong mạng cảm biến hình ảnh không dây .......................................... 33 2.4. Kết luận chƣơng ............................................................................................................ 34 CHƢƠNG III. MÔ PHỎNG VÀ ĐÁNH GIÁ ......................................................................... 36 3.1. Điều kiện đánh giá ......................................................................................................... 36 3.2. Đánh giá chất lƣợng key frames .................................................................................... 39 3.3. Đánh giá hiệu năng mã hóa mô hình DVC-HEVC ....................................................... 43 3.4. Kết luận chƣơng ............................................................................................................ 45 KẾT LUẬN .............................................................................................................................. 46 TÀI LIỆU THAM KHẢO ........................................................................................................ 47 3
CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Nghĩa Tiếng Việt A AVC Advance Video Coding Mã hóa video mở rộng Bose Chaudhuri Mã Bose Chaudhuri B BCH Hocquenghem Hocquenghem Content Adaptive Binary Mã hóa số học nhị phân CABAC Arithmetic Coding thích ứng ngữ cảnh CB Coding Block Khối mã hóa Correlated Noise C CNM Mô hình nhiễu tƣơng quan Modeling CTB Coding Tree Block Khối cây mã hóa CTU Coding Tree Unit Đơn vị cây mã hoá CU Coding Unit Đơn vị mã hóa DCT Discrete Cosine Transform Biến đổi Cosin rời rạc D DVC Distributed Video Coding Mã hóa video phân tán G GOP Group of Picture Nhóm ảnh HDR High dynamic range Dải động cao High Efficiency Video HEVC Mã hóa video hiệu quả cao Coding H HFR High frame rate Tốc độ khung hình cao Khung mã hóa video kết HVC Hybrid Video Coding hợp Inverse Discrete Cosine Biến đổi cosin rời rạc I IDCT Transform ngƣợc Joint Photographic Experts Chuẩn nén ảnh của ủy ban J JPEG Group quốc tế Mã kiểm tra chẵn lẻ mật độ L LDPC Low-density parity-check thấp M MC Motion Compensation Bù chuyển động 4
Motion Compensation Nội suy tạm thời bù chuyển MCTI Temporal động ME Motion Estimation Ƣớc lƣợng chuyển động Moving Picture Experts Nhóm các chuyên gia hình MPEG Group ảnh động Giá trị trung bình bình MSE Mean Square Error phƣơng lỗi PB Prediction Block Khối dự đoán P PDWZ Pixel Domain Wyner-Ziv Wyner-Ziv miền pixel PU Prediction Unit Đơn vị dự đoán Q QM Quantization Matrix Ma trận lƣợng tử SAO Sample Adaptive Offset Bù thích ứng mẫu S SI Side Information Thông tin phụ trợ TB Transform Block Khối biến đổi Transform Domain T TDWZ Wyner-Ziv miền biến đổi Wyner-Ziv TU Transform Unit Đơn vị biến đổi U UHD Ultra-high definition Độ phân giải siêu cao V VLC Variable Length Code Mã có chiều dài thay đổi W WCG Wide color gamut Gam màu rộng 5
DANH MỤC BẢNG Bảng 1.1: Giá trị lƣợng tử và xác suất tƣơng ứng .................................................................... 19 Bảng 1.2: Mã Huffman và số lƣợng bit cần mã hóa tƣơng ứng ............................................... 19 Bảng 2.1: Các mức tiêu thụ năng lƣợng trong mã hóa dự đoán và phân tán............................ 34 Bảng 3.1: Bảng mô tả tóm tắt các thông số sử dụng đánh giá.................................................. 37 Bảng 3.2: Giá trị lƣợng tử cho khung chính tại GOP=2, QCIF 15Hz ...................................... 38 6
DANH MỤC SƠ ĐỒ, HÌNH VẼ Mã hóa video truyền thống và mã hóa video phân tán ............................................................... 9 Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC ...................................................... 13 Hình 1.2: Kỹ thuật phân vùng trong HEVC ............................................................................. 15 Hình 1.3: Các chế độ và các hƣớng cho dự đoán hình trong khung [8] ................................... 17 Hình 1.4: Giá trị điểm ảnh trong miền pixel và miền DCT tƣơng ứng .................................... 18 Hình 1.5: Mô hình phép lƣợng tử tuyến tính ............................................................................ 18 Hình 1.6: Cây mã huffman ....................................................................................................... 19 Hình 1.7: Biểu đồ vùng tỷ lệ tốc độ mã giữ hai nguồn X,Y ..................................................... 22 Hình 1.8. Kiến trúc mã hóa video phân tán DVC DISCOVER[2] ........................................... 23 Hình 2.1: Cấu trúc mã hóa DVC-HEVC .................................................................................. 25 Hình 2.2: Quá trình nội suy khung ........................................................................................... 28 Hình 2.3: Lựa chọn vectơ chuyển động.................................................................................... 30 Hình 2.4: Ƣớc lƣợng chuyển động hai chiều............................................................................ 30 Hình 2.5: Quá trình nội suy khung kết hợp ƣớc lƣợng chuyển động trƣớc và sau................... 32 Hình 3.1: Mô tả khung hình đầu tiên của 4 chuỗi video .......................................................... 37 Hình 3.2: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video Foreman)................................................................................................................................... 40 Hình 3.3: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video Hall monitor) ............................................................................................................................ 40 Hình 3.4: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video Coastguard)............................................................................................................................... 41 Hình 3.5: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video Soccer) ...................................................................................................................................... 41 Hình 3.6: Đánh giá chất lƣợng khung hình giữa H.264/AVC và H.265/HEVC (Video Foreman)................................................................................................................................... 42 Hình 3.7: Đánh giá chất lƣợng khung hình giữa H.264/AVC và H.265/HEVC (Video coastguard)................................................................................................................................ 42 Hình 3.8: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................... 43 (Video Foreman) ...................................................................................................................... 43 Hình 3.9: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................... 43 (Video Hall monitor) ................................................................................................................ 43 Hình 3.10: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................. 44 (Video Coastguard) .................................................................................................................. 44 Hình 3.11: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................. 44 (Video Soccer) .......................................................................................................................... 44 7
LỜI MỞ ĐẦU 1. Lý do lựa chọn đề tài Video chiếm khoảng 75% dữ liệu đƣợc truyền tải trong mạng trên toàn thế giới và tỷ lệ này vẫn đang tăng lên đều đặn và dự kiến sẽ tiếp tục phát triển hơn nữa trong tƣơng lai. Trong khi đó, việc giới thiệu các video với độ phân giải siêu cao (ultra-high definition - UHD), dải động cao (high dynamic range - HDR), gam màu rộng (Wide color gamut - WCG), tốc độ khung hình cao (High frame rate - HFR) và các dịch vụ video trong tƣơng lai sẽ gia tăng đáng kể thách thức. Do đó, nhu cầu về các công nghệ mã hóa (nén) video hiệu quả luôn luôn cấp bách. Kể từ khi khái niệm mã hóa kết hợp đƣợc đề xuất bởi Habibi [1] vào năm 1974 và khung mã hóa không gian-thời gian kết hợp của Forchheimer vào năm 1981, khung mã hóa video kết hợp (Hybrid Video Coding - HVC) đã đƣợc áp dụng rộng rãi vào các chuẩn mã hóa hình ảnh/video phổ biến nhất hiện có nhƣ JPEG, H.261, MPEG2, H.264/AVC và H.265/HEVC, v.v ... Hiệu suất mã hóa video đƣợc cải thiện khoảng 50% cứ sau 10 năm cùng với đó là sự tăng lên độ phức tạp tính toán và bộ nhớ. Và hiện tại đã gặp phải những thách thức lớn để cải thiện đáng kể hiệu quả mã hóa nhằm đáp ứng yêu cầu kỹ thuật của các ứng dụng phƣơng tiện thông minh và công nghệ hiện đại nhƣ nhận diện khuôn mặt/cơ thể, theo dõi đối tƣợng, truy xuất hình ảnh, v.v. Với sự tăng lên nhanh chóng của các thiết bị video, từ máy quay cầm tay đến mạng cảm biến video công suất thấp và điện thoại di động đƣợc trang bị đa phƣơng tiện, mã hóa độ phức tạp thấp trở nên quan trọng để đáp ứng với công suất và mức tiêu hao năng lƣợng của các thiết bị di động. Để đáp ứng những nhu cầu này cho truyền thông video, mã hóa video phân tán (Distributed Video Coding – DVC) [2], một mô hình mã hóa video đƣợc phát triển dựa trên lý thuyết Slepian-Wolf và Wyner-Ziv [3]. DVC có thể đƣợc phát triển theo một trong hai cách tiếp cận chính. Cách tiếp cận đầu tiên, đề xuất bởi nhóm nghiên cứu ở trƣờng Đại học Stanford [4], theo hƣớng mã hóa toàn khung hình. Mỗi video đầu vào đƣợc chia tách tách thành hai loại, khung hình chính (Key frame) và khung hình Wyner-Ziv (WZ frame). Trong khi các khung chính đƣợc mã hóa bới các bộ mã hóa chuẩn với cấu hình phức tạp thấp (H.263 Intra hoặc H.264/AVC Intra), các khung WZ đƣợc mã hóa sử dụng các bộ mã hóa kênh nhƣ 8
mã turbo hoặc mã LDPC [5], kết hợp với ƣớc lƣợng giá trị của khung hình tại phía thu. Cách tiếp cận thứ hai là theo phƣơng pháp mã hóa khối – PRISM [6], trong đó cùng với các khối đƣợc mã hóa theo phƣơng pháp truyền thống nhƣ mã hóa trong khung (intra coding) kết hợp với mã kênh BCH. Một đặc điểm chung của cả hai cách tiếp cận này là bộ mã hóa sẽ dịch chuyển các phần phức tạp nhƣ ƣớc lƣợng chuyển động từ phía phát sang phía thu. Hình dƣới mô tả tổng quan việc xử lý thông tin video theo phƣơng pháp dự đoán truyền thồng và phƣơng pháp phân tán. Trong phƣơng pháp truyền thống, video đƣợc tạo dự đoán tại cả phía phát và phía thu, thông tin dƣ thừa đƣợc xác định tại phía phát sẽ đƣợc gửi đi, do vậy, phía phát sẽ phải làm rất nhiều nhiệm vụ phức tạp. Trong khi đó, với phƣơng pháp mã hóa video phân tán , phía thu sẽ đảm nhiệm vai trò tạo dự đoán, thông qua một bộ tạo thông tin phụ (Side information) nhƣ mô tả ở các chƣơng sau. Phía phát chỉ đơn giản truyền đi sự khác biệt tƣơng quan giữa thông tin gốc và thông tin phụ tại phía thu. Do vậy, thời gian mã hóa sẽ đƣợc giảm đi đáng kể. Độ phức tạp Độ phức tạp phía Độ phức tạp phía Độ phức tạp phía phía mã hóa cao giải mã thấp mã hóa thấp giải mã cao W W W W Mã hóa Giải mã Mã hóa Giải mã Y Y a. Mã hóa video truyền thống b. Mã hóa video phân tán Mã hóa video truyền thống và mã hóa video phân tán Sự ra đời gần đây của chuẩn mã hóa H.265/HEVC [7], với khoảng 50% lƣợng bit yêu cầu thấp hơn so với chuẩn H.264/AVC [8] đã tạo động lực để tiếp tục các nghiên cứu cải tiến cho mô hình mã hóa phân tán DVC. Trên cơ sở đó, luận văn này tập trung nghiên cứu và xây dựng một mô hình mã hóa video phân tán thế hệ mới, trên nền tảng chuẩn H.265/HEVC và mô hình tạo thông tin phụ mới. 9
2. Mục đích nghiên cứu Luận văn tập trung tìm hiểu về chuẩn mã hóa video thế hệ mới H.265/HEVC [7], mô hình mã hóa video phân tán DVC và từ đó nghiên cứu, đề xuất nhằm cải tiến thông tin phụ đối với mã hóa video thế hệ mới H.265/HEVC [7]. 3. Đối tƣợng nghiên cứu Nghiên cứu, cải thiện chất lƣợng thông tin phụ trong mô hình DVC. - Mô hình mã hóa video phân tán DVC-HEVC - Các chuỗi video với khung hình thƣớc nhỏ do sử dụng mã video phân tán 4. Phạm vi và phƣơng pháp nghiên cứu Luận văn đƣa ra cái nhìn tổng quan về mã hóa video dự đoán chuẩn HEVC, mã hóa video phân tán DVC, mô hình DVC dựa trên kiến trúc DISCOVER [2, 9]. Từ mô hình kiến trúc DISCOVER, luận văn sẽ tập trung vào cách hình thành nên thông tin phụ. Phƣơng pháp nghiên cứu: - Khảo sát và nghiên cứu lý thuyết - Phƣơng pháp thu thập thông tin bằng cách nghiên cứu tài liệu kết hợp với kết quả thực nghiệm. - Tìm hiểu mô hình mã hóa video dự đoán chuẩn H.265/HEVC và mô hình mã hóa video phân tán DVC. - Nghiên cứu và đƣa ra cải tiến tạo thông tin phụ. - Phân tích và đánh giá. 5. Cấu trúc luận văn Nội dung chính của luận văn đƣợc trình bày qua 5 chƣơng: Chương 1: Tổng quan về mã hóa video dự đoán HEVC và mã hóa phân tán DVC Chƣơng này giới thiệu về bối cảnh của nghiên cứu mã hóa video và cấu trúc tổng quan mã hóa video. 10
Chương 2: Xây dựng mô hình mã hóa video tiên tiến thế hệ mới trên nền chuẩn H.265/HEVC Chƣơng này trình bày về kiến trúc tổng quan mã hóa video phân tán sử dụng HEVC cho mã hóa intra và sau đó đƣa ra mô hình tạo thông tin phụ mới, ứng dụng của mã hóa DVC trong việc giúp cải thiện năng lƣợng tiêu thụ của các cảm biến. Chương 3: Mô phỏng và đánh giá Chƣơng này sẽ đƣa ra các kịch bản mô phỏng và đánh giá tính hiệu quả của mô hình mã hóa video phân tán thế hệ mới, DVC-HEVC. Kết luận Kết luận sẽ tổng quát lại những kết quả lý thuyết và mô phỏng từ chƣơng 1,2,3 và đƣa ra những nhận xét. 11
CHƢƠNG I. TỔNG QUAN VỀ MÃ HÓA VIDEO DỰ ĐOÁN HEVC VÀ MÃ HÓA PHÂN TÁN DVC 1.1. Giới thiệu chung Những năm gần đây, truyền tải và lƣu trữ video càng trở lên phổ biến hơn do một số yếu tố nhƣ giá thành các sản phẩm liên quan nhƣ máy quay video HD, TV màn hình lớn, các thiết bị lƣu trữ… đang giảm rất nhanh. Bên cạnh đó, các bộ vi xử lý mới có tốc độ cao hơn rất nhiều, cùng với tốc độ internet đƣợc cải thiện đáng kể giúp việc tải một bộ phim nhanh chóng cũng nhƣ trải nghiệm mƣợt mà hơn. Nhu cầu trải nghiệm video ngày càng lớn, trƣớc đây việc thƣởng thức các bộ phim ở độ phân giải 480p rồi đến mHD 720p đã là thỏa mãn, thì giờ đây các phim độ phân giải Full HD 1080p đã ngày một nhiều hơn. Nhu cầu đó càng thể hiện mạnh mẽ hơn khi 2 năm gần đây xuất hiện các TV với công nghệ hình ảnh 4K với độ phân giải siêu cao. Các thiết bị lƣu trữ và đƣờng truyền internet với áp lực phải lớn hơn đã không kịp đáp ứng và đòi hỏi cần có một chuẩn nén video mới hiệu quả hơn nhằm giảm tải cho áp lực này. Với hình ảnh độ phân giải Full HD (FHD) 1920x1080, chuẩn nén H.264 có thể dễ dàng thực hiện tiến trình làm việc hay quá trình nén – giải mã tín hiệu. Tuy nhiên ngày nay FHD đang bị thay thế dần bởi độ phân giải 4K x 2K (3840x2610) và H.264 có vẻ bị tụt hậu và phát sinh nhiều lỗi trƣớc các độ phân giải cao này. Vấn đề còn tệ hơn nữa với việc xuất hiện độ phân giải rất cao 8K x 4K (7680x4320) hay còn đƣợc gọi là Ultra HD, H.264 đang gặp vấn đề về dung lƣợng lƣu trữ và đặc biệt là quá trình xử lý các hình ảnh độ nét cao hoặc gần nhƣ tối đa. Hay nói cách khác, xử lý các hình ảnh độ phân giải cao 4K là nhiệm vụ bất khả thi với H.264 [8]. H.265 hay HEVC (High Efficiency Video Coding) [7] đƣợc Ủy ban Viễn thông Quốc tế ITU-T thông qua và bắt đầu đƣợc các nhà phát triển đƣa vào sản phẩm thƣơng mại. H.265 hứa hẹn mang lại khả năng nén cao gấp đôi so với ngƣời tiền nhiệm H.264/AVC (Advance Video Coding) [8] hiện đang đƣợc dùng phổ biến (chiếm tới 80% các nội dung video lƣu trữ hiện nay). Với khả năng này H.265 giúp giảm băng thông cần thiết để truyền tải phim, giảm dung lƣợng lƣu trữ và chúng ta phải trả ít tiền 12
hơn cho băng thông internet và thiết bị lƣu trữ. Ƣu điểm vƣợt trội này cũng sẽ là cú hích cho thị trƣờng thiết bị nghe nhìn 4K/UHD. Trong tƣơng lai, với các đoạn video trên youtube, facebook... chúng ta có thể xem với hình ảnh cực nét mà không cần phải chờ đợi để tải về nữa. Vào ngày 29/2/2012, tại triển lãm Mobile World Congress, hãng Qualcomm đã trình chiếu hiệu năng của bộ nén mới trên tablet khi mà chuẩn nén mới đã cho chất lƣợng hiện thị tƣơng đƣơng với dung lƣợng gần nhƣ giảm một nửa. 1.2. Mã hóa video dự đoán chuẩn HEVC 1.2.1. Sơ đồ cấu trúc Hình 1.1 mô tả sơ đồ kiến trúc mã hóa video theo chuẩn HEVC [7]. Bộ điều khiển Đầu vào là 1 chung video Bộ điều khiển dữ liệu chung Biến đổi Tỷ lệ Lƣợng tử Lƣợng tử - Tỷ lệ và biến đổi ngƣợc Biến đổi Tỷ lệ Chia thành các CTUs Dự đoán dữ Định dạng liệu tiêu đề và Ƣớc lƣợng CABAC Luồng dữ hình ảnh Phân tích điều liệu nhị Điều khiển phân đƣợc khiển bộ lọc lọc dữ liệu mã hóa Dự đoán hình ảnh Tạo khối và lọc dữ liệu Dữ liệu Bù chuyển chuyển động động Đầu ra cho Ƣớc lƣợng video chuyển động Hình ảnh đƣợc giải mã và lƣu trong bộ đệm Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC Trong HEVC, mỗi ảnh đầu vào đƣợc chia thành các khối ảnh, sau đó đƣợc mã hóa và đƣợc truyền tải đến các bộ giải mã. Ảnh đầu tiên của một chuỗi video đƣợc mã hoá chỉ sử dụng dự đoán trong khung. Đối với các ảnh còn lại của chuỗi sử dụng các chế độ mã hóa dự đoán liên khung theo thời gian. Quá trình mã hóa cho dự đoán liên 13
khung sẽ lựa chọn dữ liệu chuyển động bao gồm các ảnh tham chiếu và vector chuyển động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh. Các bộ mã hóa và giải mã tạo ra tín hiệu dự đoán liên khung giống nhau bằng cách sử dụng kỹ thuật bù chuyển động (MC) và thông tin phụ (side informartion) là dữ liệu để quyết định chế độ. Các tín hiệu dƣ thừa của dự đoán trong khung và liên khung sẽ đƣợc biến đổi bởi phép biến đổi không gian tuyến tính. Sau đó các hệ số biến đổi đƣợc định cỡ (scale), lƣợng tử hóa, mã hóa entropy, và đƣợc truyền cùng với các thông tin dự đoán. Đồng thời, bộ mã hóa cũng bao gồm cả phần xử lý giải mã sao cho cả hai phía mã hóa và giải mã cùng tạo ra các dự đoán giống nhau đối với ảnh kế tiếp. Do đó, các hệ số biến đổi lƣợng tử sẽ đƣợc tạo lại qua định cỡ ngƣợc và biến đổi ngƣợc để tạo lại gần đúng tín hiệu dƣ thừa. Sau đó các tín hiệu dƣ thừa này cộng với các tín hiệu dự đoán và đƣợc đƣa vào một hoặc hai bộ lọc để làm mịn ảnh. Ảnh biểu diễn cuối cùng (một bản sao của đầu ra của bộ giải mã) đƣợc lƣu trữ trong một bộ đệm ảnh giải mã và đƣợc sử dụng để dự đoán các ảnh tiếp theo. Đối với các chuẩn mã hóa trƣớc đó, khung ảnh đƣợc chia thành các đơn vị mã hóa là các macroblock, bao gồm một khối 16x16 các mẫu thành phần chói và các khối 8x8 các mẫu thành phần màu, trong khi đó các cấu trúc tƣơng tự trong HEVC là đơn vị cây mã hóa (CTU). Cụ thể, ảnh đƣợc chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu. Một CTB có kích thƣớc là 16, 32 hoặc 64, trong đó các kích thƣớc lớn hơn cho phép nén tốt hơn. HEVC hỗ trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân.  Đơn vị mã hóa (CU – Coding Unit) và khối mã hóa (CB – Coding Block) Cú pháp cây tứ phân (quadtree syntax) chứa trong CTU cho phép chia các CB có kích cỡ và vị trí thích hợp dựa trên đặc tính tín hiệu của vùng tạo bởi CTB, do đó gốc của cây tứ phân là CTU. Thông thƣờng, kích cỡ của CB đƣợc xác định nhƣ sau: 8x8 < kích cỡ CB size < kích cỡ CTB. Khi đó, đơn vị mã hóa CU sẽ gồm 1 CB chói và 2 CB màu, cùng cú pháp đi kèm. Một CTB có thể chứa chỉ một CU hoặc đƣợc phân chia thành nhiều CU, và mỗi CU có một phân vùng liên quan đến các đơn vị dự báo (PUs) và một cây các đơn vị biến đổi (TUs). 14
 Đơn vị dự đoán (PU) và khối dự đoán (PB) Quyết định việc mã hóa một vùng ảnh sử dụng dự đoán liên khung hoặc dự đoán trong khung đƣợc thực hiện ở mức CU. Cấu trúc phân chia PU có gốc ở mức CU. Tùy thuộc vào kiểu dự đoán mà các CB chói và màu sau đó có thể đƣợc phân chia thành các khối dự đoán (PB): chói và màu. Mỗi một PB sẽ chứa một vector chuyển động.  Đơn vị biến đổi (TU) và khối biến đổi (TB) Dƣ thừa dự đoán đƣợc mã hóa sử dụng các biến đổi khối. Cấu trúc cây TU có gốc ở mức CU. Dƣ thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp tục chia thành các TB chói nhỏ hơn. Điều tƣơng tự áp dụng cho các TB màu. Hàm số nguyên tƣơng tự nhƣ hàm biến đổi cosin rời rạc (DCT) đƣợc xác định cho các TB có kích thƣớc 4x4, 8x8, 16x16, và 32x32. PU Block CU CU CU CU TU TU TU TU CU CU TU CU CU TU TU TU TU CU CU CU CU Hình 1.2: Kỹ thuật phân vùng trong HEVC 15
1.2.2. Mã hóa trong khung (Intra coding) Dự đoán trong khung hoạt động theo kích thƣớc TB, và các mẫu biên giải mã trƣớc đó từ những TB lân cận về mặt không gian đƣợc sử dụng để tạo ra tín hiệu dự đoán. Dự đoán trong ảnh hỗ trợ 33 hƣớng khác nhau với các kích thƣớc TB từ 4x4 đến 32x32. Các hƣớng dự đoán đƣợc thể hiện trong hình 1.3. Ngoài ra dự đoán mặt phẳng và dự đoán DC cũng có thể đƣợc sử dụng. Đối với thành phần màu, chế độ dự đoán ngang, dọc, mặt phẳng và DC có thể đƣợc báo hiệu một cách rõ ràng, hoặc chế độ dự đoán thành phần màu đƣợc chỉ định giống các chế độ dự đoán thành phần chói. Mỗi CB đƣợc mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại mảng. Tƣơng tự nhƣ H.264 / MPEG-4 AVC, mã hóa dự đoán trong khung đƣợc hỗ trợ trong tất cả các loại mảng. HEVC hỗ trợ các phƣơng pháp mã hóa dự đoán trong ảnh khác nhau gọi là Intra_Angular, Intra_Planar, and Intra_DC. Một CB dự đoán trong khung có kích thƣớc MxM có thể có một trong hai loại phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB không phân chia và loại thứ hai chỉ ra rằng CB đƣợc chia thành bốn PB kích thƣớc bằng nhau. (N = M / 2). Tuy nhiên, nó có khả năng biểu diễn các vùng tƣơng tự mà có thể đƣợc xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thƣớc của các CB hiện tại lớn hơn so với kích thƣớc CU tối thiểu. Vì vậy, HEVC chỉ cho phép kiểu phân chia PART_NxN đƣợc sử dụng khi kích thƣớc CB hiện tại bằng với kích thƣớc CU tối thiểu. Điều này có nghĩa rằng kích thƣớc PB luôn bằng với kích thƣớc CB khi CB đƣợc mã hóa bằng chế độ dự đoán trong khung và kích thƣớc CB là không bằng với kích thƣớc CU tối thiểu. Dù chế độ dự đoán trong khung ở mức PB, nhƣng các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB. 16
Hình 1.3: Các chế độ và các hướng cho dự đoán hình trong khung [8] 1.2.3. Mã hóa liên khung (Inter coding) Dự đoán ảnh liên khung trong chuẩn H.265/HEVC cũng cho phép hỗ trợ dự đoán vectơ chuyển động với độ chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại vị trí sub-pel đƣợc nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối hình sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc không đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N. 1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử Phần dƣ từ khung gốc trừ đi cho khung dự đoán sau đó đƣợc đƣa qua bộ chuyển đổi sang một miền khác, thƣờng đƣợc chuyển đổi sang miền tần số sử dụng phƣơng pháp biến dổi Cosin rời rạc, mục đích của việc chuyển đổi này là để tách biệt các thành phần tần số thấp và loại bỏ đƣợc thông tin ở thành phần tần số cao, vì vậy thông tin mã hóa sẽ đƣợc giảm bớt, việc loại bỏ thông tin tại các thành phần tần số cao thƣờng ít ảnh hƣởng tới cảm nhận của mắt ngƣời về chất lƣợng hình ảnh. 17
Hình 1.4: Giá trị điểm ảnh trong miền pixel và miền DCT tương ứng Các thành phần tấn số cao thƣờng không nhạy cảm đối với mắt ngƣời và việc loại bỏ các thành phần tần số này sẽ thực hiện thông qua phép lƣợng tử hóa. Mục đích chính của phép lƣợng tử hóa là chuyển đổi tín hiệu vào tới các mức lƣợng tử, tín hiệu vào ở đây là các hệ số DCT. Nhƣ vậy, bằng việc lƣợng tử hóa, nhiều giá trị DCT có giá trị tƣơng đƣơng nhau sẽ đƣợc chuyển đổi về một giá trị lƣợng tử, giúp cho lƣợng thông tin cần mã hóa đƣợc giảm bớt. Hình 1.5: Mô hình phép lượng tử tuyến tính 1.2.5. Mã hóa entropy Giá trị lƣợng tử sẽ là một chuỗi ký tự các số nguyên, để truyền tải chuỗi ký tự này ta phải chuyển đổi sang chuỗi số nhị phân 0 và 1. Mã hóa entropy sẽ đƣợc áp dụng cho từng khối ảnh, từng giá trị lƣợng tử với độ dài phù hợp. Ví dụ: mã Huffman gán một VLC (Variable-length coding) cho mỗi ký hiệu dựa trên xác suất xuất hiện của các 18
ký hiệu. Theo đó chúng ta cần phải tính xác suất xuất hiện của mỗi ký hiệu và xây dựng một bộ từ mã có độ dài thay đổi, ví dụ đƣợc đƣa ra nhƣ bảng sau: Bảng 1.1: Giá trị lượng tử và xác suất tương ứng Vectơ Xác suất p Log2(1/p) -2 0.1 3.32 -1 0.2 2.32 0 0.4 1.32 1 0.2 2.32 2 0.1 3.32 1 0 0.6 0 1 1 0.4 0.2 0 1 0 1 0.2 0.2 0.1 0.1 0.4 1 -1 2 -2 0 Hình 1.6: Cây mã huffman Từ cây mã Huffman, ta có thể dễ dàng xác định đƣợc các từ mã tƣơng ứng với từng ký hiệu theo nhƣ bảng sau: Bảng 1.2: Mã Huffman và số lượng bit cần mã hóa tương ứng Vectơ Mã Số bit (thực tế) Số bit (lý tƣởng) 1 000 3 2.32 -1 001 3 2.32 2 010 3 3.32 -2 011 3 3.32 0 1 1 1.32 19