Bài giảng xử lý âm thanh và hình ảnh-p4
lượt xem 67
download
Phần này tập trung vào giới thiệu sự hình thành và phát triển các tiêu chuẩn của mã hóa
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng xử lý âm thanh và hình ảnh-p4
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Chương 4: Các chu n mã hóa âm thanh và nén nh trong truy n thông a phương ti n 4.1. Các chu n mã hóa tín hi u tho i Ph n này t p trung ch y u vào gi i thi u v n t t s hình thành và phát tri n các tiêu chu n c a mã hoá. M t k thu t ư c xem như là ph bi n khi và ch khi nó là m t ph n c a tiêu chu n. Tiêu chu n mã hóa tho i t n t i b i vì nó th c s c n thi t cho vi c thông tin liên l c và cho phép nh ng ngư i quan tâm có th s d ng và phát tri n s n ph m và các d ch v d a trên các cùng m t tham chi u. M t tiêu chu n ư c phát tri n b i m t i ngũ các chuyên gia thông qua m t quãng th i gian dài, v i vi c th nghi m r ng rãi và ánh giá l p i lăp l i nhi u l n m b o r ng m t t p h p các yêu c u ư c áp ng. Ch có các t ch c v i ngu n l c l n m i có th t ch c và th c hi n ư c nh ng công vi c khó khăn, ph c t p này. Th i gian c n thi t hoàn thành m t tiêu chu n k t khi b t u cho n k t thúc kho ng 4.5 năm. i u này không có nghĩa m t tiêu chu n không có l i ho c không th c i ti n thêm ư c n a. Trên th c t m t tiêu chu n m i thư ng xu t hi n như là s c i ti n c a các chu n ã có trư c ó và phù h p v i các ng d ng trong tương lai. M t s các t ch c chu n hóa liên quan n mã hóa tín hi u tho i ư c gi i thi u sau ây: • Liên minh vi n thông qu c t (ITU): Phân ban chu n hóa vi n thông c a ITU (ITU-T) ch u trách nhi m xây d ng các chu n liên quan n mã hóa tho i cho các ng d ng trong m ng i n tho i bao g m c m ng không dây và c nh. • Hi p h i công nghi p vi n thông (TIA): m nhi m v các tiêu chu n mã hóa tho i cho các ng d ng c bi t. TIA là thành ph n c a Vi n tiêu chu n qu c gia Hoa Kỳ (ANSI). TIA thành công trong vi c phát tri n các tiêu chu n cho i n tho i di ng s khu v c B c M bao g m c h th ng a truy nh p phân chia theo th i gian – TDMA và a truy nh p phân chia theo mã - CDMA. • Vi n tiêu chu n vi n thông Châu Âu (ETSI): ETSI có các thành viên t các nư c Châu Âu và các công ty và là m t t ch c chính c a các nhà s n xu t thi t b vi n thông. ETSI ư c t ch c theo các ng d ng và nhóm có nh hư ng l n nh t trong mã hóa tho i là nhóm c nhi m v di ng GSM - có m t s tiêu chu n h u d ng và ư c ng d ng tri n khai nhi u nơi trên th gi i. 121
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… • B qu c phòng Hoa Kỳ (DOD): DOD tham gia thi t l p các tiêu chu n mã hóa tho i, và ư c bi t n như là nh ng tiêu chu n c a Liên h p ch ng qu c Hoa Kỳ, ư c ng d ng ch y u trong quân s . • Trung tâm nghiên c u và phát tri n cho h th ng vô tuy n c a Nh t B n (RCR): Các tiêu chu n v di ng s Nh t B n ư c xây d ng b i RCR. B ng 4.1 dư i ây mô t v n t t các chu n mã hóa tho i: Các chu n Năm Thu t toán Tc ng d ng MOS Delay µ&A-law, M ng truy n 1972 64 kbps 4.3 0.125 ms G.711 PCM dn 1984, ADPCM 32 kbps Cáp bi n 4.0 0.125 ms G.721 87 Subband ISDN, Tho i 1988 48-64 kbps 4.0 0. 2 ms G.722 ADPCM h i ngh 2,3.2,4, 1988 VBR-ADPCM 16-24-32-40 kbps PCS/cordless 0.125 ms G.726,727 4.2 M ng truy n 1992 LD-CELP 16 kbps 4.2 0.625 ms G.728 dn M ng di ng 1995 CS-ACELP 8 kbps 4.0 15 ms G.729 2G Tho i th y hình MP_MLQ 1995 5.27/6.3 kbps (Videophone) 3.5-3.7 37.5 ms G.723.1 ACELP H.323, H.324 M ng di ng 1989 LTP_RPE 13 kbps 3.7 20 ms GSM-FR Châu Âu M ng di ng 1995 ACELP 13 kbps 4.0 20 ms GSM-EFR Châu Âu M ng di ng 1989 VSELP 8 kbps B cM - 3.5 20 ms IS-54 TDMA M ng di ng 1.2,2.4,4.8,9.6 1993 QCELP B cM - 3.3 20 ms IS-96 kbps CDMA M ng di ng 1994 VSELP 5.6 kbps 3.5 24.5 ms GSM_HR Châu Âu 1996 LPC-10 2.4 kbps Quân s ≤3.0 25 ms DoD_FS1015 1990 CELP 4.8 kbps Quân s 3.0 45ms DoD_FS1016 VoIP, Tho i AMR_WB h i ngh , 15-25 2001 6.6-23.85kbps 3.7-4.4 G.722.2 ACELP M ng di ng ms 3G B ng 4.1: Các chu n mã hoá tho i 122
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… 4.2. Các chu n mã hóa âm thanh 4.2.1. Các chu n mã hóa âm thanh ISO/MPEG T năm 1988, T ch c ISO/MPEG m trách vi c tiêu chu n hóa các k thu t nén âm thanh và hình nh. N i dung nghiên c u chính c a vi c chu n hóa là mã hóa âm thanh và hình nh cho các phương ti n lưu tr s bao g m CD-ROM, DAT, ĩa quang t MO và c ng máy tính. MPEG, vi t t t c a c m t “Moving Picture Experts Group”, là m t nhóm chuyên nghiên c u phát tri n các tiêu chu n v hình nh s và nén âm thanh theo chu n ISO/IEC. Ngày nay, nhóm làm vi c MPEG ã phát tri n và phát hành các tiêu chu n MPEG-1, MPEG-2 và MPEG-4…MPEG ch là m t tên riêng, tên chính th c c a nó là: ISO/IEC JTC1 SC29 WG11 ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee 1 SC29 : Sub-committee 29 WG11: Work Group 11 (moving picture with audio). MPEG mô t nén tín hi u âm thanh s d ng các mô hình nén theo nh n th c, ưa ra m t h v i ba mô hình nén âm thanh ơn gi n là Layer I, Layer II và Layer III theo mc tăng lên c a ph c t p và kh năng th c hi n (ch t lư ng âm thanh theo dòng bít) c a b mã hóa. Ba b mã hóa này tương thích v i nhau theo cách có th t , có nghĩa là b gi i mã Layer N có kh năng gi i mã dòng d li u ư c mã hóa trong Layer N và t t c các Layer th p hơn N. i v i m i Layer, tiêu chu n nêu chu n dòng bít và b gi i mã. T t c các Layer s d ng cùng c u trúc. Mô hình mã hóa có th ư c mô t như nh d ng nhi u nh n th c hay chuy n i mã hóa băng ph theo nh n th c. B mã hóa phân tích thành ph n ph c a tín hi u âm thanh b ng cách tính d i l c và áp d ng mô hình âm thanh c m nh n xác nh m c nhi u có th nghe th y. Trong giai o n lư ng t hóa và mã hóa, b mã hóa s c g ng ch rõ s bít d li u c n áp ng c yêu c u dòng bít và hi n tư ng che l p. B gi i mã ơn gi n hơn, nhi m v chính là t ng h p tín hi u âm thanh t các thành ph n ph ư c mã hóa. T t c các Layer: • Dùng chung c u trúc b l c d i- filerband. • Dùng chung thông tin c a ph n u- header information trong dòng d li u u có kh năng nh y i v i l i bít tương t nhau, s d ng cùng c u trúc • dòng bít v i các ph n nh y v i l i bite (“header”, “bit location”, “scale factor”, “side information”) và các ph n ít nh y hơn (d li u v các thành ph n ph “data of spectral components”). 123
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… • H tr kh năng chèn các thông tin v chương trình vào dòng d li u âm thanh. • Có th s d ng t n s l y m u là 32,44.1 ho c 48 kHz. • Cho phép ho t ng v i các dòng bít gi ng nhau Danh sách các chu n MPEG: - MPEG-1(IS 11172,10,92): Mã hóa các nh chuy n ng và âm thanh kèm theo các phương ti n lưu tr s v i t c n kho ng 1.5 Mbit/s. • Ba ph n u ư c chu n hóa t năm 1992. • IS-11172-1 (“H th ng”) mô t ng b và ghép kênh c a các tín hi u video và âm thanh • IS-11172-2 (“Video”) mô t nén các tín hi u video, chú tr ng vào các tín hi u progressive scan video, ch y u cho các ng d ng “Video on CD” • IS-11172-3 (“Âm thanh”) mô t h mã hóa âm thanh chung, v i các thành viên tương thích theo ki u c u trúc th t (Layer I, II, III) • IS-11172-4 mô t các quá trình xác nh các thông s c a dòng d li u ư c mã hóa và quá trình d i mã và cho s thích ng v i yêu c u th nghi m theo yêu c u t ra trong các ph n khác • DTR-11172-5 báo cáo k thu t v ph n m m ng d ng c a ba ph n MPEG -1. -MPEG-2 (IS 13818, 11-97): c i m chung c a mã hóa hình nh chuy n ng và âm thanh theo, chú tr ng n chu n video chung, các ph n âm thanh m r ng. -MPEG-2 AAC: nén m t tín hi u âm thanh kênh 5.1 vào trong m t t c t i thi u là 320 Kbps. nh d ng 5.1 c p n năm kênh tín hi u âm thanh cùng v i tác d ng c a m t kênh tăng cư ng t n s th p có băng thông gi m. -MPEG-4 (CD – 14496, 11-97): mã hóa các i tư ng nghe nhìn, chú tr ng n các n i dung linh ho t và m r ng- là cơ s cho các chương trình nghe nhìn tương h . 4.2.2. Doby AC-3 Doby AC-3 (Doby Digital Audio Coding) là chu n nén âm thanh ư c s d ng trong nhi u b phim r p hát, nhà, và trong truy n hình ch t lư ng cao HDTV nư c M . AC-3 mã hoá m t tín hi u âm thanh kênh 5.1 vào thành lu ng bit 384 Kbps. Giai o n u tiên c a b gi i mã hoá AC-3 là l y 512 m u u vào và áp d ng bi n i MDCT. ti t ki m d i ng, thì sau ó nó chia các thành ph n t n s u ra thành các hàm loga và hàm mũ. Các giá tr này sau ó ư c lư ng t hoá ư c k t h p v i các kênh khác và ư c óng thành các khung truy n i. 4.2.3. AES-3 (Audio Engineering Society-3) 124
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… ây là tiêu chu n qu c t giao di n âm thanh k thu t s . Tiêu y c a nó là nh d ng truy n n i ti p cho hai kênh âm thanh s tuy n tính tương ng. Theo thu t ng ơn gi n mà có nghĩa nó là âm thanh n i và không nén. AES-3 là m t s phát tri n chung c a Hi p h i k sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng qu ng bá châu Âu - EBU (European Broadcasting Union). Tiêu chu n này d a trên cân b ng v cáp xo n ôi, và ư c cho kho ng cách truy n d n lên n 100 mét. Ba t c l y m u ư c h tr là 32, 44.1 và 48 KHz. 4.3. Các chu n nén nh JPEG 4.3.1. Chu n JPEG JPEG (Joint Photographic Experts Group) là tên m t t ch c nghiên c u v các chu n nén nh (trư c ây là ISO) ư c thành l p vào năm 1982. Năm 1986, JPEG chính th c ư c thi t l p nh s k t h p gi a nhóm ISO/IEC và ITU. n năm 1994, JPEG ư c kh ng nh v i tiêu chu n ISO 10918-1. JPEG là nh d ng nén nh có t n th t. Tiêu chu n này có có th ư c ng d ng trong nhi u lĩnh v c: lưu tr nh, Fax màu, truy n nh báo chí, nh cho y h c, camera s ... Nó còn có các nh d ng m r ng khác như .jpg, .jpeg, .jpe, .jfif và .jif. K thu t này có th t ư c h s nén hơn tám mươi l n so v i nh g c. Tuy nhiên, h s nén càng cao thì hình nh sau khi gi i nén s càng b sai l ch nhi u hơn, nó ch g n gi ng như ban u ch không t hoàn toàn như hình nh g c. Tiêu chu n JPEG ư c nh ra cho nén nh tĩnh ơn s c và màu. Tuy nhiên nó cũng ư c s d ng cho nhi u ng d ng v i nh ng b i vì nó cho ch t lư ng khôi ph c khá t t và ít tính toán hơn so v i nén MPEG. Nén JPEG có th th c hi n b i b n mode mã hóa: mã hóa tu n t , mã hóa lũy ti n, mã hóa không t n th t và mã hóa phân c p. Mã hóa không t n th t không s d ng cho video ng b i vì t l nén c a nó không cao. Khai tri n DCT ư c ch n là kĩ thu t then ch t trong JPEG vì nó cho nh nén ch t lư ng t t nh t t i s bit th p nh t và gi i thu t chuy n i nhanh, d dàng th c hi n b ng ph n c ng. nh d ng nén JPEG ư c s d ng trong t t c máy nh k thu t s có kích thư c r t nh nên thư ng ch p ư c nhi u nh trên m t th nh , JPEG d hi n th trên màn hình, nh có th chuy n nhanh qua thư i n t (dung lư ng t 300KB n 700KB), nh JPEG ch t lư ng cao có dung lư ng kho ng vài MB hay l n hơn. Nén theo chu n JPEG là m t ti n trình nhi u bư c. Trư c h t là bư c qui t c hóa (regularizing stage) làm cho nh có nhi u o n gi ng nhau hơn th c t . nh màu ư c chuy n sang d ng YUV ho c CIELAB, trong ó thông tin v chói (luminance) ư c tách r i v i thông tin v màu (chrominance). M t y u t ư c tính t i là m t ngư i ta nh y c m v i nh ng thay i nh v sáng hơn là nh ng thay i v màu s c, c bi t u xanh c a ph . Ngoài ra cách làm này còn khai thác th c t là nh thư ng có nhi u vùng l n t i ó các i m k nhau r t gi ng nhau v kênh màu. 125
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Bư c ti p theo là l y m u cho các kênh màu (g i là “downsampling” ho c “chroma subsampling”). ây là 1 trong 2 công o n làm m t thông tin và ch th c hi n khi b n ch n xác l p t l nén cao/ch t lư ng th p (high compression/low quality) c a JPEG. L y m u (subsampling) nghĩa là lo i b có h th ng các thông tin màu s c i v i các hàng ho c c t i m t l cho trư c. N u b n th c hi n c hai hàng lo i b m t hàng và hai c t lo i b m t c t, b n gi m ư c d li u màu i 75%. Khi t i nh, tr c a các i m lo i b trư c ó ư c ngo i suy t nh ng gì còn l i. Bư c ti p theo, nh g c ư c chia thành các kh i nh (block) nh kích thư c 8x8 không ch ng chéo lên nhau. Ti p theo, giá tr c a m i i m nh m i kh i kh i nh s ư c tr i 128. Lý do là do giá tr các i m nh có giá tr t 0 n 255 ( ư c mã hoá b i 8 bít không d u), áp d ng bi n i DCT s t o ra các h s AC có d i giá tr t -1023 n +1023 (có th ư c mã hoá b i 11 bít có d u). Nhưng h s DC l i có gi i giá tr t 0 n 2040 ( ư c mã hoá b i 11 bít không d u) và c n cách x lý khác ph n c ng ho c ph n m m so v i các h s AC. Chính vì th vi c tr giá tr m i i m nh i 128 là sau khi bi n i DCT c các h s DC và AC có cùng d i giá tr thu n l i cho vi c x lý và bi u di n. V i m i kh i nh hai chi u kích thư c 8x8, áp d ng bi n i DCT t o ra m n g hai chi u các h s bi n i. H s có tương ng v i t n s không gian th p nh t nhưng l i có giá tr l n nh t ư c g i là h s DC (m t chi u), nó t l v i chói trung bình c a c kh i nh 8x8. Các h s còn l i g i là các h s AC (xoay chi u). Theo lý thuy t, bi n i DCT không em l i s m t mát thông tin nh, mà ơn gi n nó ch chuy n thông tin nh sang mi n không gian m i thu t l i hơn cho mã hoá bư c ti p theo. M ng hai chi u các h s bi n i ư c lư ng t hoá s d ng b lư ng t hóa t l ng nh t. Nghĩa là các h s s ư c lư ng t hoá riêng l và c l p. Quá trình lư ng t hoá là d a trên sinh lý c a h th ng m t ngư i: c m nh n hình nh có nh y kém hơn các h s t n s cao và có nh y t t hơn các h s có t n s th p. Vì th các h s ư c ch n sao cho th c hi n lư ng t hoá thô i v i các h s t n s cao và lư ng t hoá tinh i v i các h s có t n s th p. B ng lư ng t hoá ư c l y t l t o ra các m c nén thay i tuỳ theo t c bít và ch t lư ng nh. Vi c lư ng t hoá s t o ra r t nhi u giá tr 0, c bi t là t n s cao. Quá trình làm tròn trong khi lư ng t hoá chính là nguyên nhân chính gây ra s t n hao nhưng l i là nhân t chính em l i hi u su t nén. t n d ng ưu i m c a các h s ã ư c lư ng t có giá tr g n b ng 0, m ng hai chi u các h s ã ư c lư ng t s ư c s p x p theo hình Zigzag t o thành m ng m t chi u. Cách s p x p này cho phép gi m thi u năng lư ng t n hao trung bình và t o ra dãy các giá tr b ng 0 liên ti p. Ki u quét Zigzag này cũng nh m t các h s có t n s th p lên trư c các h s có t n s cao. Các h s này s ư c mã hóa d a trên b ng mã Huffman sao cho chi u dài trung bình c a t mã là nh nh t. n ây các h s ư c nén trung th c b ng mã hóa dài ch y – RLC. Ti p n, các h s DC ư c tách kh i các h s AC và s d ng k thu t mã hoá i u xung mã vi 126
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… sai – DPCM. Bư c cu i cùng c a quá trình nén là s d ng mã hoá entropy ch ng h n mã hoá Huffman cho các AC và DC (sau khi ã mã hoá DPCM) tăng thêm hi u qu nén cũng như gi m thi u l i. phía gi i nén, lu ng bít mã hoá ư c gi i mã entropy, sau ó m ng hai chi u các h s DCT ã ư c lư ng t hoá ư c gi i s p x p Zigzag và gi i lư ng t . M ng hai chi u các h s DCT k t qu s ư c bi n i IDCT r i c ng m i giá tr v i 128 xp x t o thành các kh i nh con kích thư c 8x8. Chú ý là b ng lư ng t hoá và mã hoá entropy c phía nén và gi i nén là ng nh t. Hai thành ph n hi u màu cũng ư c mã hoá tương t như thành ph n chói ngo i tr khác bi t là chúng ư c l y m u xu ng h s 2 ho c 4 c chi u ngang và d c trư c khi bi n i DCT. phía gi i nén , thành ph n màu s ư c n i suy chói (Y) và hi u m u (U, V) thành R, G và B. Quá trình nén và gi i nén ư c mô t theo các hình v dư i ây: Hình 4.1: Sơ quá trình nén nh theo chu n JPEG 127
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Hình 4.2: Sơ quá trình gi i nén theo chu n JPEG 4.3.2. Chu n JPEG-2000 Chu n JPEG ban u ã thu ư c s ón nh n r ng rãi và hi n t i có m t kh p nơi thông qua các ng d ng c a máy tính: nó là khuôn d ng chính cho các nh ch p trong web toàn c u và ư c s d ng r ng rãi trong lưu tr hình nh. Hơn n a, nh s hóa ngày càng ph bi n v i ngư i dùng và yêu c u ch t lư ng ngày càng tăng lên, vì v y các v n x lý nh cũng tăng theo. Nén hình nh không ch là làm gi m dung lư ng lưu tr và các yêu c u băng thông, mà còn cho nguyên phép tách, ghép s p x p x lý và áp ng các m c tiêu trên các ng d ng và thi t b c th . Ngoài ra, yêu c u v hi u su t nén t t hơn v i t s nén cao ã d n t i s phát tri n chu n JPEG-2000. H th ng nén JPEG-2000 có t l xuyên âm th p hơn h n các chu n công ngh JPEG truy n th ng, cho dù JPEG-2000 không ph i là m t chu n m i hoàn toàn mà ư c phát tri n t các tiêu chu n ã có. i u quan tr ng hơn, nó cho phép tách các phân gi i khác nhau, các i m nh, các mi n quan tâm, các thành ph n và hơn n a, t t c chúng ư c ưa vào m t dòng bit nén ơn. Nó cho phép m t ng d ng x lý ho c truy n các thông tin c n thi t cho b t kỳ m t thi t b nào, t m t nh ngu n ã ư c mã hóa theo chu n JPEG-2000. Tính tương thích này là m t trong nh ng ưu i m n i tr i mà các k thu t x lý JPEG truy n th ng g p r t nhi u khó khăn. Không gi ng như tiêu chu n JPEG truy n th ng, k thu t mã hóa d a trên bi n i cosin r i r c (DCT – Discrete Cosin Tranform) dùng mã hóa Huffman, JPEG-2000 s d ng k thu t mã hóa d ng sóng r i r c (DWT – Descrete Wavelet Transform) dùng mã s h c. S d ng DWT cho phép nâng cao phân gi i t n s mang tính không gian 128
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… trong th hi n bi n i hình nh. Sơ kh i c a quá trình nén và gi i nén theo chu n JPEG-2000 mô t hình 4.3 dư i ây: Hình 4.3: Sơ quá trình nén và gi i nén theo chu n JPEG-2000 Bư c 1: X lý trư c bi n i Do s d ng bi n i Wavelet, JPEG2000 c n có d li u nh u vào d ng i x ng qua 0. X lý trư c bi n i chính là giai o n m b o d li u ưa vào nén nh có d ng trên. phía gi i mã, giai o n x lý sau bi n i s tr l i giá tr g c ban u cho d li u nh. Bư c 2: Bi n i liên thành ph n Giai o n này s lo i b tính tương quan gi a các thành ph n c a nh. JPEG-2000 s d ng hai lo i bi n i liên thành ph n là bi n i màu thu n ngh ch (Reversible Color Transform - RCT) và bi n i màu không thu n ngh ch (Irreversible Color Transform - ICT) trong ó bi n i thu n ngh ch làm vi c v i các giá tr nguyên, còn bi n i không thu n ngh ch làm vi c v i các giá tr th c. ICT và RCT chuy n d li u nh t không gian màu RGB sang YCrCb. RCT ư c áp d ng trong c hai d ng th c nén có t n th t và không t n th t, còn ICT ch áp d ng cho nén có t n th t. Vi c áp d ng các bi n i này trư c khi nén nh không n m ngoài m c ích làm tăng hi u qu nén. Các thành ph n Cr, Cb có nh hư ng r t ít t i s c m nh n hình nh c a m t trong khi thành ph n chói Y có nh hư ng r t l n t i nh. Bư c 3: Bi n i riêng thành ph n Bi n i riêng thành ph n ư c áp d ng trong JPEG-2000 chính là bi n i Wavelet. Bư c 4: Lư ng t hoá - Gi i lư ng t hoá Các h s c a phép bi n i s ư c ti n hành lư ng t hoá. Quá trình lư ng t hoá cho phép t t l nén cao hơn b ng cách th hi n các giá tr bi n i v i chính xác tương ng c n thi t v i m c chi ti t c a nh c n nén. Các h s bi n i s ư c 129
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… lư ng t hoá theo phép lư ng t hoá vô hư ng. Các hàm lư ng t hoá khác nhau s ưc áp d ng cho các băng con khác nhau và ư c th c theo bi u th c: (4.1) v i ∆ là bư c lư ng t , U(x, y) là giá tr băng con u vào; V(x, y) là giá tr sau lư ng t hoá. Trong d ng bi n i nguyên, t bư c lư ng t b ng 1.V i d ng bi n i th c thì bư c lư ng t s ư c ch n tương ng cho t ng băng con riêng r . Bư c lư ng t c a m i băng do ó ph i có trong dòng bít truy n i phía thu có th gi i lư ng t cho nh. Công th c gi i lư ng t hoá là: (4.2) r là m t tham s xác nh d u và làm tròn, các giá tr U(x, y); V(x, y) tương ng là các giá tr khôi ph c và giá tr lư ng t hoá nh n ư c. JPEG-2000 không cho trư c r tuy nhiên thư ng ch n r = 1/2 . Bư c 5: Mã hoá JPEG-2000 theo khuy n ngh c a u ban JPEG qu c t có th s d ng nhi u phương pháp mã hoá khác nhau cũng như nhi u cách bi n i Wavelet khác nhau có th thu ư c ch t lư ng nh tương ng v i ng d ng c n x lý. i u này giúp cho JPEG- 2000 m m d o hơn nhi u so v i JPEG. Vi c áp d ng các phương pháp mã hoá khác nhau cũng ư c m r ng sang lĩnh v c nén nh ng b ng bi n i Wavelet. Trong th c t các phương pháp mã hoá nh ư c áp d ng khi nén nh b ng bi n i Wavelet cũng như JPEG-2000 thì có hai phương pháp ư c coi là cơ s và ư c áp d ng nhi u nh t: phương pháp SPIHT và phương pháp EZW (Embedded Zerotree Wavelet Encoder). JPEG-2000 là m t chu n nén có th t o ra kh năng nén nh t t hơn áng k so v i JPEG. V i cùng ch t lư ng hình nh, thông thư ng JPEG-2000 có th nén nh g p ít nh t là 2 l n so v i JPEG. V i t s nén cao, ch t lư ng c a hình nh gi m ít hơn. Tuy nhiên i u này cũng ng nghĩa v i vi c tăng ph c t p và các yêu c u lưu tr trong quá trình mã hóa và gi i mã. M t tác ng khác c a i u này là nh ng hình nh có th t n m t nhi u th i gian hơn khi lưu tr và hi n th . 4.4. Các chu n nén Video MPEG-1, 2, 4, 7 và MPEG-21 4.4.1. T ng quan v MPEG MPEG (Moving Picture Expert Group) ư c ra i vào năm 1988 nh m m c ích chu n hoá cho nén tín hi u âm thanh và video. Nén tín hi u video theo chu n MPEG là phương pháp nén nh ng không nh ng làm gi m dư th a không gian (như JPEG) mà còn làm gi m dư th a th i gian gi a các khung nh, ây là khác bi t so v i JPEG. 130
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… MPEG không ph i là m t công c nén ơn l mà ưu i m c a nén nh dùng MPEG chính là ch MPEG có m t t p h p các công c mã hoá chu n, chúng có th ư c k t h p vói nhau m t cách linh ng ph c v cho m t lo t các ng d ng khác nhau. Nén MPEG là s k t h p hài hoà c a b n k thu t cơ b n: Ti n x lý (Preprocessing), oán trư c s chuy n ng c a các frame b mã hoá (temporal prediction), bù chuy n ng b gi i mã (motion compensation) và mã lư ng t hoá (quatisation coding). Các b l c ti n x lý s l c ra nh ng thông tin không c n thi t t tín hi u video và nh ng thông tin khó mã hoá nhưng không quan tr ng cho s c m th c a m t ngư i. K thu t oán chuy n ng d a trên nguyên t c là các nh trong chu i video dư ng như có liên quan m t thi t v i nhau theo th i gian: M i frame t i m t th i i m nh t nh s có nhi u kh năng gi ng v i các frame ng ngay phía trư c và ngay phía sau nó. Các b mã hoá s ti n hành quét l n lư t t ng ph n nh trong m i frame g i là macro blocks, sau ó nó s phát hi n macro block nào không thay i t frame này t i frame khác. B mã hoá s tiên oán trư c s xu t hi n c a các macro blocks khi bi t v trí và hư ng chuy n ng c a nó. Do ó ch nh ng s thay i gi a các kh i trong frame hi n t i (motion compesated residual) và các kh i ư c tiên oán m i ư c truy n t i bên phía thu. Phía bên thu t c b gi i mã ã lưu tr s n nh ng thông tin mà không thay i t frame này t i frame khác trong b nh m c a nó và chúng ư c dùng in thêm m t cách u n vào các v trí tr ng trong nh ư c khôi ph c. Nén tín hi u video ư c th c hi n nh vi c lo i b c s dư th a v không gian (spatial coding) và th i gian (temporal coding). Trong MPEG, vi c lo i b dư th a v th i gian (nén liên nh) ư c th c hi n trư c h t nh s d ng các tính ch t gi ng nhau gi a các nh liên ti p (Inter-frame techniques). Chúng ta có th s d ng tính ch t này t o ra các b c nh m i nh vào nh ng thông tin t nh ng nh ã g i trư c nó (“predicted”). Do v y phía b mã hoá, ta ch c n g i nh ng b c nh có thay i so v i nh ng nh trư c, sau ó ta l i dùng phương pháp nén v không gian lo i b s dư th a v không gian trong chính b c nh sai khác này. Nén v không gian d a trên nguyên t c là phát hi n s gi ng nhau c a các i m nh (pixels) lân c n nhau (Intra-frame coding techniques). JPEG ch áp d ng phương pháp nén theo không gian vì nó ư c thi t k x lý và truy n các nh tĩnh. Tuy nhiên nén tín hi u theo phương pháp c a JPEG cũng có th ư c dùng nén các b c nh m t cách c l p trong dãy tín hi u video. ng d ng này thư ng ư c g i là JPEG ng (Motion JPEG). Trong m t chu kỳ g i m t dãy các b c nh theo ki u JPEG ng, nh u tiên ư c nén nh s lo i b dư th a v không gian, sau ó các nh ti p theo ư c nén nh s lo i b dư th a v th i gian (nén liên nh). Quá trình ư c l p i l p l i cho m t dãy các b c nh trong tín hi u video. Thu t toán nén MPEG cũng d a trên phép bi n i DCT cho các kh i nh 8x8 picxels tìm ra s th a v không gian m t cách có hi u qu gi a các i m nh trong cùng m t b c nh. Tuy nhiên, trong trư ng h p có m i tương quan ch t ch gi a các i m nh trong các b c nh k ti p nhau t c là trong trư ng h p hai b c nh liên ti p có n i dung trùng nhau, k thu t Inter-frame coding techniques s ư c dùng cùng v i vi c tiên oán s dư th a v không gian t o thành k thu t tiên oán bù chuy n ng gi a 131
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… các b c nh (Motion compesated prediction between frames). Trong nhi u sơ nén MPEG, ngư i ta thư ng k t h p c vi c tiên oán bù chuy n ng theo th i gian và phép bi n i thông tin theo không gian t hi u qu nén cao (Hybrid DPCM/DCT coding of video). H u h t các sơ nén MPEG u dùng k thu t l y m u b xung (Subsampling) và lư ng t hoá (Quantization) trư c khi mã hoá. L y m u b xung nh m m c ích làm gi m kích thư c b c nh u vào theo c theo chi u ngang và chi u d c, như v y s gi m s lư ng các i m nh trư c mã hoá. Cũng nên nh r ng trong m t s trư ng h p ngư i ta còn l y m u b xung theo th i gian làm gi m s lư ng các b c nh trong dãy nh trư c khi mã hoá. ây ư c xem như là m t k thu t r t cơ b n nh m lo i b s dư th a d a vào kh năng lưu nh c a m t ngư i c m th . Thư ng thư ng, chúng ta có th phân bi t s thay i v sáng c a nh (changes in Brightness) t t hơn so v i s thay i v màu (Chromaticity changes). Do ó trư c h t các sơ nén MPEG s ti n hành chia b c nh thành các thành ph n Y ( chói) và U, V (các thành ph n hi u m u). Các tín hi u video thành ph n này s ư c l y m u (samples) và s hoá (digitised) t o nên các i m nh r i r c theo t l 4:2:2 và 4:2:0. K thu t tiên oán bù chuy n ng ư c s d ng như là m t trong nh ng công c m nh làm gi m s dư th a v không gian gi a các b c nh. Khái ni m v bù chuy n ng là d a trên s phán oán hư ng chuy n ng c a các b c nh t c là các nh thành ph n trong dãy video s ư c thay th g n úng. K thu t tiên oán bù chuy n ng gi a các b c nh ư c xem như là bi n pháp h n ch b t các thông s c a chuy n ng b i vi c dùng các vector chuy n ng mô t s d ch chuy n c a các i m nh. K t qu tiên oán t t nh t c a m t i m nh là d a trên s tiên oán bù chuy n ng t m t b c nh ã mã hoá ư c truy n phía trư c c a nó. C hai thông s , sai s chuy n ng (biên ) và các vectors chuy n ng (hư ng chuy n ng) u ư c truy n t i phía bên nh n. Tuy nhiên do có m i quan h tương quan ch t ch gi a các i m nh v không gian (trùng v không gian), m t vector chuy n ng có th ư c dùng cho m t kh i các i m nh g m các pixels lân c n nhau (MPEG -1 và MPEG -2 dùng các kh i 16 x16 pixels). 4.4.2. C u trúc dòng bít t o kh năng ch ng l i khi truy n tín hi u qua kênh có nhi u, b ư c oán ph i ư c xác l p l i (reset) thư ng xuyên và m i nh nén trong khung hay nén ư c oán ư c phân o n thành nhi u lát nh (slice) cho vi c tái ng b t i b gi i mã phía thu. C u trúc dòng MPEG g m 6 l p: l p dãy nh (sequence), l p nhóm nh (GOP), l p nh (pictrue), l p c t lát dòng bit (slice), l p macroblock, l p kh i (Block). M i l p này h tr m t ch c năng nh t nh: m t là ch c năng x lý tín hi u (DCT, bù chuy n ng) hai là ch c năng logic (tái ng b , i m truy xu t ng u nhiên). Quá trình t o ra dòng bit MPEG là ghép kênh: k t h p các dòng d li u vào, dòng d li u ra, i u ch nh ng b và qu n lý b m. Cú pháp dòng MPEG bao g m: l p dòng bit (stream), l p gói (pack) và l p gói tin (packet) như trong hình 4.5. 132
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… 1. Kh i: Kh i 8x8 các i m nh tín hi u chói và tín hi u màu dùng cho phương pháp nén DCT. 2. T h p c u trúc kh i (macroblock): m t c u trúc kh i là m t nhóm các kh i tương ng v i lư ng thông tin ch a ng trong kích thư c 16x16 i m trên b c nh. C u trúc kh i này cũng xác nh lư ng thông tin ch a trong ó s thay i tùy theo c u trúc m u ư c s d ng. Thông tin u tiên trong c u trúc kh i mang d ng c a nó (là c u trúc kh i Y hay Cr, Cb) và các vector bù chuy n ng tương ng. 3. M ng (Slice): m ng bao g m m t vài c u trúc kh i k nhau. Kích thư c l n nh t c a m ng có th bao g m toàn b b c nh và kích thư c nh nh t c a m ng là m t c u trúc kh i. Thông tin u c a m ng ch a ng v trí c a m ng trong toàn b nh, và ng lư ng t . h s cân b 4. nh (Picture): l p nh cho phép b gi i mã xác nh lo i c a nh ư c mã hóa. Thông tin u dùng ch th t truy n khung b gi i mã có th s p x p các nh l i theo m t th t úng. Trong thông tin u c a nh còn ch a các thông tin v ng b , phân gi i và ph m vi c a vector chuy n ng. Trong MPEG, có 3 lo i nh khác nhau ư c dùng mã hoá cho các kh i nh: • Ki u nh ‘Intra’ (I-pictures) là nh ư c mã hoá m t cách c l p mà không c n tham kh o t i các nh khác. Hi u qu nén tín hi u t ư c do lo i b s th a v không gian mà không có y u t th i gian tham gia vào quá trình. I-pictures ư c dùng m t cách tu n hoàn t o thành các i m t a cho dòng d li u trong quá trình gi i mã. nh ‘Predictive’ (P-pictures) có th s d ng các nh I ho c P ngay sát phía trư c • nó bù chuy n ng và chính nó cũng có th ư c dùng tham kh o cho vi c tiên oán các nh khác ti p theo. M i kh i nh trong P-picture có th ho c ư c mã theo ki u tiên oán (predicted) ho c ư c mã m t cách c l p (intra-coded). Do s d ng c nén theo không gian và th i gian, hi u qu nén c a P-pictures ư c tăng lên m t cách áng k so v i I-pictures. nh ‘Bidirectionally-Predictive’ pictures hay B- Pictures có th s d ng các nh I • ho c P phía trư c ho c phía sau nó cho vi c bù chuy n ng và do v y cho k t qu nén cao nh t. M i kh i trong B-pictures có th ư c tiên oán theo chi u ngư c, xuôi, c hai hư ng ho c ư c mã m t cách c l p. có th tiên oán ngư c t m t b c nh phía sau nó, b mã hoá s ti n hành s p x p l i các b c nh t th t xu t hi n m t cách t nhiên sang m t th t khác c a các nh trên ư ng truy n. Do v y t u ra c a b mã hoá, B-pictures ư c truy n sau các nh dùng tham kh o phía trư c và phía sau c a nó. i u này s t o ra tr do ph i s p x p l i thông tin, tr này l n hay nh là tuỳ thu c vào s các b c nh B-pictures liên ti p nhau ư c truy n. 5. Nhóm nh (GOP): Các nh I, P, B-pictures thư ng xu t hi n theo m t th t l p i l p l i m t cách tu n hoàn, do ó ta có khái ni m v nhóm các b c nh GOP (Group of 133
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Pictures). i v i chu n nén MPEG, ch t lư ng nh không nh ng ph thu c vào t l nén trong t ng khuôn hình mà còn ph thu c vào dài c a nhóm nh GOP. Nhóm nh là khái ni m cơ b n c a MPEG, nó là ơn v mang thông tin c l p c a MPEG. GOP b t bu c ph i b t u b ng m t nh I cho phép xác nh i m b t u tìm ki m và biên t p (thông tin u g m 25 bit ch a mã nh th i và i u khi n) và ti p sau nó là m t lo i các nh P và B. M t ví d c a GOP d ng nh t nhiên xu t hi n theo th t như sau: B1 B2 I3 B4 B5 B7 B8 P9 B10 B11 P12 Th t xu t hi n c a chúng trên ư ng truy n b thay i do s s p x p l i c a b mã hoá như sau: I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11 C u trúc c a m t GOP có th ư c mô t b i hai tham s : N là s các nh trong GOP và M là kho ng cách gi a các nh P-pictures. Nhóm GOP này ư c miêu t như N = 12 và M = 3. 6. o n (chương trình) video: o n video bao g m thông tin u, m t s nhóm nh và thông tin k t thúc o n. Thông tin u c a o n video ch a ng kích thư c m i chi u c a nh, kích thư c c a i m nh, t c bit c a dòng video s , t n s nh và b m t i thi u c n có. o n video và thông tin u t o thành m t dòng bit ư c mã hóa g i là dòng cơ b n (Elementary Stream). Hình 4.4: C u trúc dòng bit MPEG 134
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Hình 4.5: Ki n trúc dòng d li u MPEG 4.4.3. Nguyên lý ho t ng Ho t ng c a b mã hóa, ph thu c vào lo i hình nh, là mã hóa t i th i i m ang xét. Quá trình nén theo chu n MPEG là s k t h p gi a nén trong nh và nén liên nh. Tín h eu u vào có d ng 4:2:2 ho c 4:2:0 ư c nén liên nh nh m t o ra nh khác bi t u ra b c ng. nh khác bi t này sau ó ư c nén trong nh qua các bư c: bi n 135
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… i DCT, lư ng t hóa, mã hóa. Cu i cùng nh này ư c tr n cùng v i vector chuy n ng ưa n b khuy ch i m s thu ư c nh ã nén. Ta xét ví d b nén theo phương pháp trên, dùng nh I và P trong c u trúc GOP (Hình 4.6). nh th nh t trong nhóm ph i ư c mã hóa như nh lo i I. Trong trư ng h p này, sau khi l y m u l n u, tín hi u video ư c truy n n kh i bi n i DCT cho các MB riêng, sau ó b lư ng t và mã hóa entropy. Tín hi u ra t b lư ng t hóa ư c ưa n b lư ng t hóa ngư c và bi n i DCT ngư c, sau ó ư c lưu vào b nh nh. Trong trư ng h p mã hóa nh lo i P, m ch nén chuy n ng làm vi c. Trên cơ s so sánh nh ang xét và nh trong b nh , s xác nh ư c các vector chuy n ng, sau ó d báo nh. S chênh l ch gi a nh ang xét và d báo nh c a nó ư c bi n i DCT, lư ng t hóa và mã hóa entropy. Cũng như trong trư ng h p các nh lo i I, tín hi u ra t b lư ng t hóa ư c gi i lư ng t hóa và bi n i DCT ngư c r i c ng v i nh d báo ang xét và lưu vào b nh . Tc bit c a tín hi u video ư c nén không c nh, ph thu c vào n i dung nh ang xét. Ngư c l i, t i u ra b mã hóa, dòng bit ph i c nh xác nh t c cho dung lư ng kênh truy n. Do ó, t i u ra b mã hóa ph i có b nh m l n. B mã hóa ph i ki m tra tr ng thái y c a b nh m. Khi s li u trong b nh mg n b ng dung lư ng c c i, thì các h s bi n i DCT ngư c ư c lư ng t hóa ít chính xác hơn. Trong trư ng h p ngư c l i, có nghĩa là b nh m ch a s li u quá ít, thì vi c lư ng t hóa các h s s tăng lên. Hình 4.6: B mã hóa MPEG tiêu bi u 136
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… Quá trình gi i mã: Theo lý thuy t, quá trình gi i mã là ngư c l i v i quá trình mã hóa và ư c minh h a trên hình 4.7. Hình 4.7: B gi i mã MPEG tiêu bi u Chu i tín hi u vào ư c gi i mã entropy t i VLD (Variable-Length Decoder). Sau ó tách s li u nh (h s bi n i DCT) ra kh i các vector chuy n ng. S li u s ư c gi i lư ng t hóa và bi n i DCT ngư c. Trong trư ng h p nh lo i I b t u m i nhóm nh trong chu i, s nh n ư c nh u ra hoàn ch nh b ng cách trên. Nó ư c lưu trong b nh nh và ư c s d ng gi i mã các nh ti p theo. Trong trư ng h p nh lo i P s th c hi n gi i lư ng t và bi n i DCT ngư c v i vi c s d ng các vector chuy n ng và nh lưu vào b nh nh. Trên cơ s ó xác nh ư c d báo n ang xét. Ta nh n ư c nh ra sau khi c ng d báo nh và k t qu bi n i DCT ngư c. nh này cũng ư c lưu vào b nh có th s d ng như là chu n khi gi i mã các nh ti p theo. 4.4.4. Các chu n nén MPEG 4.4.4.1. MPEG-1 Chu n u tiên ư c ưa ra b i MPEG, có tên g i ph bi n là MPEG-1, ư c thi t k cung c p vi c nén video và audio cho vi c lưu tr và phát l i trên các CD-ROM. Chu n MPEG-1 bao g m 3 ph n. Ph n 1 c p t i các v n h th ng (bao g m c ghép kênh video và audio ã mã hóa), ph n 2 c p t i video nén và ph n 3 là v audio nén. Ph n 2 (video) ư c phát tri n v i m c ích h tr vi c mã hóa có hi u qu video cho các ng d ng phát l i trên CD và t o ra ch t lư ng video tương ương ho c t t hơn băng video VHS v t c bit CD (kho ng 1,2 Mbps i v i video). Khi mà h u h t các ng d ng c a ngư i tiêu dùng òi h i ch c n gi i mã và phát l i, không bao g m mã hóa thì n y sinh yêu c u ph i t i thi u hóa s ph c t p trong gi i mã. Do ó, quá trình 137
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… gi i mã c a MPEG-1 có th xem là ơn gi n hơn so v i mã hóa (không gi ng như JPEG, b mã hóa và gi i mã có m c ph c t p tương t nhau). Các c tính c a MPEG-1 Tín hi u video u vào t i m t b mã hóa video MPEG-1 có khuôn d ng là 4:2:0 (Y:Cr:Cb) v i phân gi i không gian thông thư ng là 352×288 ho c 352×240 pixels. M i khung video ư c x lý theo t ng kh i c a m t macroblock, tương ng v i m t vùng 16×16 pixel trong khung hi n th . Vùng này ư c t o ra t 16×16 m u sáng, 8×8 m u Cr và 8×8 m u Cb (vì Cr và Cb ph i b ng m t n a phân gi i ngang và d c c a thành ph n sáng). M t macroblock bao g m 6 kh i 8×8: 4 kh i sáng (Y), m t kh i Cr và m t kh i Cb. M i khung video ư c mã hóa t o ra m t b c nh mã hóa. Có 3 lo i chính: các nh I, các nh P và các nh B. (Chu n này còn xác nh thêm m t lo i nh là nh D nhưng lo i này hi m khi s d ng trong các ng d ng th c t ). nh lo i I: không có d oán bù chuy n ng. nh lo i I ư c s d ng làm tham kh o cho nh ng nh d oán xa hơn. nh lo i P: s d ng d oán bù chuy n ng t m t nh tham kh o ( nh P ho c nh I có trư c nh P hi n t i). Do ó m t nh lo i P ư c d oán s d ng d oán chuy n ti p và b n thân m t nh P có th ư c s d ng làm tham kh o cho các nh d oán xa hơn. nh lo i B: s d ng d oán bù chuy n ng t 2 nh tham kh o, nh P và/ho c nh I trư c và sau nh B hi n t i. Hai vectơ chuy n ng ư c t o ra cho m i macroblock trong m t nh B: m t ch t i m t vùng thích h p trong nh tham kh o trư c ó (m t vectơ chuy n ti p) và m t ch t i m t vùng thích h p trong nh tham kh o tương lai (vectơ h i ti p). M t macroblock d oán bù chuy n ng có th ư c th c hi n theo 3 cách: d oán chuy n ti p s d ng vecto chuy n ti p, d oán h i ti p s d ng vecto h i ti p ho c d oán hai chi u (trong ó s tham kh o d oán ư c th c hi n b ng cách l y trung bình các tham kh o d oán chuy n ti p và h i ti p). Thông thư ng, m t b mã hóa s ch n m t ch d oán (chuy n ti p, h i ti p hay hai chi u) sao cho t o ra ư c năng lư ng th p nh t trong macroblock sai phân. B n thân các nh lo i B không ư c s d ng như các tham kh o d oán cho b t kỳ khung d oán xa hơn nào. Chu n MPEG-1 không th c s nh nghĩa thi t k c a m t b mã hóa: thay vào ó, chu n này mô t cú pháp mã hóa và m t b gi i mã ‘tham kh o’ gi thuy t. Trong th c t , cú pháp và ch c năng ư c mô t b i chu n có ý nghĩa r ng m t b mã hóa ph i ch a nh ng ch c năng nh t nh. 4.4.4.2. MPEG-2 ng d ng gi i trí quan tr ng ti p theo c a video mã hóa (sau lưu tr CD-ROM) là truy n hình s . cung c p m t s l a ch n c i ti n cho truy n hình tương t , m t vài 138
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… c tính ch y u ã ư c yêu c u i v i nguyên lý mã hóa video. Nó ph i h tr hi u qu các kích thư c khung l n hơn (thư ng là 720×576 hay 720×480 pixel cho phân gi i c a ITU-R 601) và mã hóa video k t h p. V i nh ng phân gi i ch t lư ng truy n hình, video k t h p t o ra hình nh video m n hơn. MPEG-2 ã ra i nh m áp ng nh ng yêu c u này. MPEG-2 bao g m 3 ph n chính: Video, Audio (d a trên mã hóa audio c a MPEG- 1) và Systems ( nh nghĩa, nh ng ph n chi ti t hơn MPEG-1, ghép kênh và truy n lu ng audio/visual mã hóa). Nh ng i m nâng cao ư c thêm vào b i MPEG-2 bao g m: Mã hóa hi u qu video v i ch t lư ng truy n hình: ng d ng quan tr ng nh t c a MPEG-2 là truy n hình s qu ng bá. Các ch c năng chính c a MPEG-2 ư c ánh giá là có hi u qu trong mã hóa nh ng phân gi i truy n hình t c bit trong kho ng t 3-5 Mbps. H tr mã hóa video k t h p: MPEG-2 video có m t vài c tính h tr mã hóa m t cách linh ho t video k t h p. Hai trư ng t o ra m t khung k t h p hoàn ch nh có th ư c mã hóa như nh ng hình nh riêng bi t, m i trư ng s ư c mã hóa thành m t nh I, P ho c B. Các nh trư ng P và B có th ư c d oán t m t trư ng trong khung khác ho c t trư ng khác trong khung hi n t i. Kh năng phân c p: Nh ng ch tiên ti n c a JPEG ư c mô t trư c ó là các d ng mã hóa phân c p. M t lu ng bit mã hóa phân c p bao g m m t l p cơ s và m t ho c nhi u l p tăng cư ng. L p cơ s có th ư c gi i mã t o ra chu i video có th nh n di n mà có ch t lư ng nhìn b h n ch , và m t chu i ch t lư ng cao hơn có th ư c t o ra b i vi c gi i mã l p cơ s c ng v i nh ng l p tăng cư ng, v i m i l p tăng cư ng thêm vào s nâng cao ch t lư ng c a chu i gi i mã. MPEG-2 h tr 4 ch phân c p: Phân c p theo không gian Phân c p theo th i gian Phân c p SNR Phân vùng d li u Profile và level: H u h t các ng d ng u ch yêu c u m t t p nh gi i h n các ch c năng trên di n r ng h tr b i MPEG-2. khuy n khích kh năng liên k t i v i các ng d ng ‘ch y u’ b t kỳ (ví d truy n hình s ), chu n này bao g m m t t p các profile và level ngh , m i t p nh nghĩa m t t p con nh t nh các ch c năng c a MPEG-2. M i profile xác nh m t t p các kh năng và nh ng kh năng quan tr ng. Còn m i level s xác nh các phân gi i không gian và th i gian. Chu n MPEG-2 cũng nh nghĩa nh ng k t h p nh t nh ngh cho các profile và level. Main profile/low level (ch s d ng mã hóa khung) th c ch t là MPEG-1. Main profile/main level phù h p v i truy n hình s qu ng bá và ây là s k t h p profile/level ư c s d ng r ng rãi nh t. Main profile/high level phù h p v i truy n hình nét cao (HDTV). 139
- X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh… 4.4.4.3. MPEG-4 Các chu n MPEG-1 và MPEG-2 x lý các khung video hoàn ch nh, m i khung ư c mã hóa như m t ơn v riêng l . Chu n MPEG-4 ư c phát tri n v i m c ích m r ng kh năng c a nh ng chu n trư c ó theo m t s hư ng. H tr các ng d ng có t c bit th p: MPEG-1 và MPEG-2 có hi u qu ch p nh n ư c trong mã hóa các t c bit kho ng trên 1 Mbps. Tuy nhiên, nhi u ng d ng n i b t ( c bi t là các ng d ng d a trên Internet) yêu c u t c bit truy n r t th p hơn nhi u và MPEG-1 và 2 không h tr vi c nén hi u qu các t c bit th p. H tr mã hóa d a trên i tư ng: Có th nói h u h t s thay i nguyên t c trong chu n MPEG-4 u hư ng n mã hóa d a trên i tư ng hay d a trên n i dung, trong ó m t c nh video có th ư c x lý như m t t p các i tư ng n n và i tư ng c n c nh hơn là ch như m t chu i các khung hình ch nh t. Lo i mã hóa này m ra m t d i r ng các kh năng, ví d như mã hóa c l p các i tư ng khác nhau trong m t c nh, dùng l i các thành ph n c nh, ghép l i (các v t th t m t s ngu n ư c k t h p trong m t c nh) và tương tác cao. Khái ni m cơ s s d ng trong MPEG-4 Visual là VO (Video Object). M t c nh video (VS) (m t chu i các khung video) ư c t o thành t m t s các VO. MPEG-4 cung c p các công c cho phép m i VO ư c mã hóa m t cách c l p, m ra m t nhi u kh năng m i. Dư i d ng VO, m t ‘khung’ tương ương v i m t m t ph ng i tư ng video (VOP – Video Object Plane). M t c nh hoàn ch nh có th ư c mã hóa như m t VOP ơn hình ch nh t và i u này tương ương v i m t b c nh dư i d ng MPEG-1 và 2. Mã hóa d a trên b công c : MPEG-1 có linh ng r t h n ch , MPEG-2 ưa ra khái ni m v ‘b công c ’ g m các profile và level mà có th k t h p theo nhi u cách cho các ng d ng khác nhau. MPEG-4 m r ng c i m này thành m t t p h p các công c mã hóa có linh ho t cao cho phép m t d i các ng d ng cũng như m t khung chu n hóa cho phép các công c m i ư c thêm vào ‘b công c ’. Chu n MPEG-4 ư c thi t l p nh ó các công c mã hóa và ch c năng m i có th ư c tăng thêm khi các phiên b n m i c a chu n ư c phát tri n, và do ó danh sách các công c cũng ti p t c tăng lên. 4.4.4.4. MPEG-7 M c tiêu chính c a MPEG-7 là xác nh m t t p h p chu n các b mô t dùng mô t nhi u lo i thông tin a phương ti n v i các codec chu n, cũng như nh ng cơ s d li u khác và th m chí c thông tin nghe-nhìn tương t . Các b mô t cùng v i các cơ ch mô t s ư c k t h p v i b n thân n i dung t o ra m t phương pháp tìm ki m tài li u nhanh và có hi u qu c a ngư i dùng. Các m c mô t 140
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng học Xử lý tín hiệu số
153 p | 321 | 125
-
Bài giảng Xử lý tín hiệu số - Điện điện tử
143 p | 300 | 113
-
Bài giảng xử lý âm thanh và hình ảnh-p1
6 p | 296 | 100
-
Bài giảng xử lý âm thanh và hình ảnh-p3
31 p | 272 | 96
-
BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
151 p | 236 | 86
-
Bài giảng xử lý âm thanh và hình ảnh-p2
11 p | 224 | 78
-
Bài giảng xử lý âm thanh và hình ảnh-p6
37 p | 194 | 69
-
Bài giảng Xử lý âm thanh và hình ảnh - Gv.Lê Nhật Thăng
221 p | 353 | 64
-
Bài giảng xử lý âm thanh và hình ảnh-p5
41 p | 201 | 63
-
Bài giảng Xử lý âm thanh và hình ảnh: Chương 2 - GV. Lê Nhật Thăng
75 p | 288 | 49
-
Bài giảng xử lý tiếng nói part 4
6 p | 184 | 41
-
Bài giảng xử lý tiếng nói part 6
6 p | 141 | 38
-
Bài giảng Xử lý và truyền thông đa phương tiện
245 p | 174 | 33
-
Bài giảng xử lý tiếng nói part 5
6 p | 129 | 26
-
Bài giảng Xử lý âm thanh và hình ảnh: Chương 1 - GV. Lê Nhật Thăng
25 p | 132 | 22
-
Bài giảng Xử lý âm thanh và hình ảnh: Chương 3 - GV. Lê Nhật Thăng
121 p | 140 | 17
-
Bài giảng Xử lý tin hiệu số với FPGA: Chương 2 - Hoàng Trang
24 p | 2 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn