intTypePromotion=1

Bài giảng xử lý âm thanh và hình ảnh-p3

Chia sẻ: Nguyen Quang Huy | Ngày: | Loại File: PDF | Số trang:31

0
239
lượt xem
94
download

Bài giảng xử lý âm thanh và hình ảnh-p3

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ta từ dao động của vật thể à được truyền đi trong một môi trường nhất định

Chủ đề:
Lưu

Nội dung Text: Bài giảng xử lý âm thanh và hình ảnh-p3

  1. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Chương 2: K thu t x lý âm thanh 2.1. Các c trưng cơ b n c a âm thanh 2.1.1. Khái ni m v âm thanh và các tham s ánh giá Âm thanh trong th gi i t nhiên v b n ch t là nh ng sóng âm ư c t o ra t dao ng c a v t th và ư c truy n i trong m t môi trư ng truy n âm nh t nh. Âm thanh c a ti ng nói, tương t , là nh ng sóng âm ư c t o ra t dao ng c a các b ph n trong b máy phát âm và ư c truy n i trong môi trư ng truy n âm (thư ng là không khí). Nh ng sóng âm này truy n n tai ngư i nghe, p vào màng nhĩ - m t màng m ng r t nh y c m c a tai ngư i – làm cho màng nhĩ cũng dao ng, các dây th n kinh c a màng nhĩ s nh n ư c c m giác âm khi t n s dao ng c a sóng t n m t l n nh t nh và ngư i nghe nh n bi t ư c l i nói. Liên l c thông tin b ng ti ng nói là truy n thông tin t não ngư i nói sang não ngư i nghe. Có th xem như ti ng nói (tho i) là m t trư ng h p riêng nhưng ph bi n c a âm thanh. Âm thanh có các tham s ánh giá c trưng sau ây: 1. T n s : T n s c a âm ơn là s l n dao ng c a không khí truy n d n âm trong m t ơn v th i gian là 1 giây. T n s bi u th cao (pitch) c a âm thanh. T n s càng l n thì âm thanh càng cao và ngư c l i. Ðơn v o t n s c a âm thanh là Hertz (vi t t t là Hz). Tai con ngư i ch c m th ư c nh ng dao ng có t n s t kho ng 16Hz n kho ng 20000Hz. D i t n s t 16Hz n 20000Hz ư c g i là d i t n s âm thanh hay âm t n ho c sóng âm. Nh ng âm có t n s nh hơn 16Hz g i là sóng h âm, còn nh ng âm có t n s l n hơn 20000 Hz g i là sóng siêu âm và con ngư i không c m nh n ư c các sóng âm này nhưng có khá nhi u loài v t có th c m nh n ư c (ví d loài dơi có th nghe ư c sóng siêu âm). Sóng âm, sóng siêu âm và h âm không ch truy n trong không khí mà còn có th lan truy n t t nh ng môi trư ng r n, l ng, do ó s d ng r t nhi u trong các thi t b máy móc hi n nay. ng v i m i t n s dao ng f, có chu kỳ dao ng T là m t bư c sóng λ c a âm thanh ư c xác nh theo bi u th c λ = c.T (c là t c lan truy n c a âm thanh trong không khí = 340m/s). Do ó, bư c sóng c a âm thanh trong d i âm t n là t 21.25m n 0.017m. Trong th c t , m t âm phát ra thư ng không ph i là m t âm ơn mà là m t âm ph c bao g m m t âm ơn và m t s âm hài có t n s g p 2, 3 ho c 4… l n âm ơn. Ngoài ra, trong d i âm t n ngư i ta chia ra: ti ng tr m t 16Hz n 300Hz; ti ng v a t 12
  2. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh 300Hz n 3000Hz và ti ng b ng (ti ng thanh) 3000Hz n 12000Hz. Ti ng nói con ngư i thư ng có d i t n s t 300Hz n 3400Hz. 2. Áp su t âm thanh: Áp su t âm thanh hay còn g i là thanh áp. Âm thanh truy n lan n âu thì làm thay i áp su t không khí ó. Áp su t do âm thanh t o thêm ra m t i m g i là thanh áp i m ó. ơn v o thanh áp là bar. M t bar là thanh áp tác ng lên m t di n tích 1cm2 m t l c là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, ngư i ta thư ng dùng ơn v Pascan (Pa) o thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2. 3. Công su t âm thanh: Là năng lư ng âm thanh i qua m t di n tích S trong th i gian m t giây. Công su t âm thanh P có th tính b ng bi u th c: (2.1) P = p.S.v Trong ó p là thanh áp, v là t c dao ng c a m t ph n t không khí t i ó và S là di n tích. Công su t âm thanh tính theo ơn v oát (W). Thông thư ng máy bay ph n l c có công su t âm thanh là 10.000W; ô tô v n t i phóng nhanh: 0.12W; nói chuy n bình thư ng: 0.0003W. 4. Cư ng âm thanh: Cư ng âm thanh I là công su t âm thanh i qua m t ơn v di n tích là 1cm2. (2.2) I = P/S = p.v Ba i lư ng: áp su t âm thanh, công su t âm thanh; cư ng âm thanh g n li n v i nhau. C ba u bi u th l n nh c a âm thanh. Âm thanh có năng lư ng càng l n thì công su t, cư ng và áp su t c a âm thanh càng l n. 5. Ð m nh (Intensity): Do biên dao ng c a v t th quy t nh. Biên dao ng là tr s l n nh t mà dao ng t t i trong m t n a chu kì. Biên dao ng càng l n, âm thanh càng vang to và ngư c l i. Ðơn v o m nh c a âm thanh là décibel (vi t t t là dB). Trong l i nói c a m t ngư i, m nh c a âm thanh là y u t cơ b n t o nên âm lư ng c a âm và tr ng âm c a t . 6. Ð dài (Length): Do th i gian dao ng c a v t th quy t nh. Ð dài c a âm thanh t o nên s tương ph n gi a các b ph n c a l i nói, là y u t t o nên tr ng âm, t o nên các nguyên âm i l p nhau v dài. Hai t "tang" và "tăng" trong ti ng Vi t có s i l p âm a dài (trong "tang") và âm a ng n (trong "tăng"). 7. Âm s c (Timbre): Ph thu c vào cao, dài và m nh tham gia b sung vào các thành ph n k t c u c a âm. Ðây là v riêng bi t c a m t âm. Âm s c ư c quy t nh b i: th ch t c a v t th dao ng, tính ch t ph c h p do hi n tư ng c ng hư ng âm thanh và phương pháp làm cho v t th dao ng. M t âm có cùng cao, m nh, dài ư c phát ra t dây tơ s khác v i t m t dây ng; t m t ng sáo to dài, s khác v i t m t ng sáo nh , ng n; t vi c g y s khác v i t vi c gõ, búng, c xát ho c th i. 13
  3. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Âm s c chính là cái s c thái riêng c a t ng âm. Âm s c còn ư c quy t nh b i v t th dao ng theo chu kì u n hay không u n; dao ng theo chu kì u n thì t o ra âm vang (sonants), chu kì không u n thì t o ra âm n hay âm có nhi u ti ng ng (non - sonants ho c bruyants). X lý âm thanh bao g m nhi u lĩnh v c khác nhau, và t t c u liên quan n s hi n di n c a âm thanh i v i ngư i nghe. Chúng bao g m: (1) Tái t o l i âm nh c v i trung th c cao (high fidelity music) như là âm thanh các ĩa Compact (CD – audio compact discs); (2) Vi n thông tho i ho c là các m ng i n tho i; (3) t ng h p tho i (synthetic speech) mà ó các máy tính t o và nh n d ng các m u tho i c a con ngư i. Các lĩnh v c c th liên quan n x lý âm thanh (trong ó có tho i) bao g m: Nén âm thanh, tho i, nh n d ng ti ng nói; t ng h p ti ng nói; nâng cao ch t lư ng (enhancement) và h i ph c ti ng nói (restoration). Nén các tín hi u tho i có r t nhi u ng d ng, ví d như trong công ngh thông tin di ng s có nhi u ngư i s d ng dùng chung băng t n s . Nói cách khác, k thu t nén cho phép nhi u ngư i s d ng chia s tài nguyên c a h th ng hơn và làm cho vi c s d ng tài nguyên h th ng có hi u qu hơn. M t ví d khác n a là lưu tr tho i s (các máy tr l i i n tho i t ng), v i m t dung lư ng b nh cho trư c, nén cho phép lưu nhi u b n tin dài hơn. có th x lý âm thanh/tho i c n hi u rõ ư c các cơ s c a quá trình t o ra ti ng nói và c trưng h th ng thính giác con ngư i. 2.1.2. Các c i m c a h th ng thính giác con ngư i 2.1.2.1. C u trúc tai ngư i H th ng thính giác c a con ngư i - Tai ngư i là m t cơ quan c c kỳ ph c t p. Hình 2.1 minh h a nh ng k t c u chính c a tai ngư i. Tai ngoài (outer ear) g m có hai ph n, vành tai – l p da và s n, g n vào phía c nh bên c a u và ng tai có ư ng kính 0.5cm và c m sâu vào trong u kho ng ch ng 3cm. Cơ c u tai ngoài này d n hư ng âm thanh t môi trư ng bên ngoài t i các cơ quan nh y c m là tai gi a và tai trong n m an toàn trong h p s c a ngư i. Cu i ng tai là m t màng m ng ư c g i là màng nhĩ (tympanic membrane) hay còn g i là tr ng tai (ear drum). Các sóng âm thanh p vào màng nhĩ và làm cho nó rung ng. Tai gi a là m t t p h p các xương nh có nhi m v truy n nh ng rung ng c a màng nhi t i c tai (cochlea) hay còn g i là tai trong (inner ear), mà ó nh ng rung ng ư c bi n i thành các xung th n kinh (neural impulses). Tai trong là m t ng nh có ch a dung d ch ch t l ng, có ư ng kính kho ng 2 mm và dài kho ng 3 cm. M c d u ư c minh h a d ng du i th ng hình 2.1, trên th c t , tai trong ư c cu n l i và trông 14
  4. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh gi ng như m t v c sên nh . Nói cách khác, t c tai (cochlea) xu t phát t ti ng Hy l p có nghĩa là c sên (snail) – hình 2.2. Khi m t sóng âm th truy n qua môi trư ng không khí vào môi trư ng ch t l ng, ch có m t ph n nh c a âm thanh ư c phát i qua l p giao ti p gi a hai môi trư ng, trong khi ó ph n năng lư ng còn l i b ph n x tr l i. i u này là do không khí có tr kháng cơ h c th p (áp su t âm thanh th p và v n t c cao d n n t tr ng th p và h s nén cao), trong khi ó ch t l ng có tr kháng cơ h c cao. Xét v khía c nh mang ít tính k thu t, ngư i ta ph i n l c nhi u hơn khi v y tay trong nư c so v i khi v y tay trong không khí. Chính s khác nhau v tr kháng cơ h c d n n ph n l n các sóng âm b ph n x tr l i t i giao ti p không khí/ch t l ng. Tai gi a ư c xem như là m t m ng ph i h p tr kháng gia tăng ph n năng lư ng sóng âm i vào dung d ch ch t l ng c a tai trong. Ch ng h n, cá không có tr ng tai ho c tai gi a b i vì chúng không c n ph i nghe trong môi trư ng không khí. Ph n l n nh ng bi n i tr kháng xu t phát t s khác nhau trong vùng ph m vi gi a tr ng tai (màng nhĩ) (thu nh n sóng âm t không khí) và c a s oval (oval window) – phát d n âm thành vào trong dung d ch ch t l ng. Màng nhĩ có di n tích kho ng ch ng 60 mm2, trong khi ó c a s ovalcó di n tích kho ng ch ng 4 mm2.Vì áp su t b ng l c y chia cho di n tích, chính s khác nhau v di n tích này làm tăng áp su t sóng âm thanh kho ng 15 l n. Cùng v i c tai là màng n n (basilar membrance), c u trúc h tr cho kho ng 12,000 t bào c m giác (giác quan) – sensory cells và hình thành nên dây th n kinh c tai (cochlear nerve). Màng n n c ng nh t g n c a s oval, và tr nên linh ho t d n hơn v phía i di n, nó ho t ng như là m t b phân tích ph t n s (frequency spectrum analyzer). Khi g p m t tín hi u t n s cao, màng n n c ng hư ng khi nó tr ng thái c ng, d n n s kích thích c a các t bào th n kinh g n c a s oval. Tương t như v y, các âm t n s th p kích thích các t bào th n kinh phía u xa c a màng n n. i u này làm cho các s i riêng bi t trong th n kinh c tai áp ng l i v i các t n s riêng bi t. T ch c tuân theo nguyên lý v trí (place principle) và ư c dành riêng cho các ư ng d n âm t i b não. Hình 2.1: Sơ ch c năng c a tai ngư i 15
  5. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh 1. ng tai 2. Tr ng tai 3-5. Xương 6. C a s 7. ng 8. c tai 9. Th n tai gi a oval thông kinh âm xu ng mũi thanh Hình 2.2: C u t o c a tai ngư i 2.1.2.2. S c m th c a tai ngư i i v i âm thanh Tai ngư i r t nh y c m âm thanh. Chúng ta có th nghe nh ng sóng âm kéo dài ch vài ms (mili giây) trong khi ôi m t thì ngư c l i. M t ngư i không c m nh n ư c nh ng thay i v m c ánh sáng trong m t vài ms. K t qu là trong quá trình truy n thông tin a phương ti n, n u có thay i trong m t vài ms thì nh hư ng c a ch t lư ng âm thanh l n hơn hình nh. 1. Ngư ng nghe Tai ngư i phát hi n nh ng âm thanh bi n i c c b trong áp su t không khí ư c o b ng m c áp su t âm- SPL (Sound Pressure Level). N u như nh ng bi n i c a m c áp su t âm (SPL) là dư i m t ngư ng nào ó v biên thì tai ngư i không th phát hi n ư c. Ngư ng nghe này ư c minh h a trong hình 2.3 dư i ây. Ngư ng này là m t hàm c a t n s âm thanh. Lưu ý là trong hình 2.3 này, có các thành ph n t n s th p dư i m c ngư ng nên các âm thanh có t n s này s không nghe ư c. Tai ngư i nh y nh t trong ph m vi t n s t 2 – 4KHz. 16
  6. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Hình 2.3: Ngư ng nghe 2. M t n t n s (frequency masking) Cho dù m t thành ph n tín hi u cao hơn m c ngư ng nghe, thì nó v n có th b che khu t b i các thành ph n l n hơn mà g n tín hi u ó trong mi n t n s . Hi n tư ng này là g i là m t n t n s . M i m t thành ph n trong m t tín hi u có th l y ra “ph n bóng” qua các thành ph n bên c nh. N u như thành ph n t n s bên c nh b che ph b i “ph n bóng” này thì các thành ph n tín hi u t n s này s không nghe ư c. K t qu là có m t thành ph n – thành ph n che khu t làm d ch ngư ng nghe. Hình 2.4 minh h a hi n tư ng này. Hình 2.4: M t n t n s 17
  7. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh 3. M t n th i gian Ch khi các ti ng ưa ra vùng các “bóng” lên nh ng thành ph n bên c nh trong mi n t n s , thì âm lư ng tăng t bi n có th che khu t âm thanh nh hơn, g n v i âm thanh che khu t v m t th i gian. ây, nh ng âm thanh xu t hi n c trư c l n sau khi tăng âm lư ng có th b che khu t. Hình 2.5 minh h a hi n tư ng m t n th i gian i n hình. Lưu ý là kho ng m t n phía trư c ng n hơn r t nhi u so v i kho ng m t n sau. Hình 2.5: M t n th i gian 4. Các d i băng t n t i h n D i t n s nghe ư c c a con ngư i ư c phân chia t nhiên thành các d i băng t n t i h n, v i c tính là h th ng thính giác c a con ngư i không th phân bi t ư c các âm trong cùng m t băng và di n ra ng th i. Băng thông c a m i băng t n t i h n là kho ng 100Hz trong d i t n dư i 500Hz, và tăng tuy n tính trong d i 500 n 5000Hz. Thông thư ng, d i t n s âm thanh có th ư c phân chia thành 24 băng t i h n (25 băng thư ng ư c s d ng cho các ng d ng mã hóa), như bi u di n B ng 2.1 dư i ây. Do ó, tai ho t ng gi ng như các b l c thông d i, m i b l c cho phép m t d i t n s nh t nh i qua và khóa t t c các t n s khác (hình 2.6). Nói cách khác, h th ng thính giác có th ư c mô hình như m t băng l c, g m 25 b l c thông d i ch ng l n nhau, trong d i t n t 0 n 20kHz. Các thí nghi m d a trên quan sát ch ra r ng m t âm thanh có âm lư ng không i s có v to hơn n u nó kéo dài ranh gi i gi a hai d i t n t i h n thay vì ch n m trong m t d i t n. Trong th c t , tai ngư i không có kh năng bi t phân bi t trong cùng m t d i t n t i h n do s che t n s . T n s gi i h n T ns T n s gi i h n r ng D it n# dư i trung tâm trên băng t n (Hz) (Hz) (Hz) (Hz) 1 - 50 100 - 2 100 150 200 100 3 200 250 300 100 4 300 350 400 100 18
  8. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh 5 400 450 510 110 6 510 570 630 120 7 630 700 770 140 8 770 840 920 150 9 920 1000 1080 160 10 1080 1170 1270 190 11 1270 1370 1480 210 12 1480 1600 1720 240 13 1720 1850 2000 280 14 2000 2150 2320 320 15 2320 2500 2700 380 16 2700 2900 3150 450 17 3150 3400 3700 550 18 3700 4000 4400 700 19 4400 4800 5300 900 20 5300 5800 6400 1100 21 6400 7000 7700 1300 22 7700 8500 9500 1800 23 9500 10500 12000 2500 24 12000 13500 15500 3500 25 15500 18775 22050 6550 B ng 2.1: Các băng t n t i h n và r ng băng t n Hình 2.6: H th ng các b l c thông d i M t ơn v m i ư c g i là Bark, theo tên c a Heinrich Barkhausen (1881-1956), m t nhà khoa h c v âm thanh. M t ơn v Bark tương ng v i r ng c a m t d i t n t i h n, v i b t kỳ t n s che ch n nào. Vi c chuy n i gi a t n s f v i s d i t n t i h n tương ng b ư c th hi n qua ơn v Bark như sau: (2.3)3) 19
  9. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Theo ơn v o t n s m i này, s d i t n t i h n b tương ương v i 5 khi f = 500 Hz. Trong th c t , các c i m ngư ng nghe, m t n t n s , m t n th i gian và các d i băng t n gi i h n c trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Ngư i ta ã l i d ng các c i m trên nén thông tin âm thanh (Audio) mà ng d ng ph bi n nh t trong các chu n nén âm thanh MPEG. 2.2. Mã hóa tín hi u tho i 2.2.1. Quá trình t o ra ti ng nói Ti ng nói là âm thanh mang m c ích di n t thông tin, r t uy n chuy n và c bi t. Là công c c a tư duy và trí tu , ti ng nói mang tính c trưng c a loài ngư i. Nh có ngôn ng ti ng nói mà loài ngư i s ng thành xã h i ti n b , có văn hoá, văn minh như ngày nay. Trong quá trình giao ti p ngư i nói có nhi u câu nói. M i câu g m nhi u t , ti ng Vi t, s t thư ng ư c s d ng vào kho ng 6700 âm ti t. Ti ng nói thư ng xu t hi n dư i nhi u hình th c mà ta g i là àm tho i, vi c àm tho i th hi n kinh nghi m c a con ngư i. àm tho i là m t quá trình g m nhi u ngư i, có s hi u bi t chung và m t nghi th c luân phiên nhau nói. Nh ng ngư i có i u ki n th ch t và tinh th n bình thư ng thì r t d di n t ti ng nói c a mình, do ó ti ng nói là phương ti n giao ti p chính trong lúc àm tho i. Ti ng nói có r t nhi u y u t khác h tr nh m giúp ngư i nghe hi u ư c ý c n di n t như bi u hi n trên gương m t, c ch , i u b . Vì có c tính tác ng qua l i, nên ti ng nói ư c s d ng trong nhu c u giao ti p nhanh chóng. Sóng âm tho i là m t sóng áp su t âm thanh ư c t o ra t nh ng chuy n ng có i u khi n c a các b ph n cơ th con ngư i hình thành nên h th ng t o âm tho i. M t c u trúc ơn gi n c a h th ng t o âm tho i ư c minh h a hình v 2.7. Cơ b n, tho i ư c t o ra như là m t sóng âm t các h c mũi và mi ng khi không khí b b t ra t các lá ph i v i k t qu là lu ng không khí b xáo tr n b i s co th t bên trong cơ th con ngư i. S r t là h u ích khi th hi n quá trình t o âm tho i d ng b l c âm thanh. Có ba h c quan tr ng trong h th ng t o âm tho i là h c mũi, mi ng và h u hình thành nên m t b l c âm thanh. B l c ư c kích thích b i không khí t các lá ph i và gánh t i t i u ra chính c a nó b i tr kháng b c x g n k t v i môi. Cu ng h ng (vocal tract) liên quan t i h u và các h c mi ng ư c nhóm l i v i nhau. Cu ng kh u giác (nasal tract) b t u t i vòm mi ng và k t thúc t i các h c mũi. Khi vòm mi ng th p xu ng, cu ng kh u giác ư c ghép n i v m t âm thanh v i cu ng h ng hình thành nên các âm tho i gi ng mũi. S hình thành và khuôn d ng c a cu ng h ng, cu ng kh u giác thay i liên t c theo th i gian t o ra m t b l c âm thanh v i áp ng t n s bi n i theo th i gian. 20
  10. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Khi mà không khí t các lá ph i chuy n ng qua các cu ng h ng, kh u giác, ph t n s ư c nh d ng b i s l a ch n t n s c a nh ng cu ng h ng và kh u giác này Hình 2.7: B ph n phát âm c a con ngư i Tho i ư c t o ra khi không khí i t ph i, qua các dây thanh âm (b ph n phát ra ti ng c a thanh qu n) và d c theo cu ng h ng. Cu ng h ng b t u t v trí m các dây thanh âm cho t i mi ng v i chi u dài trung bình kho ng 16cm. Dây thanh âm c a ngư i có c u trúc g m hai s i cơ, m i s i cơ ư c gi b i m t màng cơ – m t kh i cơ m nh. Bình thư ng hai dây cơ khép l i, không khí t bu ng ph i b óng kín không ra ư c. Khi ph i y khí, dư i s i u khi n c a h dây th n kinh, khi c n nói, không khí ép vào cơ c u dây thanh âm, hai dây thanh âm có th m ra ho c không m . Khi các dây thanh âm m , không khí ư c y ra t ph i t ng l p m t theo m t chu kỳ nh t nh T0 t o ra các nguyên âm. N u các dây thanh âm không m , nó s b tách b t ra không khí có th l t qua t o ra các ph âm n ho c không khí có th lách xuyên qua khe h p gi a hai dây t o ra các ph âm xát - rít. Chúng ta có th xem cơ quan phát âm như là m t b l c v i nhi u t n s c ng hư ng khác nhau và ư c g i là nh ng t n s formant ho c ơn gi n là formant. Các t n 21
  11. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh s formant ư c i u khi n b i vi c thay i hình d ng c a cu ng h ng, ch ng h n thông qua s chuy n ng c a lư i. Formant là d i t n s ư c tăng cư ng do hi n tư ng c ng hư ng trong ng d n thanh, c trưng cho âm s c c a m i nguyên âm. Trong m i d i t n như th có m t t n s ư c tăng cư ng hơn c g i là nh formant. M t nguyên âm do m t ngư i phát ra có nhi u formant: • F1: ng v i c ng hư ng vùng y t h u • F2: ng v i c ng hư ng khoang mi ng Khi ta nói, các âm mũi s có s xu t hi n c a formant F3, các formant khác F4, F5,…liên quan n các c trưng gi ng nói riêng c a m i cá nhân. M i l n môi, lư i, hàm nh ng v trí khác nhau là m t l n h p c ng hư ng mi ng và y t h u thay i hình dáng, th tích, l i thoát c a không khí làm bi n i âm s c c a âm thanh i qua chúng. Chính vì v y, hai khoang mi ng và y t h u là hai h p c ng hư ng quan tr ng nh t, chúng t o nên hai formant chính formant F1 và F2 c trưng c a m i nguyên âm. B l c cu ng h ng b kích thích b i lu ng không khí tác ng vào nó t các dây thanh âm. Theo ó các âm thanh tho i phát ra ư c phân chia thành ba lo i ph thu c vào phương th c kích thích. • Các âm h u thanh (voiced sound): ư c t o ra khi các dây thanh âm rung ng m ho c óng, do v y mà làm gián o n (ng t) lu ng không khí ư c t o ra t ph i t i cu ng h ng và t o ra các các xung không khí có chu kỳ (quasi-periodic) khi b kích thích. T c c a vi c óng ho c m các dây thanh âm xác nh cao th p c a âm thanh (pitch). Pitch có th ư c i u ch nh qua vi c thay i hình d ng, căng c a các dây thanh âm cũng như áp su t c a lu ng không khí tác ng lên chúng t ph i. -> nguyên âm. Các âm h u thanh thư ng có tính chu kỳ cao, i n hình trong kho ng 2 n 20 ms như ư c minh h a hình 2.8. c a m t o n âm h u thanh l y m u t i t n s 8KHz. Hàm m t ph công su t – PSD (Power Spectral Density) c a o n âm h u thanh này ư c minh h a hình 2.9. Các âm vô thanh (unvoiced sound): ư c t o ra khi kích thích là m t nhi u lo n t • vi c ép lu ng không khí t c cao qua khe h p cu ng h ng trong khi các dây thanh âm tr ng thái m . Lưu ý âm vô thanh là các tín hi u không có chu kỳ, nó d ng t p âm, nhi u… Tính chu kỳ c a nh ng âm vô thanh cũng ư c th có th hi n các hình v 2.10 và 2.11. Các âm b t - n (plosive sound): ư c t o ra khi có s óng hoàn toàn cu ng • h ng, và áp su t không khí ư c hình thành phía sau ư c gi i phóng t ng t.- > ph âm. 22
  12. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Hình 2.8: M t o n i n hình c a các âm h u thanh Hình 2.9: M t ph công su t cho o n tho i h u thanh 23
  13. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Hình 2.10: M t o n i n hình c a các âm vô thanh Hình 2.11: M t ph công su t cho o n tho i vô thanh M t s âm thanh không ư c xem như thu c vào m t trong ba lo i âm thanh nói trên, tuy nhiên chúng là s h n h p. Ví d như các âm xát (ph âm xát ho c rít – c xát) ư c hình thành khi các có s rung ng c a dây thanh âm và khe h p trong cu ng h ng ư c hình thành. D a vào phương th c c u âm, ngư i ta chia ph âm làm 3 lo i chính: âm t c, xát và rung. Ph âm ti ng Vi t g m có 22 âm và ngư i ta có th chia theo b ng sau: 24
  14. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh B ng 2.1: Các lo i ph âm trong ti ng Vi t M c d u r t nhi u âm thanh tho i có th ư c t o ra, nhưng hình d ng c a cu ng h ng và phương th c kích thích lên nó thay i tương i ch m. Do v y, tho i - ti ng nói có th xem như là quá trình d ng (quasi-stationary) qua nh ng chu kỳ th i gian ng n (kho ng ch ng 20ms). Trên cơ s các hình v (2.8 – 2.11), chúng ta có th th y ư c các tín hi u tho i có tính d oán trư c cao do nh ng s rung ng có tính chu kỳ c a các dây thanh âm và do nh ng s c ng hư ng âm trong cu ng h ng. Các b mã hóa tho i ang c g ng khai thác nh ng c tính d oán trư c này c a tín hi u tho i gi m t c truy n d n tho i m c c n thi t cho m b o ch t lư ng truy n d n tho i. 2.2.2. T ng quan v mã hóa tín hi u tho i T nh ng năm 1930, mã hoá ti ng nói ư c phát tri n tr thành m t c tính quan tr ng c a nh ng nhà v n hành h th ng i n tho i ngày ngày. S mã hóa ti ng nói bây gi ư c ng d ng trong truy n thông t bào, nh ng h th ng máy tính, t ng hóa, truy n thông quân s , nh ng h th ng sinh a, và kh p nơi mà thông tin s chi m gi . Mã hoá ti ng nói bao g m l y m u và lư ng t hóa biên tín hi u ti ng nói. M c tiêu là s s d ng m t c c ti u s lư ng m u, trong khi gi gìn ch t lư ng ti ng nói ư c xây d ng l i t i phía thu. Nghiên c u mã hoá bây gi t p trung vào các k thu t t c th p (8 t i 2.4 kbits/s) và t c r t th p ( dư i 2.4 kbits/s). Hình 2.12 minh h a sơ kh i m t h th ng mã ti ng nói. ây, tín hi u tho i tương t và liên t c theo th i gian t m t ngu n tho i ã cho (chưa nén) ư c s hóa thông qua b l c (lo i b băng t n th a t n s cao), b l y m u (bi n i thành tín hi u r i r c theo th i gian) và b bi n i tương t /s (lư ng t hóa) và sau ó ư c mã hoá (nén): ó là quá trình mã hoá ngu n. Tín hi u ã mã hoá ngu n sau ó ư c ti p t c mã hoá thêm kh năng ch ng l i (mã hoá kênh) và ưu tiên truy n d n qua m t kênh. 25
  15. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh T i u thu, m t b gi i mã kênh s tách và (ho c) s a nh ng l i trong quá trình truy n d n và m t b gi i mã ngu n s gi i nén tín hi u. Tín hi u ã ư c gi i nén có th gi ng h t như tín hi u ban u (nén không t n th t) ho c nó cũng có th b méo ho c suy bi n theo m t vài cách nào ó (nén có t n th t). Ngu n B mã B ly B bi n B mã B lc hóa ngu n tho i mu i A/D hóa kênh Kênh truy n Tho i B gi i B bi n B gi i B lc mã ngu n u ra mã kênh i D/A Hình 2.12: Sơ kh i h th ng mã hóa tho i Thông thư ng, a s nh ng h th ng mã ti ng nói ư c thi t k h tr n h n g ng d ng vi n thông, v i t n s gi i h n trong kho ng 300 - 3400Hz. Theo nh lý Nyquist, t n s l y m u ph i l n hơn ít nh t là hai l n băng thông c a tín hi u liên t c tránh méo, nên 8 kHz thư ng ư c ch n là t n s m u tiêu chu n (cho) ti ng nói. N u s d ng t mã 8 bít/ m u thì t c u ra c a kênh tho i s s là 64 Kbit/s. Như ta ã bi t, tín hi u s ưu i m hơn h n so v i tín hi u tương t trong vi c truy n d n và x lý tín hi u nh t là kh năng ch ng l i ư ng truy n. PCM là k thu t i u ch xung mã ư c s d ng r t ph bi n trong m ng tho i truy n th ng bi n i tín hi u tương t thành tín hi u s . Bình thư ng, m t kênh tho i tương t ư c bi n i thành m t kênh PCM cơ s có t c 64 Kbit/s. K thu t PCM (chu n G.711) s d ng trong m ng tho i truy n th ng m b o ch t lư ng âm khá trung th c nhưng băng t n s d ng còn khá l n. Cho nên, nén tho i là c n thi t cho các ng d ng như i n tho i di ng (t c c a m t cu c g i càng th p thì càng cung c p ư c thêm các d ch v khác- d li u; hình nh; video) và và các ng d ng cho phép truy n d li u t c th p (thư ng th p hơn
  16. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh xung l y m u mà là mã hóa s khác nhau gi a biên các xung, cũng như t c thay i các biên ó s d ng phương pháp d oán tuy n tính trư c. Vn t ra là gi m băng thông hơn n a mà v n m b o ch t lư ng d ch v phù h p v i m ng VoIP, t ó xu t hi n m t s k thu t mã hóa và nén tín hi u tho i t c th p c th như trong GSM: G.723.1, G.729. PCM và ADPCM u là k thu t mã hóa theo d ng sóng. K thu t nén m i (mã hóa ngu n) ư c phát tri n cách ây 10 n 15 năm d a vào s nh n bi t các c tính ngu n c a tín hi u tho i phát ra. K thu t này s d ng th t c x lý tín hi u và nén tho i b ng vi c ch g i i thông tin d ng các tham s ã ư c ơn gi n hóa v vi c kích thích tín hi u ngu n d ng c a gi ng nói do v y òi h i ít băng thông hơn. 2.2.3. Các phương pháp mã hóa tín hi u tho i Nhi m v phân lo i các b mã hóa tho i hi n i là không ơn gi n và thư ng không rõ ràng do s phân chia thi u rõ r t gi a các cách ti p c n khác nhau. M c này gi i thi u m t s tiêu chu n phân lo i hi n có. Lưu ý r ng ây là lĩnh v c ti n tri n liên t c và nhi u lo i b mã hóa m i s ư c t o ra khi có nh ng công ngh thay th ư c gi i thi u. Phân lo i theo t c T t c các b mã hóa ư c thi t k gi m t c bit t 64-128 Kbps xu ng các giá tr th p hơn. Căn c theo t c c a lu ng bit ư c mã hóa, vi c phân lo i các b mã hóa tho i theo b ng 2.2 dư i ây. Phân lo i Ph m vi t c T c cao >15 Kbps T c trung bình 5 – 15 Kbps T c th p 2 – 5 Kbps T c r t th p
  17. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Phân lo i theo k thu t mã hóa a. Mã hóa d ng sóng Mã hóa d ng sóng (waveform coding) là k thu t duy trì hình d ng ban u c a các sóng tín hi u, và do v y các b mã hóa d ng sóng có th áp d ng cho b t kỳ lo i ngu n tín hi u nào. Nguyên lý c a b mã hóa d ng sóng là mã hóa d ng sóng c a ti ng nói. T i phía phát, b mã hóa s nh n các tín hi u ti ng nói tương t liên t c và mã hoá thành tín hi u s trư c khi phát i. T i phía thu, b gi i mã s làm nhi m v ngư c l i khôi ph c tín hi u ti ng nói. Khi không có l i truy n d n thì d ng sóng c a ti ng nói khôi ph c ư c s r t gi ng v i d ng sóng c a ti ng nói g c. Nh ng b mã hóa d ng sóng khá phù h p v i k thu t mã hóa t c cao vì ch t lư ng c a chúng gi m r t nhanh khi gi m t c bit. Trong th c t , các b mã hóa d ng sóng ho t ng có hi u qu tc 32kbps hay cao hơn. T s tín hi u trên nhi u – SNR (Signal-to-noise ratio) thư ng ư c s d ng ánh giá ch t lư ng c a các b mã hóa d ng mã sóng. M t s ví d liên quan là nh ng b mã hóa PCM và ADPCM. b. Mã hóa tham s Mã hóa tham s (parametric coding) hay còn g i là Vocoder. ây, các tín hi u tho i ư c gi thi t ư c t o ra t m t mô hình (gi ng như mô hình t o ti ng nói t cơ quan phát âm c a con ngư i), mô hình này ư c i u khi n b i m t vài tham s ch c năng. Trong quá trình mã hóa, nh ng tham s c a mô hình ư c suy ra (ư c oán) t tín hi u tho i u vào. Ki u mã hóa này không b o toàn hình d ng sóng ban u c a tín hi u nên không th dùng t s tín hi u trên nhi u SNR ánh giá. Ch t lư ng nh n th c (c m nh n) c a tín hi u tho i sau khi gi i mã liên quan tr c ti p n chính xác c a mô hình. Do h n ch này, b mã hóa tham s có hi u năng th p i v i các tín hi u không ph i là tín hi u tho i. Có m t s mô hình xu t cho b mã hóa tham s và thành công nh t là mô hình d oán tuy n tính. Theo cách ti p c n này, cơ ch t o ra ti ng nói c a con ngư i ư c th c hi n b ng vi c s d ng b l c bi n i theo th i gian v i các tham s c a b l c ư c xây d ng d a trên th t c phân tích d oán tuy n tính. B mã hóa tham s làm vi c r t t t v i t c bit th p t 2 n 5 Kbps và ví d i n hình c a các b mã hóa tham s là b mã hóa d oán tuy n tính LPC (Linear Prediction Coding) và b mã hóa d oán tuy n tính kích thích h n h p MELP (Mixed Excitation Linear Prediction). c. Mã hóa lai 28
  18. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh Mã hóa lai (hybrid coding) hay còn g i là mã hóa t ng h p là s k t h p c a hai lo i mã hóa nói trên. Gi ng như mã hóa tham s , mã hóa lai d a vào m t mô hình t o ra ti ng nói và trong quá trình mã hóa, các tham s c a mô hình s ư c xác nh. Thêm vào ó, các tham s c a mô hình ư c t i ưu theo cách mà tín hi u tho i ư c gi i mã g n gi ng nh t có th ư c v i d ng sóng tín hi u ban u. Các b mã hóa lai ư c dùng ch y u cho t c bit m c trung bình v i ch t lư ng khá t t v i thu t toán d oán tuy n tính kích thích mã – CELP (Code-Excited Linear Prediction). Hình v 2.13 dư i ây minh h a ch t lư ng tho i c a c ba lo i b mã hóa ph bi n thay i theo t c mã hóa như th nào. Hình 2.13: Ch t lư ng tho i so v i t c bit c a các lo i b mã hóa 2.2.3.1. Mã hóa d ng sóng Mã hóa d ng sóng ho t ng trong mi n th i gian ho c mi n t n s , phương pháp này khai thác các c tính c a d ng sóng tín hi u ngu n (hình bao ph /hài/ cao th p c a âm) thông qua các phương pháp tương quan ng n h n, ví d như: b ng phương pháp d oán tuy n tính – c g ng d oán các m u d ng sóng t giá tr c a các m u trư c ó. Có r t nhi u ki u mã hóa d ng sóng. M t s phương pháp th c hi n vi c phân tích tín hi u tho i u vào trong mi n t n s trong khi các phương pháp khác th c hi n vi c phân tích trong mi n th i gian. Mã hóa d ng sóng là tương i ơn gi n, phương pháp này l i d n g ư c r t ít dư th a v n có trong ti ng nói c a con ngư i do ó nó không có nhi u hi u qu trong vi c gi m t c d li u trên kênh truy n vô tuy n. Trên th c t 29
  19. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh phương pháp này ch cho phép d li u t c cao nhưng nó l i cung c p tho i v i ch t lư ng t t và có th ch u ư c t p âm n n. Th m chí nhi u phương pháp mã hóa d ng sóng có th mã hóa c âm nh c và nh ng âm thanh khác không ph i là ti ng nói c a con ngư i. Phương pháp này ho t ng c l p v i cách mà tín hi u ư c t o ra và c g ng xây d ng l i tín hi u g n gi ng v i tín hi u g c ban u. Mã hóa d ng sóng không ph c t p l m và nói chung là s d ng t c bit tương i cao (trên 16 Kbps). PCM tuy n tính (64 Kbps) bi u th lo i mã hóa d ng sóng ơn gi n nh t, phương pháp này ch ơn thu n bao g m vi c l y m u và lư ng t hoá, mã hóa sóng u vào. ADPCM (t c 32 Kbps, tiêu chu n CCITT/ITU G.721) ư c s d ng trong m t s h th ng truy nh p vô tuy n (DECT và PHS) là m t thu t toán mã hóa ph c t p hơn nhưng v n cung c p t c bit tương i cao. T c c a phương pháp ADPCM có th tùy bi n t 16, 24, 32 cho n 40 Kbps (CCITT/ITU G.726/727). a. Mã hóa 64 Kbít PCM (ITU G. 711) Các b mã hóa i u ch xung mã PCM là b mã hóa d ng sóng ơn gi n nh t. Tho i băng h p ư c l y m u v i t n s 8000 Hz và m i m t m u tho i ph i ư c lư ng t hoá. N u lư ng t hoá tuy n tính ư c s d ng thì c n thi t ph i dùng 12 bit mã hóa cho m t m u và d n n t c bit là 96 Kbit/s. Tuy nhiên, t c này có th ư c gi m xu ng m t cách d dàng b ng cách s d ng lư ng t hoá phi tuy n tính. Trong vi c mã tho i ngư i ta th y r ng v i vi c lư ng t hoá phi tuy n, 8 bit mã hóa cho m t xung m u là m b o ch t lư ng tho i và g n như khó mà phân bi t ư c so v i tho i g c ban u. i u này d n n t c bit chu n là 64 Kbit/s và hai lo i b mã hóa phi tuy n PCM ã tr thành tiêu chu n vào nh ng năm 60 c a th k 20. B c M , ngư i ta dùng mã hóa theo lu t µ , trong khi ó Châu Âu, mã hóa theo lu t A ư c áp d ng. Do tính ơn gi n, ch t lư ng tho i m b o và tr th p , c hai lo i mã hóa PCM này v n ư c s d ng r ng rãi cho n ngày nay. M t k thu t ư c s d ng ph bi n trong vi c mã tho i là c g ng d oán giá tr c a m u ti p theo t nh ng m u trư c ó. i u này có th kh thi b i có s tương quan hi n t i gi a nh ng m u tho i dư i tác d ng c a cơ quan phát âm và s rung ng c a dây thanh âm như ã ư c gi i thi u 2.2.1. N u d oán có hi u qu , thì tín hi u sai l ch gi a nh ng m u ã d oán và nh ng m u tho i th c s có m t s khác bi t th p hơn so v i gi a các m u tho i nguyên g c. B i v y, chúng ta có th lư ng t hoá nh ng tín hi u sai l ch này v i m t s lư ng bit ít hơn so v i tín hi u m u tho i g c. ây là cơ s c a nh ng mô hình i u ch xung mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lư ng t hoá s khác bi t gi a nh ng tín hi u g c và tín hi u d oán. 30
  20. X lý âm thanh và hình nh Chương 2:K thu t x lý âm thanh K t qu t nh ng b mã hoá như v y có th ư c c i thi n n u b d oán và b lư ng t có s tương thích sao cho chúng thay i phù h p v i các c tính c a tho i ư c mã hoá. i u này d n t i k thu t i u ch xung mã vi sai thích ng – ADPCM (Adaptive Differential Pulse Code Modulation). Vào gi a nh ng năm 1980, CCITT ã chu n hoá b mã hóa ADPCM ho t ng t c 32Kbps v i ch t lư ng tho i tương ương v i phương pháp i u ch mã xung 64Kbps. Sau ó, các b mã hóa ADPCM ho t ng các t c 16, 24 và 40Kbps cũng ã ư c chu n hóa. Sơ b mã hóa và gi i mã ADPCM ư c minh h a hình 2.14 dư i ây. Hình 2.14: B mã hóa và gi i mã ADPCM b. Mã hóa ADPCM (ITUG.721, G.726, G.727) B mã hóa i u ch xung mã vi sai thích nghi (ADPCM) là b mã hóa d ng sóng thay vì lư ng t hoá tr c ti p tín hi u tho i, gi ng như phương pháp PCM, nó lư ng t hóa s khác nhau gi a tín hi u tho i và tín hi u d oán. N u s d oán là chính xác thì s khác nhau gi a các m u th t và m u d oán s nh hơn, ít khác bi t hơn so v i gi a các m u tho i th c, và s khác bi t này n u ư c lư ng t hoá chính xác thì s c n s bit ít hơn so v i vi c ph i lư ng t hoá các m u tho i g c. T i b gi i mã, tín hi u khác bi t mà ã ư c lư ng t hóa ư c c ng v i tín hi u d oán khôi ph c l i tín hi u tho i ban u. Hi u năng c a b mã hóa ư c c i thi n thông qua vi c s d ng b d oán và lư ng t thích nghi sao cho b d oán và b lư ng t ph i thích ng v i nh ng c tính thay i c a tho i ang ư c mã hoá. 31
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2