Bài giảng: Xử lý tiếng nói
lượt xem 108
download
Tiếng nói là một phương tiện trao đổi thông tin tiện ích vốn có của con người. ước mơ về những "máy nói" đã không chỉ xuất hiện từ những câu chuyện khoa học viễn tưởng xa xưa mà nó còn là động lực thôi thúc của nhiều nha nghiên cứu, nhóm nghiên cứu trên thế giới.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng: Xử lý tiếng nói
- T P ðOÀN BƯU CHÍNH VI N THÔNG VI T NAM H C VI N CÔNG NGH BƯU CHÍNH VI N THÔNG ******************************* BÀI GI NG X LÝ TI NG NÓI BIÊN SO N: PH M V Ă N S LÊ XUÂN THÀNH HÀ N I - 2010
- L i nói ñ u Ti ng nói là m t phương ti n trao ñ i thông tin ti n ích v n có c a con ngư i. Ư c mơ v nh ng "máy nói", "máy hi u ti ng nói" ñã không ch xu t hi n t nh ng câu truy n khoa h c vi n tư ng xa xưa mà nó còn là ñ ng l c thôi thúc c a nhi u nhà nghiên c u, nhóm nghiên c u trên th gi i. Ho t ñ ng nghiên c u và x lý ti ng nói ñã tr i qua g n m t th k cùng v i nhi u thành t u to l n trong vi c xây d ng phát tri n các k thu t công ngh x lý ti ng nói ñã ñ t ñư c. Tuy v y, vi c có ñư c m t "máy nói" mang tính t nhiên (v gi ng ñi u, phát âm...) cũng như m t "máy hi u ti ng nói" th c th v n còn khá xa v i. Xu th phát tri n c a th k 21 càng thôi thúc vi c hoàn thi n hơn n a công ngh ñ có th ñ t công ngh h i t ñư c m c tiêu c a con ngư i v lĩnh v c x lý ti ng nói. Chính vì th , vi c n m b t ñư c các k thu t cơ b n cũng như các công ngh ti n ti n cho vi c x lý ti ng nói là th c s c n thi t cho sinh viên chuyên ngành X lý Tín hi u và Truy n thông nói riêng, sinh viên chuyên ngành K thu t ði n - ði n t nói chung. V i m c ñích ñó, bài gi ng môn h c X lý ti ng nói ñư c biên so n nh m trang b cho sinh viên các khái ni m cơ b n quan tr ng và c n thi t cũng như nh m gi i thi u cho sinh viên các công ngh tiên ti n, xu th nghiên c u và phát tri n c a lĩnh v c x lý ti ng nói. Cu n sách ñư c chia làm 5 chương: 1. M t s khái ni m cơ b n. 2. Bi u di n s c a tín hi u ti ng nói. 3. Phân tích ti ng nói. 4. T ng h p ti ng nói. 5. Nh n d ng ti ng nói. Các chương 1 và 2 do gi ng viên Lê Xuân Thành biên so n, các chương còn l i do gi ng viên Ph m Văn S biên so n. Trong th i gian g p rút hoàn thành cu n bài gi ng này, m c dù v i s c g ng n l c h t s c, như do kinh nghi m còn nhi u h n ch , nhóm tác gi không tránh kh i nh ng sai sót và nh m l n. Nhóm tác gi chân thành mong mu n nh n ñư c nh ng ñóng góp t ñ ng nghi p và các em sinh viên ñ hoàn thi n hơn trong phiên b n sau. M i góp ý xin g i v : B môn Lý thuy t m ch, Khoa K thu t ði n t I, H c vi n Công ngh Bưu chính Vi n thông, Km10 ðư ng Nguy n Trãi, Hà ðông, Hà N i ho c g i email v ñ a ch xulytiengnoi@gmail.com. Hà N i, ngày 02 tháng 05 năm 2010 Nhóm biên so n i
- Danh m c các t vi t t t B chuy n ñ i tương t - s ADC Analog Digital Converter ði u ch Delta thích nghi ADM Adaptive Delta Modulation ði u xung mã vi sai thích nghi ADPCM Adaptive Differential PCM CSR Continuous Speech Recognition Nh n d ng ti ng nói liên t c Bi n ñ i Cosine r i r c DCT Discrete Cosine Transform Bi n ñ i Fourier r i r c DFT Discrete Fourier Transform ði u ch Delta DM Delta Modulation Bi n ñ i Fourier v i th i gian r i r c DTFT Discrete Time FT ði u ch xung mã vi sai DPCM Differential PCM Bi n ñ i Fourier nhanh FFT Fast FT B l c ñáp ng h u h n FIR Finite Impulse Response Bi n ñ i Fourier FT Fourier Transform HMM Hidden Markov Model Mô hình Markov n Bi n ñ i Fourier r i r c ngư c IDFT Inverse Discrete FT Bi n ñ i Fourier v i th i gian r i r c IDTFT Inverse DTFT ngư c Bi n ñ i Fourier ngư c IFT Inverse FT Bình phương trung bình t i thi u LMS Least Mean Square Mã hóa d ñoán tuy n tính LPC Linear Predictive Coding B l c tuy n tính không thay ñ i theo LTI Linear Time-Invariant th i gian MFCC Mel frequency cepstral coefficient Các h s cepstral t n s Mel NLP Natural Language Processing X lý ngôn ng t nhiên ði u ch biên ñ xung mã PAM Pulse Amplitude Modulation SNR Signal to Noise Ratio T s tín hi u trên nhi u Bi n ñ i ng n h n ST Short-time Transform Bi n ñ i Fourier ng n h n STFT Short-time FT M ng nơ-ron v i th i gian tr TDNN Time delay Neural Network Phương pháp ch ng l n ñ ng b pitch TD-PSOLA Time-domain PSOLA trong mi n th i gian ii
- M cl c L i nói ñ u .............................................................................................................................i Danh m c các t vi t t t .......................................................................................................ii M c l c ................................................................................................................................iii M t s khái ni m cơ b n ................................................................................ 1 Ch−¬ng 1: M ñ u ............................................................................................................ 1 1.1. 1.1.1 Ngu n g c c a ti ng nói............................................................................. 1 1.1.2 Phân lo i ti ng nói ...................................................................................... 1 1.2. Quá trình t o ti ng nói .................................................................................... 2 1.2.1 C u t o c a h th ng c u âm ...................................................................... 2 1.2.2 C u t o c a h th ng ti p âm...................................................................... 3 Các ñ c tính cơ b n c a ti ng nói................................................................... 6 1.3. T n s cơ b n và ph t n ............................................................................ 6 1.3.1 1.3.2 Bi u di n tín hi u ti ng nói ........................................................................ 6 Ch−¬ng 2: Bi u di n s c a tín hi u ti ng nói ............................................................... 12 M ñ u .......................................................................................................... 12 2.1. 2.2. L y m u tín hi u ti ng nói............................................................................ 13 Lư ng t hóa ................................................................................................ 14 2.3. 2.4. Mã hóa và gi i mã ........................................................................................ 16 ði u ch xung mã vi sai DPCM ................................................................... 18 2.5. ði u ch Delta (DM) .................................................................................... 19 2.6. ði u ch Delta thích nghi (ADM) ................................................................ 20 2.7. ði u ch xung mã vi sai thích nghi (ADPCM) ............................................ 22 2.8. Bài th c hành các phương pháp bi u di n s tín hi u ti ng nói................... 22 2.9. Ch−¬ng 3: Phân tích ti ng nói ........................................................................................ 24 M ñ u .......................................................................................................... 24 3.1. 3.2. Mô hình phân tích ti ng nói.......................................................................... 24 3.3. Phân tích ti ng nói ng n h n......................................................................... 24 3.4. Phân tích ti ng nói trong mi n th i gian ...................................................... 26 3.5. Phân tích ti ng nói trong mi n t n s ........................................................... 28 iii
- 3.5.1 C u trúc ph c a tín hi u ti ng nói........................................................... 28 3.5.2 Spectrogram.............................................................................................. 30 Phương pháp phân tích mã hóa d ñoán tuy n tính (LPC) .......................... 32 3.6. Phương pháp phân tích cepstral.................................................................... 39 3.7. M t s phương pháp xác ñ nh t n s Formant ............................................. 40 3.8. M t s phương pháp xác ñ nh t n s cơ b n ................................................ 41 3.9. 3.10. Bài th c hành phân tích ti ng nói ................................................................. 44 Ch−¬ng 4: T ng h p ti ng nói ....................................................................................... 45 M ñ u .......................................................................................................... 45 4.1. Các phương pháp t ng h p ti ng nói............................................................ 45 4.2. 4.2.1 T ng h p tr c ti p .................................................................................... 45 4.2.2 T ng h p ti ng nói theo Formant ............................................................. 47 T ng h p ti ng nói theo phương pháp mô ph ng b máy phát âm.......... 51 4.2.3 4.3. H th ng t ng h p ch vi t sang ti ng nói................................................... 52 4.4. Bài th c hành t ng h p ti ng nói ................................................................. 56 Ch−¬ng 5: Nh n d ng ti ng nói...................................................................................... 57 M ñ u .......................................................................................................... 57 5.1. 5.2. L ch s phát tri n các h th ng nh n d ng ti ng nói .................................... 57 5.3. Phân lo i các h th ng nh n d ng ti ng nói ................................................. 58 5.4. C u trúc h nh n d ng ti ng nói ................................................................... 59 Các phương pháp phân tích cho nh n d ng ti ng nói................................... 60 5.5. Lư ng t hóa véc-tơ ................................................................................. 60 5.5.1 5.5.2 B x lý LPC trong nh n d ng ti ng nói.................................................. 63 5.5.3 Phân tích MFCC trong nh n d ng ti ng nói ............................................. 69 Gi i thi u m t s phương pháp nh n d ng ti ng nói ................................... 71 5.6. Phương pháp acoustic-phonetic................................................................ 73 5.6.1 Phương pháp nh n d ng m u th ng kê..................................................... 77 5.6.2 Phương pháp s d ng trí tu nhân t o ...................................................... 78 5.6.3 ng d ng m ng nơ-ron trong h th ng nh n d ng ti ng nói ................... 81 5.6.4 5.6.5 H th ng nh n d ng d a trên mô hình Markov n (HMM) ..................... 84 5.7. Bài th c hành nh n d ng ti ng nói ............................................................... 87 iv
- Ph l c 1: M ng nơ-ron ...................................................................................................... 88 Ph l c 2: Mô hình Markov n ........................................................................................... 90 Tài li u tham kh o............................................................................................................... 94 v
- Chương 1: M t s khái ni m cơ b n Ch−¬ng 1: M t s khái ni m cơ b n 1.1. M ñ u Ti ng nói thư ng xu t hi n dư i nhi u hình th c mà ta g i là ñàm tho i, vi c ñàm tho i th hi n kinh nghi m c a con ngư i. ðàm tho i là m t quá trình g m nhi u ngư i, có s hi u hi t chung và m t nghi th c luân phiên nhau nói. Nh ng ngư i có ñi u ki n th ch t và tinh th n bình thư ng thì r t d di n ñ t ti ng nói c a mình, do ñó ti ng nói là phương ti n giao ti p chính trong lúc ñàm tho i. Ti ng nói có r t nhi u y u t khác h tr nh m giúp ngư i nghe hi u ñư c ý c n di n ñ t như bi u hi n trên gương m t, c ch , ñi u b . Vì có ñ c tính tác ñ ng qua l i, nên ti ng nói ñư c s d ng trong nhu c u giao ti p nhanh chóng. Trong khi ñó, ch vi t l i có kho ng cách v không gian l n th i gian gi a tác gi và ngư i ñ c. S bi u ñ t c a ti ng nói h tr m nh m cho vi c ra ñ i các h th ng máy tính có s d ng ti ng nói, ví d như lưu tr ti ng nói như là m t lo i d li u, hay dùng ti ng nói làm phương ti n giao ti p qua l i. N u chúng ta có th phân tích quá trình giao ti p qua nhi u l p, thì l p th p nh t chính là âm thanh và l p cu i cùng là ti ng nói di n t ý nghĩa mu n nói. 1.1.1 Ngu n g c c a ti ng nói Âm thanh c a l i nói cũng như âm thanh trong th gi i t nhiên xung quanh ta, v b n ch t ñ u là nh ng sóng âm ñư c lan truy n trong m t môi trư ng nh t ñ nh (thư ng là không khí). Khi chúng ta nói dây thanh trong h u b ch n ñ ng, t o nên nh ng sóng âm, sóng truy n trong không khí ñ n màng nhĩ – m t màng m ng r t nh y c m c a tai ta – làm cho màng nhĩ cũng dao ñ ng, các dây th n kinh c a màng nhĩ s nh n ñư c c m giác âm khi t n s dao ñ ng c a sóng ñ t ñ n m t ñ l n nh t ñ nh. Tai con ngư i ch c m th ñư c nh ng dao ñ ng có t n s t kho ng 16Hz ñ n kho ng 20000Hz. Nh ng dao ñ ng trong mi n t n s này g i là dao ñ ng âm hay âm thanh, và các sóng tương ng g i là sóng âm. Nh ng sóng có t n s nh hơn 16Hz g i là sóng h âm, nh ng sóng có t n s l n hơn 20000Hz g i là sóng siêu âm, con ngư i không c m nh n ñư c (ví d loài dơi có th nghe ñư c ti ng siêu âm). Sóng âm, sóng siêu âm và h âm không ch truy n trong không khí mà còn có th lan truy n t t nh ng môi trư ng r n, l ng, do ñó cũng ñư c s d ng r t nhi u trong các thi t b máy móc hi n nay. 1.1.2 Phân lo i ti ng nói Ti ng nói là âm thanh mang m c ñích di n ñ t thông tin, r t uy n chuy n và ñ c bi t. Là công c c a tư duy và trí tu , ti ng nói mang tính ñ c trưng c a loài ngư i. Nó không th tách riêng khi nhìn vào toàn th nhân lo i, và nh có ngôn ng ti ng nói mà loài ngư i s ng và phát tri n xã h i ti n b , có văn hóa, văn minh như ngày nay. Trong quá trình giao ti p ngư i nói, có nhi u câu nói, m i câu g m nhi u t , m i t l i có th g m 1 hay nhi u âm ti t. ti ng Vi t, s âm ti t ñư c s d ng vào kho ng 6700. Khi chúng ta phát ra m t ti ng thì có r t nhi u b ph n như lư i, thanh môn, môi, h ng, thanh qu n,… k t h p v i nhau ñ t o thành âm thanh. Âm thanh phát ra ñư c lan truy n trong không khí ñ ñ n tai ngư i nh n. Vì âm thanh phát ra t s k t h p c a r t nhi u b ph n, do ñó âm thanh m i l n nói khác nhau h u như khác nhau d n ñ n khá khó khăn khi ta mu n phân chia ti ng nói theo nh ng ñ c tính riêng. Ngư i ta ch chia ti ng nói thành 3 lo i cơ b n như sau: • Âm h u thanh: Là âm khi phát ra thì có thanh, ví d như chúng ta nói “i”, “a”, hay “o” ch ng h n. Th c ra âm h u thanh ñư c t o ra là do vi c không khí qua thanh môn 1
- Chương 1: M t s khái ni m cơ b n (thanh môn t o ra s khép m c a dây thanh dư i s ñi u khi n c a hai s n chóp) v i m t ñ căng c a dây thanh sao cho chúng t o nên dao ñ ng. • Âm vô thanh: Là âm khi t o ra ti ng thì dây thanh không rung ho c rung ñôi chút t o ra gi ng như gi ng th , ví d “h”, “p” hay “th”. • Âm b t: ð phát ra âm b t, ñ u tiên b máy phát âm ph i ñóng kín, t o nên m t áp su t, sau ñó không khí ñư c gi i phóng m t cách ñ t ng t, ví d “ch”, “t”. 1.2. Quá trình t o ti ng nói 1.2.1 C u t o c a h th ng c u âm L i nói là k t qu c a s ho t ñ ng v i m i liên k t gi a các b ph n hô h p và nhai. Hành ñ ng này di n ra dư i s ki m soát c a h th n kinh trung ương, b ph n này thư ng xuyên nh n ñư c thông tin b ng nh ng tác ñ ng ngư c c a các b ph n thính giác và c m giác b n th . B máy hô h p cung c p l c c n thi t khi khí ñư c th ra b ng khí qu n. ñ nh khí qu n là thanh qu n nơi áp su t khí ñư c ñi u bi n trư c khi ñ n tuy n âm kéo dài t h u ñ n môi (hình 1.1). Thanh qu n là t p h p các cơ và s n ñ ng bao quanh m t khoang n m ph n trên c a khí qu n. Các dây thanh gi ng như là m t ñôi môi ñ i x ng n m ngang thanh qu n, hai môi này có th khép hoàn toàn thanh qu n và khi m ra chúng có th t o ra ñ m hình tam giác g i là thanh môn. Không khí qua thanh qu n m t cách t do trong quá trình th và c trong quá trình c u âm c a nh ng âm ñi c hay âm vô thanh. Còn các âm h u thanh thì l i là k t qu c a s rung ñ ng tu n hoàn c a nh ng dây thanh. Và như v y nh ng rung ñ ng liên ti p s ñ n ñư c tuy n âm. Tuy n âm là t p h p nh ng khoang n m gi a thanh môn và môi, trên hình ta có th phân bi t ñư c khoang h u (h ng), khoang mi ng và khoang mũi. H th ng phát âm c a con ngư i Hình 1.1 Khi nói, l ng ng c m r ng và thu h p, không khí ñư c ñ y t ph i vào khí qu n, ñi qua thanh môn do các dây thanh t o thành. Lu ng khí này ñư c g i là tín hi u kích cho tuy n âm vì sau ñó nó ñư c ñ y qua tuy n âm và cu i cùng tán x ra môi. Tuy n âm có th ñư c coi như m t ng âm h c (g m các ño n ng v i ñ dài b ng nhau và thi t di n các m t c t khác nhau m c n i ti p) v i ñ u vào là các dây thanh (hay thanh môn) và ñ u ra là môi. Như v y tuy n âm có d ng thay ñ i như m t hàm theo th i gian. Các m t c t c a tuy n âm ñư c xác ñ nh b ng v trí c a lư i, môi, hàm, vòm mi ng và thi t di n c a nh ng m t c t này thay ñ i t 0cm2 (khi ng m môi) ñ n kho ng 20cm2 (khi h môi). Tuy n mũi t o thành tuy n âm h c 2
- Chương 1: M t s khái ni m cơ b n ph tr cho truy n âm thanh, nó b t ñ u t vòm mi ng và k t thúc các l mũi. Khi vòm mi ng h th p, tuy n mũi ñư c n i v i tuy n âm v m t âm h c và t o nên ti ng nói âm mũi. Các âm c a ti ng nói ñư c t o trong h th ng này theo ba cách ph thu c vào tín hi u kích. âm h u thanh như âm /i/ ñư c t o nên khi kích tuy n âm b ng chu i xung (hay chu kỳ dao ñ ng c a ñôi dây thanh) xác ñ nh chu kỳ pitch T và ñ i lư ng ngh ch ñ o c a nó là t n s cơ b n F0. ð i v i ngôn ng có thanh ñi u thì ki u thay ñ i này còn ph thu c vào thanh ñi u. Âm vô thanh như âm /s/ ñư c t o nên khi các dây thanh không dao ñ ng, xung kích ñư c coi như các t p ng u nhiên, kích b i các dòng khí xoáy qua các ch h p c a tuy n âm (thư ng là phía khoang mi ng). Âm n như âm /p/ ñư c t o ra b ng cách ñóng hoàn toàn tuy n âm, gây nên áp su t bên c nh v trí ñóng, r i nhanh chóng gi i phóng âm này. Vì tuy n âm và tuy n mũi bao g m các ng âm h c có m t c t khác nhau nên khi âm truy n trong ng, ph t n s thay ñ i theo tính ch n l c t n s c a ng. Trong ph m vi t o ti ng nói, nh ng t n s c ng hư ng c a tuy n âm ñư c g i là t n s formant hay ñơn gi n là formant. Nh ng t n s này ph thu c vào d ng và kích thư c c a tuy n âm, do ñó m i d ng tuy n âm ñư c ñ c trưng b ng m t t h p t n s formant. Các âm khác nhau ñư c t o b i s thay ñ i d ng c a tuy n âm. Như v y tính ch t ph c a tín hi u ti ng nói thay ñ i theo th i gian gi ng v i s thay ñ i d ng c a tuy n âm. Quá trình truy n âm qua tuy n âm làm m nh lên m t vùng t n s nào ñó b ng c ng hư ng và t o cho m i âm nh ng tính ch t riêng bi t g i là quá trình phát âm. Âm ñư c phát có nghĩa nó ñã mang thông tin v âm v ñư c tán x ra ngoài t môi. Trong m t vài trư ng h p, ñ i v i nh ng âm mũi (như /m/, /n/ trong ti ng Anh), tuy n mũi cũng tham gia vào quá trình phát âm và âm ñư c tán x ra t mũi. Tóm l i, sóng tín hi u ñư c ch t o b ng ba ñ ng tác: t o ngu n âm (h u thanh và vô thanh), phát âm khi truy n qua tuy n âm và tán x âm t môi ho c t mũi, như hình 1.2 sau ñây: Quá trình cơ b n t o tín hi u ti ng nói Hình 1.2 1.2.2 C u t o c a h th ng ti p âm Không gi ng như các cơ quan tham gia vào quá trình t o ra ti ng nói khi th c hi n các ch c năng khác trong cơ th như: th , ăn, ng i. Tai ch s d ng cho ch c năng nghe. Tai ñ c bi t nh y c m v i nh ng t n s trong tín hi u ti ng nói ch a thông tin phù h p nh t v i vi c liên l c (nh ng t n s x p x 200 – 5600Hz). Ngư i nghe có th phân bi t ñư c nh ng s khác bi t nh trong th i gian và t n s c a nh ng âm thanh n m trong vùng t n s này. Tai g m có ba ph n: tai ngoài, tai gi a và tai trong. Tai ngoài d n hư ng nh ng thay ñ i áp xu t ti ng nói vào trong màng nhĩ, ñó tai gi a s chuy n ñ i áp xu t này thành chuy n ñ ng cơ h c. Tai trong chuy n ñ i nh ng rung ñ ng cơ h c này thành nh ng lu ng ñi n trong nơron thính giác d n ñ n não. Tai ngoài: bao g m LOA TAI (pina) hay TÂM NHĨ (aurical) và L (meatus) thính giác hay ng tai ngoài. Loa tai có tham gia r t ít ho c h u như không vào ñ thính c a tai, nhưng 3
- Chương 1: M t s khái ni m cơ b n có ch c năng b o v l i vào ng tai và dư ng như cũng tham gia vào kh năng khu bi t các âm, ñ c bi t là nh ng t n s cao hơn. Loa tai n i v i ng tai ngoài, m t ng ng n có hình dáng thay ñ i có chi u dài kho ng t 25 ñ n 53 cm làm ñư ng cho các tín hi u âm h c ñ n tai gi a. L tai có hai ch c năng chính. Ch c năng th nh t là b o v các c u trúc ph c t p và không có tính ch t cơ h c l m c a tai gi a. Ch c năng th hai là ñóng vai trò như m t b máy c ng hư ng hình ng v n ưu tiên cho vi c truy n các âm có t n s cao gi a 2000 Hz và 4000Hz. Ch c năng này là quan tr ng ñ i v i vi c ti p nh n l i nói và ñ c bi t tr giúp cho vi c ti p nh n các âm xát, vì ñ c ñi m c a chúng thư ng ñư c l p mã trong ngu n năng lư ng không có chu kì trong khu v c nh ph âm h c này. S c ng hư ng trong l thính giác cũng tham gia vào ñ thính chung c a chúng ta gi a 500Hz và 4000Hz, v n là m t d i t n có ch a nhi u d u hi u chính ñ i v i c u trúc âm v h c. Hình 1.3 C u trúc h thính giác ngoài Tai gi a bao g m m t khoang n m trong c u trúc h p s có ch a màng nhĩ (eardrum) - màng ñ u trong c a ng tai ngoài , m t b ba khúc xương liên k t v i nhau, ñư c g i là xương v (mallet), xương ñe (anvil) và xương bàn ñ p (stirrup) (cũng có thu t ng là xương tai (auditory ossicle)) và c u trúc cơ liên k t. M c ñích c a tai gi a là truy n nh ng bi n ñ i áp su t âm trong không khí ñ n tai ngoài vào nh ng d ch chuy n cơ khí tương ng. Quá trình truy n này b t ñ u màng nhĩ, b làm l ch ñi b i nh ng bi n ñ i áp su t khí truy n ñ n nó qua l tai. S d ch chuy n này ñư c truy n ñ n các xương tai, v n ñóng vai trò như m t h th ng ñòn b y cơ h c khéo léo ñ chuy n t i nh ng d ch chuy n này ñ n c a hình b u d c giao di n ñ n tai trong và ch t d ch trong l tai trên. Ho t ñ ng làm ñòn b y c a các xương tai, và s th c là màng nhĩ có vùng b m t l n hơn nhi u so v i c a hình b u d c, ñ m b o cho vi c truy n hi u ng c a năng lư ng âm h c gi a 500Hz và 4000Hz, làm tăng ñ n m c t i ña kh năng thính c a tai vùng t n s này. H cơ g n v i các xương tai cũng ho t ñ ng ñ b o v tai ch ng l i nh ng âm l n do ho t ñ ng cơ 4
- Chương 1: M t s khái ni m cơ b n ch ph n x âm h c. Cơ ch này ñi vào ho t ñ ng khi các âm có biên ñ kho ng 90dB và l n hơn truy n ñ n tai: h cơ k t h p và s p x p l i các xương tai ñ làm gi m hi u qu truy n âm ñ n c a hình b u d c (Borden và Harris 1980, Moore 1989). Tai gi a ñư c n i v i h ng b ng m t ng h p g i là vòi c tai (eustachian tube). ði u này hình thành m t ñư ng khí và con ñư ng này s m ra khi c n cân b ng nh ng thay ñ i áp su t khí n n gi a c u trúc tai gi a và tai ngoài. Tai trong là m t c u trúc ph c t p b c trong h p s , c tai (cochlea) có trách nhi m bi n ñ i s chuy n d ch cơ khí thành các tín hi u th n kinh: s d ch chuy n cơ khí ñư c truy n ñ n c a hình b u d c b ng các c tai ñư c chuy n thành các tín hi u th n kinh và các tín hi u th n kinh này ñư c truy n ñ n h th ng th n kinh trung ương. V cơ b n, c tai là m t c u trúc hình xo n t n h t b ng m t c a s có m t màng linh ho t m i ñ u. bên trong, c tai chia thành hai màng, m t trong s ñó, màng n n (basilar membrane) là c c kì quan tr ng ñ i v i ho t ñ ng nghe. Khi nh ng d ch chuy n (do các rung ñ ng âm gây ra) di n ra t i c a s hình b u d c, chúng ñư c truy n qua ch t d ch trong c tai và gây ra s d ch chuy n (displacement) c a màng n n. m t ñ u màng n n c ng hơn so v i ñ u kia, và ñi u này có nghĩa là cách th c mà trong ñó nó ñư c d ch chuy n ph thu c vào t n s c a âm tác ñ ng vào. Các âm có t n s cao s gây ra s d ch chuy n l n hơn ñ u c ng; v i t n s gi m d n, s d ch chuy n c c ñ i s di chuy n liên t c v phía ñ u ít c ng hơn. G n d c v i màng n n là cơ quan v não (organ of corti), m t c u trúc ph c t p ch a nhi u t bào tóc. Nó là s d ch chuy n và s kích thích c a các t bào tóc này v n bi n s d ch chuy n c a màng n n thành các tín hi u th n kinh. Vì màng n n ñư c d ch chuy n nhi u v trí khác nhau ph thu c vào t n s , cho nên c tai và các c u trúc bên trong c a nó có th bi n t n s và cư ng ñ c a âm thành các tín hi u th n kinh. Nhưng c n ph i nh n m nh r ng s tái hi n có tính th n kinh cu i cùng c a thông tin t n s không ph thu c vào v trí c a ch riêng s d ch chuy n màng n n không, và hi u bi t c a chúng ta v cách th c t n s ñư c l p mã thông qua h th ng thính giác là chưa hoàn thi n. Hình 1.4 M t c t ngang c a c tai 5
- Chương 1: M t s khái ni m cơ b n Nghiên c u ñ u tiên v th m nh n l i nói ch tính ñ n r t ít các thu c tính th m nh n cơ b n c a tai. Hơn n a, nó ñã c g ng g n k t các thu c tính th m nh n c a tín hi u l i nói v i ki u tái hi n ph thay ñ i theo th i gian tuy n tính. ð n kho ng năm 1980 nhi u nhà nghiên c u ñã nh n ra r ng c n ph i hi u nh ng hi u ng có tính ch t phân tích c a h thính giác ngư i v các tín hi u l i nói và th t là sai l m khi cho r ng ngư i nghe ch ñang x lí thông tin theo cách gi ng như chi c máy ghi ph bình thư ng mà thôi. 1.3. Các ñ c tính cơ b n c a ti ng nói 1.3.1 T n s cơ b n và ph t n Thông lư ng: th tích không khí v n chuy n qua thanh môn trong m t ñơn v th i gian (kho ng 1cm3 /s). Chu kỳ cơ b n T0: khi dây thanh rung v i chu kỳ T0 thì thông lư ng cũng bi n ñ i tu n hoàn theo chu kỳ này và ta g i T0 là chu kỳ cơ b n. T n s cơ b n Hình 1.5 Giá tr ngh ch ñ o c a T0 là F0=1/ T0 ñư c g i là t n s cơ b n c a ti ng nói. F0 ph thu c vào gi i tính và l a tu i c a ngư i phát âm; F0 thay ñ i theo thanh ñi u và F0 cũng nh hư ng ñ n ng ñi u c a câu nói. 1.3.2 Bi u di n tín hi u ti ng nói Có 3 phương pháp bi u di n tín hi u ti ng nói cơ b n là: - Bi u di n dư i d ng sóng theo th i gian. - Bi u di n trong mi n t n s : ph c a tín hi u ti ng nói. - Bi u di n trong không gian 3 chi u (Sonagram) a) D ng sóng theo th i gian Ph n tín hi u ng v i âm vô thanh là không tu n hoàn, ng u nhiên và có biên ñ hay năng lư ng nh hơn c a nguyên âm (c kho ng 1/3). Ranh gi i gi a các t : là các kho ng l ng (Silent). Ta c n phân bi t rõ các kho ng l ng v i âm vô thanh. 6
- Chương 1: M t s khái ni m cơ b n Hình 1.6 D ng sóng theo th i gian Âm thanh dư i d ng sóng ñư c lưu tr theo ñ nh d ng thông d ng trong máy tính là *.WAV v i các t n s l y m u thư ng g p là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz,…; ñ phân gi i hay còn g i là s bít/m u là 8 ho c 16 bít và s kênh là 1 (Mono) ho c 2 (Stereo). Như v y, d li u lưu tr c a tín hi u âm thanh s khác nhau tuỳ theo máy thu thanh, th i ñi m phát âm hay ngư i phát âm, ñi u này ñư c th hi n rõ nét trong các hình v sau: Âm thanh ñư c thu b ng 2 micro khác nhau Hình 1.7 Âm thanh do hai ng ư i khác nhau phát ra Hình 1.8 7
- Chương 1: M t s khái ni m cơ b n Âm thanh do m t ngư i phát ra hai th i ñi m khác nhau Hình 1.9 b) Ph tín hi u ti ng nói ph n trên ta ñã bi t r ng d i t n s c a tín hi u âm thanh là kho ng t 0Hz ñ n 20KHz, tuy nhiên ph n l n công su t n m trong d i t n s t 0,3KHz ñ n 3,4KHz. Dư i ñây là m t s hình nh c a ph tín hi u ti ng nói: Ph tín hi u ti ng nói và ñư ng bao ph Hình 1.10 Hình 1.11 Ph tín hi u ti ng nói v i s m u khác nhau 8
- Chương 1: M t s khái ni m cơ b n c) Bi u di n tín hi u ti ng nói trong không gian ba chi u (Sonagram) ð bi u di n trong không gian 3 chi u ngư i ta chia tín hi u thành các khung c a s (frame) ng v i các ô quan sát như hình v 1.12. Hình 1.12 Chia tín hi u thành các khung c a s ð dài m t c a s tương ng là 10ms. V y, n u t n s Fs = 16000Hz thì ta có 160 m u trên m t c a s . Các c a s có ño n ch ng l n lên nhau (kho ng 1/2 c a s ). Ti p theo ta v ph c a khung tín hi u trên tr c th ng ñ ng, biên ñ ph bi u di n b ng ñ ñ m, nh t c a màu s c. Sau ñó ta v theo tr c th i gian b ng cách chuy n sang c a s ti p theo. Hình 1.13 Ph c a m t khung c a s Các khung c a s li n nhau và spectrogram tương ng Hình 1.14 Bi u di n tín hi u ti ng nói theo không gian 3 chi u là m t công c r t m nh ñ quan sát và phân tích tín hi u. Ví d : theo phương th c bi u di n này ta có th d dàng phân bi t âm vô thanh và âm h u thanh d a theo các ñ c ñi m sau: +Âm vô thanh: - Năng lư ng t p trung t n s cao. 9
- Chương 1: M t s khái ni m cơ b n - Các t n s phân b khá ñ ng ñ u trong 2 mi n t n s cao và t n s th p. + Âm h u thanh: - Năng lư ng t p không ñ ng ñ u. - Có nh ng v ch c c tr . Hình 1.15 Âm h u thanh Hình 1.16 Âm vô thanh d) Formant và Antiformant Tuy n âm ñư c coi như m t h c c ng hư ng có tác d ng tăng cư ng m t t n s nào ñó. Nh ng t n s ñư c tăng cư ng lên ñư c g i là các Formant. N u khoang mi ng ñư c coi là tuy n âm thì khoang mũi cũng ñư c coi như là m t h c c ng hư ng. Khoang mũi và khoang mi ng ñư c m c song song nên s làm suy gi m m t t n s nào ñó và nh ng t n s b suy gi m này ñư c g i là các AntiFormant. ðư ng bao ph và các Formant Hình 1.17 10
- Chương 1: M t s khái ni m cơ b n D a trên hình 1.17 ta th y có th tính ñ n Formant th 5 (F5) nhưng quan tr ng nh t c n chú ý ñây là các F1 và F2. Cùng m t ngư i phát âm nhưng Formant có th khác nhau. N u ta ch căn c vào giá tr c a Formant ñ ñ c trưng cho âm h u thanh thì chưa chính xác mà ph i d a vào phân b tương ñ i gi a các Formant. Ngoài ra, n u xác ñ nh Formant tr c ti p t ph thì không chính xác mà ph i d a vào ñư ng bao ph , ñây cũng chính là ñáp ng t n s c a tuy n âm. 11
- Chương 2: Bi u di n s c a tín hi u ti ng nói Ch−¬ng 2: Bi u di n s c a tín hi u ti ng nói 2.1. M ñ u Mã hoá là quá trình bi n ñ i các giá tr r i r c thành các mã tương ng. Nhìn chung, vi c l y m u liên quan t i quá trình bi n ñ i các tín hi u liên t c thành các tín hi u r i r c c a trư ng th i gian g i là PAM (ñi u ch biên ñ xung mã). Vi c mã hoá là quá trình lư ng t hoá các giá tr m u này thành các giá tr r i r c c a trư ng biên ñ và sau ñó bi n ñ i chúng thành mã nh phân hay các mã ghép kênh. Khi truy n thông tin mã, nhi u xung ñư c yêu c u cho m i giá tr l y m u và vì th ñ r ng d i t n s c n thi t cho truy n d n ph i ñư c m r ng. ð ng th i xuyên âm, t p âm nhi t, bi n d ng m u, m t xung m u, bi n d ng nén, t p âm mã hoá, t p âm san b ng ñư c sinh ra trong lúc ti n hành l y m u và mã hoá. Vi c gi i mã là quá trình khôi ph c các tín hi u ñã mã hoá thành các tín hi u PAM ñư c lư ng t hoá. Quá trình này ti n hành theo th t ñ o ñúng như quá trình mã hoá. M t khác quá trình lư ng t hoá, nén và mã hoá các tín hi u PAM ñư c g i là quá trình mã hoá và quá trình chuy n ñ i các tín hi u PCM thành D/A, sau ñó, l c chúng sau khi giãn ñ ñưa v ti ng nói ban ñ u g i là quá trình gi i mã. C u hình cơ s c a h th ng truy n d n PCM ñ i v i vi c thay ñ i các tín hi u tương t thành các tín hi u xung mã ñ truy n d n ñư c th hi n hình (pcm1). Trư c tiên các tín hi u ñ u vào ñư c l y m u m t cách tu n t , sau ñó ñư c lư ng t hoá thành các giá tr r i r c trên tr c biên ñ . Các giá tr lư ng t hoá ñ c trưng b i các mã nh phân. Các mã nh phân này ñư c mã hoá thành các d ng mã thích h p tuỳ theo ñ c tính c a ñư ng truy n d n. Thi t b ñ u cu i mã hoá chuy n ñ i các tín hi u thông tin như ti ng nói thành các tín hi u s như PCM. Khi các tín hi u thông tin là các tín hi u tương t , vi c chuy n ñ i A/D ñư c ti n hành và vi c chuy n ñ i D/D ñ c ti n hành trư ng h p c a các tín hi u s . ðôi khi, quá trình nén và mã hoá băng t n r ng ñư c ti n hành b ng cách tri t s dư th a trong quá trình ti n hành chuy n ñ i A/D ho c D/D). Các quy lu t ñ i v i PCM vi phân thích ng 32Kbps có nén giãn như mã hoá d ñoán c a các tín hi u ti ng ñư c ch rõ trong các khuy n ngh G712 c a ITU. Phương pháp ADPCM 32 Kbps ñư c ch p nh n vào tháng 10 năm 1984 ñư c dùng ñ chuy n ñ i các tín hi u PCM 64 Kbps theo lu t A hay lu t µ hi n nay sang các tín hi u ADPCM. Phương pháp 32 Kbps ADPCM có kh năng chuy n m t lư ng ti ng nói l n g p hai l n th m trí còn nhi u hơn phương pháp qui ư c 64 Kbps PCM, ñư c ch p nh n m t cách r ng rãi b i b chuy n mã ho c các thi t b ñ u cu i mã hoá v i hi u qu cao. Hi n nay các nư c tiên ti n trên th gi i ñang ti n hành nghiên c u m t cách ráo ri t v công ngh mã hoá t c ñ không nh ng cho tho i mà c truy n hình. C th s bàn ñ n ti p các ph n ti p theo. 12
- Chương 2: Bi u di n s c a tín hi u ti ng nói C u hình h thông truy n và x lý thông tin cơ b n Hình 2.1 2.2. L y m u tín hi u ti ng nói Nguyên t c cơ b n c a ñi u xung mã là quá trình chuy n ñ i các tín hi u liên t c như ti ng nói thành tín hi u s r i r c và sau ñó tái t o chúng l i thành thông tin ban ñ u. ð ti n hành vi c này, các ph n t thông tin ñư c rút ra t các tín hi u tương t m t cách tu n t . Quá trình này ñư c g i là công vi c l y m u. - Tín hi u ti ng nói m(t). - Xung l y m u s(t). - Ch c danh l y m u. - Tín hi u PAM ñã l y m u. Theo thuy t l y m u c a Shannon, các tín hi u ban ñ u có th ñư c khôi ph c khi ti n hành công vi c l y m u trên các ph n t tín hi u ñư c truy n ñi l n hơn ho c b ng hai l n t n s cao nh t. Các tín hi u xung l y m u là tín hi u d ng sóng chu k, là t ng các tín hi u sóng hài có ñư ng bao hàm s sin ñ i v i các t n s . Vì th , ph tín hi u ti ng nói t o ra sau khi ñã qua quá trình l y m u th hi n hình 2.3. Có hai ki u l y m u tuỳ theo d ng c a ñ nh ñ r ng xung, l y m u t nhiên và l y m u ñ nh b ng ph ng. L y m u t nhiên ñư c ti n hành m t cách lý tư ng khi ph t n s sau khi l y m u trùng v i ph c a các tín hi u ban ñ u. Tuy nhiên trong các h th ng th c t , ñi u này không th có ñư c. Khi ti n hành l y m u ñ nh b ng ph ng, m t s nén g i là hi u ng biên ñ l y m u làm xu t hi n méo. Ngoài ra, n u các ph n t tín hi u ñ u vào vư t quá ñ r ng d i t n 4 KHz, xu t hi n s nén quá n p g p. Vì v y, vi c l c băng r ng các tín hi u ñ u vào ph i ñư c ti n hành trư c khi l y m u. 13
- Chương 2: Bi u di n s c a tín hi u ti ng nói Hình 2.2 Quá trình l y m u Ph tín hi u trư c và sau l y m u Hình 2.3 2.3. Lư ng t hóa PAM v i biên ñ tương t chuy n ñ i thành các tín hi u s là các tín hi u r i r c sau khi ñi qua quá trình lư ng t hoá. Khi ch th biên ñ c a ti ng nói liên t c v i s lư ng h n ch , nó ñư c ñ c trưng v i d ng sóng x p x c a bư c. T p âm lư ng t NQ = Q ư S t n t i gi a d ng sóng ban ñ u (S) và d ng sóng ñã lư ng t (Q); n u bư c nh t p âm lư ng t ñư c gi m ñi nhưng s lư ng bư c ñ u c n thi t cho lư ng t toàn b d i tín hi u ñ u vào tr nên r ng hơn. Vì th s lư ng các dãy s mã hoá tăng lên. T p âm t o ra khi biên ñ c a các tín hi u ñ u vào vư t quá dãy lư ng t g i là t p âm quá t i hay t p âm bão hoà. S/NQ ñư c s d ng như m t ñơn v ñ ñánh giá nh ng ưu ñi m và như c ñi m c a phương pháp PCM. Khi s lư ng các dãy s mã hoá trên m i m u tăng lên 1 bit, S/NQ ñư c m r ng thêm 6 dB. 14
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng xử lý tiếng nói part 1
6 p | 262 | 70
-
Xử lý ảnh số - Nhận dạng và nội suy part 1
7 p | 167 | 35
-
Bài giảng xử lý tiếng nói part 7
6 p | 113 | 33
-
Bài giảng xử lý tiếng nói part 8
6 p | 169 | 30
-
Bài giảng xử lý tiếng nói part 9
6 p | 101 | 27
-
Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí
97 p | 133 | 18
-
Xã hội dân sự, Trung Quốc và Việt Nam
21 p | 118 | 13
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn