Bài giảng môn học : xử lý tiếng nói P2

Chia sẻ: Khinh Kha Kha | Ngày: | Loại File: PDF | Số trang:25

0
131
lượt xem
74
download

Bài giảng môn học : xử lý tiếng nói P2

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ngữ âm học (Acoustic Phonetics): Nhiều ngôn ngữ, bao gồm cả tiếng Anh Mỹ, có thể mô tả theo tập hợp các âm khác nhau gọi là các âm vị (phoneme). Tiếng Anh Mỹ có khoảng 42 âm vị, bao gồm các nguyên âm (vowel), nguyên âm đôi (diphthong), bán nguyên âm (semivowel) và phụ âm (consonant). Có nhiều cách để nghiên cứu ngữ âm học; chẳng hạn, các nhà ngôn ngữ nghiên cứu các đặc trƣng của âm vị. Với mục đích của chúng ta, nghiên cứu xử lý tiếng nói, chỉ cần xét đặc trƣng âm học của...

Chủ đề:
Lưu

Nội dung Text: Bài giảng môn học : xử lý tiếng nói P2

  1. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI sách này, mặc dù đƣợc viết để hƣớng dẫn "đọc" các ảnh phổ, cung cấp nhập môn tuyệt vời về ngữ âm học. 2.2.Ngữ âm học (Acoustic Phonetics): Nhiều ngôn ngữ, bao gồm cả tiếng Anh Mỹ, có thể mô tả theo tập hợp các âm khác nhau gọi là các âm vị (phoneme). Tiếng Anh Mỹ có khoảng 42 âm vị, bao gồm các nguyên âm (vowel), nguyên âm đôi (diphthong), bán nguyên âm (semivowel) và phụ âm (consonant). Có nhiều cách để nghiên cứu ngữ âm học; chẳng hạn, các nhà ngôn ngữ nghiên cứu các đặc trƣng của âm vị. Với mục đích của chúng ta, nghiên cứu xử lý tiếng nói, chỉ cần xét đặc trƣng âm học của các âm vị, bao gồm vị trí và cách phát âm, các dạng sóng âm và các đặc trƣng về phổ của các âm này. Bảng 3.1 nêu cách phân các âm tiếng Anh Mỹ ra các lớp âm vị. Bốn lớp lớn của các âm là nguyên âm (NA), nguyên âm đôi, bán nguyên âm và phụ âm (PA). Mỗi lớp lại đƣợc chia thành các lớp con theo cách thức, vị trí phát âm của âm trong bộ máy phát âm. Mỗi âm vị của bảng 3.1 có thể phân ra thành âm xát (continuant) hoặc âm không xát (noncontinuant). Các âm xát đƣợc tạo ra bởi hình dạng bộ máy phát âm cố định (không biến đổi theo thời gian) đƣợc tác động bởi nguồn hơi thích hợp. Lớp các âm xát bao gồm nguyên âm, âm mũi (nasal) và phụ âm rung (fricative). Các âm còn lại (nguyên âm đôi (diphthong), bán nguyên âm (semivowel), dừng (stop) và tắc xát (affricate)) đƣợc tạo ra bằng cách thay đổi hình dạng bộ máy phát âm và do vậy đƣợc phân lớp là không xát. 2.2a. Nguyên âm. (NA) đƣợc tạo ra bằng cách kích động bộ máy phát âm cố định với các xung gần tuần hoàn của không khí do các dây thanh âm rung động. Theo Từ điển Tiếng Việt, nguyên âm là âm mà khi phát âm, luồng hơi từ phổi ra không gặp trở ngại đáng kể. Ví dụ của nguyên âm tiếng Việt là a, e, i, o, u, y; phụ âm là âm mà khi phát âm, luồng hơi từ phổi ra đi lên qua thanh hầu, gặp phải trở ngại đáng kể. Ví dụ của phụ âm tiếng Việt là b, c, d, đ, g, ... . Ngƣời ta thấy diện tích mặt cắt ngang thay đổi dọc theo bộ máy phát âm xác định các tăng cƣờng và do đó âm đƣợc tạo ra. Sự phụ thuộc của diện tích mặt cắt ngang vào khoảng cách dọc theo bộ máy phát âm đƣợc gọi là hàm diện tích (area function) của bộ máy phát âm. Hàm diện tích của một nguyên âm nào đó đầu tiên đƣợc xác định bởi vị trí của lƣỡi, tuy nhiên các vị trí của hàm, môi và vòm miệng mềm cũng ảnh hƣởng đến kết quả của âm. Ví dụ để tạo ra âm a: trong từ "father" fa:ðә (cha), Bộ máy phát âm mở ở phía trƣớc và đôi khi thu hẹp lại ở phía sau do thân lƣỡi. Trái lại, nguyên âm i trong từ "eve" iv (buổi chiều) đƣợc tạo ra bằng cách nâng lƣỡi lên vòm miệng, do vậy tạo ra khe hẹp ở phía trƣớc và tăng khe hở ở cuối bộ máy phát âm. Nhƣ vậy, mỗi nguyên âm có thể đặc trƣng bởi cấu hình bộ máy phát âm (hàm diện tích) dùng để phát ra nó. Đặc trƣng này không chính xác lắm vì sự khác nhau bên trong của bộ máy phát âm của những ngƣời nói khác nhau. Một biểu diễn khác đƣợc xây dựng trên tần số cộng hưởng của bộ máy phát âm. Việc này cũng vƣớng mắc phải sự đa dạng của bộ máy phát âm của ngƣời nói. Peterson và Barney (J. Acoust. Soc. Am. Vol24 No2, 1952) đã đo tần số tăng cƣờng (dùng đồ thị phổ của âm) của các nguyên âm. Ngƣời ta đo các dạng sóng âm và ảnh phổ (spectrogram) cho mỗi nguyên âm tiếng Anh (ở hình 3.6 gồm i , i: , e , ổ , ә , a , Ɔ , u , u: , Ə: ). Các ảnh phổ thể hiện CAO QUYẾT THẮNG Trang 26
  2. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI rõ ràng mẫu các cộng hƣởng khác nhau cho mỗi nguyên âm. Các dạng sóng âm, bên cạnh việc chỉ ra đặc trƣng tuần hoàn của các âm hữu thanh, còn hiển thị các tính chất phổ thô (gros) của các "chu kỳ" (period) đơn. Chẳng hạn, nguyên âm i thể hiện dao động tắt dần với tần số thấp mà ở trên nó có một dao động tần số cao đè lên. Điều này phù hợp với tăng cƣờng thứ nhất thấp và hai tăng cƣờng sau cao. Trái lại, nguyên âm u thể hiện năng lƣợng tần số cao tƣơng đối ít vì là kết quả của tần số tăng cƣờng thứ nhất và thứ hai thấp. 2.2b. Các nguyên âm đôi: Mặc dù còn có một chút không rõ ràng trong việc phân biệt âm vị nào là nguyên âm đôi, một định nghĩa có thể chấp nhận đƣợc của nguyên âm đôi là: "phát âm đơn âm lướt bắt đầu ở hoặc gần ở vị trí phát âm cho một nguyên âm và di chuyển đến hoặc về phía vị trí phát âm cho nguyên âm kia." Theo định nghĩa này có 6 nguyên âm đôi trong tiếng Anh Mỹ, bao gồm: ei: (ở bay), ou: (ở boat), ai: (ở buy), au: (ở how), i: (ở boy) và ju (ở you). Các nguyên âm đôi đƣợc tạo ra bằng cách thay đổi bộ máy phát âm mềm mại giữa các cấu hình nguyên âm thích hợp với nguyên âm đôi. Dựa trên điều này và các số đo khác, các nguyên âm đôi có thể đƣợc đặc trƣng bởi hàm diện tích của bộ máy phát âm theo thời gian thay đổi giữa hai nguyên âm cấu thành. 2.2c. Các bán nguyên âm: Nhóm các âm gồm w , l , r và y khá khó mô tả đặc điểm. Các âm này gọi là bán nguyên âm vì bản chất khá giống nguyên âm của chúng. Nói chung, chúng đƣợc đặc trƣng bởi việc thay đổi chút ít ở hàm diện tích của bộ máy phát âm giữa các âm vị liền kề. Nhƣ vậy, các đặc trƣng âm học của các âm này bị tác động lớn của ngữ cảnh mà chúng đƣợc tạo ra. Chúng đƣợc mô tả tốt nhất nhƣ là các âm giống nguyên âm, chuyển tiếp và do đó, về bản chất, tƣơng tự nhƣ các nguyên âm và nguyên âm đôi. 2.2d. Các âm mũi: Các âm mũi /m/, /n/ và / / đƣợc tạo ra do kích thích thanh môn và bộ máy phát âm thắt lại hoàn toàn tại một điểm ở đƣờng miệng. Vòm miệng mềm hạ xuống làm không khí đi qua đƣờng mũi với âm đƣợc phát xạ tại lỗ mũi. Khoang miệng, mặc dù hẹp lại ở phía trƣớc, vẫn nối âm với cổ họng. Nhƣ vậy, mồm dùng làm khoang cộng hƣởng, bẫy năng lƣợng âm ở các tần số tự nhiên xác định. Theo chừng mực âm phát xạ đƣợc chú ý đến, các tần số cộng hƣởng của khoang miệng xuất hiện nhƣ các phản cộng hưởng (anti-resonance) hay là các không điểm của việc truyền âm (zero of sound transmission) (theo J. L. Flanagan [2]). Hơn nữa, các phụ âm mũi và các nguyên âm phát âm theo giọng mũi (. một số nguyên âm đi trƣớc hoặc đi sau phụ âm mũi) đƣợc đặc trƣng bởi các cộng hƣởng rộng hơn về phổ, hoặc là bị tắt dần nhanh hơn các cộng hƣởng cho các nguyên âm. Việc mở rộng của các cộng hƣởng mũi là do mặt trong của BMmũi bị quấn xoắn lại, nhƣ vậy khoang mũi có tỷ lệ bề mặt tƣơng đối rộng so với diện tích mặt cắt của nó. Do vậy, việc dẫn nhiệt và các mất mát nhớt lớn hơn bình thƣờng. Ba phụ âm mũi đƣợc phân biệt do vị trí thắt lại hoàn toàn dọc theo bộ máy miệng đƣợc thực hiện của chúng. Với /m/ thì việc thắt lại ở môi; /n/ thì ở ngay sau răng; còn / / thì ở ngay trƣớc vòm miệng mềm. Rõ ràng là các dạng sóng của /m/ và /n/ nhìn rất giống nhau. Các ảnh phổ cho thấy việc tập trung của năng lƣợng tần số thấp với phạm vi trung bình của các tần số chứa các đỉnh lồi lên. Điều này là do tổ hợp riêng của các cộng hƣởng và các phản cộng hƣởng là kết quả của việc ghép đôi bộ máy mũi và bộ máy CAO QUYẾT THẮNG Trang 27
  3. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI miệng (xem O. Fujimura, Analysis of Nasal Consonants (Phân tích các phụ âm mũi), J. Acoust. Soc. Am., Vol. 34, No12, pp1865-1875, December 1962). 2.2e. Các phụ âm xát vô thanh (Unvoiced Fricatives) Các phụ âm xát vô thanh /f/, / /, /s/ và /sh/ đƣợc tạo ra khi kích thích bộ máy phát âm bằng luồng không khí đều đặn, luồng này trở nên hỗn loạn (turbulent) trong vùng hẹp của bộ máy phát âm. Vị trí của vùng hẹp xác định phụ âm xát đƣợc tạo ra. Với âm /f/ vùng hẹp ở gần môi; âm / / vùng hẹp ở gần răng; âm /s/ vùng hẹp ở gần giữa bộ máy miệng; còn âm /sh/ thì vùng hẹp ở gần cuối của bộ máy miệng. Nhƣ vậy, hệ thống để tạo ra các phụ âm xát vô thanh có nguồn của tiếng ồn ở vùng hẹp, vùng này chia bộ máy phát âm thành 2 khu vực. Âm đƣợc phát ra từ môi,từ khu vực trƣớc. Khu vực sau, giống nhƣ trƣờng hợp các phụ âm mũi, dùng để bẫy năng lƣợng và do đó đƣa ra các phản cộng hƣởng vào đầu ra của phụ âm. Bản chất không tuần hoàn của các kích thích phụ âm xát thấy rõ ở dạng sóng. Các sai khác về phổ trong các phụ âm xát dễ dàng thấy đƣợc khi so sánh các ảnh phổ. 2.2f. Các phụ âm xát hữu thanh (Voiced Fricatives) Các phụ âm xát hữu thanh /v/, /th/, /z/ và /zh/ là các bản sao (counterpart) của các phụ âm xát vô thanh /f/, / /, /s/ và /sh/ tƣơng ứng, theo nghĩa là vị trí của vùng hẹp cho mỗi âm vị tƣơng ứng là đồng nhất. Tuy nhiên, các phụ âm xát hữu thanh khác biệt rõ ràng với các phụ âm xát vô thanh ở chỗ là 2 nguồn kích thích có liên quan với nhau khi tạo ra chúng. Với các phụ âm xát hữu thanh, các dây thanh âm rung động và nhƣ vậy, một nguồn kích thích là ở thanh môn. Tuy nhiên, vì bộ máy phát âm bị thu hẹp ở một vị trí nào đó phía trƣớc thanh môn nên luồng khí bị xáo trộn ở gần chỗ thu hẹp. Nhƣ vậy, các phổ của các phụ âm xát hữu thanh có thể hy vọng là có 2 thành phần phân biệt. Sự tƣơng tự của phụ âm xát vô thanh /f/ với phụ âm xát hữu thanh /v/ có thể thấy rõ ràng bằng cách so sánh các ảnh phổ. 2.2g. Các phụ âm tắc hữu thanh (Voiced Stops): Các phụ âm tắc hữu thanh /b/, /d/ và /g/ là các âm ngắn (transient, tạm thời), không xát (noncontinuant), đƣợc phát âm bằng cách tạo ra áp lực sau khi đóng hoàn toàn ở một chỗ nào đó trong khoang miệng và bất ngờ giải phóng áp lực ấy. Với âm /b/ đóng tại môi; âm /d/ đóng sau răng; còn âm /g/ đóng ở gần vòm miệng mềm. Trong khoảng thời gian đóng hoàn toàn khoang miệng, không có một âm nào phát xạ từ môi cả. Tuy nhiên, thƣờng có một lƣợng nhỏ năng lƣợng tần số thấp phát xạ qua các vách ngăn của họng (đôi khi gọi là thanh âm (voice bar)). Điều này xảy ra khi các dây thanh âm (vocal cord) có thể rung động dù bộ máy phát âm bị đóng ở một chỗ nào đó. Do các phụ âm tắc có bản chất động nên các tính chất của chúng bị ảnh hƣởng lớn bởi nguyên âm đi liền sau (xem P.C. Delattre, A.M. Liberman, and F.S. Cooper, A coustic Loci and Transitional Cues for Consonant (Vị trí âm học và các dấu hiệu chuyển tiếp cho Phụ âm), J. Acoust. Soc. Am., Vol. 27, ¹ 4, pp. 769-773, July 1955). Nhƣ vậy, các dạng sóng của các phụ âm tắc cung cấp ít thông tin về chúng. Dạng sóng của /b/ cho thấy các nét khác biệt nhỏ trừ ra kích thích hữu thanh và thiếu năng lƣợng tần số cao. 2.2h. Các phụ âm tắc vô thanh (Unvoiced Stops): Các phụ âm tắc vô thanh /p/, /t/ và /k/ giống nhƣ các phụ âm hữu thanh bản sao của chúng /b/, /d/ và /g/, chỉ trừ ra một ngoại lệ lớn. Trong lúc BMmiệng đóng hoàn toàn, để áp lực tăng lên thì các dây thanh âm không rung. Nhƣ vậy, sau thời gian đóng kín, khi áp suất không khí đƣợc thoát ra, có một khoảng ngắn ma sát (do sự náo động bất ngờ của không khí thoát ra), tiếp sau là một CAO QUYẾT THẮNG Trang 28
  4. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI khoảng bật hơi (luồng không khí đều đặn từ thanh môn kích thích các cộng hƣởng của bộ máy phát âm) trƣớc khi kích thích hữu thanh bắt đầu. Xét hình vẽ dạng sóng và ảnh phổ của các phụ âm tắc vô thanh /p/ và /t/. "Lỗ hổng tắc" (Stop gap), hoặc là khoảng thời gian trong đó áp lực tạo ra, đƣợc nhìn thấy rõ ràng. Cũng có thể thấy chiều dài và tần số của ồn cọ xát (frication noise) và sự bật hơi (aspiration) thay đổi lớn ở phụ âm tắc. 2.2i. Các phụ âm tắc xát và /h/ (affricate): Các phụ âm còn lại của tiếng Anh Mỹ là các phụ âm tắc xát /t∫/, /j/ và âm /h/. phụ âm tắc xát vô thanh /t∫/ là âm động, có thể mô hình hoá nhƣ dán phụ âm tắc /t/ vào phụ âm xát /∫/. Phụ âm tắc xát /j/ có thể mô hình hoá nhƣ dán phụ âm tắc /d/ vào phụ âm xát /zh/. Cuối cùng, âm /h/ đƣợc tạo ra bằng cách kích thích bộ máy phát âm bằng luồng không khí đều đặn,không rung các dây thanh âm mà tạo ra luồng không khí náo động ở thanh môn (đó cũng là kiểu kích thích để nói thầm). CAO QUYẾT THẮNG Trang 29
  5. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI § 3. LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI Phần trên đã xét sơ lƣợc mô tả định tính của các âm tiếng nói và cách tạo ra chúng. ở phần này ta sẽ xét các biểu diễn toán học của quá trình tạo. Các biểu diễn toán học này là cơ sở để phân tích (analysis) và tổng hợp (synthesis) . 3.1. Sự truyền âm (Sound Propagation): Âm gần nhƣ đồng nghĩa với rung động (vibration). Sóng âm đƣợc tạo ra do rung động và đƣợc lan truyền trong không khí hoặc các môi trƣờng khác bằng các dao động của các hạt của môi trƣờng. Do vậy, các định luật vật lý là cơ sở để mô tả việc tạo ra và truyền đi của âm thanh trong hệ thống phát âm. Đặc biệt, các định luật cơ bản về bảo toàn khối lƣợng, bảo toàn động lƣợng và bảo toàn năng lƣợng cùng với các luật nhiệt động học và cơ chất lỏng, đều đƣợc áp dụng cho dòng chất lỏng (không khí) ít dẻo, chịu nén là môi trƣờng để truyền âm trong. Dùng các nguyên lý vật lý này, có thể thu đƣợc một tập hợp các phƣơng trình vi phân đạo hàm riêng mô tả chuyển động của không khí trong hệ thống phát âm. Việc phát biểu và giải các phƣơng trình này là cực kỳ khó, trừ ra khi đặt các giả thiết đơn giản về bộ máy phát âm và về việc mất năng lƣợng trong hệ thống âm. Lý thuyết âm chi tiết phải gồm những phần sau: 1. Sự thay đổi theo thời gian của hình dạng bộ máy phát âm. 2. Các tổn hao do dẫn nhiệt và ma sát nhớt ở các vách ngăn của bộ máy phát âm. 3. Tính mềm của các vách ngăn của bộ máy phát âm. 4. Các bức xạ của âm tại môi. 5. Ghép nối âm mũi (Nasal coupling). 6. Kích thích âm trong bộ máy phát âm. Lý thuyết âm học chi tiết, đầy đủ, kết hợp chặt chẽ tất cả các phần trên vƣợt quá phạm vi của chƣơng này, và dĩ nhiên, còn chƣa có thể có đƣợc. Chúng ta đành phải hài lòng với việc xét các nhân tố này, cung cấp các tài liệu chi tiết khi có thể, và thảo luận định tính khi chƣa có các tài liệu thích hợp. Bộ máy phát âm đƣợc mô phỏng nhƣ một ống không đều, có diện tích mặt cắt ngang thay đổi theo thời gian. Cho các tần số tƣơng ứng với những bƣớc sóng dài so với những kích thƣớc của bộ máy phát âm (nhỏ hơn khoảng 4000 Hz), có thể giả thiết hợp lý là việc truyền sóng phẳng dọc theo chiều dài ống. Một giả thiết làm đơn giản hoá hơn nữa là không có mất mát do nhớt hoặc dẫn nhiệt cả trong khối chất lỏng hoặc ở thanhf ống. Với các giả thiết này và các định luật bảo toàn khối lƣợng, động lƣợng và năng lƣợng, Portnoff đã chứng tỏ, trong luận án Thạc sỹ (năm 1973) của ông, là các sóng âm trong ống thoả mãn cặp phƣơng trình vi phân đạo hàm riêng sau: p (u / A) (1a) x t u 1 (pA) A (1b) x c2 t t trong đó p = p(x,t) là biến đổi của áp lực âm lên ống tại vị trí x và thời gian t. u = u(x,t) là biến đổi của luồng vận tốc âm tại vị trí x và thời gian t. CAO QUYẾT THẮNG Trang 30
  6. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI là mật độ không khí trong ống; c là vận tốc âm. A = A(x,t) là "hàm diện tích" của ống;giá trị của diện tích mặt cắt vuông góc với trục ống, phụ thuộc vào vị trí x và thời gian t. Ngƣời ta chƣa có lời giải dạng giải tích của các phƣơng trình (1), ngoại trừ các trƣờng hợp có cấu hình đơn giản. Tuy nhiên có thể có các lời giải bằng số. Lời giải đầy đủ của hệ phƣơng trình vi phân yêu cầu phải có p và u tại mọi giá trị x và t trong miền giới hạn bởi thanh môn và môi. Để có lời giải phải cho các điều kiện biên tại mỗi đầu của ống. Điều kiện biên tại môi phải tính đến hiệu suất truyền âm. Tại thanh môn (hoặc một điểm nào đó ở giữa) điều kiện biên chịu tác động của kích thích tự nhiên. Bên cạnh các điều kiện biên, còn phải biết hàm diện tích A(x,t). Với các phụ âm xát có thể giả sử A(x,t) không thay đổi theo thời gian, còn với các phụ âm không xát thì không phải nhƣ vậy. Đo đạc chi tiết A(x,t) là cực kỳ khó ngay cả với các phụ âm xát. Một cách đo dùng X-quang đã đƣợc thực hiện vào năm1969 (xem J.S. Perkell, Phisology of Speech Production: Results and Implications of a Quantitative Cineradiographic Study, (Sinh lý học của việc tạo ra tiếng nói: Các kết quả và liên quan của nghiên cứu chụp phim X-quang định lƣợng), MIT Press, Cambridge, Mass., 1969), nhƣng cách đo này chỉ thực hiện đƣợc ở một phạm vi hạn chế. Một cách tiếp cận khác là coi bộ máy phát âm nhƣ hình thành từ các dụng cụ đo âm, Sondhi và Gopinath đã mô tả một cách tiếp cận có kích thích bên ngoài vào bộ máy phát âm (M.M. Sondhi and B. Gopinath, Determination of Vocal- Tract Shape from Impulse Response at the Lips, (Xác định sự hình thành của bộ máy phát âm từ đáp ứng xung tại môi), J. Acoust. Soc. Am., Vol. 49, ¹ 6 (Part 2), pp. 1847-1873, June 1971). Cả hai cách tiếp cận này cho thấy tính chất động của việc tạo ra tiếng nói, tuy nhiên chúng không có ứng dụng trực tiếp vào việc biểu diễn các tín hiệu tiếng nói (cho mục đích truyền tiếng nói). Atal đã đƣa ra các nghiên cứu để nhận đƣợc A(x,t) trực tiếp từ tín hiệu tiếng nói trong các điều kiện nói chuẩn (B.S. Atal, Towards Determining Articulator Positions from the Speech Signal, (Về việc xác định những vị trí phát âm rõ từ tín hiệu tiếng nói), Proc. Speech Comm. Seminar, Stockholm, Sweden, pp. 1-9, 1974). Năm 1973 M.R. Portnoff đã đƣa ra lời giải phƣơng trình (1) theo A(x,t). Tuy nhiên cũng không cần phải giải các phƣơng trình theo các điều kiện chung nhất để nhận đƣợc bản chất bên trong của tín hiệu tiếng nói. Nhiều cách giải gần đúng và đơn giản đã đƣợc đƣa ra để thu đƣợc các lời giải chấp nhận đƣợc. 3.2. Ống mất ít đều (Uniform Lossless Tube): Bằng cách xét mô hình rất đơn giản, trong đó hàm diện tích của bộ máy phát âm đƣợc giả thiết là không đổi theo cả x và t (mặt cắt đều và thời gian không đổi), ta có thể có đƣợc hiểu biết sâu về bản chất của tín hiệu tiếng nói. Trƣớc hết, ta sẽ kiểm tra mô hình này, sau đó quay lại kiểm tra các mô hình hiện thực hơn. Nguồn lý tƣởng đƣợc biểu diễn bằng pittông có thể chuyển động theo cách mong muốn, độc lập với việc thay đổi áp lực trong ống. Giả thiết thêm nữa là ở đầu mở cuối ống không có tác động của áp lực không khí mà chỉ có tác động của tốc độ âm. Các giả thiết này, rõ ràng là để đơn giản đi rất nhiều, khó có thể đạt đƣợc trong thực tế; tuy nhiên, ta phải xét ví dụ nhƣ vậy do vì muốn tiếp cận cơ bản đến việc phân tích và các nét căn bản của lời giải thu đƣợc có rất nhiều điểm chung với các mô hình thực tế hơn. Sau đây ta sẽ chửng tỏ là các mô hình tổng quát hơn có thể xây dựng bằng cách ghép các ống đều. CAO QUYẾT THẮNG Trang 31
  7. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI Nếu A(x,t) = A là hằng số thì các phƣơng trình vi phân DHR (1) có dạng: p u (2a) x A t u A p (2b) x c2 t Lời giải của các phƣơng trình (2) có dạng (có thể giải hoặc thay trực tiếp vào các phƣơng trình để kiểm tra): u(x,t) = u + (t - x/c) - u - (t + x/c) (3a) c p(x,t) = [ u + (t - x/c) + u - (t + x/c)] (3b) A Ở các phƣơng trình (3), các hàm u + (t - x/c) và u - (t + x/c) có thể hiểu là các sóng chạy tƣơng ứng theo các hƣớng dƣơng và âm. Quan hệ giữa các sóng chạy (traveling wave) này đƣợc xác định bởi các điều kiện biên. Các biểu diễn miền tần số của các hệ thống tuyến tính theo các đƣờng truyền và các vòng tròn truyền là rất hữu ích. Tƣơng tự, ta có thể có các biểu diễn nhƣ vậy cho ống mất ít đều. Có thể nhận đƣợc biểu diễn miền tần số của mô hình này bằng cách giả thiết điều kiện biên tại x = 0 là u(0,t) = uG(t) = UG( )e j t. Điều này có nghĩa là ống đƣợc kích thích bởi biến đổi luỹ thừa phức của tốc độ âm có tần số và biên độ phức UG( ). Do các phƣơng trình (2) tuyến tính, lời giải u + (t - x/c) và u - (t + x/c) phải có dạng: u + (t - x/c) = K + ej (t - x/c) u - (t + x/c) = K - ej (t + x/c) Thế các phƣơng trình này vào (3.3) và dùng điều kiện biên p(l,t) = 0 tại môi của ống và điều kiện biên tại thanh âm, ta có thể tìm các hằng số K + và K -. Lời giải là: sin[ (t x) / c] p(x,t) = j Z0 U G ( )e j t (4a) cos[  / c] cos[ ( x) / c] u(x,t) = U G ( )e j t (4b) cos[  / c] trong đó c Z0 = (4c) A đƣợc gọi là trở kháng âm học đặc trưng (characteristic acoustic impedance) của ống. Ta sẽ dùng một cách viết khác để tránh lời giải viết bằng các sóng chạy xuôi và chạy ngƣợc là biểu diễn trực tiếp p(x,t) và u(x,t) dƣới dạng kích thích luỹ thừa phức (complex exponential excitation): p(x,t) = P(x, ) ej t u(x,t) = U(x, ) ej t (Do vậy ta sẽ ký hiệu các biến trong miền thời gian bằng chữ thƣờng, nhƣ u(x,t), còn các biểu diễn trong miền tần số tƣơng ứng bằng chữ hoa, nhƣ U(x, )). Thay các lời giải này vào phƣơng trình (1) ta có các phƣơng trình vi phân thƣờng liên hệ các biên độ phức CAO QUYẾT THẮNG Trang 32
  8. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI dP - =ZU (5a) dx dU - =YP (5a) dx trong đó Z= j (5c) A có thể gọi là trở kháng âm học (acoustic impedance) theo đơn vị dài và A Y= j c2 là độ dẫn tạp âm (acoustic admittance) theo đơn vị dài. Các Phƣơng trình vi phân (5) có các lời giải dạng P(x, ) = A e x + B e - x U(x, ) = C e x + D e - x trong đó ZY j /c Các hệ số chƣa biết có thể xác định đƣợc bằng cách dùng các điều kiện biên P(ℓ, ) = 0 U(0, ) = UG( ) Dĩ nhiên kết quả cũng là các phƣơng trình (4). Các phƣơng trình (4) biểu diễn quan hệ giữa nguồn vận tốc âm hình sin, áp lực và vận tốc âm tại mọi điểm của ống. Đặc biệt, nếu ta xét quan hệ giữa vận tốc âm tại môi và nguồn vận tốc âm thì từ phƣơng trình (4b) ta có: 1 u(ℓ,t) = U(ℓ, )e j t = U G ( )e j t cos(  / c) Tỉ số U(, ) 1 = Va(j ) = UG ( ) cos(  / c) là đáp ứng tần số (frequency response) liên kết các tốc độ âm vào và ra. Thay bằng s/j ta đƣợc biến đổi Laplace hay hàm hệ thống 2e s / c Va(s) = 1 e s2  / c Lƣu ý rằng Va(s) có số vô hạn các cực đặt tại các điểm cách đều trên trục j tại (2n 1) c sn = j n = 0, 1, 2, ... 2 Các vị trí cực này vẽ ở hình 3.15b. Các cực của hàm Hệ thống của Hệ thống tuyến tính bất biến theo thời gian là các tần số riêng (tần số tự nhiên) của hệ thống. Các cực cũng tƣơng ứng với các tần số cộng hưởng (resonnance frequency) của hệ thống. Các tần số cộng hƣởng còn đƣợc gọi là các tần số tăng cường (formant frequency) khi xét việc tạo ra tiếng nói. Ta sẽ thấy là các hiệu ứng cộng hưởng (resonance effect) sẽ đƣợc xét theo độ chính xác của tuyến âm. CAO QUYẾT THẮNG Trang 33
  9. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI Cần nhắc lại ở đây là hàm đáp ứng tần số (frequency response function) V a(j ) cho phép ta xác định đáp ứng của hệ thống không chỉ cho các cái vào hình sin mà còn cho các cái vào bất kỳ bằng việc sử dụng giải tích Fourier. Có thể suy luận tổng quát hơn rằng Va(j ) là tỷ số của biến đổi Fourier (FT, Fourier Transform) của tốc độ âm tại môi (cái ra) với FT của tốc độ âm tại thanh môn (cái vào hoặc nguồn). đáp ứng tần số là đặc trƣng thuận tiện của mô hình cho Hệ thống âm. Nhƣ vậy, ta đã xác định đáp ứng tần số của mô hình âm học tạo tiếng nói đơn giản nhất có thể có đƣợc, bây giờ ta có thể xét các mô hình sát với thực tế hơn. 3.3. Các hiệu ứng mất mát (Effects of losses) trong bộ máy phát âm Các phƣơng trình chuyển động cho việc truyền âm trong bộ máy phát âm đã cho ở trên đƣợc thiết lập theo giả thiết là không có năng lƣợng bị mất trong ống. Trong thực tế, năng lƣợng bị mất do ma sát nhớt (viscous friction) giữa không khí và thành ống, do sự dẫn nhiệt qua thành ống và do rung động của thành ống. Để tính đến các hiệu ứng này, ta phải trở lại các luật vật lý cơ bản và đƣa ra các phƣơng trình chuyển động mới. Việc này rất khó do sự phụ thuộc tần số của các mất mát. Ngƣời ta đã có cách tiếp cận chung để mô phỏng biểu diễn miền tần số của các phƣơng trình chuyển động ([2]). Sau đây ta sẽ xét qua các kết quả của cách tiếp cận chung này. Trƣớc hết, ta xét các hiệu ứng rung động (effect of the vibration) của thành bộ máy phát âm. Các thay đổi áp lực không khí bên trong bộ máy phát âm làm cho các thành ống rung động. Nhƣ vậy, nếu thành ống đàn hồi (elastic) thì diện tích mặt cắt của ống sẽ thay đổi phụ thuộc vào áp lực trong ống. Giả sử ống phản ứng "địa phƣơng" thì diện tích A(x,t) là hàm của p(x,t). Do sự biến đổi của áp lực rất nhỏ thì dao động của diện tích mặt cắt có thể coi là thay đổi nhỏ của diện tích "định sẵn" ("norminal" area),có thể giả thiết rằng A(x,t) = A0(x,t) + A(x,t) (6) trong đó A0(x,t) là diện tích định sẵn, còn A(x,t) là thay đổi nhỏ. Điều này đƣợc minh hoạ ở hình 3.16. Do khối lượng (mass) và đàn hồi (elasticity) của thành bộ máy phát âm nên quan hệ giữa thay đổi nhỏ A(x,t) và áp lực p(x,t) có thể mô hình hoá bằng Phƣơng trìnhVP d 2 ( A) d( A) mw 2 + bw + kw( A) = p(x,t) (7) dt dt trong đó mw(x) là khối lượng theo độ dài (mass/unit length); bw(x) là độ ẩm theo độ dài (damping/unit length); kw(x) là độ cứng theo độ dài (stiffness/unit length) của thành bộ máy phát âm. Hình 3.16. Minh hoạ các hiệu ứng rung động của thành bộ máy phát âm. Bỏ qua số hạng bậc hai ở các đại lƣợng u/A và pA ta có thể viết các phƣơng trình (1) dƣới dạng p (u / A 0 ) - = (8a) x t u 1 (pA 0 ) A0 ( A) - = + + (8b) x c2 t t t CAO QUYẾT THẮNG Trang 34
  10. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI Nhƣ vậy, sự truyền âm trong ống thành mềm nhƣ bộ máy phát âm đƣợc biểu diễn bằng tập hợp các phƣơng trình (6), (7), (8). Để kiểm tra hiệu ứng này chi tiết hơn ta lấy biểu diễn miền tần số nhƣ ở trên, xét ống bất biến theo thời gian đƣợc kích thích bởi nguồn vận tốc âm phức,điều kiện biên ở thanh môn là u(0,t) = UG( )e i t Do các Phƣơng trình vi phân (7), (8) ở trƣờng hợp này là tuyến tính và không phụ thuộc thời gian nên tốc độ và áp lực âm cũng có dạng p(x,t) = P(x, )e j t (9a) j t u(x,t) = U(x, )e (9b) Thay (9) vào (7) và (8) ta đƣợc P - = ZU (10a) x U - = YP + Y P (10b) x trong đó Z(x, )=j (11a) A0 ( x ) A0 ( x) Y(x, )=j (11b) c2 và 1 Y (x, )= (11c) k ( x) j mw ( x) bw ( x) w j Chú ý rằng các phƣơng trình (10) đồng nhất với các phƣơng trình (5) trừ ra việc cộng với số hạng hầp thụ của thành Y và ở đây trở kháng âm học Z và độ dẫn nạp Y là các hàm của biến x. Nếu ta xét ống đều thì A 0(x) là hằng số và các phƣơng trình (5) đồng nhất với các phƣơng trình (11). Dùng các ƣớc lƣợng nhận đƣợc từ việc đo các vật thể mịn màng ([2]), ngƣời ta xác định các tham số ở (11c) và các Phƣơng trình vi phân (10) đƣợc giải với điều kiện biên tại môi (xem M. R. Portnoff, MS Thesis MIT, Cambridge, Mass., 1973). Tỉ số U ( , ) Va(j )= (11) UG ( ) đƣợc vẽ theo biến ở hình 3.17 cho trƣờng hợp ống đều dài 17,5 cm (xem M. R. Portnoff). Các kết quả cũng giống ở hình 3.15, nhƣng có khác biệt ở một điểm quan trọng. Rõ ràng là các cộng hƣởng không thể chính xác trên trục j của s - mặt phẳng vì đáp ứng tần số không thể là vô hạn ở các tần số 500 Hz, 1500 Hz, 2500 Hz, v. v..., dù các ĐƢ là cao nhất ở gần các tần số này. Các tần số trung tâm và các độ rộng dải của cộng hưởng (bandwidths of the resonances), đƣợc định nghĩa là khoảng tần số xung quanh cộng hƣởng mà trong đó đáp ứng tần số lớn hơn 0,707 lần giá trị lớn nhất ở tần số trung tâm, của các tần số trong hình 3.17 đƣợc cho trong bảng kèm theo. ở Ví dụ này CAO QUYẾT THẮNG Trang 35
  11. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI cũng thấy đƣợc một vài hiệu ứng quan trọng. Đầu tiên là các tần số trung tâm hơi cao hơn ở trƣờng hợp ống mất ít. Thứ hai là các độ rộng dải của cộng hƣởng không bằng 0 (không) nữa nhƣ ở trƣờng hợp mất ít vì giá trị cao nhất không là vô hạn. Có thể thấy hiệu ứng các thành đàn hồi là rõ ràng, nhất là ở các tần số thấp. Đó cũng là điều mong đợi vì ta hy vọng chuyển động rất nhỏ của thành ở các tần số cao. Các kết quả của Ví dụ này là mẫu mực cho hiệu ứng chung của dao động của thành bộ máy phát âm,các tần số ở trung tâm tăng nhẹ và các cộng hƣởng tần số thấp rộng ra so với trƣờng hợp thành cứng. Các hiệu ứng của ma sát nhớt (the effect of viscous friction) và dẫn nhiệt ở thành (thermal conduction at the walls) không rõ ràng bằng các hiệu ứng rung động của thành. Flanagan ([2]) đã xét các hiệu ứng này một cách chi tiết và đã chứng tơ rằng hiệu ứng ma sát nhớt có thể giải thích trong biểu diễn miền tần số bằng cách thêm vào số hạng là số thực phụ thuộc tần số trong biểu thức của trở kháng âm, Z, . S ( x) Z(x, )= /2 j (12a) [ A0 ( x)]2 A0 ( x) trong đó S(x) là chu vi (circumference) của ống, là hệ số nhớt (coefficient of friction), còn là mật độ không khí (density of air) trong ống. Các hiệu ứng truyền nhiệt qua thành bộ máy phát âm cũng đƣợc tính tƣơng tự bằng cách thêm số hạng là số thực phụ thuộc tần số vào độ dẫn nạp âm, Y(x, ), . S ( x)( 1) A0 ( x) Y(x, )= j (12b) c2 2c p c2 trong đó cp là nhiệt dung riêng (specific heat) ở áp lực không đổi, là tỉ số của nhiệt dung riêng ở áp lực không đổi với nhiệt dung riêng ở âm lượng (volume) không đổi, còn là hệ số dẫn nhiệt. Giá trị tiêu biểu cho các hằng ở (12) đã đƣợc Flanagan ([2]) xác định. Với mục đích của chúng ta, chỉ cần lƣu ý là mất mát do ma sát tỉ lệ với phần thực của Z(x, ) và do vậy là với . Cũng vậy, mất mát nhiệt tỉ lệ với phần thực của Y(x, ), phần này cũng tỉ lệ với . Dùng các giá trị cho ở (12) của Z(x, ) và Y(x, ) và các giá trị của Y (x, ) cho ở (11c) ta cũng giải số đƣợc các phƣơng trình (10) (xem M. R. Portnoff, 1973). đáp ứng tần số kết quả với điều kiện biên p(ℓ, t) = 0 đƣợc vẽ ở hình 3.18b. Các tần số tâm và độ rộng dải đƣợc viết ở bảng. So sánh các hình 3.18 và 3.17 ta thấy tần số tâm giảm khi thêm vào các mất mát ma sát và nhiệt, còn độ rộng dải lại tăng. Do mất mát ma sát và nhiệt tăng theo thì các cộng hƣởng tần số cao hơn trải rộng hơn các cộng hƣởng tần số thấp. Các Ví dụ vẽ ở hình 3.17 và 3.18 là kiểu mẫu cho các hiệu ứng mất mát tổng quát trong bộ máy phát âm. Tổng kết lại là: 1) Các mất mát do nhiệt và do ma sát nhớt tăng theo tần số và có hiệu ứng lớn nhất ở các cộng hưởng tần số cao, trong khi mất mát do thành ống là rõ ràng nhất ở các tần số thấp; 2) Các thành đàn hồi làm tăng các tần số cộng hưởng, còn các mất mát do nhiệt và ma sát nhớt làm giảm chúng; 3) Hiệu ứng thực cho các cộng hưởng thấp hơn hơi được nâng lên hơn so với mô hình thành cứng, mất ít; 4) Hiệu ứng mất mát do nhiệt và ma sát là nhỏ so với các hiệu ứng rung động thành ống ở các tần số thấp hơn 3-4 Hz. Do vậy, các phƣơng trình (7) và (8), bỏ qua các mất mát này, không bao giờ là biểu diễn tốt của việc truyền âm trong bộ máy phát âm. Ta sẽ thấy ở phần sau là kết thúc phát xạ tại môi là nguồn mất mát tần số cao lớn hơn nhiều. Điều này CAO QUYẾT THẮNG Trang 36
  12. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI cung cấp lí lẽ bào chữa cho việc bỏ qua mất mát do nhiệt và ma sát trong các mô hình hoặc các mô phỏng tạo ra tiếng nói. 3.4. Các hiệu ứng của phát xạ tại môi (Effects of Radiation at the Lips) Cho đến đây ta đã xét cách mà các mất mát nội tại tác động lên các tính chất truyền âm của bộ máy phát âm. ở các Ví dụ ta đã giả thiết điều kiện biên là p(ℓ, t) = 0 tại môi. ở đƣờng truyền điện tƣơng tự, điều này ứng với mạch chập (short- circuit). Tƣơng ứng âm học của mạch chập khó có thể tạo ra nhƣ ở điện vì nó đòi hỏi một cấu hình trong đó các thay đổi vận tốc âm có thể xảy ra tại cuối ống của bộ máy phát âm mà không hề thay đổi áp lực tƣơng ứng. Các hiệu ứng nhiễu xạ phức tạp và khó biểu diễn, tuy nhiên, để xác định điều kiện biên tại môi cần phải có quan hệ giữa áp lực và vận tốc âm tại mặt phát xạ. Điều này rất phức tạp cho cấu hình ở hình 3.19a. Tuy nhiên, nếu mặt phát xạ (khe hở của môi) nhỏ so với cỡ của hình cầu thì xấp xỉ chấp nhận đƣợc là giả thiết mặt phát xạ đặt ở tấm chắn phẳng vô hạn nhƣ ở hình 3.19b. Khi đó, có thể chứng minh là quan hệ trạng thái ổn định hình sin giữa các biên độ phức của áp lực và vận tốc âm tại môi là P(ℓ, ) = ZL( ).U(ℓ, ) (13a) ở đây "trở kháng phát xạ" (radiation impedance) hay "tải trọng phát xạ" (radiation load) tại môi có dạng gần đúng là j Lr Rr ZL( ) = (13b) Rr j Lr Tƣơng tự với tải trọng phát xạ này là nối song song trở kháng phát xạ, Rr, và tự cảm phát xạ, Lr. Các giá trị Rr và Lr cho một xấp xỉ tốt với trƣờng hợp tấm chắn phẳng vô hạn do Flanagan [2] đƣa ra là 128 Rr = 9 2 8a Lr = 3 c ở đây a là bán kính của khe hở, còn c là tốc độ âm thanh. Hoạt động của tải trọng phát xạ ảnh hƣởng đến bản chất của việc truyền sóng trong bộ máy phát âm bằng các điều kiện biên (13). Dễ thấy từ phƣơng trình (13b) là ở các tần số rất thấp ZL( ) = 0,tại các tần số rất thấp trở kháng phát xạ xấp xỉ kết thúc ngắn mạch lý tƣởng đƣợc giả thiết cho điểm này. Cũng vậy, ta thấy rõ ràng từ phƣơng trình (13b) là tại giá trị giữa của các tần số, (khi Lr < < Rr), ZL( ) ≈ j Lr. ở các tần số cao ( Lr > > Rr), ZL( ) ≈ Rr. Năng lượng tiêu tán (energy dissipated) do phát xạ tỉ lệ với phần thực của trở kháng phát xạ. Nhƣ vậy, ta có thể thấy là với Hệ thống tạo ra tiếng nói đầy đủ (Bộ máy phát âm và tán xạ), các mất mát do tán xạ là quan trọng nhất ở các tần số cao. Để đánh giá độ lớn của hiệu ứng này, các phƣơng trình (10), (11c) và (13) đƣợc giải đồng thời cho trƣờng hợp ống bất biến thời gian có thành mềm, các mất mát nhiệt và ma sát, cùng mất mát phát xạ tƣơng ứng với tấm chắn phẳng vô hạn. Hình 3.21 vẽ đáp ứng tần số kết quả U ( , ) Va(j ) = UG ( ) CAO QUYẾT THẮNG Trang 37
  13. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI với cái vào U(0, t) = UG( )e j t. Hiệu ứng chính trên độ rộng giải cộng hƣởng xảy ra ở các tần số cao. Độ rộng dải cộng hƣởng (tăng cƣờng) đầu tiên đƣợc xác định chủ yếu là do mất mát của thành, còn các độ rộng dải tăng cƣờng cao hơn đƣợc xác định chủ yếu là do mất mát phát xạ. Có thể nói là độ rộng dải tăng cƣờng thứ hai và thứ ba đƣợc xác định bằng cách tổ hợp hai cơ chế mất mát này. đáp ứng tần số liên hệ vận tốc âm tại môi với vận tốc âm vào tại môi. Quan hệ giữa áp lực tại môi và vận tốc âm tại thanh môn là điều đáng chú ý, đặc biệt khi ống nói cảm áp lực (pressure sensitive microphone) đƣợc dùng để chuyển sóng âm thành sóng điện từ. Vì P(ℓ, ), U(ℓ, ) liên hệ với nhau bởi phƣơng trình (13a) thì hàm truyền áp lực (pressure transfer function) có dạng đơn giản P ( , ) P ( , ) U (  , ) Ha( ) = = = ZL( ).Va( ) UG ( ) U ( , ) U G ( ) Có thể thấy là các hiệu ứng chính đƣợc nhấn mạnh ở tần số cao và cái vào là 0 tại = 0. 3.5. Các hàm truyền (transfer function) của bộ máy phát âm cho các nguyên âm: Các phƣơng trình xét ở các phần 3 và 4 tạo nên mô hình chi tiết cho việc truyền âm và phát xạ trong việc tạo ra tiếng nói. Dùng các kỹ thuật tích phân số ở dạng miền thời gian (biến t) hoặc miền tần số (biến ) có thể giải đƣợc cho nhiều loại hàm đáp ứng của bộ máy phát âm. Các lời giải này cho phép hiểu bản chất của quá trình tạo tiếng nói và tín hiệu tiếng nói. Ví dụ Portnoff 1973 đã dùng các phƣơng trình miền tần số (10), (11c), (12) và (13) để tìm ra các hàm đáp ứng tần số cho một tập hợp các hàm diện tích, Ví dụ các hàm diện U ( , ) tích của bộ máy phát âm và các đáp ứng tần số tƣơng ứng ( ) cho các nguyên âm UG ( ) tếng Nga /a/, /e/, /i/ và /u/. Các hàm này cũng minh hoạ các hiệu ứng của tất cả các cơ chế mất mát nói ở phần 3 và 4. Tổng kết, ta có thể kết luận qua các ví dụ này và các ví dụ ở các phần trƣớc những điểm sau: 1. Hệ thống phát âm được đặc trưng bởi tập hợp các cộng hưởng (các tăng cường) phụ thuộc trước hết vào hàm diện tích của bộ máy phát âm, mặc dù có nâng lên chút ít do mất mát, khi so sánh với trường hợp ống mất ít. 2. Các độ rộng dải của các tần số tăng cường thấp nhất (tần số đầu và tần số thứ hai) phụ thuộc trước hết vào mất mát của thành bộ máy phát âm. 3. Các độ rộng dải của các tần số tăng cường cao hơn phụ thuộc trước hết vào ma sát nhớt và mất mát nhiệt trong bộ máy phát âm và mất mát tán xạ. 3.6. Hiệu ứng nối ống mũi (nasal coupling): Khi tạo các âm mũi /m/, /n/, và / /, vòm miệng mềm hạ xuống nhƣ cửa sập để nối ống mũi với cổ họng. Khi đó, một bao đóng hoàn toàn đƣợc tạo ra (Ví dụ ở môi cho /m/). Cấu hình này có thể vẽ nhƣ ở hình 3.27a có hai nhánh, một nhánh hoàn toàn đóng. Tại điểm rẽ nhánh áp lực âm là nhƣ nhau ở đầu mỗi ống, vận tốc âm ở họng là tổng của các vận tốc âm tại lối vào khoang mũi và miệng. Với các phụ âm mũi, phát xạ của âm xảy ra trƣớc hết là ở lỗ mũi. Nhƣ vậy, ống mũi đƣợc kết thúc với trở kháng phát xạ thích ứng với cỡ mở ống mũi. Bộ máy miệng hoàn toàn đóng. Các nguyên âm âm mũi hoá đƣợc tạo ra với cùng hệ thống có bộ máy CAO QUYẾT THẮNG Trang 38
  14. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI miệng kết thúc nhƣ cho nguyên âm. Khi đó, tín hiệu tiếng nói sẽ là các cái ra mũi và miệng chồng lên nhau. Mô hình toán học cho cấu hình này gồm 3 tập hợp các phƣơng trình vi phân đạo hàm riêng có các điều kiện biên tạo ra bởi dạng kích thích thanh môn, các kết thúc của bộ máy phát âm mũi và mồm, và các quan hệ liên tục ở các chỗ nối. Đây là tập hợp các phƣơng trình phức tạp, nhƣng về nguyên tắc là giải đƣợc và cho các số đo chấp nhận đƣợc của các hàm diện tích cho cả 3 ống. Hàm truyền của hệ thống có nhiều nét chung với các ví dụ trƣớc. Đó là hệ thống đƣợc đặc trƣng bởi các cộng hƣởng hoặc các tăng cƣờng phụ thuộc vào hình dạng và độ dài của 3 ống. Một khác biệt quan trọng rút ra từ sự kiện là khoang miệng đóng có thể chặn năng lƣợng ở các tần số nào đó, ngăn cản các tần số này xuất hiện ở lối ra mũi. Kết quả là với các âm mũi, hàm truyền của bộ máy phát âm đƣợc đặc trƣng bởi các phản-cộng hƣởng (các không (0)) cũng nhƣ các cộng hƣởng. Ngƣời ta cũng thấy rằng các tăng cƣờng ở đƣờng mũi có dải rộng hơn các âm hữu thanh không đường mũi (non-nasal voiced sounds). Đó là thuộc tính của ma sát nhớt lớn hơn và mất mát nhiệt phụ thuộc diện tích bề mặt khoang mũi. 3.7. Kích thích âm (Excitation of sound) ở bộ máy phát âm: Các mục trƣớc đã xét cách dùng các định luật vật lý để mô tả việc truyền và phát xạ âm trong việc tạo ra tiếng nói. Bây giờ, để hoàn thiện việc nghiên cứu các nguyên lý âm học, ta phải xét cơ chế tạo ra các sóng âm ở hệ thống phát âm. Nhớ lại rằng khi xét tổng quan việc tạo ra tiếng nói ở §3.1 ta đã chỉ ra 3 cơ chế kích thích chính là: 1. Luồng không khí từ phổi đƣợc điều chỉnh bởi rung động của dây thanh âm tạo ra kích thích như là xung gần tuần hoàn (quasi-periodic pulse-like excitation). 2. Luồng không khí từ phổi trở nên hỗn loạn giống nhƣ không khí chuyển qua một chỗ thắt lại ở bộ máy phát âm tạo ra kích thích như là tiếng ồn (noise-like). 3. Luồng không khí tạo ra áp lực sau một điểm đóng hoàn toàn ở bộ máy phát âm. Việc giải phóng nhanh áp lực này bằng cách di chuyển chỗ thắt lại gây ra một kích thích tạm thời. Mô hình chi tiết kích thích âm ở bộ máy phát âm bao gồm hệ thống dƣới thanh môn (phổi, cuống phổi và khí quản), thanh môn và bộ máy phát âm. Thực vậy, một mô hình đầy đủ trong tất cả các chi tiết cần thiết cũng hoàn toàn có khả năng kích thích thở cũng nhƣ tạo ra tiếng nói ! ([2]). Flanagan là ngƣời đầu tiên (1968) có cố gắng lập mô hình chi tiết cho việc tạo âm trong Hệ thống phát âm. Các nghiên cứu sau đó (xem J. F. Flanagan, K. Ishizaka, and K. L. Shipley, "Synthesis of Speech from a Dynamic Model of the Vocals Cords and Vocal Tract, Bell Sys. Tech. J., Vol. 54, No. 3, pp. 485-506, March, 1975) đã đƣa ra mô hình đẹp hơn, biểu diễn rất chi tiết quá trình tạo ra cả âm vô thanh lẫn âm hữu thanh. Mô hình này, dựa trên cơ học cổ điển và cơ học chất lỏng, vƣợt ra ngoài phạm vi thảo luận ở đây. Tuy nhiên, một trao đổi ngắn gọn về các nguyên lý cơ bản của việc tạo âm sẽ có ích trong việc chỉ hƣớng cho các mô hình đơn giản, đƣợc sử dụng rộng rãi ở cơ sở của xử lý tiếng nói. Sự dao động của các dây thanh âm trong việc tạo các nguyên âm có thể giải thích bằng cách xét biểu diễn lƣợc đồ của hệ thống phát âm. Các dây thanh âm làm thắt lại đƣờng dẫn từ phổi đến bộ máy phát âm. Do áp lực từ phổi tăng, luồng không khí ra từ phổi và qua cửa giữa các dây thanh âm (thanh môn). Định lý Bernoulli nói rằng khi dòng chất lỏng qua một lỗ (orifice), áp lực nhỏ đi ở chỗ thắt lại hơn ở chỗ khác. Nếu sự căng ở các dây thanh âm đƣợc điều chỉnh hợp lý, áp lực giảm cho phép các dây thanh âm đi CAO QUYẾT THẮNG Trang 39
  15. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI cùng nhau, làm thắt lại hoàn toàn dòng khí. (Điều này đƣợc vẽ bằng các nét đứt ở hình). Kết quả là áp lực tăng phía sau các dây thanh âm, buộc dây thanh âm mở ra và cho phép không khí lại đi qua thanh môn. Một lần nữa áp lực không khí ở thanh môn lại giảm và quá trình lặp lại. Nhƣ vậy, các dây thanh âm đƣa ra điều kiện dao động duy trì (sustained oscillation). Mức độ thanh môn đóng và mở đƣợc điều khiển bởi áp lực không khí ở phổi, sự căng và cứng vững của dây thanh âm, và diện tích của độ mở thanh môn. Có nhiều tham số điều khiển mô hình vận hành dây thanh âm chi tiết. Mô hình nhƣ vậy phải chứa cả các hiệu ứng của bộ máy phát âm vì việc thay đổi áp lực trong bộ máy phát âm ảnh hƣởng đến việc thay đổi áp lực ở thanh môn. 3.8. Các mô hình dựa trên lý thuyết âm học: Toàn bộ phần này đã xét tƣơng đối chi tiết các nét quan trọng của lý thuyết âm học trong việc tạo ra tiếng nói. Các mô hình chi tiết về việc tạo ra, lan truyền và phát xạ âm, về nguyên tắc có thể giải đƣợc với các giá trị kích thích và giá trị các tham số của bộ máy phát âm thích hợp, để đƣa ra dạng sóng âm. Ngƣời ta coi đó là cách hiệu quả nhất để tổng hợp các âm nói tự nhiên. Tuy nhiên, do nhiều lý do mà cách làm chi tiết này là không thực tế và không cần thiết. Trong các trƣờng hợp ấy, lý thuyết âm học cho ta cách tiếp cận đơn giản để mô hình hoá các tín hiệu tiếng nói. Hình 3.31 cho ta sơ đồ khối biểu diễn mô hình cơ sở cho việc xử lý. EXCITATION TIME-VARYING GENERATOR LINEAR SYSTEM SPEECH (máy phát (HTTTính biến đổi theo OUTPUT kích thích) Thời gian) (cái ra tiếng nói) Hình 3.31. Mô hình hệ thống nguồn của việc tạo ra tiếng nói. Các mô hình này có điểm chung là các kích thích đƣợc tách ra khỏi bộ máy phát âm và phát xạ. bộ máy phát âm và các hiệu ứng phát xạ đƣợc coi là hệ thống tuyến tính biến đổi theo thời gian. Mục đích của điều này là mô hình hoá các hiệu ứng cộng hƣởng mà ta đã nói đến. Máy phát kích thích tạo ra tín hiệu hoặc nhƣ là dòng các xung (thanh âm) hoặc là các ồn biến đổi ngẫu nhiên. Các tham số của nguồn và hệ thống đƣợc chọn lựa để tạo ra cái ra có các tính chất giống tiếng nói mong muốn. Nếu có thể làm đƣợc điều đó thì mô hình có thể xử dụng cho việc xử lý. Ở phần sau của chƣơng này ta sẽ xét một số mô hình dạng này. CAO QUYẾT THẮNG Trang 40
  16. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI §4. CÁC MÔ HÌNH ỐNG MẤT ÍT Các diện tích mặt cắt không đổi {A k} đƣợc chọn xấp xỉ hàm diện tích, A(x), của bộ máy phát âm. Nếu dùng nhiều ống có độ dài ngắn, ta có thể hy vọng là các tần số cộng hƣởng của các ống nối lại sẽ gần với tần số cộng hƣởng của ống có hàm diện tích thay đổi liên tục. Tuy nhiên, vì cách xấp xỉ này bỏ qua các mất mát do ma sát nhớt, dẫn nhiệt và rung động của thành ống, nên ta cũng có thể hy vọng hợp lý là độ rộng dải (bandwidth) của các cộng hƣởng khác với độ rộng dải của các mô hình chi tiết có tính đến các mất mát ấy. Dù sao thì các mất mát cũng có thể tính cho thanh môn và môi (hai đầu của bộ máy phát âm), và ta sẽ thấy ở đây là có thể làm điều đó để biểu diễn chính xác các tính chất cộng hƣởng của tín hiệu tiếng nói. Điều quan trọng hơn là các mô hình ống mất ít cung cấp cách chuyển đổi thuận tiện giữa các mô hình thời gian liên tục và mô hình thời gian rời rạc. 4.1. Truyền sóng ở các ống mất ít nối lại (Wave propagation in concatenated lossless tubes): Vì mỗi ống ở hình 3.32 mất ít nên việc truyền âm ở mỗi ống đƣợc mô tả bởi các phƣơng trình (2) với các giá trị thích hợp của diện tích mặt cắt. Nhƣ vậy, nếu xét ống thứ k với diện tích mặt cắt Ak thì áp lực và vận tốc âm ở ống này có dạng c x x pk(x, t) = [ uk (t ) + uk (t )] (14a) Ak c c x x uk(x, t) = uk (t ) + uk (t ) (14b) c c trong đó x là khoảng cách đo đƣợc từ điểm kết thúc bên trái của ống thứ k (0 x ℓk), còn u k () và u k () là các sóng truyền về phía dƣơng và về phía âm trong ống thứ k. Quan hệ giữa các sóng truyền ở các ống kề nhau (adjacent tube) có thể nhận đƣợc bằng cách sử dụng luật vật lý là áp lực và vận tốc âm phải liên tục cả theo thời gian và không gian moị nơi, mọi lúc trong hệ thống. Điều này cho các điều kiện biên ở cả hai đầu mỗi ống. Xét riêng việc nối ống thứ k và thứ k+1. Áp dụng các điều kiện liên tục tại đoạn nối, ta có pk(ℓk, t) = pk+1(0, t) (15a) uk(ℓk, t) = uk+1(0, t) (15b) Thế các phƣơng trình (14) vào (15), ta đƣợc Ak 1 [ uk (t k ) + uk (t k ) ] = uk 1 (t ) + uk 1 (t ) (16a) Ak uk (t k ) + uk (t k ) = uk 1 (t ) + uk 1 (t ) (16b) k trong đó k = là thời gian sóng đi qua chiều dài ống thứ k. Ta thấy phần sóng về phía c dƣơng đến mối nối đƣợc truyền về phía phải, còn phần kia đi về phía trái. Nhƣ vậy, nếu ta giải uk 1 (t ) và uk (t k ) theo uk 1 (t ) và uk (t k ) ta có thể thấy cách các sóng ngƣợc và xuôi truyền trong toàn bộ hệ thống. Giải phƣơng trình (16b) tìm uk (t k ) và thế vào (16a) đƣợc CAO QUYẾT THẮNG Trang 41
  17. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI 2 Ak 1 Ak 1 Ak uk 1 (t ) = uk (t k ) + uk 1 (t ) (17a) Ak 1 Ak Ak 1 Ak Thế phƣơng trình (16b) vào phƣơng trình (16a) đƣợc Ak 1 Ak 2 Ak uk (t k ) =- uk (t k ) + uk 1 (t ) (17b) Ak 1 Ak Ak 1 Ak Có thể thấy từ (17a) là đại lƣợng Ak 1 Ak rk = (17c) Ak 1 Ak bằng lƣợng uk 1 (t ) phản xạ tại chỗ nối. Do vậy rk đƣợc gọi là hệ số phản xạ (reflection coefficient) ở chỗ nối thứ k. Vì các diện tích đều dƣơng nên ta có -1 rk 1. Sử dụng rk các phƣơng trình (17) có dạng uk 1 (t ) = (1 + rk) uk (t k ) + rk uk 1 (t ) (18a) uk (t k ) = - rk uk (t k ) + (1 - rk) uk 1 (t ) (18b) Các quy ƣớc đồ hoạ dòng tín hiệu (xem A.V. Oppenheim and R.W. Shafer, Digital Signal Processing (Xử lý Tín hiệu Số), Prentice-Hall, Inc., Englewood Cliffs, N.J., 1975) đƣợc sử dụng để biểu diễn các phép cộng và nhân trong các phƣơng trình (3.41). Hiển nhiên là mỗi chỗ nối của Hệ thống ở hình 3.32 có thể biểu diễn nhƣ Hệ thống ở hình 3.34. Nhƣ vậy, mô hình 5 ống ở hình 3.32 phải có 5 tập hợp các trễ vào, ra và 4 chỗ nối, mỗi chỗ đƣợc biểu diễn bởi một hệ số phản xạ. Để hoàn thiện việc biểu diễn sự truyền sóng trong Hệ thống các ống mất ít nối lại, ta phải xét các điều kiện biên ở môi và ở thanh âm (2 đầu của hệ thống). 4.2. Các điều kiện biên: Giả sử có N đoạn nối, đƣợc đánh số từ 1 đến N, bắt đầu từ thanh âm. Khi đó, điều kiện biên tại môi sẽ liên kết áp lực, pN(ℓN, t), và vận tốc âm, uN(ℓN, t), tại đầu ra của ống thứ N với áp lực phát xạ và vận tốc âm. Nếu dùng các quan hệ miền tần số ở §3.4 ta có biểu thức quan hệ PN(ℓN, ) = ZL.UN(ℓN, ) Nếu giả thiết tạm thời ZL là số thực thì ta có quan hệ miền thời gian c [ u N (t N ) + u N (t N ) ] = ZL[ u N (t N ) - u N (t N ) ] (19) AN (Nếu ZL là số phức thì (18) đƣợc thay bằng Phƣơng trình vi phân liên hệ pN(ℓN, t) và uN(ℓN, t).) Giải ra u N (t N ) đƣợc u N (t N ) = - rN u N (t N ) (20) trong đó hệ số phản xạ tại môi (reflection coefficient at the lips) là c ZL AN rL = (21) c ZL AN Vận tốc âm ra tại môi là uN(ℓN, t) = u N (t N ) - u N (t N ) = (1 + rL) u N (t N ) CAO QUYẾT THẮNG Trang 42
  18. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI Hiệu ứng của kết thúc tại môi đƣợc biểu diễn ở (20), (21) và đƣợc vẽ ở hình 3.35. Chú ý rằng nếu ZL là số phức thì có thể chứng minh rằng (21) còn đúng và, dĩ nhiên, lúc đó rL cũng là số phức và phải thay (20) bằng phƣơng trình trong miền tần số. Các quan hệ miền tần số với giả thiết nguồn kích thích là tách đƣợc tuyến tính từ bộ máy phát âm đã xét ở §2.6. Dùng giả thiết này cho áp lực và vận tốc âm tại đầu vào của ống thứ nhất ta có U1(0, ) = UG( ) = - P1(0, )/ZG. Lại giả sử ZG là số thực thì c u1 (t ) u1 (t ) u1 (t ) - u1 (t ) = uG(t) = - A1 ZG Giải ra u1 (t ) ta có (1 rG ) u1 (t ) = uG(t) + rG u1 (t ) (23) 2 ở đây hệ số phản xạ tại thanh môn (glotal reflection coefficient) là c ZG A1 rG = (24) c ZG A1 phƣơng trình (23) có thể biểu diễn ở hình 3.36. Cũng nhƣ trong trƣờng hợp kết thúc phát xạ, nếu Z G là số phức thì phƣơng trình (23) vẫn đúng. Tuy nhiên, rG phải là số phức và phƣơng trình (22) phải thay bởi phƣơng trình tƣơng đƣơng ở miền tần số. Bình thƣờng, các trở kháng Z G và ZL đƣợc lấy là số thực cho đơn giản. Tốc độ âm ở môi đƣợc xác định là u L(t) = u2(ℓ2, t). Viết các phƣơng trình cho Hệ thống này ở miền tần số, đáp ứng tần số của Hệ thống là UL( ) 0.5(1 rG )(1 rL )(1 r1 )e j ( 1 2) Va( ) = = U G ( ) 1 r1rG e j 2 1 r1rLe j 2 2 rL rG e j 2( 1 2) Đáng chú ý đến một số thành phần của V a( ). Đầu tiên là nhân tử e j ( 1 2 ) ở tử số. Nhân tử này biểu diễn việc làm chậm lan truyền tổng thể ở Hệ thống từ thanh môn tới môi. Để có hàm hệ thống, ta thay j bởi s và đƣợc 0.5(1 rG )(1 rL )(1 r1 )e s ( 1 2 ) Va(s) = 1 r1rG e s 2 1 r1rL e s 2 2 rL rG e s 2( 1 2) Các cực của Va(s) là các tần số cộng hƣởng phức của hệ thống. Ta thấy có số vô hạn các cực vì s nằm ở mũ. 4.3. Quan hệ với các lọc số (Relationship to digital filters): Dạng Va(s) của mô hình 2 ống cho thấy các mô hình ống mất ít có nhiều tính chất chung với các lọc số. Để thấy điều  này, ta xét Hệ thống gồm N ống mất ít, mỗi ống dài x = , trong đó ℓ là độ dài tổng thể N của bộ máy phát âm. Hệ thống nhƣ vậy vẽ ở hình 3.38 với N = 7. CAO QUYẾT THẮNG Trang 43
  19. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI Việc truyền sóng trong Hệ thống này có thể biểu diễn nhƣ ở hình 3.34 (mục 1), trong đó x tất cả các làm chậm (delay) đều bằng = , thời gian truyền dọc một ống. Đầu tiên ta c xét ĐƢ của Hệ thống với nguồn xung đơn vị uG(t) = (t). Xung truyền theo dãy các ống đƣợc phản xạ từng phần và đƣợc truyền từng phần ở các chỗ nối. Nghiên cứu chi tiết quá trình này đƣa đến kết luận là ĐƢX (. tốc độ âm tại môi theo xung tại thanh môn) có dạng va(t) = a0 (t - N ) + ak (t N 2k ) . k 1 Rõ ràng, sớm nhất là xung có thể đến lối ra sau N giây. Các xung tiếp sau phụ thuộc vào phản xạ tại các chỗ nối sẽ đến lối ra tại bội của 2 giây tiếp sau. Lƣợng 2 là thời gian phải có để truyền theo cả 2 hƣớng trong một ống. Hàm Hệ thống của Hệ thống này có dạng s( N 2k ) sk 2 Va(s) = ak e = e-sN ak e k 0 k 0 -sN Nhân tử e ứng với thời gian trễ cần thiết để truyền qua N phần. Đại lƣợng sk 2 Va ( s) = ak e k 0 là hàm Hệ thống của một Hệ thống tuyến tính có ĐƢX đơn giản v a (t ) = va(t+N ). Phần này biểu thị các tính chất cộng hƣởng của hệ thống. Hình 3.39a biểu diễn sơ đồ khối của mô hình ống mất ít vẽ tách biệt Hệ thống v a (t ) khỏi bộ phận làm chậm. đáp ứng tần số Va ( ) là j k2 Va ( s) = ak e . k 0 Dễ dàng chứng minh là 2 Va ( ) = Va ( ) . 2 Dĩ nhiên, điều này rất gợi nhớ đến đáp ứng tần số của Hệ thống thời gian rời rạc. Thật vậy, nếu cái vào (. kích thích) của Hệ thống là giới hạn giải (band limited) đến các tần số dƣới thì ta có thể lấy mẫu cái vào với chu kỳ T = 2 và lọc tín hiệu mẫu với lọc số có 2 ĐƢX là n , n 0; v( x) = 0, n 0. Với chu kỳ mẫu T = 2 , việc làm chậm N giây ứng với thay đổi vị trí (shift) N/2 mẫu. Hệ thống thời gian rời rạc tƣơng đƣơng cho các tín hiệu vào giới hạn dải vẽ ở hình 3.39b. Chú ý rằng nếu N chẵn, N/2 là số nguyên và việc làm chậm có thể thực hiện bằng cách thay đổi vị trí dãy cái ra của Hệ thống thứ nhất. Nếu N lẻ thì phải nội suy để có các mẫu CAO QUYẾT THẮNG Trang 44
  20. CNT45DH GROUP BÀI GIẢNG XỬ LÝ TIẾNG NÓI cái ra của hình 3.39a. Việc làm chậm này giống nhƣ là bỏ qua một cách nào đó (xem ở dƣới) vì nó không để lại hậu quả lắm trong một số ứng dụng của các mô hình tiếng nói. ZT của v ( n ) là Va ( s) với eST thay bởi z. Nhƣ vậy k Va ( z ) = ak z k 0 Một cách tƣơng tự, biểu đồ luồng tín hiệu cho Hệ thống thời gian rời rạc tƣơng đƣơng có thể nhận đƣợc từ biểu đồ của Hệ thống tƣơng tự. Đặc biệt, mỗi nút biến trong Hệ thống tƣơng tự đƣợc thay bởi dãy các mẫu tƣơng ứng. Cũng nhƣ vậy, mỗi làm chậm giây 1 T đƣợc thay bởi làm chậm mẫu vì = . 2 2 1 Các làm chậm mẫu ở hình 3.40b kéo theo phép nội suy nửa đường (interpolation half- 2 way) giữa các giá trị mẫu. Nội suy nhƣ vậy không thể thực hiện đƣợc chính xác. Có thể thu đƣợc một cấu hình đáng mong đợi hơn bằng cách xét cấu trúc có dạng cái thang (ladder), có các yếu tố làm chậm chỉ ở phần trên và dƣới. Các tín hiệu truyền sang phải ở nhánh trên và sang trái ở nhánh dƣới. Ta có thể thấy là làm chậm vòng quanh ở bất cứ nhánh đóng nào sẽ đƣợc bảo toàn nếu các làm chậm ở nhánh dƣới đƣợc chuyển cho nhánh trực tiếp ở trên tƣơng ứng. Làm chậm toàn bộ từ cái vào đến cái ra lúc đó sẽ là sai, nhƣng điều này ít có ý nghĩa trong thực tế và về mặt lý thuyết có thể đền bù bằng cách gắn một lƣợng tiến đúng (tổng quan là z N/2). (Chú ý là ta cũng có thể chuyển toàn bộ làm chậm cho nhánh dƣới. Khi đó, làm chậm qua hệ thống có thể sửa đƣợc bằng N cách đƣa vào một làm chậm mẫu). Ƣu điểm của dạng này là các phƣơng trình vi 2 phân có thể viết cho hệ thống và các phƣơng trình vi phân này có thể sử dụng lặp lại để tính các mẫu của cái ra qua các mẫu của cái vào. Các mạng số có thể dùng để tính các mẫu của tín hiệu tiếng nói tổng hợp từ tín hiệu của các mẫu kích thích thích hợp. Ở các ứng dụng này, cấu tạo của biểu diễn mạng xác định sự phức tạp của các phép toán cần thiết để tính mỗi mẫu ra. Ta thấy ở mỗi chỗ nối phải tính 4 phép tính nhân và 2 phép tính cộng. Nhƣ vậy, phải làm 4N phép tính nhân và 2N phép tính cộng ở hệ có N ống nối lại. Do phép tính nhân cần nhiều thời gian hơn phép tính cộng thì cần tìm một cấu trúc khác có thể giảm số phép tính nhân. Có thể đƣa ra các cấu trúc nhƣ vậy nhƣ ở hình 3.41a. Các phƣơng trình vi phân biểu diễn sơ đồ này là u ( n) = (1 + r) w (n) + r u ( n) (25a) w (n) = - r w (n) + (1 - r) u ( n) (25b) Các phƣơng trình này có thể viết dƣới dạng u ( n ) = w ( n) + r w ( n) + r u ( n ) w ( n) = - r w ( n) - r u ( n ) + u ( n ) Chú ý là các số hạng r w (n) và r u ( n) có mặt ở cả hai phƣơng trình, hai cái ra của 4 phép tính nhân trong các phƣơng trình (25) có thể loại ra nhƣ vẽ ở hình 3.41b. Cấu hình CAO QUYẾT THẮNG Trang 45
Đồng bộ tài khoản