Xử lý tiếng nói - Speech Synthesis

Chia sẻ: Khinh Kha Kha | Ngày: | Loại File: PDF | Số trang:14

0
104
lượt xem
31
download

Xử lý tiếng nói - Speech Synthesis

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tổng hợp tiếng nói Thành phần tổng hợp tiếng nói của một hệ thống TTS có chức năng tạo ra dạng sóng tiếng nói tương ứng với văn bản Dữ liệu vào thường là âm vị đã được chuyển đổi và ngữ âm tương ứng của câu nói. à ữâ ứ ủ â ói Ngoài ra, dữ liệu vào có thể gồm văn bản thô cùng với các thẻ đánh dấu để có chất lượng tiếng nói tốt hơn Phân loại các hệ thống tổng hợp ạ ệ g g ợp tiếng nói Các hệ thống tổng hợp tiếng nói gồm 3...

Chủ đề:
Lưu

Nội dung Text: Xử lý tiếng nói - Speech Synthesis

  1. Bài 5: Tổng hợp tiếng nói Thành phần tổng hợp tiếng nói của một hệ thống TTS có chức năng tạo ra dạng sóng tiếng nói tương ứng với văn bản Dữ liệu vào thường là âm vị đã được chuyển đổi và ngữ âm tương ứng của câu nói. à ữâ ứ ủ â ói Ngoài ra, dữ liệu vào có thể gồm văn bản thô cùng với các thẻ đánh dấu để có chất lượng tiếng nói tốt hơn
  2. Phân loại các hệ thống tổng hợp ạ ệ g g ợp tiếng nói Các hệ thống tổng hợp tiếng nói gồm 3 loại: – Tổng hợp tiếng nói dựa vào đặc điểm âm học – Tổng hợp tiếng nói dựa vào Formant – Tổng hợp tiếng nói dựa vào sự ghép nối
  3. Tổng hợp tiếng nói dựa vào đặc g ợp g ự ặ điểm âm học Là một mô hình tổng hợp tiếng nói dựa vào luật Sử dụng các tham số để mô hình chuyển động của bộ phận trong bộ máy âm học và sự thay đổi áp suất không khí h á ấ khô
  4. Tổng hợp tiếng nói dựa vào Formant Ta có thể tổng hợp một nguyên âm có âm ổn định bằng cách cho một sóng tuần hoàn đi qua một bộ lọc với tần số formant của ống âm học Đối với các phụ âm, âm vô thanh, ta có thể ới á h â â ô h h ó hể dùng nhiễu ngẫu nhiên đi qua bộ lọc để tạo ra âm Trong thực tế, âm tiếng nói là thay đổi liên tục, thế, tục vì thế ta phải thay đổi nguồn kích thích và tần số formant theo thời gian
  5. Phương pháp này còn được gọi là tổng hợp dựa vào các luật để thay đổi nguồn kích thích, tần số formant, và các tham số để ể chuyển từ âm này sang âm khác
  6. Tổng hợp tiếng nói dựa vào sự ghép nối Tiếng nói được tổng hợp bằng sự ghép nối các âm đã được lưu trữ từ trước tương ứng với các âm vị Mỗi âm đã được lưu từ trước giống với âm trong tự nhiên, vì thế, tiếng nói được tổng hiê ì hế iế ói đ ổ hợp có chất lượng cao T nhiên, nếu h i đ Tuy hiê ế hai đoạn â khác nhau âm khá h được ghép nối lại có thể dẫn đến sự không liên tục trong ngữ điệu và phổ tần số
  7. Các vấn đề khi tổng hợp tiếng nói g ợp g dựa vào sự ghép nối Sử dụng đơn vị tiếng nói loại nào: âm vị, âm tiết, từ, cụm từ, … Xây dựng cơ sở dữ liệu đơn vị tiếng nói từ các âm thu được bằng ghi âm: độ dài ngắn của từng đơn vị tiếng nói, số lượng đơn vị, … ủ ừ đ ị iế ói ố l đ ị Lựa chọn cách phát âm tốt nhất từ dữ liệu đã cóó Biến đổi ngữ điệu các âm đã có để thu được ngữ điệu mong muốn
  8. Đơn vị âm Đơn vị âm là đại diện cho một khoảng tiếng nói nhỏ nhất được sử dụng trong sự ghép nối Thể hiện là một khoảng tiếng nói đã được tạo ra tương ứ với đơn vị âm của nó. Hệ ứng ới đ ịâ ủ ó thống TTS có thể có nhiều thể hiện cho một đơn vị âm để sử dụng ghép nối
  9. So sánh các loại đơn vị âm
  10. Các khó khăn khi lựa chọn đơn vị âm Tăng sự chính xác ghép nối: – Giảm số lượng ghép nối, vì thế, cần các đơn vị âm dài như từ hoặc cụm từ – Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn vị âm và thể hiện của nó, không phải lúc nào nó cũng thực hiện được Tăng sự chính xác của ngữ điệu: g ự g ệ – Bằng cách thay đổi tần số cơ bản và khoảng thời gian của các đơn vị âm đã có
  11. Đơn vị âm đã có có thể tạo ra được đơn vị âm khác – Nếu sử dụng đơn vị âm như từ hoặc cụm từ sẽ khó tổng hợp các nội dung bất kỳ Đơn ị â Đơ vị âm có thể được huấn luyện ó đượ h ấ l ệ – Các đơn vị âm đã có được dùng để huấn luyện có thể đánh giá chính xác các đơn vị âm nhận được sau này
  12. Ví dụ
  13. Thay đổi ngữ điệu đơn vị âm khi ghép nối Ngữ điệu của các đơn vị âm đã có thường không đáp ứng được yêu cầu Mục đích: thay đổi cường độ âm, thời gian phát âm, tần số cơ bản của đơn vị âm
  14. Phương pháp OLA- Overlap and Add OLA-
Đồng bộ tài khoản