Báo cáo " Nghiên cứu các phương pháp tổng hợp tiếng Việt cho các hệ thống có tài nguyên hạn chế "

Chia sẻ: Phạm Huy | Ngày: | Loại File: PDF | Số trang:4

Thêm vào BST

Báo xấu

58
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên. Trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một số phương pháp tổng hợp tiếng nói. Một số đặc điểm của ngữ âm, ngôn điệu tiếng Việt. Giới thiệu sơ lược về các hệ thống hạn chế tài nguyên. Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài nguyên hạn chế. ...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Báo cáo " Nghiên cứu các phương pháp tổng hợp tiếng Việt cho các hệ thống có tài nguyên hạn chế "

Nghiên cứu các phương pháp tổng hợp tiếng Việt cho các hệ thống có tài nguyên hạn chế Nguyễn Tu Trung Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS.TS. Lương Chi Mai Năm bảo vệ: 2011 Abstract: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên. Trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một số phương pháp tổng hợp tiếng nói. Một số đặc điểm của ngữ âm, ngôn điệu tiếng Việt. Giới thiệu sơ lược về các hệ thống hạn chế tài nguyên. Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài nguyên hạn chế. Trình bày thành phần cơ bản của hệ tổng hợp tiếng nói từ văn bản. Phân tích về vấn đề tổng hợp tiếng nói trên hệ thống tài nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết để một hệ tổng hợp trên máy tính có thể chuyển xuống hệ thống này. Giới thiệu và phân tích về hai hệ tổng hợp tiếng Việt có khả năng chuyển vào hệ thống tài nguyên hạn chế. Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp VnVoice. Khả năng áp dụng biểu diễn số dấu chấm tĩnh để giảm thiểu bộ nhớ và tăng tốc độ tính toán. Phân tích cách thức tối ưu hóa lưu trữ và một số thao tác tính toán của hệ tổng hợp VnVoice để thực sự đáp ứng các yêu cầu trên hệ thống hạn chế tài nguyên. Xây dựng thử nghiệm hệ thống tổng hợp tiếng Việt trên hệ thống tài nguyên bộ nhớ hạn chế. Phân tích, thiết kế thử nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Tổng quan về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE. Trình bày một thử nghiệm so sánh chất lượng giọng tổng hợp tiếng Việt giữa chương trình demo với phiên bản VnSpeech trên WinCE và với chính hệ tổng hợp VnVoice. Keywords: Xử lý tín hiệu; Âm thanh; Tiếng Việt; Công nghệ phần mềm Content MỞ ĐẦU Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu và các phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời cả về tổng hợp và nhận dạng tiếng nói. Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù
của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và đang triển khai đã minh chứng cho nhu cầu này. Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu một số phương pháp tổng hợp tiếng nói và đề xuất cách thức tối ưu trên hệ thống hạn chế tài nguyên. Luận văn sẽ được chia thành 4 chương bao gồm: Chương 1: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên. Chương này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một số phương pháp tổng hợp tiếng nói. Chương 1 cũng chỉ ra một số đặc điểm của ngữ âm, ngôn điệu tiếng Việt. Ngoài ra, chương 1 còn giới thiệu sơ lược về các hệ thống hạn chế tài nguyên. Chương 2: Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài nguyên hạn chế. Chương này giúp người đọc nắm được về các thành phần cơ bản của hệ tổng hợp tiếng nói từ văn bản. Tiếp theo, chương 2 phân tích về vấn đề tổng hợp tiếng nói trên hệ thống tài nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết để một hệ tổng hợp trên máy tính có thể chuyển xuống hệ thống này. Cuối cùng, chương 2 giới thiệu và phân tích về hai hệ tổng hợp tiếng Việt có khả năng chuyển vào hệ thống tài nguyên hạn chế. Chương 3: Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp VnVoice. Chương này chỉ ra khả năng áp dụng biểu diễn số dấu chấm tĩnh để giảm thiểu bộ nhớ và tăng tốc độ tính toán. Chương 3 còn phân tích cách thức tối ưu hóa lưu trữ và một số thao tác tính toán của hệ tổng hợp VnVoice để thực sự đáp ứng các yêu cầu trên hệ thống hạn chế tài nguyên. Chương 4: Xây dựng thử nghiệm hệ thống tổng hợp tiếng Việt trên hệ thống tài nguyên bộ nhớ hạn chế. Chương này trình bày việc phân tích, thiết kế thử nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Sau đó, chương 4 trình bày sơ lược về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE. Sau đó, chương 4 cũng trình bày một thử nghiệm so sánh chất lượng giọng tổng hợp tiếng Việt giữa chương trình demo với phiên bản VnSpeech trên WinCE và với chính hệ tổng hợp VnVoice. Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông []. References Tiếng Việt 1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002), “Chuẩn hóa và phân tích tiếng Việt cho tổng hợp tiếng Việt”, Kỷ yếu Hội thảo quốc gia về công nghệ thông tin, Nha Trang. 2
2. Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. 3. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần, Luận án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông. 4. Lưu Hồng Việt, Hệ thống điều khiển nhúng, bài giảng, Bộ môn Điều khiển tự động, Trường Đại học Bách khoa Hà Nội. 5. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html Tiếng Anh 6. J. Allen, M. Sharon Hunnicutt and Klatt (1987), From text To speech – The MITalk Systems, Cambridge University Press. 7. Bamini, Praveen Kumar (2003), FPGA-based Implementation of Concatenative Speech Synthesis Algorithm, Theses and Dissertations. 8. D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2004. 9. P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation (ADPCM) on the TMS320C54x DSP, Texas Instrument. 10. S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific Design Automation Conference (ASP-DAC '07) 2007. 11. T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier Publisher, November, vol. 13, n°3-4. 12. M.J. LIBERMAN, K.W. CHURCH (1992), "Text analysis and word pronunciation in text-to-speech synthesis", in Advances in Speech Signal Processing, S. Furuy, M.M. Sondhi eds., Dekker, New York, pp.791-831. 13. J. Patton (2007), ELEC 484 Project – Pitch Synchronous Overlap-Add, http://www.ece.uvic.ca/~jpatton/yeshua1984/Elec484/Elec484_files/ELEC%20484%20- %20PSOLA%20Final%20Project%20Report.pdf. 14. H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real-Time Speech Synthesis on An Ultra Low-Resource, Programable DSP System, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002. 15. Styger, T., Keller, E., Formant synthesis. In E.keller (ed.), Fundamental of Speech Synthesis and Speech Recognition: Basic concepts, State of the Art, and Future Challenges, (pp. 109-128), Chichester: Jonh Wiley. (from Internet). 16. Xuedong H. (1997), Recent Improvement on Microsoft’s Trainable Text-to-Speech Systems, ICASSP. 17. J. Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A Novel HMM-Based TTS System Using Both Continuous HMMs and Discrete HMMs, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2007. 3
18. H. Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW. Black, Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 6th ISCA Workshop on Speech Synthesis, Bonn, Germany. 19. https://www5.dialogic.com/products/docs/appnotes/10532_Dialogic_ADPCM_Algorithm _an.pdf 20. http://www.ebroadcast.com.au/lookup/encyclopedia/te/Text_to_speech.html 21. http://hts.sp.nitech.ac.jp/. 22. http://www.fon.hum.uva.nl/praat/ 4