Tiểu luận
m lược lịch sử phát triển
nhn dạng tiếng nói
TÀI LIỆU THAM KHẢO 2
MỤC LỤC
LỜI MỞ ĐẦU ................................................................................................................. 2
PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI ............ 3
I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG ....................... 3
II. NHNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN ..... 5
III. CÁC ĐỊNH HƯỚNGNG NGHỆ TRONG NHỮNG NĂM 1970 ................ 7
IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 .................... 11
V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIP ..................................... 18
VI. TÓM TT .......................................................................................................... 20
PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG ....................... 24
I. NGUYÊN TẮC PHÂN NHỎ ............................................................................... 24
II. NGUYÊN TC PHẨM CHẤT CỤC BỘ ........................................................... 24
III. NGUYÊN TẮC KẾT HỢP................................................................................. 24
IV. NGUYÊN TẮC TÁCH KHỎI ........................................................................... 24
V. NGUYÊN TC LINH ĐỘNG ............................................................................ 24
VI. NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” ........................................... 25
VII. NGUYÊN TẮC QUAN HỆ PHẢN HỒI ......................................................... 25
VIII. NGUYÊN TẮC LIÊN TC TÁC ĐỘNG CÓ ÍCH ........................................ 25
I LIỆU THAM KHẢO ............................................................................................ 26
LỜI MỞ ĐẦU 3
LỜI MỞ ĐẦU
Lời nói là phương tiện chính của giao tiếp giữa con người. Vì nhng do
khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của
con người, mong muốn tự động hóa các nhiệm vụ đơn gin vốn đòi hỏi tương
tác người-máy, nghiên cứu về nhận dạng tiếng nói tđộng (và tổng hợp tiếng
nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua.
T những năm 1930, khi Homer Dudley của phòng thí nghiệm Bell đề
xuất một hình hthống cho phân tích và tổng hợp tiếng nói, vấn đề nhận
dạng tiếng nói tự động đã tiến triển liên tục, từ một máy đơn giản khnăng
phản ứng với một tập nhỏ c âm thanh đến một hệ thống phức tạp có khả năng
phản ứng với ngôn ngữ nói tự nhiên. Dựa trên những bước tiến trong hình
thống kê tiếng nói trong những năm 1980, những hệ thống nhận dạng tiếng nói
tđộng ngày nay cung cấp ứng dụng rộng rãi trong những nhiệm vụ yêu cầu
giao tiếp người y như h thống xử lý cuộc gọi tự động trong các mạng điện
thoại và những hệ thống truy xut thông tin ncung cấp thông tin cập nhật v
du lịch, giá cả hàng hóa, chứng khoán, thông tin thời tiết… Bài tiểu luận này
tóm tắt những bước tiến nổi bật trong nghiên cứu và phát triển nhận dạng tiếng
nói tự động trong những thập kỷ gần đây và các nguyên tắc sáng tạo đã được sử
dụng trong việc tạo ra các hệ thống nhận dạng tiếng nói.
PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 4
PHN I. TÓM ỢC LỊCH SỬ PHÁT TRIỂN
NHẬN DẠNG TIẾNG NÓI
I. T CÁC HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PH TIẾNG
NÓI
Nỗ lực để phát triển các máy móc bt chước khả năng giao tiếp bằng tiếng
nói của con người v như bắt đu vào nửa cuối thế kỷ 18. Năm 1773, nhà
khoa học người Nga, Christian Kratzenstein, một giáo sinh lý học
Copenhagen đã thành công trong vic tạo ra các nguyên âm bằng cách sử dụng
các ống cộng hưởng kết nối với các ống organ. Sau đó, Wolfgang von
Kempelen Vienna xây dựng mt cmáy tạo ra âm thanh tiếng nói bằng
khí (1791) và giữa thế kỷ 18 Charles Wheatstone xây dựng một phiên bản c
máy của von Kempelen bằng cách sử dụng các bộ cộng hưởng làm bằng da, cu
hình của nó thđược thay đổi hoặc kiểm soát bằng tay đ tạo ra các âm
thanh gần giống với tiếng nói như thể hiện trong hình 1.
Hình 1. Phiên bản cỗ máy Kempelen của Wheatstone
Trong nửa đầu của thế kỉ 20, Fletcher và những người khác tại phòng thí
nghiệm Bell đã đưa ra các dẫn chứng bằng tài liệu v mối quan hệ giữa ph
tiếng nói (sự phân bố cường độ của âm thanh tiếng nói thông qua tần số) và các
PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 5
đặc tính âm thanh của cũng như tính dhiểu của đối với người nghe.
Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng rất nhiều bởi c
nghiên cứu của Fletcher, phát triển một c máy tổng hợp tiếng nói gọi là
VODER (Voice Operating Demonstrator), phiên bản điện tử (với điều khiển
bằng khí) của c máy Wheatstone. Hình 2 cho thy một đồ khối của
VODER bao gm một wrist bar để điều khiển tín hiệu, và bàn chân đạp đ
kiểm soát tần số dao động (cao độ của tiếng nói tổng hợp). Các tín hiệu truyền
động được thông qua thông qua mười bộ lọc bandpass với cấp độ đầu ra được
điều khiển bằng tay. 10 blọc bandpass này được sử dụng để làm thay đổi sự
phân bnăng lượng của tín hiệu nguồn trên một phạm vi tần số, từ đó xác định
các đặc tính của âm thanh tiếng nói tại loa. Vì vậy, để tổng hợp một u, người
điều khiển VODER phải tìm hiểu làm thế o để kiểm soát và điều khiển
VODER để tạo ra câu nói. VODER được giới thiệu tại hội chợ thế giới New
York City vào năm 1939 coi một cột mốc quan trọng trong sự tiến triển
của máy nói.
Hình 2. Sơ đồ khối của cỗ máy VODER
Những người tiên phong v tiếng nói như Harvery Fletcher và Homer
Dudley đã thiết lập một cách vững chắc tầm quan trọng của phổ tín hiệu để xác
định chắc chắn các tính chất ngữ âm của tiếng nói. Sau chuẩn được thiết lp bởi
hai nhà khoa học xut sắc, hầu hết các hệ thống hiện đại các thuật toán nhận