Tiểu luận

Tóm lược lịch sử phát triển

nhận dạng tiếng nói

TÀI LIỆU THAM KHẢO

2

MỤC LỤC

LỜI MỞ ĐẦU ................................................................................................................. 2

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI ............ 3

I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG ....................... 3

II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN ..... 5

III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG NHỮNG NĂM 1970 ................ 7

IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 .................... 11

V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP ..................................... 18

VI. TÓM TẮT .......................................................................................................... 20

PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG ....................... 24

I. NGUYÊN TẮC PHÂN NHỎ ............................................................................... 24

II. NGUYÊN TẮC PHẨM CHẤT CỤC BỘ ........................................................... 24

III. NGUYÊN TẮC KẾT HỢP................................................................................. 24

IV. NGUYÊN TẮC TÁCH KHỎI ........................................................................... 24

V. NGUYÊN TẮC LINH ĐỘNG ............................................................................ 24

VI. NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” ........................................... 25

VII. NGUYÊN TẮC QUAN HỆ PHẢN HỒI ......................................................... 25

VIII. NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CÓ ÍCH ........................................ 25

TÀI LIỆU THAM KHẢO ............................................................................................ 26

LỜI MỞ ĐẦU

3

LỜI MỞ ĐẦU

Lời nói là phương tiện chính của giao tiếp giữa con người. Vì những lý do

khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của

con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương

tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng

nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua.

Từ những năm 1930, khi Homer Dudley của phòng thí nghiệm Bell đề

xuất một mô hình hệ thống cho phân tích và tổng hợp tiếng nói, vấn đề nhận

dạng tiếng nói tự động đã tiến triển liên tục, từ một máy đơn giản có khả năng

phản ứng với một tập nhỏ các âm thanh đến một hệ thống phức tạp có khả năng

phản ứng với ngôn ngữ nói tự nhiên. Dựa trên những bước tiến trong mô hình

thống kê tiếng nói trong những năm 1980, những hệ thống nhận dạng tiếng nói

tự động ngày nay cung cấp ứng dụng rộng rãi trong những nhiệm vụ yêu cầu

giao tiếp người – máy như hệ thống xử lý cuộc gọi tự động trong các mạng điện

thoại và những hệ thống truy xuất thông tin như cung cấp thông tin cập nhật về

du lịch, giá cả hàng hóa, chứng khoán, thông tin thời tiết… Bài tiểu luận này

tóm tắt những bước tiến nổi bật trong nghiên cứu và phát triển nhận dạng tiếng

nói tự động trong những thập kỷ gần đây và các nguyên tắc sáng tạo đã được sử

dụng trong việc tạo ra các hệ thống nhận dạng tiếng nói.

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

4

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN

NHẬN DẠNG TIẾNG NÓI

I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG

NÓI

Nỗ lực để phát triển các máy móc bắt chước khả năng giao tiếp bằng tiếng

nói của con người có vẻ như bắt đầu vào nửa cuối thế kỷ 18. Năm 1773, nhà

khoa học người Nga, Christian Kratzenstein, một giáo sư sinh lý học ở

Copenhagen đã thành công trong việc tạo ra các nguyên âm bằng cách sử dụng

các ống cộng hưởng kết nối với các ống organ. Sau đó, Wolfgang von

Kempelen ở Vienna xây dựng một cỗ máy tạo ra âm thanh tiếng nói bằng cơ

khí (1791) và giữa thế kỷ 18 Charles Wheatstone xây dựng một phiên bản cỗ

máy của von Kempelen bằng cách sử dụng các bộ cộng hưởng làm bằng da, cấu

hình của nó có thể được thay đổi hoặc kiểm soát bằng tay để tạo ra các âm

thanh gần giống với tiếng nói như thể hiện trong hình 1.

Hình 1. Phiên bản cỗ máy Kempelen của Wheatstone

Trong nửa đầu của thế kỉ 20, Fletcher và những người khác tại phòng thí

nghiệm Bell đã đưa ra các dẫn chứng bằng tài liệu về mối quan hệ giữa phổ

tiếng nói (sự phân bố cường độ của âm thanh tiếng nói thông qua tần số) và các

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

5

đặc tính âm thanh của nó cũng như tính dễ hiểu của nó đối với người nghe.

Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng rất nhiều bởi các

nghiên cứu của Fletcher, phát triển một cỗ máy tổng hợp tiếng nói gọi là

VODER (Voice Operating Demonstrator), là phiên bản điện tử (với điều khiển

bằng cơ khí) của cỗ máy Wheatstone. Hình 2 cho thấy một sơ đồ khối của

VODER bao gồm một wrist bar để điều khiển tín hiệu, và bàn chân đạp để

kiểm soát tần số dao động (cao độ của tiếng nói tổng hợp). Các tín hiệu truyền

động được thông qua thông qua mười bộ lọc bandpass với cấp độ đầu ra được

điều khiển bằng tay. 10 bộ lọc bandpass này được sử dụng để làm thay đổi sự

phân bố năng lượng của tín hiệu nguồn trên một phạm vi tần số, từ đó xác định

các đặc tính của âm thanh tiếng nói tại loa. Vì vậy, để tổng hợp một câu, người

điều khiển VODER phải tìm hiểu làm thế nào để kiểm soát và điều khiển

VODER để tạo ra câu nói. VODER được giới thiệu tại hội chợ thế giới ở New

York City vào năm 1939 và coi là một cột mốc quan trọng trong sự tiến triển

của máy nói.

Hình 2. Sơ đồ khối của cỗ máy VODER

Những người tiên phong về tiếng nói như Harvery Fletcher và Homer

Dudley đã thiết lập một cách vững chắc tầm quan trọng của phổ tín hiệu để xác

định chắc chắn các tính chất ngữ âm của tiếng nói. Sau chuẩn được thiết lập bởi

hai nhà khoa học xuất sắc, hầu hết các hệ thống hiện đại và các thuật toán nhận

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

6

dạng tiếng nói được dựa trên khái niệm về đo (time-varying) phổ cường độ

tiếng nói (hoặc biến thể của nó là cepstrum), một phần do thực tế là đo phổ

cường độ tiếng nói từ một tín hiệu là tương đối dễ dàng để thực hiện với kỹ

thuật xử lý tín hiệu kỹ thuật số hiện đại.

II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG

ĐẦU TIÊN

Những nỗ lực sớm để thiết kế hệ thống nhận dạng tiếng nói tự động chủ

yếu được dẫn đường bởi lý thuyết ngữ âm học, trong đó mô tả các yếu tố ngữ

âm của tiếng nói (những âm thanh cơ bản của ngôn ngữ) và cố gắng giải thích

làm thế nào chúng được nhận ra trong một lời nói. Những yếu tố này bao gồm

các âm vị, vị trí tương ứng và cách thức phát âm được sử dụng để tạo ra âm

thanh trong các ngữ cảnh ngữ âm khác nhau. Ví dụ, để tạo ra một nguyên âm

ổn định, các dây thanh âm rung (để kích thích thanh quản), và không khí truyền

qua thanh quản kết quả là âm thanh được cộng hưởng một cách tự nhiên giống

như những gì xảy ra trong một ống âm thanh. Các chế độ cộng hưởng tự nhiên

này được gọi là các thành tố hay là các tần số thành tố, được biểu hiện như các

vùng chính tập trung năng lượng trong phổ cường độ tiếng nói. Năm 1952,

Davis, Biddulph, và Balashek của phòng thí nghiệm Bell đã xây dựng một hệ

thống nhận biết các chữ số cô lập do một người nói, bằng cách sử dụng các tần

số thành tố đo (ước tính) vùng nguyên âm của mỗi chữ số. Hình 3 cho thấy biểu

đồ đường biểu diễn thành tố cùng với phạm vi của các tần số thành tố thứ nhất

và thứ hai cho mỗi chữ số từ 1 đến 9 và 0. Những đường biểu diễn này đóng vai

trò là "mô hình tham chiếu" để xác định danh tính của một con số chưa biết.

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

7

Hình 3. Biểu đồ biểu diễn thành tố 1 và 2 của các chữ số

Trong thập niên 1950, Olson và Belar của phòng thí nghiệm RCA xây

dựng một hệ thống nhận dạng 10 âm tiết do một người nói [10]. Và tại phòng

thí nghiệm MIT Lincoln, anh em nhà Forgie đã xây dựng bộ nhận dạng 10

nguyên âm độc lập với người nói. Trong thập niên 1960, một số phòng thí

nghiệm ở Nhật đã chứng minh khả năng xây dựng phần cứng với mục đích đặc

biệt để thực hiện một nhiệm vụ nhận dạng tiếng nói. Đáng chú ý nhất là nhận

diện nguyên âm của Suzuki và Nakata ở phòng nghiên cứu vô tuyến tại Tokyo,

nhận diện âm vị của Sakai và Doshita tại Đại học Kyoto, và nhận diện chữ số

của phòng thí nghiệm NEC. Nghiên cứu của Sakai và Doshita đánh dấu việc sử

dụng lần đầu tiên của một phân đoạn (segmenter) tiếng nói để phân tích và nhận

diện tiếng nói tại các phần khác nhau của một lời nói đầu vào. Ngược lại, nhận

diện chữ số bị cô lập ngầm giả định rằng lời nói chứa một chữ số đầy đủ (và

không có âm thanh tiếng nói khác xen vào) và do đó không cần một

"segmenter" rõ ràng. Nghiên cứu của trường Đại học Kyoto có thể là coi là tiền

thân của một hệ thống nhận dạng tiếng nói liên tục.

Một hệ thống nhận dạng khác là Fry and Denes tại trường Đại học College

ở Anh, đã xây dựng một bộ nhận diện âm vị để nhận ra 4 nguyên âm và 9 phụ

âm. Bằng cách kết hợp thông tin thống kê về trình tự âm vị trong tiếng Anh, họ

tăng độ chính xác nhận dạng âm vị tổng thể cho các từ bao gồm hai hoặc nhiều

âm vị. Nghiên cứu này đánh dấu lần sử dụng đầu tiên cú pháp thống kê (ở cấp

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

8

độ âm vị) trong nhận dạng tiếng nói tự động.

Một thay thế cho việc sử dụng phân đoạn tiếng nói là khái niệm của việc

áp dụng time scale không thống nhất cho việc sắp xếp các mẫu tiếng nói. Khái

niệm này bắt đầu được chấp nhận trong thập niên 1960 thông qua nghiên cứu

của Tom Martin tại phòng thí nghiệm RCA và Vintsyuk ở Liên Xô. Martin thừa

nhận sự cần thiết để đối phó với thời gian không thống nhất trong các lời nói

được lặp lại và đề nghị một loạt các giải pháp, bao gồm phát hiện điểm kết thúc

của một lời nói, điều này nâng cao độ tin cậy của việc nhận diện. Vintsyuk đề

xuất việc sử dụng lập trình động cho sự liên kết thời gian giữa hai lời nói để lấy

được đánh giá đầy đủ về sự tương tự của chúng. Nghiên cứu của ông, mặc dù

vẫn chưa được rõ ràng nhưng đã đi trước Sakoe và Chiba cũng như những

người khác đã đề xuất những phương pháp chính thức hơn, thường được biết

đến là dynamic time warping trong so sánh mẫu tiếng nói. Kể từ cuối những

năm 1970, chủ yếu là sự công bố của Sakoe và Chiba, lập trình động, trong rất

nhiều biến thể khác nhau (bao gồm thuật toán Viterbi), đã trở thành một kỹ

thuật không thể thiếu trong nhận dạng tiếng nói tự động.

III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1970

Trong cuối những năm 1960, Atal và Itakura độc lập xây dựng các khái

niệm cơ bản của mã dự đoán trước tuyến tính (LPC). Nó đã đơn giản hóa rất

nhiều việc đánh giá việc thanh quản phản ứng với các sóng tiếng nói. Vào giữa

những năm 1970, những ý tưởng cơ bản của việc áp dụng công nghệ nhận dạng

mẫu gốc để nhận dạng tiếng nói, dựa trên phương pháp LPC, đã được đề xuất

bởi Itakura, Rabiner, Levinson và một số người khác.

Cũng trong khoảng thời gian này, dựa trên sự thành công của mình trước

đó về nghiên cứu lời nói, Tom Martin thành lập công ty thương mại về nhận

dạng tiếng nói đầu tiên được gọi là Threshold Technology, Inc và phát triển sản

phẩm nhận dạng tiếng nói tự động thực sự đầu tiên được gọi là hệ thống VIP-

100. Hệ thống này chỉ được sử dụng trong một vài ứng dụng đơn giản, chẳng

hạn như bởi các hãng sản xuất tấm mặt TV (để kiểm soát chất lượng) và FedEx

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

9

(cho việc sắp xếp gói hàng trên băng tải), nhưng tầm quan trọng của nó là ở

cách nó ảnh hưởng đến Advanced Research Projects Agency (ARPA) của Bộ

Quốc phòng Mỹ để tài trợ cho chương trình Speech Understanding Research

(SUR) trong thời gian đầu những năm 1970. Trong số các hệ thống được xây

dựng bởi các nhà thầu của chương trình ARPA là hệ thống “Harpy” của Đại

học Carnegie Mellon. Nó có thể nhận dạng tiếng nói bằng cách sử dụng một bộ

từ vựng 1.011 từ, và với độ chính xác tương đối. Một trong những đóng góp

đặc biệt từ hệ thống “Harpy” là các khái niệm về làm một đồ thị tìm kiếm, miêu

tả ngôn ngữ nhận dạng tiếng nói như là một mạng được kết nối từ miêu tả của

các từ, các quy tắc ngữ pháp và các quy định ranh giới của các từ. Trong hệ

thống Harpy, các tiếng nói đầu vào, sau khi đi qua một phân tích tham số, được

phân đoạn và sau đó chuỗi các tham số phân đoạn của tiếng nói được so sánh

với mẫu sử dụng khoảng cách Itakura. Việc tìm kiếm đồ thị, dựa trên một thuật

toán băm, biên dịch, đưa ra giả thuyết, cắt xén, và sau đó kiểm tra chuỗi các từ

(hoặc âm thanh) được nhận dạng với ràng buộc của hệ thống với độ chính xác

cao nhất. Hệ thống Harpy có lẽ là hệ thống đầu tiên tận dụng lợi thế của một

mạng trạng thái hữu hạn để giảm bớt tính toán và xác định hiệu quả chuỗi phù

hợp nhất. Tuy nhiên, phương pháp tối ưu hóa mạng trạng thái hữu hạn (FSN)

(về hiệu suất cũng như loại bỏ sự dư thừa) cho đến đầu những năm 1990 mới

xuất hiện.

Các hệ thống khác được phát triển theo chương trình SUR bao gồm

Hearsay-II của CMU và HWIM của BBN. Cả hai hệ thống này đều không đạt

được mục tiêu hiệu suất của ARPA khi nó kết thúc vào năm 1976. Tuy nhiên,

cách tiếp cận được đề xuất bởi Hearsay-II sử dụng quy trình không đồng bộ

song song mô phỏng các nguồn kiến thức cấu thành trong một hệ thống tiếng

nói là một khái niệm tiên phong. Hệ thống Hearsay-II mở rộng phân tích nhận

dạng âm thanh (đến mức độ giả thuyết cao hơn). Các thông tin ở mức độ thấp

được chuyển đến một bảng đen toàn cục nơi tri thức từ các nguồn song song kết

hợp để tạo ra giả thuyết ở mức độ cao hơn. Hệ thống HWIM của BBN, mặt

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

10

khác, được biết đến những ý tưởng thú vị của nó bao gồm 1 mạng giải mã từ

vựng kết hợp các quy tắc phức tạp về âm vị học (nhằm mục đích nhận dạng

chính xác âm vị). Nó xử lý phân đoạn bằng 1 mạng lưới giả thiết thay thế, và

khái niệm xác minh từ ở mức độ tham số. Một hệ thống đáng chú ý vào thời

gian này là hệ thống DRAGON của Jim Baker. Người sau này đã chuyển tới

Massachusetts để bắt đầu một công ty có cùng tên trong đầu những năm 1980.

Song song với các nỗ lực khởi xướng bởi ARPA, 2 hướng khái quát trong

nghiên cứu nhận dạng tiếng nói bắt đầu định hình trong những năm 1970. IBM

và phòng thí nghiệm Bell của AT & T cơ bản đưa ra hai trường phái khác nhau

về khả năng ứng dụng của các hệ thống nhận dạng tiếng nói tự động cho các

ứng dụng thương mại.

Những nghiên cứu của IBM do Fred Jelinek đảm nhiệm nhằm tạo ra một

máy đánh chữ kích hoạt bằng tiếng nói (VAT). Các chức năng chính của nó là

chuyển đổi một câu nói thành 1 chuỗi các chữ cái và từ để có thể được hiển thị

trên 1 màn hình được đánh ra trên giấy. Hệ thống nhận dạng này được gọi là

Tangora thực sự là một hệ thống độc lập người nói (máy đánh chữ phải được

huấn luyện bởi mỗi người dùng cá nhân). Tập trung kỹ thuật của nó là kích

thước của bộ từ vựng nhận diện (càng lớn càng tốt, với mục tiêu chính là sử

dụng phù hợp với môi trường văn phòng), và cấu trúc của các mô hình ngôn

ngữ được miêu tả bởi các quy tắc cú pháp thống kê mô tả một chuỗi các ký hiệu

ngôn ngữ (ví dụ, âm vị hoặc từ) xuất hiện trong các tín hiệu tiếng nói như thế

nào. Đây là loại nhiệm vụ nhận dạng tiếng nói thường được gọi là phiên mã.

Tập hợp các quy tắc ngữ pháp hoặc cú pháp thống kê được gọi là một mô hình

ngôn ngữ, trong đó mô hình n-gram xác định khả năng xuất hiện của một chuỗi

được sắp xếp gồm n từ thường xuyên được sử dụng nhất. Mặc dù cả hai mô

hình ngôn ngữ n-gram và ngữ pháp truyền thống đều là biểu hiện của các quy

tắc của ngôn ngữ, vai trò của chúng về cơ bản là khác nhau. Mô hình n-gram

mô tả mối quan giữa n từ hệ hoàn toàn dựa trên sự thuận lợi và sức mạnh của

việc mô tả một quy tắc ngôn ngữ sử dụng thống kê. Nó gây ấn tượng với việc

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

11

tìm kiếm từ ngữ trong nhận dạng tiếng nói. Đặc biệt nó được sử dụng trong một

trò chơi từ ngữ nổi tiếng của Claude Shannon, một cuộc đấu giữa người và

máy. Trong cuộc thi đấu này, cả người và máy lần lượt đoán từ kế tiếp trong

một câu ngẫu nhiên. Người đoán dựa trên kinh nghiệm trong việc sử dụng ngôn

ngữ. Máy dựa vào các số liệu thống kê về từ ngữ để đưa ra dự đoán tốt nhất dựa

trên tính thường xuyên của các từ ngữ được ước đoán. Hầu như máy luôn

thắng. Từ khi được giới thiêu trong thập niên 1980, mô hình ngôn ngữ n-gram

và các biến thể của nó đã trở thành không thể thiếu trong các hệ thống nhận

diện tiếng nói với vốn từ vựng lớn.

Tại phòng nghiên cứu Bell của AT & T, mục tiêu của chương trình nghiên

cứu là để cung cấp dịch vụ viễn thông tự động đến cộng đồng, chẳng hạn như

quay số bằng tiếng nói, ra lệnh và kiểm soát việc định tuyến các cuộc gọi.

Những hệ thống tự động này được mong chờ là sẽ làm việc tốt với một lượng

lớn người dùng mà không cần phải huấn luyện riêng biệt với từng người.

Phòng thí nghiệm Bell tập trung vào thiết kế một hệ thống độc lập với người

nói có thể đối phó với biến đổi âm thanh nội tại trong các tín hiệu tiếng nói đến

từ nhiều người nói khác nhau, với các giọng địa phương khác nhau. Điều này

dẫn đến việc tạo ra một loạt các thuật toán phân đoạn tiếng nói cho việc tạo mô

hình tham chiếu từ và âm thanh có thể được sử dụng với một loạt các người nói

và giọng khác nhau. Hơn nữa, nghiên cứu để hiểu và kiểm soát sự thay đổi âm

thanh của các tiếng nói khác nhau đã dẫn đến việc nghiên cứu đo khoảng cách

phổ tiếng nói (ví dụ, khoảng cách Itakura) và các kỹ thuật mô hình hóa thống

kê để tạo ra sự mô tả đầy đủ về tiếng nói từ một lượng lớn người khác nhau. Kể

từ khi các ứng dụng như quay số bằng tiếng nói và định tuyến cuộc gọi thường

bao gồm các câu nói với lượng từ vựng hạn chế và chỉ gồm một vài từ, đã có

một trọng tâm của nghiên cứu tại phòng thí nghiệm Bell vào cái được gọi

chung là mô hình âm học (miêu tả phổ của âm thanh hay các lời nói) qua mô

hình ngôn ngữ (miêu tả ngữ pháp, cú pháp). Ngoài ra, cái quan trọng nhất trong

tiếp cận của phòng thí nghiệm Bell là khái niệm từ khóa trọng tâm như là một

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

12

hình thức sơ khai của sự hiểu biết lời nói. Kỹ thuật từ khoá trọng tâm nhằm

phát hiện một từ khóa hoặc cụm từ khóa của một số ý nghĩa đặc biệt trong một

lời nói. Sự cần thiết của từ khoá trọng tâm là để thích ứng với những người nói

thích nói chuyện với những câu tự nhiên chứ không phải là bằng cách sử dụng

chuỗi lệnh cứng nhắc khi yêu cầu dịch vụ (như khi họ nói chuyện với một nhà

điều hành). Ví dụ, một người gọi điện thoại yêu cầu trả phí qua thẻ tín dụng có

thể nói câu "Tôi muốn tính phí vào thẻ tín dụng của tôi" chứ không phải là chỉ

nói "thẻ tín dụng". Trong một ứng dụng với phạm vi giới hạn, sự hiện diện của

các từ khóa "thẻ tín dụng" trong một câu nói tự nhiên là đủ để cho biết ý định

của người gọi là thực hiện một cuộc gọi trả phí qua thẻ. Việc phát hiện được từ

khóa hoặc cụm từ quan trọng sau đó sẽ kích hoạt một hành động theo quy định

(hoặc chuỗi các hành động) như là một phần của dịch vụ, đáp ứng lại lời nói

của người dùng.

Những tiếp cận nhận dạng tiếng nói của IBM và phòng thí nghiệm Bell

của AT & T đã có một ảnh hưởng sâu sắc trong sự phát triển của công nghệ

giao tiếp tiếng nói người - máy. Một trong những chủ đề phổ biến giữa những

nỗ lực này, mặc dù có sự khác biệt, là hình thức và sự chặt chẽ toán học bắt đầu

nổi lên như là khía cạnh riêng biệt và quan trọng của nghiên cứu nhận dạng

tiếng nói. Trong khi sự khác biệt trong mục tiêu dẫn đến sự khác biệt thấy rõ

của công nghệ trong các ứng dụng khác nhau, sự phát triển nhanh chóng của

các phương pháp thống kê trong những năm 1980, đáng chú ý nhất là mô hình

Markov ẩn (HMM), gây ra độ ảnh hưởng nhất định trong thiết kế hệ thống.

Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói thực tế được dựa trên

khuôn khổ thống kê và những kết quả phát triển trong những năm 1980, với

những cải tiến đáng kể bổ sung trong những năm 1990.

IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990

Nghiên cứu nhận dạng tiếng nói trong những năm 1980 được đặc trưng

bởi một sự thay đổi trong phương pháp luận từ cách tiếp cận dựa trên mẫu trực

quan hơn hướng tới một khuôn khổ chặt chẽ hơn của mô hình thống kê. Mặc

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

13

dù các ý tưởng cơ bản của mô hình Markov ẩn (HMM) đã được biết đến và

hiểu sớm trong vài phòng thí nghiệm (ví dụ, IBM và Viện Phân tích Quốc

phòng (IDA)), phương pháp luận vẫn chưa đầy đủ cho đến giữa những năm

1980 sau sự công bố rộng rãi của lý thuyết, mô hình Markov ẩn đã trở thành

phương pháp ưa thích cho nhận dạng tiếng nói. Sự phổ biến và sử dụng của

HMM như là nền tảng chính cho hệ thống tự động nhận dạng tiếng nói và các

hệ thống hiểu biết đã không thay đổi trong hai thập kỷ qua, đặc biệt là vì sự cải

tiến liên tục của công nghệ này.

Mô hình Markov ẩn là một quá trình ngẫu nhiên gấp đôi, mô hình hóa biến

đổi nội tại của tín hiệu tiếng nói cũng như cấu trúc của ngôn ngữ nói trong một

khuôn khổ mô hình hóa thống kê tổng hợp và nhất quán. Như đã biết, một tín

hiệu tiếng nói thực tế vốn rất khác nhau (do sự thay đổi trong cách phát âm và

giọng, cũng như các yếu tố môi trường như độ vang và tiếng ồn). Khi mọi

người nói cùng một từ, tín hiệu âm thanh không phải là giống hệt nhau (trong

thực tế chúng có thể khác nhau đáng kể), mặc dù cấu trúc ngôn ngữ cơ bản, về

cú pháp, phát âm và ngữ pháp, có thể (hoặc không) vẫn giống nhau. Hình thức

của HMM các là một phép đo xác suất sử dụng chuỗi Markov để miêu tả cho

các cấu trúc ngôn ngữ và một tập phân bố xác suất để giải thích cho các biến

đổi trong việc nhận ra âm thanh trong lời nói. Với một tập các lời nói được biết

đến, miêu tả cho một bộ sưu tập đầy đủ của các biến thể của các từ được quan

tâm (gọi là tập huấn luyện), người ta có thể sử dụng một phương pháp ước

lượng hiệu quả, được gọi là thuật toán Baum-Welch để có được tập hợp tốt nhất

các thông số xác định mô hình hoặc các mô hình tương ứng. Việc ước tính các

tham số để xác định mô hình tương đương với việc đạo tạo và học tập. Mô hình

kết quả sau đó được sử dụng để cung cấp một chỉ số khả năng (xác suất) rằng

một lời nói thực sự là một thực hiện của các từ (hoặc từ) được miêu bởi mô

hình. Phép đo xác suất trình bày bởi HMM là một thành phần thiết yếu của một

hệ thống nhận dạng tiếng nói theo cách tiếp cận nhận dạng mẫu thống kê, và

nguồn gốc từ lý thuyết quyết định Bayes. Phương pháp luận của HMM đại diện

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

14

cho một bước tiến quan trọng từ nhận dạng mẫu đơn giản và các phương pháp

ngữ âm sử dụng trước đó trong các hệ thống nhận dạng tiếng nói tự động.

Ý tưởng của mô hình Markov ẩn xuất hiện lần đầu tiên vào cuối những

năm 1960 tại Viện Phân tích Quốc phòng (IDA) ở Princeton, NJ Len Baum

xem HMM như là một tập các chức năng xác suất của 1 chuỗi Markov, trong

đó theo định nghĩa, bao gồm hai sự phân bố lồng nhau, một liên quan đến chuỗi

Markov và một đến tập hợp các phân bố xác suất, mỗi cái liên quan đến một

trạng thái của chuỗi Markov theo thứ tự. Mô hình HMM cố gắng để xác định

các đặc điểm của một chuỗi xác suất quan sát nhưng không phải là một chức

năng cố định, thay vì vậy nó thay đổi theo một chuỗi Markov. Quá trình ngẫu

nhiên gấp đôi được tìm thấy thực sự hữu ích trong một số ứng dụng như dự

đoán thị trường chứng khoán và phân tích crypto của mật mã quay được sử

dụng rộng rãi trong Thế chiến II. Kỹ thuật ước tính và mô hình hóa của Baum

lần đầu tiên xuất hiện làm những quan sát riêng biệt (tức là, người ta giả định

các giá trị từ một tập hợp hữu hạn và do đó được điều chỉnh bởi các phân bố

xác suất rời rạc) và sau đó các quan sát ngẫu nhiên đã được mô phỏng bằng

cách sử dụng hàm mật độ xác suất log-concave. Kỹ thuật này khá mạnh mẽ

nhưng bị hạn chế. Liporace, cũng thuộc IDA, đã nới lỏng các ràng buộc mật độ

log-concave để bao gồm một ràng buộc mật độ đối xứng elip (do đó bao gồm

cả mật độ Gaussian và mật độ Cauchy), với sự giúp đỡ từ một miêu tả định lý

cũ của Fan. Quá trình ngẫu nhiên gấp đôi của Baum bắt đầu tìm các ứng dụng

trong lĩnh vực tiếng nói, ban đầu trong các hệ thống nhận dạng người nói, vào

cuối năm những 1970. Khi kỹ thuật HMM được sử dụng nhiều, nó đã bộc lộ

hạn chế, hình thức của các chức năng mật độ áp đặt một giới hạn về hiệu suất

của hệ thống, đặc biệt là các nhiệm vụ độc lập với người nói khi sự phân phối

tham số tiếng nói không thể mô hình hóa đầy đủ bởi một log-concave đơn hoặc

hàm mật độ đối xứng elip. Vào đầu những năm 1980, tại phòng thí nghiệm

Bell, lý thuyết HMM đã được mở rộng mật độ hỗn hợp kể từ khi chứng minh

sự quan trọng sống còn của chúng trong việc đảm bảo độ nhận dạng chính xác,

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

15

đặc biệt là đối với các nhiệm vụ đòi hòi độc lập người nói, nhận giạng tiếng nói

với vốn từ vựng lớn.

Việc kết hợp của mô hình Markov ẩn (với lợi thế của nó trong tính chắc

chắn của thống kê, đặc biệt là trong việc xử lý biến đổi âm thanh) và mạng

trạng thái hữu hạn (với hiệu quả tính toán và tìm kiếm của mình, đặc biệt là

trong việc xử lý giả thuyết thứ tự các từ) là một sự quan trọng.

Hình 4. Mô hình tổng hợp các trạng thái hữu hạn

cho lời nói “show all alerts”

Hình 4 cho thấy một mô hình tổng hợp các trạng thái hữu hạn cho lời nói

“show all alerts”, được xây dựng từ một số mô hình subword phụ thuộc vào bối

cảnh để miêu tả cho các âm vị giống như đơn vị lời nói tương ứng (bao gồm cả

một đơn vị cho sự im lặng đó có thể xảy ra vào lúc bắt đầu và kết thúc của câu,

cũng như ở cuối của bất kỳ từ trong câu, như có thể xảy ra trong quá trình tạm

dừng khi nói). Đồ thị trạng thái hữu hạn được thực hiện như là một chuỗi

Markov để tính khả năng xảy ra, dựa trên trình tự quan sát của một lời nói. Lưu

ý rằng mỗi nút trong biểu đồ liên kết với một phân bố xác suất giải thích cho

biến đổi trong việc thực hiện những âm thanh giống như âm vị tương ứng. Khả

năng một lời nói tạo ra bởi mạng trạng thái hữu hạn đại diện bởi mô hình được

tính như là một tổng tuần tự các khả năng cục bộ (liên quan đến các đơn vị cơ

bản của mô hình tổng hợp) sau khi một liên kết trạng thái lập trình động được

thực hiện để tối đa sự phù hợp giữa các đơn vị được gán nhãn và các phần

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

16

tương ứng của các quan sát (observation) tiếng nói (ngay cả đối với các mô

hình của các trình tự từ không chính xác). Tại thời điểm bất kỳ, luôn có một số

đơn vị giả thuyết và sự xác định danh tính âm thanh được dựa trên giá trị khả

năng tối đa. Số các đơn vị giả thuyết để so sánh và các con đường để tìm kiếm

có thể vô cùng lớn và do đó phải yêu cầu các thuật toán tính toán hiệu quả để

giải quyết vấn đề. Một công cụ, được gọi là thư viện FSM (finite-state

machine), thể hiện cách tiếp cận mạng trạng thái hữu hạn trong khuôn khổ bộ

chuyển đổi thống nhất đã được phát triển vào giữa những năm 1990 và đã trở

thành một thành phần chính của hầu hết các hệ thống nhận dạng và hiểu tiếng

nói hiện đại.

Một công nghệ khác được giới thiệu lại vào cuối những năm 1980 là ý

tưởng về mạng thần kinh nhân tạo (ANN). Các mạng thần kinh lần đầu tiên

được giới thiệu vào những năm 1950, nhưng không tạo ra được các kết quả

đáng chú ý. Sự xuất hiện của mô hình xử lý phân phối song song (PDP) trong

những năm 1980, nó là 1 kết nối dày đặc của các thành phần tính toán đơn giản,

và 1 phương thức "đào tạo" tương ứng, được gọi là lan truyền ngược đã làm

sống lại sự quan tâm xung quanh ý tưởng cũ về bắt chước cơ chế xử lý thần

kinh con người. Một hình thức đặc biệt của PDP là perceptron nhiều lớp, được

miêu tả trong hình 5, có lẽ nhận được sự chú ý nhiều nhất, không phải nó giống

với xử lý thần kinh mà vì khả năng của nó trong xấp xỉ bất kỳ hàm (đầu vào)

nào với một độ chính xác tùy ý, miễn là không có giới hạn nào trong sự phức

tạp của cấu hình xử lý bị áp đặt. Nếu một bộ nhận dạng mẫu được xem xét thực

hiện một hàm ánh xạ một mẫu đầu vào vào lớp nhận dạng, perceptron nhiều lớp

là một ứng cử viên cho mục đích này. Những cố gắng sử dụng mạng thần kinh

cho nhận dạng tiếng nói tập trung vào những nhiệm vụ đơn giản như nhận ra

một vài âm vị hoặc một vài từ (ví dụ, chữ số bị cô lập) với những thành công

tốt đẹp. Tuy nhiên, vấn đề của nhận dạng tiếng nói chắc chắn đòi hỏi phải xử lý

sự thay đổi thời gian, mạng lưới thần kinh dưới hình thức ban đầu đã không

đảm nhận được nhiệm vụ này. Những nghiên cứu đang diễn ra tập trung vào

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

17

việc tích hợp mạng thần kinh với các cấu trúc cần thiết của mô hình Markov ẩn

để tận dụng khả năng xử lý thời gian của HMM.

Trong năm 1990, một số sáng kiến đã diễn ra trong lĩnh vực nhận dạng

mẫu. Vấn đề nhận dạng mẫu, truyền thống theo khuôn khổ của Bayes và yêu

cầu ước tính sự phân bố dữ liệu, được chuyển đổi thành vấn đề tối ưu hóa liên

quan đến giảm thiểu các lỗi nhận dạng từ thực tế. Sự thay đổi cơ bản này của

mô hình gây ra bởi sự công nhận thực tế rằng các hàm phân bố cho các tín hiệu

tiếng nói có thể được lựa chọn hoặc xác định không chính xác, và rằng lý

thuyết quyết định Bayes không áp dụng được trong những trường hợp này. Sau

tất cả, mục tiêu của một thiết kế bộ nhận dạng nên là để đạt được ít lỗi nhận

dạng nhất hơn một hàm phân phối phù hợp nhất các bộ dữ liệu được ủng hộ bởi

các tiêu chuẩn Bayes. Khái niệm về phân loại tối thiểu hoặc lỗi thực nghiệm

sau đó đã cho ra đời một số kỹ thuật, trong đó phân biệt đào tạo và phương

pháp kernel-based như support vector machines (SVM) đã trở thành đối tượng

phổ biến của nghiên cứu.

Hình 5. Perceptron nhiều lớp

Thành công của phương pháp thống kê khơi lại sự quan tâm từ DARPA

vào cuối những năm 1980 và đầu những năm 1990, dẫn đến một số hệ thống

nhận dạng tiếng nói bao gồm hệ thống Sphinx từ CMU, hệ thống Byblos từ

BBN và hệ thống DECIPHER từ SRI. Hệ thống Sphinx của CMU đã thành

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

18

công trong việc tích hợp các phương pháp thống kê của mô hình Markov ẩn với

sức mạnh mạng tìm kiếm của hệ thống Harpy. Do đó, nó có thể đào tạo và

nhúng vào các mô hình âm vị phụ thuộc vào bối cảnh trong một mạng lưới giải

mã từ vựng phức tạp, đạt được những kết quả đáng chú ý trong nhận dạng tiếng

nói liên tục với vốn từ vựng lớn.

Với sự hỗ trợ của DARPA, việc đánh giá công nghệ nhận dạng tiếng nói

cho một loạt các nhiệm vụ đã được theo đuổi trong suốt những năm 1990 và thế

kỷ 21. Những đánh giá như vậy chủ yếu dựa trên các đo lường tỷ lệ lỗi từ (và

câu) như là con số hiệu năng của các hệ thống nhận dạng. Hơn nữa, những đánh

giá được tiến hành có hệ thống qua những nhiệm vụ được thiết kế cẩn thận với

mức độ khó khăn tăng dần, từ nhận dạng tiếng nói liên tục với cấu trúc ngữ

pháp cách điệu (như được sử dụng thường xuyên trong các nhiệm vụ quân sự)

đến lời nói đàm thoại. Hình 6 cho thấy một biểu đồ tóm tắt việc đo lường hiệu

năng của các nhiệm vụ nhận dạng tiếng nói liên tục với vốn từ vựng lớn theo

đánh giá của DARPA và NIST. Trong biểu đồ, nhiệm vụ “quản lý tài nguồn

lực” quan đến một cụm từ cứng nhắc kiểu quân đội với một vốn từ vựng gần

1000 từ. ATIS là một nhiệm vụ có liên quan đến cuộc trò chuyện tự nhiên với

một hệ thống lấy thông tin du lịch hàng không tự động; mặc dù lối nói là tự

nhiên, cấu trúc ngôn ngữ của nó khá hạn chế. WSJ đề cập đến sự phiên âm của

một số đoạn đọc từ báo Wall Street Journal, kích thước từ vựng có thể lên tới

60K từ. Nhiệm vụ tổng đài là một trong những thách thức lớn nhất được đề

xuất bởi DARPA. Lối nói theo kiểu đàm thoại thông thường, tự nhiên, với

nhiều từ không hoàn chỉnh, nói ngập ngừng… Nhận dạng những câu đàm thoại

kiểu này (không tuân thủ theo các ràng buộc ngôn ngữ) khó khăn hơn nhiều so

với các cuộc nói chuyện được định hướng tuân thủ các nguyên tắc ngữ pháp và

ngữ nghĩa. Ngoài ra, chương trình đánh giá cho thấy rằng việc tăng số lượng dữ

liệu tiếng nói được sử dụng để đánh giá các thông số nhận diện (như kích thước

của tập huấn luyện) luôn luôn dẫn đến giảm tỷ lệ lỗi từ. (Một hệ thống nhận

diện tiếng nói với vốn từ vựng lớn được coi là chấp nhận được nếu tỷ lệ lỗi từ

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

19

dưới 10%).

Trong những năm 1990 tiến bộ to lớn từ sự phát triển của các công cụ

phần mềm cho phép nhiều chương trình nghiên cứu cá nhân trên toàn thế giới.

Khi hệ thống trở nên phức tạp hơn (nhiều hệ thống từ vựng lớn liên quan đến

hàng chục ngàn mô hình âm vị và hàng triệu các thông số), một hệ thống phần

mềm tham khảo được cấu trúc tốt là không thể thiếu cho việc nghiên cứu thêm

và phát triển để kết hợp các khái niệm và các thuật toán mới. Hệ thống đã được

thực hiện bởi nhóm nghiên cứu tại Đại học Cambridge (được dẫn dắt bởi Steve

Young), được gọi là bộ công cụ mô hình Markov ẩn (HTK), là một trong những

công cụ phần mềm được chấp nhận rộng rãi nhất cho nghiên cứu nhận dạng

tiếng nói.

Hình 6. Đánh giá khả năng nhận dạng giọng nói cho

một số nhiệm vụ thực hiện bởi DARPA

V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP

Hầu hết các nghiên cứu nhận giạng tiếng nói cho đến những năm 1980 đều

coi vấn đề chính của nghiên cứu là chuyển sóng tiếng nói thành từ ngữ. Nhiều

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

20

nhà nghiên cứu cũng tin rằng quá trình speech-to-text là bước cần thiết đầu tiên

trong quá trình cho phép một máy tính có thể hiểu và trả lời lại tiếng nói của

con người. Trong lĩnh vực đánh giá công nghệ nhận dạng và hiểu tiếng nói cho

một loạt các nhiệm vụ, có hai điều quan trọng đã tìm ra về quá trình giao tiếp

bằng tiếng nói giữa con người và máy móc. Đầu tiên, những người sử dụng

tiềm năng của một hệ thống nhận dạng tiếng nói có xu hướng nói những câu tự

nhiên thường không đáp ứng đầy đủ các ràng buộc ngữ pháp của bộ nhận dạng,

và lời nói cũng thường xuyên bị hỏng bởi các thành phần nhiễu như tiếng ồn

xung quanh, âm thanh, tiếng nói không liên quan. Thứ hai, như trong giao tiếp

giữa người với người, các ứng dụng tiếng nói thường yêu cầu một cuộc đối

thoại giữa người dùng và máy tính để đạt được một số trạng thái hiểu biết mong

muốn. Một cuộc hội thoại như vậy thường yêu cầu những hoạt động như truy

vấn và xác nhận, do đó cung cấp một số hạn định cho lỗi trong nhận dạng và

hiểu tiếng nói. Phương pháp từ khóa trọng tâm (và ứng dụng của nó trong hệ

thống xử lý cuộc gọi nhận dạng tiếng nói (VRCP) của AT & T đã đề cập ở phần

trước), đã được giới thiệu để đáp ứng yếu tố đầu tiên trong khi yếu tố thứ hai

tập trung sự chú ý của cộng đồng nghiên cứu vào lĩnh vực quản lý cuộc hội

thoại. Nhiều ứng dụng và hệ thống chứng thực tầm quan trọng của quản lý hội

thoại qua độ chính xác nhận dạng từ thô của một hệ thống được giới thiệu vào

đầu những năm 1990 với mục tiêu cuối cùng tạo ra một máy tính có thể thực sự

bắt chước khả năng giao tiếp của con người. Trong số các hệ thống này,

Pegasus và Jupiter được phát triển tại Viện Công nghệ Massachusetts dưới sự

chỉ đạo của Victor Zue được chú ý đặc biệt, và hệ thống “Làm thế nào tôi có

thể giúp bạn” (HMIHY) của AT & T phát triển bởi Al Gorin là một dịch vụ

cũng được chú ý như vậy được giới thiệu như là một phần của hệ thống chăm

sóc khách hàng của AT & T cho dịch vụ giao tiếp khách hàng của họ trong năm

2000.

Pegasus là một hệ thống giao tiếp tiếng nói cung cấp thông tin về tình

trạng các chuyến bay của hãng hàng không trên một đường dây điện thoại

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

21

thông thường. Jupiter là một hệ thống tương tự tập trung vào truy cập thông tin

thời tiết, cả địa phương và quốc gia. Các hệ thống này là hình mẫu điển hình

hiệu quả của quản lý hội thoại. Với việc quản lý hội thoại được thiết kế một

cách thích đáng, các hệ thống này có thể hướng dẫn người sử dụng cung cấp

các thông tin cần thiết để xử lý một yêu cầu, trong một tập hợp nhỏ và tiềm ẩn

của các lựa chọn trình đơn, không cần yêu cầu chi tiết rõ ràng của truy vấn,

chẳng hạn như bằng cách sử dụng cụm từ quản lý thoại "hãy nói buổi sáng,

buổi chiều, hoặc buổi tối" khi khung thời gian của chuyến bay được trưng cầu.

Quản lý thoại cũng thường kết hợp chặt chẽ với sự xác nhận ẩn trong các cụm

từ được nhận dạng và xử lý lỗi để làm cho người sử dụng phản ứng như thể có

một nhân viên chứ không phải là một máy tính ở đầu bên kia của đường dây

điện thoại. Mục đích là để thiết kế một máy giao tiếp hơn chỉ đơn thuần là nhận

dạng các từ trong một lời nói.

Cuối những năm 1990 đã được đánh dấu bởi việc triển khai các ứng dụng

tiếng nói thực sự, từ VRCP (tự động xử lý các cuộc gọi điều hành, hỗ trợ) và

Universal Card Service (đường dây dịch vụ khách hàng) của AT & T được sử

dụng hàng ngày (thường bởi hàng triệu người), đến hệ thống thông tin chuyến

bay tự động của United Airlines và hệ thống "Làm thế nào tôi có thể giúp bạn?

(HMIHY)” của AT & T, hệ thống định tuyến cho các đường dây giúp đỡ khách

hàng. Mặc dù hệ thống hiểu và nhận dạng tiếng nói tự động hoàn hảo còn xa

mới đến sự hoàn hảo về tính chính xác, phát triển ứng dụng đúng cách vẫn có

thể tận dụng tốt công nghệ có sẵn để cung cấp giá trị thực sự cho khách hàng,

bằng chứng là số lượng và mức độ các hệ thống như vậy được sử dụng hàng

ngày bởi hàng triệu người sử dụng.

VI. TÓM TẮT

Hình 7 cho thấy dòng thời gian của sự tiến bộ trong công nghệ nhận dạng

và hiểu tiếng nói trong vài thập kỷ qua. Chúng ta thấy rằng trong những năm

1960 chúng ta chỉ có thể nhận ra một lượng nhỏ (10-100 từ) các từ bị cô lập,

dựa trên tính chất ngữ âm đơn giản của âm thanh tiếng nói. Các công nghệ chủ

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

22

chốt đã được phát triển trong khung thời gian này là phép phân tích lọc ranh

giới, các phương pháp chuẩn hóa thời gian đơn giản, và sự khởi đầu của hệ

phương pháp lập trình động tinh vi. Trong những năm 1970, chúng ta đã có thể

nhận được số từ vựng trung bình (100-1000 từ) bằng cách sử dụng phương

pháp nhận dạng mẫu, dựa trên mẫu đơn giản. Các công nghệ chủ chốt đã được

phát triển trong thời kỳ này là những mẫu mô hình nhận dạng mẫu, sự giới

thiệu phương pháp LPC cho miêu tả phổ tiếng nói, phương pháp phân nhóm

mẫu cho các hệ thống nhận dạng độc lập người nói, và sự giới thiệu những

phương pháp lập trình động để giải quyết vấn đề nhận dạng các từ được nói nối

với nhau. Trong những năm 1980, chúng ta bắt đầu để giải quyết vấn nhận dạng

tiếng nói với vốn từ vựng lớn (1000-không giới hạn số từ) dựa trên phương

pháp thống kê, với một loạt các mạng lưới để xử lý các cấu trúc ngôn ngữ. Các

công nghệ chủ chốt được giới thiệu trong thời gian này là mô hình Markov ẩn

(HMM) và mô hình ngôn ngữ mang tính xác suất, mà cùng nhau chúng tạo ra

các phương pháp mới mạnh mẽ để xử lý hầu như bất kỳ vấn đề nhận dạng tiếng

nói liên tục nào một cách hiệu quả và với hiệu suất cao. Trong những năm

1990, chúng ta đã có thể xây dựng hệ thống từ vựng lớn với các mô hình ngôn

ngữ không bị ràng buộc, và các mô hình ràng buộc cú pháp cho nhận dạng và

hiểu tiếng nói liên tục. Các công nghệ chủ chốt phát triển trong thời gian này là

các phương pháp hiểu ngôn ngữ mang tính xác suất, các mô hình ngôn ngữ và

ngữ âm dựa trên thống kê, và sự giới thiệu nền tảng bộ chuyển đổi trạng thái

hữu hạn (và thư viện FSM) và các phương pháp cho sự xác định và giảm thiểu

để hiện thực hiệu quả các hệ thống hiểu tiếng nói với vốn từ vựng lớn. Cuối

cùng, trong vài năm qua, chúng ta đã thấy sự ra đời của hệ thống từ vựng rất

lớn với các mô hình đầy đủ ngữ nghĩa, tích hợp với hệ thống tổng hợp text-to-

speech (TTS), và đa phương thức đầu vào (pointing, bàn phím, chuột, ...).

Những hệ thống này cho phép các hệ thống hội thoại với một loạt các phương

thức đầu vào và đầu ra cho dễ dàng sử dụng và linh hoạt trong việc xử lý các

bất lợi môi trường, nơi tiếng nói có thể không thích hợp với các phương thức

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

23

đầu vào-đầu ra khác. Trong thời gian này, chúng ta đã thấy sự xuất hiện của các

hệ thống tổng hợp tiếng nói rất tự nhiên, việc sử dụng máy học để cải thiện việc

hiểu tiếng nói và đàm thoại bằng tiếng nói, và sự giới thiệu của các hệ thống

thoại chủ động hỗn hợp cho phép kiểm soát người sử dụng khi cần thiết.

Hình 7. Các cột mốc công nghệ nhận dạng và hiểu tiếng nói

qua 40 năm nghiên cứu

Sau khoảng năm thập kỷ nghiên cứu, công nghệ nhận dạng tiếng nói cuối

cùng đã bước vào thị trường, mang lại lợi ích cho người sử dụng theo nhiều

cách khác nhau. Trong suốt quá trình phát triển của các hệ thống, kiến thức về

tạo và cảm nhận tiếng nói đã được sử dụng trong việc thiết lập nền tảng công

nghệ cho các bộ nhận dạng tiếng nói. Những tiến bộ lớn xảy ra trong những

năm 1960 và 1970 thông qua việc giới thiệu mô tả tiếng nói tiên tiến dựa trên

phân tích LPC và các phương pháp phân tích Cepstral, và trong năm 1980

thông qua việc giới thiệu các phương pháp thống kê nghiêm ngặt dựa trên mô

hình Markov ẩn. Tất cả điều này đã đến vì các đóng góp nghiên cứu quan trọng

từ các học viện, ngành công nghiệp tư nhân và chính phủ. Khi công nghệ tiếp

tục trưởng thành, rõ ràng là nhiều ứng dụng mới sẽ xuất hiện và trở thành một

phần cuộc sống của chúng ta – bằng cách tận dụng lợi thế của máy là khả năng

PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI

24

bắt chước một phần tiếng nói của con người.

Thách thức của việc thiết kế một máy tính thực sự có chức năng giống như

một con người thông minh vẫn còn là một vấn đề lớn ở phía trước. Thành tựu

của chúng ta, cho đến nay, chỉ là khởi đầu và sẽ mất nhiều năm trước khi một

chiếc máy có thể vượt qua được cuộc kiểm tra Turing, cụ thể là đạt được hiệu

suất như một con người.

PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG

25

PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO

ĐÃ ĐƯỢC SỬ DỤNG

I. NGUYÊN TẮC PHÂN NHỎ

Với những hạn chế về công nghệ và kỹ thuật, những bộ nhận dạng đầu

tiên chỉ tập trung nhận dạng một phần nhỏ của tiếng nói như: Hệ thống nhận

diện chữ số cô lập do 1 người nói của Davis, Biddulph và Balashek; Hệ thống

nhận dạng 10 âm tiết của Olson và Belar; Bộ nhận dạng 10 nguyên âm độc lập

người nói của anh em nhà Forgie.

Trong hệ thống Harpy, các dữ liệu tiếng nói đầu vào sau khi qua một phân

tích tham số, được phân ra làm nhiều phân đoạn. Sau đó, các phân đoạn tiếng

nói mới được so sánh với mẫu.

II. NGUYÊN TẮC PHẨM CHẤT CỤC BỘ

Tín hiệu tiếng nói của từng người là không giống nhau (do giọng theo

từng địa phương, cách nói của mỗi người…) nên một số hệ thống tập trung vào

nhận giạng tiếng nói của một người xác định.

III. NGUYÊN TẮC KẾT HỢP

Trong mỗi hệ thống nhận dạng tiếng nói là sự kết hợp của hàng loạt kỹ

thuật, phương pháp, thuật toán, các nguyên tắc ràng buộc… Ví dụ: trong hệ

thống Harpy là sự kết hợp của đồ thị tìm kiếm, kỹ thuật phân đoạn tiếng nói,

thuật toán băm, các quy tắc ngữ pháp, mạng trạng thái hữu hạn… Hệ thống

Sphinx của CMU là sự kết hợp các phương pháp thống kê của mô hình Makov

ẩn với sức mạnh mạng tìm kiếm của hệ thống Harpy. Sự kết hợp của mô hình

Makov ẩn, mạng thần kinh nhân tạo, thư viện FSM trong một số hệ thống nhận

dạng…

IV. NGUYÊN TẮC TÁCH KHỎI

Tiếng nói trước khi nhận dạng được đi qua các bộ lọc nhiễu để loại bỏ các

nhiễu do môi trường xung quanh…

V. NGUYÊN TẮC LINH ĐỘNG

PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG

26

Phòng thí nghiệm Bell đã nghiên cứu một loạt các thuật toán phân đoạn

tiếng nói cho việc tạo mô hình tham chiếu từ và âm thanh có thể sử dụng được

với một loạt người nói và giọng nói khác nhau để tạo ra hệ thống làm việc được

với một lượng lớn người dùng mà không cần huấn luyện, đối phó được với biến

đổi âm thanh nội tại trong tín hiệu tiếng nói. Kỹ thuật từ khóa trọng tâm giúp hệ

thống nhận dạng hoạt động một cách linh hoạt với các câu lệnh. Ví dụ: người

gọi điện thoại yêu cầu trả phí qua thẻ tín dụng có thể nói câu “Tôi muốn tính

phí vào thẻ tín dụng của tôi” hay chỉ là “thẻ tín dụng” hệ thống đều hiểu.

VI. NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA”

Các hệ thống nhận dạng không thể nhận dạng chính xác 100% dữ liệu

tiếng nói nên chúng chỉ tập trung nhận dạng đạt đến độ chính xác chấp nhận

được (độ chính xác trên 90%).

VII. NGUYÊN TẮC QUAN HỆ PHẢN HỒI

Hệ thống có khả năng phản hồi lại thông tin người sử dụng yêu cầu như:

hệ thống Pegasus cung cấp thông tin về tình trạng các chuyến bay của hãng

hàng không thông qua đường dây điện thoại; Hệ thống Jupiter trả lời thông tin

truy vấn về thời tiết.

VIII. NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CÓ ÍCH

Các hệ thống nhận dạng độc lập với người nói đòi hỏi người sử dụng phải

có quá trình huấn luyện cho hệ thống để có thể nhận dạng được chính xác. Hệ

thống càng được huấn luyện nhiều thì nhận dạng càng chính xác.

TÀI LIỆU THAM KHẢO

27

TÀI LIỆU THAM KHẢO

[1] B.H. Juang, Lawrence R. Rabiner, ASR History.

[2] http://en.wikipedia.org/wiki/Speech_recognition.

[3] GS.TSKH Hoàng Văn Kiếm, Bài giảng môn Phương pháp nghiên cứu

khoa học trong tin học, Trường Đại học Công nghệ thông tin.

[4] GS.TS Phan Dũng, 40 thủ thuật (nguyên tắc) sáng tạo cơ bản, Trung

tâm sáng tạo khoa học kỹ thuật, Đại học khoa học tự nhiên