Kỹ thuật nhận dạng tiếng nói là ứng dụng trong điều khiển

Chia sẻ: Phan Thi Ngoc Giau | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

92
lượt xem 17
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được quan tâm nghiên cứu trong những năm gần đây và chưa có một chương trình nhận dạng hoàn chỉnh nào được công bố. Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói (tiếng Anh) đã và đang được ứng dụng rất hiệu quả như: Via Voice của IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Understanding)… nhưng trong tiếng Việt thì còn rất nhiều hạn chế. ...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Kỹ thuật nhận dạng tiếng nói là ứng dụng trong điều khiển

KỸ THUẬT NHẬN DẠNG TIẾNG NÓI và ỨNG DỤNG TRONG ĐIỀU KHIỂN TS. Nguyễn Văn Giáp KS. Trần Việt Hồng Bộ môn Cơ điện tử - Khoa Cơ khí – Đại học Bách Khoa TPHCM nvgiap@dme.hcmut.edu.vn; tvhong@dme.hcmut.edu.vn TÓM TẮT Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được quan tâm nghiên cứu trong những năm gần đây và Vấn đề nghiên cứu các phương pháp nhận dạng chưa có một chương trình nhận dạng hoàn chỉnh tiếng nói đã và đang thu hút rất nhiều sự đầu tư và nào được công bố. nghiên cứu của các nhà khoa học trên khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn Trên thế giới đã có rất nhiều hệ th ống nhận dạng chưa hoàn toàn làm hài lòng những người nghiên tiếng nói (tiếng Anh) đã và đang được ứng dụng rất cứu do tính chất quá phức tạp và không cố định của hiệu quả như: Via Voice củ a IBM, Spoken Toolkit đối tượng nhận dạng là tiếng nói con người. Đặc của CSLU (Central of Spoken Laguage Under- biệt, đối với tiếng Việt thì kết quả càng còn nhiều standing)… nhưng trong tiếng Việt thì còn rất nhiều hạn chế. Bài báo trình bày một hướng nhận dạng hạn chế. tiếng nói tiếng Việt, dựa trên việc trích đặc trưng 1.3 Mục tiêu của đề tài tiếng nói bằng phương pháp MFCC và bộ nhận dạng dùng mạng HMM. Kết quả được kiểm nghiệm Đề tài này nghiên cứu thử n ghiệm một h ướng nhận thực tế bằng mô hình xe điều khiển từ xa. dạng tiếng nói - tiếng Việt d ựa trên vi ệc trích đặc trưng của tiếng nói bằng ph ương pháp MFCC (Mel- ABSTRACT Frequency Ceptrums Coefficients), và nhận dạng bằng mô hình HMM (Hidden Markov Models). Researching and inventing speech recognition Đồng thời, một mô hình điều khiển bằng tiếng nói – methods have been paid much considerations by tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết many scientists over the world. However, the lập hệ thống điều khiển bằng tiếng nói với một tập achievements don’t satisfy researchers’ demands lệnh cố định. Tập lệnh này dùng để điều khiển because of the complexity and unstability of speech Robot, và mô hình điều khiển xe bằng tiếng nói until now. Especially with Vietnamese speech, the hoàn chỉnh là một ứng dụng thực tế mang tính thử results are more unsatisfied. The paper suggests a nghiệm của đề tài. synthetic method for recogniting Vietnamese speech: extract speech’s particularities by MFCC 2 XÂY DỰNG HỆ THỐNG NHẬN DẠNG method and recognize by HMM network. The TIẾNG NÓI results are experimented through a model of RF Một hệ thống nhận dạng nói chung thường bao gồm controlled car. hai phần: phần huấn luyện (training phase) và phần 1 ĐẶT VẤN ĐỀ nhận dạng (recognition phase). “Huấn luyện” là quá 1.1 Giới thiệu trình hệ thống “học” những mẫu chuẩn được cung cấp bởi những tiếng khác nhau (từ hoặc âm), để từ Ngày nay, cùng với sự phát triển của ngành điện tử đó hình thành bộ từ vựng của h ệ thống. “Nhận và tin học, các hệ thống máy tự động đã dần thay dạng” là quá trình quyết định xem từ nào đ ược đọc thế con người trong nhiều công đoạn của công việc. căn cứ vào bộ từ vựng đã đ ược huấn luyện. Sơ đ ồ Máy có khả n ăng làm việc hiệu quả và năng suất tổng quát của hệ thống nhận dạng tiếng nói được cao hơn con người rất nhiều. Song cho đến nay, vấn thể hiện trên hình 1. đề giao tiếp người – máy tuy đã được cải thiện nhiều nhưng vẫn còn rất thủ công: thông qua bàn Để thuận tiện cho việc kiểm tra và đánh giá kết quả, phím và các thiết bị nhập dữ liệu khác. Giao tiếp từ sơ đồ trên chúng tôi chia ch ương trình nhận dạng với thiết bị máy bằng tiếng nói sẽ là phương thức thành ba mô-đun riêng biệt: giao tiếp văn minh và tự nhiên nhất, dấu ấn giao ! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng tiếp người – máy sẽ mất đi mà thay vào đó là cảm nói, tách tiếng nói khỏi nền nhiễu và lưu vào nhận của sự giao tiếp giữa người với người, nếu cơ sở dữ liệu. hoàn thiện thì đây sẽ là một ph ương thức giao tiếp tiện lợi và hiệu quả nhất. ! Mô-đun 2: Trích đ ặc trưng tín hiệu tiếng nói đã thu ở mô-đun 1 bằng phương pháp MFCC, Do có sự khác biệt về mặt ngữ âm giữa các ngôn đồng thời thực hiện ước lượng vector các ngữ nên ta không thể áp dụng các ch ương trình vector đặc trưng này. nhận dạng khác để nhận d ạng tiếng Việt. Một hệ thống nh ận dạng tiếng nói ở n ước ta phải đ ược xây ! Mô-đun 3: Xây dựng mô hình Markov ẩn với 6 dựng trên nền tảng của tiếng nói tiếng Việt. trạng thái, tối ưu hóa các hệ số của HMM tương ứng với từng từ trong bộ từ vựng, tiến 1.2 Tình hình nghiên cứu trong và ngoài nước hành nhận dạng một từ được đọc vào micro.
Môđun 1 Môđun 2 Môđun 3 Hình 1 Sơ đồ tổng quát hệ thống nhận dạng tiếngShort-Time Energy nói. 2.1 Thực hiện mô-đun 1 4 3.5 Nhiệm vụ của mô-đun này là thu tín hiệu từ micro, dùng kỹ thuật xử lý đầu cu ối để phát hiện phần tín 3 hiệu tiếng nói và phần tín hiệu nhiễu. Từ đó ta có 2.5 thể tách tiếng nói ra khỏi nền nhiễu (chỉ thu tín hiệu 2 tiếng nói mà không thu tín hi ệu nhiễu nền). 1.5 Tuy có nhiều phương pháp tách tiếng nói khác 1 nhau, nhưng qua quá trình nghiên cứu và thử nghiệm các tác giả nh ận thấy sự kết hợp giữa 0.5 phương pháp hàm năng lượng thời gian ngắn và tỉ 0 0 10 20 30 40 50 60 70 80 90 (b) lệ qua điểm zero cho kết quả tốt hơn. Time (frame) Hình 3 Tín hiệu (a) Phương pháp này dựa vào tính chất năng lượng của và năng lượng thời gian ngắn (b) tín hiệu tiếng nói thường lớn hơn năng lượng của tín hiệu nhiễu và tỉ lệ qua điểm zero của nhiễu sẽ Tỷ lệ qua điểm zero (zero crossing rate) là một lớn hơn tín hiệu tiếng nói. Hình 2 cho thấy mối thông số cho biết số lần mà biên độ tín hiệu đi qua quan hệ giữa tín hiệu thu được, giá trị của hàm điểm zero trong một khoảng thời gian cho trước năng lượng thời gian ngắn và tỉ lệ qua điểm zero. được xác định bởi: sgn{s(n )} − sgn{s(n − 1)} Nhiễu Tiế ng nói 1 m Z s (m ) = w(m − n ) (2.2) ∑ 2 N n = m − N +1 Hàm nă ng lượ ng trong đó, N là chiều dài của cửa sổ w(m-n). thời gian ngắ n Nhiều thuật toán phát hiện đầu cuối được dựa trên độ lớn của tín hiệu năng lượng thời gian ngắn và tỉ lệ qua điểm zero để cố gắng phát hiện chính xác đến mức có thể. Quá trình cơ bản của thuật toán như sau: một mẫu tín hiệu nhỏ của nền nhiễu được Tỉ lệ qua điểm zero lấy trong suốt khoảng “lặng” (silence) cho đến trước điểm bắt đầu của tín hiệu tiếng nói. Từ đây ngưỡng tiếng nói được xác định dựa trên năng Hình 2 Sự tương quan giữa tín hiệu tiếng nói và lượng khoảng lặng và năng lượng đỉnh. Ban đầu, nền nhiễu. những điểm kết thúc được xác định ở những nơi Với một cửa sổ kết thúc tại mẫu thứ m, hàm năng năng lượng tín hiệu vượt qua ngưỡng này, sau đó ta lượng thời gian ngắn E(m) được xác định bởi: tính khoảng cách giữa hai điểm xem có thoả mãn độ dài của một từ hay không. Tương tự ta áp dụng ∞ ∑ [s(n)w(m − n)] E (m ) = 2 cho tỉ lệ qua điểm zero. (2.1) [4-6] n = −∞ Ví dụ: tín hiệu thu vào từ micro bao gồm nhiễu nền và tiếng nói có đồ thị như sau: Đồ thị của hàm năng lượng thời gian ngắn của một đoạn tín hiệu được thể hiện trên hình 3. Signal 0.4 0.2 0 Am p -0.2 Hình 4 Tín hiệu của từ “tới”. -0.4 Qua quá trình xử lý theo chu trình trên ta có được -0.6 đồ thị dạng xung như sau: -0.8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 (a) Time (s)
! Phân tích phổ Nếu những giá trị có khoảng cách đ ều nhau, tức là 2πk xem w = , thì biến đổi Fourier rời rạc (DFT) N của tất cả các frame của tín hiệu là: X t (k ) = X t (e j 2πk / N ) k = 0,..., N − 1. Hình 5 Dạng xung sau xử lý kết hợp hàm năng lượng thời gian ngắn và tỉ lệ qua điểm zero Bên cạnh đó nếu số mẫu N là bội số của 2 (N=2p, p là số nguyên) thì độ ph ức t ạp tính toán sẽ giảm Từ hình 5 ta thấy chỉ cần xác định độ dài tối thiểu đáng kể khi dùng phương pháp FFT (Fast Fourier của một từ là ta có thể tách từ ra khỏi nền nhiễu. Đến đây mô-đun 1 đã hoàn thành nhiệm vụ. Đây là Transform). một phần rất quan trọng trong một hệ thống nhận ! Lọc xử lý dạng tiếng nói, nó ảnh hưởng rất lớn đến kết quả nhận dạng. Những nghiên cứu về sinh lý học chứng tỏ rằng mức độ cảm nhận đ ối với tần số tín hiệu tiếng nói 2.2 Thực hiện mô-đun 2 của con người không theo một tỉ lệ tuyến tính. Ứng với mỗi tone là có một tần số f, được đo bằng đơn Đến đây chúng ta đ ã có được các mẫu tiếng nói đã vị Hz. Để mô tả chính xác sự tiếp nhận tần số của được khử nhiễu. Mô-đun 2 thực hiện việc trích đặc hệ thống thính giác, người ta đ ã xây dựng một trưng các mẫu tiếng nói đã thu ở mô-đun 1. Có thang khác – thang Mel. Thang tần số mel tuyến nhiều phương pháp trích đặc trưng khác nhau như: tính ở tần số dưới 1000 Hz và logarit ở tần số trên wavelets, LPC, MFCC… Ở đây ch ọn phương pháp 1000 Hz. Một quan hệ ánh xạ tương ứng giữa thang MFCC (trích đặc trưng theo thang tần số Mel) do tần số thực (vật lý, Hz) và thang tần số sinh lý Mel tốc đ ộ tính toán cao, độ tin cậy lớn và đã được sử được cho bởi công thức sau: dụng rất hiệu quả trong các chương trình nhận dạng tiếng nói trên thế giới. F 1000  1 + Hz  Fmel = Sơ đồ giải thuật phương pháp MFCC như sau: log10 2  1000  F  Fmel = 2595 . log 10  1 + Hz   1000  hay (2.3)   Việc phân tích phổ sẽ thể hiện những đặc trưng tín hiệu tiếng nói mà do chính hình dạng của vùng phát âm tạo ra. Những đặc trưng ph ổ của tín hiệu tiếng nói sẽ có đ ược sau khi cho qua nh ững bộ lọc. Đối với thang tần số Mel thì một lọc cho mỗi thành Hình 6 Quá trình tính các hệ số MFCC. phần tần số mong mu ốn (hình 7). Bộ lọc này có đáp ứng tần số dạng tam giác, và khoảng cách hay băng ! Cửa sổ hoá tín hiệu (Windowing) thông được xác định bởi một hằng số Mel. Những phương pháp đ ánh giá phổ cổ điển chỉ đáng tin cậy trong trường hợp tín hiệu dừng (stationary signal), ví dụ một tín hiệu mà những đặc trưng là bất biến đ ối với thời gian. Đối với tín hiệu tiếng nói thì điều này chỉ có được trong một khoảng thời gian ngắn, việc này có thể thực hiện đ ược bằng cách “cửa sổ hoá” một tín hiệu x’(n) thành một chuỗi liên tục những cửa sổ tuần tự xt(n), t=1,2,……,T, gọi là những frame. Trong hệ thống nhận dạng tự đ ộng thì dạng cửa sổ thường dùng nhất là Hamming window, đáp ứng xung củ a nó là một hàm cosin tăng:  2πn   0.54 − 0.46 cos  n = 0,..., N − 1 w(n ) =   N −1 Hình 7 Một ví dụ về bộ lọc thang Mel 0 n khaùc  ! Tính năng lượng logarit (LOG) Các bước trước đóng vai trò làm phẳng phổ, thực hiện một xử lý giống như tai củ a con người. Đến
bước này tính toán logarit của bình phương đ ộ lớn Huấn luyện: những hệ số tại ngõ ra bộ lọc. Chú ý rằng tai người Những mẫu thực hiện rất tốt việc xử lý độ lớn và logarit. Hơn Tới Lui Trái huấn luyện thế nữa, xử lý độ lớn thì loại bỏ những thông tin không cần thiết trong khi xử lý logarit thực hiện một nén đ ộng, trích đặc trưng ít nhạy đối với những biến đổi động. ! Tính phổ tần số mel Ước lượng thông số Bước cuối cùng trong việc tính ph ổ tần số mel (MFCC) bao gồm thực hiện biến đổi ngược DFT λtrái λlui λt ới trên độ lớn logarit của ngõ ra của bộ lọc. Chú ý rằng do năng lượng ph ổ log là thực và đối Nhận dạng: xứng nên bi ến đổi DFT ngược được nói gọn là O=,,,,,, chuyển đ ổi cosine rời rạc (Discrete Cosine Transform – DCT). Tính chất củ a DCT là tạo ra những đặc trưng rất khác nhau. DCT cũng có tác P(O/λtới) P(O/λlui) P(O/λtrái) dụng làm phẳng phổ nếu chỉ có những hệ số đầu tiên được giữ lại. Trong nhận dạng tiếng nói thì số Hình 9 Sơ đồ mô hình HMM hệ số MFCC thường nhỏ hơn 15. [6] Ứng với mỗi từ cần nhận dạng thì chúng ta có một Sau khi tín hiệu tiếng nói được trích đặc trưng thì cơ sở dữ liệu các đặc trưng từ các lần đọc khác mỗi từ đ ược được đặc trưng bởi một ma trận hệ số nhau (như trên sơ đồ là 3 lần lấy mẫu). Sau đó ta sẽ thực. Do mô hình HMM rời rạc được ứng dụng để ước lượng các thông số của mô hình λ = ( A, B, π ) nhận dạng nên những vector đặc trưng này phải để xác su ất P(O|λ) đạt cực đại, tương ứng với mỗi được ước lượng vector (VQ) thành một chỉ số từ là một λ xác định. Để nhận dạng một từ thì ta chỉ codebook rời rạc. Thuật toán phổ biến dùng đ ể thiết vi ệc tính xác suất chuỗi quan sát của từ đó ứng với kế codebook là LBG (Linde, Buzo và Gray). các λ đã đ ược huấn luyện, và ch ọn mẫu nào có xác suất lớn nhất. Dựa vào các tài liệu tham kh ảo và những thông tin về các hệ thống nhận d ạng đ ã xây d ựng thành công chúng tôi thấy rằng: đối với nhận dạng tín hiệu tiếng nói thì mô hình HMM thường được ch ọn là mô hình trái phải (left-right) có từ 5 đến 6 trạng thái. Qua quá trình thử nghiệm, mô hình có 6 trạng thái cho kết quả tốt hơn nên trong chương trình của mình, các tác giả đã xây dựng một HMM với số trạng thái là 6, xem hình 10. Hình 8 Ước lượng vector VQ trong nhận dạng. Phương pháp được sử dụng để ước lượng vector là phương pháp K-means. 2.3 Thực hiện mô-đun 3 Sau khi đã thực hiện xong 2 mô-đun trên thì chúng ta đã có một cơ sở dữ liệu các vector đặc trưng ứng Hình 10 Mô hình HMM trái phải với 6 trạng thái. với từng từ. Trong mô đun này chúng ta sẽ xây 3 MÔ HÌNH HỆ THỐNG XE ĐIỀU KHIỂN dựng một mô hình Markov ẩn với dữ liệu huấn luyện là các vector đặc trưng có được từ mô-đun 2. Sơ đồ mô hình xe vô tuyến điều khiển bằng tiếng Sơ đồ huấn luyện và nhận dạng bằng mô hình nói từ máy tính được trình bày trên hình 11. HMM được thể hiện trên hình 9 với bộ từ vựng gồm 3 từ: tới, lui, trái.
lui tới phải trái Bộ điều khiển từ xa Bộ điều khiển anten anten thu phát trên xe SW1 SW2 SW3 SW4 phải tới trái lui Hình 11 Sơ đồ tổng quan hệ thống thử nghiệm Xe vô tuyến có thể được điều khiển từ xa bằng 5. Claudio Becchetti and Lucio Prina Ricotti, tiếng nói từ máy tính. Tiếng nói là từ lệnh sẽ được Speech Recognition Theory and C++ thu vào và nhận dạng trên bộ nhận dạng tiếng nói, Implementation, JOHN WILEY & SONS, và cấp chuỗi từ nhận dạng được cho bộ quyết định LTD, 2000. để xuất lệnh điều khiển thông qua cổng COM. Một 6. Gordon E.Pelton, Voice Processing, McGraw mạch giao tiếp máy tính thông qua cổng nối tiếp Hill, 1992. (RS232) được thiết kế để điều khiển. Mạch giao tiếp nhận tín hiệu và đóng mở các khoá để chuyển 7. John R.Deller & John G.Proakis & John H. L. thành tín hiệu của bộ điều khiển từ xa. Mỗi khi có Hansen, Discrete – Time Processing of Speech một khoá được đóng hoặc một tổ hợp phím được Signals, Macmillan Publishing Company, nhấn, bộ điều khiển từ xa sẽ mã hóa thích hợp và 1993. đưa ra anten phát. Tín hiệu điều khiển đ ược điều 8. F.J. Owens, Signal Processing of Speech, chế và truyền đến xe bằng sóng vô tuyến với tần số Macmillan, 1993. sóng mang FC = 27MHz. Bộ điều khiển trên xe sẽ tiến hành điều khiển vận hành xe. Mô hình hoạt động tốt với bộ từ vựng gồm 4 từ: phải, trái, tới, lui với kết quả tốt (99%). 4 KẾT LUẬN Mô hình thử nghiệm nhận dạng tiếng nói tiếng Việt theo hướng kết hợp MFCC và HMM tuy còn nhiều hạn chế nhưng đã đáp ứng đ ược mục tiêu của đề tài. Chương trình được sử dụng để điều khiển robot với bộ từ vựng nhỏ (dưới 16 từ) cho đ ộ chính xác có thể chấp nhận được (trên 90%). Trong thời gian tới nhóm tác giả sẽ tối ưu hóa chương trình nhận dạng để đạt được kết quả cao hơn và tăng tốc độ xử lý. TÀI LIỆU THAM KHẢO 1. GS. Phạm Văn Ất , Kỹ thuật lập trình C, Nhà xuất bản Khoa Học và Kỹ Thuật, 1999. 2. Nguyễn Hoàng Hải – Nguyễn Khắc Kiểm, Lập trình Matlab, Nhà xuất bản Khoa Học và Kỹ Thu ật, 2003. 3. PGS.TS. Nguyễn Hữu Phương, Xử lý tín hiệu số, Nhà xuất bản Giao thông vận tải, 2000. 4. Lê Tiến Th ường, Xử lý tín hiệu số và wavelets, Nhà xuất bản Đại Học Qu ốc Gia TP. Hồ Chí Minh, 2002.