intTypePromotion=1
ADSENSE

Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping

Chia sẻ: Wang Ziyi | Ngày: | Loại File: PDF | Số trang:6

5
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping

  1. HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc, Trần Văn Hoàng và Hoàng Trang Khoa Điện – Điện Tử Trường Đại Học Bách Khoa – ĐHQG TP. Hồ Chí Minh Email: ducloc0506@gmail.com, tvhoang@hcmut.edu.vn, hoangtrang@hcmut.edu.vn Abstract — Trong bài báo này, mô hình nhận dạng mẫu từ đơn dạng của hệ thống khi thực nghiệm đối với bộ từ vựng 4 từ là tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải 90.1% [9], và 90.5% đối với bộ từ vựng gồm 10 từ [10]. thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so Trong bài báo của chúng tôi, hệ thống nhận dạng tiếng nói sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được sử dụng phương pháp nhận dạng DTW được áp dụng với ngôn kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Hệ thống ngữ tiếng Việt với ưu điểm là tốc độ nhận dạng nhanh, đơn nhận dạng được thực hiện và chạy trên board nhúng BeagleBone giản, không yêu cầu bộ nhớ lớn với độ chính xác cao (cao hơn Black do Texas Instruments sản xuất. Kết quả nhận dạng cao phù so với hệ thống thực hiện bằng ngôn ngữ tiếng anh [9-10]) phù hợp với lý thuyết. hợp trong các hệ thống điều khiển yêu cầu tốc độ đáp ứng Keywords — Nhận dạng từ đơn tiếng Việt, MFCC, DTW. nhanh và tài nguyên phần cứng hạn chế. Đặc biệt, việc huấn luyện mẫu cho một từ chỉ yêu cầu một lần đọc, làm cho tính linh động của hệ thống rất cao. Đồng thời, trong bài báo này, I. GIỚI THIỆU chúng tôi cũng tiến hành thực nghiệm với một người khác Nhận dạng tiếng nói là một kỹ thuật có nhiều ứng dụng (không phải người huấn luyện) cho kết quả khả quan, chứng tỏ trong cuộc sống, trong việc điều khiển bởi ưu điểm lớn nhất sự linh hoạt và tiện dụng của hệ thống khi áp dụng với ngôn của nó là tốc độ cao, tương tác cao và trực quan với con ngữ tiếng Việt mà không cần phải huấn luyện với tất cả người người. Ở Việt Nam, nhận dạng tiếng nói đã được nghiên cứu dùng như trong bài báo [11]. trong những năm gần đây và đạt được nhiều thành quả [1-2]. Phần còn lại của bài báo được tổ chức như sau: trong phần Bài báo trình bày một mô hình nhận dạng mẫu tiếng Việt đọc II, chúng tôi trình bày tổng quan về hệ thống nhận dạng tiếng rời rạc với độ chính xác cao: sử dụng phương pháp trích đặc nói. Quá trình các bước thực hiện hệ thống nhận dạng sẽ được trưng hiện đại MFCC kết hợp với phương pháp so sánh mẫu mô tả trong phần III. Phần IV sẽ cung cấp kết quả đánh giá DTW đơn giản, không yêu cầu bộ nhớ cao và cho tốc độ nhận thực nghiệm và phân tích các kết quả đạt được. Cuối cùng, các dạng nhanh. kết luận bài báo sẽ được trình bày trong phần V. Hệ thống nhận dạng tiếng nói đã được thực hiện trong những năm gần đây. Trong bài báo [3], phương pháp trích đăc II. TỔNG QUAN HỆ THỐNG NHẬN DẠNG TIẾNG NÓI trưng được sử dụng là phương pháp LPC (Linear Predictive Coding). Do đó, độ chính xác nhận dạng của hệ thống không A. Mô hình nhận dạng tiếng nói cao bằng việc sử dụng phương pháp MFCC. Trong các bài báo Sau khi tiếng nói được thu từ một microphone, quá trình [3-6], hệ thống nhận dạng được thực hiện dựa trên mô hình phát hiện điểm bắt đầu và kết thúc của từ diễn ra trước khi Markov ẩn (Hidden Markov Model – HMM). Ưu điểm của tiếng nói được xử lý. các hệ thống nhận dạng sử dụng HMM là cho độ chính xác nhận dạng cao, tuy nhiên, đi kèm với nó là sự phức tạp, khó Giải thuật nhận dạng tiếng nói bao gồm 2 phần chính. khăn trong thực hiện hệ thống và tốc độ thực thi hệ thống Phần 1 là huấn luyện mẫu, phần 2 là quá trình chính nhận chậm hơn so với phương pháp DTW. Trong các bài báo [9- dạng tiếng nói. Sơ đồ khối của mô hình nhận dạng tiếng nói 11], hệ thống nhận dạng thực hiện dựa trên mô hình DTW và được mô tả trong Hình 1. được thực nghiệm trên ngôn ngữ tiếng Anh, độ chính xác nhận . Nghiên cứu này được tài trợ bởi Bộ Khoa Học và Công Nghệ qua đề tài có mã số KC.01.23/11-15 ISBN: 978-604-67-0635-9 200 200
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hình 3. Mô hình trích đặc trưng bằng MFCC Hình 1. Mô hình nhận dạng tiếng nói 1) Tiền nhấn tín hiệu B. Phát hiện điểm bắt đầu và kết thúc Tiếng nói sau khi được số hóa sẽ được tiền nhấn (pre- Phát hiện điểm bắt đầu và kết thúc của tiếng nói (tách tiếng emphasized) với bộ lọc đáp ứng xung hữu hạn (finite impulse nói ra khỏi khoảng lặng) thường dựa trên hàm năng lượng thời response – FIR) bậc một vì pha của nó tuyến tính và thực thi gian ngắn [7]. Trong xử lý tiếng nói việc xác định khi nào bắt đơn giản. Việc sử dụng các bộ lọc pha tuyến tính rất quan đầu xuất hiện tín hiệu tiếng nói và khi nào kết thúc quá trình trọng, vì pha của của tín hiệu sẽ không bị thay đổi, chỉ có nói rất cần thiết và quan trọng. Nó tăng độ chính xác và làm cường độ của tín hiệu bị thay đổi, do đó những đặc điểm theo cho hệ thống tập trung vào việc phân tích và so sánh chính xác thời gian của tín hiệu sẽ được bảo tồn. Do trong tiếng nói, các mẫu tiếng nói, đồng thời nó cũng hạn chế đi nhiễu của môi thành tố thấp hơn thường chứa đựng nhiều năng lượng hơn, vì trường và các khoảng lặng làm ảnh hưởng đến hệ thống [7-8]. vậy nó được xem xét hơn khi mô hình hóa so với các thành tố Mô hình phát hiện điểm bắt đầu và kết thúc tín hiệu tiếng nói cao hơn. Do đó, một bộ lọc pre-emphasis được dùng để được mô tả trong Hình 2. khuếch đại tín hiệu ở các tần số cao hơn. Hàm truyền H(z) của bộ lọc được cho bởi: H ( z )  1  a * z 1 (2) Để tạo được bộ lọc thông thấp a > 0. Thông thường, a được chọn trong khoảng 0.9 đến 1. Hình 2. Mô hình phát hiện điểm bắt đầu và kết thúc 2) Tách các khung Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được Bởi vì tín hiệu tiếng nói là tín hiệu biến đổi chậm theo thời tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi gian, trong một hệ thống nhận dạng tiếng nói thì tiếng nói sau khung dài N mẫu. Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì khi được lấy mẫu sẽ được nhóm thành những khoảng thời gian hàm năng lượng thời gian ngắn Em được xác định như sau: ngắn trong khoảng từ 20 đến 40 ms được gọi là các khung. Để m  N 1 cho các thông số của khung ít thay đổi, thông thường sẽ có sự Em   [ x(n)] nm 2 (1) chồng lấp giữa các khung kế cận nhau. 3) Bộ lọc cửa sổ C. Thuật toán trích đặc trưng MFCC Một cửa sổ thường được ứng dụng để gia tăng tính liên tục Thuật toán MFCC là thuật toán trích đặc trưng tiếng nói giữa các khung kế cận nhau. Những cửa sổ thường gặp như: hiện đại, đang được sử dụng rộng rãi bởi tính hiệu quả của nó cửa sổ hình chữ nhật, cửa sổ Hamming, cửa sổ Hanning, cửa thông qua phân tích các hệ số cepstral theo thang đo Mel [7]. sổ Kaiser, … Cả hai cửa sổ Hanning và Hamming đều có sự suy giảm cao hơn rất nhiều so với cửa sổ hình chữ nhật. Ở cửa Giải thuật MFCC được xây dựng trên mô hình mô phỏng sổ Hanning, đỉnh thứ 2 suy giảm 31dB so với đỉnh chính, và lại quá trình cảm nhận âm thanh của tai người, dựa trên những giảm 44dB ở cửa sổ Hamming. Mặt khác, ở cửa sổ Hanning, nghiên cứu về sự cảm nhận âm thanh ở những dải tần số khác các đỉnh phụ suy giảm khá nhanh, nhưng ở cửa sổ Hamming nhau. Với các tần số thấp (dưới 1000Hz), độ cảm nhận của tai thì không, các đỉnh phụ gần như không đổi ở mọi tần số [7]. người là tuyến tính. Đối với các tần số cao hơn, độ cảm nhận Do đó chúng ta thường sử dụng cửa sổ Hamming trong các biến thiên theo hàm logarit. Do đó, để thu được những đặc ứng dụng nhận diện giọng nói. Các hệ số h(n) của cửa số trưng của tiếng nói, ta sử dụng các bộ lọc tuyến tính với dải Hamming được tính như sau: tần thấp và các bộ lọc có đặc tính logarit với dải tần số cao. Mô hình tính toán các hệ số MFCC được mô tả như Hình 3.   2 n  0.54  0.46 * cos   (3) h  n    N   0  201 201
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) 4) Fast Fourier Transform (FFT) 6) Cepstrum Biến đổi Fourier nhanh (FFT) được dùng để chuyển tín Tín hiệu tiếng nói có thể được mô tả như là kết quả của hiệu tiếng nói từ miền thời gian qua miền tần số. Đó chính là phép tích chập giữa tín hiệu kích thích của thanh quản với đáp sự thực thi phép biến đổi Fourier rời rạc (DFT) đạt hiệu suất ứng xung của bó thanh âm. Đáp ứng của bó thanh âm quyết cao với điều kiện ràng buộc là phổ được đánh giá tại những định đường bao của phổ, trong khi đó phổ của tín hiệu kích tần số rời rạc. Thuật toán FFT chỉ yêu cầu khối lượng tính thích biểu diễn các thành phần phổ của tiếng nói. Đối với nhận toán tỷ lệ với NlogN, trong khi đó DFT yêu cầu khối lượng dạng tiếng nói, đường bao của phổ hữu ích hơn các thành phần tính toán tỷ lệ với N2. Do đó, khi chiều dài mẫu N càng lớn, ưu phổ [7]. thế của FFT so với DFT càng thể hiện rõ. Cepstrum được định nghĩa là phép biến đổi cosin rời rạc Độ phân giải tần số của FFT bị giới hạn bởi 2 yếu tố: chiều (DCT), được dùng để chuyển các hệ số Mel sau khi lấy dài của tín hiệu và chiều dài của FFT. Nếu tín hiệu được tạo ra logarithm trở về miền thời gian. Kết quả của phép biến đổi này bởi việc cộng hai tín hiệu sin mà tần số của hai tín hiệu này rất cho ta các hệ số đường bao phổ tín hiệu tiếng nói. gần với nhau, khi đó để phân biệt hai tần số này chúng ta phải K  p   (6) quan sát tín hiệu với phân đoạn đủ dài. Đối với chiều dài của Cnp   log Snk'  cos   k  0.5   FFT, phổ tần số được tạo ra bởi N điểm FFT bao gồm N/2  k 1  k   điểm cách đều nhau phân bố giữa 0 đến phân nửa tần số lấy mẫu. Vì vậy để tách rời hai tần số có khoảng cách gần nhau thì Trong (6), Cnp là các hệ số cepstrum bậc p của khung n và khoảng cách giữa các điểm phải nhỏ hơn khoảng cách giữa hai S’nk là giá trị tần số Mel thứ k của khung n. Các hệ số đỉnh. cepstrum bậc thấp tượng trưng cho đường bao của bó âm thanh, và các hệ số bậc cao tượng trưng cho các thành phần 5) Bộ lọc Mel kích thích. Do đó, trong các ứng dụng nhận dạng tiếng nói, chỉ Bộ lọc Mel mô hình hóa lại đáp ứng tần số của ốc tai sử dụng từ 8 đến 16 hệ số cepstrum bậc thấp. người. Đáp ứng này tuyến tính với những tần số dưới 1kHz và 7) Đạo hàm bậc 1 và bậc 2 tỉ lệ với logarit đối với các tần số cao hơn. Phương trình (4) được dùng để biến đổi từ thang tần số thường sang thang tần Các hệ số cepstrum Cnp mô tả đường bao của bó âm thanh số Mel và phương trình (5) biến đổi từ thang tần số Mel về theo từng khung tín hiệu p riêng biệt nhưng không mô tả được thang tần số thường. tốc độ biến đổi của âm thanh theo thời gian. Trong thực tế, tốc độ biến thiên của các hệ số theo thời gian chứa một phần  f  (4) thông tin mà ta muốn truyền đạt [7]. Để đặc trưng cho sự biến Mel  f  1125log 1     700  thiên đó, ta sử dụng các hệ số đạo hàm bậc 1 d n và đạo hàm  m  bậc 2 d (d n ) . Mel  1  m  700  e1125  1 (5)   2  cn 2  cn2    cn1  cn1  (7) dn  Băng thông bộ lọc thang đo Mel bao gồm các bộ lọc hình 10 tam giác được phân bố bên trong băng thông tín hiệu. Chúng được cách đều nhau trên thang Mel và băng thông của chúng 2  d n 2  d n2    d n1  d n1  d (d n )  (8) được thiết kế sao cho điểm 3dB nằm ở khoảng giữa hai bộ lọc 10 kế cận nhau (Hình 4). Trong nhận dạng tiếng nói, số bộ lọc là một trong những thông số mà ảnh hưởng đến độ chính xác D. Giải thuật thời gian động DTW nhận dạng của hệ thống [7]. Giải thuật DTW được xây dựng dựa trên cơ sở của kỹ thuật lập trình động (Dynamic Programming Techniques). Giải thuật này thực hiện việc so trùng hai mẫu tín hiệu tiếng nói có đường bao tín hiệu khác nhau phi tuyến tính theo trục thời gian do hiện tượng kéo dãn hay co rút [1]. Hình 5. Biến dạng thời gian giữa 2 mẫu tín hiệu Ở Hình 5, mỗi đường thẳng nối một điểm từ chuỗi tín hiệu Hình 4. Băng bộ lọc Mel, theo thang tần số Mel (a) và theo thang tần số thường (b) này đến điểm tương ứng của chuỗi tín hiệu kia, do đó nếu cả 2 202 202
  4. HộiHội Thảo Quốc Thảo Gia Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông vàCông Thông và CôngNghệ Nghệ Thông Thông TinTin (ECIT (ECIT 2015) 2015) chuỗi tín hiệu là giống hệt nhau, thì các đường nối sẽ song song nhau. Sự biến dạng về thời gian, làm cho các tổng khoảng cách giữa các điểm tương ứng lớn lên và làm cho việc nhận dạng bị sai lệch. Giả sử chúng ta có hai chuỗi tín hiệu Q và C với chiều dài lần lượt là n và m: Q  q1 , q2 , q3 ,..., qn C  c1 , c2 , c3 ,..., cm Hình 6. Giải thuật tính DTW Để so sánh hai chuỗi tín hiệu, một ma trận n x m được hình thành với các phần tử là khoảng cách cục bộ d(i,j) giữa hai Phương trình (10) có thể được thực hiện bằng phương điểm qi và cj. Khoảng cách cục bộ d(i,j) giữa hai điểm được pháp đệ quy. Tuy nhiên, phương pháp này tốn nhiều thời gian tính bằng đơn vị theo hệ Euclidean theo phương trình (9). thực hiện và gây lãng phí bộ nhớ. Để cải tiến những nhược Việc sử dụng hệ đơn vị Euclidean có ưu điểm là dễ hiểu, dễ điểm trên, một phương pháp khác sử dụng hai vòng lặp và hai tính toán, cho thấy rõ sự sai biệt lớn giữa chuỗi tín hiệu, nhưng mảng để lưu trữ các cột của ma trận thời gian – thời gian và lại có khuyết điểm sẽ làm cho việc tính toán tăng độ phức tạp cột của ma trận trước đó (Hình 6). so với các hệ đo lường khác, đồng thời cũng làm cho hệ thống nhạy cảm với nhiễu [1]. III. THỰC HIỆN HỆ THỐNG Mặc dù tai người có thể nghe được âm thanh với tần số từ d  i, j  (qi  c j )2 (9) 20Hz tới 20KHz, nhưng tai người chỉ nhạy với các tần số nhỏ hơn 5kHz và với chất lượng của âm thanh thoại thì sẽ có băng Sau đó, ta sẽ tính sai biệt toàn cục của hai chuỗi tín hiệu. thông giới hạn là 4kHz. Với lí do này, chúng tôi sử dụng băng Để tính toán được sai biệt toàn cục nhỏ nhất giữa hai tín hiệu, thông 4KHz trong đề tài này và tần số lấy mẫu ở đây là 8KHz. ta cần ước lượng tất cả khoảng cách có thể có, nhưng cách này không hiệu quả khi số lượng khoảng cách có dạng hàm mũ theo chiều dài của tín hiệu ngõ vào. Thay vào đó, ta xem xét A. Phát hiện điểm bắt đầu và kết thúc những ràng buộc tồn tại trong quá trình so trùng và dùng Bước 1: Sau khi thu mẫu tín hiệu tiếng nói, ta chia chúng những ràng buộc này để có được giải thuật hiệu quả hơn [1]. thành các khung nhỏ hơn để tiện cho việc tính toán. Chúng tôi Các ràng buộc được thiết lập phải không phức tạp và cũng sử dụng 80 mẫu trong mỗi khung và chống lấp 50% giữa các không hạn chế nhiều, như sau: khung với nhau, tương đương với 5ms cho mỗi khung tín hiệu. − Các khoảng cách so trùng không thể thực hiện Bước 2: Ta tính năng lượng của một khung tín hiệu theo việc đi lui. (1). − Mọi khung của tín hiệu cần so trùng phải được Bước 3: Ta sẽ thu một tín hiệu nền và tính giá trị ngưỡng dùng trong quá trình so trùng. so sánh sử dụng phương trình (11). − Các giá trị sai biệt cục bộ được kết hợp bằng  E  j N phương pháp cộng dồn vào giá trị sai biệt toàn cục. threshold  j 0 * 1  µ  (11) N Gọi D(i,j), d(i,j) là độ sai biệt toàn cục và sai biệt cục bộ tại vị trí (i,j). D(i,j) được tính như sau: Giá trị ngưỡng được chọn cao hơn so với giá trị trung bình của tín hiệu nền. Trong đề tài này, chúng tôi chọn µ = 0.1. D  i, j  min  D  i  1, j  1 , D  i  1, j  , D  i, j  1  d i, j  (10) Bước 4: Sau khi đã có tín hiệu nền, ta bắt đầu thu và phân Với D(1,1) = d(1,1) là giá trị khởi tạo ban đầu, giải thuật tách tín hiệu. Tất cả những khung có mức năng lượng cao hơn ứng dụng đệ qui vào việc tính toán các độ sai biệt tại D(i, j). mức ngưỡng chính là tiếng nói, những khung có mức năng Giá trị cuối D(n,m) chính là giá trị chênh lệch giữa tín hiệu lượng thấp hơn là nhiễu hoặc các khoảng lặng. Việc sử dụng mẫu và tín hiệu cần so sánh. các hệ số năng lượng làm ngưỡng để xác định điểm bắt đầu có thể giảm nhiễu ngẫu nhiên trong thời gian ngắn, bởi một từ tiếng nói thông thường dài hơn 200ms, do đó chúng tôi sử dụng thêm số lượng khung để làm ngưỡng loại bỏ các nhiễu trong thời gian ngắn. 203 203
  5. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) B. Trích đặc trưng bằng thuật toán MFCC C. So sánh mẫu bằng giải thuật DTW Bước 1: Tiền nhấn tín hiệu theo phương trình (2). Trong Bước 1: Tính toán các phần tử của ma trận DTW cũng là đề tài này, chúng tôi sử dụng hệ số a = 0.97. các sai biệt cục bộ giữa các điểm của chuỗi cepstrum tín hiệu tiếng nói và tín hiệu mẫu theo phương trình (9). Bước 2: Chúng tôi nhóm tín hiệu vào các khung có chiều dài 25ms với 10ms chống lấn. Với tốc độ mẫu 8kHz, ta sẽ có Bước 2: Tính tại cột 0, bắt đầu từ đáy của mảng. Giá trị sai 200 mẫu trong một khung với 80 mẫu chống lấn giữa các biệt toàn cục của ô đáy mảng 0 bằng chính sai biệt cục bộ của khung. nó. Sau đó, tính các giá trị toàn cục của các ô khác trong mảng bằng cách lấy giá trị cục bộ của ô đó cộng với sai biệt toàn cục Bước 3: Áp dụng cửa sổ Hamming 200 điểm lên tín hiệu của ô ngay dưới nó. Mảng này đươc gọi là cột trước. tiếng nói. Bước 3: Tính sai biệt toàn cục của ô đầu tiên của cột hiện wf n  l   f n  l  .ham  l  (12) tại. Sai biệt toàn cục của ô này chính là sai biệt cục bộ của nó cộng với sai biệt toàn cục của ô đầu tiên của cột trước nó. trong đó fn(l) là khung được pre-emphasis thứ n, ham(l) thay cho cửa sổ Hamming, và wfn(l) là khung thứ n sau khi qua cửa Bước 4: Tính sai biệt toàn cục cho các ô còn lại. sổ Hamming. Bước 5: Cột hiện tài trở thành cột trước và lặp lại từ bước Bước 4: Khi các frame được cửa sổ hóa với chiều dài là 3 cho đến khi tất cả các cột được tính toán xong. Giá trị cuối 200 điểm, chiều dài FFT được thiết lập là 256 điểm để đạt của cột hiện tại cuối cùng chính là giá trị chênh lệch giữa tín được độ phân giải tần số tốt với khối lượng tính toán có thể hiệu mẫu và tín hiệu cần so sánh. chấp nhận được khi thực thi thực tế. Sau khi biến đổi FFT 256 điểm, chỉ có biên độ (căn bậc 2) của 128 điểm đầu tiên được IV. KẾT QUẢ THỰC NGHIỆM VÀ BÌNH LUẬN dùng cho bước tính toán tiếp theo bởi tính chất đối xứng của Các thí nghiệm được thực hiện với hệ thống nhận dạng phép biến đổi FFT. tiếng nói có bộ từ vựng lần lượt là 4 từ, 6 từ, 8 từ và 10 từ gồm Bước 5: Chúng ta xác định các hệ số Hn của bộ lọc bằng các từ “một”, “hai”, “ba”, “bốn”, “năm”, “sáu”, “bảy”, “tám”, phương trình (13) với f[n] được tính từ phương trình (4) và “chín”, “mười”. Mỗi từ được thử nghiệm 100 lần đọc. Các kết (5). quả thí nghiệm bao gồm tỉ lệ nhận dạng đúng của người đọc cũng là người huấn luyện và một người khác (nam, không phải 0 , k  f  m  1 người huấn luyện) thực hiện trong cùng một môi trường yên   2*(k  f [m  1]) tĩnh, có tiếng gió nhẹ từ quạt máy được trình bày ở Hình 7, , f  m  1  k  f  m   ( f [m  1]  f [m  1])*( f [m]  f [m  1]) H m [k ]   Hình 8, Hình 9, Hình 10 và thời gian nhận dạng được trình 2*( f [m  1]  k )  , f  m  k  f  m  1 bày ở Bảng 1.  ( f [m  1]  f [m  1])*( f [m  1]  f [m])  0 , k  f  m  1 Hệ thống nhận dạng tiếng nói được chạy trên Kit (13) BeagleBone Black dựa trên vi xử lý lõi đơn AM335x 1GHz Trong đề tài này, chúng tôi sử dụng Mel cho thang tần số ARM Cortex-A8, 512 MB DDR3 RAM. Các kết quả đánh giá từ 300Hz – 4000Hz để loại bỏ nhiễu tần số thấp dưới 300Hz độ chính xác và tốc độ nhận dạng được thực hiện hoàn toàn cho thiết bị thu âm gây ra. trên kit này. Bước 6: Tính các hệ số cepstrum theo phương trình (6), trong đề tài này chúng tôi sử dụng 13 hệ số cepstrum bậc thấp. Người huấn luyện (Trung bình 96.25%) Người khác (Trung bình 91.25%) Bước 7: Tính đạo hàm bậc 1 và bậc 2 theo phương trình 100 (7) và phương trình (8). 95 90 Tín hiệu tiếng nói được trích đặc trưng bằng giải thuật 85 MFCC. Đối với nhận dạng từ đơn, do mỗi từ phát âm dài 80 không quá 500ms sẽ tạo thành tối đa 24 khung tín hiệu, mỗi "một" "hai" "ba" "bốn" khung tín hiệu có 39 hệ số gồm 13 hệ số cepstrum, 13 hệ số đạo hàm bậc 1 và 13 hệ số đạo hàm bậc 2. Do đó vec-tơ đặc Hình 7 Độ chính xác nhận dạng đối với hệ thống có bộ từ vựng 4 từ trưng của mỗi từ có tối đa 936 hệ số, những hệ số này sẽ được lưu lại làm mẫu hoặc dùng làm ngõ vào tín hiệu so sánh với Hình 7 biểu diễn độ chính xác nhận dạng của hệ thống nhận dạng tiếng nói có bộ từ vựng gồm 4 từ: “một”, “hai”, các mẫu đã thu. “ba”, “bốn”. Có thể nhận thấy rằng, độ chính xác nhận dạng của hệ thống là rất cao. Đối với người thử nghiệm cũng là người huấn luyện, hệ thống đạt độ chính xác trung bình là 96.25%, trong khi người thử nghiệm là người khác (không 204 204
  6. HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) huấn luyện mô hình) hệ thống đạt độ chính xác trung bình là huấn luyện) cho tỉ lệ khá cao. Với kết quả này, cộng với việc 91.25%. hệ thống chỉ cần huấn luyện mỗi từ với một lần đọc duy nhất làm cho tính linh động của hệ thống rất cao, dễ sử dụng và Người huấn luyện (Trung bình 95.83%) linh hoạt, rất phù hợp với các thiết bị điều khiển cầm tay với Người khác (Trung bình 91.83%) các giới hạn về tài nguyên phần cứng. 100 98 Bảng 1 cho thấy thời gian nhận dạng của một từ tăng dần 96 khi bộ từ vựng của hệ thống tăng lên. Điều này là do khi bộ từ 94 vựng tăng, số mẫu cần so sánh, tham chiếu cũng tăng lên, làm 92 cho số lượng tính toán tăng. Tốc độ nhận dạng còn phụ thuộc 90 88 vào cách phát âm của người đọc. Đọc chậm và kéo dài sẽ dẫn 86 đến thời gian nhận dạng lâu hơn. 84 82 "một" "hai" "ba" "bốn" "năm" "sáu" V. KẾT LUẬN Hình 8 Độ chính xác nhận dạng đối với hệ thống có bộ từ vựng 6 từ Bài báo này trình bày một mô hình nhận dạng từ đơn đơn giản, dễ thực hiện bằng phương pháp trích đặc trưng MFCC và so sánh mẫu DTW. Các kết quả thí nghiệm với bộ thư viện Người huấn luyện (Trung bình 90.875%) nhỏ từ 10 từ trở xuống đã chứng minh được mô hình đem lại Người khác (Trung bình 85.375%) kết quả nhận dạng cao với ưu điểm nổi bật là thời gian nhận 100 dạng nhanh. Tuy nhiên, mô hình nhận dạng bị phụ thuộc vào 95 cách phát âm của người nói, nên khi cần mở rộng bộ thư viện, 90 sự tương đồng giữa các từ làm hiệu suất nhận dạng bị giảm 85 xuống. Do đó, đối với các bộ thư viện lớn hơn, cần các kết hợp với các phương pháp so sánh mẫu khác như Mô hình 80 chuỗi Markov ẩn, phương pháp Mạng Nơtron để tăng hiệu 75 suất nhận dạng. 70 "một" "hai" "ba" "bốn" "năm" "sáu" "bảy" "tám" Hình 9 Độ chính xác nhận dạng đối với hệ thống có bộ từ vựng 8 từ TÀI LIỆU THAM KHẢO [1] Nguyễn Thanh Bình, Võ Nguyễn Quốc Bảo, "Xử Lý Âm Thanh Và Hình Ảnh", Học Viện Công Nghệ Bưu Chính Viễn Thông, 2007. [2] Lê Tiến Thường, Hoàng Đình Chiến, "Vietnamese Speech Recognition Applied to Robot Communications", Au Journal of Technology, Volume 7 No. 3 January 2004. [3] V. Amudha, B.Venkataramani, R. Vinoth kumar, S. Ravishankar: “Software/Hardware Co-Design of HMM based Isolated Digit Recognition System.” In: Journal of Computers, VOL. 4, No. 2, pp. 154- 159, (2009). [4] Haitao Zhou, Xiaojun Han: “Design and Implementation of Speech Recognition System Based on Field Programmable Gate Array”. In: Modern Applied Science, Vol. 3, No. 8, pp. 106-111, August 2009. [5] Wei Han, Cheong-Fat Chan, Chiu-Sing Choy, Kong-Pang Pun: “An Efficient MFCC Extraction Method in Speech Recognition.” In: the 2006 IEEE International Symposium on Circuits and Systems (ISCAS), pp. 145- Hình 10Độ chính xác nhận dạng đối với hệ thống có bộ từ vựng 10 từ 148, Greece (2006). [6] Wei Han: “A Speech Recognition IC with an Efficient MFCC Extraction Bảng 1. Thời gian nhận dạng của người huấn luyện và người khác Algorithm and Multi-mixture Models”, the Chinese University of Hong Thời gian nhận Thời gian nhận Kong, Doctor of philosophy thesis, September 2006. Số lượng mẫu dạng trung bình của dạng trung bình của [7] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken language processing: A guide to theory, algorithm, and system development”, người huấn luyện người khác Prentice Hall PTR Upper Saddle River, NJ, USA ©2001. 4 mẫu 0.384s 0.445s [8] Qi Li, Jinsong Zheng, Augustine Tsai, & Qiru Zhou, "Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker 6 mẫu 0.47s 0.521s Recognition", IEEE Transactions On Speech And Audio Processing, 8 mẫu 0.593s 0.746s Vol. 10, No. 3, March 2002. [9] Rajesh Makhijani, Ravindra Gupta, “Isolated Word Speech Recognition 10 mẫu 0.648s 0.842s System Using Dynamic Time Warping” In: International Journal of Engineering Sciences & Emerging Technologies, VOL. 6, Issue 3, pp: Như các kết quả được đưa ra trong Hình 7, Hình 8, Hình 9, 352-367, (2013). Hình 10, ta có thể nhận thấy rằng khi bộ từ vựng được tăng [10] MarutiLimkar, RamaRao, VidyaSagvekar: “Isolated Digit Recognition dần lên thì độ chính xác nhận dạng của hệ thống càng giảm Using MFCC and DTW”. In: International Journal on Advanced Electrical and Electronics Engineering, Vol. 1, Issue 3, pp. 59-64, (2012). dần. Do đó, hệ thống nhận dạng sử dụng phương pháp DTW [11] Shivanker Dev Dhingra, Geeta Nijhawan, Poonam Pandit: “Isolated chỉ thích hợp trong các ứng dụng với bộ từ vựng nhỏ, điều Speech Recognition Using MFCC And DTW”, In: International Journal khiển đơn giản với đáp ứng nhanh. Ngoài ra, kết quả nhận of Advanced Research in Electrical, Electronics and Instrumentation dạng của hệ thống với một người khác (không phải là người Engineering, Vol. 2, Issue 8, pp. 4085-4092, (2013). 205 205
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2