Đặc trưng MFCC
-
Nghiên cứu này tập trung vào một số kỹ thuật được sử dụng phổ biến nhất bao gồm Mel Frequency Cepstral Coefficients (MFCC), Linear Prediction Coefficients (LPC), Linear Prediction Cepstral Coefficients (LPCC). Các dữ liệu đặc trưng này được sử dụng để xây dựng và huấn luyện mô hình học máy nhận dạng sự có mặt của các từ khóa trong giọng nói thu âm được.
3p vigeorge 06-12-2023 12 3 Download
-
Bài viết "Cơ sở Toán và MFCCs - Trích xuất đặc trưng âm thanh" đề cập cơ sở Toán học và phương pháp MFCCs (Mel-Frequency Cepstral Coefficients) nhằm trích xuất các đặc trưng của dữ liệu dạng âm thanh. Mời các bạn cùng tham khảo!
11p kimphuong1141 16-11-2023 10 6 Download
-
Bài viết Thuật toán mạng nơron truyền thẳng đa lớp cho phân loại tiếng nói trong điều khiển xe lăn điện cho người tàn tật đề xuất một thuật toán mạng nơron truyền thẳng đa lớp (MLFNN) cho phân loại tiếng nói trong điều khiển xe lăn điện, trong đó trích dẫn đặc trưng của tín hiệu được thực hiện bằng phương pháp dựa vào hệ số phổ tần số Mel.
5p vijaguar 16-11-2022 11 3 Download
-
Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo!
6p wangziyi_1307 26-04-2022 26 2 Download
-
Bài viết bàn về thuật toán biến đổi FFT (Fast Fourier Transform) được áp dụng một cách rộng rãi trong nhiều ứng dụng khác nhau bao gồm phân tích phổ tín hiệu trong các hệ thống OFDM (Orthogonal Frequency Division Multi-plexing), trích đặc trưng âm thanh MFCC (Mel Frequency Cepstral Coefficients) trong hệ thống nhận dạng giọng nói hay trong các hệ thống xử lý số tín hiệu cần phân tích trên miền tần số nói chung. Mời các bạn cùng tham khảo!
5p wangziyi_1307 26-04-2022 41 5 Download
-
Mục đích của Luận văn này tập trung nghiên cứu các kỹ thuật nhận dạng tiếng nói, từ đó xây dựng ứng dụng nhận dạng một số từ, các số và cụ thể là nhận dạng âm thanh và ứng dụng trong chuyển đổi âm thoại sang văn bản sử dụng mô hình Markov ẩn dựa trên các đặc trưng MFCC. Ngoài ra, một số kỹ thuật khử nhiễu dữ liệu như CMS cũng được tích hợp để tăng tính hiệu quả của hệ thống. Các kỹ thuật nhận dạng giọng nói trong luận văn tập trung vào loại dữ liệu âm thanh tiếng Việt.
24p monsterhunterer 15-06-2021 35 5 Download
-
Luận văn tập trung nghiên cứu các kỹ thuật nhận dạng tiếng nói, từ đó xây dựng ứng dụng nhận dạng một số từ, các số và cụ thể là nhận dạng âm thanh và ứng dụng trong chuyển đổi âm thoại sang văn bản sử dụng mô hình Markov ẩn dựa trên các đặc trưng MFCC. Mời các bạn cùng tham khảo!
69p monsterhunterer 15-06-2021 40 5 Download
-
Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0). Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng phương pháp.
6p doctorstrange1 21-06-2018 246 24 Download
-
The overall performance of the systems is often limited by the accuracy of the underlying speech parameterization and reconstruction method. The method proposed in this paper allows accurate MFCC, F0 and tone extraction and high-quality reconstruction of speech signals assuming Mel Log Spectral Approximation filter. Its suitability for high-quality HMM-based speech synthesis is shown through evaluations subjectively.
11p binhminhmuatrenngondoithonggio 09-06-2017 149 17 Download
-
Bài báo trình bày việc áp dụng Bottle Neck Feature(BNF) - một dạng đặc trưng của tín hiệu tiếng nói được trích chọn thông qua mạng neural (Neural Network) - cho nhận dạng tiếng nói tiếng Việt.
10p dieutringuyen 07-06-2017 63 5 Download
-
Bài viết Điều khiển robot Pioneer P3-DX bằng tiếng nói với đặc trưng MFCC và giải thuật Naïve Bayes Nearest Neighbors trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient).
10p maiyeumaiyeu26 23-12-2016 82 4 Download
-
Bài viết Nhận dạng phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản trình bày phương pháp sử dụng đặc trưng MFCC kết hợp với khai thác thông tin về tần số cơ bản (F0) của tiếng Việt để thực hiện nhận dạng phương ngữ tiếng Việt dựa trên mô hình GMM.
6p maiyeumaiyeu26 23-12-2016 129 8 Download