Luận văn:Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động
lượt xem 63
download
Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay trên thế giới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộ vượt bậc. Tuy nhiên, hầu hết các công trình vẫn còn thực hiện ở trong phòng thí nghiệm, đặc biệt là đối với các thứ tiếng ít phổ biến như Tiếng Việt của chúng ta. Ý tưởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn:Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động
- TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TN ĐẶNG THÁI DƯƠNG – 0012535 HÀ GIANG HẢI – 0012544 H K H NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Đ THEO HƯỚNG TIẾP CẬN – TT NHẬN DẠNG ÂM VỊ TỰ ĐỘNG N LUẬN VĂN CỬ NHÂN TIN HỌC C A O GIÁO VIÊN HƯỚNG DẪN H Th.S. THÁI HÙNG VĂN K NIÊN KHOÁ 2000 – 2004
- Lời cảm ơn LỜI CẢM ƠN TN Xin chân thành cảm ơn thầy Thái Hùng Văn đã tận tình hướng dẫn chúng em trong quá trình hoàn thành đề tài. Những buổi nói chuyện, những kinh nghiệm cùng những tài liệu của thầy đã giúp chúng em có được những định hướng đúng đắn và H đưa ra các phương pháp tốt để thực hiện đề tài. K Xin gởi lời cảm ơn đến các thầy cô trong Khoa Công nghệ thông tin, những người đã dìu dắt chúng em trong suốt 4 năm ở Đại học. H Xin cảm ơn bạn bè và các anh chị Khóa trên, những người đã cùng chúng tôi Đ học tập, san sẻ khó khăn, trong đó có những ủng hộ tinh thần quý giá. Đặc biệt, anh – Nguyễn Tấn Dũng đã nhiệt tình giúp đỡ nhiều về tài liệu. TT Và cuối cùng, nhưng quan trọng nhất, xin cám ơn ba mẹ và những người thân, những người ủng hộ chúng con về mọi mặt. Không có sự quan tâm đó, chúng con không thể hoàn thành tốt đồ án này. N C TP. HCM, ngày 10 tháng 7 năm 2004 Các sinh viên A O H Đặng Thái Dương – Hà Giang Hải K i
- M ục l ục MỤC LỤC TN LỜI CẢM ƠN .............................................................................................................. i MỤC LỤC ...................................................................................................................ii H DANH SÁCH CÁC HÌNH .......................................................................................vii K DANH SÁCH CÁC BẢNG ....................................................................................... ix GIỚI THIỆU CHUNG ................................................................................................ x H CHƯƠNG 1 Sơ lược về ngữ âm tiếng Việt............................................................ 1 Đ 1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói Tiếng Việt .... 1 – 1.2. Phân loại âm tố theo cấu âm............................................................................. 1 TT 1.2.1. Định nghĩa âm tố........................................................................................ 1 1.2.2. Các âm tố phụ âm ...................................................................................... 2 N 1.2.2.1. Đặc điểm cấu tạo của phụ âm ............................................................. 2 C 1.2.2.2. Một số cách phân chia phụ âm ............................................................ 2 A 1.2.2.3. Cấu âm bổ sung ................................................................................... 4 O 1.2.3. Các âm tố nguyên âm ................................................................................ 4 H 1.2.3.1. Đặc điểm cấu tạo của nguyên âm ....................................................... 4 K 1.2.3.2. Một số cách phân chia nguyên âm ...................................................... 4 1.3. Phân loại âm tố về mặt âm học - nhận dạng tiếng nói dựa vào đặc trưng âm học ........................................................................................................................... 6 1.3.1. Ý nghĩa của phân loại về mặt âm học ........................................................ 6 ii
- M ục l ục 1.3.2. Các đặc trưng âm học ................................................................................ 6 1.3.3. Nhận dạng tiếng nói dựa vào các đặc trưng âm học ................................ 11 1.4. Sơ lược về âm tiết tiếng Việt .......................................................................... 11 1.4.1. Giới thiệu về âm tiết ................................................................................ 11 1.4.2. Một số đặc điểm của âm tiết tiếng Việt ................................................... 12 TN 1.4.2.1. Là ngôn ngữ có kết cấu âm tiết tính .................................................. 12 1.4.2.2. Mỗi âm tiết có thanh điệu riêng ........................................................ 12 H 1.4.2.3. Âm tiết có cấu trúc chặt chẽ và ổn định ............................................ 13 K 1.5. Lý thuyết về âm vị .......................................................................................... 14 H 1.5.1. Định nghĩa âm vị...................................................................................... 14 Đ 1.5.2. Chức năng của âm vị ............................................................................... 15 1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm .................................. 15 – CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị ................................ 17 TT 2.1. Giới thiệu ........................................................................................................ 17 N 2.2. Những vấn đề cơ bản của HMM .................................................................... 17 C 2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận dạng tiếng nói..................................................................................................... 17 A 2.2.1.1. Giới thiệu về nhận dạng thống kê và HMM ..................................... 18 O 2.2.1.2. Các thành phần chính của HMM ...................................................... 19 H 2.2.1.3. Ví dụ về nhận dạng từ đơn dựa trên HMM....................................... 21 K 2.2.1.4. Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên HMM .............................................................................................................. 22 2.2.1.5. Ba vấn đề thiết yếu của mô hình HMM và cách giải quyết các vấn đề trên ................................................................................................................. 24 iii
- M ục l ục 2.3. Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM .............................. 28 2.3.1. Mô hình Nhận dạng ................................................................................. 28 2.3.2. Các thành phần cơ bản của hệ thống nhận dạng tiếng nói dựa trên HMM và mối liên hệ giữa chúng. ................................................................................. 30 2.4. Mô hình HMM cho âm vị được sử dụng trong bài làm ................................. 32 TN CHƯƠNG 3 Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng ........................ 34 3.1. Ý nghĩa của Tiền xử lý Tiếng nói................................................................... 34 H 3.2. Một số công việc trong Tiền xử lý tín hiệu tiếng nói ..................................... 35 K 3.2.1. Làm nổi tín hiệu (pre-emphasis) .............................................................. 35 H 3.2.2. Lọc tiếng ồn ............................................................................................. 36 Đ 3.3. Rút trích đặc trưng .......................................................................................... 37 3.3.1. Giới thiệu ................................................................................................. 37 – 3.3.2. Một số phương pháp trích đặc trưng........................................................ 38 TT 3.3.2.1. Phương pháp Mã hóa dự báo tuyến tính (LPC) ................................ 38 3.3.2.3. Phương pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC) ... 42 N 3.3.2.4. Các hệ số delta (D) và hệ số gia tốc (A) ........................................... 42 C 3.3.3. So sánh các phương pháp trích đặc trưng ................................................ 43 A CHƯƠNG 4 Thuật giải Embedded training – tách và xây dựng mô hình HMM O tự động cho âm vị ...................................................................................................... 45 H 4.1. Tách và nhận dạng âm vị tự động dựa trên HMM ......................................... 45 K 4.1.1. Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn luyện trên dữ liệu gán nhãn ...................................................................................................... 45 4.1.2. Thuật giải Embedded training - huấn luyện trên dữ liệu âm thanh không gán nhãn âm vị ................................................................................................... 46 iv
- M ục l ục 4.2. Các công thức ước lượng tham số của mô hình HMM .................................. 49 4.2.1. Ước lượng tham số khi huấn luyện các mô hình HMM độc lập ............. 49 4.2.2. Ước lượng tham số trong thuật giải Embedded training ......................... 51 4.3. Các vấn đề về tham số của HMM khi sử dụng thuật giải Embedded training. ............................................................................................................................... 53 TN 4.3.1. Khởi tạo tham số ...................................................................................... 53 4.3.2. Ngưỡng .................................................................................................... 54 H 4.3.3. Số lần lặp trong mỗi bước luyện của thuật toán ...................................... 54 K 4.3.4. Dữ liệu huấn luyện ................................................................................... 54 H CHƯƠNG 5 Thực hiện chương trình ................................................................... 56 Đ 5.1. Các khó khăn trong quá trình nhận dạng........................................................ 56 5.1.1. Âm vị độc lập và âm vị phụ thuộc ngữ cảnh ........................................... 56 – 5.1.2. Tách âm tiết trong tiếng nói liên tục và sự phụ thuộc giữa các âm vị lẫn TT nhau trong tiếng nói liên tục .............................................................................. 58 5.1.3. Các nguyên âm đôi .................................................................................. 58 N 5.1.4. Ảnh hưởng của thanh điệu lên âm vị ....................................................... 59 C 5.2. Quá trình thực hiện chương trình ................................................................... 59 A 5.2.1. Các bước chính ........................................................................................ 60 O 5.2.2. Thu dữ liệu và gán nhãn dữ liệu .............................................................. 60 H 5.2.2.1. Thu dữ liệu ........................................................................................ 60 K 5.2.2.2. Gán nhãn dữ liệu ............................................................................... 61 5.2.2.3. Đánh giá dữ liệu ................................................................................ 61 5.2.2.4. Rút trích đặc trưng dữ liệu ................................................................ 61 5.2.3. Khởi tạo mô hình HMM .......................................................................... 62 v
- M ục l ục 5.2.4. Huấn luyện mô hình HMM...................................................................... 63 5.2.4.1. Huấn luyện mô hình HMM cho âm vị độc lập ngữ cảnh (monophone) .................................................................................................. 63 5.2.4.2. Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone) ....... 66 5.2.5. Nhận dạng ................................................................................................ 70 TN 5.3. Đánh giá kết quả và hướng phát triển: ........................................................... 71 5.3.1. Kết quả nhận dạng ................................................................................... 71 H 5.3.2. Nhận xét ................................................................................................... 73 K 5.3.3. Hướng phát triển ...................................................................................... 73 H TÀI LIỆU THAM KHẢO......................................................................................... 75 Đ – TT N C A O H K vi
- Danh sách các hình DANH SÁCH CÁC HÌNH HÌNH 1 – Phổ (spectrum) của một nguồn âm thanh tại thời điểm t ........................... 7 TN HÌNH 2 – Phổ đồ (spectrogram) của tiếng “hai” (trên) và sóng âm tương ứng (dưới). Những vùng có cường độ cao (vùng đen) tạo thành những dãi bắt ngang qua H phổ đồ, đó là những vệt formant, được đánh số từ dưới lên là F1, F2, F3, … .... 8 K HÌNH 3 – Cụm từ “âm tiết tiếng Việt” thể hiện trên sóng âm. Mỗi âm tiết có biên độ lớn ở giữa âm và giảm dần khi đi về đầu và cuối âm ................................... 12 H HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị “n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm” ..................................... 16 Đ HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai”...................... 16 – HÌNH 6 – Mô hình HMM 5 trạng thái ...................................................................... 19 HÌNH 7 – Sơ đồ huấn luyện mô hình HMM ............................................................ 28 TT HÌNH 8 – Sơ đồ nhận dạng từ mô hình HMM đã được huấn luyện......................... 29 HÌNH 9 – Mô hình nhận dạng theo 3 cấp ................................................................. 30 N HÌNH 10 – Sóng âm của chữ “hai” trước khi (hình trái) và sau khi (hình phải) được C làm phẳng........................................................................................................... 36 HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và các biến A đổi Fourier ......................................................................................................... 42 O HÌNH 12 – Lưu đồ huấn luyện từ đơn của công cụ HRest (HTK) ........................... 46 H HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” ........................ 47 HÌNH 14 – Mô hình huấn luyện Embedded training ................................................ 48 K HÌNH 15 – Các âm vị không nằm trong 1 siêu cầu .................................................. 57 HÌNH 16 – Mô hình huấn luyện monophone (Từ in nghiêng trong dấu ngoặc đơn là tên thư mục hoặc tập tin trong bài làm của nhóm) ............................................ 63 HÌNH 17 – Mối liên hệ giữa likelihood trung bình và số bước huấn luyện ............. 64 vii
- Danh sách các hình HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học ........... 68 HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering .................... 69 HÌNH 20 – Sự phụ thuộc của kết quả nhận dạng vào ngưỡng phân nhóm các trạng thái của HMM .................................................................................................... 69 TN H K H Đ – TT N C A O H K viii
- Danh sách các bảng DANH SÁCH CÁC BẢNG BẢNG 1 – Phân chia nguyên âm theo độ nâng của lưỡi ............................................ 6 BẢNG 2 – Ảnh hưởng của số bước lặp huấn luyện đến kết quả nhận dạng ............ 64 TN BẢNG 3 – Kết quả nhận dạng các tiếng là chữ số đọc liên tục ................................ 72 BẢNG 4 – Kết quả nhận dạng từ đơn ....................................................................... 73 H K H Đ – TT N C A O H K ix
- Giới thiệu chung GIỚI THIỆU CHUNG TN Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay trên thế giới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộ vượt bậc. Tuy H nhiên, hầu hết các công trình vẫn còn thực hiện ở trong phòng thí nghiệm, đặc biệt K là đối với các thứ tiếng ít phổ biến như Tiếng Việt của chúng ta. Ý tưởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm H 50 của thế kỷ 20 và đến nay đã đạt được nhiều kết quả đáng kể. Có 3 hướng tiếp cận Đ chính cho nhận dạng tiếng nói: – Tiếp cận Âm học: Hướng tiếp cận này dựa vào các đặc điểm âm học được rút ra được từ phổ âm thanh. Tuy nhiên kết quả của hướng tiếp cận này TT còn thấp vì trong thực tế, các đặc trưng âm học có sự biến động rất lớn. Hơn nữa phương pháp này đòi hỏi tri thức rất đầy đủ về âm học (Vốn tri N thức âm học hiện nay chưa thể đáp ứng). C Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phương pháp máy học dựa trên thống kê để học và rút ra mẫu tham khảo từ lượng dữ liệu lớn. A Hướng này đang được sử dụng nhiều, chủ yếu là dựa vào Mô hình O Markov ẩn (HMM). H Tiếp cận Trí tuệ nhân tạo: là hướng kết hợp của cả hai hướng trên. K Phương pháp này kết hợp được cả tri thức của chuyên gia và phương pháp mẫu thống kê. Đây sẽ là hướng tiếp cận tương lai của nhận dạng tiếng nói. Việc nhận dạng tiếng nói gặp một số khó khăn sau: x
- Giới thiệu chung Trong môi trường sinh hoạt hàng ngày, chất lượng tiếng nói biến động rất lớn do chịu ảnh hưởng của các yếu tố ngoại cảnh, tâm và sinh lý người nói: một câu của cùng một người nói khi thâu vào máy sẽ khác nhau nếu nói ở hai tâm trạng khác nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác nhau (lúc khoẻ nói khác, lúc bệnh nói khác), tốc độ nói khác nhau (nói chậm thì rõ hơn nói nhanh), môi trường xung quanh khác nhau (môi trường có tiêng ồn thì âm thu vào sẽ bị nhiễu), TN v.v… Và còn nhiều yếu tố khác nữa tác động lên chất lượng của lời nói như thiết bị thu không tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên rất khó khăn. H Nói về nhận dạng tiếng Việt, chúng ta đi sau thế giới rất lâu. Vì vậy, thành K quả đạt được còn hạn chế: chưa có những hệ thống nhận dạng thật sự tốt, chưa có các kho dữ liệu quí như trong tiếng Anh,… Tuy nhiên, chúng ta được thừa hưởng H nhiều thành quả của thế giới về kỹ thuật nhận dạng. Hiện nay, trong khi chưa có các công trình nghiên cứu đầy đủ về ngữ âm tiếng Việt dưới góc độ làm tin học, hướng Đ tiếp cận chủ yếu để nhận dạng tiếng nói tiếng Việt vẫn là nhận dạng thống kê. Và – khó khăn của chúng ta là xây dựng các kho dữ liệu đủ lớn và chính xác dùng để học mẫu và kiểm tra kết quả nhận dạng. TT Trong hệ nhận dạng tiếng nói, đơn vị cơ bản phải nhận được là từ, hay còn gọi là âm tiết. Trong hầu hết các ngôn ngữ, số lượng âm tiết là rất lớn. Tiếng Việt có N hơn 8000 âm tiết, khoảng 6000 âm tiết được dùng phổ biến. Với số lượng lớn như C vậy, việc nhận dạng từng âm tiết là khó thực hiện được. Vì vậy, chúng ta phải đi theo hướng nhận dạng các đơn vị nhỏ hơn cấu thành âm tiết (đơn vị dưới từ, ví dụ A như âm vị) vì các đơn vị này có số lượng ít. Theo thống kê, trong hầu hết các ngôn O ngữ, số lượng âm vị dao động từ 20 đến 60 (ít hơn nhiều so với hàng ngàn hay hàng H chục ngàn âm tiết). Vì vậy, nhận dạng âm vị là hướng thường được chọn trong số các hướng nhận dạng đơn vị dưới từ. K Trong nhận dạng tiếng nói theo hướng nhận dạng từng âm vị, một khó khăn chúng ta gặp phải là: các âm vị liền nhau trong chuỗi tiếng nói không có vách ngăn rõ ràng (2 âm vị sát nhau có một phần giao nhau, khó xác định được phần giao nhau xi
- Giới thiệu chung thuộc âm vị trước hay âm vị sau). Ngay cả đối với con người, tách âm vị từ một âm tiết (xác định vị trí bắt đầu và vị trí kết thúc của âm vị đó trên sóng âm của âm tiết) cũng không phải là công việc đơn giản. Hiện nay, hầu hết các hướng tiếp cận để nhận dạng âm vị là nhận dạng theo học mẫu thống kê. Thông thường, để học mẫu, người ta cung cấp cho chương trình học một nguồn dữ liệu có nhiều mẫu được đã phân loại thành nhiều lớp và có gán TN nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữ liệu này phải được phân lớp và gán nhãn chính xác hoàn toàn để máy học. Tuy nhiên, do không thể tách âm vị H một cách chính xác, nguồn dữ liệu âm vị đưa vào khó đạt được mức độ chính xác, K kết quả là việc huấn luyện giảm hiệu suất, làm cho hiệu suất của chương trình nhận dạng cũng giảm theo. H Chúng tôi xin nêu ra một hướng giải quyết để tránh việc gán nhãn âm vị Đ không chính xác: thay vì đánh nhãn âm vị, chúng ta sẽ đánh nhãn âm tiết, đồng thời cho biết các âm vị cấu thành âm tiết đó. Như vậy, dữ liệu mẫu cung cấp cho quá – trình học là các âm tiết. Thuật toán học được sử dụng để tách âm vị là Embedded TT training. Kết quả thu được là các mô hình HMM cho từng âm vị. Do mỗi dãy âm vị được chọn tương đương với một âm tiết, công việc đánh nhãn âm vị trên sóng âm thực chất là không có (chỉ đánh nhãn trên âm tiết, vốn được thực hiện dễ dàng). Vì N vậy, có thể xem dữ liệu đưa vào trong quá trình huấn luyện là dữ liệu không gán C nhãn và phương pháp nhận dạng này được xem là nhận dạng âm vị tự động. A Công việc gán nhãn âm vị bằng tay rất vất vả và mất nhiều thời gian.Ngoài ra, hiện nay có rất ít kho dữ liệu đã được gán nhãn âm vị. Vì vậy, hướng tiếp cận nhận O dạng âm vị tự động, vốn hiệu quả hơn, tỏ ra là hướng tiếp cận đúng đắn. Tuy nhiên, H huấn luyện trên dữ liệu không gán nhãn cũng có những khó khăn: đòi hỏi khối K lượng dữ liệu lớn hơn nhiều so với huấn luyên trên dữ liệu có gán nhãn, đồng thời quá trình huấn luyện cũng lâu hơn. xii
- Giới thiệu chung Với những ưu thế vượt trội như trên đã nêu, hướng tiếp cận nhận dạng âm vị tự động đã được chúng tôi chọn trong đề tài nhận dạng tiếng nói tiếng Việt của mình. Trong bài làm, chúng tôi muốn chứng minh hai điều: Nếu có đầy đủ dữ liệu tiếng nói (không gán nhãn), có thể nhận dạng được số lượng lớn các âm tiết tiếng Việt với độ chính xác tương đối cao theo hướng tiếp cận nhận dạng âm vị tự động. TN Có thể nhận dạng được tiếng nói Tiếng Việt nói liên tục với tốc độ trung bình. H Phần còn lại của luận văn này được tổ chức như sau: K CHƯƠNG 1: Sơ lược một số đặc điểm của ngữ âm tiếng Việt, hướng tiếp H cận nhận dạng tiếng nói dựa vào đặc trưng âm học, giới thiệu về âm vị và bài toán Đ tách âm vị tự động trong tiếng Việt. CHƯƠNG – 2: Giới thiệu mô hình HMM và sự lựa chọn mô hình HMM cho TT đề tài nhận dạng tiếng Việt của nhóm. CHƯƠNG 3: Tiền xử tiếng nói và rút trích đặc trưng. Chương này sẽ giới N thiệu về tiền xử lý tiếng nói và một số phương pháp trích đặc trưng được sử dụng C trong nhận dạng tiếng nói. CHƯƠNG 4: Giới thiệu thuật giải embedded training. Đây là quá trình xây A O dựng mô hình HMM tự động cho các âm vị từ kho dữ liệu không gán nhãn âm vị. H CHƯƠNG 5: Quá trình thực hiện chương trình nhận dạng tiếng nói của K nhóm. Kết quả nhận dạng và giới thiệu chương trình demo. xiii
- Sơ lược về ngữ âm tiếng Việt CHƯƠNG 1 Sơ lược về ngữ âm tiếng Việt TN 1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói Tiếng Việt H Các hệ nhận dạng tiếng nói phát triển gần đây bắt đầu đi theo hướng tiếp cận ngữ âm học kết hợp với hướng tiếp cận nhận dạng theo mẫu thống kê truyền thống. K Các hệ nhận dạng tiếng nói trong tương lai cũng kết hợp hướng nhận dạng thống kê và sử dụng các tri thức về ngữ âm học để tạo ra các hệ nhận dạng hoạt động giống H với cách thức mà con người nghe và hiểu tiếng nói nhất. Vì vậy, các nghiên cứu về Đ ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhận dạng trở nên mang ý nghĩa quan trọng. Công việc nghiên cứu này có ý nghĩa riêng biệt trên từng ngôn – ngữ (Vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài những điểm chung). Vì vậy, TT muốn xây dựng tốt hệ nhận dạng tiếng nói tiếng Việt, trước tiên chúng ta phải nghiên cứu ngữ âm tiếng Việt để biết được đặc điểu âm học của Tiếng Việt trong N từng địa phương. Từ đó, xây dựng hệ nhận dạng hiệu quả nhất cho ngôn ngữ/địa C phương đó. 1.2. Phân loại âm tố theo cấu âm A 1.2.1. Định nghĩa âm tố O Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được. Chúng H không mang chức năng phân biệt nghĩa hay nhận diện từ. K Âm tố thường tương ứng với âm vị. Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát âm khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát âm của 1
- Sơ lược về ngữ âm tiếng Việt mỗi cá nhân,… Chính vì vậy, người ta không liệt kê được có bao nhiêu âm tố trong các ngôn ngữ. Âm tố cơ bản được chia ra làm 2 loại: nguyên âm và phụ âm. Sự phân chia này có thể đi từ những đặc điểm âm học, cấu âm và vai trò của chúng trong cấu tạo âm tiết. TN Về mặt chức năng, các nguyên âm thường là hạt nhân (hay đỉnh) của âm tiết - thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và ngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm. Phụ âm, H ngược lại, thường là yếu tố đi kèm, không tạo thành âm tiết (trừ các phụ âm vang). K Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của nguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thường chỉ đi kèm với H nguyên âm khác để tạo âm tiết. Ví dụ: các âm tố được viết thành u, i trong các âm Đ tiết “sau”, “mai” trong tiếng Việt là các bán nguyên âm. – 1.2.2. Các âm tố phụ âm TT 1.2.2.1. Đặc điểm cấu tạo của phụ âm Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại trên lối ra của đường không khí. Điểm có chướng ngại được gọi là vị trí cấu âm. N Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ C thịt ở vị trí cấu âm. A Luồng hơi ra mạnh O 1.2.2.2. Một số cách phân chia phụ âm H Phân chia theo theo mối quan hệ giữa tiếng thanh và tiếng ồn trong K cấu tạo của phụ âm: Các phụ âm được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và các phụ âm ồn. Trong các phụ âm ồn lại chia ra các phụ âm hữu thanh (phát 2
- Sơ lược về ngữ âm tiếng Việt âm có sự tham gia của tiếng thanh, do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh). Nhóm phụ âm vang có thể được coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu (như ở phụ âm [r] tiếng Nga hay [R] tiếng Pháp hay [ l] tiếng Việt) hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự TN do qua mũi (như ở các phụ âm [m], [n] trong tiếng Việt). Phân chia theo phương thức cấu tạo tiếng ồn, bao gồm: H Phụ âm tắc: tạo thành khi hai khí quan tiếp xúc nhau, tạo thành chỗ tắc, cản K trở hoàn toàn lối ra của luồng không khí. Ví dụ: Các phụ âm [p], [b], [t], [d]. H Phụ âm xát: tạo thành khi hai khí quan nhích lại gần nhau, làm cho lối ra của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành Đ của bộ máy phát âm. Ví dụ: Các phụ âm [f], [v], [s], [z], [h]. – Phụ âm rung: tạo thành khi các khí quan dễ rung động (như đầu lưỡi, lưỡi con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, TT luồng không khí đi ra mạnh làm cho các khí quan ấy rung lên. Ví dụ: phụ âm [r] trong tiếng Nga hay [R] trong tiếng Pháp. N Trong cách cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn: C Giai đoạn tiến: khí quan phát âm chuyển đến vị trí cấu âm. A Giai đoạn giữ: khí quan phát âm ở vị trí cấu âm. O Giai đoạn lùi: khí quan phát âm rời khỏi vị trí cấu âm. H Hai giai đoạn đầu giống nhau ở bất cứ âm tắc nào. Về giai đoạn thứ ba, cần K phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc- xát và âm khép. Phân chia theo vị trí tạo ra tiếng ồn Theo vị trí cấu tạo tiếng ồn, các phụ âm thường được chia ra thành các loạt chính như: phụ âm môi, răng, lợi, ngạc mạc, lưỡi con, yết hầu, thanh hầu. 3
- Sơ lược về ngữ âm tiếng Việt Theo khí quan chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu. Trong các nhóm này, có một số cần chia nhỏ ra nữa. Thí dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi-môi (ví dụ: [p], [b], [m]) với các âm một môi, thường gọi là âm môi-răng ( ví dụ: [f], [v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt TN lưỡi, … 1.2.2.3. Cấu âm bổ sung H Một số ngôn ngữ còn có một số cấu âm bổ sung làm thay đổi sắc thái các âm. K Ðó là các hiện tượng bật hơi, môi hóa, ngạc hóa, yết hầu hóa, thanh hầu hóa, mũi hóa. Trong tiếng Việt, các cấu âm bổ sung có vai trò quan trọng hơn cả là: hiện H tượng bật hơi tức là kèm theo một lưu lượng không khí lớn khi chỗ tắc được bật ra Đ (ví dụ: phụ âm th); hiện tượng thanh hầu hóa - bổ sung động tác tắc kèm theo sự nâng lên của thanh hầu; và yết hầu hóa - bổ sung động tác khép của yết hầu. Hai – hiện tượng sau góp phần hiện thực hóa một số phụ âm đầu và thanh điệu tiếng Việt. TT Các cấu âm bổ sung, cũng như các cấu âm khác, đều có thể được sử dụng để khu biệt các âm tố, hay các hiện tượng âm thanh trong ngôn ngữ. Vì vậy, xét về mặt N âm vị học, chúng có giá trị bình đẳng với nhau. C 1.2.3. Các âm tố nguyên âm 1.2.3.1. Đặc điểm cấu tạo của nguyên âm A Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi O Bộ máy phát âm căng thẳng toàn bộ H Luồng hơi ra yếu hơn phụ âm K 1.2.3.2. Một số cách phân chia nguyên âm Các nguyên âm không thể phân loại theo tiêu chuẩn như của phụ âm. Về mặt phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra 4
- Sơ lược về ngữ âm tiếng Việt tự do. Nguyên âm không có vị trí cấu âm vì các khí quan không tạo thành khe, cũng không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, vì bình thường, bất cứ nguyên âm nào cũng có tiếng thanh. Các nguyên âm chỉ khác nhau ở các hoạt động của các khí quan phát âm, trong đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm. Lưỡi chuyển động tới - lui và lên - xuống trong khoang TN miệng tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về H trước, làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh K trường phía trước ngắn lại. Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi H và hình dáng của môi: Đ Phân loại theo vị trí của lưỡi – Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên). Ví TT dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô] và nguyên âm dòng giữa là [ư], [ơ], [a]. N Phân loại theo độ nâng của lưỡi C Các nguyên âm được chia tùy theo từng ngôn ngữ. Ðộ nâng của lưỡi tương ứng với độ mở của miệng, nên các nguyên âm có độ nâng cao còn gọi là nguyên âm A hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại O cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ngữ có H một hệ thống nguyên âm khác nhau. Ví dụ, các nguyên âm dòng trước trong tiếng K Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, nguyên âm trong tiếng Nga có 3 độ nâng, còn trong tiếng Anh có 6 độ nâng. Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 độ nâng: 5
- Sơ lược về ngữ âm tiếng Việt Độ nâng Gồm các nguyên âm Hẹp [i], [u], … Hơi hẹp [ê], [ư], … Hơi rộng [o], [e], … Rộng [ă], [a], … BẢNG 1 – Phân chia nguyên âm theo độ nâng của lưỡi Phân loại theo hình dáng môi TN Các nguyên âm được chia thành nguyên âm tròn môi (như [u], [ô], [o]), nguyên âm không tròn môi (như [i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở H nguyên âm khép và yếu nhất ở nguyên âm mở. K 1.3. Phân loại âm tố về mặt âm học - nhận dạng tiếng nói dựa vào đặc trưng âm học H 1.3.1. Ý nghĩa của phân loại về mặt âm học Đ Sự phân loại về mặt cấu âm mang tính chất lý thuyết, mô tả cách phát sinh – từng âm tố trong cơ quan phát âm của con người. Trên thực tế, con người không cần biết về cách cấu âm của từng nguyên âm và phụ âm vẫn có thể nghe và hiểu nhau. TT Đặc biệt trong lĩnh vực nhận dạng tiếng nói, dữ liệu mà con người đưa cho máy xử lý chỉ mang đặc điểm về âm học (những gì con người nghe và cảm nhận được). N Máy tính không biết gì đến hình thức cấu âm của nguồn dữ liệu (và cũng không thể C biết được). Vì vậy, sự phân loại âm tố về mặt âm học được đề xướng và nó mang những ưu điểm: xác định đặc điểm của âm tố một cách trực tiếp không thông qua bộ A máy phát âm; tiêu chí phân loại đơn giản,… O 1.3.2. Các đặc trưng âm học H Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm phổ. K Các máy phân tích âm phổ cho chúng ta các phổ đồ (phổ hình), qua đó các âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ... 6
CÓ THỂ BẠN MUỐN DOWNLOAD
-
THIẾT KẾ CHẾ TẠO ROBOT ĐIỀU KHIỂN TỪ XA BẰNG GIỌNG NÓI
6 p | 734 | 202
-
LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT
55 p | 360 | 130
-
Luận văn:Nhận dạng tiếng nói tiếng việt - tìm hiểu và ứng dụng
0 p | 308 | 126
-
Bài tập lớn môn Trí tuệ nhân tạo: Nhận dạng ký tự viết tay tiếng Việt
20 p | 666 | 111
-
Luận văn: Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
0 p | 169 | 60
-
Luận văn thạc sĩ: Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt và ứng dụng
81 p | 162 | 44
-
Luận văn:Nhận dạng tiếng nói tiếng Việt sử dụng mạng nơ-ron nhân tạo và mô hình markov ẩn
13 p | 142 | 42
-
LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN
56 p | 125 | 32
-
Luận văn Thạc sĩ Hệ thống thông tin: Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu
96 p | 35 | 9
-
Luận án Tiến sĩ Máy tính: Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt
124 p | 12 | 6
-
Tóm tắt Luận văn Thạc sĩ: Nghiên cứu về nhận dạng âm thanh và ứng dụng trong chuyển đổi âm thoại sang văn bản
24 p | 34 | 5
-
Tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục
26 p | 66 | 5
-
Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục
130 p | 84 | 5
-
Luận văn Thạc sĩ Khoa học máy tính: Mô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói
61 p | 33 | 4
-
Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu về nhận dạng tiếng nói ứng dụng vào điều khiển xe lăn
65 p | 34 | 3
-
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nhận dạng thực thể định danh từ văn bản ngắn Tiếng Việt và đánh giá thực nghiệm
16 p | 47 | 2
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt
19 p | 28 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn