intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn:Nhận dạng tiếng nói tiếng Việt sử dụng mạng nơ-ron nhân tạo và mô hình markov ẩn

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:13

143
lượt xem
42
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu....

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nhận dạng tiếng nói tiếng Việt sử dụng mạng nơ-ron nhân tạo và mô hình markov ẩn

  1. -1- -2- B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG NGUY N QU C LONG Ngư i hư ng d n khoa h c : PGS.TS Phan Huy Khánh Ph n bi n 1: PGS.TS. Võ Trung Hùng NH N D NG TI NG NÓI TI NG VI T S D NG M NG NƠ-RON NHÂN T O VÀ MÔ HÌNH MARKOV N Ph n bi n 2: PGS.TS. Đoàn Văn Ban Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c Chuyên ngành: Khoa h c máy tính sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 11 tháng 9 năm 2011 Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin H c li u, Đ i h c Đà N ng Đà N ng - Năm 2011 - Trung tâm H c li u, Đ i h c Đà N ng
  2. -3- -4- M Đ U thư ng áp d ng hư ng ti p c n nh n d ng ñ i sánh m u như n n 1. Lý do ch n ñ tài ch nh th i gian ñ ng (DTW), các mô hình Markov n r i r c…d n ñ n m t s k t qu ch mang tính ch t tìm hi u, chưa h th ng và Ti ng nói là phương ti n giao ti p cơ b n và r ng rãi nh t c a loài ñ nh hư ng rõ ràng, có hi u su t nh n d ng t 88% - 96% [1][2][3]. ngư i, nó hình thành và phát tri n song song v i quá trình ti n hóa c a loài ngư i. Đ i v i con ngư i, s d ng l i nói là m t cách di n Vì ý nghĩa ñó và ñư c s ñ ng ý hư ng d n c a Th y PGS.TS ñ t ñơn gi n và hi u qu nh t. Ưu ñi m c a vi c giao ti p b ng ti ng Phan Huy Khánh, tôi ñã ch n ñ tài “Nh n d ng ti ng nói ti ng Vi t nói trư c tiên là t c ñ giao ti p, ti ng nói t ngư i nói ñư c ngư i s d ng m ng nơ-ron nhân t o và mô hình Markov n” th c hi n v i nghe hi u ngay l p t c sau khi ñư c phát ra. T khi ngành công mong mu n ñóng góp m t gi i pháp trong lĩnh v c nh n d ng ti ng nghi p máy tính phát tri n, nhi u công trình nghiên c u trên ti ng nói nói ti ng Vi t. nh m khai thác các thông tin t ti ng nói ñ ng d ng trong nhi u 2. M c ñích nghiên c u lĩnh v c như h th ng tr l i ñi n tho i t ñ ng, d ch v tra c u M c tiêu c a ñ tài là nghiên c u chung các v n ñ v nh n d ng thông tin du l ch b ng ti ng nói, và ng d ng nh n d ng ti ng nói ti ng nói và ng d ng mô hình Markov n k t h p m ng nơ-ron trong trong các h th ng b o m t… ñã ñem l i nhi u l i ích và cách th c nh n d ng ti ng nói ti ng Vi t. Đ ng th i, xây d ng chương trình giao ti p thu n ti n hơn cho con ngư i. nh n d ng nh m m c ñích ki m tra gi i pháp và ñánh giá hi u su t Lĩnh v c nghiên c u nh n d ng ti ng nói ñã ñư c b t ñ u t cu i nh n d ng c a h th ng. th p k 40, các nghiên c u và ng d ng v x lý ngôn ng nói chung V lý thuy t, th c hi n nghiên c u t ng quan v nh n d ng ti ng trên th gi i và nhi u nư c khác ñã tr i qua nhi u giai ño n, và ñi u nói bao g m các hư ng ti p c n nh n d ng ti ng nói, các mô hình và quan tr ng hơn c là nhi u cách ti p c n và cách th c x lí ngôn ng k thu t phân l p, ti p ñ n trình bày các bư c ti n x lý tín hi u ñã ñư c tr i nghi m và th a nh n. Vi t Nam, lĩnh v c nh n d ng ti ng nói, phương pháp phân tích trích ñ c trưng ti ng nói. Đ i v i và x lý ti ng nói ti ng Vi t v n còn khá m i, theo ngư i vi t lu n bài toán nh n d ng, nghiên c u chi ti t, tri n khai và ng d ng mô văn ñư c bi t, các t p th làm nghiên c u ñã có nh ng k t qu g n hình Markov n trong nh n d ng ti ng nói. ñây là Vi n Công ngh Thông tin, Trư ng Đ i h c KHTN TPHCM V th c ti n, nghiên c u và phát tri n các gi i thu t cho h th ng và Trung tâm nghiên c u qu c t Thông tin ña phương ti n, truy n nh n d ng ti ng nói trên môi trư ng Matlab s d ng các công c s n thông và ng d ng (MICA) – ĐHBK Hà n i, c ng v i m t s ñ tài có như Auditory ToolBox, HMM Toolbox, CLSU. nghiên c u th c sĩ, ti n sĩ trên c nư c; nhìn chung các ñ tài t p 3. Đ i tư ng và ph m vi nghiên c u trung x lý ti ng nói ti ng Vi t trên t p d li u nh và v a, ph thu c và ñ c l p ngư i nói, kh năng x lý nhi u c a tín hi u còn th p, Đ i tư ng nghiên c u c a ñ tài là nh n d ng ti ng nói ti ng Vi t. Ph m vi nghiên c u c a ñ tài là các phương pháp phát hi n
  3. -5- -6- ti ng nói, rút trích ñ c trưng ti ng nói, mô hình Markov n r i r c và - Chương 3: Gi i thi u các phương pháp nh n d ng ñã ñư c liên t c, k t h p m ng nơ-ron trong nh n d ng ti ng nói và ti p ñ n tri n khai, phân tích ñánh giá ưu và như c ñi m c a m i là xây d ng ng d ng mô hình Markov n nh m ki m tra và ñánh giá phương pháp, t ñó ñ xu t gi i pháp cho ñ tài. Ti p ñ n hi u su t nh n d ng. Cơ s d li u dùng cho nh n d ng và ki m th trình bày các bư c xây d ng h th ng nh n d ng ng d ng ch d ng t p d li u g m 10 ch s ti ng Vi t ñư c thu t 15 mô hình Markov n k t h p m ng nơ-ron. Cu i chương, ti n ngư i. hành ñánh giá th nghi m các k t qu nh n d ng ti ng nói 4. Phương pháp nghiên c u ti ng Vi t ph thu c ngư i nói và ñ c l p ngư i nói. Các phương ti n và công c dùng ñ có th tri n khai ñ tài là các tài li u liên quan ñ n x lý tín hi u ti ng nói, và cách th c l p trình trong môi trư ng Matlab liên quan ñ n ñ tài. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Sau khi th c hi n nghiên c u và xây d ng h th ng nh n d ng ti ng nói ti ng Vi t, góp ph n cung c p m t gi i pháp nh n d ng ti ng nói ti ng Vi t, cung c p cơ s lý thuy t cho vi c phát tri n các ng d ng nh n d ng ti ng nói v sau. 6. C u trúc c a lu n văn B c c c a lu n văn ñư c t ch c thành 3 chương, có n i dung như sau: - Chương 1: Th ng kê tình hình nghiên c u x lý ngôn ng , tìm hi u t ng quan v lý thuy t nh n d ng, các hư ng ti p c n nh n d ng ti ng nói, phân tích và th ng kê ñ c ñi m cơ b n c a ti ng Vi t. - Chương 2: Trình bày chi ti t m t h th ng nh n dang ti ng nói t giai ño n phân tích rút ñ c trưng tín hi u ti ng nói, cho ñ n ng d ng mô hình Markov n trong nh n d ng ti ng nói bao g m ñ c t mô hình, các bài toán cơ b n cho ñ n các gi i thu t ñ gi i quy t bài toán nh n d ng.
  4. -7- -8- CHƯƠNG 1 - NGHIÊN C U T NG QUAN Decipher c a vi n SRI, và các h th ng khác c a Lincoln Labs, MIT 1.1. L CH S NH N D NG và AT&T Bell Labs. 1.1.1. Xu hư ng phát tri n Th p niên 90 ghi nh n m t s k t qu nghiên c u m i trong lĩnh Giao ti p ngư i-máy là m t lĩnh v c nghiên c u l n và khó nhưng v c phân l p m u. C th , bài toán phân l p theo mô hình th ng kê l i có nhi u ng d ng th c ti n. Ti ng nói là m t phương ti n giao (d a trên lu t quy t ñ nh Bayes), ñòi h i phép ư c lư ng các phân b ti p t nhiên nh t c a con ngư i và vì v y, nghiên c u ñ máy tính cho d li u, ñư c chuy n thành bài toán t i ưu, bao g m phép c c có th hi u ti ng nói c a con ngư i, hay còn g i là nh n d ng ti ng ti u l i phân l p b ng th c nghi m. nói t ñ ng (Automatic Speech Recognition – ASR), ñã tr i qua quá Đ n nh ng năm ñ u c a th k 21, các nghiên c u t p trung vào trình 50 năm phát tri n. vi c nâng cao k t qu nh n d ng ti ng nói, thông qua chương trình có Nh ng n l c nghiên c u ñ u tiên v ASR ñã ñư c ti n hành tên g i EARS (Effective Affordable Reusable Speech-to-Text). trong th p niên 50 v i ý tư ng chính là d a trên ng âm. Trong giai Đích hư ng t i c a chương trình này là kh năng nh n d ng, tóm ño n này, có các h th ng ñáng chú ý như: h th ng nh n d ng ký s t t và chuy n ng các ño n audio, giúp cho ngư i ñ c hi u nhanh n i r i r c c a Bell-lab (1952), b nh n d ng 13 âm v c a trư ng ñ i dung c a chúng thay vì ph i nghe toàn b . Ch y u, các nghiên c u h c College–Anh (1958)… t p trung vào 3 nhóm chính: Trong th p k 1960, ñi m ñáng ghi nh n nh t là ý tư ng c a tác - Nh n d ng ti ng nói t nhiên gi ngư i Nga, Vintsyuk khi ông ñ xu t phương pháp nh n d ng - Nh n d ng ti ng nói d a trên nhi u kênh thông tin. ti ng nói d a trên qui ho ch ñ ng theo th i gian - Dynamic Time V m t kinh t và thương m i, công ngh nh n d ng ti ng nói ñã Warping. thay ñ i cách con ngư i tương tác v i h th ng và thi t b , không còn Nghiên c u v ASR trong th p k 80 ñánh d u phép d ch chuy n bó bu c trong cách th c tương tác truy n th ng (như thông qua bàn trong phương pháp lu n: t cách ti p c n ñ i sánh m u sang cách ti p phím c a máy tính hay ñi n tho i) mà chuy n sang tương tác tr c c n s d ng mô hình th ng kê. Ngày nay, h u h t các h th ng ASR ti p b ng gi ng nói. ñ u d a trên mô hình th ng kê ñư c phát tri n th p k này, cùng V m t nghiên c u khoa h c, các h th ng nh n d ng ti ng nói v i nh ng c i ti n th p k 90. M t trong nh ng phát minh quan hi n t i ñ u d a trên phương pháp th ng kê và so kh p m u. Phương tr ng nh t th p k 80 là mô hình Markov n (Hidden Markov pháp này ñòi h i các tri th c v ng âm và m t lư ng l n d li u Model – HMM). hu n luy n, bao g m c d ng âm thanh và d ng văn b n, ñ hu n Các h th ng ASR ra ñ i trong th i gian này có th k ñ n: h luy n b nh n d ng. Lư ng d li u hu n luy n càng l n, b nh n th ng Sphinx c a trư ng ñ i h c CMU, Byblos c a công ty BBN, d ng càng có nhi u kh năng ñưa ra k t qu chính xác hơn.
  5. -9- - 10 - 1.1.2. Tình hình nghiên c u Vi t Nam 1.2. NH N D NG TI NG NÓI T i Vi t Nam, có 2 nhóm nghiên c u chính v bài toán nh n d ng 1.2.1. T ng quan ti ng nói [3]. Nhóm ñ u tiên thu c Vi n Công ngh Thông tin do Nh n d ng ñ i v i con ngư i là quá trình mô ph ng l i s nh n GS.TSKH B ch Hưng Khang ñ ng ñ u. Nhóm t p trung nghiên c u bi t các s v t hi n tư ng xung quanh não ngư i. M t h nh n d ng các v n ñ sau: v i các thành ph n cơ b n sau: - Nghiên c u, phân tích các ñ c trưng ng âm, thông s c a 1) Module thu nh n tín hi u và trích ñ c trưng. ti ng Vi t, văn ph m ti ng Vi t ph c v cho nh n d ng ti ng 2) Module h c m u. nói 3) Module tra c u – so kh p - Nghiên c u ñ t o l p CSDL các m u câu ñ t o tham s Vi c nh n d ng ti ng nói th c ch t chính là quá trình nghiên c u hu n luy n cho mô hình 3 m c: âm ti t – âm v - âm h c. ti ng nói ñ ñưa ra t p các ñ c tính và quá trình nh n d ng sau ñó s - Nghiên c u bài toán nh n d ng ti ng nói liên t c trên CSDL so sánh ti ng nói c n ñư c nh n d ng v i t p các ñ c tính trên ñ t v ng c nh , trung bình, ti n t i CSDL l n phán ñoán. Nhóm th hai thu c trư ng Đ i h c Khoa h c T nhiên thành ph Phân lo i m t s hê th ng nh n d ng ti ng nói khác nhau như: H Chí Minh do Ti n sĩ Vũ H i Quân ñ ng ñ u. Các nghiên c u c a - Nh n d ng các t phát âm r i r c/liên t c. nhóm t p trung vào bài toán truy v n thông tin cho b n tin th i s - Nh n d ng ti ng nói ñ c l p/ph thu c ngư i. ti ng Vi t. - Nh n d ng v i t ñi n c nh /v a/l n. Ngoài ra, g n ñây có nghiên c u c a LIG (Laboratoire Informatique - Nh n d ng trong môi trư ng nhi u cao/th p. de Grenoble) h p tác v i phòng thí nghi m MICA Hà N i v s M t s y u t khó khăn cho bài toán nh n d ng ti ng nói: kh chuy n c a các mô hình ng âm (acoustic model portability) - Khi phát âm, ngư i nói thư ng nói nhanh ch m khác nhau. M t s h th ng nh n d ng ti ng Vi t hi n nay có th li t kê như sau: - Các t ñư c nói thư ng dài ng n khác nhau. - VnCommand: Chương trình nh n d ng l nh, trình di n kh - M t ngư i cùng nói m t t nhưng hai l n phát âm khác năng ñi u khi n chương trình ng d ng trên Windows. nhau thì - Chương trình nh n d ng l nh 10 ch s ti ng Vi t liên t c - cho k t qu phân tích khác nhau. qua ñi n tho i. - M i ngư i có m t ch t gi ng riêng ñư c th hi n thông qua - VnDictator: chương trình ñ c chính t . ñ cao c a âm, ñ to c a âm, cư ng ñ âm và âm s c - Nh ng y u t như nhi u c a môi trư ng, nhi u c a thi t b thu…
  6. - 11 - - 12 - 1.2.2. Các hư ng ti p c n minh c a mình ñ hình dung, phân tích và cu i cùng t o m t quy t 1.2.2.1. Ti p c n d a vào âm h c và ng âm h c ñ nh trên nh ng ñ c tính âm h c ño ñư c. Hư ng ti p c n âm h c và ng âm h c d a trên lý thuy t v âm Ý tư ng cơ b n c a phương pháp này là biên so n và k t h p h c-ng âm h c. Theo lý thuy t này thì trong b t kỳ m t ngôn ng nh ng tri th c t nhi u ngu n tri tr c: nào cũng luôn t n t i m t s h u h n các ñơn v ng âm phân bi t và - Tri th c h c (acoustic knowledge). nh ng ñơn v ng âm ñó ñư c ñ c trưng b i các thu c tính v n có - Tri th c t v ng h c (lexical knowledge). trong tín hi u ti ng nói, ho c trong ph c a nó thông qua th i gian. - Tri th c cú pháp h c (syntactic knowledge). M t công ño n quan tr ng c a phương pháp này là s phân ño n và - Tri th c ng nghĩa (semantic knowledge_. gán nhãn b i nó liên quan ñ n s phân ño n ti ng nói ra nh ng vùng - Tri th c th c t (pragmatic knowledge). r i r c (v th i gian) trên ñó nh ng thu c tính ng âm c a tín hi u 1.3. Đ ĐO HI U SU T NH N D NG tương trưng cho m t (ho c nhi u) ñơn v ng âm (ho c l p ng âm). 1.3.1. Đ chính xác 1.2.2.2. Ti p c n d a theo m u Đ chính xác nh n d ng là thư c ño ñơn gi n và quan tr ng nh t Phương pháp ti p c n d a vào nh n d ng m u trong nh n d ng ñ ñánh giá hi u su t nh n d ng ti ng nói. Vì v y, m c tiêu xây d ng ti ng nói v cơ b n là s d ng tr c ti p nh ng m u ti ng nói mà h th ng làm sao gi m thi u t l l i nh n d ng trên c t p hu n luy n không xác ñ nh rõ ràng các ñ c tính âm – ng h c và s phân ño n. và hi u su t khác nhau trên c t p hu n luy n và t p ki m tra. Phương pháp này có hai bư c: hu n luy n m u ti ng nói và nh n 1.3.2. Đ ph c t p d ng các m u chưa bi t thông qua vi c so sánh v i các m u ñã hu n Đ ph c t p cũng là m t v n ñ c n xem xét trong h u h t các h luy n. V n ñ là n u cung c p ñ y ñ các di n t c a m u dùng ñ th ng nh n d ng thương m i, ñ c bi t khi chi phí ph n c ng là m t nh n d ng g i là t p hu n luy n thì sau khi hu n luy n, m u tham tiêu chí cho s thành công c a h th ng. Thông thư ng, ñ ph c t p kh o s có th mô t ñ nh ng ñ c tính âm h c c a m u. Ti n l i c a c a h th ng nh n d ng ñ c p ñ n ñ ph c t p tính toán và ñ ph c phương pháp này là giai ño n so sánh m u: so sánh tr c ti p ti ng nói t p mô hình. Vi c gi m ñ ph c t p mô hình có th ti t ki m b nh chưa bi t v i m i m u ñã hu n luy n và tìm ra ti ng nói chưa bi t tùy và tính toán m t cách hi u qu trong khi ñ chính xác nh n d ng s theo tính ch t c a m u phù h p. gi m xu ng. 1.2.2.3. Ti p c n d a theo hư ng trí tu nhân t o 1.3.3. Đ ño kh năng Phương pháp ti p c n d a vào trí tu nhân t o th c ch t là s k t Các khía c nh quan tr ng c a các ñi u ki n ho t ñ ng bao g m h p gi a hai phương pháp trên, nó khai thác c ý tư ng và các khái m c ñ nhi u, kênh nhi u và ñ méo tín hi u, các ngư i nói khác ni m c a hai phương pháp này. Phương pháp này c g ng máy móc nhau, cú pháp và ng nghĩa khác nhau…Trong th c t , s chênh hóa th t c nh n d ng theo cách c a con ngư i áp d ng trí thông l ch c a nh ng ràng bu c này t nh ng gi ñ nh trong giai ño n thi t
  7. - 13 - - 14 - k có th d n ñ n s gi m sút ñáng k ñ n hi u năng ho t ñ ng c a Trên phương di n ng âm, âm ti t ti ng Vi t ñư c xem là m t h th ng. ñơn v cơ b n. Âm ti t ti ng Vi t có c u trúc ñơn gi n, luôn g n li n 1.4. Đ C TRƯNG ÂM H C v i thanh ñi u, ñư c tách bi t trong chu i l i nói. 1.4.1. B n ch t c a âm Tóm l i, trong chương này tác gi lu n văn ñã t p trung tìm hi u T t c các âm ñ u b t ngu n t dao ñ ng thu c ki u này hay khác, xu hư ng phát tri n lĩnh v c x lý ngôn ng , ñ c ñi m c a m t h nh ng ngư i chơi nh c bi u di n các hành ñ ng ki u như c ñ ng th ng nh n d ng và các phương pháp ti p c n nh n d ng ti ng nói. tay hay th i b ng mi ng, và ho t ñ ng c a h t o ra nhi u ki u lo i Ti p ñ n trình bày các tiêu chí c th ñ ñánh giá hi u su t c a m t dao ñ ng khác nhau mà chúng ta nghe thành các âm. h th ng nh n d ng. Ph n cu i chương, t p trung tìm hi u v các ñ c Đ t o ra âm nghe ñư c, ba tiêu chí ñi kèm sau ñây ph i ñư c tho trưng cơ b n c a âm h c, và ng âm ti ng Vi t. mãn ñ ng th i. - Phương ti n lan truy n. - M t âm ph i n m trong vùng t n s nghe ñư c. - Biên ñ c a âm ñ l n ñ có th thu nh n ñư c. V ch t lư ng các âm không ñư c ti p nh n hoàn toàn gi ng nhau. Chúng ta có th phân bi t hai bình di n cơ b n. - Phân bi t gi a các âm liên t c và các âm r i r c. - Phân bi t các âm nh c tính (musical sounds) t các âm n (noise - like sound). M t phương cách quan tr ng n a mà nh ñó các âm phân bi t nhau là ch t lư ng hay âm s c c a âm. 1.4.2. Ng âm ti ng Vi t Ti ng vi t ñư c xem là m t ngôn ng ñơn l p tiêu bi u mà ñ c ñi m cơ b n c a nó là: âm ti t gi m t vai trò cơ b n trong h th ng các ñơn v ngôn ng ; v n t v ng cơ b n c a ti ng Vi t ñ u là t ñơn ti t và m i âm ti t ñ u có kh năng ti m tàng tr thành t ; các t không bi n hình.
  8. - 15 - - 16 - CHƯƠNG 2 - H TH NG NH N D NG TI NG NÓI 2.2. RÚT TRÍCH Đ C TRƯNG Trong chương này, tác gi lu n văn t p trung trình bày các k Gi i pháp trích ñ c trưng tín hi u ti ng nói ñư c hi u như là m t thu t ti n x lý tín hi u ti ng nói nh m trích ch n các ñ c trưng c a quá trình bi n ñ i t vector có kích thư c l n sang vector có kích tín hi u ti ng nói phù h p cho giai ño n nh n d ng, c th cách th c thư c nh hơn. Như v y, v m t hình th c, rút trích ñ c trưng có th xác ñ nh d li u ti ng nói, phát hi n ñi m ñ u và ñi m cu i c a tín ñư c ñ nh nghĩa như m t ánh x f: hi u, phương pháp rút trích ñ c trưng MFCC ph bi n trong các h f : RN → Rd, trong ñó d
  9. - 17 - - 18 - 2.2.4. B l c Mel 2.3.3. Ba bài toán cơ b n c a mô hình Markov n B l c Mel là m t dãy các b l c d ng tam giác ch ng lên nhau 2.3.3.1. Bài toán 1 – Đánh giá xác su t v i t n s c t c a m i b l c ñư c xác ñ nh b i t n s trung tâm c a M t tiêu c a bài toán th nh t là tính p(O| λ) – xác su t phát sinh hai b l c k v i nó. M c tiêu c a bư c áp d ng các b l c Mel là ñ O t mô hình λ. l c l y các t n s mà tai ngư i có th nghe ñư c ho c ñ nh n m ng 2.3.3.2. Bài toán 2 – Tìm chu i tr ng thái t i ưu t n s th p trên t n s cao, ñ ng th i rút ng n kích thư c c a vector M c tiêu c a bài toán 2 là tìm ra chu i tr ng thái “t i ưu” nh t Q ñ c trưng. = q1 q2 … qT ñã phát sinh ra O. 2.2.5. Bi n ñ i Cosine r i r c (Discrete Cosine Transform – 2.3.3.3. Bài toán 3 – V n ñ hu n luy n DCT) M c tiêu c a bài toán th 3, cũng là bài toán ph c t p nh t trong 2.3. MÔ HÌNH MARKOV N ba bài toán, là tìm cách c p nh t l i các tham s c a mô hình λ = (A, 2.3.1. Quá trình Markov B, π) sao cho c c ñ i hóa xác su t p(O| λ) – xác su t quan sát ñư c Xét m t h th ng mà ñó t i b t kì th i ñi m nào ta cũng có th chu i tín hi u O t mô hình. mô t nó b i m t trong N tr ng thái phân bi t S1, S2,…,SN (N=3). T i 2.4. M TS H TH NG NH N D NG TI NG NÓI th i ñi m t b t kỳ, h th ng có th ño ñư c xác su t chuy n t tr ng 2.4.1. H th ng VQ thái Si hi n hành sang m t trong N-1 tr ng thái còn l i ho c chuy n H th ng Vector Quantization s ư c lư ng codebook cho t ng tr l i chính tr ng thái Si. m u ti ng nói t t p d li u hu n luy n. Trong bư c nh n d ng, sai K t xu t c a h th ng là m t chu i các tr ng thái t i các th i s quantization error (kho ng cách euclid) gi a m u test v i ñi m t tương ng. codeword g n nó nh t trong codebook c a t ng m u ti ng nói s 2.3.2. Mô hình markov n ñư c tính; và m u test s ñư c phân vào l p có sai s l i lư ng t HMM g m các thành ph n sau ñây: th p nh t. 1) N – s lư ng tr ng thái c a mô hình. 2.4.2. H th ng GMM 2) M – s lư ng tín hi u có th quan sát ñư c trong m i tr ng Đ i v i h th ng GMM, ñây cũng là m t phương pháp gom c m thái. gi ng như VQ, m i d li u ti ng nói s ñư c mô hình hóa b ng m t 3) Các xác su t chuy n tr ng thái A = {aij} GMM. M t mô hình GMM có kích thư c M s g m M hàm m t ñ 4) Các hàm m t ñ xác su t trong m i tr ng thái B = { bj(k) } Gauss v i các tham s là vector trung bình µ và ma tr n hi p phương 5) Xác xu t kh i ñ u c a m i tr ng thái . sai Σ. Đ thu n ti n, ta quy ư c m i mô hình HMM s ñư c ñ i di n b i b tham s λ = (A, B, π).
  10. - 19 - - 20 - 2.4.3. M t s h th ng nh n d ng khác CHƯƠNG 3 - Đ XU T GI I PHÁP VÀ Ngoài hai phương pháp truy n th ng là GMM và VQ, các công CÀI Đ T TH NGHI M trình nghiên c u g n ñây ñã ti p c n bài toán theo m t s hư ng khác 3.1. Đ XU T GI I PHÁP như Support Vector Machine (SVM), m ng neural (NN). 3.1.1. So sánh các lo i mô hình Markov n Có nhi u cách phân lo i các mô hình Markov n, trong ñó ngư i ta thư ng phân bi t d a vào ñ c trưng c a ma tr n chuy n tr ng thái Aij, có th phân lo i thành mô hình Markov n có liên k t ñ y ñ và mô hình Markov n trái ph i (Bakis). Ho c là d a vào tính ch t c a hàm m t ñ xác xu t quan sát Bj(k), ngư i ta phân lo i thành mô hình Markov n r i r c (DHMM), mô hình Markov n liên t c (CDHMM), mô hình Markov n bán liên t c (SCHMM): - DHMM: Đ i v i mô hình Markov n r i r c, không gian vector ñ c trưng c a tín hi u ti ng nói ñư c chia vào h u h n các vùng (cluster) b ng m t th t c phân nhóm ch ng h n như lư ng hóa vector (VQ). - CDHMM: L i lư ng t hóa vector ñã ñư c lo i tr b ng cách s d ng hàm m t ñ liên t c thay vì lư ng hóa vector. Trong CDHMM, phân b xác su t trên không gian vector âm h c ñư c mô hình hóa tr c ti p s d ng hàm m t ñ xác su t liên t c (PDF) ch ng h n như hàm tr n c a các hàm Gaussian. - SCHMM: Mô hình này cung c p chi ti t d li u mô hình hóa thông qua vi c chia s các tham s . Mô hình này là m t s k t h p gi a DHMM và CDHMM. 3.1.2. So sánh các phương pháp nh n d ng ñã ñư c tri n khai 3.1.2.1. Phương pháp DTW Hư ng ti p c n DTW là phương th c ñ i sánh m u, trong ñó thu t toán th c hi n so sánh m u ki m th v i m u tham chi u ñ có s ñi m t i thi u.
  11. - 21 - - 22 - 3.1.2.2. Phương pháp ANN - Phân l p các ñ c trưng trong m i khung vào trong m i lo i M ng nơ ron nhân t o (NN) là m t ki n trúc m nh m và linh d a trên âm h c s d ng m ng nơ ron. Đ u ra c a m ng nơ ho t ñ gi i quy t v n ñ phân l p. NN có th h c m t cách hi u qu ron là các ư c lư ng xác su t c a m i lo i ng âm, ng v i và theo m t cách riêng bi t. các ñ c trưng ti ng nói t i khung tín hi u này. Khi m ng nơ 3.1.3. Hư ng ti p c n và phát tri n c a ñ tài ron ñư c s d ng ñ phân l p t t c các khung, t o ra m t Hư ng ti p c n nghiên c u c a lu n văn t p trung vào gi i quy t ma tr n xác su t, v i F c t và C hàng, trong ñó F là s lư ng m t s ph n sau ñây: các frame và C là s lư ng phân lo i. - Ti n x lý tín hi u ti ng nói nh m kh nhi u và phát hi n tín - S d ng ma tr n xác su t, t p các mô hình ng âm ñ xác hi u d li u ti ng nói. Sau ñó ti n hành rút trích ñ c trưng ñ nh các t c n nh n d ng thích h p nh t s d ng thu t toán d li u ti ng nói theo MFCC bao g m các h s ceptral, tìm ki m Viterbi trong mô hình HMM. năng lư ng chu n hóa cùng v i các h s ñ o hàm b c m t, 3.2.1. Mô hình âm v b c hai c a chúng (delta và Delta-delta) Trong t ñi n phát âm, m i t ñư c phiên âm thành các âm v và - Nghiên c u m ng nơ ron và mô hình Markov n trong nh n m t t có th bao g m m t vài ñ nh nghĩa khác nhau. Đ xây d ng d ng ti ng nói ti ng Vi t. các ñơn v nh n d ng ph thu c ng c nh, các âm v ñư c chia thành - Đ i v i nh n d ng các ch s r i r c, s d ng m ng nơ ron m t, hai ho c ba ph n, m i ph n như v y ñư c g i là category và là hu n luy n d li u th c hi n s phân l p các ph tín hi u ñơn v nh n d ng cơ b n c a h th ng nh n d ng. M i category ph ti ng nói (gán nhãn cư ng b c), sau ñó th c hi n thu t toán thu c vào ng c nh bên trái ho c bên ph i c a nó. Viterbi ñ nh n d ng d li u. 3.2.2. Hu n luy n - Th c hi n ñánh giá t l l i nh n d ng. 3.2. CÀI Đ T H TH NG Quá trình hu n luy n m ng nơron ñư c th c hi n v i t ng phát Ho t ñ ng c a h th ng ñư c th c hi n như sau: âm dùng th t c truy n ngư c sai s . V i m i phát âm, thông tin - Đ u tiên phân chia tín hi u ti ng nói thu ñư c thành các nhãn th i gian trong cơ s d li u ti ng nói cho ta các kho ng th i khung tín hi u. gian thu c v âm v c n hu n luy n. Như v y v i m i category các - Tính toán các ñ c trưng c a m i khung tín hi u. Nh ng ñ c kho ng th i gian dành cho chúng ñư c xác ñ nh trong m i phát âm. trưng này có th ñư c dùng ñ bi u di n vùng bao ph ñ c Các thông tin này ñư c dùng ñ hu n luy n cho m ng ANN. trưng ph c a ti ng nói t i khung tín hi u ñó và m t s nh các khung tín hi u xung quanh g i là “c a s ph m vi”.
  12. - 23 - - 24 - 3.2.3. Nh n d ng 3.3.2. K t qu nh n d ng ph thu c ngư i nói 3.2.3.1. M ng t Th nghi m ñã ñư c th c hi n ñ i v i nh n d ng ch s r i r c ti ng Vi t ph thu c ngư i nói ñ ñánh giá ñ chính xác khác nhau M ng t (word network) ñư c dùng ñ ñ nh nghĩa m t ng pháp, gi a CDHMM và HMM/ANN trong nh n d ng. K t qu th nghi m m i liên h th t gi a các t ñư c nh n d ng b i h th ng. M t t p như trong b ng 3.1 cho th y ñ chính xác nh n d ng c a HMM/ANN ñ nh nghĩa m ng t ch a m t danh sách các nút bi u di n các t và t t hơn so v i CDHMM. m t danh sách các cung bi u di n chuy n d ch gi a các t . B ng 3.1 So sánh k t qu nh n d ng ph thu c ngư i nói 3.2.3.2. S d ng m ng t trong h th ng nh n d ng Khi m ng t ñư c n p vào trong h th ng nh n d ng, m t t ñi n Mô hình nh n d ng Đ chính xác (%) phiên âm c a h th ng s ñư c dùng ñ t o ra m t m ng tương CDHMM/BW 96,62 ñương bao g m các ñơn v nh n d ng cơ b n c a h th ng, các âm ñơn ho c các âm ba. HMM/ANN 99,25 3.2.3.3. Gi i mã Trong chương này, tác gi lu n văn ñã t p trung phân tích và so Nhi m v c a quá trình gi i mã là tìm ra m t ñư ng ñi trong sánh các phương pháp tri n khai ng d ng nh n d ng ti ng nói, t ñó m ng HMM có xác su t l n nh t. Đ th c hi n công vi c này, th c ñ xu t hư ng gi i quy t bài toán nh n d ng s d ng HMM/ANN. hi n thu t toán Viterbi ñã ñư c trình bày. Ph n cài ñ t h th ng, tác gi ñã gi i thi u chi ti t v mô hình h 3.3. K T QU TH NGHI M th ng, các giai ño n t thu th p ñ n hu n luy n và nh n d ng s 3.3.1. D li u ti ng nói d ng HMM/ANN. Cu i cùng, th c hi n th c nghi m nh n d ng trên H th ng nh n d ng ti ng nói ti ng Vi t ñư c xây d ng và ñánh t p d li u ti ng nói. giá hi u su t nh n d ng d a trên t p d li u các ch s r i r c ti ng Vi t ph thu c ngư i nói (speaker-dependent). T p d li u hu n luy n bao g m 1000 phát bi u r i r c cho các ch s t 0 ñ n 9, ñư c thu âm t 10 ngư i, t c ñ ñ c 0.8 giây/1 t , t n s l y m u 8000Hz, ñ phân gi i 16 bits. Đ i v i nh n d ng ph thu c ngư i nói, t p d li u ki m tra ñư c l y t t p d li u hu n luy n.
  13. - 25 - - 26 - K T LU N VÀ HƯ NG PHÁT TRI N - M r ng t p d li u hu n luy n v i s lư ng ngư i nói và s K t qu th c hi n lu n văn “Nh n d ng ti ng nói ti ng Vi t s t nói nhi u hơn n a t n d ng t i ña ưu ñi m c a mô hình d ng m ng nơ-ron và mô hình Markov n” ñã t p trung gi i quy t CDHMM. m t s n i dung v nh n d ng ti ng nói ti ng Vi t. chương 1 trình - Phát tri n h th ng nh n d ng t liên t c. bày xu hư ng phát tri n lĩnh v c x lý ngôn ng , nghiên c u các hư ng ti p c n nh n d ng, các tiêu chí ñánh giá nh hư ng ñ n hi u su t nh n d ng, cu i chương t p trung tìm hi u ñ c trưng cơ b n c a ti ng Vi t như c u trúc âm ti t, lo i hình âm ti t. Chương 2, tác gi t p trung trình bày các bư c x lý tín hi u ti ng nói t giai ño n thu th p, kh nhi u, phát hi n ti ng nói cho ñ n rút trích các tham s ñ c trưng. Ti p ñ n, nghiên c u ñ y ñ và chi ti t ng d ng mô hình Markv n trong nh n d ng ti ng nói. Trong chương 3, tác gi lu n văn th c hi n so sánh các phương pháp nh n d ng s d ng mô hình Markov n k t h p m ng nơ-ron, v i các phương pháp khác ñã ñư c tri n khai, t ñó ñ xu t hư ng ti p c n phát tri n c a ñ tài. Ph n cu i chương trình bày h th ng nh n d ng ti ng nói ñư c tri n khai, t vi c kh i t o mô hình, hu n luy n và nh n d ng ti ng nói. Th c hi n so sánh và ñánh giá k t qu th nghi m trên t p d li u r i r c 10 ch s . V i n n t ng ki n th c ñã ñư c nghiên c u và k t qu c a lu n văn, m t s ñ nh hư ng phát tri n c a lu n văn có th th c hi n trong th i gian ñ n như: - Nghiên c u quá trình x lý ti ng nói làm sao ñ có th tách ñư c ti ng nói trong môi trư ng nhi u (ti ng n) l n. - Trên cơ s xác ñ nh m u ti ng nói, ti n t i m r ng phát tri n h th ng xác ñ nh danh tính ngư i nói ph c v cho ng d ng b o m t.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2