intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Cơ sở nhận dạng tiếng nói

Chia sẻ: Quanghai Quanghai | Ngày: | Loại File: DOC | Số trang:11

185
lượt xem
88
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

: Tự động nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng để phát triển và đưa các ứng dụng tự động vào nhiều Ngành. Ngoài các yếu tố về công nghệ nhận dạng tiếng nói, thì do tiếng nói của mỗi dân tộc có những đặc thù riêng, đòi hỏi phải được phân tích và tìm ra các công nghệ áp dụng phù hợp. ở Việt nam, việc nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói còn đang ở bước đầu với rất ít các kết quả được công bố. Bài báo......

Chủ đề:
Lưu

Nội dung Text: Cơ sở nhận dạng tiếng nói

  1. LÜnh vùc C«ng nghÖ th«ng tin C¬ së nhËn d¹ng tiÕng nãi ThS.§oµn Phan Long Khoa Quèc tÕ -§µo t¹o sau ®¹i häc Tóm tắt: Tù ®éng nhËn d¹ng tiÕng nãi lµ mét lÜnh vùc nghiªn cøu quan träng ®Ó ph¸t triÓn vµ ®a c¸c øng dông tù ®éng vµo nhiÒu Ngµnh. Ngoµi c¸c yÕu tè vÒ c«ng nghÖ nhËn d¹ng tiÕng nãi, th× do tiÕng nãi cña mçi d©n téc cã nh÷ng ®Æc thï riªng, ®ßi hái ph¶i ®îc ph©n tÝch vµ t×m ra c¸c c«ng nghÖ ¸p dông phï hîp. ë ViÖt nam, viÖc nghiªn cøu vµ ph¸t triÓn c¸c hÖ thèng nhËn d¹ng tiÕng nãi cßn ®ang ë bíc ®Çu víi rÊt Ýt c¸c kÕt qu¶ ®îc c«ng bè. Bµi b¸o nµy nh»m môc tiªu tæng hîp c¸c nghiªn cøu c«ng nghÖ ®· vµ ®ang ®îc ¸p dông trong c¸c hÖ thèng nhËn d¹ng tiÕng nãi. 1. Lêi nãi ®Çu Thêi gian tr íc ®©y, viÖc nhËn biÕt tiÕng nãi chØ ®îc thÓ hiÖn trong c¸c bé phim viÔn t ëng nh thuyÒn tr ëng Spok ®iÒu khiÓn con tµu vò trô Enterprise, nh÷ng mÖnh lÖnh vµ nh÷ng ý t ëng cña thuyÒn tr ëng ®îc m¸y tÝnh nhËn d¹ng, thu nhËn vµ viÕt vµo bé nhí. HuyÒn tho¹i vÒ bé m¸y tÝnh HAL trong phim “2001 cuéc phiªu l u trong vò trô” cßn cã kh¶ n¨ng cao h¬n lµ nhËn d¹ng lêi nãi tõ sù cö ®éng cña m«i. HiÖn t¹i, kh¶ n¨ng nµy vÉn cha thùc sù ®¸p øng, xong trong nh÷ng n¨m gÇn ®©y, nh÷ng hÖ thèng nhËn d¹ng tiÕng nãi ®· cã nh÷ng bíc ph¸t triÓn ®¸ng kÓ vµ trong chõng mùc nµo ®ã, bªn c¹nh bµn phÝm vµ con chuét, nh÷ng phÇn mÒm nhËn d¹ng tiÕng nãi ®· ®ãng vai trß lµ bé phËn nhËp d÷ liÖu rÊt tèt vµo c¸c m¸y PC. §©y lµ bé phËn nhËp v¨n b¶n vµ d÷ liÖu còng nh ®Ó ®iÒu khiÓn m¸y PC thùc hiÖn nh÷ng thao t¸c mµ ngêi sö dông ®ßi hái. Nh÷ng h·ng c«ng nghÖ lín nh IBM vµ Phillip cã thÞ phÇn cao vµ uy tÝn, trong nhiÒu n¨m ®· ®Çu t ®¸ng kÓ ®Ó dÇn hoµn chØnh c«ng nghÖ nhËn d¹ng nh»m ®a ra thÞ tr êng nh÷ng thÕ hÖ m¸y míi cã tÝch hîp c«ng nghÖ nhËn d¹ng tiÕng nãi. Song song víi c¸c h·ng nµy, nh÷ng c«ng ty míi nh Dragon System, Lernout & Hauspie còng ®Èy nhanh qu¸ tr×nh ®Çu t nghiªn cøu cña m×nh. 2. C¬ së nhËn d¹ng tiÕng nãi TiÕng nãi lµ c«ng cô truyÒn ®¹t th«ng tin quan träng nhÊt cña con ngêi. §èi víi chóng ta, tiÕng nãi lµ c¸i g× ®ã rÊt tù nhiªn, do vËy b×nh th êng chóng ta còng kh«ng ®Ó ý xem qu¸ tr×nh nhËn d¹ng tiÕng nãi diÔn ra nh thÕ nµo, t¹i sao ta l¹i cã thÓ hiÓu ®îc c¸c tõ, c¸c c©u mét c¸ch rÊt ®¬n gi¶n nh vËy. Häc viÖn C«ng nghÖ BCVT
  2. Héi nghÞ Khoa häc lÇn thø 5 NÕu m¸y tÝnh còng cã thÓ hiÓu ®îc tiÕng nãi tù nhiªn cña con ngêi th× kh«ng nh÷ng ®¬n gi¶n rÊt nhiÒu cho qu¸ tr×nh trao ®æi ngêi - m¸y mµ m¸y tÝnh cßn cã thÓ ¸p dông ®îc vµo nhiÒu lÜnh vùc kh¸c. Nh÷ng nghiªn cøu c¬ b¶n trong lÜnh vùc nhËn d¹ng tiÕng nãi cña thËp kû qua ®· gãp phÇn ®a c«ng nghÖ nhËn d¹ng cã nh÷ng ph¸t triÓn ®¸ng kÓ trong c¸c lÜnh vùc sö lý v¨n b¶n, viÔn th«ng, c¬ së d÷ liÖu còng nh qu¸ tr×nh giao tiÕp víi hÖ thèng chuyªn gia. Qu¸ tr×nh ph¸t triÓn cña c¸c gi¶i ph¸p nhËn d¹ng tiÕng nãi ®îc tham gia bëi: - C«ng nghÖ m¸y tÝnh vµ lËp tr×nh - Ng÷ ©m - Ng«n ng÷ häc - NhËn d¹ng mÉu - TrÝ tuÖ nh©n t¹o.... Nh÷ng hÖ thèng tù ®éng nhËn d¹ng tiÕng nãi lu«n cè g¾ng m« pháng l¹i qu¸ tr×nh nhËn d¹ng tiÕng nãi cña con ngêi. Bªn c¹nh bµn phÝm vµ chuét th× Microphone lµ kh¶ n¨ng míi ®Ó nhËp d÷ liÖu vµ giao tiÕp víi m¸y PC. 3. LÞch sö cña c«ng nghÖ nhËn d¹ng tiÕng nãi NhËn d¹ng tiÕng nãi tù ®éng ®· cã lÞch sö kho¶ng 40 n¨m nay. Nh÷ng nh©n tè quan träng gióp cho sù ph¸t triÓn cña c«ng nghÖ nhËn d¹ng nµy cã thÓ kÓ ®Õn nh sù ph¸t triÓn cña c¸c hÖ thèng ph©n tÝch phæ ©m thanh (1946) thÓ hiÖn díi d¹ng trùc quan c¸c tÝn hiÖu ©m, Lý thuyÕt t¹o ©m thanh tiÕng nãi cña con ngêi (1948) vµ tÊt nhiªn ph¶i kÓ ®Õn sù xuÊt hiÖn vµ ph¸t triÓn cña c¸c hÖ thèng m¸y tÝnh sè th ¬ng m¹i ®Çu tiªn trªn thÕ giíi (1958). HÖ thèng nhËn d¹ng tiÕng nãi ®Çu tiªn cã kh¶ n¨ng nhËn d¹ng tõ rêi r¹c vµ phô thuéc ngêi nãi ®Ó ph©n tÝch vµ nhËn d¹ng c¸c ch÷ sè hoÆc c¸c tõ ®¬n ©m sö dông ®Æc tÝnh miÒn thêi gian vµ c¸c ng©n hµng bé läc t ¬ng tù. T¬ng tù nh vËy, víi ph¬ng ph¸p ©m häc, hÖ thèng nhËn d¹ng ©m vÞ phô thuéc ngêi nãi vµ kh«ng phô thuéc ngêi nãi ®îc thiÕt kÕ mÆc dï míi cho ®îc c¸c kÕt qu¶ cßn rÊt khiªm tèn. Trong thËp kû 70, víi sù ph¸t triÓn cña c¸c thuËt to¸n ph©n tÝch tÝn hiÖu (m« h×nh dù ®o¸n tuyÕn tÝnh, so s¸nh mÉu theo thêi gian) c«ng nghÖ nhËn d¹ng tiÕng nãi ®îc tiÕp tôc ph¸t triÓn m¹nh mÏ. Víi c¸c ph¬ng ph¸p nµy c¸c hÖ thèng nhËn d¹ng víi sè lîng tõ rÊt lín kh«ng phô thuéc ngêi nãi ®· ®îc thùc thi. Trong nh÷ng n¨m 60 cña thÕ kû 20, nhiÒu phßng thÝ nghiÖm cña nhiÒu h·ng lín ®· ®îc ®Çu t ®Ó nghiªn cøu ph¸t triÓn c¸c hÖ thèng nhËn d¹ng tiÕng nãi cña Häc viÖn C«ng nghÖ BCVT
  3. LÜnh vùc C«ng nghÖ th«ng tin c¸c ng«n ng÷ kh¸c nhau. §Õn ®Çu nh÷ng n¨m 80 kh¶ n¨ng vÒ hiÓu biÕt còng nh vÒ kü thuËt ®· cho phÐp c¸c nhµ nghiªn cøu x©y dùng c¸c hÖ thèng nhËn d¹ng ®îc hµng tr¨m c¸c tõ rêi r¹c. Sau ®ã c«ng nghÖ nhËn d¹ng ®· cã nh÷ng bíc ph¸t triÓn v« cïng nhanh chãng. 4. C¸c vÊn ®Ò kü thuËt NhËn d¹ng tiÕng nãi lµ vÊn ®Ò ®îc bµn luËn vµ ®· ®îc c¸c nhµ nghiªn cøu ph©n lo¹i thµnh c¸c hÖ thèng nhËn d¹ng kh¸c nhau cho nh÷ng môc ®Ých sö dông kh¸c nhau. H×nh díi ®©y m« t¶ mét c¸i nh×n kh¸i qu¸t vÒ sù ph©n lo¹i c¸c hÖ thèng nhËn d¹ng tiÕng nãi, trong ®ã c¸c hÖ thèng nhËn d¹ng tiÕng nãi ®îc ph©n thµnh hai nhãm riªng biÖt. Mét nhãm chuyªn ®îc sö dông víi môc ®Ých ®iÒu khiÓn thiÕt bÞ th«ng qua tiÕng nãi vµ mét nhãm chuyªn xö lý tõ tiÕng nãi sang v¨n b¶n (Speech to Text) N hËn d¹ng tiÕng nãi §iÒu k hiÓn, r a lÖnh V¨n b¶ n Cã tiÕp xóc Kh«ng tiÕp Thêi gian Kh«ng thêi víi PC xóc víi PC thùc gian thùc NhËn §iÒu T ×m d÷ Ph¸t ©m Ph¸t ©m tõ Telephone Ph¸t ©m Ph¸t ©m tõ d¹ng ng-êi khiÓn liÖu qua liªn tôc r êi r ¹c banking liªn tôc r êi r ¹c nãi thiÕt bÞ tho¹i H×nh 1: Ph©n lo¹i c¸c hÖ thèng nhËn d¹ng tiÕng nãi 4.1. NhËn d¹ng tiÕng nãi ®Ó ®iÒu khiÓn vµ ra lÖnh cho thiÕt bÞ Trong c¸c hÖ thèng ®iÒu khiÓn th êng sö dông mét th viÖn tõ rÊt h¹n chÕ, bëi v× ®Ó ®iÒu khiÓn mét thiÕt bÞ ®ßi hái sè lîng c¸c lÖnh rÊt h÷u h¹n vµ kh«ng cÇn mét kÕt nèi trùc tiÕp ®Õn hÖ thèng m¸y tÝnh nhËn d¹ng tiÕng nãi. Nh vËy ®Ó nhËp d÷ liÖu gi¸n tiÕp ngêi ta cã thÓ sö dông qua nhiÒu m«i tr êng nh ®êng tho¹i, microphone... vÝ dô trong øng dông Telephone Banking mµ hÖ thèng Infogate cña Trung t©m C«ng nghÖ Th«ng tin CDIT ®ang ¸p dông trªn m¹ng sö Häc viÖn C«ng nghÖ BCVT
  4. Héi nghÞ Khoa häc lÇn thø 5 dông nhËp d÷ liÖu vÝ dô qua bµn phÝm m¸y ®iÖn tho¹i ®Ó vÊn tin vµ t¹o c¸c giao dÞch tiÒn tÖ vµ tiÕn tíi sau nµy cã thÓ th«ng qua giäng nãi, tiÕng nãi ®Ó ®iÒu khiÓn c¸c giao dÞch. §iÒu khiÓn thiÕt bÞ th«ng qua tiÕng nãi kÕt nèi trùc tiÕp tíi m¸y tÝnh ph¶i kÓ ®Õn tr íc hÕt ®ã lµ c¸c hÖ thèng ®iÒu khiÓn th«ng qua c¸c lÖnh b»ng tiÕng nãi ®Ó ®iÒu khiÓn c¸c hÖ thèng m¸y mãc lµm viÖc theo ý cña ngêi sö dông. 4.2. NhËn d¹ng tiÕng nãi ®Ó xö lý v¨n b¶n Qu¸ tr×nh nhËn d¹ng tiÕng nãi lµ qu¸ tr×nh mµ hÖ thèng chuyÓn ®æi c¸c tõ ®îc nãi thµnh v¨n b¶n viÕt hay cô thÓ h¬n lµ chuyÓn ®æi tõ c¸c tÝn hiÖu ©m tÇn do ngêi nãi ph¸t ©m thµnh c¸c tõ ®îc viÕt thµnh v¨n b¶n. Nh÷ng hÖ thèng nµy vÒ nguyªn t¾c ph¶i cã vèn tõ rÊt lín ®Ó cã kh¶ n¨ng ®¹t ®îc kÕt qu¶ nhËn d¹ng tiÕng nãi nh mong muèn. Mét sè hÖ thèng cã thÓ nhËn d¹ng theo thêi gian thùc, mét sè hÖ thèng kh¸c l¹i lµm viÖc ë chÕ ®é xö lý lÇn l ît (Batch Job). Trong chÕ ®é thêi gian thùc, kÕt qu¶ lµ v¨n b¶n ®îc thÓ hiÖn trªn mµn h×nh m¸y tÝnh ngay sau khi nãi. Mét tiªu chuÈn n÷a ®Ó ph©n biÖt c«ng nghÖ ®ã lµ c©u hái liÖu hÖ thèng cã nhËn d¹ng tiÕng nãi ®îc kh«ng khi ngêi nãi ph¸t ©m liªn tôc tõ nµy tiÕp nèi tõ kia nh ta ph¸t ©m b×nh th êng hay ngêi nãi ph¶i ph¸t ©m tõng tõ rêi r¹c? 4.3.HÖ thèng nhËn d¹ng tiÕng nãi rêi r¹c Tõ l©u nhiÒu nhµ nghiªn cøu ®· chÕ t¹o ra c¸c hÖ thèng nhËn d¹ng tiÕng nãi theo nguyªn t¾c ph¸t ©m tõ rêi r¹c. Nh÷ng hÖ thèng nhËn d¹ng cã vèn tõ h¹n chÕ kho¶ng 1.000 tõ kh«ng phï hîp cho c¸c m«i tr êng nh v¨n phßng lµm viÖc, bÖnh viÖn, c¸c c«ng së ... lý do rÊt ®¬n gi¶n lµ trong nh÷ng m«i tr êng trªn c¸c hÖ thèng nhËn d¹ng ®ßi hái ph¶i cã kh¶ n¨ng lµm viÖc víi sè l îng tõ rÊt nhiÒu tèi thiÓu ph¶i trªn díi 60.000 tõ, phô thuéc ng÷ c¶nh vµ ph¶i kh«ng phô thuéc ngêi nãi. 4.4.HÖ thèng nhËn d¹ng tiÕng nãi liªn tôc Trong qu¸ tr×nh ngêi nãi ph¸t ©m liªn tôc, c¸c tõ ®îc ph¸t ©m tõ nä nèi tiÕp tõ kia kh«ng cã giai ®o¹n nghØ gi÷a chõng. §èi víi con ngêi th× qu¸ tr×nh nhËn biÕt c¸c tõ ®îc ph¸t ©m nµy rÊt ®¬n gi¶n, xong ®èi víi m¸y mãc th× ®é phøc t¹p so víi ph¸t ©m rêi r¹c t¨ng lªn nhiÒu lÇn do ph¶i nhËn biÕt vµ t¸ch c¸c tõ nµy ra. Trong c©u ®îc ph¸t ©m liªn tôc ta rÊt khã nhËn biÕt ®îc ®iÓm b¾t ®Çu vµ ®iÓm kÕt thóc cña mét tõ, trong khi ph¸t ©m rêi r¹c ta thÊy rÊt râ ®o¹n nghØ ng¾t qu·ng gi÷a hai tõ c¹nh nhau. Häc viÖn C«ng nghÖ BCVT
  5. LÜnh vùc C«ng nghÖ th«ng tin HÖ thèng nhËn d¹ng ph¶i quyÕt ®Þnh rÊt nhanh ®iÓm nµo lµ ®iÓm kÕt thóc cña tõ vµ nh vËy víi c©u ®îc ph¸t ©m liªn tôc m¸y tÝnh ®ßi hái thêi gian tÝnh to¸n lín h¬n rÊt nhiÒu lÇn so víi tõ ®îc ph¸t ©m rêi r¹c. §iÒu nµy cßn ®Æc biÖt khã víi nhiÒu ng«n ng÷ nh ng«n ng÷ tiÕng Anh ®ßi hái cã sù ph¸t ©m tõ nä cã ®u«i nèi tiÕp sang tõ kia. Nhê sù ph¸t triÓn nhanh chãng cña c«ng nghÖ tin häc vµ m¸y tÝnh ®Æc biÖt lµ tèc ®é vµ kh¶ n¨ng tÝnh to¸n cña c¸c m¸y tÝnh c¸ nh©n, ngµy nay trong phßng thÝ nghiÖm ®· cã nh÷ng hÖ thèng cã kh¶ n¨ng nhËn d¹ng tiÕng nãi ph¸t ©m liªn tôc. 4.5.NhËn d¹ng tõ rêi r¹c vµ nhËn d¹ng tiÕng nãi liªn tôc Cã nhiÒu ®Þnh nghÜa vµ gi¶ thiÕt vÒ sù ph©n biÖt kh¸c nhau gi÷a hai kh¸i niÖm nhËn d¹ng tõ rêi r¹c vµ nhËn d¹ng tiÕng nãi liªn tôc, nªn ë ®©y cã thªm sù gi¶i thÝch râ h¬n vÒ hai kh¸i niÖm nµy. C¸c tÝn hiÖu ©m thanh ®îc Microphone thu nhËn, sau khi ®îc hÖ thèng nhËn d¹ng xö lý sÏ ®îc chuyÓn ®æi thµnh d¹ng v¨n b¶n. Mèi liªn hÖ gi÷a tÝn hiÖu ©m vµ v¨n b¶n lµ c¸c mÉu tÝn hiÖu t¹o ra. Mét mÉu tÝn hiÖu cã sù thèng nhÊt chÆt chÏ gi÷a tÝn hiÖu ©m vµ v¨n b¶n vµ ®îc mét th viÖn ©m l u tr÷ vµ ®îc dïng ®Ó so s¸nh víi nhiÒu ph¬ng ph¸p kh¸c nhau. Mçi phÇn tö ©m thanh ®îc t - ¬ng øng víi mét mÉu tÝn hiÖu ®îc gäi lµ nhËn d¹ng tõ rêi r¹c. 4.6.Phô thuéc ngêi nãi, kh«ng phô thuéc ngêi nãi HÖ thèng nhËn d¹ng kh«ng phô thuéc ngêi nãi cã kh¶ n¨ng lµm c«ng viÖc nhËn d¹ng víi bÊt kú ngêi nãi nµo mµ kh«ng cÇn cã giai ®o¹n luyÖn. §èi víi hÖ thèng nhËn d¹ng ®Ó xö lý v¨n b¶n th× vÊn ®Ò ®éc lËp víi ngêi nãi ®îc dùa vµo vèn tõ hay c¶ hÖ thèng. §èi víi c¸c hÖ thèng nhËn d¹ng kh«ng cã th viÖn tõ ®éc lËp víi ngêi nãi (C¬ së d÷ liÖu cña mét sè Ýt giäng nãi) th× ngêi sö dông tr íc tiªn ph¶i x©y dùng cho m×nh mét c¬ së d÷ liÖu ©m cña m×nh. Víi mçi tõ mµ ngêi sö dông ph¸t ©m vµ muèn ®îc hÖ thèng nhËn d¹ng ph¶i cã mét tõ mÉu trong th viÖn cña m×nh. NÕu th viÖn mÉu cã ®ñ sè lîng tõ cÇn thiÕt th× chÊt lîng vµ kÕt qu¶ nhËn d¹ng cña hÖ thèng sÏ t¨ng lªn, sai sè sÏ gi¶m xuèng. Xong bï l¹i ngêi sö dông ph¶i cã thêi gian ®ñ lín ®Ó cho qu¸ tr×nh chuÈn bÞ tøc lµ luyÖn cho m¸y hiÓu ®îc ©m, giäng cña m×nh. Ph¬ng ph¸p luyÖn nh thÕ nµy hiÖn ®îc sö dông rÊt Ýt. Thay vµo ®ã lµ ph¬ng ph¸p t¸ch ©m vÞ vµ so s¸nh víi mÉu c¸c ©m vÞ víi Häc viÖn C«ng nghÖ BCVT
  6. Héi nghÞ Khoa häc lÇn thø 5 lý do lµ sè l îng c¸c ©m vÞ trong mçi ng«n ng÷ rÊt h÷u h¹n. Víi bÊt kú ph¬ng ph¸p so s¸nh g× th× viÖc x©y dùng mét th viÖn mÉu cho mçi ngêi sö dông lµ rÊt cã ý nghÜa, bëi v× hÖ thèng cßn ph¶i quen víi c¸ch nãi, giäng nãi, ng«n ng÷ vïng cña ngêi sö dông nã. H·y thö t ëng t îng xem liÖu cã hÖ thèng nhËn d¹ng nµo cã kh¶ n¨ng kh«ng cÇn giai ®o¹n luyÖn mµ lµm viÖc ®îc ngay víi mét ngêi Hµ n«i, TP Hå chÝ Minh, Thanh ho¸ hoÆc NghÖ an kh«ng. §iÒu nµy cßn g©y nhiÒu khã kh¨n cho chÝnh b¶n th©n con ngêi bëi v× tuú thuéc vµo c¸ch nãi, giäng nãi, vèn tõ, ng«n tõ cña tõng vïng trong mét ®Êt níc. 4.7.VÊn ®Ò vÒ ng«n ng÷ häc Khã kh¨n lín nhÊt trong qu¸ tr×nh nhËn d¹ng tiÕng nãi lµ cïng mét tõ nh ng kh«ng bao giê cã thÓ ®îc ph¸t ©m hoµn toµn gièng nhau ngay víi c¶ cïng mét ng- êi nãi. Ngoµi ra c¸c biÕn thanh ©m còng cßn bÞ phô thuéc vµo tr¹ng th¸i vËt lý vµ t©m lý cña ngêi nãi còng nh do c¸c ¶nh hëng cña ng÷ c¶nh, tÝnh chÊt cña Microphone vµ m«i tr êng còng lµ c¸c t¸c nh©n ¶nh hëng ®Õn giäng nãi... NhiÔu cña m«i tr êng xung quanh còng lµm cho tÇn sè cña tõ ®îc ph¸t ©m thay ®æi rÊt nhiÒu vµ lµm cho hÖ thèng rÊt khã nhËn d¹ng vµ thËm chÝ cßn kh«ng thÓ lµm viÖc ®îc. Ngoµi c¸c ¶nh hëng liªn quan ®Õn ©m thanh th× vÎ mÆt, ®iÖu bé cña ngêi nãi chuyÖn còng ®îc truyÒn t¶i rÊt nhiÒu th«ng tin mµ hÖ thèng nhËn d¹ng kh«ng cã kh¶ n¨ng chuyÓn ®æi vµ ®©y còng lµ h¹n chÕ rÊt lín cña c¸c hÖ thèng. Mét lîi thÕ cña kh¶ n¨ng nhËn biÕt tiÕng nãi cña con ngêi lµ ngoµi viÖc nhËn d¹ng ®îc c¸c tõ ph¸t ©m, con ngêi cßn cã thÓ hiÓu ®uîc néi dung mµ ngêi nãi chuyÖn víi m×nh truyÒn t¶i. Trong t©m lý häc ngêi ta gäi hiÖn t îng nµy lµ “Cocktail- Party- Effect”. Trong mét b÷a tiÖc, do tiÕng ån ngêi ta rÊt khã cã thÓ hiÓu ®îc cô thÓ tõng tõ trong tõng c©u mµ ngêi nãi chuyÖn víi m×nh nãi, xong ngêi nghe vÉn cã thÓ hiÓu ®îc ngêi nãi chuyÖn víi m×nh nãi g× v× hä biÕt lµ ngêi ®èi diÖn ®ang nãi vÒ vÊn ®Ò g×. 4.8.Vèn tõ cÇn thiÕt Trong khi tiÕng Anh ®Ó nãi chuyÖn ®îc víi nhau ngêi ta chØ cÇn mét kho vèn tõ kho¶ng 800 tõ th× tiÕng §øc ph¶i cÇn kho¶ng 4.000 tõ vµ tiÕng ViÖt cÇn kho¶ng 4.000 – 5.000 tõ. §èi víi c¸c nhµ khoa häc vµ nhµ v¨n vèn tõ cña hä ph¶i lín h¬n gÊp 6 ®Õn 7 lÇn ®Ó cã thÓ diÔn ®¹t ®îc hÕt ý nghÜ cña m×nh. Trong tiÕng ViÖt cßn cã nhiÒu vÊn ®Ò h¬n so víi tiÕng Anh, tiÕng §øc vÝ dô nh thanh ©m (HuyÒn, hái, ng·, nÆng, kh«ng dÊu). 4.9.Tõ ®ång ©m Mét vÊn ®Ò n÷a trong nhËn d¹ng tiÕng nãi lµ vÊn ®Ò ®ång ©m. Tõ ®ång ©m lµ c¸c tõ ®îc ph¸t ©m hoµn toµn gièng nhau hoÆc gÇn gièng nhau, nh ng tuú Häc viÖn C«ng nghÖ BCVT
  7. LÜnh vùc C«ng nghÖ th«ng tin thuéc ng÷ c¶nh th× nã ®îc hiÓu vµ viÕt kh¸c nhau. Trong tiÕng ViÖt tr êng hîp nµy th êng x¶y ra Ýt h¬n so víi c¸c ng«n ng÷ ch©u ¢u kh¸c nÕu ngêi ph¸t ©m ph¸t ©m thËt chuÈn x¸c vÝ dô c¸c tõ “ Chóc” víi “Tróc” “Dôi” víi “Rôi”... 5. C¸c ph¬ng ph¸p nhËn d¹ng ®îc ¸p dông phæ biÕn 5.1.So s¸nh mÉu b»ng ph¬ng ph¸p lËp tr×nh ®éng (Dynamic Program) Khi so s¸nh tÝn hiÖu thu ngêi ta th êng ph¶i so s¸nh víi tÊt c¶ c¸c mÉu, ®iÒu nµy sÏ lµm tèn rÊt nhiÒu thêi gian tÝnh to¸n. §Ó gi¶m thêi gian tÝnh to¸n vµ qua ®ã t¨ng tèc ®é xö lý nhËn d¹ng ngêi ta cã thÓ sö dông ph¬ng ph¸p lËp tr×nh ®éng. ë ph¬ng ph¸p nhËn d¹ng mÉu nµy c¸c tõ cÇn nhËn d¹ng sÏ ®îc so s¸nh víi c¸c mÉu ®îc lu tr÷ trong hÖ thèng vµ thùc hiÖn viÖc so s¸nh hai mÉu tÝn hiÖu nµy ®Ó t×m ra mÉu cã sai sè lµ nhá nhÊt. Bëi v× tÝn hiÖu ©m thanh ®îc t¹o ra t¹i c¸c thêi ®iÓm kh¸c nhau kh«ng bao giê lµ gièng nhau hoµn toµn. Nã lu«n cã sù sai kh¸c do mét sè yÕu tè vÒ träng ©m, ng÷ ®iÖu, tèc ®é,... V× vËy cÇn ph¶i thùc hiÖn so s¸nh hai mÉu theo c¸c thuËt to¸n biÕn d¹ng nh»m gi¶m thiÓu sai sè . ThuËt to¸n DTW (Dynamic Time Warping) cã thÓ coi lµ thuËt to¸n hiÖu qu¶ nhÊt cho viÖc øng dông so s¸nh hai mÉu tÝn hiÖu cã chiÒu dµi kh¸c nhau vµ cho sai sè nhá nhÊt. ThuËt to¸n nµy sö dông ph¬ng ph¸p ®Ö quy, vÝ dô nh c¸c ch¬ng tr×nh con (Procedure) ®îc tù ®éng gäi ra nhng víi c¸c th«ng sè (parameter) kh¸c nhau vµ t×m c¸c sai sè so víi c¸c tÝn hiÖu mÉu. MÉu nµo cã sai sè so víi tÝn hiÖu cÇn so s¸nh nhá nhÊt th× mÉu ®ã chÝnh lµ mÉu cÇn t×m. 5.2.NhËn d¹ng víi ph¬ng ph¸p Markov Èn HMM (Hidden Markov-Modell) HÖ thèng nhËn d¹ng tõ rêi r¹c dùa trªn HMM cã s¬ ®å khèi nh h×nh 2 díi ®©y. Tõ ®îc nhËn d¹ng ®îc chia thµnh chuçi thêi gian cña T khung vµ ®îc ph©n tÝch sö dông mét sè thuËt to¸n ph©n tÝch nh biÕn ®æi Fourier nhanh (FFT), ph©n tÝch m· ho¸ dù b¸o tuyÕn tÝnh (LPC). Sau bíc nµy ta cã mét chuçi mÉu quan s¸t Ot , t=1, 2, ..., T. Chuçi Ot ®îc lîng tö ho¸ vector sö dông mét s¸ch m· codebook bao gåm mét tËp ®¹i diÖn cña M mÉu tiÕng nãi. Sau ®ã hÖ thèng so s¸nh ®é t ¬ng øng cña mÉu tõ ®Çu vµo cha biÕt víi W m« h×nh tõ. Tõ ®Çu vµo ®îc nhËn d¹ng b»ng c¸ch lÊy tõ gièng víi nã nhÊt trong tõ ®iÓn cña hÖ thèng VÒ mÆt to¸n häc, mçi m« h×nh tõ M i , i=1, 2, ...., W ®îc x¸c ®Þnh bëi mét tËp tham sè [Π, A, B]. Gäi Pri { Ot / M i } lµ x¸c xuÊt nhËn ®îc chuçi quan s¸t Ot víi m« h×nh M i . Tõ ®îc nhËn d¹ng RW ®îc x¸c ®Þnh tõ c«ng thøc: RW = Arg max  Pri { Ot / M i }    i =1,2,..w . Trong ®ã Argmax cho kÕt qu¶ lµ chØ sè i cña m« h×nh M i cã x¸c xuÊt Pri { Ot / M i } cao nhÊt. Häc viÖn C«ng nghÖ BCVT
  8. Héi nghÞ Khoa häc lÇn thø 5 §Ó tÝnh gi¸ trÞ Pri { O / M } cÇn xÐt tÊt c¶ c¸c chuçi tr¹ng th¸i cã thÓ t¹o ra chuçi quan s¸t vµ sau ®ã x¸c ®Þnh chuçi tr¹ng th¸i nµo cã x¸c xuÊt cao nh©t. Tuy nhiªn nÕu ph¶i xÐt tÊt c¶ th× sÏ kh«ng thùc tiÔn v× ph¶i xÐt víi sè l îng rÊt lín c¸c chuçi tr¹ng th¸i. §Ó gi¶m thiÓu khèi l îng tÝnh to¸n cã thÓ dïng c¸c ph¬ng ph¸p ®Ö quy víi hai thuËt to¸n lµ Baul-Welch vµ Viterbi. C¸c m« h×nh H M M ®-îc l-u tr ÷ TiÕng nãi Ph©n So s¸nh Tõ ®-îc L -îng Nguyªn ®Çu vµo t Ých ®é t -¬ng nhËn d¹ng t ö ho¸ t ¾c lùa vµ x¸c øng víi Vect or chän ®Þnh c¸c H×nh 2: HÖ thèng nhËn d¹ng tiÕng nãi sö dông HMM 5.3.NhËn d¹ng tõ sö dông m¹ng N¬ ron C«ng nghÖ nhËn d¹ng tiÕng nãi chñ yÕu sö dông ph¬ng ph¸p nhËn d¹ng mÉu vµ m¹ng N¬-ron lµ mét trong nh÷ng c«ng cô nhËn d¹ng mÉu cã hiÖu qu¶, do vËy nhiÒu hÖ thèng ®· øng dông m¹ng n¬-ron vµo viÖc nhËn d¹ng tiÕng nãi. M¹ng n¬-ron cÊu tróc Perceptron nhiÒu líp nh h×nh 3 ®îc sö dông nhiÒu trong c¸c hÖ thèng nhËn d¹ng. Perceptron lµ lo¹i ®¬n gi¶n nhÊt cña c¸c m¹ng liªn kÕt tiÕn (lµ m¹ng kh«ng cã liªn kÕt gi÷a c¸c khèi xö lý trong cïng mét líp vµ kh«ng cã c¸c liªn kÕt gi÷a c¸c khèi xö lý ë líp ra quay ngîc vÒ líp vµo) sö dông thuËt to¸n häc cã gi¸m s¸t. Mét m¹ng Perceptron bao gåm nhiÒu ®¬n vÞ xö lý ®îc s¾p xÕp thµnh c¸c líp. M¹ng nµy ®îc huÊn luyÖn theo quy t¾c Delta hoÆc c¸c biÕn thÓ cña nã. C¸c khèi xö lý ®îc x¾p xÕp thµnh c¸c líp bao gåm 1 líp vµo mét khèi xö lý Häc viÖn C«ng nghÖ BCVT
  9. LÜnh vùc C«ng nghÖ th«ng tin ë mét líp Èn vµ 1 líp ra. C¸c liªn kÕt cã träng sè kh¸c nhau kÕt nèi mçi mét khèi xö lý ë mét líp nµo ®ã tíi tÊt c¶ c¸c khèi xö lý ë líp l©n cËn. L íp r a L íp r a L íp Èn L íp vµo (b) L íp vµo (a) H×nh 3: M¹ng Perceptron. (a) Perceptron 1 líp, (b) Perceptron nhiÒu líp m¹ng N¬-ron lo¹i nµy ®îc huÊn luyÖn b»ng c¸ch nhËp mét vector mÉu ë líp ®Çu vµo vµ tÝnh to¸n c¸c ®Çu ra. Sau ®ã, ®Çu ra ®îc so s¸nh víi c¸c mÉu ®Çu ra mong muèn. Sai sè gi÷a ®Çu ra thùc tÕ víi ®Çu ra mong muèn ®îc tÝnh vµ ph¶n håi qua m¹ng tíi mçi phÇn tö. Träng sè ®Çu vµo cña mçi phÇn tö ®îc ®iÒu chØnh ®Ó tèi thiÓu ho¸ sai sè. Qu¸ tr×nh nµy ®îc lÆp l¹i ®Õn khi ®Çu ra thùc tÕ lÖch víi ®Çu ra mong muèn trong ph¹m vi sai sè x¸c ®Þnh tr íc. Cã rÊt nhiÒu cÆp mÉu ®Çu vµo, ®Çu ra ®îc ®a qua m¹ng vµ qu¸ tr×nh nªu trªn ®îc lÆp l¹i cho mçi cÆp ®Çu vµo, ®Çu ra. ViÖc nhËn d¹ng chÝnh lµ nhËp mÉu tiÕng nãi cha biÕt ë nót ®Çu vµo cña m¹ng ®· ®îc huÊn luyªn vµ tÝnh to¸n gi¸ trÞ cña c¸c nót ®Çu ra ®Ó x¸c ®Þnh mÉu tiÕng nãi ®ã. 5.4.Khuynh híng øng dông trÝ tuÖ nh©n t¹o (Artificial Intelligence –AI) trong nhËn d¹ng tiÕng nãi ý t ëng c¬ b¶n cña viÖc øng dông trÝ tuÖ nh©n t¹o vµo nhËn d¹ng tiÕng nãi lµ thu thËp kiÕn thøc tõ c¸c nguån kiÕn thøc kh¸c nhau ®Ó gi¶i quyÕt c¸c vÊn ®Ò ®Æt ra. vÝ dô: øng dông trÝ tuÖ nh©n t¹o ®Ó lµm c«ng ®o¹n ph©n ®o¹n vµ g¸n nh·n tiÕng nãi cÇn cã sù tæng hîp vÒ c¸c kiÕn thøc ©m häc, ng÷ ©m häc, tõ vùng häc, có ph¸p häc, ng÷ nghÜa vµ kiÕn thøc thùc tÕ. - KiÕn thøc ©m häc: Lµ kiÕn thøc vÒ ®Æc tr ng cña ©m thanh (c¸c ®¬n vÞ ng÷ ©m) ®îc ph¸t ra trªn c¬ së c¸c sè ®o vÒ phæ tÝn hiÖu vµ c¸c ®Æc tÝnh h÷u thanh hoÆc v« thanh Häc viÖn C«ng nghÖ BCVT
  10. Héi nghÞ Khoa häc lÇn thø 5 - KiÕn thøc vÒ tõ vùng: Lµ nh÷ng nguyªn t¾c do tõ ®iÓn ®Æt ra ®Ó kÕt hîp c¸c ©m thanh thµnh tõ vµ ngîc l¹i chia nhá tõ thµnh ©m thanh. - KiÕn thøc vÒ có ph¸p: Lµ sù kÕt hîp c¸c tõ thµnh c¸c côm tõ hoÆc c©u ®óng ng÷ ph¸p - KiÕn thøc vÒ ng÷ nghÜa: Lµ sù hiÓu biÕt vÒ ng÷ c¶nh sao cho c¸c c©u hoÆc côm tõ phï hîp víi môc tiªu ®Þnh nãi vµ phï hîp víi c¸c c©u tr íc. - KiÕn thøc thùc tÕ: Lµ kh¶ n¨ng suy luËn logic cÇn thiÕt ®Ó lµm râ ý dùa trªn nh÷ng c¸ch thøc th«ng th êng mµ tõ ®îc dïng. Cã nhiÒu c¸ch kh¸c nhau ®Ó tæng hîp c¸c nguån kiÕn thøc vµo trong hÖ thèng nhËn d¹ng tiÕng nãi. Ph¬ng ph¸p th«ng dông nhÊt lµ xö lý tõ díi lªn. Theo c¸ch nµy, c¸c tiÕn tr×nh xö lý ®îc triÓn khai tuÇn tù tõ thÊp lªn cao. TiÕn tr×nh ph©n tÝch tÝn hiÖu ®Çu vµo, t×m ®Æc tÝnh, ph©n ®o¹n, g¸n nh·n ®îc triÓn khai ®Çu tiªn, sau ®ã lµ c¸c tiÕn tr×nh ph©n líp ©m thanh, x¸c ®Þnh tõ, c©u . Mçi tiÕn tr×nh xö lý ®ßi hái mét nguån kiÕn thøc vµ c¸c nguån kiÕn thøc nµy ®îc tÝch luü dÇn qua c¸c qu¸ tr×nh xö lý thùc tÕ gièng nh kiÕn thøc cña con ng- êi. 5.5.M« h×nh hai tõ vµ ba tõ (Bi- vµ Trigramme) §Ó hÖ thèng cã kh¶ n¨ng lµm viÖc víi ®é chÝnh x¸c cao h¬n, bªn c¹nh ph¬ng ph¸p nhËn d¹ng theo m« h×nh Markov Èn ngêi ta cßn cã thÓ tÝch hîp vµo hÖ thèng mét ph¬ng ph¸p thèng kª. Th«ng qua m« h×nh hai tõ còng nh ba tõ ®îc thèng kª tÝch luü trong qu¸ tr×nh tÝnh to¸n nhËn d¹ng nhiÒu lÇn, tiÕn tr×nh kiÓm tra ng÷ c¶nh ®îc thiÕt lËp. Ph¬ng ph¸p nµy cßn cã lîi thÕ lµ hÖ thèng nhí ®îc ng÷ c¶nh mµ ngêi nãi quen dïng. HÖ thèng cµng ho¹t ®éng l©u víi mét ngêi, sÏ ngµy cµng quen víi c¸ch nãi cña ngêi ®ã vµ qua ®ã ®é chÝnh x¸c ngµy cµng cao. Trong qu¸ tr×nh hÖ thèng nhËn d¹ng lµm viÖc víi m« h×nh thèng kª hai ch÷ th× cø hai ch÷ trong c©u ®îc so s¸nh víi nhau. NÕu tr íc ®ã hai tõ nµy còng ®· tån t¹i trong c¸c c©u tr íc ®ã trong bé nhí thèng kª th× tõ ®· ®îc nhËn d¹ng ®ã ®îc x¸c ®Þnh lµ chÝnh x¸c. T¬ng tù nh vËy víi m« h×nh thèng kª 3 tõ . C¸c hÖ thèng nhËn d¹ng cña c¸c h·ng nh Dragon, Phillips vµ Lernout&houspie ®Òu ®îc ¸p dông ph¬ng ph¸p thèng kª hai tõ. H·ng IBM ¸p dông ph¬ng ph¸p thèng kª 3 tõ theo b¶n quyÒn cña h·ng. Ph¬ng ph¸p thèng kª 3 tõ hiÓn nhiªn cho kÕt qu¶ cã ®é chÝnh x¸c cao h¬n ph¬ng ph¸p thèng kª 2 tõ. Mét nhîc ®iÓm cña ph¬ng ph¸p nµy lµ tèc ®é tÝnh to¸n chËm h¬n. Víi ph¬ng ph¸p thèng kª 3 tõ hÖ thèng cã tèc ®é xö lý chËm h¬n rÊt nhiÒu so víi 2 tõ v× ph¬ng ph¸p thèng kª 3 tõ cã ®é phøc t¹p lín h¬n 2 tõ rÊt nhiÒu lÇn. Häc viÖn C«ng nghÖ BCVT
  11. LÜnh vùc C«ng nghÖ th«ng tin 6. KÕt luËn Cho ®Õn nay, c¸c hÖ thèng nhËn d¹ng tiÕng nãi mÆc dï ®· ®îc nhiÒu h·ng ®Çu t nghiªn cøu nhiÒu n¨m, xong vÉn cßn nhiÒu h¹n chÕ nh sau vµ do ®ã cha ®ñ ®Ó ¸p dông trong nhiÒu lÜnh vùc: - HÖ thèng tai nghe vµ microphone vÉn ph¶i b¾t buéc sö dông vµ ph¶i ¸p dông c¸c c«ng nghÖ läc nhiÔu. - HÖ thèng vÉn b¾t buéc ph¶i qua qu¸ tr×nh luyÖn do giäng nãi vµ kiÓu nãi cña mçi ngêi. - §é chÝnh x¸c cña tÊt c¶ c¸c hÖ thèng nhËn d¹ng vÉn chØ ®¹t ®îc ë møc trªn díi 90%. Tµi liÖu tham kh¶o [1]. Fundamentals of speech recognition. Lawrence Rabiner . Biing – Hwang Juang 1999. [2]. Distortion measures for speech processing. R. M Gray, A. Buzo, A.H.Gray, Jr., and Y. Matsuyama 1980. [3]. X©y dùng ch¬ng tr×nh nhËn d¹ng nguyªn ©m tiÕng ViÖt b»ng m¹ng N¬-ron nh©n t¹o, LuËn v¨n tèt nghiÖp cao häc, Hµ néi, 1998. Häc viÖn C«ng nghÖ BCVT
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2