LÜnh vùc C«ng nghÖ th«ng tin
nhËn ng tiÕng nãi
ThS.§oµn Phan Long
Khoa Quèc tÕ -§µo t¹o sau ®¹i häc
Tóm t t: Tù ®éng nhËn ng tiÕng nãi lµ mét lÜnh vùc nghiªn cøu quan träng
®Ó ph¸t triÓn ®a c øng ng tù ®éng vµo nhiÒu Ngµnh. Ngoµi c¸c yÕu
c«ng ng nhËn d¹ng tiÕng i, th× do tiÕng nãi cñai d©n téc cã nh÷ng
®Æc thï riªng, ®ßi hái phi ®îc pn tÝch t×m ra c c«ng nghÖ ¸p ng phï
hîp. ë ViÖt nam, viÖc nghiªn cøu vµ ph¸t triÓn c thèng nhËn ng tiÕng
i cßn ®ang ë bíc ®Çui rÊt Ýt ct qu ®îc c«ng. Bµi o nµy nh»m môc
tiªu ng hîp c nghiªn cøu c«ng nghÖ ®· vµ ®ang ®îc ¸p dông trong c
thèng nhËnng tiÕng nãi.
1. Lêi nãi ®Çu
Ti gian tr íc ®©y, viÖc nhËn biÕt tiÕng i chØ ®îc thÓ hiÖn trong c
phim viÔn tëng nh thuyÒn tr ëng Spok ®u khiÓn con tµu trô Enterprise,
nh÷ng mÖnh nh vµ nh÷ng ý tëng cña thuyÒn tr ëng ®îc m¸y tÝnh nhËnng,
thu nhËn vµ viÕt vµo nhí. HuyÒn thi m¸y tÝnh HAL trong phim
“2001 cuéc phiªu lu trong vò trô cßn cã kh n¨ng cao h¬n lµ nhËnngi nãi
cö ®éng cña m«i.
HiÖn t¹i, kh n¨ng nµy vÉn cha thùc ®¸p øng, xong trong nh÷ng n¨m gÇn
®©y, nh÷ng hÖ thèng nhËn ng tiÕng nãi ®· cã nh÷ng bíc ph¸t triÓn ®¸ng kÓ
vµ trong chõng mùc o ®ã, bªn c¹nh n phÝm con chuét, nh÷ng pn
m nhËnng tiÕng i ®· ®ãng vai trß lµ phËn nhËp liÖu rÊt t vµo
c m¸y PC. §©y lµ phËn nhËp n n vµ liÖu còng nh ®Ó ®iÒu khiÓn
y PC thùc hn nh÷ng thao t¸c mµ ngêi dông ®ßi hái.
Nh÷ng h·ng c«ng ng lín nh IBM vµ Phillip cã thÞ pn cao vµ uy tÝn, trong
nhiÒu n¨m ®· ®Çu t ®¸ng kÓ ®Ó n hoµn chØnh c«ng ng nhËn d¹ng nh»m
®a ra thÞ tr êng nh÷ng thÕ m¸y míi tÝch p c«ng ng nhËn ng tiÕng
i. Song song i c ng nµy, nh÷ng c«ng ty míi nh Dragon System, Lernout &
Hauspie còng ®Èy nhanh qu¸ tr×nh ®Çu t nghn cøu cña m×nh.
2. C¬ nhËn d¹ng tiÕng nãi
TiÕng nãi lµ c«ng cô truyÒn ®¹t th«ng tin quan träng nhÊt cña con ngêi. §èi víi
chóng ta, tiÕng i lµ c¸i ®ã rÊt tù nhiªn, do vËy b×nh th êng chóng ta còng
kh«ng ®Ó ý xem qu¸ tr×nh nhËn d¹ng tiÕng i diÔn ra nh thÕ nµo, t¹i sao ta
i thÓ hiÓu ®îcc tõ,c c©u métch rÊt ®¬n gin nh y.
Häc viÖn C«ng ng BCVT
i ng Khoa häcn t 5
u y tÝnh còng cã thÓ hiÓu ®îc tiÕng i tù nhn cña con ngêi th× kh«ng
nh÷ng ®¬n gin rÊt nhiÒu cho qu¸ tr×nh trao ®æi ngêi - m¸y mµ y tÝnh cßn
thÓ ¸p dông ®îc vµo nhiÒu lÜnh vùc kh¸c.
Nh÷ng nghn cøu c¬ bn trong lÜnh vùc nhËn ng tiÕng nãi cña thËp kû qua
®· gãp phÇn ®a c«ng ng nhËn ng nh÷ng ph¸t triÓn ®¸ng trong c¸c
lÜnh vùc sö lý n bn, viÔn th«ng, c¬ së lu còng nh q tr×nh giao tiÕp víi
thèng chun gia.
Qu¸ tr×nh pt triÓn cña c¸c gii pp nhËn d¹ng tiÕngi ®îc tham gia bëi:
- C«ng nghÖy tÝnh vµ lËp tr×nh
- Ng÷ ©m
- Ng«n ng÷ häc
- NhËnng mÉu
- TrÝ tuÖ nn t¹o....
Nh÷ng tng tù ®éng nhËn ng tiÕng nãi lu«n g¾ng png l¹i qu¸
tr×nh nhËn d¹ng tiÕng nãi cña con ngêi. n c¹nh bµn phÝm vµ chuét th×
Microphone lµ kh ng míi ®Ó nhËp liÖu vµ giao tiÕp i m¸y PC.
3. LÞch cña c«ng nghÖ nhËn d¹ng tiÕng nãi
NhËn d¹ng tiÕng nãi tù ®éng ®· lÞch khong 40 n¨m nay. Nh÷ng nn tè
quan träng gióp cho ph¸t triÓn cña c«ng nghÖ nhËn ng nµy thÓ kÓ ®Õn
nh pt triÓn cña c¸c hÖ thèng ph©n tÝch p ©m thanh (1946) t hiÖn díi
d¹ng trùc quanc tÝn hiÖu ©m, Lý thuyÕt o ©m thanh tiÕngi cña con ngêi
(1948) vµ tÊt nhiªn phi kÓ ®Õn xuÊt hiÖn vµ ph¸t triÓn cña c thèng
y tÝnh th¬ngi ®Çu tiªn trªn thÕ gi (1958).
HÖ thèng nhËnng tiÕng i ®Çu tiªn kh n¨ng nhËnng i r¹c phô
thuéc ngêi nãi ®Ó ph©n tÝch vµ nhËn ng c ch÷ hoÆc c ®¬n ©m
dông ®Æc tÝnh mn thêi gian vµ c ng©n hµng läc t ¬ng tù. T¬ng tù nh
vËy, víi ph¬ng pp ©m häc, thèng nhËn ng ©m vÞ phô thuéc ngêi i
kh«ng phô thuéc ngêi nãi ®îc thiÕt kÕ mÆc míi cho ®îc c kÕt qu cßn rÊt
khiªm tèn.
Trong thËp kû 70, i ph¸t triÓn cña c thuËt tn pn tÝch tÝn hiÖu (m«
nh dù ®o¸n tuyÕn tÝnh, so s¸nh u theo thêi gian) c«ng ng nhËn d¹ng
tiÕng nãi ®îc tiÕp tôc ph¸t triÓn nh mÏ. Víi c ph¬ng pp nµy c hÖ thèng
nhËn d¹ngi sè lîng rÊt lín kh«ng phô thuéc ngêii ®· ®îc thùc thi.
Trong nh÷ng m 60 cña thÕ kû 20, nhiÒu phßng thÝ nghiÖm cña nhiÒu ng
lín ®· ®îc ®Çu t ®Ó nghn cøu pt triÓn c¸c tng nhËn d¹ng tiÕng i cña
Häc viÖn C«ng ng BCVT
LÜnh vùc C«ng nghÖ th«ng tin
c ng«n ng÷ kh¸c nhau. §Õn ®Çu nh÷ng m 80 kh n¨ng hiÓu bt ng
nh vÒ kü thuËt ®· cho phÐp c nhµ nghiªn cøu y dùng c hÖ thèng nhËn
d¹ng ®îc ng tr¨m c rêi r¹c. Sau ®ã c«ng nghÖ nn ng ®· nh÷ng bíc
ph¸t triÓn v« cïng nhanh chãng.
4.c vÊn ®Ò kü thuËt
NhËnng tiÕng i lµ vÊn ®Ò ®îc n luËn vµ ®· ®îc c¸c nhµ nghn cøu ph©n
lo¹i thµnh c thèng nhËn ng kh¸c nhau cho nh÷ng c ®Ých sö dông kh¸c
nhau. H×nh díi ®©y t t c¸i nh×n ki qt vÒ pn lo¹i c thèng
nhËn d¹ng tiÕng i, trong ®ã c hÖ tng nhËn ng tiÕng nãi ®îc ph©n
thµnh hai nhãm riªng biÖt. t nhãm chun ®îc dông víi môc ®Ých ®iÒu
khiÓn thiÕt bÞ tng qua tiÕngi vµt nhãm chun xö lý tiÕng nãi sang
n bn (Speech to Text)
H×nh 1: Ph©n lic hÖ thèng nhËnng tiÕng nãi
4.1. NhËn d¹ng tiÕng nãi ®Ó ®iÒu khiÓn vµ ra lÖnh cho thiÕt
Trong c thèng ®iÒu khiÓn thêng dông t th viÖn rÊt n chÕ, bëi
®Ó ®iÒu khiÓn t thiÕt ®ßi hái lîngc lÖnh rÊt h÷u n vµ kh«ng
cÇn t t i trùc tiÕp ®Õn hÖ thèng y tÝnh nhËn d¹ng tiÕng nãi. Nh
vËy ®Ó nhËp liÖu gn tiÕp ngêi ta thÓ dông qua nhiÒu m«i tr êng nh
®êng tho¹i, microphone... vÝ trong øng dông Telephone Banking mµ tng
Infogate cña Trung t©m ng nghÖ Th«ng tin CDIT ®ang ¸p dông trªn ng sö
Häc viÖn C«ng ng BCVT
Ph¸t ©m tõ
rêi r¹c
Ph¸t ©m tõ
rêi r¹c
Ph¸t ©m
liªn tôc
Telephone
banking
T×m d÷
liÖu qua
tho¹i
§iÒu
khiÓn
thiÕt bÞ
Ph¸t ©m
liªn tôc
NhËn
d¹ng ng-êi
nãi
Thêi gian
thùc
Cã tiÕp xóc
víi PC
§iÒu khiÓn, r a lÖnh
NhËn d¹ng
tiÕng nãi
V¨n b n
Kh«ng tiÕp
xóc víi PC
Kh«ng thêi
gian thùc
i ng Khoa häcn t 5
dông nhËp liÖu vÝ qua n phÝm y ®iÖn tho¹i ®Ó vÊn tin o c
giao dÞch tiÒn tÖ vµ tiÕn tíi sau nµy thÓ tng qua gng nãi, tiÕng nãi ®Ó
®u khiÓn c giao dÞch.
§iÒu khiÓn thiÕt th«ng qua tiÕng nãi kÕt i trùc tiÕp tíi m¸y tÝnh phi
kÓ ®Õn tr íc hÕt ®ã lµ c hÖ thèng ®iÒu khiÓn th«ng qua c lÖnh b»ng tiÕng
i ®Ó ®u khiÓn c tngy mãc lµm viÖc theo ý cña ngêi dông.
4.2. NhËn d¹ng tiÕng nãi ®Ó xö lýn bn
Qu¸ tr×nh nhËn ng tiÕngi lµ q tr×nh mµ hÖ thèng chun ®æic tõ ®îc
i thµnh v¨n bn vt hay thÓ h¬n lµ chun ®æi tõc tÝn hiÖu ©m tÇn
do ngêi nãi pt ©m thµnh c ®îc viÕt thµnh n n. Nh÷ng hÖ tng nµy
ngun t¾c phi vèn rÊt lín ®Ó cã kh ng ®¹t ®îc kÕt q nhËnng
tiÕng i nh mong muèn. t hÖ tng thÓ nhËn ng theo ti gian
thùc,t thèng kh¸c l¹i lµm viÖc ë chÕ ®é xö lý lÇn l ît (Batch Job). Trong
chÕ ®é ti gian thùc, kÕt qu lµ v¨n bn ®îc thÓ hn trªn mµn nh m¸y
tÝnh ngay sau khi i. Mét tiªu chuÈn n÷a ®Ó ph©n biÖt c«ng nghÖ ®ã lµ c©u
i liÖu thèng nhËn ng tiÕng i ®îc kh«ng khi ngêi i ph¸t ©m ln
tôc tõ nµy tiÕp nèi tõ kia nh ta ph¸t ©m nh thêng hay ngêi nãi phi ph¸t ©m
ngi r¹c?
4.3.HÖ thèng nhËn ng tiÕng nãi i r¹c
l©u nhiÒu nhµ nghn cøu ®· chÕ t¹o ra c hÖ thèng nhËn d¹ng tiÕng nãi
theo ngun t¾c pt ©m rêi r¹c. Nh÷ng tng nhËn ng n tõ h¹n
chÕ khong 1.000 kh«ng phï hîp cho c m«i tr êng nh v¨n png lµm viÖc,
bÖnh viÖn, c c«ng ... lý do rÊt ®¬n gin lµ trong nh÷ng m«i tr êng trªn c
thèng nhËn ng ®ßi hái phi kh ng lµm viÖc víi sè lîng tõ rÊt nhiÒu
i thiÓu phi trªn díi 60.000 tõ, p thuéc ng÷ nh vµ phi kh«ng p thuéc
ngêii.
4.4.HÖ thèng nhËn ng tiÕng nãi liªn tôc
Trong qu¸ tr×nh ngêi i ph¸t ©m liªn tôc, c ®îc ph¸t ©m nä i tiÕp tõ
kia kh«ng giai ®o¹n ng gi÷a chõng. §èi i con ngêi th× q tr×nh nhËn
biÕt c tõ ®îc pt ©m y rÊt ®¬n gin, xong ®èi víi m¸y mãc th× ®é pc t¹p
so víi pt ©mi r¹c t¨ngn nhiÒun do phi nhËn biÕt t¸chc nµy ra.
Trong c©u ®îc ph¸t ©m liªn tôc ta rÊt khã nhËn biÕt ®îc ®iÓm t ®Çu vµ
®m t thóc cña t tõ, trong khi ph¸t ©m i r¹c ta thÊy rÊt râ ®o¹n nghØ
ng¾t qu·ng gi÷a hai c¹nh nhau.
Häc viÖn C«ng ng BCVT
LÜnh vùc C«ng nghÖ th«ng tin
HÖ tng nhËn ng phi qut ®Þnh rÊt nhanh ®m nµo lµ ®m kÕt thóc
cña vµ nh vËy víi c©u ®îc ph¸t ©m liªn tôc y tÝnh ®ßi i thêi gian tÝnh
to¸n lín h¬n rÊt nhiÒu lÇn so i ®îc ph¸t ©m i r¹c. §iÒu nµy cßn ®Æc biÖt
khã víi nhiÒu ng«n n nh ng«n n tiÕng Anh ®ßi i ph¸t ©m
®u«i nèi tiÕp sang tõ kia.
Nhê sù ph¸t triÓn nhanh chãng cña c«ng nghÖ tin häc vµy tÝnh ®Æc biÖt lµ
tèc ®é vµ kh ng tÝnh tn cña c¸c m¸y tÝnh nn, ngµy nay trong phßng
thÝ nghiÖm ®· cã nh÷ng tng kh n¨ng nhËnng tiÕng i ph¸t ©m
liªn tôc.
4.5.NhËn d¹ng tõ i r¹c vµ nhËn d¹ng tiÕng nãi liªn tôc
nhiÒu ®Þnh nghÜa vµ gi thiÕt ph©n biÖt kc nhau gi÷a hai kh¸i
niÖm nhËnng tõ rêi r¹c vµ nhËn d¹ng tiÕngi liªn tôc, nªn ë ®©y thªm
gii thÝch h¬n vÒ hai kh¸i niÖm nµy.
C¸c tÝn hiÖu ©m thanh ®îc Microphone thu nhËn, sau khi ®îc tng nhËn
d¹ng xö lý ®îc chuyÓn ®æi thµnh ngn bn.i ln ga tÝn hiÖu ©m
vµ v¨n bn lµ c mÉu tÝn hu o ra. t mÉu tÝn hiÖu tng nhÊt
chÆt chÏ gi÷a tÝn hiÖu ©m vµ n bn ®îc t th viÖn ©m lu tr÷ vµ ®îc
ng ®Ó so s¸nh i nhiÒu ph¬ng pp kh¸c nhau. Mçi phÇn ©m thanh ®îc t-
¬ng øng víit mÉu tÝn hiÖu ®îc gäi lµ nhËnng tõi r¹c.
4.6.P thuéc ngêi nãi, kng phô thuéc ngêi nãi
HÖ thèng nhËn ng kh«ng p thuéc ngêi nãi kh n¨ng lµm c«ng viÖc nhËn
d¹ng i bÊt kú ngêi i nµo mµ kh«ng cÇn cã giai ®o¹n luyÖn. §èi víi thèng
nhËn d¹ng ®Ó xö lý v¨n bn th× vÊn ®Ò ®éc lËp víi ngêii ®îc dùa vµo vèn
hay hÖ tng. §èi ic hÖ thèng nhËnng kng cã th viÖn ®éc lËp víi
ngêi nãi (C¬ së d÷ liÖu cña t sè Ýt giäng nãi) th× ngêi dông tr íc tiªn phi
yng cho m×nht d÷ liÖu ©m cña m×nh. Víii mµ ngêi dông
ph¸t ©m vµ mn ®îc thèng nhËn d¹ng phi cã t mÉu trong th viÖn
cña m×nh. NÕu th viÖn mÉu ®ñ sè lîng tõ cÇn thiÕt th× chÊt lîng kÕt
qu nhËn ng cña hÖ thèng sÏ t¨ng n, sai sè sÏ gim xuèng. Xong l¹i ngêi
dông phi cã thêi gian ®ñ lín ®Ó cho q tr×nh chuÈn tøc lµ luyÖn cho m¸y
hiÓu ®îc ©m, giäng cña nh. Ph¬ng ph¸p luyÖn nh thÕ nµy hiÖn ®îc sö dông
rÊt Ýt. Thay vµo ®ã lµ ph¬ng ph¸p ch ©m vÞ vµ so s¸nh i mÉuc ©m i
Häc viÖn C«ng ng BCVT