10 Khoa hoïc - kó thuaäät<br />
<br />
<br />
<br />
ÑEÀ XUAÁT NHAÄN DAÏNG TIEÁNG VIEÄT NAM CHO<br />
ÑIEÄN THOAÏI DI ÑOÄNG<br />
(Nguyeãn Vaên Khieâm, Leâ Quaân Haø, Hoaøng Tieán Long,<br />
Nguyeãn Höõu Tình, Nguyeãn Ngoïc Thaém, Ñoã Hoàng Thy)*<br />
<br />
<br />
<br />
<br />
TOÙM TAÉT<br />
Ñaõ 20 naêm qua, nhaän daïng tieáng noùi<br />
vaãn laø moät noã löïc lôùn ñeå taïo ra trí tueä cho<br />
maùy tính, noã löïc khoâng ngöøng naøy ñaõ mang vöïng lôùn treân caùc thieát bò caàm tay. Chuùng toâi<br />
laïi öùng duïng trong quaûn lyù ñieän thoaïi. Khôûi ñaõ nhuùng ñöôïc tieáng Vieät töø vöïng lôùn laø<br />
ñaàu vôùi nhaän daïng ñoïc caùc chöõ soá töø 0 ñeán 9 7660 töø tieáng Vieät, ñaït ñoä chính xaùc laø<br />
trong öùng duïng naøy (digit recognition), sau 98,13% tæ leä loãi töø 1,87%.<br />
ñoù laø caùc baøi toaùn nhaän daïng caùc töø coâ laäp<br />
(isolated word recognition). Töø sau thaäp PROPOSAL FOR<br />
nieân 90, chuùng ta baét ñaàu böôùc vaøo lónh vöïc IETNAMESE RECOGNITION FOR<br />
nhaän daïng tieáng noùi vôùi töø vöïng lôùn, khi ñoù MOBILE PHONE<br />
caùc yeâu caàu veà yeáu toá beàn vöõng cuûa nhaän<br />
daïng tieáng noùi trôû neân caàn thieát, nghóa laø: ABSTRACT<br />
heä thoáng khoâng deã ñoå vôõ khi gaëp baát kyø moät Over the past 20 years, speech<br />
loãi nhaän daïng, moät loãi phaàn meàm; khi gaëp recognition has been still a major effort to<br />
moät tình huoáng nhaän daïng ngoaøi yù muoán, heä create intelligence for the computer. The<br />
thoáng deã daøng khoâi phuïc ñeå tieáp tuïc tieán ceaseless effort has brought the application<br />
trình nhaän daïng lieân tuïc.* in the phone management. We started with<br />
Söï xuaát hieän cuûa vieäc nhaän daïng recognition of reading numbers from 0 to 9<br />
tieáng noùi treân ñieän thoaïi di ñoäng vaø caùc thieát in this application (digit recognition), then<br />
bò nhuùng ñaõ môû ra loaïi hình nghieân cöùu môùi the problems of isolated word recognition.<br />
veà caùc öùng duïng töông taùc giöõa con ngöôøi vaø Since the 1990s onwards, we have started to<br />
maùy tính. Nhöng haàu heát caùc hoaït ñoäng enter a field of speech recognition with<br />
trong lónh vöïc naøy ñeán nay ñaõ bò giôùi haïn do large vocabulary. Thus, requests for the<br />
caùc vaán ñeà veà ñoäc quyeàn phaàn meàm, hoaëc sustainability element of the speech<br />
chæ nhaän daïng nhöõng caâu coù caáu truùc ngöõ recognition becomes necessary, that is, the<br />
phaùp ñôn giaûn vaø bò haïn cheá. Trong phaàn system is not easily broken to meet any<br />
nghieân cöùu naøy, chuùng toâi seõ trình baøy sô recognized errors or a software errors.<br />
löôïc veà Pocket Sphinx, moät heä thoáng maõ When a situation of unintended recognition<br />
nguoàn môû veà nhaän daïng tieáng noùi lieân tuïc töø is encountered, the system shall easily<br />
restore to continue the ongoing process of<br />
recognition.<br />
*<br />
Khoa Công Nghệ Thông Tin, trường Đại Học Công Nghiệp<br />
Tp.HCM<br />
Khoa hoïc - kó thuaäät 11<br />
<br />
<br />
<br />
khoâng coù maõ nguoàn keøm theo. Ñoàng thôøi,<br />
caùc heä ñieàu haønh treân thieát bò nhuùng thöôøng<br />
GIÔÙI THIEÄU bò thieáu caùc tính naêng cho caùc nhaø phaùt<br />
Caùc öùng duïng veà tieáng noùi treân thieát trieån khoâng gioáng nhö treân caùc heä thoáng<br />
bò nhuùng, ñieän thoaïi di ñoäng thöôøng ñoøi hoûi maùy tính ñeå baøn.<br />
phaûi lieân tuïc vaø nhaän daïng ôû thôøi gian thöïc.<br />
Raát nhieàu öùng duïng veà gioïng noùi hieän taïi, HEÄ THOÁNG OCKETSPHINX<br />
chaúng haïn nhö ñieàu khieån chuyeån höôùng Boä nhaän daïng SPHINX laø neàn taûng<br />
cuûa heä thoáng ñònh vò toaøn caàu, choïn nhaïc raát toát cho söï phaùt trieån nhaän daïng gioïng<br />
cho maùy haùt nhaïc, hoaëc caùc öùng duïng veà noùi, vaø chuùng ñang ñöôïc söû duïng bôûi caùc<br />
ngoân ngöõ töï nhieân nhö thieát bò chuyeån ñoåi nhaø nghieân cöùu trong caùc lónh vöïc ví duï<br />
ngoân ngöõ töø gioïng noùi (speech-to-speech nhö: heä thoáng ñoái thoaïi vaø heä thoáng maùy<br />
translation) [tham khaûo theâm A.Waibel, A. tính hoã trôï hoïc taäp… Trong soá caùc boä nhaän<br />
Badran, A. W Black, R. Frederking, D. daïng CMU SPHINX, PocketSphinx laø coâng<br />
Gates, A. Lavie, L. Levin, K. Lenzo, L. cuï ñaõ ñöôïc toái öu cho nhaän daïng tieáng noùi<br />
Mayfield Tomokiyo, J.Reichert, T. Schultz, treân thieát bò nhuùng vaø ñieän thoaïi di ñoäng.<br />
D. Wallace, M. Woszczyna, vaø J. Zhang<br />
2003],... ñeàu ñoøi hoûi phaûi nhanh, chính xaùc<br />
vaø linh ñoäng.<br />
TOÁI ÖU HOÙA<br />
Vieäc trieån khai vaø caøi ñaët caùc öùng Do phaàn cöùng cuûa thieát bò nhuùng vaø<br />
duïng treân caùc thieát bò nhuùng gaëp raát nhieåu ñieän thoaïi di ñoäng so vôùi maùy PC coù nhieàu<br />
khoù khaên, trong ñoù khoù khaên lôùn nhaát laø khaùc bieät cho neân coù caùc löu yù sau:<br />
yeâu caàu nhaän daïng gioïng noùi lieân tuïc cho Toác ñoä truy caäp boä nhôù chaäm<br />
moät ngöõ caûnh töø vöïng töø vöøa ñeán lôùn. Ngoaøi Toå chöùc döõ lieäu sao cho töông thích<br />
ra coøn coù caùc trôû ngaïi veà phaàn cöùng: CPU vôùi phaàn cöùng CPU<br />
cuûa thieát bò nhuùng khoâng hoã trôï kieåu daáu Caàn thay ñoåi caùc ñoaïn maõ khoâng<br />
phaåy ñoäng, boä nhôù RAM thieáu, khaû naêng phuø hôïp heä thoáng.<br />
löu tröõ vaø baêng thoâng treân thieát bò nhuùng Vì vaäy caàn phaûi thöïc hieän moät soá toái<br />
cuõng raát haïn cheá. Vì nhöõng lyù do naøy, maø öu sau.<br />
caùc coâng vieäc veà nhaän daïng tieáng noùi tröôùc<br />
ñaây [xem H. Franco, J. Zheng, J. A. Toái öu hoùa boä nhôù<br />
Butzberger, F. Cesari, M. Frandsen, J. + AÙnh xaï taäp tin I/O vaøo boä nhôù:<br />
Arnold, V. R. R. Gadde, A. Stolcke, vaø V. Ñoái vôùi caùc thieát bò nhuùng coù boä nhôù RAM<br />
Abrash 2002], [T. W. K¨ohler, C. F¨ugen, S. raát ít, döõ lieäu cuûa moâ hình cuù aâm neân ñaët ôû<br />
St¨uker, vaø A. Waibel 2005] chæ giôùi haïn cheá ñoä read-only ñeå noù coù theå ñöôïc ñoïc tröïc<br />
vaøo nhaän daïng nhöõng caâu coù caáu truùc ngöõ tieáp töø ROM. Treân heä ñieàu haønh cuûa caùc<br />
phaùp ñôn giaûn. thieát bò nhuùng, boä nhôù ROM ñuôïc caáu truùc<br />
Ngoaøi nhöõng haïn cheá veà phaàn cöùng, nhö moät taäp tin heä thoáng, vaø nhö vaäy noù coù<br />
chuùng ta coøn phaûi ñoái maët vôùi trôû ngaïi trong theå ñöôïc truy caäp tröïc tieáp baèng caùch söû<br />
vieäc xaây döïng heä thoáng nhaän daïng. Ñeå xaây duïng chöùc naêng aùnh xaï taäp tin vaøo boä nhôù,<br />
döïng heä thoáng naøy ñoøi hoûi phaûi söû duïng caùc chaúng haïn nhö mmap() treân UNIX hoaëc<br />
boä coâng cuï, nhöng nhöõng boä coâng cuï naøy MapViewOfFile() treân Windows.<br />
thöôøng coù baûn quyeàn vôùi giaù raát ñaét vaø<br />
12 Khoa hoïc - kó thuaäät<br />
<br />
<br />
<br />
<br />
+ Byte ordering: PocketSphinx caàn Vieäc söû duïng daáu phaåy tónh chaéc<br />
coù ñònh daïng cuûa döõ lieäu khaùc vôùi döõ lieäu chaén lieân quan ñeán moät soá loãi laøm troøn, noù<br />
cuûa SPHINX ñeå cho pheùp chuùng ñöôïc aùnh xaûy ra sau moãi laàn thöïc hieän pheùp tính. Vieäc<br />
xaï vaøo boä nhôù. Vì vaäy caàn söûa ñoåi boä huaán choïn thuaät toaùn khoâng nhöõng phaûi ñaûm baûo<br />
luyeän HMM, SPHINXTRAIN, ñeå ñaàu ra laøm giaûm soá löôïng tính toaùn, taêng toác ñoä,<br />
caùc taäp tin phuø hôïp vôùi heä thoáng, vì vaäy cho ñoàng thôøi phaûi duy trì ñoä chính xaùc. Ví duï,<br />
pheùp aùnh taäp tin naøy vaøo boä nhôù theo ñuùng duøng FFT ñeå taùch soá moät soá thöïc thaønh phaàn<br />
traät töï byte. nguyeân vaø phaàn thaäp phaân [H. V. Sorensen,<br />
+ Ñònh tuyeán döõ lieäu: Caùc CPU D. L. Jones, M. T. Heideman, and C. S.<br />
ngaøy nay ñeàu coù hoã trôï ñònh tuyeán döõ lieäu. Burrus vol. 35, no. 6, pp. 849–863, 1987].<br />
Ví duï, moät tröôøng döõ lieäu 32-bit thì ñöôïc Tuy nhieân, khi söû duïng FFT treân daáy phaåy<br />
yeâu caàu gaùn cho caùc ñòa chæ coù giaù trò 4- tónh ñaõ laøm taêng ñaùng keå tyû leä loãi töø, trong<br />
byte. Bôûi vì caùc tröôøng döõ lieäu trong caùc moät soá tröôøng hôïp leân ñeán 20%.<br />
file moâ hình coù ñoä daøi khaùc nhau, neân + Toái öu hoùa döõ lieäu vaø caáu truùc<br />
chuùng ta caàn phaûi theâm döõ lieäu vaøo cuoái ñieàu khieån: Kieán truùc ARM ñaõ ñöôïc toái öu<br />
noù. Keát quaû laø trong khi phieân baûn hieän taïi hoaù raát nhieàu cho vieäc tính toaùn treân kieåu<br />
coù theå ñoïc ñöôïc caùc file moâ hình töø caùc döõ lieäu soá nguyeân vaø Boolean. Haàu heát caùc<br />
phieân baûn tröôùc, thì caùc file ñöôïc taïo ra töø döõ lieäu ñöôïc cung caáp bao goàm moät tröôøng<br />
noù khoâng theå töông thích ngöôïc. "shift count", cho pheùp dòch chuyeån bit theo<br />
+ AÙnh xaï Triphone-senone: Toác moät giaù trò maø khoâng laøm thay ñoåi giaù trò<br />
ñoä, nhoû goïn laø muïc tieâu cuûa PocketSphinx. ban ñaàu. ARM laø moät kieán truùc 32-bit vôùi<br />
Theo thöïc nghieäm moâ hình döõ lieäu cuûa 16 thanh ghi ña naêng. Vieäc giöõ döõ lieäu<br />
PocketSphinx neân löu ôû caáu truùc daïng caây , trong caùc thanh ghi raát quan troïng ñeå thöïc<br />
ñaây laø giaûi phaùp toát nhaát naâng cao naêng hieän caùc pheùp toaùn, noù giuùp laøm nhanh hôn<br />
suaát boä nhôù. Keát quaû söû duïng boä nhôù ñaõ vieäc truy caäp vaøo boä nhôù 32 bit taïi moät thôøi<br />
giaûm vaø thôøi gian khôûi ñoäng nhanh hôn. ñieåm, vì vaäy traùnh truy caäp tröïc tieáp vaøo<br />
B. Toái öu hoùa caáp thaáp thanh ghi khi coù theå. Nhìn chung, moät trình<br />
bieân dòch toái öu hoùa toát coù theå taïo ra hieäu<br />
+ Söû duïng daáu phaåy tónh: Boä vi xöû<br />
quaû söû duïng taäp tin ñaêng kyù.<br />
lyù Strong ARM khoâng hoã trôï caùc toaùn töû<br />
cho kieåu daáu phaåy ñoäng. Vì theá söï tính toaùn Trong PocketSphinx, danh saùch<br />
treân daáu phaåy ñoäng seõ ñöôïc moâ phoûng senones ñöôïc caøi ñaët trong maûng byte. Tuy<br />
trong phaàn meàm baèng caùch söû duïng caùc nhieân, khi maûng byte lôùn ñöôïc taûi leân boä<br />
pheùp toaùn ñöôïc cung caáp bôûi trình bieân dòch ñeäm cuûa boä xöû lyù, vaø vieäc truy caäp löôïng lôùn<br />
hay cuûa caùc thö vieän runtime. Noù seõ giaû laäp byte seõ laøm chaäm toác ñoä cuûa CPU. Vì theá,<br />
caùc chöùc naêng cuûa moät boä xöû lyù daáu chaám chuùng ñöôïc thay ñoåi sang moät veùc tô bit,<br />
ñoäng, nhöng nhö vaäy seõ laøm cho vieäc tính duøng voøng laëp ñeå queùt vector bit naøy, vaø<br />
toaùn treân caùc con soá lôùn raát chaäm, nhö vieäc thao taùc 32-bit word cuøng moät thôøi ñieåm.<br />
laáy ra ñaëc tính cuù aâm vaø tính toaùn Gaussian.<br />
Vì vaäy ta coù theå bieåu dieãn moät soá thaäp phaân TOÁI ÖU HOÙA THUAÄT TOAÙN<br />
thaønh phaân soá vaø maãu soá thöôøng duøng laø Chuùng toâi thaáy raèng soá löôïng lôùn caùc<br />
moät soá chia heát cho hai (cho hieäu quaû toát tính toaùn ñöôïc duøng trong boán khu vöïc: tính<br />
nhaát).<br />
Khoa hoïc - kó thuaäät 13<br />
<br />
<br />
<br />
toaùn ñaët tính cuù aâm (MFCC), tính toaùn moät vaøi söï khaùc bieät caàn löu yù:<br />
Gaussian (codebook), tính toaùn moâ hình Trong vieäc tính toaùn cuûa moâ hình cuù<br />
Gaussian hoãn hôïp, vaø ñaùnh giaù HMM (tìm aâm baùn lieân tuïc, moät "codebook"<br />
kieám Viterbi). Khoaûng tyû leä caùc thôøi gian cuûa maät ñoä Gaussian ñöôïc chia seû<br />
ñöôïc duøng trong boán lónh vöïc ñöôïc hieån thò giöõa taát caû caùc moâ hình hoãn hôïp.<br />
trong Baûng 1. Soá löôïng Gaussians hoãn hôïp thöôøng<br />
Trong vieäc toái öu hoùa thuaät toaùn, tính laø 128 ñeán 2048, lôùn hôn nhieàu so<br />
toaùn moâ hình hoãn hôïp Gaussian (GMM) vôùi 16-32 ñöôïc söû duïng cho<br />
ñöôïc chuù yù nhieàu nhaát, töø coâng vieäc tröôùc ñoù CDHMM.<br />
[A. Chan et al. 2004] chuùng ta ñaõ coù Heä thoáng SCHMM cô sôû thöôøng laø<br />
framework raát toát cho tính toaùn gaàn ñuùng mieâu taû cho caùc vector ñaëc tính vôùi<br />
GMM. Trong framework naøy, GMM öôùc nhieàu luoàng ñoäc laäp.<br />
löôïng ñöôïc chia laøm 4 taàng tính toaùn: Vieäc aùp duïng moâ hình boán taàng, vôùi<br />
Baûng 1. Tyû leä phaàn traêm thôøi gian moãi taàng coù caáu truùc khaùc nhau. Nhöng<br />
tính toaùn trong khi ñoù codebook ñöôïc chia seû giöõa taát<br />
caû caùc taàng, toaøn boä codebook phaûi ñöôïc<br />
Thaønh Desktop Nhuùng tính ôû moãi taàng. Giôùi haïn naøy cho pheùp caùc<br />
phaàn pheùp tính ôû taàng GMM coù theå giaûm bôùt söï<br />
Codebook 27.43% 24.59% tính toaùn. Chuùng ta aùp duïng kyõ thuaät sau<br />
HMM 24.68% 22.11% ñaây cho moãi taàng:<br />
MFCC 14.39% 11.51% Taàng khung: Chuùng ta aùp duïng<br />
Senone 7.67% 11.71% chuaån hoùa khung (downsampling)<br />
[M. Woszczyna 1998]. Maëc duø caùc<br />
Taàng khung: tính taát caû GMM cho keát quaû naøy laøm maát tính chính xaùc,<br />
khung döõ lieäu ñaàu vaøo. nhöng noù laø caùch duy nhaát ñeå naâng<br />
Taàng GMM: tính toaùn moät GMM toác ñoä treân taàng Gaussian.<br />
ñôn. Taàng GMM: AÙp duïng GMM cô sôû<br />
Taàng Gaussian: tính toaùn moät ñoäc laäp ngöõ caûnh [A. Lee, T.<br />
Gaussian ñôn. Kawahara, and K. Shikano 2001,<br />
Taàng thaønh phaàn: tính toaùn caùc vol. 1, pp. 69–72], [A. Chan, M.<br />
thaønh phaàn lieân quan ñeán vector ñaëc Ravishankar, and A. Rudnicky<br />
tính. 2005].<br />
Löôïc ñoà naøy cho pheùp phaân loaïi Taàng Gaussian: Chuùng toâi xem xeùt<br />
chính xaùc caùc kyõ thuaät naâng toác ñoä khaùc nhieàu khaû naêng nhö: Sub-VQ-based<br />
nhau bôûi caùc taàng maø chuùng hoaït ñoäng treân Gaussian Selection [M.<br />
ñoù, vaø cho pheùp chuùng ta xaùc ñònh caùc kyõ Ravishankar, R. Bisiani, and E.<br />
thuaät khaùc nhau ñöôïc aùp duïng keát hôïp vôùi Thayer 1997, pp. 151–154] nhöng<br />
nhau nhö theá naøo. Tuy nhieân, framework taát caû chuùng ñeàu khoâng caûi thieän<br />
naøy ñöôïc aùp duïng chuû yeáu cho heä thoáng söû ñöôïc toác ñoä nhieàu. Vì theá, chuùng toâi<br />
duïng HMM phaân boá lieân tuïc (CDHMM). quyeát ñònh söû duïng phöông phaùp caây<br />
Trong vieäc aùp duïng caùc yù töôûng cuûa noù cho cô sôû Gaussian Selection.<br />
moâ hình HMM baùn lieân tuïc (SCHMM), coù Taàng thaønh phaàn: PocketSphinx coù<br />
14 Khoa hoïc - kó thuaäät<br />
<br />
<br />
<br />
<br />
saün thaønh phaàn tính Gaussian [xem<br />
B. Pellom, R. Sarikaya, and J. H. L. DÖÕ LIEÄU VAØ HUAÁN<br />
Hansen vol. 8, no. 8, pp. 221–224, LUYEÄN TIEÁNG VIEÄT<br />
July 2001]. Sau ñoù söû duïng thoâng tin<br />
töø caây cô sôû ñeå caûi thieän hieäu quaû A. Lexicon<br />
tính toaùn cuûa thaønh phaàn naøy. Lexicon laø bộ từ điển dùng để thể<br />
Trong taàng khung, chuùng toâi böôùc hiện các từ thành các đơn vị phát âm (phonemes).<br />
ñaàu aùp duïng chuaån hoùa khung Nó là một thành phần quan trọng trong hệ<br />
(downsampling) moät caùch ñôn giaûn, thống nhận dạng tiếng nói. Chúng tôi đã xây<br />
bôûi chæ caàn boû qua taát caû caùc dựng được lexicon tiếng Việt theo phieân aâm<br />
codebook vaø söï tính toaùn GMM ôû chuẩn quốc tế. Lexicon tiếng Việt hơn 12<br />
moïi khung khaùc. Tuy nhieân, chuùng nghìn từ sử dụng 41 phonemes cho cả hai<br />
ta chænh söûa ñieàu naøy sau ñeå tính laïi miền Nam vaø Bắc.<br />
ñænh N Gaussians töø khung tröôùc vaø<br />
söû duïng caùi ñoù ñeå tính caùc senones<br />
B. Dữ Liệu<br />
töø khung hieän taïi. Keát quaû: thöïc hieän Döõ lieäu hoïc laø moät phaàn khoâng theå<br />
nhanh hôn khoaûng nhoû (0.6%) vaø thieáu trong nhaän daïng tieáng noùi. Döõ lieäu<br />
keát quaû ñaït ñöôïc tæ leä loãi töø giaûm hoïc quyeát ñònh tröïc tieáp ñeán keát quaû nhaän<br />
khoaûng 10% daïng. Döõ lieäu hoïc goàm hai phaàn laø döõ lieäu<br />
Trong taàng Gaussian, chuùng toâi aùp vaên baûn vaø döõ lieäu aâm thanh. Döõ lieäu aâm<br />
duïng phieân baûn chænh söûa cuûa thuaät toaùn thaønh laø nhöõng taäp tin aâm thanh thu aâm<br />
BBI, nhö ñöôïc moâ taû trong [B. Pellom, R. nhöõng caâu trong döõ lieäu vaên baûn.<br />
Sarikaya, and J. H. L. Hansen vol. 8, no. 8, C. Dữ liệu văn bản<br />
pp. 221–224, July 2001]. Thuaät toaùn naøy<br />
Tuøy vaøo muïc ñích cuûa vieäc nghieân<br />
ñöa boä Gaussians vaøo trong caáu truùc caây kd<br />
cöùu vaø chöông trình öùng duïng nhaän daïng<br />
ñieàu naøy cho pheùp boä con Gaussian tìm<br />
tieáng noùi khaùc nhau thì coù boä döõ lieäu vaên<br />
kieám nhanh trong khoâng gian ñaëc tính ñeå<br />
baûn khaùc nhau. Thöôøng thì boä döõ lieäu vaên<br />
ñöa ra vector ñaëc tính. Ñoái vôùi moãi doøng<br />
baûn ñöôïc choïn theo chuû ñeà cuûa öùng duïng.<br />
ñaëc tính cuù aâm trong codebook, chuùng toâi<br />
xaây döïng moät caây coù ñoä saâu rieâng bieät D. Döõ lieäu aâm thanh<br />
(thöôøng ñoä saâu 8 hoaëc 10) vôùi hoäp ngöôõng Döõ lieäu aâm thanh phuï thuoäc vaøo boä<br />
Gaussian ñaõ ñònh saün. döõ lieäu vaên baûn. Noù bao goàm taát caû caùc taäp<br />
Maëc duø caùc loaïi caây ñöôïc xaây döïng tin aâm thanh thu aâm caùc caâu trong boä döõ<br />
ngoaïi tuyeán, chieàu saâu cuûa tìm kieám trong lieäu vaên baûn. Boä döõ lieäu vaên baûn cho nhaän<br />
caây coù theå ñöôïc ñieàu khieån nhö moät tham daïng soá goàm 200 caâu thì boä döõ lieäu aâm<br />
soá ñeå giaûi maõ taïi thôøi gian chaïy. Caùi naøy thanh laø 200 taäp tin aâm thanh. Chuùng toâi<br />
cho pheùp caùc yeâu caàu boä nhôù cho caây ghi aâm döõ lieäu thaønh taäp tin coù ñuoâi laø .raw.<br />
khoâng nhieàu laém. Chuùng toâi cuõng khaùm phaù Taäp tin aâm thanh .raw coù ñoä neùn cao, dung<br />
yù töôûng haïn cheá soá löôïng toái ña Gaussians löôïng nhoû thích hôïp cho vieäc ghi aâm döõ lieäu<br />
ñeå tìm kieám trong moãi nuùt laù. Ñeå thöïc hieän lôùn.<br />
khaû thi, chuùng toâi ñaõ saép xeáp danh saùch caùc Moät taäp tin aâm thanh chuaån laø moät<br />
Gaussians trong caùc nuùt laù. taäp tin khoâng coù tieáng oàn vaø nhieãu, caùc töø<br />
Khoa hoïc - kó thuaäät 15<br />
<br />
<br />
<br />
phaûi ñöôïc ñoïc roõ raøng. microphone.<br />
Boä döõ lieäu aâm thanh phaûi ñöôïc thu<br />
aâm roõ raøng, döùt khoaùt töøng töø. Ngöôøi thu aâm HUAÁN LUYEÄN TIEÁNG VIEÄT<br />
döõ lieäu hoïc cuõng ñoùng vai troø raát quan troïng. Boä coâng cuï huaán luyeän ñöôïc chuùng<br />
Ngöôøi thu aâm naèm trong ñoä tuoåi töø 18 ñeán toâi söû duïng laø SphinxTrain: ñaây laø coâng cuï<br />
<br />
<br />
<br />
<br />
Hình 1. Ứng dụng nhận dạng tiếng nói Việt Nam trên điện thoại di động đang nhận dạng câu<br />
“THẾ CHA ĐỊNH DỌN ĐI ĐÂU”.<br />
<br />
<br />
51 chia ñeàu theo ñoä tuoåi, caân baèng caû gioïng huaán luyeän tieáng Anh phaùt trieån bôûi tröôøng<br />
nam vaø gioïng nöõ. Soá löôïng ngöôøi thu aâm lôùn, ñaïi hoïc Carnegie Mellon. Nay vôùi ñaàu vaøo<br />
traûi ñeàu theo löùa tuoåi, caân baèng soá nam vaø<br />
nöõ laøm cho heä thoáng trôû leân phong phuù hôn, cuûa chuùng toâi laø döõ lieäu tieáng Vieät. Vôùi caáu<br />
linh hoaït hôn vaø khaû naêng thích öùng cao. Ví truùc ñònh saün, quaù trình huaán luyeän thöïc<br />
duï nhö huaán luyeän 1000 ngöôøi ñoïc, khi hieän seõ taïo ra caùc file moâ hình HMM cuûa<br />
ngöôøi thöù 1001 ñoïc thì heä thoáng deã daøng tieáng Vieät, caùc taäp tin HMM naøy ñaõ ñöôïc<br />
thích nghi vôùi gioïng cuûa ngöôøi naøy vaø cho ñöa vaøo PocketSphinx .<br />
keát quaû nhaän daïng chính xaùc.<br />
<br />
E. Tieáng oàn vaø nhieãu trong döõ lieäu<br />
KEÁT LUAÄN VAØ COÂNG VIEÄC<br />
SAÉP TÔÙI<br />
aâm thanh<br />
Trong töông lai, chuùng toâi seõ aùp<br />
Tieáng oàn, nhieãu aûnh höôûng raát lôùn<br />
duïng heä thoáng naøy cho moät coâng vieäc vôùi<br />
ñeán quaù trình hoïc döõ lieäu vaø nhaän daïng.<br />
moâ hình ngoân ngöõ cao hôn vaø voán töø vöïng<br />
Tieáng oàn, nhieãu laø do nhieàu nguyeân nhaân<br />
lôùn hôn. Moät öùng cöû vieân cho söï toái öu hoùa<br />
nhö tieáng oàn xe coä, coâng tröôøng, ngöôøi noùi<br />
trong töông lai laø thuaät toaùn tìm kieám<br />
chuyeän..., vaø nhieãu chuû yeáu laø do<br />
Viterbi, caùi maø chuùng toâi ñaõ khoâng thaûo<br />
16 Khoa hoïc - kó thuaäät<br />
<br />
<br />
<br />
<br />
luaän saâu vaøo trong phaàn naøy. Chuùng toâi continuous speech recognition systems. In<br />
cuõng ñaõ trieån khai POCKETSPHINX ñeå Proceedings of ICSLP.<br />
nhaän daïng tieáng noùi Vieät Nam treân heä maùy [5]. Chan, A., Ravishankar, M. and<br />
phoå bieán Pocket PC, heä ñieàu haønh Rudnicky, A. 2005. On improvements of CI-<br />
based GMM selection. In Proceedings of<br />
Windows®CE vaø heä ñieàu haønh Linux. Interspeech.<br />
[6]. Lee, A., Kawahara, T. and Shikano,<br />
CAÙC KEÁT QUAÛ ÑAÏT ÑÖÔÏC K. 2001. Gaussian mixture selection using<br />
context-independent HMM. In Proceedings<br />
- Xaây döïng xong boä töø ñieån lexicon of ICASSP, vol. 1, pp. 69–72.<br />
tieáng Vieät hôn 12 nghìn töø. [7]. Waibel, A., Badran, A., Black, A. W.,<br />
- Xaây döïng xong moâ hình ngoân ngöõ Frederking, R., Gates, D., Lavie, A., Levin,<br />
cho tieáng Vieät vôùi döõ lieäu hôn 20.000 töø. L., Lenzo, K., Tomokiyo, L. M., Reichert, J.,<br />
Schultz, T., Wallace, D., Woszczyna M. and<br />
- Ñaõ huaán luyeän ñöôïc moâ hình cuù Zhang J. 2003. Speechalator: Two-way<br />
aâm cho tieáng Vieät. speech-to-speech translation in your hand.<br />
- Ñaõ nhuùng ñöôïc tieáng Vieät cho In Proceedings of NAACL-HLT.<br />
PocketSphinx. [8]. Acero, A. and Stern, R. M. 1990.<br />
- Ñoä chính xaùc nhaän daïng Environmental Robustness in Automatic<br />
Speech Recognition. Proc. of ICASSP, pp.<br />
PocketSphinx vôùi kích thöôùc 7660 töø tieáng<br />
849-852.<br />
Vieät, ñaït ñoä chính xaùc laø 98,13% tæ leä loãi töø<br />
[9]. Aubert, X. and Dugast, C. 1995.<br />
1,87% döïa treân 150 caâu kieåm tra töø vöïng lôùn Improved Acoustic-Phonetic Modelling in<br />
Philip’s Dictation System by Handling<br />
TAØI LIEÄU THAM KHAÛO Liaisons and Multiple Pronunciations. Proc.<br />
of EuroSpeech’95, vol. 2, pp. 767-770.<br />
[1]. Waibel, A. Badran, A. W Black, R. [10]. Pellom, B., Sarikaya, R. and Hansen,<br />
Frederking, D. Gates, A. Lavie, L. Levin, K. J. H. L. 2001. Fast likelihood computation<br />
Lenzo, L. Mayfield Tomokiyo, J. Reichert, T. techniques in nearest-neighbor based search<br />
Schultz, D. Wallace, M. Woszczyna, and J. for continuous speech recognition. IEEE<br />
Zhang. 2003. Speechalator: Two-way Signal Processing Letters, vol. 8, no. 8, pp.<br />
speech-to-speech translation in your hand. 221–224.<br />
In Proceedings of NAACL-HLT.<br />
[11]. Bahl, L. R. and Bakis, R. 1989. Large<br />
[2]. Kohler, T. W., Fugen, C., Stuker, S. Vocabulary Natural Language Continuous<br />
and Waibel, A. 2005. Rapid porting of ASR- Speech Recognition. Proc of ICASSP’89,<br />
systems to mobile devices. In Proceedings of pp.465-467.<br />
Interspeech.<br />
[12]. Bahl, L. R., Brown, P. F., de Souza,<br />
[3]. Franco, H., Zheng, J., Butzberger, P. V. and Mercer, R. L. 1986. Maximum<br />
J., Cesari, F., Frandsen, M., Arnold, J., Mutual Information Estimation of Hidden<br />
Gadde, V. R. R., Stolcke, A. and Abrash V. Markov Model Parameters for Speech<br />
2002. Dynaspeak: SRI’s scalable speech Recognition. Proc. of ICASSP’86, pp.49-52.<br />
recognizer for embedded and mobile<br />
[13]. Bahl, L. R., de Souza, P. C.,<br />
systems. In Proceedsings of HLT.<br />
Gopalakrishnan, P. S., Nahamoo, D.,<br />
[4]. Chan, A., Sherwani, J., Ravishankar, Picheny, M.A. and Watson, T. J. 1994.<br />
M. and Rudnicky, A. 2004. Four-layer Robust Methods for Using Context-<br />
categorization scheme of fast GMM Dependent Features and Models in a<br />
computation techniques in large vocabulary<br />
Khoa hoïc - kó thuaäät 17<br />
<br />
<br />
<br />
Continuous Speech Recognizer. Proc. of<br />
ICASSP’94, pp.I533-I536.<br />
[14]. Bahl, L. R., Jelinek, F. 1975.<br />
Decoding for Channels with Insertions,<br />
Deletions and Substiutions, with<br />
Applications to Speech Recognition. IEEE<br />
Trans. Information Theory, IT-21, pp. 404-<br />
411.<br />
[15]. Kawahara, L. T. and Shikano K.<br />
2001. Gaussian mixture selection using<br />
context-independent HMM. In Proceedings<br />
of ICASSP, vol. 1, pp. 69–72.<br />
[16]. Gold, B. and Morgan, N. 2000.<br />
Speech and Audio Signal Processing. John<br />
Wiley & Sons, INC, New York.<br />
[17]. Bourland, H. 1995. Towards<br />
Increasing Speech Recognition Error Rates.<br />
Proc. of EuroSpeech’95, vol. 2, pp. 883-894.<br />
[18]. Lee, K-F., Hon, H-W. and Reedy, R.<br />
1990. An Overview of the SPHINX Speech<br />
Recognition System. IEEE Trans. on<br />
Acoustic, Speech, Signal Processing, vol. 38,<br />
pp.35-45.<br />
<br />
[19]. Levinson, S. E. 1986. Continuously<br />
Variable Duration Hidden Markov Models<br />
for Automatic Speech Recognition. Computer<br />
Speech and Language, 1(1), pp. 29-45.<br />
[20]. Trask, R. L. 1996. A Dictionary of<br />
Phonetics and Phonology. Routledge.<br />
[21]. Young, S. J., Oh, Y. H. and Shin, G.<br />
C. 1997. Improved Lexicon Modeling for<br />
Continuous Speech Recognition. Proc. of<br />
ICASSP’97, pp.1827-1830.<br />