intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề xuất nhận dạng tiếng Việt Nam cho điện thoại di động

Chia sẻ: Lê Na | Ngày: | Loại File: PDF | Số trang:8

96
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đã 20 năm qua, nhận dạng tiếng nói vẫn là một nỗ lực lớn để tạo ra trí tuệ cho máy tính, nỗ lực không ngừng này đã mang lại ứng dụng trong quản lý điện thoại. Khởi đầu với nhận dạng đọc các chữ số từ 0 đến 9 trong ứng dụng này, sau đó là các bài toán nhận dạng các từ cô lập. Chúng ta bắt đầu bước vào lĩnh vực nhận dạng tiếng nói với từ vựng lớn, khi đó các yêu cầu về yếu tố bền vững của nhận dạng tiếng nói trở lên cần thiết, nghĩa là: Hệ thống không dễ đổ vỡ khi gặp bất kì một lỗi nhận dạng, một lỗi phần mềm; khi gặp một tình huống nhận dạng ngoài ý muốn, hệ thống dễ dàng khôi phục để tiếp tục tiến trình nhận dạng liên tục.

Chủ đề:
Lưu

Nội dung Text: Đề xuất nhận dạng tiếng Việt Nam cho điện thoại di động

10 Khoa hoïc - kó thuaäät<br /> <br /> <br /> <br /> ÑEÀ XUAÁT NHAÄN DAÏNG TIEÁNG VIEÄT NAM CHO<br /> ÑIEÄN THOAÏI DI ÑOÄNG<br /> (Nguyeãn Vaên Khieâm, Leâ Quaân Haø, Hoaøng Tieán Long,<br /> Nguyeãn Höõu Tình, Nguyeãn Ngoïc Thaém, Ñoã Hoàng Thy)*<br /> <br /> <br /> <br /> <br />  TOÙM TAÉT<br /> Ñaõ 20 naêm qua, nhaän daïng tieáng noùi<br /> vaãn laø moät noã löïc lôùn ñeå taïo ra trí tueä cho<br /> maùy tính, noã löïc khoâng ngöøng naøy ñaõ mang vöïng lôùn treân caùc thieát bò caàm tay. Chuùng toâi<br /> laïi öùng duïng trong quaûn lyù ñieän thoaïi. Khôûi ñaõ nhuùng ñöôïc tieáng Vieät töø vöïng lôùn laø<br /> ñaàu vôùi nhaän daïng ñoïc caùc chöõ soá töø 0 ñeán 9 7660 töø tieáng Vieät, ñaït ñoä chính xaùc laø<br /> trong öùng duïng naøy (digit recognition), sau 98,13% tæ leä loãi töø 1,87%.<br /> ñoù laø caùc baøi toaùn nhaän daïng caùc töø coâ laäp<br /> (isolated word recognition). Töø sau thaäp PROPOSAL FOR<br /> nieân 90, chuùng ta baét ñaàu böôùc vaøo lónh vöïc IETNAMESE RECOGNITION FOR<br /> nhaän daïng tieáng noùi vôùi töø vöïng lôùn, khi ñoù MOBILE PHONE<br /> caùc yeâu caàu veà yeáu toá beàn vöõng cuûa nhaän<br /> daïng tieáng noùi trôû neân caàn thieát, nghóa laø:  ABSTRACT<br /> heä thoáng khoâng deã ñoå vôõ khi gaëp baát kyø moät Over the past 20 years, speech<br /> loãi nhaän daïng, moät loãi phaàn meàm; khi gaëp recognition has been still a major effort to<br /> moät tình huoáng nhaän daïng ngoaøi yù muoán, heä create intelligence for the computer. The<br /> thoáng deã daøng khoâi phuïc ñeå tieáp tuïc tieán ceaseless effort has brought the application<br /> trình nhaän daïng lieân tuïc.* in the phone management. We started with<br /> Söï xuaát hieän cuûa vieäc nhaän daïng recognition of reading numbers from 0 to 9<br /> tieáng noùi treân ñieän thoaïi di ñoäng vaø caùc thieát in this application (digit recognition), then<br /> bò nhuùng ñaõ môû ra loaïi hình nghieân cöùu môùi the problems of isolated word recognition.<br /> veà caùc öùng duïng töông taùc giöõa con ngöôøi vaø Since the 1990s onwards, we have started to<br /> maùy tính. Nhöng haàu heát caùc hoaït ñoäng enter a field of speech recognition with<br /> trong lónh vöïc naøy ñeán nay ñaõ bò giôùi haïn do large vocabulary. Thus, requests for the<br /> caùc vaán ñeà veà ñoäc quyeàn phaàn meàm, hoaëc sustainability element of the speech<br /> chæ nhaän daïng nhöõng caâu coù caáu truùc ngöõ recognition becomes necessary, that is, the<br /> phaùp ñôn giaûn vaø bò haïn cheá. Trong phaàn system is not easily broken to meet any<br /> nghieân cöùu naøy, chuùng toâi seõ trình baøy sô recognized errors or a software errors.<br /> löôïc veà Pocket Sphinx, moät heä thoáng maõ When a situation of unintended recognition<br /> nguoàn môû veà nhaän daïng tieáng noùi lieân tuïc töø is encountered, the system shall easily<br /> restore to continue the ongoing process of<br /> recognition.<br /> *<br /> Khoa Công Nghệ Thông Tin, trường Đại Học Công Nghiệp<br /> Tp.HCM<br /> Khoa hoïc - kó thuaäät 11<br /> <br /> <br /> <br /> khoâng coù maõ nguoàn keøm theo. Ñoàng thôøi,<br /> caùc heä ñieàu haønh treân thieát bò nhuùng thöôøng<br />  GIÔÙI THIEÄU bò thieáu caùc tính naêng cho caùc nhaø phaùt<br /> Caùc öùng duïng veà tieáng noùi treân thieát trieån khoâng gioáng nhö treân caùc heä thoáng<br /> bò nhuùng, ñieän thoaïi di ñoäng thöôøng ñoøi hoûi maùy tính ñeå baøn.<br /> phaûi lieân tuïc vaø nhaän daïng ôû thôøi gian thöïc.<br /> Raát nhieàu öùng duïng veà gioïng noùi hieän taïi,  HEÄ THOÁNG OCKETSPHINX<br /> chaúng haïn nhö ñieàu khieån chuyeån höôùng Boä nhaän daïng SPHINX laø neàn taûng<br /> cuûa heä thoáng ñònh vò toaøn caàu, choïn nhaïc raát toát cho söï phaùt trieån nhaän daïng gioïng<br /> cho maùy haùt nhaïc, hoaëc caùc öùng duïng veà noùi, vaø chuùng ñang ñöôïc söû duïng bôûi caùc<br /> ngoân ngöõ töï nhieân nhö thieát bò chuyeån ñoåi nhaø nghieân cöùu trong caùc lónh vöïc ví duï<br /> ngoân ngöõ töø gioïng noùi (speech-to-speech nhö: heä thoáng ñoái thoaïi vaø heä thoáng maùy<br /> translation) [tham khaûo theâm A.Waibel, A. tính hoã trôï hoïc taäp… Trong soá caùc boä nhaän<br /> Badran, A. W Black, R. Frederking, D. daïng CMU SPHINX, PocketSphinx laø coâng<br /> Gates, A. Lavie, L. Levin, K. Lenzo, L. cuï ñaõ ñöôïc toái öu cho nhaän daïng tieáng noùi<br /> Mayfield Tomokiyo, J.Reichert, T. Schultz, treân thieát bò nhuùng vaø ñieän thoaïi di ñoäng.<br /> D. Wallace, M. Woszczyna, vaø J. Zhang<br /> 2003],... ñeàu ñoøi hoûi phaûi nhanh, chính xaùc<br /> vaø linh ñoäng.<br />  TOÁI ÖU HOÙA<br /> Vieäc trieån khai vaø caøi ñaët caùc öùng Do phaàn cöùng cuûa thieát bò nhuùng vaø<br /> duïng treân caùc thieát bò nhuùng gaëp raát nhieåu ñieän thoaïi di ñoäng so vôùi maùy PC coù nhieàu<br /> khoù khaên, trong ñoù khoù khaên lôùn nhaát laø khaùc bieät cho neân coù caùc löu yù sau:<br /> yeâu caàu nhaän daïng gioïng noùi lieân tuïc cho  Toác ñoä truy caäp boä nhôù chaäm<br /> moät ngöõ caûnh töø vöïng töø vöøa ñeán lôùn. Ngoaøi  Toå chöùc döõ lieäu sao cho töông thích<br /> ra coøn coù caùc trôû ngaïi veà phaàn cöùng: CPU vôùi phaàn cöùng CPU<br /> cuûa thieát bò nhuùng khoâng hoã trôï kieåu daáu  Caàn thay ñoåi caùc ñoaïn maõ khoâng<br /> phaåy ñoäng, boä nhôù RAM thieáu, khaû naêng phuø hôïp heä thoáng.<br /> löu tröõ vaø baêng thoâng treân thieát bò nhuùng Vì vaäy caàn phaûi thöïc hieän moät soá toái<br /> cuõng raát haïn cheá. Vì nhöõng lyù do naøy, maø öu sau.<br /> caùc coâng vieäc veà nhaän daïng tieáng noùi tröôùc<br /> ñaây [xem H. Franco, J. Zheng, J. A. Toái öu hoùa boä nhôù<br /> Butzberger, F. Cesari, M. Frandsen, J. + AÙnh xaï taäp tin I/O vaøo boä nhôù:<br /> Arnold, V. R. R. Gadde, A. Stolcke, vaø V. Ñoái vôùi caùc thieát bò nhuùng coù boä nhôù RAM<br /> Abrash 2002], [T. W. K¨ohler, C. F¨ugen, S. raát ít, döõ lieäu cuûa moâ hình cuù aâm neân ñaët ôû<br /> St¨uker, vaø A. Waibel 2005] chæ giôùi haïn cheá ñoä read-only ñeå noù coù theå ñöôïc ñoïc tröïc<br /> vaøo nhaän daïng nhöõng caâu coù caáu truùc ngöõ tieáp töø ROM. Treân heä ñieàu haønh cuûa caùc<br /> phaùp ñôn giaûn. thieát bò nhuùng, boä nhôù ROM ñuôïc caáu truùc<br /> Ngoaøi nhöõng haïn cheá veà phaàn cöùng, nhö moät taäp tin heä thoáng, vaø nhö vaäy noù coù<br /> chuùng ta coøn phaûi ñoái maët vôùi trôû ngaïi trong theå ñöôïc truy caäp tröïc tieáp baèng caùch söû<br /> vieäc xaây döïng heä thoáng nhaän daïng. Ñeå xaây duïng chöùc naêng aùnh xaï taäp tin vaøo boä nhôù,<br /> döïng heä thoáng naøy ñoøi hoûi phaûi söû duïng caùc chaúng haïn nhö mmap() treân UNIX hoaëc<br /> boä coâng cuï, nhöng nhöõng boä coâng cuï naøy MapViewOfFile() treân Windows.<br /> thöôøng coù baûn quyeàn vôùi giaù raát ñaét vaø<br /> 12 Khoa hoïc - kó thuaäät<br /> <br /> <br /> <br /> <br /> + Byte ordering: PocketSphinx caàn Vieäc söû duïng daáu phaåy tónh chaéc<br /> coù ñònh daïng cuûa döõ lieäu khaùc vôùi döõ lieäu chaén lieân quan ñeán moät soá loãi laøm troøn, noù<br /> cuûa SPHINX ñeå cho pheùp chuùng ñöôïc aùnh xaûy ra sau moãi laàn thöïc hieän pheùp tính. Vieäc<br /> xaï vaøo boä nhôù. Vì vaäy caàn söûa ñoåi boä huaán choïn thuaät toaùn khoâng nhöõng phaûi ñaûm baûo<br /> luyeän HMM, SPHINXTRAIN, ñeå ñaàu ra laøm giaûm soá löôïng tính toaùn, taêng toác ñoä,<br /> caùc taäp tin phuø hôïp vôùi heä thoáng, vì vaäy cho ñoàng thôøi phaûi duy trì ñoä chính xaùc. Ví duï,<br /> pheùp aùnh taäp tin naøy vaøo boä nhôù theo ñuùng duøng FFT ñeå taùch soá moät soá thöïc thaønh phaàn<br /> traät töï byte. nguyeân vaø phaàn thaäp phaân [H. V. Sorensen,<br /> + Ñònh tuyeán döõ lieäu: Caùc CPU D. L. Jones, M. T. Heideman, and C. S.<br /> ngaøy nay ñeàu coù hoã trôï ñònh tuyeán döõ lieäu. Burrus vol. 35, no. 6, pp. 849–863, 1987].<br /> Ví duï, moät tröôøng döõ lieäu 32-bit thì ñöôïc Tuy nhieân, khi söû duïng FFT treân daáy phaåy<br /> yeâu caàu gaùn cho caùc ñòa chæ coù giaù trò 4- tónh ñaõ laøm taêng ñaùng keå tyû leä loãi töø, trong<br /> byte. Bôûi vì caùc tröôøng döõ lieäu trong caùc moät soá tröôøng hôïp leân ñeán 20%.<br /> file moâ hình coù ñoä daøi khaùc nhau, neân + Toái öu hoùa döõ lieäu vaø caáu truùc<br /> chuùng ta caàn phaûi theâm döõ lieäu vaøo cuoái ñieàu khieån: Kieán truùc ARM ñaõ ñöôïc toái öu<br /> noù. Keát quaû laø trong khi phieân baûn hieän taïi hoaù raát nhieàu cho vieäc tính toaùn treân kieåu<br /> coù theå ñoïc ñöôïc caùc file moâ hình töø caùc döõ lieäu soá nguyeân vaø Boolean. Haàu heát caùc<br /> phieân baûn tröôùc, thì caùc file ñöôïc taïo ra töø döõ lieäu ñöôïc cung caáp bao goàm moät tröôøng<br /> noù khoâng theå töông thích ngöôïc. "shift count", cho pheùp dòch chuyeån bit theo<br /> + AÙnh xaï Triphone-senone: Toác moät giaù trò maø khoâng laøm thay ñoåi giaù trò<br /> ñoä, nhoû goïn laø muïc tieâu cuûa PocketSphinx. ban ñaàu. ARM laø moät kieán truùc 32-bit vôùi<br /> Theo thöïc nghieäm moâ hình döõ lieäu cuûa 16 thanh ghi ña naêng. Vieäc giöõ döõ lieäu<br /> PocketSphinx neân löu ôû caáu truùc daïng caây , trong caùc thanh ghi raát quan troïng ñeå thöïc<br /> ñaây laø giaûi phaùp toát nhaát naâng cao naêng hieän caùc pheùp toaùn, noù giuùp laøm nhanh hôn<br /> suaát boä nhôù. Keát quaû söû duïng boä nhôù ñaõ vieäc truy caäp vaøo boä nhôù 32 bit taïi moät thôøi<br /> giaûm vaø thôøi gian khôûi ñoäng nhanh hôn. ñieåm, vì vaäy traùnh truy caäp tröïc tieáp vaøo<br /> B. Toái öu hoùa caáp thaáp thanh ghi khi coù theå. Nhìn chung, moät trình<br /> bieân dòch toái öu hoùa toát coù theå taïo ra hieäu<br /> + Söû duïng daáu phaåy tónh: Boä vi xöû<br /> quaû söû duïng taäp tin ñaêng kyù.<br /> lyù Strong ARM khoâng hoã trôï caùc toaùn töû<br /> cho kieåu daáu phaåy ñoäng. Vì theá söï tính toaùn Trong PocketSphinx, danh saùch<br /> treân daáu phaåy ñoäng seõ ñöôïc moâ phoûng senones ñöôïc caøi ñaët trong maûng byte. Tuy<br /> trong phaàn meàm baèng caùch söû duïng caùc nhieân, khi maûng byte lôùn ñöôïc taûi leân boä<br /> pheùp toaùn ñöôïc cung caáp bôûi trình bieân dòch ñeäm cuûa boä xöû lyù, vaø vieäc truy caäp löôïng lôùn<br /> hay cuûa caùc thö vieän runtime. Noù seõ giaû laäp byte seõ laøm chaäm toác ñoä cuûa CPU. Vì theá,<br /> caùc chöùc naêng cuûa moät boä xöû lyù daáu chaám chuùng ñöôïc thay ñoåi sang moät veùc tô bit,<br /> ñoäng, nhöng nhö vaäy seõ laøm cho vieäc tính duøng voøng laëp ñeå queùt vector bit naøy, vaø<br /> toaùn treân caùc con soá lôùn raát chaäm, nhö vieäc thao taùc 32-bit word cuøng moät thôøi ñieåm.<br /> laáy ra ñaëc tính cuù aâm vaø tính toaùn Gaussian.<br /> Vì vaäy ta coù theå bieåu dieãn moät soá thaäp phaân  TOÁI ÖU HOÙA THUAÄT TOAÙN<br /> thaønh phaân soá vaø maãu soá thöôøng duøng laø Chuùng toâi thaáy raèng soá löôïng lôùn caùc<br /> moät soá chia heát cho hai (cho hieäu quaû toát tính toaùn ñöôïc duøng trong boán khu vöïc: tính<br /> nhaát).<br /> Khoa hoïc - kó thuaäät 13<br /> <br /> <br /> <br /> toaùn ñaët tính cuù aâm (MFCC), tính toaùn moät vaøi söï khaùc bieät caàn löu yù:<br /> Gaussian (codebook), tính toaùn moâ hình  Trong vieäc tính toaùn cuûa moâ hình cuù<br /> Gaussian hoãn hôïp, vaø ñaùnh giaù HMM (tìm aâm baùn lieân tuïc, moät "codebook"<br /> kieám Viterbi). Khoaûng tyû leä caùc thôøi gian cuûa maät ñoä Gaussian ñöôïc chia seû<br /> ñöôïc duøng trong boán lónh vöïc ñöôïc hieån thò giöõa taát caû caùc moâ hình hoãn hôïp.<br /> trong Baûng 1.  Soá löôïng Gaussians hoãn hôïp thöôøng<br /> Trong vieäc toái öu hoùa thuaät toaùn, tính laø 128 ñeán 2048, lôùn hôn nhieàu so<br /> toaùn moâ hình hoãn hôïp Gaussian (GMM) vôùi 16-32 ñöôïc söû duïng cho<br /> ñöôïc chuù yù nhieàu nhaát, töø coâng vieäc tröôùc ñoù CDHMM.<br /> [A. Chan et al. 2004] chuùng ta ñaõ coù  Heä thoáng SCHMM cô sôû thöôøng laø<br /> framework raát toát cho tính toaùn gaàn ñuùng mieâu taû cho caùc vector ñaëc tính vôùi<br /> GMM. Trong framework naøy, GMM öôùc nhieàu luoàng ñoäc laäp.<br /> löôïng ñöôïc chia laøm 4 taàng tính toaùn: Vieäc aùp duïng moâ hình boán taàng, vôùi<br /> Baûng 1. Tyû leä phaàn traêm thôøi gian moãi taàng coù caáu truùc khaùc nhau. Nhöng<br /> tính toaùn trong khi ñoù codebook ñöôïc chia seû giöõa taát<br /> caû caùc taàng, toaøn boä codebook phaûi ñöôïc<br /> Thaønh Desktop Nhuùng tính ôû moãi taàng. Giôùi haïn naøy cho pheùp caùc<br /> phaàn pheùp tính ôû taàng GMM coù theå giaûm bôùt söï<br /> Codebook 27.43% 24.59% tính toaùn. Chuùng ta aùp duïng kyõ thuaät sau<br /> HMM 24.68% 22.11% ñaây cho moãi taàng:<br /> MFCC 14.39% 11.51%  Taàng khung: Chuùng ta aùp duïng<br /> Senone 7.67% 11.71% chuaån hoùa khung (downsampling)<br /> [M. Woszczyna 1998]. Maëc duø caùc<br />  Taàng khung: tính taát caû GMM cho keát quaû naøy laøm maát tính chính xaùc,<br /> khung döõ lieäu ñaàu vaøo. nhöng noù laø caùch duy nhaát ñeå naâng<br />  Taàng GMM: tính toaùn moät GMM toác ñoä treân taàng Gaussian.<br /> ñôn.  Taàng GMM: AÙp duïng GMM cô sôû<br />  Taàng Gaussian: tính toaùn moät ñoäc laäp ngöõ caûnh [A. Lee, T.<br /> Gaussian ñôn. Kawahara, and K. Shikano 2001,<br />  Taàng thaønh phaàn: tính toaùn caùc vol. 1, pp. 69–72], [A. Chan, M.<br /> thaønh phaàn lieân quan ñeán vector ñaëc Ravishankar, and A. Rudnicky<br /> tính. 2005].<br /> Löôïc ñoà naøy cho pheùp phaân loaïi  Taàng Gaussian: Chuùng toâi xem xeùt<br /> chính xaùc caùc kyõ thuaät naâng toác ñoä khaùc nhieàu khaû naêng nhö: Sub-VQ-based<br /> nhau bôûi caùc taàng maø chuùng hoaït ñoäng treân Gaussian Selection [M.<br /> ñoù, vaø cho pheùp chuùng ta xaùc ñònh caùc kyõ Ravishankar, R. Bisiani, and E.<br /> thuaät khaùc nhau ñöôïc aùp duïng keát hôïp vôùi Thayer 1997, pp. 151–154] nhöng<br /> nhau nhö theá naøo. Tuy nhieân, framework taát caû chuùng ñeàu khoâng caûi thieän<br /> naøy ñöôïc aùp duïng chuû yeáu cho heä thoáng söû ñöôïc toác ñoä nhieàu. Vì theá, chuùng toâi<br /> duïng HMM phaân boá lieân tuïc (CDHMM). quyeát ñònh söû duïng phöông phaùp caây<br /> Trong vieäc aùp duïng caùc yù töôûng cuûa noù cho cô sôû Gaussian Selection.<br /> moâ hình HMM baùn lieân tuïc (SCHMM), coù  Taàng thaønh phaàn: PocketSphinx coù<br /> 14 Khoa hoïc - kó thuaäät<br /> <br /> <br /> <br /> <br /> saün thaønh phaàn tính Gaussian [xem<br /> B. Pellom, R. Sarikaya, and J. H. L.  DÖÕ LIEÄU VAØ HUAÁN<br /> Hansen vol. 8, no. 8, pp. 221–224, LUYEÄN TIEÁNG VIEÄT<br /> July 2001]. Sau ñoù söû duïng thoâng tin<br /> töø caây cô sôû ñeå caûi thieän hieäu quaû A. Lexicon<br /> tính toaùn cuûa thaønh phaàn naøy. Lexicon laø bộ từ điển dùng để thể<br /> Trong taàng khung, chuùng toâi böôùc hiện các từ thành các đơn vị phát âm (phonemes).<br /> ñaàu aùp duïng chuaån hoùa khung Nó là một thành phần quan trọng trong hệ<br /> (downsampling) moät caùch ñôn giaûn, thống nhận dạng tiếng nói. Chúng tôi đã xây<br /> bôûi chæ caàn boû qua taát caû caùc dựng được lexicon tiếng Việt theo phieân aâm<br /> codebook vaø söï tính toaùn GMM ôû chuẩn quốc tế. Lexicon tiếng Việt hơn 12<br /> moïi khung khaùc. Tuy nhieân, chuùng nghìn từ sử dụng 41 phonemes cho cả hai<br /> ta chænh söûa ñieàu naøy sau ñeå tính laïi miền Nam vaø Bắc.<br /> ñænh N Gaussians töø khung tröôùc vaø<br /> söû duïng caùi ñoù ñeå tính caùc senones<br /> B. Dữ Liệu<br /> töø khung hieän taïi. Keát quaû: thöïc hieän Döõ lieäu hoïc laø moät phaàn khoâng theå<br /> nhanh hôn khoaûng nhoû (0.6%) vaø thieáu trong nhaän daïng tieáng noùi. Döõ lieäu<br /> keát quaû ñaït ñöôïc tæ leä loãi töø giaûm hoïc quyeát ñònh tröïc tieáp ñeán keát quaû nhaän<br /> khoaûng 10% daïng. Döõ lieäu hoïc goàm hai phaàn laø döõ lieäu<br /> Trong taàng Gaussian, chuùng toâi aùp vaên baûn vaø döõ lieäu aâm thanh. Döõ lieäu aâm<br /> duïng phieân baûn chænh söûa cuûa thuaät toaùn thaønh laø nhöõng taäp tin aâm thanh thu aâm<br /> BBI, nhö ñöôïc moâ taû trong [B. Pellom, R. nhöõng caâu trong döõ lieäu vaên baûn.<br /> Sarikaya, and J. H. L. Hansen vol. 8, no. 8, C. Dữ liệu văn bản<br /> pp. 221–224, July 2001]. Thuaät toaùn naøy<br /> Tuøy vaøo muïc ñích cuûa vieäc nghieân<br /> ñöa boä Gaussians vaøo trong caáu truùc caây kd<br /> cöùu vaø chöông trình öùng duïng nhaän daïng<br /> ñieàu naøy cho pheùp boä con Gaussian tìm<br /> tieáng noùi khaùc nhau thì coù boä döõ lieäu vaên<br /> kieám nhanh trong khoâng gian ñaëc tính ñeå<br /> baûn khaùc nhau. Thöôøng thì boä döõ lieäu vaên<br /> ñöa ra vector ñaëc tính. Ñoái vôùi moãi doøng<br /> baûn ñöôïc choïn theo chuû ñeà cuûa öùng duïng.<br /> ñaëc tính cuù aâm trong codebook, chuùng toâi<br /> xaây döïng moät caây coù ñoä saâu rieâng bieät D. Döõ lieäu aâm thanh<br /> (thöôøng ñoä saâu 8 hoaëc 10) vôùi hoäp ngöôõng Döõ lieäu aâm thanh phuï thuoäc vaøo boä<br /> Gaussian ñaõ ñònh saün. döõ lieäu vaên baûn. Noù bao goàm taát caû caùc taäp<br /> Maëc duø caùc loaïi caây ñöôïc xaây döïng tin aâm thanh thu aâm caùc caâu trong boä döõ<br /> ngoaïi tuyeán, chieàu saâu cuûa tìm kieám trong lieäu vaên baûn. Boä döõ lieäu vaên baûn cho nhaän<br /> caây coù theå ñöôïc ñieàu khieån nhö moät tham daïng soá goàm 200 caâu thì boä döõ lieäu aâm<br /> soá ñeå giaûi maõ taïi thôøi gian chaïy. Caùi naøy thanh laø 200 taäp tin aâm thanh. Chuùng toâi<br /> cho pheùp caùc yeâu caàu boä nhôù cho caây ghi aâm döõ lieäu thaønh taäp tin coù ñuoâi laø .raw.<br /> khoâng nhieàu laém. Chuùng toâi cuõng khaùm phaù Taäp tin aâm thanh .raw coù ñoä neùn cao, dung<br /> yù töôûng haïn cheá soá löôïng toái ña Gaussians löôïng nhoû thích hôïp cho vieäc ghi aâm döõ lieäu<br /> ñeå tìm kieám trong moãi nuùt laù. Ñeå thöïc hieän lôùn.<br /> khaû thi, chuùng toâi ñaõ saép xeáp danh saùch caùc Moät taäp tin aâm thanh chuaån laø moät<br /> Gaussians trong caùc nuùt laù. taäp tin khoâng coù tieáng oàn vaø nhieãu, caùc töø<br /> Khoa hoïc - kó thuaäät 15<br /> <br /> <br /> <br /> phaûi ñöôïc ñoïc roõ raøng. microphone.<br /> Boä döõ lieäu aâm thanh phaûi ñöôïc thu<br /> aâm roõ raøng, döùt khoaùt töøng töø. Ngöôøi thu aâm  HUAÁN LUYEÄN TIEÁNG VIEÄT<br /> döõ lieäu hoïc cuõng ñoùng vai troø raát quan troïng. Boä coâng cuï huaán luyeän ñöôïc chuùng<br /> Ngöôøi thu aâm naèm trong ñoä tuoåi töø 18 ñeán toâi söû duïng laø SphinxTrain: ñaây laø coâng cuï<br /> <br /> <br /> <br /> <br /> Hình 1. Ứng dụng nhận dạng tiếng nói Việt Nam trên điện thoại di động đang nhận dạng câu<br /> “THẾ CHA ĐỊNH DỌN ĐI ĐÂU”.<br /> <br /> <br /> 51 chia ñeàu theo ñoä tuoåi, caân baèng caû gioïng huaán luyeän tieáng Anh phaùt trieån bôûi tröôøng<br /> nam vaø gioïng nöõ. Soá löôïng ngöôøi thu aâm lôùn, ñaïi hoïc Carnegie Mellon. Nay vôùi ñaàu vaøo<br /> traûi ñeàu theo löùa tuoåi, caân baèng soá nam vaø<br /> nöõ laøm cho heä thoáng trôû leân phong phuù hôn, cuûa chuùng toâi laø döõ lieäu tieáng Vieät. Vôùi caáu<br /> linh hoaït hôn vaø khaû naêng thích öùng cao. Ví truùc ñònh saün, quaù trình huaán luyeän thöïc<br /> duï nhö huaán luyeän 1000 ngöôøi ñoïc, khi hieän seõ taïo ra caùc file moâ hình HMM cuûa<br /> ngöôøi thöù 1001 ñoïc thì heä thoáng deã daøng tieáng Vieät, caùc taäp tin HMM naøy ñaõ ñöôïc<br /> thích nghi vôùi gioïng cuûa ngöôøi naøy vaø cho ñöa vaøo PocketSphinx .<br /> keát quaû nhaän daïng chính xaùc.<br /> <br /> E. Tieáng oàn vaø nhieãu trong döõ lieäu<br />  KEÁT LUAÄN VAØ COÂNG VIEÄC<br /> SAÉP TÔÙI<br /> aâm thanh<br /> Trong töông lai, chuùng toâi seõ aùp<br /> Tieáng oàn, nhieãu aûnh höôûng raát lôùn<br /> duïng heä thoáng naøy cho moät coâng vieäc vôùi<br /> ñeán quaù trình hoïc döõ lieäu vaø nhaän daïng.<br /> moâ hình ngoân ngöõ cao hôn vaø voán töø vöïng<br /> Tieáng oàn, nhieãu laø do nhieàu nguyeân nhaân<br /> lôùn hôn. Moät öùng cöû vieân cho söï toái öu hoùa<br /> nhö tieáng oàn xe coä, coâng tröôøng, ngöôøi noùi<br /> trong töông lai laø thuaät toaùn tìm kieám<br /> chuyeän..., vaø nhieãu chuû yeáu laø do<br /> Viterbi, caùi maø chuùng toâi ñaõ khoâng thaûo<br /> 16 Khoa hoïc - kó thuaäät<br /> <br /> <br /> <br /> <br /> luaän saâu vaøo trong phaàn naøy. Chuùng toâi continuous speech recognition systems. In<br /> cuõng ñaõ trieån khai POCKETSPHINX ñeå Proceedings of ICSLP.<br /> nhaän daïng tieáng noùi Vieät Nam treân heä maùy [5]. Chan, A., Ravishankar, M. and<br /> phoå bieán Pocket PC, heä ñieàu haønh Rudnicky, A. 2005. On improvements of CI-<br /> based GMM selection. In Proceedings of<br /> Windows®CE vaø heä ñieàu haønh Linux. Interspeech.<br /> [6]. Lee, A., Kawahara, T. and Shikano,<br />  CAÙC KEÁT QUAÛ ÑAÏT ÑÖÔÏC K. 2001. Gaussian mixture selection using<br /> context-independent HMM. In Proceedings<br /> - Xaây döïng xong boä töø ñieån lexicon of ICASSP, vol. 1, pp. 69–72.<br /> tieáng Vieät hôn 12 nghìn töø. [7]. Waibel, A., Badran, A., Black, A. W.,<br /> - Xaây döïng xong moâ hình ngoân ngöõ Frederking, R., Gates, D., Lavie, A., Levin,<br /> cho tieáng Vieät vôùi döõ lieäu hôn 20.000 töø. L., Lenzo, K., Tomokiyo, L. M., Reichert, J.,<br /> Schultz, T., Wallace, D., Woszczyna M. and<br /> - Ñaõ huaán luyeän ñöôïc moâ hình cuù Zhang J. 2003. Speechalator: Two-way<br /> aâm cho tieáng Vieät. speech-to-speech translation in your hand.<br /> - Ñaõ nhuùng ñöôïc tieáng Vieät cho In Proceedings of NAACL-HLT.<br /> PocketSphinx. [8]. Acero, A. and Stern, R. M. 1990.<br /> - Ñoä chính xaùc nhaän daïng Environmental Robustness in Automatic<br /> Speech Recognition. Proc. of ICASSP, pp.<br /> PocketSphinx vôùi kích thöôùc 7660 töø tieáng<br /> 849-852.<br /> Vieät, ñaït ñoä chính xaùc laø 98,13% tæ leä loãi töø<br /> [9]. Aubert, X. and Dugast, C. 1995.<br /> 1,87% döïa treân 150 caâu kieåm tra töø vöïng lôùn Improved Acoustic-Phonetic Modelling in<br /> Philip’s Dictation System by Handling<br />  TAØI LIEÄU THAM KHAÛO Liaisons and Multiple Pronunciations. Proc.<br /> of EuroSpeech’95, vol. 2, pp. 767-770.<br /> [1]. Waibel, A. Badran, A. W Black, R. [10]. Pellom, B., Sarikaya, R. and Hansen,<br /> Frederking, D. Gates, A. Lavie, L. Levin, K. J. H. L. 2001. Fast likelihood computation<br /> Lenzo, L. Mayfield Tomokiyo, J. Reichert, T. techniques in nearest-neighbor based search<br /> Schultz, D. Wallace, M. Woszczyna, and J. for continuous speech recognition. IEEE<br /> Zhang. 2003. Speechalator: Two-way Signal Processing Letters, vol. 8, no. 8, pp.<br /> speech-to-speech translation in your hand. 221–224.<br /> In Proceedings of NAACL-HLT.<br /> [11]. Bahl, L. R. and Bakis, R. 1989. Large<br /> [2]. Kohler, T. W., Fugen, C., Stuker, S. Vocabulary Natural Language Continuous<br /> and Waibel, A. 2005. Rapid porting of ASR- Speech Recognition. Proc of ICASSP’89,<br /> systems to mobile devices. In Proceedings of pp.465-467.<br /> Interspeech.<br /> [12]. Bahl, L. R., Brown, P. F., de Souza,<br /> [3]. Franco, H., Zheng, J., Butzberger, P. V. and Mercer, R. L. 1986. Maximum<br /> J., Cesari, F., Frandsen, M., Arnold, J., Mutual Information Estimation of Hidden<br /> Gadde, V. R. R., Stolcke, A. and Abrash V. Markov Model Parameters for Speech<br /> 2002. Dynaspeak: SRI’s scalable speech Recognition. Proc. of ICASSP’86, pp.49-52.<br /> recognizer for embedded and mobile<br /> [13]. Bahl, L. R., de Souza, P. C.,<br /> systems. In Proceedsings of HLT.<br /> Gopalakrishnan, P. S., Nahamoo, D.,<br /> [4]. Chan, A., Sherwani, J., Ravishankar, Picheny, M.A. and Watson, T. J. 1994.<br /> M. and Rudnicky, A. 2004. Four-layer Robust Methods for Using Context-<br /> categorization scheme of fast GMM Dependent Features and Models in a<br /> computation techniques in large vocabulary<br /> Khoa hoïc - kó thuaäät 17<br /> <br /> <br /> <br /> Continuous Speech Recognizer. Proc. of<br /> ICASSP’94, pp.I533-I536.<br /> [14]. Bahl, L. R., Jelinek, F. 1975.<br /> Decoding for Channels with Insertions,<br /> Deletions and Substiutions, with<br /> Applications to Speech Recognition. IEEE<br /> Trans. Information Theory, IT-21, pp. 404-<br /> 411.<br /> [15]. Kawahara, L. T. and Shikano K.<br /> 2001. Gaussian mixture selection using<br /> context-independent HMM. In Proceedings<br /> of ICASSP, vol. 1, pp. 69–72.<br /> [16]. Gold, B. and Morgan, N. 2000.<br /> Speech and Audio Signal Processing. John<br /> Wiley & Sons, INC, New York.<br /> [17]. Bourland, H. 1995. Towards<br /> Increasing Speech Recognition Error Rates.<br /> Proc. of EuroSpeech’95, vol. 2, pp. 883-894.<br /> [18]. Lee, K-F., Hon, H-W. and Reedy, R.<br /> 1990. An Overview of the SPHINX Speech<br /> Recognition System. IEEE Trans. on<br /> Acoustic, Speech, Signal Processing, vol. 38,<br /> pp.35-45.<br /> <br /> [19]. Levinson, S. E. 1986. Continuously<br /> Variable Duration Hidden Markov Models<br /> for Automatic Speech Recognition. Computer<br /> Speech and Language, 1(1), pp. 29-45.<br /> [20]. Trask, R. L. 1996. A Dictionary of<br /> Phonetics and Phonology. Routledge.<br /> [21]. Young, S. J., Oh, Y. H. and Shin, G.<br /> C. 1997. Improved Lexicon Modeling for<br /> Continuous Speech Recognition. Proc. of<br /> ICASSP’97, pp.1827-1830.<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2