B GIÁO DC VÀ ĐÀO TO
ĐI HC ĐÀ NNG
NGUYN TH THÙY DUNG
NGHIÊN CU NG DNG MÃ NGUN M
MICROSOFT SDK SPEECH 5.1
Đ XÂY DNG
PHN MM LUYN PHÁT ÂM TING ANH
Chuyên ngành: Khoa hc máy tính
Mã s: 60.48.01
T
TÓ
ÓM
M
T
T
T
T
L
LU
U
N
N
V
VĂ
ĂN
N
T
TH
H
C
C
S
SĨ
Ĩ
K
K
T
TH
HU
U
T
T
ĐÀ NNG – Năm 2011
Công trình ñưc hoàn thành ti
ĐI HC ĐÀ NNG
Ngưi hưng dn khoa hc: PGS.TS. Võ Trung Hùng
Phn bin 1: TS. Nguyn Thanh Bình
Phn bin 2: PGS.TS. Đoàn Văn Ban
Lun văn ñưc bo v trưc Hi ñng chm Lun văn tt nghip
thc sĩ Khoa hc máy tính hp ti Đi hc Đà Nng vào ngày 18
tháng 06 năm 2011.
Có th tìm hiu lun văn ti:
- Trung tâm Thông tin – Hc liu, Đi hc Đà Nng
- Trung tâm Hc liu, Đi hc Đà Nng
1
M ĐU
1. Lý do chn ñ tài
Theo thng ca v giáo dc ñi hc sau khi ñánh g59
trưng ñi hc ln ti Vit Nam không chuyên ng, thì 51.7%
sinh viên tt nghip không ñáp ng ñưc yêu cu v kĩ năng ting
Anh. Trưc tình nh này cho thy, vn ñ ting Anh ñang mi
quan tâm hàng ñu ca các doanh nghip khi th c hin ph!ng vn
tuyn dng. Vy có th nói r"ng, Anh ng là tiêu chu#n ñánh giá ñu
tiên quan trng nht cho mt nhân viên mun vào làm ti doanh
nghip, không nhng các công ty nưc ngoài, nhiu doanh
nghip trong nưc hin nay cũng ñánh giá cao yêu cu này ca nhân
viên.
Th c t, chương trình hc ting Anh trên lp rt ít thi
gian ñ luyn ñc. Vic luyn ñc ti nhà li không ai ch& bo cho
ngưi hc r"ng h ñã phát âm ñúng hay chưa.
Yêu cu ñ't ra vi m(i ngưi hc môn Anh Văn phi t
hc, bên cnh ng pháp cn t luyn phát âm chu#n, ngoài vic vit
ñúng chính t mt t) v ng mi chúng ta còn th ñc ñúng ñưc
nó. N*m ñưc vai trò quan trng ca vic rèn luyn phát âm Ting
Anh, cũng như nhu cu hc tp nâng cao kh năng Ting Anh ca
các bn hc sinh sinh viên, tôi ñã ng dng trin khai ñ tài:
“Nghiên cu xây d ng phn mm ngun m+ Microsoft SDK
Speech 5.1 ñ xây d ng phn mm luyn phát âm Ting Anh”.
2
2. Mc tiêu và nhim v nghiên c u
Xây d ng mt phn mm thân thin vi ngưi hc Anh
Văn, ñóng vai tnhư mt ngưi bn h( tr vic luyn
phát âm
To tài liu ñy ñ chính xác v ngun m+
Microsoft Speech SDK 5.1 làm cơ s+ ng dng phát
trin sn ph#m phn mm
Rèn luyn thêm k, năng ñc hiu tài liu Ting Anh
chuyên ngành k, năng t-ng hp các kin thc ñ ñc
lp t ch to ra mt bn thit k, mt phn mm hoàn
ch&nh
3. Đi tưng và phm vi nghiên c u
Đi tưng
Công ngh x. lý ting nói
ngun m+ x. ting nói Microsoft Speech
SDK 5.1
Phm vi
Ch& x. và nhn dng ging nói Ting Anh
3
4. Gi! thi"t nghiên c u
D a vào thư vin ging chu#n ca ngun m+
Microsoft Speech SDK 5.1 ñ phát âm cũng như làm cơ
s+ ñ nhn dng t) Ting Anh chu#n
D a vào các phương thc nhn dng, các hàm nhn dng
do b sn ph#m mã ngun m+ này cung cp.
5. Phương pháp nghiên c u
Phương pháp tài liu: nghiên cu các tài liu liên quan
ñn công ngh nhn dng ging nói
Phương pháp th c nghim: nghiên cu ng dng mã
ngun m+ Microsoft Speech SDK 5.1
6. Ý nghĩa khoa hc và th%c ti&n c'a ñi
Ý nghĩa khoa hc:
Nâng cao hiu qu ñánh giá phát âm
To tài liu Ting Vit hưng dn phát trin ng
dng Microsoft Speech SDK 5.1
Ý nghĩa th c tin:
Ngưi hc th t luyn phát âm, ch ñng ñưc
thi gian cũng như không gian hc tp
Nâng cao hng thú cho ngưi hc nh vào kh năng
nhn dng ging nói mt cách t ñng mi m/ này
4
CHƯƠNG 1: NGHIÊN CU T*NG QUAN
Trong chương này, chúng tôi trình bày cơ s+ thuyt liên
quan ñn ñ tài. Ni dung ca chương này gii thiu v: Công c x.
ting nói nh"m nghiên cu sơ lưc thuyt nhn dng; mt s
phn mm nhn dng ting nói hin nay nh"m tìm hiu th c t các
chc năng và yêu cu cn có cho mt sn ph#m phn mm ca mình;
gii thiu v Microsoft Speech SDK 5.1 nh"m to mt i liu
thuyt ñ phát trin ngun m+ nhn dng ging nói Microsoft
Speech SDK 5.1.
1.1. CÔNG C X+ LÝ TING NÓI
1.1.1. Nh,n dng ti"ng nói
1.1.2. T-ng hp ti"ng nói
1.2. M.T S/ PHN MM NHN DNG TING NÓI HIN
NAY
+ Vspeech: phn mm nhn dng ging nói ting Vit trên
máy tính: do nhóm BK02 ca Đi hc Bách khoa TP.HCM ch to
thành công vào cui năm 2004.
+ Phn mm luyn phát âm Ting Anh Power Pronunciation:
Chương trình ñưc thit k ñ luyn phát âm các ch cái,
t)ng t) mt, t)ng câu mt. Vi giao din ñ ha sinh ñng th hin
vòm ming khi phát âm các t), câu ngưi hc theo ñó quan sát
hc theo sao cho ñúng.
5
1.3. GI0I THIU V MICROSOFT SDK 5.1
1.3.1. Qui ñ1nh khi dùng mã ngu2n m3 Microsoft Speech SDK
+ Yêu cu v h thng:
Windows XP Professional or Home editions;
Windows.NET Server editions;
Microsoft Windows 2000 Professional Workstation;
Microsoft Windows Millennium edition.
Microsoft Windows 98.
Microsoft Windows ® NT Workstation ho'c phiên bn 4.0,
Windows 95 hay Win trưc ñó thì không ñưc h( tr
+ Yêu cu v phn cng:
A PentiumII\PentiumII-equivalent tr+ lên vi 233 MHz; 128
MB RAM.
Mt micro có cht lưng cao vi b lc ting n phc v cho
vic nhn dng.
Các sn ph#m phn mm do ngưi dùng xây d ng ñưc bo
v b+i lut bn quyn các hip ưc bn quyn quc t, cũng
như lut s+ hu trí tu và các ñiu ưc, ñng thi ñưc cp phép,
nhưng không bán ñưc.
1.3.2. Phương th c x4 lý trong Microsoft Speech SDK 5.1
Các giao din chương trình ng dng (Application
Programming Interface _API) SAPI làm gim ñáng k chi phí ñ vit
cho mt ng dng b"ng vic s. dng “nhn dng ging nói”
6
(Speech recognition_SR) t) văn bn ñn ging nói “text-to-
speech” (TTS), giúp cho công ngh ging nói tr+ nên d tip cn hơn
và mnh m0 cho mt lot các ng dng.
SAPI API cung cp mt giao din cp cao gia ng dng
các công c ging nói. SAPI th c hin tt c các chi tit cp thp cn
thit ñ kim soát qun lý h thng thi gian th c ca các công c
khác nhau.
Hai loi cơ bn ca công c SAPI TTS SR. H thng
TTS t-ng hp các chu(i văn bn các tp tin âm thanh b"ng cách
s. dng ging nói ñưc t-ng hp. SR chuyn ñ-i ging nói ca con
ngưi vào chu(i văn bn và nhng tp tin có th ñc ñưc.
+ TTS ca API:
Đ to các ng dng ta ñiu khin TTS b"ng vic s. dng
giao din ñi tưng thành phn (Component Object Model)
ISpVoice. Khi to ra mt ñi tưng ISpVoice, ch& cn gi
ISpVoice::Speak ñ ñc mt d liu văn bn. Ngoài ra, ISpVoice
cũng cung cp mt s phương pháp ñ thay ñ-i ging nói các
thuc tính khác như tc ñ ISpVoice::SetRate, Âm thanh
ISpVoice::SetVolume và ging nói hin ti ISpVoice::Setvoice.
+ SR ca API
Cũng như ISpVoice giao din chính ñ t-ng hp ging nói,
ISpRecoContext là giao din chính cho nhn dng ging nói.
Mt ng dng có th chn mt trong hai kiu nhn dng
ging nói. (Speech recognition engines_ISpRecognizer). Nhn dng
chia s/ vi nhng ng dng nhn dng ging nói khác. Đ to mt
IspRecoContext cho mt ISpRecognizer chia s/, ch& cn gi
CoCreateInstance ca COM, trên thành phn
CLSID_SpSharedRecoContext. Đ to mt IspRecoContext cho mt
7
ISprecognizer InProc cho mt InProc ISpRecognizer, ñu tiên phi
gi CoCreateInstance trên CLSID_SplnprocRecolnstance ñ to ra
InProc ISpRecognizer riêng ca nó. Sau ñó phi th c hin mt cuc
gi ñn IspRecohnizer::Setinput ñ thit lp các ñu vào âm thanh.
Cui cùng, có th gi ISpRecognizer::CreateRecoContext ñ ñưc
mt IspRecoContext.
Bưc tip theo thit lp các thông báo cho các s kin ñưc
quan tâm như: ISpRecognizer cũng như IspEventSource ln lưt
IspNotifySource, th gi mt trong nhng phương thc ca
IspNotifySource t) ISpRecoContext ñ ch& ra nơi các s kin
IspRecoContext nên ñưc báo cáo.
Cui cùng, mt ng dng ging nói phi to, ti và kích hot
IspRcoGrammar, ñ ch& ra loi phát âm s0 nhn dng, d như:
chính t hay mt câu lnh pháp ñiu khin. Đu tiên ng dng
s0 ti ng pháp thích hp b"ng cách gi
IspRecoGrammar::LoadDictation cho chính t ho'c mt trong các
phương thc IspRecoGrammar::LoadCmdxxx cho lnh ñiu
khin. Cui cùng, ñ kích hot các văn phm cho vic nhn dng có
th b*t ñu, thì s0 gi IspRecoGrammar::SetDictationStat cho chính
t hay IspRecoGrammar::SetRuleState hay
IspRecoGrammar::SetRuledState cho lnh và ñiu khin.
Khi s nhn dng quay tr+ li ng dng b"ng cơ ch thông
báo yêu cu thì s0 là mt IspRecoResult qua ñó xác ñ1nh ñưc nhng
nhn dng ñưc. M(i mt ISpRecognizer th nhiu
IspRecoContexts liên kt vi nó, mt s th ñưc thông báo
theo cách riêng ca mình v các s kin liên quan ñn nó.
8
1.3.3. Thư vin trong Microsoft Speech SDK 5.1
+ Các giao din ñưc s dng trong lun văn
GIAO DIN CHC NĂNG
1. ISpeechGrammarRule:
- Thu5c tính:
+ Attributes
+ Id
+ IntialState
+ Name
- Phương th c:
+ AddResource
+ AddState
+ Clear
Đ1nh nghĩa nhng thuc tính và phương thc ca
mt qui t*c ng pháp ting nói
- Tr v thông tin nhng thuc tính ca m(i qui t*c
ng pháp
- Ch& rõ ID ca SpeechGrammarRule
- Ch& rõ trng thái ban ñu
- Ch& rõ tên
- Thêm chu(i vào qui t*c nhn dng
- Thêm trng thái vào qui t*c nhn dng
- Xóa b! nhng qui t*c và ri kh+i trng thái kh+i
to
2. ISpeechRecoGrammar
- Thu5c tính:
+ Id
+ RecoContext
+ Rules
+ State
- Phương th c:
+ Reset
+ CmdStRuleState
Cho phép ng dng qun lý t) và mnh ñ
- Tr v ID ca ng pháp khi ng pháp ñưc to ra
- Tr v ñi tưng to ra ng pháp này
- Tr v tp hp nhng qui t*c ng pháp
- Thit lp và tr v tng thái h thng ca ng pháp
- Xóa b! mi qui t*c ng pháp và cài ñ't li
- Kích hot ho'c kh. kích hot ca qui t*c b+i tên
qui t*c ñó.