(cid:132)(cid:132)
La parole et son traitement automatique La parole et son traitement automatique Calliope, Masson, 1989 Calliope, Masson, 1989
Traitement de la parole (cid:132)(cid:132) Traitement de la parole Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987 Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987
TTàài li i liệệu tham kh u tham khảảoo
Fundamentals of Speech Signal Processing (cid:132)(cid:132) Fundamentals of Speech Signal Processing Saito S., Nakata K. , Academic Press, 1985 Saito S., Nakata K. , Academic Press, 1985
Digital Processing of Speech Signals (cid:132)(cid:132) Digital Processing of Speech Signals Hall .1978 Lawrence R. Rabiner, Ronald W. Schafer, Prentice--Hall .1978 Lawrence R. Rabiner, Ronald W. Schafer, Prentice
(cid:132)(cid:132) Discrete
Discrete--Time Processing of Speech Signals Time Processing of Speech Signals John R. Deller, John G. Proakis, Hansen John H. L. 1999 John R. Deller, John G. Proakis, Hansen John H. L. 1999
(cid:132)(cid:132) TiTiếếng Vi
ng Việệt hi
i (Ngữữ âm, ng
âm, ngữữ phphááp, phong c
p, phong cáách)ch)
TrTrịịnh Văn Loan nh Văn Loan BBộộ môn Kmôn Kỹỹ thuthuậật Mt Mááy ty tíínhnh ĐHBK Hàà NNộộii Khoa CNTT, ĐHBK H Khoa CNTT,
t hiệện đn đạại (Ng i, 1994 NguyNguyễễn Hn Hữữu Quu Quỳỳnh, Hnh, Hàà NNộội, 1994
(cid:132)(cid:132) DDẫẫn lun luậận Ngôn ng
n Ngôn ngữữ hhọọc c
NguyNguyễễn Thi
n Thiệện Gin Giááp,p, Đo Đoààn Thi
n Thiệện Thu
n Thuậật , Nguy
t , Nguyễễn Minh Thuy
i, 1994 n Minh Thuyếết, Ht, Hàà NNộội, 1994
(cid:132)(cid:132)
http://dce.hut.edu.vn http://dce.hut.edu.vn
11
22
XXỬỬ LÝ TI LÝ TIẾẾNG NNG NÓÓII
lý thông tin chứứa trong t
m cơ bảảnn
i niệệm cơ b lý tíín hin hiệệu tiu tiếếng nng nóóii
(cid:132)(cid:132) XXửử lý thông tin ch nhnhằằm truym truyềền, n, lưu tr p, nhậận dn dạạng ti hhợợp, nh
a trong tíín hin hiệệu tiu tiếếng nng nóói i lưu trữữ ttíín hin hiệệu nu nàày hoy hoặặc tc tổổng ng ng tiếếng nng nóói.i.
i yêu cầầu nhu nhữững hi
1. M1. Mộột st sốố khkháái ni 2. X2. Xửử lý t 3. Mã hoáá titiếếng nng nóóii 3. Mã ho 4. T4. Tổổng hng hợợp tip tiếếng nng nóóii 5. Nhậận dn dạạng ti 5. Nh
ng tiếếng nng nóóii
(cid:132)(cid:132) CCáác nghiên c titiếếng nng nóói yêu c llĩĩnh vnh vựực ngc ngàày cy cààng đa d ngôn ngữữ hhọọc cho đ ngôn ng
c nghiên cứứu đưu đượợc tic tiếến hn hàành đnh đểể xxửử lý lý t trên nhiềều u ng hiểểu biu biếết trên nhi ng: từừ ngngữữ âm v âm vàà lý tíín hin hiệệu...u...
ng đa dạạng: t c cho đếến xn xửử lý t
33
44
1
i dung NNộội dung 1. M1. Mộột st sốố khkháái ni i niệệm cơ b m cơ bảảnn
(cid:132)(cid:132) Mã ho
(cid:132)(cid:132) Phân bi
âm thanh t tiếếng nng nóói vi vàà âm thanh
c âm c phân biệệt vt vớới ci cáác âm
(cid:132)(cid:132) TTổổng hng hợợpp vvàà nhnhậận dn dạạngng titiếếng nng nóói ti
nh âm họọc cc cóó
p ngườờii--mmááy by bằằng ti
i giao tiếếp ngư
ttớới giao ti
Mã hoáá mmộột ct cáách cch cóó hihiệệu quu quảả ttíín hin hiệệu u lưu trữữ titiếếng nng nóói.i. titiếếng nng nóói đi đểể truytruyềền vn vàà lưu tr i tiếến n ng tiếếng nng nóói.i. lý tiếếng ng
(cid:132)(cid:132) TTấất ct cảả ccáác c ứứng dng dụụng cng củủa xa xửử lý ti
(cid:132)(cid:132) CCóó 2 lo2 loạại ngu
a trên cáác kc kếết qut quảả
nnóói đi đềều cu cầần phn phảải di dựựa trên c phân tííchch titiếếng nng nóóii ccủủa a phân t
Phân biệệt ti TiTiếếng nng nóói đưi đượợc phân bi thanh kháác bc bởởi ci cáác đc đặặc tc tíính âm h thanh kh cơ chếế ttạạo tio tiếếng nng nóói.i. ngunguồồn gn gốốc tc từừ cơ ch i nguồồn âmn âm –– tutuầần hon hoààn (dây thanh rung) n (dây thanh rung) p âm (dây thanh không rung) –– ttạạp âm (dây thanh không rung)
55
66
MMụục đc đííchch MMộột st sốố khkháái ni i niệệm cơ b m cơ bảảnn
77
88
2
BBộộ mmááy phy pháát âmt âm BBộộ mmááy phy pháát âmt âm
NASAL CAVITY: Khoang mũi
SOFT PALATE: Vòm miệng mềm
EPIGLOTTIS: Nắp thanh quản
VOCAL FOLDS (CORDS): Dây thanh
OESOPHAGUS: Thực quản
TRACHEA: Khí quản
PHARYNX: Họng
99
1010
1.1. MMéét st sèè khkh¸¸i ni
i niÖÖm cm c¬¬ bb¶¶nn
BBộộ mmááy phy pháát âmt âm Sơ đSơ đồồ khkhốối bi bộộ mmááy phy pháát âmt âm
(cid:132)(cid:132) ỞỞ ccáác vc vịị trtríí hhíít, tht, thởở,ph,pháát âm, n
t âm, nóói thi thìì ththààoo
Thanh môn
Dây thanh
Thanh môn Thanh môn Thanh môn Thanh môn
A. Glotte pendant la respiration B. Glotte pour la phonation 1. Glotte
2. Cordes vocales
3. Epiglotte
5. Cartilages aryténoïdes
1111
1212
3
(cid:132)(cid:132) DDạạng sng sóóng theo th
i gian ng theo thờời gian
1313
1414
t chu kỳỳ BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii Dây thanh trong mộột chu k Dây thanh trong m dao độộng ng dao đ
u: 8kHz, F1= 11025 Hz, (cid:132)(cid:132) TTầần sn sốố llấấy my mẫẫu: 8kHz, F1= 11025 Hz,
(cid:132)(cid:132) PhPhổổ ttíín hin hiệệu tiu tiếếng nng nóóii
2F1, 4F1 (16kHz, 10kHz) 2F1, 4F1 (16kHz, 10kHz) (cid:132)(cid:132) SSốố bit/mbit/mẫẫu: 8,16 u: 8,16 Mono, Stereo (cid:132)(cid:132) Mono, Stereo
1515
1616
4
File WAV File WAV BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii
Spectrogram (Sonagram) (cid:132)(cid:132) Spectrogram (Sonagram)
1717
1818
BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii
(cid:132)(cid:132) Thu b
Thu bằằng micro kh
ng micro kháác loc loạạii
1919
2020
5
BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii
(cid:132)(cid:132) Hai gi
Hai giọọng kh
ng kháác nhau cho c
c nhau cho cùùng mng mộột âmt âm
(cid:132)(cid:132) CCùùng ngư
ng ngườời ni nóói, ci, cùùng mng mộột âmt âm
2121
2222
Năng lượợng, t Năng lư
ng, tỷỷ llệệ bibiếến thiên qua gi
không n thiên qua giáá trtrịị không
file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1
BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii
0.4
0.2
e d u
0
t i l
p m a
-0.2 -0.4
Signal
-0.6
3
0
0.5
1
2
2.5
3.5
1.5
En
4
y g r e n e
3
e m
2
1
i t - t r o h s
3
3.5
0.5
1.5
1
2
2.5
e d u
15
Mn
t i
10
n g a m e m
5
i t - t r o h s
3
3.5
0.5
1.5
1
2
2.5
80
ZC
60
e t a r g n
i
40
20
2323
2424
s s o r c o r e z
0
3
3.5
1
2
2.5
0.5
1.5
time in seconds
6
u thanh o âm hữữu thanh TTạạo âm h antiformant Formant vàà antiformant Formant v
u (6), biếến đn đổổi thanh đi
i thanh điệệu u
Đơn âm tiếếtt (cid:132)(cid:132) Đơn âm ti thanh điệệu (6), bi (cid:132)(cid:132) CCóó thanh đi kkèèm theo bi m theo biếến đn đổổi ngh Không biếến đn đổổi hi hìình th
(cid:132)(cid:132) Không bi
i nghĩĩaa nh thááii
2525
2626
o âm vô thanh TTạạo âm vô thanh MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệt t
(cid:132)(cid:132) HHệệ ththốống âm v nguyên âm đơn, 3, 3 nguyên âm đôi nguyên âm đơn
ng âm vịị: 14 nguyên âm nguyên âm đôi, 22 ph
: 14 nguyên âm (11 (11 , 22 phụụ âm)âm)
(cid:132)(cid:132) HHệệ ththốống âm v bb bbồồng bng bềềnhnh
: 22 phụụ âmâm ng âm vịị: 22 ph 1212 trtr
11
trtrồồngng
11
i,yi,y
ý chý chíí
22
pp
ốốp p éépp
sinh viên sinh viên
ss
1313
22
êê
ê chê chềề
33
vv
vvẩẩn vơn vơ
rrừừngng
rr
1414
11
33
ee
e de dèè
44
phph
phôi pha phôi pha
chông chông
chch
1515
ia,yê,ya,iê ia,yê,ya,iê c ia, yê) ((đđọọc ia, yê)
44
aa
a haa ha
a, yêu kia kììa, yêu kia k kikiềều, khuya, tiên u, khuya, tiên titiếếnn
55
mm
mơ mmơ mààngng
nhnhọọcc
nhnh
1616
55
ăă
mmắắtt
22
tua rua, luôn tua rua, luôn
66
đđ
t đai đđấất đai
ng,ngh ng,ngh
ngô nghê ngô nghê
1717
66
ơơ
bơ phờờ bơ ph
ua,uô ua,uô c ua) ((đđọọc ua)
77
tt
tin tưởởngng tin tư
c,k,qc,k,q
t,qua con,kẹẹt,qua con,k
1818
77
ââ
ân cân cầầnn
33
88
thth
thơ thẩẩnn thơ th
khkhúúcc
khkh
1919
88
ưư
ttừừ ttừừ
ưaưa,,ươươ ((đđọọc ưac ưa))
lưa thưa,, lưa thưa lưlượợt t
99
d,gid,gi
duyên, giữữ duyên, gi
ggồồ ghghềề
g,ghg,gh
2020
99
ôô
ôtôôtô
1010
nn
nnóóngng
hhảả hêhê
hh
2121
1010
oo
co ro co ro
2727
2828
1111
uu
llùù mmùù
1111
ll
long lanh long lanh
xa xôi xa xôi
xx
2222
7
MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt
(cid:132)(cid:132) Phân lo
(cid:132)(cid:132) Phân lo
Phân loạại nguyên âm theo đ ccủủa lưa lưỡỡi vi vàà chuy
i nguyên âm theo độộ nâng nâng chuyểển đn độộng cng củủa lưa lưỡỡii
Phân loạại nguyên âm theo đ mimiệệng vng vàà chuy
i nguyên âm theo độộ mmởở ccủủa a chuyểển đn độộng cng củủa lưa lưỡỡii
HHààngng
MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt
hhààng trư
ng trướớcc
ĐĐộộ nângnâng
hhààng sau không ng sau không tròn môi tròn môi
hhààng sau ng sau tròn môi tròn môi
caocao
trung bììnhnh trung b
ththấấpp
ĐĐộộ mmởở
HHààngng
u ua u ua
hhẹẹpp
i ia,yê,ya,iê i ia,yê,ya,iê
ư ưa ư ưa
trưtrướớcc
i e i e
ee
hơi hẹẹpp hơi h
êê
ôô
ơ â ơ â
gigiữữaa
ưư
ơ â ơ â
a ă a ă
hơi rộộngng hơi r
ee
oo
sausau
u ô u ô
oo
rrộộngng
a ă a ă
2929
3030
(cid:132)(cid:132) Âm tÂm tắắc: tic: tiếếng nng nổổ, ph, pháát sinh do lu
t sinh do luồồng kh
ng khíí ttừừ phphổổi đi ra b
i đi ra bịị ccảản trn trởở hohoààn n
t ra. n, phảải phi pháá vvỡỡ ssựự ccảản trn trởở đ đóó đ đểể thothoáát ra.
(cid:132)(cid:132) Phân lo
c hay xáát, t,
t, pháát sinh do lu
t sinh do luồồng không kh
ng không khíí đi ra b
đi ra bịị ccảản trn trởở
t: tiếếng cng cọọ xxáát, ph
n (chỉỉ bbịị khkhóó khăn
khăn), ph
), phảải li láách qua m
ch qua mộột khe h
t khe hởở nhnhỏỏ vvàà
Phân loạại phi phụụ âm theo t hhữữu thanh hay vô thanh, m
âm theo tắắc hay x u thanh hay vô thanh, mũũi hi hóóaa
t ra như vậậy phy phảải ci cọọ xxáát vt vàào tho thàành cnh củủa ba bộộ mmááy phy pháát t
totoààn, ph (cid:132)(cid:132) Âm xÂm xáát: ti không hoààn ton toààn (ch không ho trong khi thoáát ra như v trong khi tho âm.âm.
MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt
Vị trí cấu âm
Đầu lưỡi
Mặt lưỡi
Cuối lưỡi Họng
(cid:132)(cid:132) PhPhụụ âm bên
i tiếếp xp xúúc vc vớới li lợợi chi chặặn ln lốối tho
i thoáát ct củủa không kh
Môi
Răng
Vòm miệng
Phương thức cấu âm
hai bên cạạnh lưnh lưỡỡi ti
a không khíí, , i tiếếp gip giááp vp vớới mi máá
Bật hơi
th
âm bên: : đđầầu lưu lưỡỡi ti bubuộộc nc nóó phphảải li láách qua khe h mmàà ra ngo
ch qua khe hởở ởở hai bên c o nên tiếếng xng xáát nht nhẹẹ (l).(l).
ra ngoàài ti tạạo nên ti ng không khíí thothoáát ra ngo
(cid:132)(cid:132) LuLuồồng không kh
o nên tiếếng xng xáát hay ti
t hay tiếếng ng
Vô thanh
p
t
tr
ch
c,k,qu
t ra ngoàài bi bịị ccảản trn trởở, t, tạạo nên ti u không tuầần hon hoààn gn gọọi li làà titiếếng đng độộng (ng (ồồn).n).
Ồn
Tắc
t âm mộột st sốố phphụụ âm, dây thanh c
âm, dây thanh cũũng ho
ng hoạạt đt độộng đng đồồng ng
(cid:132)(cid:132) Trong khi ph
Không bật hơi
nnổổ, d, dạạng tng tíín hin hiệệu không tu Trong khi pháát âm m ththờời ti tạạo nên ti
Hữu thanh
b
đ
Vang mũi
nh
ng thanh. o nên tiếếng thanh. âm cóó ttỉỉ llệệ titiếếng đng độộng lng lớớn hơn g ng thanh lớớn hơn g âm cóó ttỉỉ llệệ titiếếng thanh l
(cid:132)(cid:132) PhPhụụ âm c (cid:132)(cid:132) PhPhụụ âm c
n hơn gọọi li làà phphụụ âm âm ồồn.n. âm vang. n hơn gọọi li làà phphụụ âm vang.
h
Ồn
Xát
Vô thanh Hữu thanh
m ph v
s r
ng,ngh kh g
Vang bên
n x d,gi l
3131
3232
8
trị
phê
bé
tìm
đánh
tám
vẽ
chè
3333
3434
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms
0.5
0.4
0.3
0.2
0.1
e d u t i
kệ
lạ
0
pl m A
-0.1
-0.2
-0.3
-0.4
-0.5
0
50
100
150
200
250
300
350
400
450
500
Time in ms
khả
3535
3636
9
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms
0.4
KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms
0.4
0.3
0.2
0.2
0.1
0
0
e d u t i l
e d u t i l
p m A
-0.2
p m A
-0.1
-0.4
-0.2
-0.6
-0.3
-0.4
-0.8
0
100
200
300
400
500
600
Time in ms
0
50
100
150
200
300
350
400
450
3737
3838
250 Time in ms
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms
0.6
N G H I R . W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p l e s , T i m e = 6 0 8 m s
0 . 3
0.4
0 . 2
0.2
0 . 1
e d u t i l
0
p m A
0
e d u
t i l
- 0 . 1
p m A
-0.2
- 0 . 2
-0.4
- 0 . 3
0
1 0 0
2 0 0
4 0 0
5 0 0
6 0 0
3 0 0
T i m e i n m s
-0.6
-0.8
0
100
200
300
400
500
600
3939
4040
Time in ms
10
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms
P H A I R . W A V , F s = 1 1 0 2 5 H z , 6 9 3 4 s a m p le s , T im e = 6 2 9 m s
0.2
0 . 6
0.15
0 . 4
0.1
0 . 2
0.05
0
e d u t i l
e d u t i l
0
p m A
p m A
-0 . 2
-0.05
-0.1
-0 . 4
-0.15
-0 . 6
-0.2
0
1 0 0
2 0 0
4 0 0
5 0 0
6 0 0
3 0 0 T im e in m s
4141
4242
0
50
100
150
200
250
300
350
400
Time in ms
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms
BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms
0.6
0.4
0.3
0.4
0.2
0.1
0.2
0
e d u t i l
-0.1
e d u t i l
0
p m A
p m A
-0.2
-0.3
-0.2
-0.4
-0.5
-0.4
-0.6
0
50
100
150
200
250
300
350
400
450
4343
4444
-0.6
Time in ms
0
100
200
400
500
600
300
Time in ms
11
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms
VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
e d u t i l
e d u t i l
0
-0.1
p m A
p m A
-0.2
-0.1
-0.3
-0.2
-0.4
-0.5
-0.3
4646
4545
100
200
300
400
500
600
700
800
0
0
100
200
300
500
600
700
Time in ms
400 Time in ms
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms
NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms
0.4
0.6
0.2
0.4
0
0.2
e d u
e d u t i l
t i l
p m A
p m A
-0.2
0
-0.4
-0.2
-0.6
-0.4
4747
4848
0
50
100
150
200
250
300
350
400
450
500
0
100
200
400
500
600
Time in ms
300 Time in ms
12
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms
LAJ.WAV, Fs = 11025Hz, 5442 samples, Time = 494ms
0.4
0.4
0.3
0.2
0.2
0.1
0
e d u t i l
e d u
t i l
p m A
0
p m A
-0.2
-0.1
-0.4
-0.2
-0.3
-0.6
0
50
100
150
200
250
300
350
Time in ms
4949
5050
0
50
100
150
200
250
300
350
400
450
Time in ms
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms
SOOS.WAV, Fs = 11025Hz, 8888 samples, Time = 806ms
0.6
0.4
0.3
0.4
0.2
0.1
0.2
0
e d u
t i l
e d u t i l
0
p m A
p m A
-0.1
-0.2
-0.2
-0.3
-0.4
-0.4
-0.5
5151
5252
0
100
200
300
500
600
700
800
0
50
100
150
200
300
350
400
450
500
400 Time in ms
250 Time in ms
13
DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt
u(n)
Mô hMô hìình to c (AR) nh toààn đin điểểm cm cựực (AR) Mô hMô hìình tnh tạạo tio tiếếng nng nóói i 1960) (Fant--1960) (Fant
)z(R)z(V)z(G)z(T
=
=
Lọc thông Lọc thông thấp G(z) thấp G(z)
TTảải bi bứức xc xạạ Tải bức xạ R(z)R(z) R(z)
n âm TuyTuyếến âm Tuyến âm V(z)V(z) V(z)
σ )z(A
x(n)
T0
(cid:132)(cid:132) A(z): H
A(z): Hààm truym truyềền đn đạạt ct củủa ba bộộ llọọc đc đảảoo
1−− )z1(C)z(R
=
p
2K 1 +
)z(G
=
1 −
i
−
A 1)(
1(
z
1 − )z
α+
β+
)z(T
=
A(z) 1
a z A(z)
i − a z a
1
= +
=
=
i
i
0
∑
∑
σ )z(A
i 0 =
i 1 =
B
p
)z(V
−
)n(x
)in(xa
)n(u
σ=−
i
P = 2K+1
+ ∑
2 )zb
zb1( +
1 − +
k1
k2
1i =
= K ∏
1k =
5353
5454
Biên độ
nh ARMA Mô hMô hìình ARMA i thông DDảải thông
q
σ
σ
1
2
-i
)z(T
=
σ=
)z(C
1
=
zc i
0c
= ∑
+ )z(A)z(A
)z(C )z(A
1 2/
1
1
2
0i =
Dải thông
Bk
q
p
)n(x
)in(xa
+
σ=−
−
)in(uc i
i
∑
∑
1i =
0i =
Tần số
Fk
5555
5656
14
x(n)
(cid:132)(cid:132) Phân t
Phân tíích ph
ch phổổ
FFT
Log |.|
Bộ lọc hiệu chỉnh
Cửa sổ Hamming
N
–– BBộộ llọọc hic hiệệu chu chỉỉnh H(z) = 1
nh H(z) = 1 –– azaz--11, a = 0,95..0,98 , a = 0,95..0,98
5858
5757
<= N/2, >0
frame
2. X2. Xửử lý t lý tíín hin hiệệu tiu tiếếng nng nóóii
).E(ωω))
)]= log[H(ωω)]+ log[E(
)]} + F--11{log[E(
) = H(ωω).E( )]+ log[E(ωω)])] {log[H(ωω)]} + F
{log[E(ωω)]})]}
FFT
Log |.|
Bộ lọc hiệu chỉnh
Cửa sổ Hamming
FFT-1
s(n)=h(n)*e(n) S(ωω) = H( (cid:132)(cid:132) s(n)=h(n)*e(n) S( log[S(ωω)]= log[H( (cid:132)(cid:132) log[S( FF--11{log[S( {log[S(ωω)]} = F FF--11{log[S( {log[S(ωω)]} =)]} = FF--11{log[H( {log[H(ωω)]} =)]} = FF--11{log[H( {log[H(ωω)]} =)]} =
)]} = F--11{log[H( $s(n) $h(n) $e(n)
$
$
+
=
$ s(n) h(n) e(n)
$s(n)
5959
6060
15
nh (homomorphic) XXửử lý đ lý đồồng hng hìình (homomorphic) Sơ đSơ đồồ khkhốối xi xửử lý đ lý đồồng hng hììnhnh
p
+
− = σ
x(n)
a x(n i)
u(n)
nh AR (cid:132)(cid:132) Mô hMô hìình AR
i
∑
c(n)
= i 1
nh (Linear n tuyếến tn tíính (Linear VVíí ddụụ Tiên đoáán tuy Tiên đo Prediction Coding) Prediction Coding)
T0
T0
p
i
= −
−
$ x(n)
$ a x(n i)
∑
= i 1
Tiên đoáánn Tiên đo Sai sSai sốố tiên đo
tiên đoáánn
$
=
e(n)
− x(n) x(n)
E
e (n)
= ∑ 2
nh phương toààn phn phầầnn
n
Sai sSai sốố bbìình phương to i thiểểu hu hóóa sai s TTốối thi
a sai sốố
=
=
0, i 1,2,...,p
∂ E $ ∂ i a
) h(n)
6262
6161
MMộột st sốố phương ph
nh Fo phương phááp xp xáác đc địịnh Fo
(cid:132)(cid:132) GiGiáá trtrịị FF00 phphụụ thuthuộộc vc vàào gio giớới ti tíính vnh vàà
tương quan (cid:132)(cid:132) DDựựa va vàào ho hààm tm tựự tương quan m vi sai biên độộ trung b (cid:132)(cid:132) DDựựa va vàào ho hààm vi sai biên đ trung bìình nh tương (cid:132)(cid:132) DDùùng bng bộộ llọọc đc đảảo vo vàà hhààm tm tựự tương
llứứa tua tuổổii –– GiGiọọng nam: 80..250 Hz ng nam: 80..250 Hz : 150..500 Hz –– GiGiọọng nng nữữ: 150..500 Hz
quan quan
(cid:132)(cid:132) XXửử lý đ lý đồồng hng hììnhnh
Tiền
Xác định
Đánh giá
xử lý
Fo
kết quả
Tín hiệu tiếng nói
6363
6464
16
XXáác đc địịnh tnh tầần sn sốố cơ b cơ bảảnn
(cid:132)(cid:132) TTíính hnh hààm tm tựự tương quan
tương quan R(k)R(k) ccủủa ta tíín hin hiệệu tiu tiếếng nng nóói i
(cid:132)(cid:132) HHạạn chn chếế, lo, loạại bi bỏỏ ||xx| < C| < CLL
N
k
1 − −
x(n)x(n) R k ( )
x n x n k ( ) (
)
0,1,...,
K
=
+
=
k
tương quan cóó tương quan DDựựa va vàào ho hààm tm tựự tương quan Phương phááp tp tựự tương quan c Phương ph i tiếến n ccảải ti
∑
0
n = Fs = 10 kHz, N = 300, K = 150.Tììm cm cựực đc đạại trong kho Fs = 10 kHz, N = 300, K = 150.T
ng (0, K) i trong khoảảng (0, K)
6565
6666
trung m vi sai biên độộ trung
DDựựa va vàào ho hààm vi sai biên đ bbìình nh (Average Magnitude Difference Function) (Average Magnitude Difference Function)
N
1 −
D k ( )
x n m x n m k (
(
)
k )
0,1,...,
K
=
+ −
+
−
=
0.3
0.3
∑
0.2
0.2
m
0
=
0.1
0.1 0
) n ( x
0
N
N
1 −
1 −
) n ( x -0.1
-0.1
-0.2
-0.2
( ) u n
2 ( ) u n
700
750
800
850
900
1000
1050
1100
1150
D iP (
)
0,
i
=
=
0,1,...
∑
∑
700
750
800
850
900
1000
1050
1100
1150
950 n
950 n
1 N
1 N
0.015
n
n
0
0
=
=
⎡ ≤ ⎢ ⎣
0.015 0.01
0.01
0.005
N-1
) k ( r
0.005 0
) k ( r
0
-0.005
D k ( )
x n m x n m k [ (
)
(
2 )]
=
+ −
+
−
-0.005 -0.01
50
100
200
250
300
0 -0.01
VVíí ddụụ
∑
0
50
100
200
250
300
150 k
150 k
0.2
m=0
1/ 2 ⎤ ⎥ ⎦ 1/2 ⎫ ⎬ ⎭
0.2
0.15
0.15
0.1
) k ( D
0.1
) k ( D
0.05
0.05
r k
r
K
0,1,...,
=
[2 (0) 2 ( )] −
=
k
0
50
100
200
250
300
0 0
0
50
100
200
250
300
150 k
1 N 1 N
⎧ λ ⎨ ⎩ ⎧ λ ⎨ ⎩
1/ 2 ⎫ ⎬ ⎭
150 k
6767
6868
1
λvíi
<
17
XXửử lý đ lý đồồng hng hììnhnh DDùùng bng bộộ llọọc đc đảảo o (Simplified Inverse (Simplified Inverse Filter Tracking) Filter Tracking)
10kHz 10kHz
Thông thấp
1-z-1
Thông thấấpp Thông th
W(n)W(n)
LPC(p=4) LPC(p=4)
4700Hz 4700Hz
900Hz 900Hz
A(z)
Hàm tự tương quan
HT/VT HT/VT
Đánh giá kết quả
Nội suy
Tìm cực đại
FoFo
6969
7070
(cid:132)(cid:132) Tham s
Tín hiệu tiếng nói
Cửa sổ
FFT
Bộ lọc hiệu chỉnh
(cid:132)(cid:132) Phương ph
FFT-1
FFT
Log10|.|
Tham sốố ccầần xn xáác đc địịnhnh –– Formant Fk Formant Fk –– DDảải thông Bk i thông Bk Phương pháápp –– XXửử lý đ lý đồồng hng hììnhnh –– LPCLPC
Wc(n)
7171
7272
18
nh formant XXáác đc địịnh formant XXửử lý đ lý đồồng hng hììnhnh
Cửa sổ
Bộ lọc hiệu chỉnh
Tính hệ số ai
s(n)s(n)
FFkk,,BBkk
Tính1/ |A(ejω)| bằng FFT
Tìm cực đại
Quyết định
Tính nghiệm của A(z)
7373
7474
XXửử lý đ lý đồồng hng hììnhnh p LPC Phương phááp LPC Phương ph
(cid:132)(cid:132) MMậật đt độộ xxáác suc suấấtt
(cid:132)(cid:132) Dãy thao t
Dãy thao táác mã ho
i mã c mã hoáá vvàà gigiảải mã
Nhiễu, suy giảm, sai số
ADAD
Lọc1 Lọc1
Mã hoá Mã hoá
/2] /2, ξξ++∆ξ∆ξ/2]
Nhiễu, suy giảm, sai số
NNξξ : : ssốố lư lượợng mng mẫẫu x(n) u x(n) ccóó biên đ trong biên độộ trong khokhoảảng [ng [ξξ--∆ξ∆ξ/2, ,...,NN] ] n n ∈∈[[--NN,..., x egodic vàà ddừừngng x egodic v
DADA
Giải mã Giải mã
Lọc2 Lọc2
p
/(2
N
1)]
( ) ξ
=
+
x
N ξ
lim [ N →∞ 0 ∆ → ξ
7575
7676
19
nh chấất tht thốống kê c ng kê củủa a 3. Mã hóóa tia tiếếng nng nóóii 3. Mã h MMộột st sốố ttíính ch ttíín hin hiệệu tiu tiếếng nng nóóii
nh nghĩĩa:a:
trung bìình cnh củủa ta tíín hin hiệệu du dừừngng
(cid:132)(cid:132) LuLuậật lưt lượợng tng tửử y y = Q= Q(x)(x) đư đượợc đc địịnh ngh u x(0), x(1), ..., x(L) (L+1) mứức tc tíín hin hiệệu x(0), x(1), ..., x(L)
(cid:132)(cid:132) GiGiáá trtrịị trung b ∞
N
–– (L+1) m –– L mL mứức lưc lượợng tng tửử hohoáá
p
( ) x n
=
( ) d ξ ξ ξ
=
µ x
x
(cid:132)(cid:132) MMỗỗi mi mứức lưc lượợng tng tửử hohoáá bibiểểu diu diễễn bn bằằng tng từừ b bitb bit
GiGiáá trtrịị trung b phương sai trung bìình vnh vàà phương sai LưLượợng tng tửử ttứức thc thờời (không nh i (không nhớớ))
∫
lim N →∞
2
1 + ∑ 1 N
n
N
=−
−∞
L = 2bb.. L = 2
p âm lượợng tng tửử) e) e =
(cid:132)(cid:132) Sai sSai sốố lư lượợng tng tửử (t(tạạp âm lư (cid:132)(cid:132) BưBướớc lưc lượợng tng tửử : hi
= Q(x) Q(x) -- x x nhau : hiệệu 2 mu 2 mứức tc tíín hin hiệệu ku kềề nhau
vvớới ti tíín hin hiệệu tiu tiếếng nng nóói i µµxx = 0= 0 Phương sai (cid:132)(cid:132) Phương sai ∞
N
δδ(i) (i) = x= x(i)(i)--x(ix(i--1)1) Thông lượợng I = bFs (bit/s). Fs : t
(cid:132)(cid:132) Thông lư
ng I = bFs (bit/s). Fs : tầần sn sốố llấấy my mẫẫuu
2
( ) d
p
2 ( ) x n
=
ξ ξ ξ
=
2 σ x
x
∫
lim N →∞
2
1 + ∑ 1 N
n
N
=−
−∞
7777
7878
(cid:132)(cid:132) TTíín hin hiệệu lưu lượợng tng tửử 8 bit (256 m
LLĩĩnh vnh vựựcc
TTầần sn sốố llấấy y u (kHz) mmẫẫu (kHz)
SSốố bit cho bit cho 1 m1 mẫẫuu
Thông Thông ng kbit/s luluợợng kbit/s
ng / Dung lượợng / Dung lư t (kbyte) phphúút (kbyte)
kHz →→ Thông lư kHz
4848
1616
768768
11520 11520
Ghi âm chuyên Ghi âm chuyên nghiệệpp nghi
(cid:132)(cid:132) TTíín hin hiệệu lưu lượợng tng tửử 16 bit (65536 m
44,144,1
1616
705,6 705,6
10584 10584
CD Audio CD Audio
8 bit (256 mứức), Fs = 8 c), Fs = 8 ng = 64 kbit/s Thông lượợng = 64 kbit/s 16 bit (65536 mứức), c), Thông lượợng = 256 kbit/s , Fs = 16 kHz →→ Thông lư ng = 256 kbit/s , Fs = 16 kHz 100 Mbyte 1 gi1 giờờ titiếếng nng nóói ~i ~100 Mbyte
3232
1616
512512
7680 7680
Radio FM Radio FM
(cid:132)(cid:132) CCầần phn phảải mã ho
1212
264264
3960 3960
Radio AM Radio AM
2222
Thông lượợngng Thông lư Thông lượợngng Thông lư
i mã hoáá ttíín hin hiệệu tiu tiếếng nng nóói i (MPEG, (MPEG, i trên mạạng ng
GSM, G723, ...) đđểể truytruyềền tin tiếếng nng nóói trên m GSM, G723, ...) c lưu trữữ hohoặặc lưu tr
88
88
6464
960960
ĐiĐiệện tho
n thoạạii
7979
8080
20
(cid:132)(cid:132) TTổổng qu
ng quáát, t, bưbướớc lưc lượợng tng tửử llàà hhààm cm củủa biên đ
L = 9 (cid:132)(cid:132) L = 9
a biên độộ ttíín n đơn giảản nhn nhấất lt làà
không đềều) u) →→ đơn gi
hihiệệu x (u x (lưlượợng tng tửử không đ lưlượợng tng tửử đ đềều.u.
(cid:132)(cid:132) MMứức lưc lượợng tng tửử đư đượợc chc chọọn gin giữữa 2 ma 2 mứức tc tíín hin hiệệuu 1)+x(i)] y(i) = (1/2)[x(i--1)+x(i)] y(i) = (1/2)[x(i
(cid:132)(cid:132) LuLuậật lưt lượợng tng tửử đ đềều vu vàà đ đốối xi xứứng đng đặặc trưng b
c trưng bởởi:i:
c (L+1) = 2bb. .
–– ccáác mc mứức bão ho c bão hoàà ±± xsxs –– mmứức lưc lượợng tng tửử L hoL hoặặc (L+1) = 2
(cid:132)(cid:132) BưBướớc lưc lượợng tng tửử δδ = 2x= 2xss/L/L
8181
8282
LưLượợng tng tửử đ đềềuu LưLượợng tng tửử đ đềềuu
1
L = 16 (cid:132)(cid:132) L = 16
1
1
1
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
0
0
0
0
-0.2
-0.2
-0.2
-0.2
-0.4
-0.4
-0.4
-0.4
-0.6
-0.6
-0.6
-0.6
-0.8
-0.8
-0.8
-0.8
-1
-1 0
2
4
6
8
10
12
14
-1
0
2
4
6
8
10
12
14
-1 0
2
4
6
8
10
12
14
0
2
4
6
8
10
12
14
8383
8484
21
LưLượợng tng tửử đ đềềuu LưLượợng tng tửử đ đềềuu
1
1
(cid:132)(cid:132) MMậật đt độộ xxáác suc suấất sai s
t sai sốố lư lượợng tng tửử
0
l l
0
( (
L L
1) / 2 1) / 2
( ) ( ) ξ ξ
= =
), ), δ ξ δ ξ + +
= =
− −
-1
p p e e
p i ( p i ( x x
l l
∑ ∑
-1 0
2
4
6
8
10
12
0
2
4
6
8
10
12
1
i i
=− =−
l l
1
0
0
(cid:132)(cid:132) phân b
-1
-1 0
2
4
6
8
10
12
0
2
4
6
8
10
12
1
1
ep ξ
0
0
/ 2 / 2
/2 phân bốố đ đềều giu giữữa a -- δδ /2 v/2 vàà + + δδ /2 ( ) 1/ = 0, =
, δ ξ δ ≤ ξ δ >
-1
-1 0
2
4
6
8
10
12
0
2
4
Quantific ation E rror 6
8
10
12
Quantific ation E rror
0.2
0.2
δ
0
0
/ d
/12
=
Trung bìình tnh tạạp âm lư (cid:132)(cid:132) Trung b / 2 Phương sai (cid:132)(cid:132) Phương sai
-0.2
= 00 p âm lượợng tng tửử = 2 2 2 = ξ δ ξ δ σ e
-0.2 0
2
4
6
8
10
12
∫
0
2
4
6
8
10
12
/ 2
δ
−
8585
8686
LưLượợng tng tửử đ đềềuu CCáác tc tíính ch nh chấất lưt lượợng tng tửử đ đềềuu
(cid:132)(cid:132) TTỷỷ ssốố ttíín hin hiệệu trên nhi
u trên nhiễễuu
s
SN
=
=
W W
N¨ng l−îng tÝn hiÖu N¨ng l−îng nhiÔu
n
SN
10 lg
(d B)
b 6, 02
=
=
+
4, 77 20 lg −
2 σ x 2 σ e
x s σ x
⎛ ⎜ ⎝
⎞ ⎟ ⎠
⎛ ⎜ ⎝
⎞ ⎟ ⎠
SN
10 log SN
=
dB
10
SN
(d B)
b 6
7,3
4 σ=
→
=
−
NÕu
sx
max
hohoặặcc
i khi tăng 1 b1 bit lưit lượợng tng tửử. . ĐĐểể
SN
20 log
=
dB
10
VVớới b i b ≥≥ 6, 6, tăng ccóó chchấất lưt lượợng th
tăng 6 dB 6 dB mmỗỗi khi tăng ng thíích hch hợợp cp cầần cn cóó b b ≥≥ 1111
Biª n ®é tÝn hiÖu Biª n ®é nhiÔu
8787
8888
22
CCáác tc tíính ch nh chấất lưt lượợng tng tửử đ đềềuu TTỷỷ ssốố ttíín hin hiệệu trên nhi u trên nhiễễuu
Năng lượợngng Năng lư
SN (dB) SN (dB)
y logarit biên độộ ttíín hin hiệệu su sẽẽ mã homã hoáá tuytuyếến n ) y(n)
Sau khi lấấy logarit biên đ (cid:132)(cid:132) Sau khi l ttíínhnh
y(n)
TTíín hin hiệệu = Nhi
u = Nhiễễuu
00
x(n)
c(n)
Q[]Q[]
Mã hóa Mã hóa
log[] log[]
TTíín hin hiệệu = 2 Nhi
u = 2 Nhiễễuu
22
TTíín hin hiệệu = 10 Nhi
u = 10 Nhiễễuu
1010
signe[] signe[]
TTíín hin hiệệu = 100 Nhi
u = 100 Nhiễễuu
2020
ˆy'(n)
ˆx'(n)
ˆx'(n)
TTíín hin hiệệu = 1000 Nhi
u = 1000 Nhiễễuu
3030
c’(n)
Giải mã Giải mã
exp[] exp[]
u = 10NN NhiNhiễễuu
N x 10 N x 10
TTíín hin hiệệu = 10
signe[x(n)]
9090
8989
TTỷỷ ssốố ttíín hin hiệệu trên nhi u trên nhiễễuu logarit LưLượợng tng tửử logarit
(cid:132)(cid:132) Hai gi
ng cho điệện tho
n thoạạii
(cid:132)(cid:132) Hai gi
n thoạạii
Hai giảải phi phááp dp dùùng cho đi ng cho điệện tho châu Âu)) t A(dùùng ng ởở châu Âu –– LuLuậật A(d
Hai giảải phi phááp dp dùùng cho đi –– LuLuậật t µµ (d(dùùng ng ởở MMỹỹ))
A x
1 log +
y
=
log(1
x
)
+
µ
A
1 log +
y
=
log(1
+
) µ
255
87,56
µ=
=
A (cid:0)
8 b8 bit logarit ~
it logarit ~ 12 bi
12 bit lưt lượợng tng tửử đ đềềuu
9191
9292
23
logarit LưLượợng tng tửử logarit logarit LưLượợng tng tửử logarit
(cid:132)(cid:132) BưBướớc lưc lượợng tng tửử tutuỳỳ thuthuộộc vc vàào biên đ
o biên độộ ttíín hin hiệệuu
ch nghi sau –– ThThíích nghi sau
ˆy(n)
–– ThThíích nghi trư
ch nghi trướớcc
Q[]Q[]
Mã hóa Mã hóa
y(n)= x(n) G(n) y(n)= x(n) G(n)
ˆy(n)
y(n)y(n)
x(n)x(n)
x(n)x(n)
c(n)c(n)
Q[]Q[]
Mã hóa Mã hóa
c(n)c(n)
∆∆
G(n)G(n)
G(n)G(n)
δδ
G(n)G(n)
Thích nghi Thích nghi độ k.đại độ k.đại
Thích nghi Thích nghi độ k.đại độ k.đại
ˆy'(n)
cc’’(n)(n)
ch nghi LưLượợng tng tửử ththíích nghi ch nghi LưLượợng tng tửử ththíích nghi
::
ˆ x'(n) =
Giải mã Giải mã
ˆy'(n)
ˆ y'(n) G'(n)
ˆ x'(n) =
::
cc’’(n)(n)
Giải mã Giải mã
ˆ y'(n) G'(n)
GG’’(n)(n)
9393
9494
GG’’(n)(n)
Thích nghi Thích nghi độ k.đại độ k.đại
(cid:132)(cid:132) TTạạo tio tiếếng nng nóói xui xuấất pht pháát tt từừ bibiểểu diu diễễn n
ngngữữ âm c
bits, 8kHzz bps, 3 bits, 8kH
kbps, 4bits, 8ts, 8kHzkHz DPCM, 32 kbps, 4bi n 64 kbps, ADPCM, 48 đ đếến 64 kbps, ADPCM, 24 kbps, 3
âm củủa la lờời ni nóóii (cid:132)(cid:132) KKỹỹ thuthuậật tt tổổng hng hợợp tip tiếếng nng nóói:i:
ng, 13 kbps i di độộng, 13 kbps
n thoạại di đ
điệện tho
G.721 : A: ADPCM, 32 (cid:132)(cid:132) G.721 G.722 : ~: ~ADPCM, 48 (cid:132)(cid:132) G.722 G.723 : ~: ~ADPCM, 24 k (cid:132)(cid:132) G.723 G.728 : 1: 16 K6 Kbpsbps (cid:132)(cid:132) G.728 GSM : đi (cid:132)(cid:132) GSM : Linear Predictive Encoding (Xerox), 5 kbps (cid:132)(cid:132) Linear Predictive Encoding (Xerox), 5 kbps Code Excited Linear Prediction (CELP) (cid:132)(cid:132) Code Excited Linear Prediction (CELP) Digital Video Interactive : ~ADPCM, M, 4 4 đđếến 8 bits n 8 bits (cid:132)(cid:132) Digital Video Interactive : ~ADPC VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s) (cid:132)(cid:132) VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)
–– TTổổng hng hợợp trp trựực tic tiếếpp –– TTổổng hng hợợp dp dựựa trên mô h a trên mô hììnhnh (cid:132)(cid:132) BBộộ ttổổng hng hợợp formant p formant (cid:132)(cid:132) BBộộ ttổổng hng hợợp dp dùùng LPC ng LPC (cid:132)(cid:132) BBộộ ttổổng hng hợợp mô ph
p mô phỏỏng bng bộộ mmááy phy pháát âmt âm
9595
9696
24
n mã hoáá 4. T4. Tổổng hng hợợp tip tiếếng nng nóóii MMộột st sốố chuchuẩẩn mã ho âm thanh/tiếếng nng nóóii âm thanh/ti
nhiên (cid:132)(cid:132) ChChấất lưt lượợng bng bộộ ttổổng hng hợợp: Mp: Mứức đc độộ ttựự nhiên
c đơn vịị ghi âm: t
, câu. ghi âm: từừ, câu.
–– MMứức đc độộ rõ rõ –– Thanh đi Thanh điệệuu điệệuu –– NgNgữữ đi (cid:132)(cid:132) SSốố lư lượợng tng từừ vvựựng:ng:
–– HHạạn chn chếế –– Không h
Không hạạn chn chếế
(cid:132)(cid:132) BBộộ ttổổng hng hợợp tip tiếếng nng nóói ti từừ văn b
văn bảản (Text
n (Text--toto--
Speech) Speech)
nhiên Ghi âm tiếếng nng nóói ti tựự nhiên (cid:132)(cid:132) Ghi âm ti -- Đơn v Đơn vịị ghi âmghi âm -- GhGhéép cp cáác đơn v Đơn vịị ghi âmghi âm (cid:132)(cid:132) Đơn v âm vịị –– âm v –– âm ti t (diphone) âm tiếết (diphone) –– ttừừ –– ttổổ hhợợp tp từừ –– câucâu
9797
9898
Phân loạạii Phân lo TTổổng hng hợợp trp trựực tic tiếếpp
p formant TTổổng hng hợợp formant p LPC TTổổng hng hợợp LPC
A1
FF00
FF11 FF22 FF33
FF00
o xung TTạạo xung Tạo xung
A
o xung TTạạo xung Tạo xung
A2
Khoang miệệngng Khoang mi
BBộộ llọọc sc sốố Bộ lọc số bbậậc pc p bậc p
TTạạo to tạạp âmp âm Tạo tạp âm
A3
a1 a2 ... ap
Kênh mũũii Kênh m Kênh mũi
Synthesis-by-Analysis
A4
BB11 BB22 BB33
9999
100100
TTạạo to tạạp âmp âm Tạo tạp âm
25
NguNguồồn âmn âm
TuyTuyếến âmn âm
Tham sốố đi Tham s
điềều khi
u khiểểnn
Mô hình 2 khối
(cid:132)(cid:132) Mô phMô phỏỏng ngu
n âm (nguồồn tun tuầần hon hoààn)n) ng nguồồn âm (ngu Mô phMô phỏỏng dây thanh:Mô h ng dây thanh:Mô hìình mnh mộột kht khốối, Mô h i, Mô hìình nhi hai khốối, Mô h hai kh
nh nhiềều khu khốối, Mô h
i, Mô hìình hai d
i, Mô hìình nh nh hai dầầm...m...
Mô hình nhiều khối
101101
102102
Mô hình 2 dầm
Mô phMô phỏỏng bng bộộ mmááy phy pháát âmt âm Mô hMô hìình ngu nh nguồồn âmn âm
(cid:132)(cid:132) GiGiảả thi
Rời rạc hóa
ch không quáá đ độột ngt ngộộtt
thiếếtt ch ngăn cứứngng –– VVáách ngăn c ng (dọọc theo tr c theo trụục c n đơn hướớng (d –– SSóóng truy ng truyềền đơn hư ốống)ch < 5000 Hz, biếến n ng)chỉỉ xxéét ct cáác tc tầần sn sốố < 5000 Hz, bi thiên diệện tn tíích không qu thiên di –– BBỏỏ qua t
n hao: tíính lnh lỏỏng, truy
qua tổổn hao: t
ng, truyềền nhi
n nhiệệtt
103103
104104
26
Mô phMô phỏỏng tuy ng tuyếến âmn âm Mô hMô hìình ph nh phảản xn xạạ
ỐỐng ti
ng tiếết di
t diệện đn đềều, không t
n hao u, không tổổn hao
Tương tựự âm h Tương t âm họọc c –– đi điệện hn họọcc
Âm hÂm họọcc
ĐiĐiệện hn họọcc
(cid:132)(cid:132) ỐỐng ti
ng tiếết di
t diệện đn đềều vu vàà ng dây tương đương đưđườờng dây tương đương
p: p: ÁÁp sup suấấtt
v:v: Đi
Điệện n áápp
u: u: Thông lư
Thông lượợngng
i: i: Dòng đi
Dòng điệệnn
L:L: Đi
Điệện cn cảảmm
/A: Đi
m âm họọcc
Điệện cn cảảm âm h
v(l,t)=0
(cid:132)(cid:132) HHệệ phương tr
nh Webster phương trìình Webster
C:C: Đi
n dung Điệện dung
n dung âm họọcc
ρρ00/A: A/A/ρρ00cc22: : ĐiĐiệện dung âm h
+
−
u x t ( , )
u
t
u
t
−
=
−
+
−
=
x c
x c
⎛ ⎜ ⎝
⎛ ⎜ ⎝
ρ 0 A
u ∂ t ∂
c
+
−
=
−
p x t ( , )
u
t
u
t
=
−
+
+
2
p ∂ t ∂
A c
⎞ ⎟ ⎠ x c
⎛ ⎜ ⎝
⎛ ⎜ ⎝
⎞ ⎟ ⎠
⎞ ⎟ ⎠
⎡ ⎢ ⎣
⎤ ⎥ ⎦
ρ 0 A không khíí, , cc: v: vậận tn tốốc sc sóóng âmng âm
⎞ p ∂ ⎟ ⎠ x ∂ u ∂ x x ∂ ρ c 0 hông lượợng, ng, pp: : ááp sup suấất, t, ρρ: m: mậật đt độộ không kh uu: t: thông lư
105105
106106
t
u
) j e Ω
t U =
Ω
(cid:132)(cid:132) SSóóng tng tớới vi vàà ssóóng ph
ng phảản xn xạạ ccóó ddạạngng
i môi (cid:132)(cid:132) TTạại môi
j
j
)
)
t ( Ω −
t ( Ω +
x
U
U
(
)
( , ) l ) Ω =
Ω
G
+
−
= ⇒ l
( , l
x c
x c
u
t
+ K e
u
t
− K e
−
=
+
=
,
c
)
x c
x c
⎛ ⎜ ⎝
⎞ ⎟ ⎠
⎛ ⎜ ⎝
⎞ ⎟ ⎠
(cid:132)(cid:132) ĐĐááp p ứứng tng tầần sn sốố
H
(
=
) Ω =
–– ĐiĐiềều kiu kiệện biên t
t
( ( , l (
cos U U
cos(
c / )
( , l 1 / Ω l ) Ω ) Ω
G
1 Ω l
(
) j e Ω
=
Ω
G
u t U ( ) G 0
H
(
i môi n biên tạại môi
–– ĐiĐiềều kiu kiệện biên t
i thanh môn n biên tạại thanh môn (0, ) t u = t = p ( , ) l
víi c
) (2
f
=
j t Ω
j t Ω
p x t ( , )
,
u x t ( , )
=
( ) e Ω
( ) e Ω
=
U G
U G
jZ 0
)/ ] x c c /
)/ ] x c c /
sin[ ( Ω − l cos Ω l
cos[ ( Ω − l cos Ω l
Ω → ∞ 1) n + 4 l cm
Z
)
j
Ω = Ω
0 (
c=350 m/s Hz
l f
17,5 , = 500,1500, 2500... =
107107
108108
ρ 0 A
27
XXéét trong mi t trong miềền tn tầần sn sốố ĐĐááp p ứứng tng tầần sn sốố
n hao không tổổn hao n hao không tổổn hao
nh phảản xn xạạ không t Mô hMô hìình ph Lochbaum) (Kelly--Lochbaum) (Kelly nh phảản xn xạạ không t Mô hMô hìình ph Lochbaum) (Kelly--Lochbaum) (Kelly
(t)
u
(t - τ
)
+ k + 1u
+ k + 1
k + 1
(cid:132)(cid:132) TTíính liên t
thông lượợngng
u (t - τ )
+ ku (t)
k
+ k
k
k 1 +
nh liên tụục cc củủa a ááp sup suấất vt vàà thông lư p u
(0, t) (0, t)
= =
k
k 1 +
-
k
u (t + τ )
ku (t)
k
- k
u
(t)
(t)
u (t - τ)
u
=
+
+ k+1
+ k
− k 1 +
-
(t)
u
(t + τ
)
k + 1u
- k + 1
k + 1
k
k
u (t+ τ)
u
(t)
u (t - τ)
= −
+
− k
+ k
− k 1 +
0
kl
p ( , t) l u ( , t) l 2 A k+1 A + A k+1 k A A − k+1 A + A k+1
k
k
k 1+l
k
tiết diện Ak
=
r k
k
τ
tiết diện Ak+1 τ =
=
= τ
k
k +1
(cid:132)(cid:132) CCáác c ốống cơ b
ng cơ bảản cn cóó ccùùng chi
0 ng chiềều du dàài i
l c
(cid:132)(cid:132) ĐĐặặt ht hệệ ssốố phphảản xn xạạ u (t) u (t+ τ)
(t)
+ (1 r ) u (t - τ) = + k k + r u (t - τ) = − k k
+ k+1 − k
A A − k+1 A + A k+1 k 2 A A + A k+1 A A − k+1 A + A k+1 − (t) r u + k k 1 + − (1 r ) u + − k 1 k +
109109
110110
ch chuyểển không kh
n không khíí trong tuy
trong tuyếến âmn âm
(cid:132)(cid:132) TTổổn hao do d
+
+
ku (t)+
k+1u (t)
+ −τ ku (t )
k 1u (t
(1 r )+ k
) + −τ
Phân bốố ssóóngng Phân b n hao HiHiệệu u ứứng cng củủa ca cáác tc tổổn hao
trÔ τ
trÔ τ
kr−
kr
n hao do dịịch chuy a không khíí –– Do tDo tíính lnh lỏỏng cng củủa không kh –– Do truy n nhiệệtt –– Do rung v
Do truyềền nhi ch ngăn Do rung váách ngăn
tính lỏng
trÔ τ
trÔ τ
−
(1 r )− k
− +τ ku (t )
− +τ k+1u (t )
ku (t)−
k+1u (t)
0
0
Ống k
Ống k+1
l
l
Tiếp giáp
rung
truyền nhiệt
111111
112112
28
Dải thông
(cid:132)(cid:132) TTổổn hao do b –– Mô hMô hìình qu
i môi n hao do bứức xc xạạ ttạại môi nh quảả bbóóng vô h
ng vô hạạnn
Bức xạ tại môi
–– TrTrởở khkhááng bng bứức xc xạạ Z
=
=
r
Rung
p U (
j L R Ω r r j L + Ω r
R r
( ) Ω , ) Ω l
Nhiệt+lỏng
,
=
=
8 a c 3 π
128 2 9 π
L R r r a : b¸n kÝnh më t¹i m«i
113113
114114
n hao HiHiệệu u ứứng cng củủa ca cáác tc tổổn hao HiHiệệu u ứứng chung c n hao ng chung củủa ca cáác tc tổổn hao
(cid:132)(cid:132) NhNhậận dn dạạng tng từừ riêng l
riêng lẻẻ, t, từừ vvựựng ng íít (<100), m
t (<100), mộột ngư
t ngườời i
n: huấấn luyn luyệện (hn (họọc) c) –– nhnhậận dn dạạngng
nnóóii
(cid:132)(cid:132) Hai giai đo (cid:132)(cid:132) Phân lo
u hơn (v(vàài ngh
ng nhiềều hơn
t ngườời ni nóóii
Như trên nhưng cho hệệ ththốống nhi
i nghììn tn từừ), m), mộột ngư ng nhiềều ngư
u ngườời ni nóóii
(cid:132)(cid:132) TTừừ vvựựng nhi (cid:132)(cid:132) Như trên nhưng cho h (cid:132)(cid:132) NhNhậận dn dạạng cng cáác tc từừ đi v
đi vớới nhau, t
i nhau, từừ vvựựng ng íít (ht (hààng ng
liên tụụcc
chchụục tc từừ))
t ngườời ni nóói i –– nhinhiềều ngư
u ngườời ni nóóii
(cid:132)(cid:132) NhNhậận dn dạạng câu ng
ng câu ngắắn, tn, từừ vvựựng hng hạạn chn chếế, m, mộột ngư
t ngườời i
Hai giai đoạạn: hu i theo Phân loạại theo –– SSốố lư lượợng tng từừ vvựựngng –– TTừừ rrờời ri rạạc c –– liên t –– MMộột ngư –– NhNhậận dn dạạng tng từừ –– câucâu
nnóóii Như trên nhưng cho hệệ ththốống nhi
(cid:132)(cid:132) Như trên nhưng cho h (cid:132)(cid:132) NhNhậận dn dạạng lng lờời ni nóói liên t
ng nhiềều ngư i liên tụục, mc, mộột hot hoặặc nhi
u ngườời ni nóóii c nhiềều ngư
u ngườời i
nnóóii
115115
116116
29
5. Nhậận dn dạạng ti 5. Nh ng tiếếng nng nóóii Phân loạại theo đ Phân lo i theo độộ phphứức tc tạạpp
NhNhậận dn dạạng ngư
ng ngườời ni nóói i (Speaker Recognition) (Speaker Recognition)
MMộột st sốố vvấấn đn đềề đ đốối vi vớới hi hệệ ththốống ng nhnhậận dn dạạng ti
ng tiếếng nng nóóii
n khoảảng lng lặặngng
t hiệện kho i thiệện chn chấất lưt lượợng tng tíín hin hiệệu tiu tiếếng nng nóói (gi
i (giảảm m
(cid:132)(cid:132) KiKiểểm tra (verification) gi (cid:132)(cid:132) ĐĐịịnh danh (identification) gi
m tra (verification) giọọng nng nóóii nh danh (identification) giọọng nng nóóii
(cid:132)(cid:132) PhPháát hi (cid:132)(cid:132) CCảải thi nhinhiễễu)u)
(cid:132)(cid:132) TiTiếếng nng nóói đưi đượợc phc pháát âm v
t âm vớới thi thờời hi hạạn vn vàà
nhnhịịp đip điệệu khu kháác c
(cid:132)(cid:132) Mô hMô hìình nh
nh nhậận dn dạạngng
–– Mô hMô hìình Markov
n (Hidden Markov Model: nh Markov ẩẩn (Hidden Markov Model:
HMM) HMM) –– MMạạng nơ
ng nơ--ronron
117117
118118
30