(cid:132)(cid:132)

La parole et son traitement automatique La parole et son traitement automatique Calliope, Masson, 1989 Calliope, Masson, 1989

Traitement de la parole (cid:132)(cid:132) Traitement de la parole Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987 Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987

TTàài li i liệệu tham kh u tham khảảoo

Fundamentals of Speech Signal Processing (cid:132)(cid:132) Fundamentals of Speech Signal Processing Saito S., Nakata K. , Academic Press, 1985 Saito S., Nakata K. , Academic Press, 1985

Digital Processing of Speech Signals (cid:132)(cid:132) Digital Processing of Speech Signals Hall .1978 Lawrence R. Rabiner, Ronald W. Schafer, Prentice--Hall .1978 Lawrence R. Rabiner, Ronald W. Schafer, Prentice

(cid:132)(cid:132) Discrete

Discrete--Time Processing of Speech Signals Time Processing of Speech Signals John R. Deller, John G. Proakis, Hansen John H. L. 1999 John R. Deller, John G. Proakis, Hansen John H. L. 1999

(cid:132)(cid:132) TiTiếếng Vi

ng Việệt hi

i (Ngữữ âm, ng

âm, ngữữ phphááp, phong c

p, phong cáách)ch)

TrTrịịnh Văn Loan nh Văn Loan BBộộ môn Kmôn Kỹỹ thuthuậật Mt Mááy ty tíínhnh ĐHBK Hàà NNộộii Khoa CNTT, ĐHBK H Khoa CNTT,

t hiệện đn đạại (Ng i, 1994 NguyNguyễễn Hn Hữữu Quu Quỳỳnh, Hnh, Hàà NNộội, 1994

(cid:132)(cid:132) DDẫẫn lun luậận Ngôn ng

n Ngôn ngữữ hhọọc c

NguyNguyễễn Thi

n Thiệện Gin Giááp,p, Đo Đoààn Thi

n Thiệện Thu

n Thuậật , Nguy

t , Nguyễễn Minh Thuy

i, 1994 n Minh Thuyếết, Ht, Hàà NNộội, 1994

(cid:132)(cid:132)

http://dce.hut.edu.vn http://dce.hut.edu.vn

11

22

XXỬỬ LÝ TI LÝ TIẾẾNG NNG NÓÓII

lý thông tin chứứa trong t

m cơ bảảnn

i niệệm cơ b lý tíín hin hiệệu tiu tiếếng nng nóóii

(cid:132)(cid:132) XXửử lý thông tin ch nhnhằằm truym truyềền, n, lưu tr p, nhậận dn dạạng ti hhợợp, nh

a trong tíín hin hiệệu tiu tiếếng nng nóói i lưu trữữ ttíín hin hiệệu nu nàày hoy hoặặc tc tổổng ng ng tiếếng nng nóói.i.

i yêu cầầu nhu nhữững hi

1. M1. Mộột st sốố khkháái ni 2. X2. Xửử lý t 3. Mã hoáá titiếếng nng nóóii 3. Mã ho 4. T4. Tổổng hng hợợp tip tiếếng nng nóóii 5. Nhậận dn dạạng ti 5. Nh

ng tiếếng nng nóóii

(cid:132)(cid:132) CCáác nghiên c titiếếng nng nóói yêu c llĩĩnh vnh vựực ngc ngàày cy cààng đa d ngôn ngữữ hhọọc cho đ ngôn ng

c nghiên cứứu đưu đượợc tic tiếến hn hàành đnh đểể xxửử lý lý t trên nhiềều u ng hiểểu biu biếết trên nhi ng: từừ ngngữữ âm v âm vàà lý tíín hin hiệệu...u...

ng đa dạạng: t c cho đếến xn xửử lý t

33

44

1

i dung NNộội dung 1. M1. Mộột st sốố khkháái ni i niệệm cơ b m cơ bảảnn

(cid:132)(cid:132) Mã ho

(cid:132)(cid:132) Phân bi

âm thanh t tiếếng nng nóói vi vàà âm thanh

c âm c phân biệệt vt vớới ci cáác âm

(cid:132)(cid:132) TTổổng hng hợợpp vvàà nhnhậận dn dạạngng titiếếng nng nóói ti

nh âm họọc cc cóó

p ngườờii--mmááy by bằằng ti

i giao tiếếp ngư

ttớới giao ti

Mã hoáá mmộột ct cáách cch cóó hihiệệu quu quảả ttíín hin hiệệu u lưu trữữ titiếếng nng nóói.i. titiếếng nng nóói đi đểể truytruyềền vn vàà lưu tr i tiếến n ng tiếếng nng nóói.i. lý tiếếng ng

(cid:132)(cid:132) TTấất ct cảả ccáác c ứứng dng dụụng cng củủa xa xửử lý ti

(cid:132)(cid:132) CCóó 2 lo2 loạại ngu

a trên cáác kc kếết qut quảả

nnóói đi đềều cu cầần phn phảải di dựựa trên c phân tííchch titiếếng nng nóóii ccủủa a phân t

Phân biệệt ti TiTiếếng nng nóói đưi đượợc phân bi thanh kháác bc bởởi ci cáác đc đặặc tc tíính âm h thanh kh cơ chếế ttạạo tio tiếếng nng nóói.i. ngunguồồn gn gốốc tc từừ cơ ch i nguồồn âmn âm –– tutuầần hon hoààn (dây thanh rung) n (dây thanh rung) p âm (dây thanh không rung) –– ttạạp âm (dây thanh không rung)

55

66

MMụục đc đííchch MMộột st sốố khkháái ni i niệệm cơ b m cơ bảảnn

77

88

2

BBộộ mmááy phy pháát âmt âm BBộộ mmááy phy pháát âmt âm

NASAL CAVITY: Khoang mũi

SOFT PALATE: Vòm miệng mềm

EPIGLOTTIS: Nắp thanh quản

VOCAL FOLDS (CORDS): Dây thanh

OESOPHAGUS: Thực quản

TRACHEA: Khí quản

PHARYNX: Họng

99

1010

1.1. MMéét st sèè khkh¸¸i ni

i niÖÖm cm c¬¬ bb¶¶nn

BBộộ mmááy phy pháát âmt âm Sơ đSơ đồồ khkhốối bi bộộ mmááy phy pháát âmt âm

(cid:132)(cid:132) ỞỞ ccáác vc vịị trtríí hhíít, tht, thởở,ph,pháát âm, n

t âm, nóói thi thìì ththààoo

Thanh môn

Dây thanh

Thanh môn Thanh môn Thanh môn Thanh môn

A. Glotte pendant la respiration B. Glotte pour la phonation 1. Glotte

2. Cordes vocales

3. Epiglotte

5. Cartilages aryténoïdes

1111

1212

3

(cid:132)(cid:132) DDạạng sng sóóng theo th

i gian ng theo thờời gian

1313

1414

t chu kỳỳ BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii Dây thanh trong mộột chu k Dây thanh trong m dao độộng ng dao đ

u: 8kHz, F1= 11025 Hz, (cid:132)(cid:132) TTầần sn sốố llấấy my mẫẫu: 8kHz, F1= 11025 Hz,

(cid:132)(cid:132) PhPhổổ ttíín hin hiệệu tiu tiếếng nng nóóii

2F1, 4F1 (16kHz, 10kHz) 2F1, 4F1 (16kHz, 10kHz) (cid:132)(cid:132) SSốố bit/mbit/mẫẫu: 8,16 u: 8,16 Mono, Stereo (cid:132)(cid:132) Mono, Stereo

1515

1616

4

File WAV File WAV BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii

Spectrogram (Sonagram) (cid:132)(cid:132) Spectrogram (Sonagram)

1717

1818

BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii

(cid:132)(cid:132) Thu b

Thu bằằng micro kh

ng micro kháác loc loạạii

1919

2020

5

BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii

(cid:132)(cid:132) Hai gi

Hai giọọng kh

ng kháác nhau cho c

c nhau cho cùùng mng mộột âmt âm

(cid:132)(cid:132) CCùùng ngư

ng ngườời ni nóói, ci, cùùng mng mộột âmt âm

2121

2222

Năng lượợng, t Năng lư

ng, tỷỷ llệệ bibiếến thiên qua gi

không n thiên qua giáá trtrịị không

file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1

BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii BiBiểểu diu diễễn tn tíín hin hiệệu tiu tiếếng nng nóóii

0.4

0.2

e d u

0

t i l

p m a

-0.2 -0.4

Signal

-0.6

3

0

0.5

1

2

2.5

3.5

1.5

En

4

y g r e n e

3

e m

2

1

i t - t r o h s

3

3.5

0.5

1.5

1

2

2.5

e d u

15

Mn

t i

10

n g a m e m

5

i t - t r o h s

3

3.5

0.5

1.5

1

2

2.5

80

ZC

60

e t a r g n

i

40

20

2323

2424

s s o r c o r e z

0

3

3.5

1

2

2.5

0.5

1.5

time in seconds

6

u thanh o âm hữữu thanh TTạạo âm h antiformant Formant vàà antiformant Formant v

u (6), biếến đn đổổi thanh đi

i thanh điệệu u

Đơn âm tiếếtt (cid:132)(cid:132) Đơn âm ti thanh điệệu (6), bi (cid:132)(cid:132) CCóó thanh đi kkèèm theo bi m theo biếến đn đổổi ngh Không biếến đn đổổi hi hìình th

(cid:132)(cid:132) Không bi

i nghĩĩaa nh thááii

2525

2626

o âm vô thanh TTạạo âm vô thanh MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệt t

(cid:132)(cid:132) HHệệ ththốống âm v nguyên âm đơn, 3, 3 nguyên âm đôi nguyên âm đơn

ng âm vịị: 14 nguyên âm nguyên âm đôi, 22 ph

: 14 nguyên âm (11 (11 , 22 phụụ âm)âm)

(cid:132)(cid:132) HHệệ ththốống âm v bb bbồồng bng bềềnhnh

: 22 phụụ âmâm ng âm vịị: 22 ph 1212 trtr

11

trtrồồngng

11

i,yi,y

ý chý chíí

22

pp

ốốp p éépp

sinh viên sinh viên

ss

1313

22

êê

ê chê chềề

33

vv

vvẩẩn vơn vơ

rrừừngng

rr

1414

11

33

ee

e de dèè

44

phph

phôi pha phôi pha

chông chông

chch

1515

ia,yê,ya,iê ia,yê,ya,iê c ia, yê) ((đđọọc ia, yê)

44

aa

a haa ha

a, yêu kia kììa, yêu kia k kikiềều, khuya, tiên u, khuya, tiên titiếếnn

55

mm

mơ mmơ mààngng

nhnhọọcc

nhnh

1616

55

ăă

mmắắtt

22

tua rua, luôn tua rua, luôn

66

đđ

t đai đđấất đai

ng,ngh ng,ngh

ngô nghê ngô nghê

1717

66

ơơ

bơ phờờ bơ ph

ua,uô ua,uô c ua) ((đđọọc ua)

77

tt

tin tưởởngng tin tư

c,k,qc,k,q

t,qua con,kẹẹt,qua con,k

1818

77

ââ

ân cân cầầnn

33

88

thth

thơ thẩẩnn thơ th

khkhúúcc

khkh

1919

88

ưư

ttừừ ttừừ

ưaưa,,ươươ ((đđọọc ưac ưa))

lưa thưa,, lưa thưa lưlượợt t

99

d,gid,gi

duyên, giữữ duyên, gi

ggồồ ghghềề

g,ghg,gh

2020

99

ôô

ôtôôtô

1010

nn

nnóóngng

hhảả hêhê

hh

2121

1010

oo

co ro co ro

2727

2828

1111

uu

llùù mmùù

1111

ll

long lanh long lanh

xa xôi xa xôi

xx

2222

7

MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt

(cid:132)(cid:132) Phân lo

(cid:132)(cid:132) Phân lo

Phân loạại nguyên âm theo đ ccủủa lưa lưỡỡi vi vàà chuy

i nguyên âm theo độộ nâng nâng chuyểển đn độộng cng củủa lưa lưỡỡii

Phân loạại nguyên âm theo đ mimiệệng vng vàà chuy

i nguyên âm theo độộ mmởở ccủủa a chuyểển đn độộng cng củủa lưa lưỡỡii

HHààngng

MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt

hhààng trư

ng trướớcc

ĐĐộộ nângnâng

hhààng sau không ng sau không tròn môi tròn môi

hhààng sau ng sau tròn môi tròn môi

caocao

trung bììnhnh trung b

ththấấpp

ĐĐộộ mmởở

HHààngng

u ua u ua

hhẹẹpp

i ia,yê,ya,iê i ia,yê,ya,iê

ư ưa ư ưa

trưtrướớcc

i e i e

ee

hơi hẹẹpp hơi h

êê

ôô

ơ â ơ â

gigiữữaa

ưư

ơ â ơ â

a ă a ă

hơi rộộngng hơi r

ee

oo

sausau

u ô u ô

oo

rrộộngng

a ă a ă

2929

3030

(cid:132)(cid:132) Âm tÂm tắắc: tic: tiếếng nng nổổ, ph, pháát sinh do lu

t sinh do luồồng kh

ng khíí ttừừ phphổổi đi ra b

i đi ra bịị ccảản trn trởở hohoààn n

t ra. n, phảải phi pháá vvỡỡ ssựự ccảản trn trởở đ đóó đ đểể thothoáát ra.

(cid:132)(cid:132) Phân lo

c hay xáát, t,

t, pháát sinh do lu

t sinh do luồồng không kh

ng không khíí đi ra b

đi ra bịị ccảản trn trởở

t: tiếếng cng cọọ xxáát, ph

n (chỉỉ bbịị khkhóó khăn

khăn), ph

), phảải li láách qua m

ch qua mộột khe h

t khe hởở nhnhỏỏ vvàà

Phân loạại phi phụụ âm theo t hhữữu thanh hay vô thanh, m

âm theo tắắc hay x u thanh hay vô thanh, mũũi hi hóóaa

t ra như vậậy phy phảải ci cọọ xxáát vt vàào tho thàành cnh củủa ba bộộ mmááy phy pháát t

totoààn, ph (cid:132)(cid:132) Âm xÂm xáát: ti không hoààn ton toààn (ch không ho trong khi thoáát ra như v trong khi tho âm.âm.

MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt MMộột st sốố đ đặặc đic điểểm ngm ngữữ âm âm titiếếng Vi ng Việệtt

Vị trí cấu âm

Đầu lưỡi

Mặt lưỡi

Cuối lưỡi Họng

(cid:132)(cid:132) PhPhụụ âm bên

i tiếếp xp xúúc vc vớới li lợợi chi chặặn ln lốối tho

i thoáát ct củủa không kh

Môi

Răng

Vòm miệng

Phương thức cấu âm

hai bên cạạnh lưnh lưỡỡi ti

a không khíí, , i tiếếp gip giááp vp vớới mi máá

Bật hơi

th

âm bên: : đđầầu lưu lưỡỡi ti bubuộộc nc nóó phphảải li láách qua khe h mmàà ra ngo

ch qua khe hởở ởở hai bên c o nên tiếếng xng xáát nht nhẹẹ (l).(l).

ra ngoàài ti tạạo nên ti ng không khíí thothoáát ra ngo

(cid:132)(cid:132) LuLuồồng không kh

o nên tiếếng xng xáát hay ti

t hay tiếếng ng

Vô thanh

p

t

tr

ch

c,k,qu

t ra ngoàài bi bịị ccảản trn trởở, t, tạạo nên ti u không tuầần hon hoààn gn gọọi li làà titiếếng đng độộng (ng (ồồn).n).

Ồn

Tắc

t âm mộột st sốố phphụụ âm, dây thanh c

âm, dây thanh cũũng ho

ng hoạạt đt độộng đng đồồng ng

(cid:132)(cid:132) Trong khi ph

Không bật hơi

nnổổ, d, dạạng tng tíín hin hiệệu không tu Trong khi pháát âm m ththờời ti tạạo nên ti

Hữu thanh

b

đ

Vang mũi

nh

ng thanh. o nên tiếếng thanh. âm cóó ttỉỉ llệệ titiếếng đng độộng lng lớớn hơn g ng thanh lớớn hơn g âm cóó ttỉỉ llệệ titiếếng thanh l

(cid:132)(cid:132) PhPhụụ âm c (cid:132)(cid:132) PhPhụụ âm c

n hơn gọọi li làà phphụụ âm âm ồồn.n. âm vang. n hơn gọọi li làà phphụụ âm vang.

h

Ồn

Xát

Vô thanh Hữu thanh

m ph v

s r

ng,ngh kh g

Vang bên

n x d,gi l

3131

3232

8

trị

phê

tìm

đánh

tám

vẽ

chè

3333

3434

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms

0.5

0.4

0.3

0.2

0.1

e d u t i

kệ

lạ

0

pl m A

-0.1

-0.2

-0.3

-0.4

-0.5

0

50

100

150

200

250

300

350

400

450

500

Time in ms

khả

3535

3636

9

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms

0.4

KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms

0.4

0.3

0.2

0.2

0.1

0

0

e d u t i l

e d u t i l

p m A

-0.2

p m A

-0.1

-0.4

-0.2

-0.6

-0.3

-0.4

-0.8

0

100

200

300

400

500

600

Time in ms

0

50

100

150

200

300

350

400

450

3737

3838

250 Time in ms

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms

0.6

N G H I R . W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p l e s , T i m e = 6 0 8 m s

0 . 3

0.4

0 . 2

0.2

0 . 1

e d u t i l

0

p m A

0

e d u

t i l

- 0 . 1

p m A

-0.2

- 0 . 2

-0.4

- 0 . 3

0

1 0 0

2 0 0

4 0 0

5 0 0

6 0 0

3 0 0

T i m e i n m s

-0.6

-0.8

0

100

200

300

400

500

600

3939

4040

Time in ms

10

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms

P H A I R . W A V , F s = 1 1 0 2 5 H z , 6 9 3 4 s a m p le s , T im e = 6 2 9 m s

0.2

0 . 6

0.15

0 . 4

0.1

0 . 2

0.05

0

e d u t i l

e d u t i l

0

p m A

p m A

-0 . 2

-0.05

-0.1

-0 . 4

-0.15

-0 . 6

-0.2

0

1 0 0

2 0 0

4 0 0

5 0 0

6 0 0

3 0 0 T im e in m s

4141

4242

0

50

100

150

200

250

300

350

400

Time in ms

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms

BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms

0.6

0.4

0.3

0.4

0.2

0.1

0.2

0

e d u t i l

-0.1

e d u t i l

0

p m A

p m A

-0.2

-0.3

-0.2

-0.4

-0.5

-0.4

-0.6

0

50

100

150

200

250

300

350

400

450

4343

4444

-0.6

Time in ms

0

100

200

400

500

600

300

Time in ms

11

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms

VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

e d u t i l

e d u t i l

0

-0.1

p m A

p m A

-0.2

-0.1

-0.3

-0.2

-0.4

-0.5

-0.3

4646

4545

100

200

300

400

500

600

700

800

0

0

100

200

300

500

600

700

Time in ms

400 Time in ms

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms

NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms

0.4

0.6

0.2

0.4

0

0.2

e d u

e d u t i l

t i l

p m A

p m A

-0.2

0

-0.4

-0.2

-0.6

-0.4

4747

4848

0

50

100

150

200

250

300

350

400

450

500

0

100

200

400

500

600

Time in ms

300 Time in ms

12

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms

LAJ.WAV, Fs = 11025Hz, 5442 samples, Time = 494ms

0.4

0.4

0.3

0.2

0.2

0.1

0

e d u t i l

e d u

t i l

p m A

0

p m A

-0.2

-0.1

-0.4

-0.2

-0.3

-0.6

0

50

100

150

200

250

300

350

Time in ms

4949

5050

0

50

100

150

200

250

300

350

400

450

Time in ms

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms

SOOS.WAV, Fs = 11025Hz, 8888 samples, Time = 806ms

0.6

0.4

0.3

0.4

0.2

0.1

0.2

0

e d u

t i l

e d u t i l

0

p m A

p m A

-0.1

-0.2

-0.2

-0.3

-0.4

-0.4

-0.5

5151

5252

0

100

200

300

500

600

700

800

0

50

100

150

200

300

350

400

450

500

400 Time in ms

250 Time in ms

13

DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt DDạạng sng sóóng mng mộột st sốố ttừừ titiếếng Vi ng Việệtt

u(n)

Mô hMô hìình to c (AR) nh toààn đin điểểm cm cựực (AR) Mô hMô hìình tnh tạạo tio tiếếng nng nóói i 1960) (Fant--1960) (Fant

)z(R)z(V)z(G)z(T

=

=

Lọc thông Lọc thông thấp G(z) thấp G(z)

TTảải bi bứức xc xạạ Tải bức xạ R(z)R(z) R(z)

n âm TuyTuyếến âm Tuyến âm V(z)V(z) V(z)

σ )z(A

x(n)

T0

(cid:132)(cid:132) A(z): H

A(z): Hààm truym truyềền đn đạạt ct củủa ba bộộ llọọc đc đảảoo

1−− )z1(C)z(R

=

p

2K 1 +

)z(G

=

1 −

i

A 1)(

1(

z

1 − )z

α+

β+

)z(T

=

A(z) 1

a z A(z)

i − a z a

1

= +

=

=

i

i

0

σ )z(A

i 0 =

i 1 =

B

p

)z(V

)n(x

)in(xa

)n(u

σ=−

i

P = 2K+1

+ ∑

2 )zb

zb1( +

1 − +

k1

k2

1i =

= K ∏

1k =

5353

5454

Biên độ

nh ARMA Mô hMô hìình ARMA i thông DDảải thông

q

σ

σ

1

2

-i

)z(T

=

σ=

)z(C

1

=

zc i

0c

= ∑

+ )z(A)z(A

)z(C )z(A

1 2/

1

2

1

0i =

Dải thông

Bk

q

p

)n(x

)in(xa

+

σ=−

)in(uc i

i

1i =

0i =

Tần số

Fk

5555

5656

14

x(n)

(cid:132)(cid:132) Phân t

Phân tíích ph

ch phổổ

FFT

Log |.|

Bộ lọc hiệu chỉnh

Cửa sổ Hamming

N

–– BBộộ llọọc hic hiệệu chu chỉỉnh H(z) = 1

nh H(z) = 1 –– azaz--11, a = 0,95..0,98 , a = 0,95..0,98

5858

5757

<= N/2, >0

frame

2. X2. Xửử lý t lý tíín hin hiệệu tiu tiếếng nng nóóii

).E(ωω))

)]= log[H(ωω)]+ log[E(

)]} + F--11{log[E(

) = H(ωω).E( )]+ log[E(ωω)])] {log[H(ωω)]} + F

{log[E(ωω)]})]}

FFT

Log |.|

Bộ lọc hiệu chỉnh

Cửa sổ Hamming

FFT-1

s(n)=h(n)*e(n) S(ωω) = H( (cid:132)(cid:132) s(n)=h(n)*e(n) S( log[S(ωω)]= log[H( (cid:132)(cid:132) log[S( FF--11{log[S( {log[S(ωω)]} = F FF--11{log[S( {log[S(ωω)]} =)]} = FF--11{log[H( {log[H(ωω)]} =)]} = FF--11{log[H( {log[H(ωω)]} =)]} =

)]} = F--11{log[H( $s(n) $h(n) $e(n)

$

$

=

+

$ s(n) h(n) e(n)

$s(n)

5959

6060

15

nh (homomorphic) XXửử lý đ lý đồồng hng hìình (homomorphic) Sơ đSơ đồồ khkhốối xi xửử lý đ lý đồồng hng hììnhnh

p

+

− = σ

x(n)

a x(n i)

u(n)

nh AR (cid:132)(cid:132) Mô hMô hìình AR

i

c(n)

= i 1

nh (Linear n tuyếến tn tíính (Linear VVíí ddụụ Tiên đoáán tuy Tiên đo Prediction Coding) Prediction Coding)

T0

T0

p

i

= −

$ x(n)

$ a x(n i)

= i 1

Tiên đoáánn Tiên đo Sai sSai sốố tiên đo

tiên đoáánn

$

=

e(n)

− x(n) x(n)

E

e (n)

= ∑ 2

nh phương toààn phn phầầnn

n

Sai sSai sốố bbìình phương to i thiểểu hu hóóa sai s TTốối thi

a sai sốố

=

=

0, i 1,2,...,p

∂ E $ ∂ i a

) h(n)

6262

6161

MMộột st sốố phương ph

nh Fo phương phááp xp xáác đc địịnh Fo

(cid:132)(cid:132) GiGiáá trtrịị FF00 phphụụ thuthuộộc vc vàào gio giớới ti tíính vnh vàà

tương quan (cid:132)(cid:132) DDựựa va vàào ho hààm tm tựự tương quan m vi sai biên độộ trung b (cid:132)(cid:132) DDựựa va vàào ho hààm vi sai biên đ trung bìình nh tương (cid:132)(cid:132) DDùùng bng bộộ llọọc đc đảảo vo vàà hhààm tm tựự tương

llứứa tua tuổổii –– GiGiọọng nam: 80..250 Hz ng nam: 80..250 Hz : 150..500 Hz –– GiGiọọng nng nữữ: 150..500 Hz

quan quan

(cid:132)(cid:132) XXửử lý đ lý đồồng hng hììnhnh

Tiền

Xác định

Đánh giá

xử lý

Fo

kết quả

Tín hiệu tiếng nói

6363

6464

16

XXáác đc địịnh tnh tầần sn sốố cơ b cơ bảảnn

(cid:132)(cid:132) TTíính hnh hààm tm tựự tương quan

tương quan R(k)R(k) ccủủa ta tíín hin hiệệu tiu tiếếng nng nóói i

(cid:132)(cid:132) HHạạn chn chếế, lo, loạại bi bỏỏ ||xx| < C| < CLL

N

k

1 − −

x(n)x(n) R k ( )

x n x n k ( ) (

)

0,1,...,

K

=

+

=

k

tương quan cóó tương quan DDựựa va vàào ho hààm tm tựự tương quan Phương phááp tp tựự tương quan c Phương ph i tiếến n ccảải ti

0

n = Fs = 10 kHz, N = 300, K = 150.Tììm cm cựực đc đạại trong kho Fs = 10 kHz, N = 300, K = 150.T

ng (0, K) i trong khoảảng (0, K)

6565

6666

trung m vi sai biên độộ trung

DDựựa va vàào ho hààm vi sai biên đ bbìình nh (Average Magnitude Difference Function) (Average Magnitude Difference Function)

N

1 −

D k ( )

x n m x n m k (

)

(

k )

0,1,...,

K

=

+ −

+

=

0.3

0.3

0.2

0.2

m

0

=

0.1

0.1 0

) n ( x

0

N

N

1 −

1 −

) n ( x -0.1

-0.1

-0.2

-0.2

( ) u n

2 ( ) u n

700

750

800

850

900

1000

1050

1100

1150

D iP (

)

0,

i

=

=

0,1,...

700

750

800

850

900

1000

1050

1100

1150

950 n

950 n

1 N

1 N

0.015

n

n

0

0

=

=

⎡ ≤ ⎢ ⎣

0.015 0.01

0.01

0.005

N-1

) k ( r

0.005 0

) k ( r

0

-0.005

D k ( )

x n m x n m k [ (

)

(

2 )]

=

+ −

+

-0.005 -0.01

50

100

200

250

300

0 -0.01

VVíí ddụụ

0

50

100

200

250

300

150 k

150 k

0.2

m=0

1/ 2 ⎤ ⎥ ⎦ 1/2 ⎫ ⎬ ⎭

0.2

0.15

0.15

0.1

) k ( D

0.1

) k ( D

0.05

0.05

r k

r

K

0,1,...,

=

[2 (0) 2 ( )] −

=

k

0

50

100

200

250

300

0 0

0

50

100

200

250

300

150 k

1 N 1 N

⎧ λ ⎨ ⎩ ⎧ λ ⎨ ⎩

1/ 2 ⎫ ⎬ ⎭

150 k

6767

6868

1

λvíi

<

17

XXửử lý đ lý đồồng hng hììnhnh DDùùng bng bộộ llọọc đc đảảo o (Simplified Inverse (Simplified Inverse Filter Tracking) Filter Tracking)

10kHz 10kHz

Thông thấp

1-z-1

Thông thấấpp Thông th

W(n)W(n)

LPC(p=4) LPC(p=4)

4700Hz 4700Hz

900Hz 900Hz

A(z)

Hàm tự tương quan

HT/VT HT/VT

Đánh giá kết quả

Nội suy

Tìm cực đại

FoFo

6969

7070

(cid:132)(cid:132) Tham s

Tín hiệu tiếng nói

Cửa sổ

FFT

Bộ lọc hiệu chỉnh

(cid:132)(cid:132) Phương ph

FFT-1

FFT

Log10|.|

Tham sốố ccầần xn xáác đc địịnhnh –– Formant Fk Formant Fk –– DDảải thông Bk i thông Bk Phương pháápp –– XXửử lý đ lý đồồng hng hììnhnh –– LPCLPC

Wc(n)

7171

7272

18

nh formant XXáác đc địịnh formant XXửử lý đ lý đồồng hng hììnhnh

Cửa sổ

Bộ lọc hiệu chỉnh

Tính hệ số ai

s(n)s(n)

FFkk,,BBkk

Tính1/ |A(ejω)| bằng FFT

Tìm cực đại

Quyết định

Tính nghiệm của A(z)

7373

7474

XXửử lý đ lý đồồng hng hììnhnh p LPC Phương phááp LPC Phương ph

(cid:132)(cid:132) MMậật đt độộ xxáác suc suấấtt

(cid:132)(cid:132) Dãy thao t

Dãy thao táác mã ho

i mã c mã hoáá vvàà gigiảải mã

Nhiễu, suy giảm, sai số

ADAD

Lọc1 Lọc1

Mã hoá Mã hoá

/2] /2, ξξ++∆ξ∆ξ/2]

Nhiễu, suy giảm, sai số

NNξξ : : ssốố lư lượợng mng mẫẫu x(n) u x(n) ccóó biên đ trong biên độộ trong khokhoảảng [ng [ξξ--∆ξ∆ξ/2, ,...,NN] ] n n ∈∈[[--NN,..., x egodic vàà ddừừngng x egodic v

DADA

Giải mã Giải mã

Lọc2 Lọc2

p

/(2

N

1)]

( ) ξ

=

+

x

N ξ

lim [ N →∞ 0 ∆ → ξ

7575

7676

19

nh chấất tht thốống kê c ng kê củủa a 3. Mã hóóa tia tiếếng nng nóóii 3. Mã h MMộột st sốố ttíính ch ttíín hin hiệệu tiu tiếếng nng nóóii

nh nghĩĩa:a:

trung bìình cnh củủa ta tíín hin hiệệu du dừừngng

(cid:132)(cid:132) LuLuậật lưt lượợng tng tửử y y = Q= Q(x)(x) đư đượợc đc địịnh ngh u x(0), x(1), ..., x(L) (L+1) mứức tc tíín hin hiệệu x(0), x(1), ..., x(L)

(cid:132)(cid:132) GiGiáá trtrịị trung b ∞

N

–– (L+1) m –– L mL mứức lưc lượợng tng tửử hohoáá

p

( ) x n

=

( ) d ξ ξ ξ

=

µ x

x

(cid:132)(cid:132) MMỗỗi mi mứức lưc lượợng tng tửử hohoáá bibiểểu diu diễễn bn bằằng tng từừ b bitb bit

GiGiáá trtrịị trung b phương sai trung bìình vnh vàà phương sai LưLượợng tng tửử ttứức thc thờời (không nh i (không nhớớ))

lim N →∞

2

1 + ∑ 1 N

n

N

=−

−∞

L = 2bb.. L = 2

p âm lượợng tng tửử) e) e =

(cid:132)(cid:132) Sai sSai sốố lư lượợng tng tửử (t(tạạp âm lư (cid:132)(cid:132) BưBướớc lưc lượợng tng tửử : hi

= Q(x) Q(x) -- x x nhau : hiệệu 2 mu 2 mứức tc tíín hin hiệệu ku kềề nhau

vvớới ti tíín hin hiệệu tiu tiếếng nng nóói i µµxx = 0= 0 Phương sai (cid:132)(cid:132) Phương sai ∞

N

δδ(i) (i) = x= x(i)(i)--x(ix(i--1)1) Thông lượợng I = bFs (bit/s). Fs : t

(cid:132)(cid:132) Thông lư

ng I = bFs (bit/s). Fs : tầần sn sốố llấấy my mẫẫuu

2

( ) d

p

2 ( ) x n

=

ξ ξ ξ

=

2 σ x

x

lim N →∞

2

1 + ∑ 1 N

n

N

=−

−∞

7777

7878

(cid:132)(cid:132) TTíín hin hiệệu lưu lượợng tng tửử 8 bit (256 m

LLĩĩnh vnh vựựcc

TTầần sn sốố llấấy y u (kHz) mmẫẫu (kHz)

SSốố bit cho bit cho 1 m1 mẫẫuu

Thông Thông ng kbit/s luluợợng kbit/s

ng / Dung lượợng / Dung lư t (kbyte) phphúút (kbyte)

kHz →→ Thông lư kHz

4848

1616

768768

11520 11520

Ghi âm chuyên Ghi âm chuyên nghiệệpp nghi

(cid:132)(cid:132) TTíín hin hiệệu lưu lượợng tng tửử 16 bit (65536 m

44,144,1

1616

705,6 705,6

10584 10584

CD Audio CD Audio

8 bit (256 mứức), Fs = 8 c), Fs = 8 ng = 64 kbit/s Thông lượợng = 64 kbit/s 16 bit (65536 mứức), c), Thông lượợng = 256 kbit/s , Fs = 16 kHz →→ Thông lư ng = 256 kbit/s , Fs = 16 kHz 100 Mbyte 1 gi1 giờờ titiếếng nng nóói ~i ~100 Mbyte

3232

1616

512512

7680 7680

Radio FM Radio FM

(cid:132)(cid:132) CCầần phn phảải mã ho

1212

264264

3960 3960

Radio AM Radio AM

2222

Thông lượợngng Thông lư Thông lượợngng Thông lư

i mã hoáá ttíín hin hiệệu tiu tiếếng nng nóói i (MPEG, (MPEG, i trên mạạng ng

GSM, G723, ...) đđểể truytruyềền tin tiếếng nng nóói trên m GSM, G723, ...) c lưu trữữ hohoặặc lưu tr

88

88

6464

960960

ĐiĐiệện tho

n thoạạii

7979

8080

20

(cid:132)(cid:132) TTổổng qu

ng quáát, t, bưbướớc lưc lượợng tng tửử llàà hhààm cm củủa biên đ

L = 9 (cid:132)(cid:132) L = 9

a biên độộ ttíín n đơn giảản nhn nhấất lt làà

không đềều) u) →→ đơn gi

hihiệệu x (u x (lưlượợng tng tửử không đ lưlượợng tng tửử đ đềều.u.

(cid:132)(cid:132) MMứức lưc lượợng tng tửử đư đượợc chc chọọn gin giữữa 2 ma 2 mứức tc tíín hin hiệệuu 1)+x(i)] y(i) = (1/2)[x(i--1)+x(i)] y(i) = (1/2)[x(i

(cid:132)(cid:132) LuLuậật lưt lượợng tng tửử đ đềều vu vàà đ đốối xi xứứng đng đặặc trưng b

c trưng bởởi:i:

c (L+1) = 2bb. .

–– ccáác mc mứức bão ho c bão hoàà ±± xsxs –– mmứức lưc lượợng tng tửử L hoL hoặặc (L+1) = 2

(cid:132)(cid:132) BưBướớc lưc lượợng tng tửử δδ = 2x= 2xss/L/L

8181

8282

LưLượợng tng tửử đ đềềuu LưLượợng tng tửử đ đềềuu

1

L = 16 (cid:132)(cid:132) L = 16

1

1

1

0.8

0.8

0.8

0.8

0.6

0.6

0.6

0.6

0.4

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0

0

0

0

-0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.6

-0.8

-0.8

-0.8

-0.8

-1

-1 0

2

4

6

8

10

12

14

-1

0

2

4

6

8

10

12

14

-1 0

2

4

6

8

10

12

14

0

2

4

6

8

10

12

14

8383

8484

21

LưLượợng tng tửử đ đềềuu LưLượợng tng tửử đ đềềuu

1

1

(cid:132)(cid:132) MMậật đt độộ xxáác suc suấất sai s

t sai sốố lư lượợng tng tửử

0

l l

0

( (

L L

1) / 2 1) / 2

( ) ( ) ξ ξ

= =

), ), δ ξ δ ξ + +

= =

− −

-1

p p e e

p i ( p i ( x x

l l

∑ ∑

-1 0

2

4

6

8

10

12

0

2

4

6

8

10

12

1

i i

=− =−

l l

1

0

0

(cid:132)(cid:132) phân b

-1

-1 0

2

4

6

8

10

12

0

2

4

6

8

10

12

1

1

ep ξ

0

0

/ 2 / 2

/2 phân bốố đ đềều giu giữữa a -- δδ /2 v/2 vàà + + δδ /2 ( ) 1/ = 0, =

, δ ξ δ ≤ ξ δ >

-1

-1 0

2

4

6

8

10

12

0

2

4

Quantific ation E rror 6

8

10

12

Quantific ation E rror

0.2

0.2

δ

0

0

/ d

/12

=

Trung bìình tnh tạạp âm lư (cid:132)(cid:132) Trung b / 2 Phương sai (cid:132)(cid:132) Phương sai

-0.2

= 00 p âm lượợng tng tửử = 2 2 2 = ξ δ ξ δ σ e

-0.2 0

2

4

6

8

10

12

0

2

4

6

8

10

12

/ 2

δ

8585

8686

LưLượợng tng tửử đ đềềuu CCáác tc tíính ch nh chấất lưt lượợng tng tửử đ đềềuu

(cid:132)(cid:132) TTỷỷ ssốố ttíín hin hiệệu trên nhi

u trên nhiễễuu

s

SN

=

=

W W

N¨ng l−îng tÝn hiÖu N¨ng l−îng nhiÔu

n

SN

10 lg

(d B)

b 6, 02

=

=

+

4, 77 20 lg −

2 σ x 2 σ e

x s σ x

⎛ ⎜ ⎝

⎞ ⎟ ⎠

⎛ ⎜ ⎝

⎞ ⎟ ⎠

SN

10 log SN

=

dB

10

SN

(d B)

b 6

7,3

4 σ=

=

NÕu

sx

max

hohoặặcc

i khi tăng 1 b1 bit lưit lượợng tng tửử. . ĐĐểể

SN

20 log

=

dB

10

VVớới b i b ≥≥ 6, 6, tăng ccóó chchấất lưt lượợng th

tăng 6 dB 6 dB mmỗỗi khi tăng ng thíích hch hợợp cp cầần cn cóó b b ≥≥ 1111

Biª n ®é tÝn hiÖu Biª n ®é nhiÔu

8787

8888

22

CCáác tc tíính ch nh chấất lưt lượợng tng tửử đ đềềuu TTỷỷ ssốố ttíín hin hiệệu trên nhi u trên nhiễễuu

Năng lượợngng Năng lư

SN (dB) SN (dB)

y logarit biên độộ ttíín hin hiệệu su sẽẽ mã homã hoáá tuytuyếến n ) y(n)

Sau khi lấấy logarit biên đ (cid:132)(cid:132) Sau khi l ttíínhnh

y(n)

TTíín hin hiệệu = Nhi

u = Nhiễễuu

00

x(n)

c(n)

Q[]Q[]

Mã hóa Mã hóa

log[] log[]

TTíín hin hiệệu = 2 Nhi

u = 2 Nhiễễuu

22

TTíín hin hiệệu = 10 Nhi

u = 10 Nhiễễuu

1010

signe[] signe[]

TTíín hin hiệệu = 100 Nhi

u = 100 Nhiễễuu

2020

ˆy'(n)

ˆx'(n)

ˆx'(n)

TTíín hin hiệệu = 1000 Nhi

u = 1000 Nhiễễuu

3030

c’(n)

Giải mã Giải mã

exp[] exp[]

u = 10NN NhiNhiễễuu

N x 10 N x 10

TTíín hin hiệệu = 10

signe[x(n)]

9090

8989

TTỷỷ ssốố ttíín hin hiệệu trên nhi u trên nhiễễuu logarit LưLượợng tng tửử logarit

(cid:132)(cid:132) Hai gi

ng cho điệện tho

n thoạạii

(cid:132)(cid:132) Hai gi

n thoạạii

Hai giảải phi phááp dp dùùng cho đi ng cho điệện tho châu Âu)) t A(dùùng ng ởở châu Âu –– LuLuậật A(d

Hai giảải phi phááp dp dùùng cho đi –– LuLuậật t µµ (d(dùùng ng ởở MMỹỹ))

A x

1 log +

y

=

log(1

x

)

+

µ

A

1 log +

y

=

log(1

+

) µ

255

87,56

µ=

=

A (cid:0)

8 b8 bit logarit ~

it logarit ~ 12 bi

12 bit lưt lượợng tng tửử đ đềềuu

9191

9292

23

logarit LưLượợng tng tửử logarit logarit LưLượợng tng tửử logarit

(cid:132)(cid:132) BưBướớc lưc lượợng tng tửử tutuỳỳ thuthuộộc vc vàào biên đ

o biên độộ ttíín hin hiệệuu

ch nghi sau –– ThThíích nghi sau

ˆy(n)

–– ThThíích nghi trư

ch nghi trướớcc

Q[]Q[]

Mã hóa Mã hóa

y(n)= x(n) G(n) y(n)= x(n) G(n)

ˆy(n)

y(n)y(n)

x(n)x(n)

x(n)x(n)

c(n)c(n)

Q[]Q[]

Mã hóa Mã hóa

c(n)c(n)

∆∆

G(n)G(n)

G(n)G(n)

δδ

G(n)G(n)

Thích nghi Thích nghi độ k.đại độ k.đại

Thích nghi Thích nghi độ k.đại độ k.đại

ˆy'(n)

cc’’(n)(n)

ch nghi LưLượợng tng tửử ththíích nghi ch nghi LưLượợng tng tửử ththíích nghi

::

ˆ x'(n) =

Giải mã Giải mã

ˆy'(n)

ˆ y'(n) G'(n)

ˆ x'(n) =

::

cc’’(n)(n)

Giải mã Giải mã

ˆ y'(n) G'(n)

GG’’(n)(n)

9393

9494

GG’’(n)(n)

Thích nghi Thích nghi độ k.đại độ k.đại

(cid:132)(cid:132) TTạạo tio tiếếng nng nóói xui xuấất pht pháát tt từừ bibiểểu diu diễễn n

ngngữữ âm c

bits, 8kHzz bps, 3 bits, 8kH

kbps, 4bits, 8ts, 8kHzkHz DPCM, 32 kbps, 4bi n 64 kbps, ADPCM, 48 đ đếến 64 kbps, ADPCM, 24 kbps, 3

âm củủa la lờời ni nóóii (cid:132)(cid:132) KKỹỹ thuthuậật tt tổổng hng hợợp tip tiếếng nng nóói:i:

ng, 13 kbps i di độộng, 13 kbps

n thoạại di đ

điệện tho

G.721 : A: ADPCM, 32 (cid:132)(cid:132) G.721 G.722 : ~: ~ADPCM, 48 (cid:132)(cid:132) G.722 G.723 : ~: ~ADPCM, 24 k (cid:132)(cid:132) G.723 G.728 : 1: 16 K6 Kbpsbps (cid:132)(cid:132) G.728 GSM : đi (cid:132)(cid:132) GSM : Linear Predictive Encoding (Xerox), 5 kbps (cid:132)(cid:132) Linear Predictive Encoding (Xerox), 5 kbps Code Excited Linear Prediction (CELP) (cid:132)(cid:132) Code Excited Linear Prediction (CELP) Digital Video Interactive : ~ADPCM, M, 4 4 đđếến 8 bits n 8 bits (cid:132)(cid:132) Digital Video Interactive : ~ADPC VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s) (cid:132)(cid:132) VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)

–– TTổổng hng hợợp trp trựực tic tiếếpp –– TTổổng hng hợợp dp dựựa trên mô h a trên mô hììnhnh (cid:132)(cid:132) BBộộ ttổổng hng hợợp formant p formant (cid:132)(cid:132) BBộộ ttổổng hng hợợp dp dùùng LPC ng LPC (cid:132)(cid:132) BBộộ ttổổng hng hợợp mô ph

p mô phỏỏng bng bộộ mmááy phy pháát âmt âm

9595

9696

24

n mã hoáá 4. T4. Tổổng hng hợợp tip tiếếng nng nóóii MMộột st sốố chuchuẩẩn mã ho âm thanh/tiếếng nng nóóii âm thanh/ti

nhiên (cid:132)(cid:132) ChChấất lưt lượợng bng bộộ ttổổng hng hợợp: Mp: Mứức đc độộ ttựự nhiên

c đơn vịị ghi âm: t

, câu. ghi âm: từừ, câu.

–– MMứức đc độộ rõ rõ –– Thanh đi Thanh điệệuu điệệuu –– NgNgữữ đi (cid:132)(cid:132) SSốố lư lượợng tng từừ vvựựng:ng:

–– HHạạn chn chếế –– Không h

Không hạạn chn chếế

(cid:132)(cid:132) BBộộ ttổổng hng hợợp tip tiếếng nng nóói ti từừ văn b

văn bảản (Text

n (Text--toto--

Speech) Speech)

nhiên Ghi âm tiếếng nng nóói ti tựự nhiên (cid:132)(cid:132) Ghi âm ti -- Đơn v Đơn vịị ghi âmghi âm -- GhGhéép cp cáác đơn v Đơn vịị ghi âmghi âm (cid:132)(cid:132) Đơn v âm vịị –– âm v –– âm ti t (diphone) âm tiếết (diphone) –– ttừừ –– ttổổ hhợợp tp từừ –– câucâu

9797

9898

Phân loạạii Phân lo TTổổng hng hợợp trp trựực tic tiếếpp

p formant TTổổng hng hợợp formant p LPC TTổổng hng hợợp LPC

A1

FF00

FF11 FF22 FF33

FF00

o xung TTạạo xung Tạo xung

A

o xung TTạạo xung Tạo xung

A2

Khoang miệệngng Khoang mi

BBộộ llọọc sc sốố Bộ lọc số bbậậc pc p bậc p

TTạạo to tạạp âmp âm Tạo tạp âm

A3

a1 a2 ... ap

Kênh mũũii Kênh m Kênh mũi

Synthesis-by-Analysis

A4

BB11 BB22 BB33

9999

100100

TTạạo to tạạp âmp âm Tạo tạp âm

25

NguNguồồn âmn âm

TuyTuyếến âmn âm

Tham sốố đi Tham s

điềều khi

u khiểểnn

Mô hình 2 khối

(cid:132)(cid:132) Mô phMô phỏỏng ngu

n âm (nguồồn tun tuầần hon hoààn)n) ng nguồồn âm (ngu Mô phMô phỏỏng dây thanh:Mô h ng dây thanh:Mô hìình mnh mộột kht khốối, Mô h i, Mô hìình nhi hai khốối, Mô h hai kh

nh nhiềều khu khốối, Mô h

i, Mô hìình hai d

i, Mô hìình nh nh hai dầầm...m...

Mô hình nhiều khối

101101

102102

Mô hình 2 dầm

Mô phMô phỏỏng bng bộộ mmááy phy pháát âmt âm Mô hMô hìình ngu nh nguồồn âmn âm

(cid:132)(cid:132) GiGiảả thi

Rời rạc hóa

ch không quáá đ độột ngt ngộộtt

thiếếtt ch ngăn cứứngng –– VVáách ngăn c ng (dọọc theo tr c theo trụục c n đơn hướớng (d –– SSóóng truy ng truyềền đơn hư ốống)ch < 5000 Hz, biếến n ng)chỉỉ xxéét ct cáác tc tầần sn sốố < 5000 Hz, bi thiên diệện tn tíích không qu thiên di –– BBỏỏ qua t

n hao: tíính lnh lỏỏng, truy

qua tổổn hao: t

ng, truyềền nhi

n nhiệệtt

103103

104104

26

Mô phMô phỏỏng tuy ng tuyếến âmn âm Mô hMô hìình ph nh phảản xn xạạ

ỐỐng ti

ng tiếết di

t diệện đn đềều, không t

n hao u, không tổổn hao

Tương tựự âm h Tương t âm họọc c –– đi điệện hn họọcc

Âm hÂm họọcc

ĐiĐiệện hn họọcc

(cid:132)(cid:132) ỐỐng ti

ng tiếết di

t diệện đn đềều vu vàà ng dây tương đương đưđườờng dây tương đương

p: p: ÁÁp sup suấấtt

v:v: Đi

Điệện n áápp

u: u: Thông lư

Thông lượợngng

i: i: Dòng đi

Dòng điệệnn

L:L: Đi

Điệện cn cảảmm

/A: Đi

m âm họọcc

Điệện cn cảảm âm h

v(l,t)=0

(cid:132)(cid:132) HHệệ phương tr

nh Webster phương trìình Webster

C:C: Đi

n dung Điệện dung

n dung âm họọcc

ρρ00/A: A/A/ρρ00cc22: : ĐiĐiệện dung âm h

+

u x t ( , )

u

t

u

t

=

+

=

x c

x c

⎛ ⎜ ⎝

⎛ ⎜ ⎝

ρ 0 A

u ∂ t ∂

c

+

=

p x t ( , )

u

t

u

t

=

+

+

2

p ∂ t ∂

A c

⎞ ⎟ ⎠ x c

⎛ ⎜ ⎝

⎛ ⎜ ⎝

⎞ ⎟ ⎠

⎞ ⎟ ⎠

⎡ ⎢ ⎣

⎤ ⎥ ⎦

ρ 0 A không khíí, , cc: v: vậận tn tốốc sc sóóng âmng âm

⎞ p ∂ ⎟ ⎠ x ∂ u ∂ x x ∂ ρ c 0 hông lượợng, ng, pp: : ááp sup suấất, t, ρρ: m: mậật đt độộ không kh uu: t: thông lư

105105

106106

t

u

) j e Ω

t U =

(cid:132)(cid:132) SSóóng tng tớới vi vàà ssóóng ph

ng phảản xn xạạ ccóó ddạạngng

i môi (cid:132)(cid:132) TTạại môi

j

j

)

)

t ( Ω −

t ( Ω +

x

U

U

(

)

( , ) l ) Ω =

G

+

= ⇒ l

( , l

x c

x c

u

t

+ K e

u

t

− K e

=

+

=

,

c

)

x c

x c

⎛ ⎜ ⎝

⎞ ⎟ ⎠

⎛ ⎜ ⎝

⎞ ⎟ ⎠

(cid:132)(cid:132) ĐĐááp p ứứng tng tầần sn sốố

H

(

=

) Ω =

–– ĐiĐiềều kiu kiệện biên t

t

( ( , l (

cos U U

cos(

c / )

( , l 1 / Ω l ) Ω ) Ω

G

1 Ω l

(

) j e Ω

=

G

u t U ( ) G 0

H

(

i môi n biên tạại môi

–– ĐiĐiềều kiu kiệện biên t

i thanh môn n biên tạại thanh môn (0, ) t u = t = p ( , ) l

víi c

) (2

f

=

j t Ω

j t Ω

p x t ( , )

,

u x t ( , )

=

( ) e Ω

( ) e Ω

=

U G

U G

jZ 0

)/ ] x c c /

)/ ] x c c /

sin[ ( Ω − l cos Ω l

cos[ ( Ω − l cos Ω l

Ω → ∞ 1) n + 4 l cm

Z

)

j

Ω = Ω

0 (

c=350 m/s Hz

l f

17,5 , = 500,1500, 2500... =

107107

108108

ρ 0 A

27

XXéét trong mi t trong miềền tn tầần sn sốố ĐĐááp p ứứng tng tầần sn sốố

n hao không tổổn hao n hao không tổổn hao

nh phảản xn xạạ không t Mô hMô hìình ph Lochbaum) (Kelly--Lochbaum) (Kelly nh phảản xn xạạ không t Mô hMô hìình ph Lochbaum) (Kelly--Lochbaum) (Kelly

(t)

u

(t - τ

)

+ k + 1u

+ k + 1

k + 1

(cid:132)(cid:132) TTíính liên t

thông lượợngng

u (t - τ )

+ ku (t)

k

+ k

k

k 1 +

nh liên tụục cc củủa a ááp sup suấất vt vàà thông lư p u

(0, t) (0, t)

= =

k

k 1 +

-

k

u (t + τ )

ku (t)

k

- k

u

(t)

(t)

u (t - τ)

u

=

+

+ k+1

+ k

− k 1 +

-

(t)

u

(t + τ

)

k + 1u

- k + 1

k + 1

k

k

u (t+ τ)

u

(t)

u (t - τ)

= −

+

− k

+ k

− k 1 +

0

kl

p ( , t) l u ( , t) l 2 A k+1 A + A k+1 k A A − k+1 A + A k+1

k

k

k 1+l

k

tiết diện Ak

=

r k

k

τ

tiết diện Ak+1 τ =

=

= τ

k

k +1

(cid:132)(cid:132) CCáác c ốống cơ b

ng cơ bảản cn cóó ccùùng chi

0 ng chiềều du dàài i

l c

(cid:132)(cid:132) ĐĐặặt ht hệệ ssốố phphảản xn xạạ u (t) u (t+ τ)

(t)

+ (1 r ) u (t - τ) = + k k + r u (t - τ) = − k k

+ k+1 − k

A A − k+1 A + A k+1 k 2 A A + A k+1 A A − k+1 A + A k+1 − (t) r u + k k 1 + − (1 r ) u + − k 1 k +

109109

110110

ch chuyểển không kh

n không khíí trong tuy

trong tuyếến âmn âm

(cid:132)(cid:132) TTổổn hao do d

+

+

ku (t)+

k+1u (t)

+ −τ ku (t )

k 1u (t

(1 r )+ k

) + −τ

Phân bốố ssóóngng Phân b n hao HiHiệệu u ứứng cng củủa ca cáác tc tổổn hao

trÔ τ

trÔ τ

kr−

kr

n hao do dịịch chuy a không khíí –– Do tDo tíính lnh lỏỏng cng củủa không kh –– Do truy n nhiệệtt –– Do rung v

Do truyềền nhi ch ngăn Do rung váách ngăn

tính lỏng

trÔ τ

trÔ τ

(1 r )− k

− +τ ku (t )

− +τ k+1u (t )

ku (t)−

k+1u (t)

0

0

Ống k

Ống k+1

l

l

Tiếp giáp

rung

truyền nhiệt

111111

112112

28

Dải thông

(cid:132)(cid:132) TTổổn hao do b –– Mô hMô hìình qu

i môi n hao do bứức xc xạạ ttạại môi nh quảả bbóóng vô h

ng vô hạạnn

Bức xạ tại môi

–– TrTrởở khkhááng bng bứức xc xạạ Z

=

=

r

Rung

p U (

j L R Ω r r j L + Ω r

R r

( ) Ω , ) Ω l

Nhiệt+lỏng

,

=

=

8 a c 3 π

128 2 9 π

L R r r a : b¸n kÝnh më t¹i m«i

113113

114114

n hao HiHiệệu u ứứng cng củủa ca cáác tc tổổn hao HiHiệệu u ứứng chung c n hao ng chung củủa ca cáác tc tổổn hao

(cid:132)(cid:132) NhNhậận dn dạạng tng từừ riêng l

riêng lẻẻ, t, từừ vvựựng ng íít (<100), m

t (<100), mộột ngư

t ngườời i

n: huấấn luyn luyệện (hn (họọc) c) –– nhnhậận dn dạạngng

nnóóii

(cid:132)(cid:132) Hai giai đo (cid:132)(cid:132) Phân lo

u hơn (v(vàài ngh

ng nhiềều hơn

t ngườời ni nóóii

Như trên nhưng cho hệệ ththốống nhi

i nghììn tn từừ), m), mộột ngư ng nhiềều ngư

u ngườời ni nóóii

(cid:132)(cid:132) TTừừ vvựựng nhi (cid:132)(cid:132) Như trên nhưng cho h (cid:132)(cid:132) NhNhậận dn dạạng cng cáác tc từừ đi v

đi vớới nhau, t

i nhau, từừ vvựựng ng íít (ht (hààng ng

liên tụụcc

chchụục tc từừ))

t ngườời ni nóói i –– nhinhiềều ngư

u ngườời ni nóóii

(cid:132)(cid:132) NhNhậận dn dạạng câu ng

ng câu ngắắn, tn, từừ vvựựng hng hạạn chn chếế, m, mộột ngư

t ngườời i

Hai giai đoạạn: hu i theo Phân loạại theo –– SSốố lư lượợng tng từừ vvựựngng –– TTừừ rrờời ri rạạc c –– liên t –– MMộột ngư –– NhNhậận dn dạạng tng từừ –– câucâu

nnóóii Như trên nhưng cho hệệ ththốống nhi

(cid:132)(cid:132) Như trên nhưng cho h (cid:132)(cid:132) NhNhậận dn dạạng lng lờời ni nóói liên t

ng nhiềều ngư i liên tụục, mc, mộột hot hoặặc nhi

u ngườời ni nóóii c nhiềều ngư

u ngườời i

nnóóii

115115

116116

29

5. Nhậận dn dạạng ti 5. Nh ng tiếếng nng nóóii Phân loạại theo đ Phân lo i theo độộ phphứức tc tạạpp

NhNhậận dn dạạng ngư

ng ngườời ni nóói i (Speaker Recognition) (Speaker Recognition)

MMộột st sốố vvấấn đn đềề đ đốối vi vớới hi hệệ ththốống ng nhnhậận dn dạạng ti

ng tiếếng nng nóóii

n khoảảng lng lặặngng

t hiệện kho i thiệện chn chấất lưt lượợng tng tíín hin hiệệu tiu tiếếng nng nóói (gi

i (giảảm m

(cid:132)(cid:132) KiKiểểm tra (verification) gi (cid:132)(cid:132) ĐĐịịnh danh (identification) gi

m tra (verification) giọọng nng nóóii nh danh (identification) giọọng nng nóóii

(cid:132)(cid:132) PhPháát hi (cid:132)(cid:132) CCảải thi nhinhiễễu)u)

(cid:132)(cid:132) TiTiếếng nng nóói đưi đượợc phc pháát âm v

t âm vớới thi thờời hi hạạn vn vàà

nhnhịịp đip điệệu khu kháác c

(cid:132)(cid:132) Mô hMô hìình nh

nh nhậận dn dạạngng

–– Mô hMô hìình Markov

n (Hidden Markov Model: nh Markov ẩẩn (Hidden Markov Model:

HMM) HMM) –– MMạạng nơ

ng nơ--ronron

117117

118118

30