intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn:Nghiên cứu và đánh giá các phương pháp giảm nhiễu trong tín hiệu tiếng nói

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:13

119
lượt xem
14
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tham khảo luận văn - đề án 'luận văn:nghiên cứu và đánh giá các phương pháp giảm nhiễu trong tín hiệu tiếng nói', luận văn - báo cáo, thạc sĩ - tiến sĩ - cao học phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu và đánh giá các phương pháp giảm nhiễu trong tín hiệu tiếng nói

  1. 1 2 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: TS. PH M VĂN TU N PH M VĂN PHÁT Ph n bi n 1: TS. NGÔ VĂN S NGHIÊN C U VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP GI M NHI U TRONG TÍN HI U TI NG NÓI Ph n bi n 2: TS. NGUY N HOÀNG C M Lu n văn ñã ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ K thu t ñi n t h p t i Đ i h c Đà N ng vào Chuyên ngành: K THU T ĐI N T ngày 25 tháng 6 năm 2011 Mã s : 60.52.70 * Có th tìm hi u lu n văn t i: TÓM T T LU N VĂN TH C SĨ K THU T - Trung tâm Thông tin- H c li u, Đ i h c Đà N ng - Trung tâm h c li u, Đ i h c Đà N ng. Đà N ng - 2011
  2. 3 4 M Đ U - Tìm hi u các mô hình nhi u và ñ c ñi m c a các lo i nhi u trong tín hi u ti ng nói. D a trên mô hình nhi u c ng, phân tích cơ ch x p 1. Tính c p thi t c a ñ tài ch ng nhi u lên tín hi u trong mi n th i gian, mi n Fourier. H u h t ch t lư ng ti ng nói trong các h th ng thông tin liên l c - Nghiên c u và phát tri n các thu t toán ư c lư ng nhi u và các ñ u b suy gi m do nh hư ng b i nhi u. Nhi u có th xu t hi n k thu t hi u ch nh hàm nén nhi u trong x lý và nâng cao ch t ñ u vào c a h th ng, trên kênh truy n ho c t i các thi t b ñ u cu i. lư ng ti ng nói. Các thu t toán nén nhi u ñư c ñ c p g m: thu t Tùy theo ñ c ñi m c a t ng lo i nhi u và cư ng ñ nhi u khác nhau toán tr ph phi tuy n, thu t toán s d ng b l c Wiener và thu t mà s nh hư ng c a nó lên ch t lư ng ti ng nói cũng khác nhau. toán Log-MMSE (logarithm minimum mean squared error). Các k Lo i b nhi u ra kh i tín hi u ti ng nói là m t công vi c không ñơn thu t s d ng ư c lư ng và c p nh t nhi u g m: VAD (Voice gi n, vi c x lý lo i b nhi u không t t s gây m t thông tin, làm suy activity dectection) và ư c lư ng dùng b l c Percentile. gi m và méo d ng tín hi u ti ng nói. Vì v y, vi c nghiên c u và ñưa ra các phương pháp c i thi n ch t lư ng ti ng nói ñóng vai trò quan - Nghiên c u 6 phương pháp ñánh giá khách quan : CEP, LLR, IS, tr ng trong vi c ñ m b o ch t lư ng và tính trung th c c a tín hi u PESQ, WSS(Weighted Spectral Slope), SegSNR(Segment SNR ) ti ng nói trong các h th ng thông tin liên l c. - Th c hi n vi c x lý nén nhi u và ñánh giá khách quan ch t Vi c gi m nhi u nh m nâng cao ch t lư ng ti ng nói cũng là lư ng tín hi u ti ng nói sau x lý b ng ngôn ng l p trình Matlab. m t trong các gi i pháp k thu t quan tr ng nh m h tr cho các Xây d ng cơ s d li u tín hi u ti ng nói b tác ñ ng b i các lo i m ng x lý ti ng nói khác như nh n d ng ngư i nói, nh n d ng ti ng nhi u khác nhau v i các SNR khác nhau. Tri n khai ñánh giá ch t nói t ñ ng và tr thính trong các môi trư ng nhi u như xe hơi, ñám lư ng tín hi u b ng các phương pháp ñánh giá khách quan, ñ ng th i ñông, các xư ng công nghi p.v.v. qua ñó ñánh giá hi u qu c a các thu t toán gi m nhi u. D a trên các k t qu ñánh giá ti n hành phân tích l i các thu t toán nh m hi u 2. M c ñích nghiên c u ch nh và ñ xu t các gi i pháp hi u qu nh t. - Nghiên c u và phát tri n các thu t toán gi m nhi u trong mi n Fourier 4. Ý nghĩa khoa h c và th c ti n c a ñ tài - Nghiên c u các phương pháp ñánh giá khách quan ch t lư ng Th c hi n vi c gi m nhi u tín hi u ti ng nói trư c khi x lý là ti ng nói yêu c u không th thi u c a t t c các h th ng x lý ti ng nói nói 3. Đ i tư ng và ph m vi nghiên c u chung. Bên c nh ñó vi c ñánh giá khách quan ñư c ñ méo c a tín hi u, qua ñó ñ xu t ñư c các thu t toán x lý và gi m nhi u tín hi u - Nghiên c u các thu t toán và công c ñ x lý tín hi u ti ng nói nói chung
  3. 5 6 ti ng nói hi u qu nh t s có m t ý nghĩa khoa h c quan tr ng mà ñ CHƯƠNG 1: T NG QUAN V X LÝ TÍN HI U TI NG NÓI tài hư ng ñ n. 1.1. Gi i thi u chương 1.2. Tín hi u ti ng nói 5. C u trúc lu n văn 1.2.1. Tín hi u Chương 1: T ng quan v x lý tín hi u ti ng nói. Chương này cũng ñ c p các phương pháp cơ b n ñư c s d ng trong vi c phân 1.2.2. Tín hi u ti ng nói tích và t ng h p ti ng nói, k thu t mã hóa d ñoán tuy n tính, các X lý ti ng nói có th ñư c chia thành các m c sau: phương pháp gi m nhi u và tăng cư ng ch t lư ng tín hi u ti ng nói. Nh n d ng ti ng nói Chương 2: Các phương pháp gi m nhi u tín hi u ti ng nói. Nh n d ng ngư i nói Chương này t p trung nghiên c u các thu t toán gi m nhi u(Noise Tăng cư ng ch t lư ng ti ng nói Reductions) và c i thi n ch t lư ng ti ng nói(Speeech Enhancement). Các thu t toán nâng cao ch t lư ng ti ng nói ñư c s d ng nh m G m các thu t toán tr ph (Spectral–Subtraction), b l c Wiener lo i b t i ña các nh hư ng c a nhi u qua ñó cho phép c i thi n và Filtering(Wiener Filtering), Log-MMSE và v n ñ ư c lu ng, c p nâng cao ch t lư ng tín hi u. Các thu t toán nén nhi u có th chia nh t nhi u. thành 3 nhóm sau: Chương 3: Đánh giá khách quan ch t lư ng tín hi u ti ng nói. - Thu t toán tr ph N i dung c a chương trình bày các phương pháp ñánh giá khách - Thu t toán d a trên mô hình th ng kê quan: Segmental SNR(SegSNR), Itakura-Saito(IS), Weighted - Thu t toán không gian con Spectral Slope(WSS), Perceptual Evaluation of Speech Quality Mã hóa ti ng nói (PESQ), Log-Likelihood Ratio(LLR) ñ ñánh giá ch t lư ng tín hi u T ng h p ti ng nói sau x lý. Phân tích gi ng nói Đ nh v ngu n âm thanh Chương 4: Gi m nhi u và ñánh giá ch t lư ng tín hi u ti ng nói sau x lý. Xây d ng các bi u ñ và th c hi n các thu t toán gi m 1.2.3. Phân lo i ti ng nói nhi u mô ph ng b ng Matlab, sau ñó ñánh giá các k t qu thu ñư c Ti ng nói ñư c chia thành 3 lo i cơ b n như sau: b ng phương pháp ñánh giá khách quan. Âm h u thanh Âm vô thanh Âm b t
  4. 7 8 1.3. Các ñ c tính cơ b n c a tín hi u ti ng nói d ng ñ quan sát và phân tích tín hi u, xác ñ nh ñ nh tính các ñ c trưng cơ b n c a tín hi u. Quan sát nh ph ta thu nh n ñư c các 1.3.1. T n s l y m u thông tin như ph công su t, phân b t n s , formant.v.v. T n s l y m u là s l n l y m u ñư c tính trong m t ñơn v th i 1.4. Cơ s x lý tín hi u s gian, thông thư ng là giây. T n s l y m u ký hi u là Fs. 1.4.1. Các h th ng và các tín hi u th i gian r i r c 1.3.2. T n s cơ b n và ph t n 1.4.2. Phép bi n ñ i Fourier c a tín hi u r i r c DTFT Bi n ñ i Z (ZT): T n s cơ b n: Giá tr ngh ch ñ o c a T0 là F0 = 1/T0 ñư c g i là Bi n ñ i Fourier (Fourier Transform- FT): t n s cơ b n c a ti ng nói. F0 thay ñ i theo thanh ñi u và cũng nh 1.5. Phân tích ti ng nói hư ng ñ n ng ñi u c a câu nói. 1.5.1. Mô hình phân tích ti ng nói 1.3.3. Formant Mô hình t ng quát cho vi c phân tích ti ng nói ñư c trình bày Formant là d i t n s ñư c tăng cư ng do hi n tư ng c ng hư ng trong hình 1.13. trong ng d n thanh, ñ c trưng cho âm s c c a m i nguyên âm. 1.3.4. Bi u di n tín hi u ti ng nói Có 3 phương pháp bi u di n tín hi u ti ng nói cơ b n là: - Bi u di n dư i d ng sóng theo th i gian. - Bi u di n trong mi n t n s - Bi u di n trong không gian 3 chi u ( nh ph - spectrogram) 1.3.4.1. D ng sóng theo th i gian 1.3.4.2. Ph tín hi u ti ng nói D i t n s c a tín hi u âm thanh n m trong kho ng t n s t 0Hz ñ n 20KHz, tuy nhiên ph n l n công công su t n m trong d i t n s t 0,3KHz ñ n 3,4KHz. 1.3.4.3. nh ph (Spectrogram) Hình 1.13: Mô hình t ng quát c a vi c x lý ti ng nói Tín hi u ti ng nói còn ñư c bi u di n trong không gian ba chi u 1.5.2. Phân tích ti ng nói ng n h n g i là nh ph . nh ph có m t vai trò quan tr ng và là công c h a
  5. 9 10 1.5.3. Phân tích ti ng nói trong mi n th i gian CHƯƠNG 2: Năng lư ng trung bình CÁC PHƯƠNG PHÁP GI M NHI U TÍN HI U TI NG NÓI Đ l n biên ñ trung bình 2.1. Gi i thi u chương 2.2. Lý thuy t v nhi u 1.5.4. Phân tích ti ng nói trong mi n t n s 2.2.1. Ngu n nhi u 1.6. Phương pháp phân tích mã hóa d ñoán tuy n tính (LPC- 2.2.2. Phân lo i nhi u Linear Predictive Coding) 2.2.3. Nhi u và m c tín hi u ti ng nói trong các môi trư ng khác Phương pháp phân tích d ñoán tuy n tính là m t trong các nhau phương pháp phân tích tín hi u ti ng nói m nh nh t và ñư c s d ng 2.3. Các thu t toán tăng cư ng ch t lư ng ti ng nói ph bi n. Đi m quan tr ng c a phương pháp này n m kh năng nó Các thu t toán nén nhi u có th chia thành 3 nhóm sau: có th cung c p các ư c lư ng chính xác c a các tham s tín hi u − Thu t toán tr ph ti ng nói và kh năng th c hi n tính toán tương ñ i nhanh. − Thu t toán d a trên mô hình th ng kê − Thu t toán không gian con 1.7. Tăng cư ng ch t lư ng ti ng nói 2.4. Thu t toán Spectral Subtraction Các thu t toán nén nhi u có th chia thành 2 nhóm sau: 2.4.1. Gi i thi u chung Thu t toán tr ph Thu t toán không gian con Spectral – subtraction là thu t toán ñư c ñ xu t s m nh t trong các thu t toán ñư c s d ng ñ gi m nhi u trong tín hi u. Nó th a 1.8. K t lu n chương nh n s có m t c a nhi u, ph c a ti ng nói s ch ñư c ư c lư ng b ng cách tr ñi ph c a nhi u v i ph c a ti ng nói ñã b nhi u ∧ ∧ y(n) Y(ω) Subtraction X (ω) x (n) DFT IDFT processing Noise stimate Hình 2.3: Sơ ñ kh i minh h a k thu t tr ph
  6. 11 12 2.4.2. Thu t toán tr ph biên ñ Chương 3: ĐÁNH GIÁ CH T LƯ NG TI NG NÓI 2.4.3. Thu t toán tr ph công su t 3.1 Gi i thi u chương 2.4.4. Như c ñi m c a phương pháp tr ph 3.2 Đánh giá ch quan ch t lư ng âm thanh sau x lý 2.4.5. Tr ph phi tuy n 3.2.1 Phương pháp ñánh giá tương ñ i 2.5. Nâng cao ch t lư ng ti ng nói s d ng b l c Wiener 2.5.1. Gi i thi u chung Trong phương pháp này m i tín hi u c n ñánh giá, ngư i nghe nghe m t c p tín hi u và ch n m u tín hi u thích hơn. Phương pháp B l c Wiener do Norbert Wiener nghiên c u và ñ xu t năm này ph c t p và t n th i gian do s k t h p m t lư ng l n các cư ng 1949, ban ñ u b l c Wiener ñư c s d ng ñ x lý trong mi n th i ñ và m c nhi u. gian liên t c. Lý thuy t Wiener ñư c m r ng ñ x lý trong mi n 3.2.1.1 Phương pháp DCR th i gian r i r c, m t trong nh ng ng d ng ph bi n nh t c a b l c Wiener là x lý tín hi u s . 3.2.1.2 Phương pháp CCR 3.2.2 Phương pháp ñánh giá tuy t ñ i 2.5.2. Xây d ng b l c Wiener 2.5.3. Áp d ng b l c Wiener trong nâng cao ch t lư ng ti ng nói 3.3 Phương pháp ñánh giá khách quan 2.6. Nâng cao ch t lư ng ti ng nói b ng cách ư c lư ng MMSE Đánh giá ch t lư ng khách quan là phương pháp ñánh giá ch t 2.7. Nâng cao ch t lư ng ti ng nói b ng thu t toán ư c lư ng d a trên các phép ño thu c tính c a tín hi u lư ngLog-MMSE 3.3.1 Đo t s tín hi u trên nhi u trên t ng khung Ư c lư ng t i ưu biên ñ ph MMSE d a trên sai s bình Đo SNR trên t ng khung trong mi n th i gian là m t trong phương trung bình gi a biên ñ th t và biên ñ ư c lư ng, phương nh ng phương pháp ñánh giá v m t toán ñơn gi n nh t. Đ phương pháp này d th c hi n v m t toán h c, tuy nhiên nó không mang ý pháp này có hi u qu thì ñi u quan tr ng là tín hi u g c và tín hi u ñã nghĩa ch quan. Vì v y, ngư i ta ñưa ra phương pháp d a trên sai s qua x lý ph i trong cùng mi n th i gian và ñ l ch pha hi n t i ph i bình phương trung bình c a log ph biên ñ theo công th c sau: ñư c hi u ch nh chính xác. SNRseg ñư c xác ñ nh như sau { } Nm + N −1 E (log( X k ) − log( X k )) 2 ˆ (2.26) SNRseg = 10 M −1 ∑n= Nm x 2 (n) ∑ lg M m=0 ∑ Nm+ N −1 ( x(n) − x(n)) 2 ˆ (3.3) 2.8. Ư c lư ng và c p nh t nhi u n = Nm 2.8.1. Voice activity detection(VAD) Trong ñó x(n) : tín hi u g c (tín hi u s ch) 2.8.2. B l c percentile x(n) : tín hi u ñã ñư c tăng cư ng ˆ 2.9. K t lu n chương N: chi u dài khung (thư ng ñư c ch n t 15-20ms)
  7. 13 14 M: s khung c a tín hi u K max K loc max (3.11) W (k ) = . K max + C max − C x (k ) K loc max + C loc max − C x (k ) 3.3.2 Đo kho ng cách ph d a trên LPC Phép ño WSS tính cho m i khung c a tín hi u tho i: LPC (Linear Prediction Coefficient)s :H s d ñoán tuy n tính, (3.12) g m các phương pháp ph bi n là LLR (Log Likelihood Ratio) , IS 3.3.3 Perceptual Evaluation of Speech Quanlity (PESQ)Measure (Itakura Saito) và ño theo kho ng cách CEP (Cepstrum Distance) Năm 2000, ITU-T ch n Perceptual Evaluation of Speech Quality 3.3.2.1 Phương pháp ño LLR (PESQ) ñ thay cho Perceptual speech quality measure (PSQM). a xT R x a x d LLR (a x , a x ) = lg T ˆ ˆ (3.6) Trong t t c các objective measure thì PESQ là phương pháp a x Rx a x ph c t p nh t và ñư c khuy n ngh b i ITU-T ñ nh n bi t ch t a = [1,−a x (1),− a x ( 2),...,− a x ( p )] :h T x s LPC c a tín lư ng ti ng nói băng t n h p 3,2kHz. hi u s ch PESQ ñư c tính b i công th c: a xT = [1,−a x (1),− a x ( 2),..., − a x ( p )] :h s c a tín hi u ñã ˆ ˆ ˆ ˆ PESQ = a0 − a1d sym − a2 d asym ñư c tăng cư ng ch t lư ng V i a0 = 4.5 , a1 = 0.1 , a2 = 0.0309 Rx là (p+1)*(p+1)ma tr n t tương quan(Toeplitz) c a tín hi u s ch 3.4 K t lu n chương Đánh giá khách quan là phương pháp ñánh giá ch t lư ng d a 3.3.2.2 Phương pháp ño IS trên các phép ño thu c tính c a tín hi u bao g m ño t s tín hi u trên nhi u trên t ng khung SegSNR, ño kho ng cách ph s d ng h Đo IS ñư c xác ñ nh như sau[14] s d ñoán tuy n tính LPC (LLR ,IS), ño kho ng cách d a trên ñ G a ˆT R a ˆ  Gˆ  d IS (a x , a x ) = x x x x + lg x T G  −1  (3.8) c ph (WSS), PESQ là m t trong nh ng phương pháp ñánh giá d G x a x Rx a x ˆ  x  khách quan ph c t p nhưng ñáng tín c y và có ñ tương quan khá Gx và Gx l n lư t là h s khu ch ñ i c a tín hi u s ch và tín ˆ cao so v i ñánh giá ch quan. hi u tăng cư ng. 3.3.2.3 Phương pháp ño Weighted Spectral Slope Phương pháp ñánh giá này ñư c tính b i d c ph ñ u tiên ñư c tìm th y c a m i d i ph . Xét Cx(k) là ph d i t i h n c a tín hi u s ch và C x (k ) là c a tín hi u tăng cư ng, xét trong ñơn v dB. ˆ
  8. 15 16 Chương 4 : TH C HI N GI M NHI U VÀ ĐÁNH GIÁ CH T 4.4 K t qu th c hi n gi m nhi u và nh n xét LƯ NG TÍN HI U SAU X LÝ 4.4.1 Gi m nhi u s d ng thu t toán tr ph 4.1 Gi i thi u chương Phương pháp tr ph cho k t qu nén nhi u khá t t nhưng cũng 4.2 Quy trình th c hi n chính kh vì v y m t ph n tín hi u h a ích cũng ñư c xem như nhi u 4.3 Th c hi n x lý gi m nhi u ti ng nói và b nén m nh, ñ c bi t là các thành ph n tính hi u có công su t ph nh như các âm gió, các âm n i. K t qu là tín hi u sau khi tăng 4.3.1 Xây d ng cơ s d li u cư ng b phá h y khá l n, tính d nghe c a tín hi u r t kém. Cơ s d li u ban ñ u là 30 câu tho i ñư c ghi âm trong phòng 4.4.2 Gi m nhi u s d ng b l c Wiener thí nghi m theo chu n c a IEEE là tín hi u tho i s ch. M i câu trung bình kho ng 2s. Các tín hi u tho i ñó sau ñó ñã ñư c c ng nhi u vào Phương pháp nén nhi u dùng b l c Wiener cho k t qu nén v i m c SNR 0dB, 5dB, 10dB, 15dB. Có năm lo i nhi u ñư c ch n nhi u khá t t, tuy nhiên các thành ph n có công su t ph nhi u l n ñ nghiên c u trong ñ tài là nhi u ô tô(car noise), nhi u ñám v n còn t n t i. So v i thu t toán tr ph , thu t toán WienerFilter cho ñông(babble), nhi u tr ng(white), nhi u t tàu h a(train) và nhi u k t qu t t hơn, các tín hi u h u ích có công su t ph th p v n ñư c giao thông ñư ng ph (street). Đ tài th c hi n hai phương pháp ư c gi l i, tín hi u sau x lý ít b phá h y hơn. lư ng nhi u là VAD và b l c Percentile. Ba thu t toán nén nhi u ñã 4.4.3 Gi m nhi u s d ng thu t toán LogMMSE ñư c nghiên c u và công b là thu t toán tr ph phi tuy n NSS(Non Linear Spectral Subtraction), b l c Wiener(WienerFiltering) và 4.5 Th c hi n ñánh giá khách quan ch t lư ng ti ng nói sau LogMMSE(Logrithm Minium Mean-Squared Error). Trên cơ s 30 khi x lý b ng các thu t toán gi m nhi u câu m u s ch t o ra 600 m u âm thanh ñư c c ng nhi u, các m u 4.5.1 Cơ s d li u s d ng cho quá trình ñánh giá này ñư c x lý qua 3 thu t toán nén nhi u khác nhau là NSS, WIENERFILTER và LogMMSE, k t qu là thu ñư c m t cơ s d Cơ s s d ng cho ñánh giá bao g m: li u m i là 3600 m u ti ng nói ñã ñư c x lý nén nhi u. - 30 câu tho i là tín hi u tho i s ch(clean) ñư c ghi âm trong 4.3.2 Xác ñ nh các tham s ñ u vào cho các thu t toán phòng thí nghi m theo chu n c a IEEE . 4.3.2.1 Hàm ñ l i(Gain Function) - 600 câu tho i ñư c c ng các ngu n nhi u khác nhau là CAR, 4.3.2.2 Thu t toán VAD BABLE, WHITE, TRAIN và STREET b n m c SNR khác nhau là 4.3.2.3 Thu t toán Percentile filtering 0dB, 5dB, 10dB và 15dB.
  9. 17 18 - 3600 câu tho i ñã ñư c x lý nén nhi u b ng 3 thu t toán nén nhi u khác nhau là NSS, WIENERFILTER và LogMMSE v i hai phương pháp ư c lư ng nhi u là VAD và Percentile Filter. 4.5.2 Quá trình th c hi n các thu t toán ñánh giá khách quan Các ñánh giá khách quan ñư c l a ch n ñ th c hi n ñánh giá ch t lư ng tín hi u ti ng nói g m: - Itakura-Saito (IS) - Log Likelihood Ratio (LLR) - Segmental Signal-to-Noise Ratio(SegSNR) Hình 4.10: Bi u ñ ñánh giá khách quan LLR c a 6 thu t toán tăng - Cepstrum Distance(CEP) cư ng ch t lư ng ti ng nói v i lo i nhi u tr ng(White) - Perceptual Evaluation of Speech Quanlity(PESQ) 4.3.2.1 K t qu ñánh giá khách quan các tham s CEP-PESQ-WSS - Weighted Spectral Slope (WSS) và SegSNR v i phương pháp ư c lư ng nhi u VAD LLR v i nhi u ti ng n ñám ñông(Bable) − T k t qu ñánh giá trên ta th y h u h t các m u âm tho i môi trư ng nhi u ti ng n ôtô cho ch s LLR th p trong d i bi n thiên h p t 0.3dB ñ n 0.8dB trong khi v i các lo i nhi u ñám ñông và nhi u tr ng thì ch s này bi n thiên r ng hơn t 0.2dB ñ n 1.5dB − Trong s 6 thu t toán s d ng ñ tăng cư ng ch t lư ng ti ng nói các ch s LLR ch ra r ng l c nhi u dùng thu t toán LogMMSE v i phương pháp ư c lư ng dùng b l c Percentile cho k t qu t t hơn h n các thu t toán khác. Bên c nh ñó v i hai phương pháp ư c lư ng thì ư c lư ng nhi u dùng VAD cho k t qu không kh quan b ng Hình 4.17: Bi u ñ ñánh giá khách quan các ch s CEP, PESQ, ư c lư ng Percentile. WSS, SNRseg c a 3 thu t toán tăng cư ng ch t lư ng ti ng nói s d ng ư c lư ng VAD v i lo i nhi u ñư ng ph
  10. 19 20 4.3.2.2 K t qu ñánh giá khách quan các tham s CEP-PESQ-WSS − V i các m c m c nhi u l n(SNR=0dB, 5dB) thì phương pháp và SegSNR v i phương pháp ư c lư ng nhi u dùng b l c Percentile tr ph t ra có ưu ñi m vư t tr i, kh năng nén khi u t t hơn phương pháp dùng b l c Wiener hay LogMMSE 4.3.2.3 Đánh giá hi u qu nén nhi u trên các môi trư ng nhi u khác nhau Trong s các ñánh giá khách quan, ñánh giá PESQ và SegSNR ñư c ITUT khuy n cáo do có ñ n ñ nh và tin c y cao. Hình 4.19: Bi u ñ ñánh giá khách quan các ch s CEP, PESQ, WSS, SNRseg c a 3 thu t toán tăng cư ng ch t lư ng ti ng nói s d ng ư c lư ng Percentile v i lo i nhi u ôtô T các k t qu ñánh giá trên ch ra r ng: − Các k t qu sau x lý nén nhi u nhìn chung cho ch s ñánh giá t t hơn so v i chưa x lý. − Các ñánh giá PESQ và SegSNR cho th y trong s các môi trư ng Hình 4.23: Bi u ñ ñánh giá khách quan PESQ trên 5 môi trư ng nhi u thì nhi u ñám ñông, nhi u tàu h a và nhi u ñư ng ph cho k t nhi u khác nhau s d ng thu t toán nén nhi u qu x lý th p nh t. Ngư c l i nhi u tr ng cho hi u qu x lý cao nh t.
  11. 21 22 Hình 4.23 bên trên ch ra k t qu ñánh giá PESQ s d ng thu t LogMMSE_Percentilefilter(trên) và LogMMSE _VAD(dư i) toán LogMMSE v i hai ư c lư ng tương ng là VAD và PercentileFilter. c hai k t qu cho th y thu t toán LogMMSE ñ u cho ñáp ng th p trong môi trư ng nhi u c a tàu h a và giao thông ñư ng ph . Ngư c l i v i lo i nhi u ôtô và nhi u tr ng thì k t qu ñ t ñư c cao hơn. Hình 4.24 bên dư i ch ra k t qu ñánh giá SegSNR trên năm môi trư ng nhi u khác nhau cùng v i ba thu t toán LogMMSE, NSS và Wiene PercentileFilter. K t qu cho th y ñánh giá SegSNR có tính tương ñ ng cao so v i ñánh giá PESQ. c ba k t qu trên hình 4.25 cho th y c ba thu t toán LogMMSE, NSS và Wiener ñ u cho ñáp ng r t t t trong hai môi trư ng nhi u ôtô và nhi u tr ng, ngư c l i cho k t qu th p nh t v i nhi u ñám ñông và giao thông ñư ng ph . 4.6 K t lu n chương Qua quan sát, phân tích và ñánh giá các k t qu ñ t ñư c cho m t s k t qu nh n xét sau: − Trong s năm môi trư ng t o nhi u ñ nghiên c u, các k t qu ñánh giá cho th y nhi u tr ng có ph nhi u h p, công su t nhi u n ñ nh nên hi u qu nén nhi u cao nh t, ngư c l i trong các môi trư ng khác như nhi u ñám ñông hay nhi u ti ng n giao thông do không có ñư c ñ n ñ nh cao, ph nhi u bi n thiên r ng nên hi u qu nén nhi u không cao. − Trong s các ñánh giá ñã nghiên c u, hai ñánh giá khách quan là Hình 4.24: Bi u ñ ñánh giá khách quan SegSNR trên 5 môi trư ng nhi u PESQ và SegSNR cho k t qu tương ñ ng trong t t c các môi khác nhau s d ng ư c lư ng PercentileFilter ng v i ba thu t toán nén trư ng nhi u và c các thu t toán nén nhi u. Đây là hai trong s năm nhi u LogMMSE(trên), NSS(gi a) và Wiener(dư i) ñánh giá cho kh năng tin c y và ñ n ñ nh cao nh t.
  12. 23 24 − V i cùng m t thu t toán ư c lư ng nhi u VAD, LogMMSE và K T LU N VÀ KI N NGH Wiener Scalart cho k t qu t t hơn NSS môi trư ng nhi u ñám ñông. Trong c hai phương pháp ư c lư ng nhi u dùng H u h t ch t lư ng ti ng nói trong các h th ng thông tin liên Percentilefilter và VAD, thu t toán NSS cho k t qu kém nh t sau ñó l c ñ u b suy gi m do nh hư ng b i nhi u. Nhi u có th xu t hi n là Wiener Scalart và LogMMSE. Thu t toán nén nhi u LogMMSE ñ u vào c a h th ng, trên kênh truy n ho c t i các thi t b ñ u cu i. cho k t qu kh quan nh t trong s các thu t toán ñã nghiên c u, k t Tùy theo ñ c ñi m c a t ng lo i nhi u và cư ng ñ nhi u khác nhau qu này cung hoàn toàn tương ñ ng v i phương pháp ñánh giá ch mà s nh hư ng c a nó lên ch t lư ng ti ng nói cũng khác nhau. quan b ng vi c nghe th các m u tín hi u ñã x lý. Trong t t c các Lo i b nhi u ra kh i tín hi u ti ng nói là m t công vi c ph c t p, môi trư ng gây nhi u thì môi trư ng nhi u tr ng cho k t qu nén vi c x lý lo i b nhi u không t t s gây m t thông tin, làm suy gi m nhi u t t nh t do ph nhi u r ng và có ñ n ñ nh cao thu n ti n cho và méo d ng tín hi u ti ng nói. Vì v y, vi c nghiên c u và ñưa ra các vi c c p nh t và x lý. phương pháp c i thi n ch t lư ng ti ng nói ñóng vai trò quan tr ng trong vi c ñ m b o ch t lư ng và tính trung th c c a tín hi u ti ng − V i cùng m t phương pháp nén nhi u, nhi u ñám ñông, ư c nói trong các h th ng thông tin liên l c. lư ng nhi u dùng Percentitlefilter cho k t qu t t hơn VAD h uh t các thu t toán khi SNR tăng d n. nhi u tr ng, ư c lư ng dùng Vi c gi m nhi u nh m nâng cao ch t lư ng ti ng nói cũng là VAD l i cho k t qu t t hơn. m t trong các gi i pháp k thu t quan tr ng nh m h tr cho các m ng x lý ti ng nói khác như nh n d ng ngư i nói, nh n d ng ti ng nói t ñ ng và tr thính trong các môi trư ng nhi u như xe hơi, ñám ñông, các xư ng công nghi p.v.v. Đ tài cũng xây d ng các gi i pháp gi m nhi u: các thu t toán ư c lư ng nhi u VAD, b l c Percentile và các hàm nén nhi u d a trên m c nhi u ñã ñư c ư c lư ng s d ng b l c Weiner, LogMMSE và thu t toán tr ph . Đ tài ñã xây d ng cơ s d li u tín hi u ti ng nói v i 600 m u âm tho i ñư c c ng nhi u v i 4 m c SNR khác nhau trên cơ s 3 lo i môi trư ng gây nhi u ph bi n nh t là Bable, Car, White, mtrain và Street. Đ tài cũng ñà ti n hành th c hi n các thu t toán gi m nhi u t o ñư c m t cơ s d li u l n v i 4230 m u âm tho i.
  13. 25 26 Tri n khai ñánh giá ch t lư ng tín hi u b ng các phương pháp - Nghiên c u các gi i pháp gi m nhi u trong mi n Wavelet và so ñánh giá khách quan v i 6 ñánh giá khác nhau là IS, CEP, LLR, sánh v i các thu t toán x lý trong mi n ph WSS, PESQ, và SNRseg, ñ ng th i qua ñó ñánh giá hi u qu c a các - Tri n khai các thu t toán trên các thi t b ph n c ng chuyên d ng thu t toán gi m nhi u. như KIT DSP, FPGA và ñánh giá l i hi u qu c a toàn b h th ng Tóm l i, qua quá trình th c hi n và các k t qu ñánh giá khách quan thu ñư c ch ra r ng: - Trong s các môi trư ng gây nhi u khác nhau, ngu n nhi u tr ng cho hi u qu nén nhi u t t nh t do có ph nhi u tương ñ i h p và công su t nhi u n ñ nh. Các ngu n nghi u có ñ bi n ñ ng l n, ph nhi u r ng như nhi u ñư ng ph , nhi u ñám ñông thì hi u qu nén nhi u th p hơn. - Trong s các thu t toán nén nhi u ñư c s d ng nghiên c u, thu t toán LogMMSE cho hi u qu nén nhi u cao nh t, ch t lư ng tín hi u sau x lý v n ñư c ñ m b o, các thông tin h u ích v n ñư c b o lưu. K t qu trên hoàn toàn tương ñ ng sau khi nghe th các m u tín hi u ñã x lý. - Trong 2 phương pháp ư c lư ng nhi u, ư c lư ng dùng b l c Percentile cho k t qu kh quan hơn s d ng ư c lư ng VAD, kh năng nén nhi u t t, tín hi u sau x lý ít b phá h y, v n ñ m b o tính d nghe. Phương pháp ư c lư ng VAD phù h p v i các m c nhi u l n có ñ bi n thiên ch m. Bên c nh các k t qu ñ t ñư c như nêu trên, tác gi ki n ngh ti p t c tìm hi u, nghiên c u các v n ñ như sau: - Th c hi n các ñánh giá ch quan cũng như tìm ñư c s tương ñ ng c a các ñánh giá khách quan so v i ñánh giá ch quan
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2