Nén âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:6

Thêm vào BST

Báo xấu

101
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này đề xuất một giải pháp để nén âm thanh thoại mà chất lượng vẫn không đổi. Cơ sở của giải pháp này dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người. Dải phổ âm thanh thoại 4kHz được phân chia thành 3 dải con, mỗi dải con bao phủ một số dải tới hạn của tai người. Trong mỗi dải con loại bỏ những thành phần tai người không nghe thấy. Những dải con có năng lượng phổ nhỏ, được mã hóa với số lượng bít ít và ngược lại.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nén âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người

Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44 NÉN ÂM THANH THOẠI DỰA VÀO NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN CỦA TAI NGƯỜI Nguyễn Xuân Trường* Trường Cao đẳng Phát thanh-Truyền hình I TÓM TẮT Để tiết kiệm tần phổ, trong thông tin thoại âm thanh chỉ lấy tới 4kHz. Trong phổ tần đó, tai người chỉ nghe được những tone có năng lượng đủ lớn, lớn hơn ngưỡng nghe tối thiểu. Hơn nữa, những tone âm thanh yếu xuất hiện gần (cả miền tần số và miền thời gian) những tone âm thanh mạnh đều có thể bị che khuất, tai người cũng không thể nghe được. Bài báo này đề xuất một giải pháp để nén âm thanh thoại mà chất lượng vẫn không đổi. Cơ sở của giải pháp này dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người. Dải phổ âm thanh thoại 4kHz được phân chia thành 3 dải con, mỗi dải con bao phủ một số dải tới hạn của tai người. Trong mỗi dải con loại bỏ những thành phần tai người không nghe thấy. Những dải con có năng lượng phổ nhỏ, được mã hóa với số lượng bít ít và ngược lại. Từ khóa: Mã hóa băng con (SBC), Mức áp suất âm thanh (SPL), Hài âm thanh có khả năng che (Tone Masker), Hài âm thanh bị hài khác che (Tone Maskee) GIỚI THIỆU CHUNG* Âm thanh thoại ở định dạng không nén, tần số lấy mẫu 8kHz, do đó tần số cực đại của âm thanh thoại chỉ là 4kHz. Với mã hóa 8 bít/mẫu thì tốc độ bít là 8kHz x 8bits/mẫu = 64kbps. Thực tế có nhiều thuật toán mã hóa nén âm thanh với tỷ lệ nén khác nhau. Mã hóa dải con là một trong những thuật toán đạt tỷ lệ nén dữ liệu cao. Điển hình là thuật toán ứng dụng trong chuẩn âm thanh MPEG cho tỷ lệ nén dữ liệu lên tới 12:1 (128kbps lớp III) so với CD (Linear PCM, tốc độ bít là 1411kbps). Chuẩn MPEG phân chia dải tần tín hiệu âm thanh lên đến 32 dải con. Thuật toán ATRAC1 giảm tốc độ bít xuống còn 292kbps (3 dải con), thuật toán ATRAC3 tốc độ bít còn 132kbps (4 dải con), thuật toán ATRAC3plus tốc độ bít là 64kbps (16 dải con). Tất cả các thuật toán đều dùng phân chia Wavelet (các hệ số phân chia đều là lũy thừa của 2), chưa phải đã phù hợp hoàn toàn với các đặc tính của âm thanh và của tai người. Bài báo đề xuất một giải pháp nén âm thanh thoại, chất lượng âm thanh vẫn không đổi. Cơ sở của giải pháp này là loại bỏ những thành phần âm thanh tai người không nghe thấy, * Tel: 0913 067429, Email: nguyenxuantruong.vov@gmail.com dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người. CƠ SỞ LÝ LUẬN VÀ THỰC TẾ 1- Ngưỡng nghe tuyệt đối: Ngưỡng nghe tuyệt đối (absolute threshold of hearing) của tai người mô tả mức thanh áp (sound pressure level-SPL) nhỏ nhất mà tai người còn nghe thấy được. Dải tần nghe thấy của tai người từ 20Hz tới 20kHz, trong khoảng này, độ nhạy của tai người khác nhau đối với các tần số khác nhau. Tai người chỉ nghe được những tone âm thanh lớn hơn ngưỡng nghe tuyệt đối. Hình 1 là ngưỡng nghe tuyệt đối của tai người trong khoảng từ 0 đến 11,25kHz[1]. Những tone âm thanh nằm dưới ngưỡng nghe, tai người không có khả năng nghe thấy. Do vậy, khi mã hóa-nén âm thanh nói chung và âm thanh thoại nói riêng, nên tách riêng những thành phần tần số có biên độ phổ lớn hơn và nhỏ hơn ngưỡng nghe tuyệt đối. Những thành phần tần số có biên độ phổ lớn hơn ngưỡng nghe tuyệt đối được mã hóa và loại bỏ những thành phần tần số có biên độ phổ nhỏ hơn ngưỡng nghe tuyệt đối. Phổ của tín hiệu âm thanh chứa nhiều hài, mỗi hài gọi là một tone. Căn cứ vào ngưỡng nghe tuyệt đối, tai người nhạy nhất đối với những tone âm thanh ở vùng tần số từ 39 Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 1968,8Hz đến 4875Hz. Trong khoảng này, những tone có SPL dưới 0dB tai người vẫn có khả năng nghe thấy. Như vậy, không nén âm thanh trong vùng tần số này, dùng bộ lọc tách riêng vùng tần số 2kHz đến 4kHz để mã hóa. biên độ còn gọi là che đồng thời. Đường cong che đồng thời không đối xứng, mở rộng hơn về phía tần số cao (hình 2). Nghĩa là, các tone tần số thấp che các tone tần số cao dễ hơn, nhưng ngược lại thì khó hơn. 70 70 Dải tần của âm thanh thoại 60 50 50 40 40 SPL SPL 60 30 Vùng nghe thấy 20 Tone che Đường cong che 30 Tone bị che 20 10 10 0 -10 135(05): 39 - 44 Vùng không nghe thấy 2 4 6 8 Frequency (kHz) 10 11.25 Hình 1: Đường cong ngưỡng nghe tuyệt đối của tai người phụ thuộc vào tần số 2- Hiện tượng che âm thanh: Do cấu trúc của tai người làm xuất hiện hiệu ứng che âm thanh (masking sound). Che âm thanh là một hiện tượng cơ bản trong quá trình cảm nhận âm thanh của tai người[1]. Tai người có thể không nghe được một tone âm thanh biên độ nhỏ hơn, khi có một tone âm thanh bên cạnh có biên độ lớn hơn. Ta nói rằng tone âm thanh biên độ nhỏ bị che bởi tone âm thanh biên độ lớn hơn. Tone âm thanh biên độ lớn hơn gọi là tone che (masker), tone âm thanh biên độ nhỏ hơn gọi là tone bị che (maskee). Đơn giản có thể hiểu hiệu ứng che là âm lớn át âm bé. Tone che tạo ra đường cong che, chẳng khác nào chính tone che làm ngưỡng nghe nâng lên ở vùng tần số xung quanh nó (hình 2). Tai người không nghe được tone (hay tạp âm) nằm dưới ngưỡng che. a- Che biên độ (amplitude masking)[1]: Với các tone âm thanh có tần số gần nhau, tone có biên độ lớn sẽ che tone có biên độ nhỏ hơn. Khi các tone đó xuất hiện đồng thời thì các tone lớn hơn có thể làm mờ hoàn toàn các tone yếu. Ví dụ, tone 500Hz có thể che tone 600Hz yếu hơn, như vậy có thể bỏ qua tone 600Hz. Che 0 -10 Vùng không nghe thấy 2 4 6 8 Frequency (kHz) 10 11.25 Hình 2: Hiện tượng che âm thanh của tai người Các masker có SPL thấp chỉ có tác dụng che trong một dải tần tương đối hẹp. Tuy nhiên, nếu SPL của masker tăng thì đường cong ngưỡng che được mở rộng, đặc biệt là mở rộng hơn về phía tần số cao. Che đồng thời tăng khi tần số của các tone càng gần nhau. Ví dụ, trong khi đàm thoại có âm thanh của tàu hỏa đi qua, lúc đó âm thanh của con tàu che mờ âm thanh đàm thoại. b- Che thời gian (temporal masking)[1]: Xuất hiện khi nghe các tone gần nhau về thời gian nhưng không đồng thời. Một tín hiệu có thể bị che bởi tạp âm (hay tín hiệu khác) xuất hiện muộn hoặc sớm hơn. Nói một cách khác, tone lớn hơn xuất hiện trước hoặc sau tone yếu hơn đều có khả năng che tone yếu hơn. Che thời gian tăng khi thời điểm xuất hiện các tone càng gần nhau. Che thời gian giảm khi khoảng tồn tại của tone che giảm. Hiện tượng che càng lớn khi hai tone âm thanh càng gần nhau hơn, cả miền tần số và miền thời gian. Như vậy, che đồng thời tốt hơn che thời gian vì các âm thanh xuất hiện cùng một lúc. Che đồng thời hiệu quả hơn khi tần số của tín hiệu bị che bằng hoặc lớn hơn tần số của tín hiệu che. 40 Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ Trong che thời gian, masker có thể che những tone xuất hiện muộn hơn trong khoảng thời gian tương đối lớn (xấp xỉ 15ms) sau khi masker đã kết thúc. Trong khi đó, che tone âm thanh xuất hiện sớm hơn, hiệu quả chỉ trong khoảng 2ms đến 3ms trước khi tone che xuất hiện. Như một sự lựa chọn, não bộ xử lý những âm thanh to nhanh hơn các âm thanh yếu. Âm thanh nằm dưới ngưỡng che đó sẽ không nghe thấy được. Bộ mã hoá cảm giác (Psycho-acoustic model) phải thiết kế sao cho tạp âm và nhiễu nằm dưới ngưỡng che. 3- Phân bố dải tới hạn của tai người: Tai người cảm nhận âm thanh theo thang tần số[1], có thể coi tai người như bộ phân tích Fourier. Do cấu trúc, tai người cộng hưởng cục bộ trong những khoảng tần số nhất định. Những dải tần số này gọi là dải tới hạn (critical band). Trong dải tần nghe thấy của tai người từ 20Hz đến 20kHz, Eberhard Zwicker đã nghiên cứu tìm ra 25 dải tới hạn (hình 3). Độ rộng dải tới hạn fcb (Hz) xấp xỉ theo biểu thức (1)[1], [2]. fcb (Hz)  24,7 4,37f0 (kHz)  1 (1) Trong đó, f0 là tần số trung tâm tính bằng kHz. Các dải tới hạn chủ yếu tập trung ở miền tần số thấp. Tức là, tai người phân giải tần số thấp tốt hơn miền tần số cao. Một dải tới hạn có độ rộng 1 Bark, Bark là tên của nhà vật lý người Đức: Georg Heinrich Barkhausen. Bark là đơn vị đo dải tới hạn (hay còn gọi là đơn vị của tần số cảm giác). Chuyển từ thang tần số thông thường f(Hz) sang thang tần số cảm giác Bark theo biểu thức (2). Dùng Bark thì phổ vật lý có thể chuyển thành phổ tâm lý [1], [2].  76.f   f  Bark  13.arctg  5   3,5.arctg    10   7500  2 (2) Âm thanh thoại chiếm 17 dải tới hạn (bảng 1). Do đó, ta phân chia dải tần tín hiệu âm thanh thoại thành các dải con phù hợp với phân bố của các dải tới hạn, để tăng hiệu quả nén dữ liệu. 4- Phân bố năng lượng âm thanh: Năng lượng âm thanh phân bố giảm dần từ miền tần số 135(05): 39 - 44 thấp đến miền tần số cao. Đặc biệt, năng lượng âm thanh phân bố theo thang tần số Octave (thang tần số lôgarit)[1]. Số Octave (ký hiệu là Oct) tương ứng với tần số f(Hz) theo biểu thức (3). n(Oct)  log 2 f (Hz) / f c (Hz) (3) 4kHz 0 Hz 20kHz 8 dải tới hạn miền tần cao 17 dải con tương ứng với dải tần âm thanh thoại. Hình 3: Phân bố 25 dải tới hạn của tai người Bảng 1: Âm thanh thoại ứng với 17 dải tới hạn TT Fmax(Hz) cb (Hz) F0 (Hz) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 2320 2700 3150 3700 100 100 100 100 110 120 140 150 160 190 210 240 280 320 380 450 550 50 150 250 350 450 570 700 840 1000 1170 1370 1600 1850 2150 2500 2900 3400 Dải con Dải con thứ nhất Dải con thứ hai Dải con thứ ba Như vậy, một Octave tương ứng với biến thiên gấp 2 lần về tần số so với tần số chuẩn fc. Ví dụ, chọn fc=20Hz, thì giá trị tần số tương ứng với số Octave cho trong bảng 2. Dải tần nghe thấy của tai người từ 20Hz đến 20kHz chiếm khoảng 10 Oct. Âm thanh thoại chiếm gần 8 Oct. 41 Nitro PDF Software 100 Portable Document Lane Wonderland Tạp chí KHOA HỌC & CÔNG NGHỆ Bảng 2: Quan hệ giữa số đo tần số (Hz) và (Oct) f(Hz) 20 40 80 160 n(Oct) 0 1 2 3 f(Hz) 320 640 1280 2560 n(Oct) 4 5 6 7 f(Hz) 5120 10240 20480 n(Oct) 8 9 10 70 60 50 NÉN ÂM THANH THOẠI DỰA VÀO NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN Với âm thanh thoại chiếm dải tần [0, 4kHz], tương ứng với 17 dải tới hạn, chiếm 8 Octave (80% năng lượng âm thanh). Dựa vào ngưỡng nghe tuyệt đối, ta đưa ra những nhận xét sau đây: i) Dải tần [0, 1kHz] tai người rất kém nhạy, SPL trung bình để tai người nghe thấy là: 10,36dB. ii) Dải [1kHz, 2kHz] tai người tương đối nhạy, SPL trung bình là: 1,86dB. Dải con 1 Phân tích Wavelet là lý thuyết tổng quát. Bài báo đã khai thác phân tích Wavelet kết hợp với đặc tính âm thanh thoại và đặc tính nghe của tai người để nén âm thanh thoại. Đối với phân tích Wavelet chỉ có hai dạng phân tích đối xứng và phân tích không đối xứng. Ở đây ta dùng phân tích Wavelet không đối xứng [3], [4]. Sau khi phân tích tín hiệu âm thanh thoại thành 3 dải con, tiến hành so sánh phổ của tín hiệu mỗi dải con với ngưỡng nghe tuyệt đối để loại bỏ thành phần nằm dưới ngưỡng nghe. Dải con 2 Dải con 3 40 30 20 10 0 -10 0 0.5 1.0 1.5 2.0 2.5 3.0 Frequency (kHz) 3.5 4 Hình 4: Phân chia dải tần âm thanh thoại thành 3 dải con Tín hiệu vào HPF 2 LPF 2 Dải con 1 HPF LPF iii) Dải [2kHz, 4kHz] tai người rất nhạy với khoảng này nên lọc riêng và thực hiện mã hóa không nén. Qua phân tích, ta phân chia dải tần của tín hiệu âm thanh thoại thành 3 dải con (hình 4) để xử lý riêng biệt. Dải con thứ nhất [0, 1 kHz] bao phủ 9 dải tới hạn. Dải con thứ hai [1, 2 kHz] bao phủ 4 dải tới hạn. Dải con thứ ba [2, 4 kHz] bao phủ 4 dải tới hạn (bảng 1). Để phân chia dải tần âm thanh thoại thành 3 dải con, mỗi dải có có độ rộng như vậy, ta dùng băng lọc Wavelet nhiều nhịp không đối xứng, đảm bảo điều kiện khôi phục hoàn hảo (hình 5). 135(05): 39 - 44 Những thành phần nằm trên ngưỡng nghe tuyệt đối được mã hóa cũng với 8bits/mẫu. SPL Nguyễn Xuân Trường 2 2 Dải tần 2 Dải tần 3 a/ Băng lọc phân tích Dải tần 1 Dải tần 2 2 HPF Dải tần 3 2 LPF 2 HPF 2 LPF Tín hiệu ra b/ Băng lọc tổng hợp Hình 5: Băng lọc Wavelet chia dải tần âm thanh thoại thành 3 dải con Ví dụ lấy một file tiếng nói, xác định phổ của nó bằng phân tích Fourier, sau đó so sánh với ngưỡng nghe tuyệt đối để loại bỏ những thành phần phổ tín hiệu nằm dưới ngưỡng nghe tuyệt đối (hình 6). Kết quả trong bảng 3. Dải con thứ 1 loại bỏ 16 vạch phổ. Dải con thứ 2 loại bỏ 6 vạch phổ. Dải con thứ 3 không loại bỏ vạch phổ nào. Vị trí những vạch phổ bị loại bỏ thể hiện qua các chỉ số phổ. KẾT QUẢ ĐẠT ĐƯỢC Mỗi dải con được cấp phát một số bít nhất định, tùy thuộc vào năng lượng tín hiệu của 2 dải con đó. Với i là phương sai của tín hiệu 42 Nitro PDF Software 100 Portable Document Lane Wonderland Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ dải con thứ i, số bít trung bình trên một mẫu tín hiệu cấp cho dải con thứ i là bTBi (bít/mẫu) và được tính theo biểu thức (4) [5], [7]. 1 bTBi  bTB  log 2 2 i2 M 1 (4) 1 i2 M   i 0 70 60 50 Spectrum 2   E  x(n)-y(n)    (5) Trong đó, x(n) là tín hiệu vào, y(n) là tín hiệu sau khi khôi phục. Việc cấp phát bít phải tối thiểu hóa được lỗi khôi phục, với điều kiện ràng buộc là số lượng bít trung bình bTB (bít/mẫu) cho trước. Với c là một hằng số phụ thuộc vào tính thống kê của nguồn tín hiệu, chọn c  0,5 3 [7], lỗi khôi phục trong mã hoá dải con M kênh tính theo biểu thức (6)[7]: 1   M 1 2bTB 2 n    c.M.2  i (6)  i 0 i    Giải pháp nén âm thanh thoại trong bài báo này đã chọn M=3, các hệ số phân chia n0 = 4, n1 = 4, n2 = 2. Do đó, lỗi khôi phục tính theo biểu thức (7).   40 30 20 10 0 -10 135(05): 39 - 44 0 2 Frequency (kHz) 4 1 Hình 6: So sánh phổ tín hiệu với ngưỡng nghe tuyệt đối của tai người Bảng 3: Những thành phần phổ bị loại bỏ Chỉ số phổ 1 2 3 4 5 6 7 8 9 11 12 13 14 17 20 25 27 30 39 40 41 53 f(Hz) SPL 23.44 46.88 70.31 93.75 117.19 140.63 164.06 187.50 210.94 257.81 281.25 304.69 328.13 398.44 468.75 585.94 632.81 703.13 914.06 937.50 960.94 1359.40 68.00 42.10 30.43 24.17 20.22 17.47 15.44 13.87 12.62 10.74 10.01 9.39 8.84 7.56 6.62 5.50 5.76 4.71 3.70 3.61 3.51 2.17 Biên độ phổ bị loại bỏ 9.21880 19.52500 4.84400 7.85080 12.62420 8.69940 9.90120 7.78200 9.16940 7.91280 8.34380 0.82224 5.23280 5.79460 5.73560 4.62520 2.01840 0.79930 1.47098 1.23638 1.49474 0.75774 Dải con Dải con 1 Dải con 2 Đánh giá chất lượng của bộ mã hoá dải con thông qua méo của tín hiệu ra so với tín hiệu vào, còn gọi là lỗi khôi phục. Lỗi khôi phục được đánh giá qua lỗi trung bình bình phương, biểu thức (5) [6], [7]. 1     1  3.22bTB 02 4 12 4 22 2 (7) 2 Trên cơ sở biểu thức (4) và (6), dùng chương trình Matlab áp dụng với 100 file âm thanh thoại khác nhau, để xác định hiệu quả nén tín hiệu. Trong trường hợp cùng lỗi khôi phục =0,2024x10-6, chỉ cần số bít mã hóa trung bình (tính cho 100 file âm thanh thoại) là 7.00829 bít/mẫu (7bít/mẫu), trong khi đó âm thanh thoại đang dùng 8bít/mẫu. Như vậy tốc độ bít sau khi nén là: 7bít/mẫux8kHz56kbps. Do đó, hiệu quả nén đạt (64-56)/64=12,5%. Giá trị cụ thể số bít trung bình cấp cho 40 file âm thanh thoại đầu tiên cho trong bảng 4. KẾT LUẬN Âm thanh và những đặc tính nghe của tai người rất phức tạp. Năng lượng âm thanh giảm dần từ miền tần thấp đến miền tần số cao, phân bố năng lượng phổ theo Octave. Do cấu trúc của tai người xuất hiện các dải tới hạn, hiện tượng che âm thanh theo tần số và theo thời gian. Những cơ sở khoa học đó, nếu khai thác triệt để sẽ tạo ra những thuật toán xử lý âm thanh cho tỷ lệ nén cao. Bài báo đã vận dụng những đặc tính đó trong việc chia dải tần âm thanh thoại thành 3 dải con để xử lý riêng biệt, hiệu quả nén dữ liệu đạt khoảng 12,5%. Với hướng nghiên cứu này, tác giả đã   3. 43 Nitro PDF Software 100 Portable Document Lane Wonderland