HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA VIỄN THÔNG II _______________
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGHÀNH: ĐIỆN TỬ - VIỄN THÔNG HỆ ĐẠI HỌC CHÍNH QUY
NIÊN KHOÁ: 2008-2013
Đề tài:
NGHIÊN CỨU KĨ THUẬT MÃ HOÁ TIẾNG NÓI TRONG DI ĐỘNG
Mã số đề tài: 12 408160072 NỘI DUNG: - CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG - CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI - CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ MÃ HOÁ TIẾNG NÓI - CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM - CHƢƠNG 5: MÔ PHỎNG
408160072 Đ08VTA2
Sinh viên thực hiện: Nguyễn Đại Hoà MSSV: Lớp: Giáo viên hƣớng dẫn: Phạm Thanh Đàm
MỤC LỤC
LờI Mở ĐầU .................................................................................................................... 1
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG . 2 1.1 Số hoá và mã hoá tiếng nói .................................................................................... 2
1.2 Mã hoá kênh .......................................................................................................... 3
1.3 Tổ chức cụm .......................................................................................................... 4
1.4 Ghép xen ................................................................................................................ 5
1.5 Mật mã hoá ............................................................................................................ 6
1.6 Điều chế ................................................................................................................. 7
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI........................................................... 9 2.1 Chuỗi thoại ............................................................................................................ 9
2.2 Phát âm ................................................................................................................ 10
2.2.1 Kích thích ..................................................................................................... 11 2.2.2 Vocal tract .................................................................................................... 12 2.2.3 Âm vị ............................................................................................................ 13 2.2.3.1 Nguyên âm ............................................................................................. 13 2.2.3.2 Phụ âm xát ............................................................................................. 15 2.2.3.3 Phụ âm dừng .......................................................................................... 17 2.2.3.4 Phụ âm mũi ............................................................................................ 18 2.3 Dạng bộ lọc nguồn ............................................................................................... 18
2.3.1 Vocal tract .................................................................................................... 18 2.3.2 Kích thích ..................................................................................................... 18 2.3.3 Dạng bộ lọc nguồn tổng quát ........................................................................ 19
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ MÃ HOÁ TIẾNG NÓI..................... 20 3.1 Các phƣơng pháp cơ sở mã hoá tiếng nói ............................................................ 20
3.1.1 Phƣơng pháp mã hoá tiếng nói dạng sóng .................................................... 21 3.1.1.1 PCM (Pulse Code Modulation) ............................................................ 21 3.1.1.2 DM (Delta Modulation) ......................................................................... 22 3.1.1.3 DPCM (Differential PCM) .................................................................... 22 3.1.1.4 ADPCM (Adaptive Differential PCM)-G.726 ...................................... 23 3.1.2 Phƣơng pháp mã hóa tiếng nói kiểu Vocoder ............................................... 23 3.1.3 Phƣơng pháp mã hóa lai (Hybrid) ................................................................ 24 3.1.3.1 Mã hoá phân tích AbS ........................................................................... 25 a, Dự đoán ngắn hạn STP (Short Term Predictor) ................................................... 26 b, Dự đoán dài hạn LTP (Long Term Predictor)...................................................... 32 3.2. Ứng dụng các phƣơng pháp cơ sở mã hóa âm thanh trong truyền thông . .......... 33
3.2.1 . Các yêu cầu đối vớ i một bộ mã hóa âm thoa ̣i ............................................ 33
3.2.2. Các tham số liên quan đến chất lươ ̣ng thoa ̣i ................................................ 34 3.2.3. Các phươ ng pháp đánh giá chất lươ ̣ng thoa ̣i cơ bản ................................... 34 3.2.3.1. Phƣơng pháp đánh giá chủ quan (MOS) .............................................. 35 3.2.3.2. Các phươ ng pháp đánh giá khách quan ................................................ 35
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM .. 36 4.1 Các bộ mã hoá tiếng nói dự tuyển cho hệ thống GSM ........................................ 36
4.1.1 SBC- APCM ................................................................................................. 36 4.1.2 SBC-ADPCM ............................................................................................... 36 4.1.3 MPE-LTP ..................................................................................................... 36 4.1.4 RPE-LTP ...................................................................................................... 36 4.2 Bộ mã hoá tiếng nói RPE-LTP ............................................................................ 37
4.2.1 Tiền xử lý...................................................................................................... 37 4.2.2 Lọc phân tích STP ........................................................................................ 39 4.2.3 Lọc phân tích LTP ........................................................................................ 41 4.2.4 Tính toán RPE .............................................................................................. 43 4.3Bộ giải mã tiếng nói RPE-LTP ............................................................................. 45
4.3.1Giải mã RPE .................................................................................................. 46 4.3.2Lọc tổng hợp LTP .......................................................................................... 46 4.3.3Lọc tổng hợp STP .......................................................................................... 47 4.3.4Hậu xử lý ....................................................................................................... 47
CHƢƠNG 5: MÔ PHỎNG ............................................................ 50
KếT LUậN ...................................................................................................................... 52
TÀI LIệU THAM KHảO ................................................................................................. 53
CHữ VIếT TắT ............................................................................................................... 54
MỤC LỤC HÌNH
Hình 1.1 Quá trình biến đổi tín hiệu trong GSM ............................................................. 2
Hình 1.2 Biến đổi A/D ..................................................................................................... 3
Hình 1.3 Mã hoá thoại ..................................................................................................... 3
Hình 1.4 Mã hoá kênh ..................................................................................................... 4
Hình 1.5 Ghép xen tín hiệu tiếng nói............................................................................... 6
Hình 2.1 Quá trình tạo thoại ............................................................................................ 9
Hình 2.2 Phát âm của vocal tract ................................................................................... 10
Hình 2.3 Dạng sóng tiếng nói của đoạn thoại (âm hữu thanh) ngắn ............................. 11
Hình 2.4 Log cƣờng độ phổ của một đoạn thoại (âm hữu thanh) ngắn ......................... 12
Hình 2.5(a) Dạng sóng thời gian của /I/ trong từ “bit” .................................................. 14
Hình 2.5(b) Log cƣờng độ phổ của /I/ trong từ “bit” .................................................... 14
Hình 2.6(a) Dạng sóng thời gian của /U/ trong từ “foot” .............................................. 15
Hình 2.6(b) Log cƣờng độ phổ của /U/ trong từ “foot” ................................................. 15
Hình 2.7(a) Dạng sóng thời gian của /sh/ trong âm bắt đầu từ “shop” .......................... 16
Hình 2.7(b) Log cƣờng độ phổ của /sh/ trong âm bắt đầu từ “shop” ............................ 16
Hình 2.8 Dạng sóng thời gian của /t/ khi phát âm từ “tap” ........................................... 17
Hình 2.9 Dạng bộ lọc nguồn tổng quát .......................................................................... 19
Hình 3.1 Mô hình chung bộ mã hoá phân tích bằng tổng hợp AbS .............................. 25
Hình 3.2 Đồ thị hàm mật độ xác suất của 8 hệ số LAR đầu tiên................................... 30
Hình 3.3 Mối quan hệ giữa khung, khung con và cửa sổ Hamming ............................. 31
Hình 4.1 Bộ mã hoá RPE-LTP ...................................................................................... 38
Hình 4.2 Bộ lọc phân tích ngắn hạn .............................................................................. 41
Hình 4.3 Đáp ứng xung (trái) và đáp ứng tần số (phải) của bộ lọc trọng số ................. 44
Hình 4.4 Vị trí các mẫu trong 4 chuỗi con .................................................................... 44
Hình 4.5 Bộ giải mã RPE-LTP ...................................................................................... 46
Hình 5.1 Giao diện chƣơng trình mô phỏng .................................................................. 50
MỤC LỤC BẢNG
Bảng 2.1 Độ co thắt và vị trí lƣỡi của các nguyên âm trong tiếng Anh ........................ 13
Bảng 2.2 Vị trí co thắt và phụ âm xát trong tiếng Anh.................................................. 17
Bảng 2.3 Vị trí co thắt và phụ âm dừng trong tiếng Anh .............................................. 17
Bảng 2.4 Vị trí co thắt đối với phụ âm mũi trong tiếng Anh ......................................... 18
Bảng 4.1 ......................................................................................................................... 37
Bảng 4.2 Lƣợng tử các hệ số LARc(i) ........................................................................... 40
Bảng 4.3 Nội suy các tham số LAR (J=khối hiện tại) ................................................... 40
Bảng 4.4 Bảng lƣợng tử cho tham số khuếch đại LTP .................................................. 42
Bảng 4.5 Vị trí bit các tham số ngõ ra của bộ mã hoá tiếng nói RPE-LTP trong khung thoại 20ms ............................................................................................................. 48
LỜI MỞ ĐẦU
Lời mở đầu Ngày nay, khi các phươ ng tiện truyền thông phát triển và số lươ ̣ng ngườ i sƣ̉ du ̣ng các phươ ng ti ện liên la ̣c ngày càng tăng lên thì mã hóa tiếng nói đƣợc nghiên cứu và ứng dụng càng rộng rãi trong các cuộc go ̣i điện thoa ̣i truyền thống , gọi điện thoại qua mạng di động, qua Internet hay qua vệ tinh, ... Mặc dù vớ i sƣ̣ phát triển củ a công ngh ệ truyền thông qua cáp quang đã làm cho bă ng thông không còn là vấn đề lớ n trong các cuộc go ̣i đi ện truyền thống . Tuy nhiên, băng thông trong các cu ộc go ̣i đườ ng dài , các cuộc go ̣i quốc tế, các cuộc go ̣i qua vệ tinh hay các cuộc go ̣i di động thì cần phải duy trì băng thông ở m ột mƣ́ c nhất đi ̣nh . Chính vì thế vi ệc mã hóa tiếng nói là rất cần thiết , giúp giảm thiểu số lươ ̣ng tín hi ệu cần truyền đi trên đườ ng truyền nhưng vẫn đảm bảo chất lươ ̣ng cuộc go ̣i.
Xuất phát tƣ̀ nhƣ̃ng yêu cầu ở trên , với mục đích tìm hiểu sâu hơn về kĩ thuật mã hoá tiếng nói, em đã quyết định thực hiện đề tài “Nghiên cứu kĩ thuật mã hoá tiếng nói trong di động”.
Nội dung đề tài bao gồm 4 chƣơng chính:
- Giới thiệu sơ lƣợc về xử lý tín hiệu trong di động.
- Quá trình tạo tiếng nói.
- Các phƣơng pháp cơ sở mã hoá tiếng nói.
- Mã hoá và giải mã tiếng nói trong hệ thống GSM.
Để tăng tính thực tế của đề tài, em đã thực hiện chƣơng trình mô phỏng mã hoá
tiếng nói chạy trên PC bằng Matlab.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 1
Em xin chân thành cảm ơn thầy Phạm Thanh Đàm đã hƣớng dẫn, tận tình giúp đỡ em hoàn thành đề tài này. Nhƣng do thời gian và kiến thức có hạn nên luận văn thực hiện còn nhiều thiếu sót. Em rất mong sự nhận xét, đánh giá, đóng góp từ thầy cô và bạn bè.
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONGDI ĐỘNG
Ghép xen
Mật mã hoá
Điều chế
Số hoá và mã nguồn
Mã hoá kênh
Tổ chức cụm
Tiếng nói
Điều chỉnh
Giải mã nguồn
Giải mã kênh
Giải ghép xen
Giải mật mã
Giải điều chế
Tiếng nói
Quá trình biến đổi và xử lý tín hiệu GSM đƣợc mô tả nhƣ sau:
Hình 1Hình 1.1 Quá trình biến đổi tín hiệu trong GSM
1.1 Số hoá và mã hoá tiếng nói
Đầu tiên, tiếng nói đƣợc microphone biến đổi sang tín hiệu điện ở dạng tƣơng tự. Microphone bao gồm một màn mỏng và một cuộn dây đặt trong khe từ trƣờng của một nam châm. Để giảm lƣợng dữ liệu cần thiết tƣơng ứng với sóng âm, ta cho tín hiệu qua bộ lọc thông dải trong khoảng tần số từ 300 Hz đến 3.4 kHz. Sau đó, tín hiệu này đƣợc biến đổi sang tín hiệu số bằng bộ biến đổi A/D dùng kĩ thuật điều xung mã PCM với tần số lấy mẫu là 8kHz và mã hoá mỗi mẫu bằng 13 bit. Do đó, luồng tín hiệu số sau khi đƣợc biến đổi có tốc độ 104 kbps.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 2
Tín hiệu số ở ngõ ra của bộ biến đổi A/D có tốc độ 104 kbps đƣợc nén lại bằng bộ mã hoá tiếng nói. Mã hoá tiếng nói là phƣơng pháp nén tín hiệu thoại ở dạng số. Yêu cầu của mã hoá tiếng nói là phải đảm bảo thời gian thực và chất lƣợng có thể chấp nhận đƣợc. Trong GSM, ngƣời ta sử dụng mã Vocoder. Nguyên tắc của kỹ thuật này là thay vì truyền đi luồng số từ tiếng nói thì ta sẽ truyền đi thông số của cơ quan phát âm tại thời điểm phát ra tiếng đó. Nhƣ vậy, chuỗi bit truyền đi sẽ ngắn hơn nên tốc độ sẽ giảm xuống.
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG
8000 lần/s
13 bit/mẫu
104kbps
Bộ chuyển đổi A/D
Bộ lọc thông dải
Tín hiệu số
Lọc tín hiệu trong khoảng từ
(300Hz – 3.4kHz)
Tín hiệu số ở ngõ ra của bộ biến đổi A/D có tốc độ 104 kbps đƣợc chia thành từng đoạn có chiều dài 20 ms, nhƣ vậy mỗi đoạn chứa 2080 bit (tƣơng ứng 160 mẫu). Để truyền đi chuỗi bit này, ngƣời ta sẽ thay thế thông số của bộ lọc có chiều dài 260 bit. Nhƣ vậy, 260 bit mỗi 20ms tƣơng ứng với tốc độ truyền thật sự là 13 kbps.
104kbps
LPC
Bộ chuyển đổi A/D
L T P
RPE
Tín hiệu số
Bộ mã hoá thoại
20 ms block
Hình 2Hình 1.2 Biến đổi A/D
Hình 3Hình 1.3 Mã hoá thoại
1.2 Mã hoá kênh
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 3
Mã kênh là thêm vào mỗi từ mã cần truyền một số bit dƣ thừa để làm tăng khoảng cách Hamming của bộ từ mã, nhằm mục đích là giúp cho đầu thu phát hiện và sửa đƣợc nhiều lỗi hơn.
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG Bộ mã hoá tiếng nói đƣa các khối 260 bit/20ms đến bộ mã hoá kênh. Các bit này đƣợc chia thành 182 bit loại I (các bit đƣợc bảo vệ) và 78 bit loại II (các bit không đƣợc bảo vệ), dựa theo tầm quan trọng của các bit nhận đƣợc từ các thí nghiệm chủ quan. Các bit loại I đƣợc chia thành 2 loại, Ia và Ib.
50 bit
CRC3
456 bit
132 bit
Convolution coder
78 bit
50 bit đầu của loại I đƣợc bảo vệ bởi mã CRC để phát hiện lỗi và tạo thành 53 bit. Các bit thêm vào này đƣợc tính dựa trên đa thức tạo mã g(x)= 1+x+x3 . Sau đó, các bit loại I cùng với các bit chẵn lẻ (185 bit) đƣợc bổ sung thêm 4 bit đuôi bằng 0 và đƣợc mã hoá xoắn theo hai đa thức: g1(x)=1+x3+x4 vàg2(x)=1+x+x3+x4 tạo thành 378 bit. Các bit nhóm II không đƣợc bảo vệ. Nhƣ vậy, đầu ra của mã hoá kênh sẽ là 456 bit tƣơng ứng với 22,8 kbps.
Hình 4Hình 1.4 Mã hoá kênh
1.3 Tổ chức cụm
Khi MS cần truy xuất vào mạng thì sẽ đƣợc hệ thống cung cấp cho một khe thời gian. Mỗi khe thời gian có độ dài 0,577 ms nhƣng thông tin truyền đi trong khe này là chỉ chiếm có 0,546 ms. Thông tin trong khoảng thời gian này đƣợc gọi là cụm và khoảng thời gian còn lại hai đầu là thời gian bảo vệ dài 0,031 ms.
Tuỳ theo mỗi loại tín hiệu khác nhau mà các tổ chức cụm trong GSM khác nhau.
Có 5 loại cụm trong thông tin di động GSM:
57 bit thông tin
57 bit thông tin
TB 3
F 1
Chuỗi hƣớng dẫn 26 bit
F 1
TB 3
GP 8.25
Cụm thường (Normal Burst)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 4
Cụm thƣờng (NB)
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG
TB: Tail bit (3 bit), là các bit đuôi, đặt ở đầu và cuối cụm. Chuỗi hƣớng dẫn: 26 bit, dùng để xác định khe thời gian và giúp máy thu điều chỉnh tín hiệu thu. Mỗi cụm thƣờng chứa 114 bit thông tin và đƣợc chia thành hai gói, mỗi gói 57 bit, xen giữa hai gói là một chuỗi hƣớng dẫn chiều dài 26 bit. Ở hai đầu cụm sử dụng bit đuôi cho mỗi đầu.
Cụm điều chỉnh tần số (Frequency Correction Burst)
142 bit thông tin
TB 3
TB 3
GB 8.25
Cụm này chứa 142 bit cố định làm tín hiệu điều khiển, các bit khởi tạo và kết thúc cụm là 3 bit, đƣợc sử dụng cho kênh FCCH.
Cụm điều chỉnh tần số (FC)
Cụm đồng bộ (Synchronization Burst)
39 bit thông tin
39 bit thông tin
TB 3
Chuỗi đồng bộ 64 bit
TB 3
GB 8.25
Đƣợc sử dụng để đồng bộ thời gian cho trạm di động. Cụm chứa 78 bit đƣợc mật mã hoá mang thông tin về FN (số khung) của TDMA và của BSIC (mã nhận dạng trạm gốc). Cụm SB đƣợc sử dụng để truyền kênh SCH.
Cụm đồng bộ (SB)
Cụm truy xuất (Access Burst)
Chuỗi đồng bộ 41
TB 3
TB 3
Các bit thông tin 36
Đƣợc sử dụng cho các kênh điều khiển 1 chiều còn lại. GP 68.25
Cụm truy xuất (AB)
Cụm giả (Dummy Burst)
Các bit hỗn hợp 58
Các bit hỗn hợp 58
GP 8.25
TB 3
TB 3
Cụm DB có tổ chức giống nhƣ cụm NB nhƣng thông tin trong cụm DB là thông tin giả, sử dụng các bit hỗn hợp. Đƣợc sử dụng trong các khe thời gian rỗi. Chuỗi hƣớng dẫn 26 bit
Cụm giả (DB)
1.4 Ghép xen
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 5
Ở thông tin di động, do tác động của fading nên các lỗi bit thƣờng xảy ra từng cụm dài. Tuy nhiên, mã hoá kênh đặt biệt là mã hoá xoắn chỉ hiệu quả nhất khi phát hiện và sửa chữa các lỗi ngẫu nhiên đơn lẻ và cụm lỗi không quá dài. Để đối phó với vấn đề này ngƣời ta chia khối bản tin cần gởi thành các cụm ngắn rồi hoán vị các cụm
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG này với các cụm của khối bản tin khác. Do đó, khi xảy ra cụm lỗi dài mỗi bản tin chỉ mất đi một cụm nhỏ, phần còn lại của bản tin vẫn cho phép các dạng mã hoá kênh khôi phục lại đƣợc đúng sau khi đã sắp xếp lại các cụm của bản tin theo thứ tự nhƣ ở phía phát. Quá trình nói trên đƣợc gọi là ghép xen.
Các bit sau khi mã hoá có chiều dài 456 bit đƣợc tổ chức lại và đƣợc ghép xen theo 8 nửa cụm. Mỗi nửa cụm chứa 57 bit. Việc ghép xen lƣu lƣợng đƣợc thực hiện theo các bƣớc sau:
B1: Chia 456 bit thành 8 nhóm
- Nhóm 0: 1, 9 , 17 ……….. 449 - Nhóm 1: 2, 10, 18 ……….. 450 - Nhóm 2: 3, 11, 19 ……….. 451 - Nhóm 3: 4, 12, 20 ……….. 452 - Nhóm 4: 5, 13, 21 ……….. 453 - Nhóm 5: 6, 14, 22 ……….. 454 - Nhóm 6: 7, 15, 23 ……….. 455 - Nhóm 7: 8, 16, 24 ……….. 456
B2: Sau đó, các nhóm nói trên đƣợc ghép xen ở mức thứ 2. Ở ghép xen này ta thấy bốn nhóm đầu của một từ mã (cụ thể là nhóm 0, 1, 2, 3) đƣợc đặt vào vị trí đầu tiên của bốn cụm, bốn nhóm còn lại đƣợc đặt vào vị trí sau của bốn cụm tiếp theo. Phần còn lại của các cụm này đƣợc dùng để ghép tín hiệu của các từ mã lân cận. Nhƣ vậy, để truyền đi hết một từ mã 456 bit thì phải cần 8 cụm liên tiếp.
Hình 5Hình 1.5 Ghép xen tín hiệu tiếng nói
1.5 Mật mã hoá
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 6
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG Mục đích của mật mã hoá là bảo mật tín hiệu trên đƣờng truyền vô tuyến. Khi MS và BTS giao tiếp với nhau thì giữa chúng có chung một mật mã. Mỗi cuộc gọi khác nhau thì có mật mã khác nhau.
Trong GSM, để thực hiện mật mã, ở đầu phát tạo ra một chuỗi tín hiệu giả ngẫu nhiên để kết hợp với chuỗi tín hiệu cần truyền. Ở đầu thu muốn khôi phục lại tín hiệu thì máy thu phải biết chuỗi ngẫu nhiên ở đầu thu, do vậy chuỗi ngẫu nhiên đƣợc gọi là mật mã.
Mật mã hoá tín hiệu đạt đƣợc bằng cổng XOR giữa chuỗi ngẫu nhiên với 114 bit của cụm bình thƣờng. Để giải mật mã, ngƣời ta thực hiện thao tác XOR giữa tín hiệu thu với chuỗi ngẫu nhiên giống đầu phát.
1.6 Điều chế
Điều chế là phép toán chuyển đổi từ một tín hiệu mang tin tức sang một tín hiệu
khác mà không làm thay đổi về tin tức mang theo.
Điều chế số là quá trình trong đó các dữ liệu số đƣợc mã hoá vào trong sóng mang hình sin thích hợp với các đặc tính kênh truyền. Kỹ thuật truyền tín hiệu điều chế số còn gọi là kỹ thuật truyền tín hiệu dãy thông.
Dạng tổng quát của sóng mang hình sin s(t) là:
(1.1)
s(t) = A(t).cos[ω0(t) + Φ(t)] Trong đó, A: biên độ
ω0=2πf :tần số góc Φ: góc pha
Giải điều chế số là quá trình ngƣợc lại với điều chế số nhằm phục hồi các luồng bit từ dạng sóng thu đƣợc càng ít lỗi càng tốt, mặc dù tín hiệu số có thể méo dạng hoặc nhiễu.
GSM sử dụng phƣơng pháp điều chế khoá chuyển pha cực tiểu GMSK (Gaussian Minimum Shift Keying). Đây là phƣơng pháp điều chế băng hẹp dựa trên kỹ thuật điều chế dịch pha. Để giải thích GSMK, trƣớc hết chúng ta xét MSK bằng cách so sánh nó với PSK. Ta có thể trình bày sóng mang đã đƣợc điều chế đối với PSK và MSK nhƣ sau:
(1.2)
s(t) = A.cos[ω0(t) +ψ(t) + φ0] Trong đó: A là biên độ không thay đổi.
ω0=2πf (rad/s) là tần số góc của sóng mang ψ(t) là góc pha phụ thuộc vào luồng số mang lên điều chế
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 7
φ0 là góc pha ban đầu
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ XỬ LÝ TÍN HIỆU TRONG DI ĐỘNG với n= 0, 1, 2, 3 tƣơng ứng với các cặp bit đƣợc đƣa lên điều chế là {00, 01, 11, 10}.
Đối với điều chế pha bốn trạng thái, ta đƣợc góc pha ψ(t) nhƣ sau: ψ(t) = nπ/2
Đối với điều chế MSK ta đƣợc góc pha ψ(t) nhƣ sau:
(1.3)
Trong đó, chuỗi bit đƣa lên điều chế là {…di-1, di, di+1,…) ki = 1 nếu di= di-1
ki = -1 nếu di di-1
, Tb là khoảng thời gian của bit
Ta thấy, ở MSK nếu bit điều chế ở thời điểm xét giống nhƣ bit ở thời điểm trƣớc đó, ψ(t) sẽ thay đổi tuyến tính từ 0 đến π/2, ngƣợc lại nếu bit điều chế ở thời điểm xét khác với bit trƣớc đó thì ψ(t) sẽ thay đổi tuyến tính từ 0 đến -π/2.
Sự thay đổi góc pha ở điều chế MSK cũng dẫn đến thay đổi tần số theo quan hệ
sau ω = dφ(t)/dt. Trong đó: φ(t) = (ω0(t) + ψ(t) + φ0) Nếu chuỗi bit đƣa lên điều chế không đổi (toàn số 1 hoặc số 0) ta có tần số sau:
ω1 = 2πf1 = ω0+ π/(2Tb) Nếu chuỗi bit đƣa lên điều chế thay đổi luân phiên (1, 0 , 1, 0, 1, 0, …) thì ta có
tần số sau : ω2 = 2πf2 = ω0- π/(2Tb) Để thu hẹp phổ tần của tín hiệu điều chế, luồng bit đƣa lên điều chế đƣợc đƣa qua bộ lọc Gauss. Ở GSM, bộ lọc Gauss đƣợc sử dụng tích dải thông chuẩn hoá BT=0.3 , trong đó, B là độ rộng băng tần.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 8
Mục đích dùng GMSK là để tạo ra tín hiệu băng thông nhỏ, độ dịch tần nhỏ.
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI CHƢƠNG 2:
QUÁ TRÌNH TẠO TIẾNG NÓI
Để hiểu đƣợc các phƣơng pháp mã hoá thoại, điều đầu tiên là ta cần phải hiểu cấu trúc cơ quan phát âm và cơ quan thính giác của con ngƣời, hiểu về ngôn ngữ, sinh lý, các mức âm thanh cũng nhƣ việc ứng dụng nó vào trong các kĩ thuật mã hoá thoại hiện nay.
Mã hoá thoại có ƣu điểm là đƣợc tạo ra dựa vào cấu trúc vocal tract (tuyến âm)
của con ngƣời. Đặc điểm này cũng xác định và giới hạn cấu trúc của tín hiệu thoại.
2.1 Chuỗi thoại
Để rõ hơn ta xét quá trình hai ngƣời hội thoại với nhau, một ngƣời nói và một ngƣời nghe. Chuỗi thoại đƣợc tạo ra và truyền đến tai ngƣời nghe nhƣ trong hình 2.1. Đầu tiên, ngƣời nói sẽ sắp xếp các suy nghĩ của mình, xác định xem thử anh ta muốn nói gì và đặt những suy nghĩ đó vào trong một dạng ngôn ngữ bằng cách chọn các từ, cụm từ, nhóm từ chính xác và đặt chúng vào đúng cấu trúc ngữ pháp của ngôn ngữ mình nói.
Hình 6Hình 2.1 Quá trình tạo thoại
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 9
Quá trình này kết hợp với não ngƣời nói, nơi sẽ đƣa ra các lệnh dƣới dạng các xung. Các xung này theo các dây thần kinh điều khiển cơ và cơ quan phát âm nhƣ lƣới, môi, quai hàm và dây thanh chuyển động làm áp suất không khí xung quanh thay
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI đổi tạo ra sóng âm truyền trong không khí. Sóng âm này truyền đến tai ngƣời nghe và kích hoạt cơ quan thị giác. Cơ qua thính giác cũng tạo ra các xung thần kinh đƣa đến não ngƣời nghe và não sẽ giúp nhận biết, hiểu đƣợc các thông tin từ ngƣời nói.
Các dây thần kinh thính giác của ngƣời nói cũng đƣợc hồi tiếp lại não. Não sẽ tiếp tục so sánh với âm thanh đã nói để có những điều chỉnh thích hợp. Sự hồi tiếp này là rất cần thiết để giúp cho ngƣời nói có thể dự đoán đƣợc ngƣời nghe có nghe rõ ràng và chính xác hay không ?
2.2 Phát âm
Do hoạt động và vị trí của cơ quan phát âm nên âm thanh của mỗi ngƣời khác nhau. Khi chúng ta nói khí từ phổi sẽ đi qua vocal tract và ra ngoài tạo thành tiếng nói.
Tín hiệu thoại là tín hiệu động có dạng sóng rất phức tạp. Bằng cách phân tích tín hiệu, ngƣời ta thấy rằng phân bố năng lƣợng theo tần số trong một đoạn thoại ngắn có nhiều dạng khác nhau. Năng lƣợng phân bố theo tần số đƣợc gọi là phổ công suất. Phổ công suất có thể tập trung ở tần số cao, tần số thấp hoặc ở hai bên một dải tần số nào đó. Cấu trúc của phổ có thể ngẫu nhiên hoặc xác định điều hoà. Phổ của của thoại luôn thay đổi làm cho mã hoá càng thêm phức tạp. Để khắc phục điều này, ngƣời ta sắp xếp thành các mức vật lý khác nhau. Bằng cách nghiên cứu cơ quan phát âm và hoạt động của nó, các dạng tín hiệu thoại khác nhau đƣợc xét riêng lẻ.
Hình 2.2 cho thấy sơ đồ đơn giản hoạt động của vocal tract. Không khí từ phổi đẩy vào khí quản, đi qua dây thanh và cuối cùng vào hốc mũi và miệng. Thanh môn cho phép một lƣợng không khí vừa đủ từ phổi đi qua hoặc có thể ngắt luồng không khí thành các xung tuần hoàn.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 10
Hình 7Hình 2.2 Phát âm của vocal tract
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI 2.2.1 Kích thích
Tín hiệu thoại là do không khí từ phổi đƣợc biến đổi thành dạng năng lƣợng kích thích vocal tract rung và ta xem đây là tín hiệu kích thích trong bộ mã hoá. Dây thanh rung tạo ra các xung truyền đến mũi và miệng. Vì vậy, năng lƣợng kích thích ở nhiều tần số và cƣờng độ của các tần số này phụ thuộc vào tốc độ chuyển động của vocal tract.
Tổng quát, kích thích đƣợc chia làm hai dạng: hữu thanh (voice) và vô thanh (unvoice). Âm thanh tạo ra do sự rung động của dây thanh đƣợc gọi là hữu thanh. Tất cả các nguyên âm và một số phụ âm là âm hữu thanh. Âm thanh đƣợc tạo ra không phải do sự rung của các dây thanh mà do không khí bị vocal tract co thắt thì đƣợc gọi là âm vô thanh, ví dụ nhƣ âm “s”, “p”. Đặc điểm của âm hữu thanh và âm vô thanh phụ thuộc vào:
- Kích thƣớc chia nhỏ luồng không khí từ phổi tạo thành các xung tựa tuần hoàn.
Năng lƣợng để thực hiện điều này là kích thích âm hữu thanh nhƣ là các nguyên âm.
- Luồng không khí từ phổi đến mũi, giống nhƣ là nhiễu loạn tạo ra do sự co thắt vocal tract. Năng lƣợng để thực hiện quá trình này là kích thích âm vô thanh nhƣ âm “s”.
Ngoài hai dạng trên còn có một dạng hỗn hợp của nó ví dụ nhƣ “z”. Tuy nhiên, ta chỉ xét hai loại là hữu thanh và vô thanh dựa vào sự có mặt hay vắng mặt của kích thích tuần hoàn. Do đó, “z” cũng đƣợc xem là âm hữu thanh.
Pich
Tần số của kích thích tuần hoàn (hoặc tựa tuần hoàn) đƣợc gọi là pitch. Khoảng thời gian giữa điểm bắt đầu cũng nhƣ điểm kết thúc của dây thanh đến điểm tƣơng ứng trong chu kì kế tiếp đƣợc gọi là chu kì pitch.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 11
Hình 8Hình 2.3 Dạng sóng tiếng nói của đoạn thoại (âm hữu thanh) ngắn
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI Hình 2.3 cho ta dạng sóng thời gian của một đoạn thoại dài 40 ms của âm hữu thanh. Trục x là trục thời gian (ms). Trục y là biên độ. Giá trị biên độ cao ở điểm bắt đầu xung pitch, chu kì pitch là 10 ms và tần số pitch là 1/10ms bằng 100 Hz.
2.2.2 Vocal tract
Kích thích là một trong hai hệ số quan trọng tác động đến tiếng nói. Cho kích thích là âm hữu thanh hoặc âm vô thanh, khi vocal tract thay đổi sẽ cho các âm thanh khác nhau. Khi hình dạng và vị trí của vocal tract thay đổi thì sẽ làm cho tần số cộng hƣởng của vocal tract thay đổi theo.
Các tần số cộng hƣởng này cho các đỉnh phổ nằm ở các tần số ứng với từng dạng vật lý của vocal tract. Tần số cộng hƣởng đƣợc gọi là formant và vị trí tần số của chúng đƣợc gọi là tần số formant.
Hình 2.4 cho phổ trong một đoạn ngắn của tín hiệu âm hữu thanh. Trục x từ 0 đến 4000 Hz. Trục y là log cƣờng độ của đáp ứng tần số. Đỉnh hẹp cách đều nhau 120 Hz là hoà âm học pitch. Ba formant đầu tiên ở vị trí 400, 900, 2600 Hz.
Hình 9Hình 2.4 Log cƣờng độ phổ của một đoạn thoại (âm hữu thanh) ngắn
Cách phát âm
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 12
Trong vocal tract, sự co thắt và ống dẫn không khí sẽ tạo nên cách phát âm. Để tạo ra các âm khác nhau thì kích thích đƣợc tạo ra bởi vocal tract phải khác nhau. Ví dụ nguyên âm đƣợc tạo ra bởi kích thích tuần hoàn và luồng không khí đi qua vocal tract có tốc độ không bị hạn chế. Tuy nhiên, tốc độ này không đều, nó còn phụ thuộc vào tần số formant. Ngƣợc lại, âm vô thanh không có các thành phần tuần hoàn và đƣợc tạo ra do một số sự co thắt.
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI Phụ âm dừng hay còn gọi là âm bật, đƣợc tạo ra do áp suất luồng không khí bị chặn đột ngột. Phụ âm dừng có thể là âm hữu thanh nhƣ “b” hoặc âm vô thanh nhƣ âm “p”.
Phụ âm mũi đƣợc tạo ra do luồng không khí qua vòm miệng, môi bị giảm để
chuyển sang mũi nhƣ các âm “m”, “n”.
Vị trí phát âm
Cách phát âm xác định nhóm âm thanh và vị trí phát âm xác định chính xác điểm co thắt. Vị trí chính xác của vocal tract sẽ tạo nên âm thanh đặc trƣng của từng ngƣời. Nguyên âm đƣợc phân biệt nhờ lƣỡi tạo nên sự co thắt, ví dụ:
- Một nguyên âm trƣớc nhƣ trong từ “beet”
- Một nguyên âm giữa nhƣ trong từ “bet”
- Một nguyên âm sau nhƣ trong từ “boot”
Trong từ “beet” lƣỡi sẽ chạm lên phần trên của miệng và phần sau của răng, còn “boot” thì lƣỡi lùi lại phía sau gần quai hàm tạo ra sự co thắt. Các âm “p”, “t”, “k” đƣợc tạo ra do vị trí khác nhau trong vocal tract nơi sự co thắt đƣợc thực hiện để dừng luồng không khí trƣớc khi nói.
“p”: đóng môi.
“t”: lƣỡi ở giữa hai hàm răng.
“k”: lƣỡi ở sau miệng
2.2.3 Âm vị
Chất lƣợng của kích thích, vị trí và cách phát âm sẽ tạo nên đặc điểm của âm vị. Vì vậy, mục đích của mã hoá thoại là nhằm giúp ta hiểu đƣợc các âm khác nhau trong cùng một ngôn ngữ.
2.2.3.1 Nguyên âm
Nguyên âm là dạng âm hữu thanh có độ phát âm thay đổi không đáng để. Bảng
Trƣớc
Giữa
Sau
Vị trí Co thắt Cao Trung bình Thấp
/i/ beet /E/ bet /ae/ bat
/ER/ bird /UH/ but
/u/ boot /OW/ bought /a/ father
2.1 là danh sách các nguyên âm dựa trên độ co thắt và vị trí của lƣỡi.
Bảng 1Bảng 2.1 Độ co thắt và vị trí lƣỡi của các nguyên âm trong tiếng Anh
Hình 2.5 và 2.6 hiển thị dạng sóng log cƣờng độ phổ của nguyên âm /I/ (“bit”) và
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 13
/U/ (“foot”). Dạng sóng thời gian cho thấy tần số của /I/ cao hơn nhiều so với /U/.
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI
Hình 10Hình 2.5(a) Dạng sóng thời gian của /I/ trong từ “bit”
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 14
Hình 11Hình 2.5(b) Log cƣờng độ phổ của /I/ trong từ “bit”
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI
Hình 12Hình 2.6(a) Dạng sóng thời gian của /U/ trong từ “foot”
Hình 13Hình 2.6(b) Log cƣờng độ phổ của /U/ trong từ “foot”
2.2.3.2 Phụ âm xát
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 15
Phụ âm chủ yếu tạo nên do nhiễu loạn của luồng không khí đƣợc gọi là phụ âm xát. Phụ âm xát đƣợc tạo ra do luồng không khí bị vocal tract co thắt, bao gồm cả âm
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI hữu thanh lẫn âm vô thanh. Bảng 2.2 là danh sách phụ âm xát. Những từ liệt kê trong bảng cho ta ví dụ chung của âm vị.
Hình 2.7 là dạng sóng theo thời gian và log cƣờng độ phổ của một mẫu /sh/. Âm là âm hữu thanh và dạng sóng thời gian giống nhƣ là nhiễu ngẫu nhiên. Phổ có dạng xác định, không bằng phẳng. Độ cao đỉnh phổ khoảng 2800 Hz.
Hình 14Hình 2.7(a) Dạng sóng thời gian của /sh/ trong âm bắt đầu từ “shop”
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 16
Hình 15Hình 2.7(b) Log cƣờng độ phổ của /sh/ trong âm bắt đầu từ “shop”
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI
Âm vô thanh
Âm hữu thanh
Co thắt Răng/môi Răng Vòm miệng Thanh môn
/f/ fit /THE/ thaw /sh/ sap /h/ help
/v/ vat /TH/ that /zh/ vision
Bảng 2Bảng 2.2 Vị trí co thắt và phụ âm xát trong tiếng Anh
2.2.3.3 Phụ âm dừng
Âm vô thanh
Âm hữu thanh
Co thắt Môi Răng Sau vòm miệng
/p/ pat /t/ tap /k/ cat
/b/ bat /d/ dip /g/ good
Phụ âm dừng hay âm bật là dạng không khí bị ngắt đột ngột do co thắt. Chúng chỉ là những âm ngắn xuất hiện nhanh. Tín hiệu dừng có thể là âm hữu thanh hay là âm vô thanh. Phụ âm dừng trong tiếng Anh đƣợc cho trong bảng 2.3. Sự co thắt xác định vị trí của môi, răng và vòm miệng. Bảng 2.3 là những từ thƣờng gặp mà âm đầu tiên là phụ âm dừng.
Bảng 3Bảng 2.3 Vị trí co thắt và phụ âm dừng trong tiếng Anh
Hình 2.8 là giản đồ dạng sóng của /t/ khi phát âm “tap”. Âm bật chủ yếu nhƣ một xung kim. Do chỉ dừng trong khoảng thời gian ngắn nên nó ảnh hƣởng lớn đến các âm trƣớc và sau. Nếu xuất hiện ở cuối một từ thì nó còn có thêm âm bật do không khí tạo ra.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 17
Hình 16Hình 2.8 Dạng sóng thời gian của /t/ khi phát âm từ “tap”
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI 2.2.3.4 Phụ âm mũi
Co thắt Môi Răng Sau vòm miệng
Âm hữu thanh /m/ map /n/ no /ng/ hang
Âm mũi tạo ra do vocal tract đóng luồng không khí và đƣa nó ra ngoài bằng mũi. Âm mũi là phụ âm âm hữu thanh. Bảng 2.4 liệt kê ba phụ âm mũi trong tiếng Anh. Do miệng đóng kín nên âm mũi có năng lƣợng thấp hơn so với các phụ âm âm hữu thanh khác. Luồng không khí đi qua hốc mũi, kết hợp với đóng miệng nên có phổ cũng khác với các dạng trƣớc.
Bảng 4Bảng 2.4 Vị trí co thắt đối với phụ âm mũi trong tiếng Anh
2.3 Dạng bộ lọc nguồn
Để dễ dàng phân tích tín hiệu thoại, hầu hết bộ mã hoá tiếng nói đều có dạng vocal tract. Dạng này thƣờng đƣợc dùng ở hầu hết các quá trình mã hoá và giải mã. Khi mã hoá, các kiểu thông số đƣợc xác định để miêu tả chính xác thoại ngõ vào. Đối với giải mã, cũng có cấu trúc tƣơng tự và dựa vào các thông số này để tái tạo lại thoại ban đầu.
Một dạng tạo thoại thƣờng đƣợc sử dụng nhất đó là dạng bộ lọc nguồn. Bộ lọc nguồn này có dạng giống nhƣ vocal tract. Nguồn tín hiệu cung cấp cho bộ lọc nguồn này là tín hiệu kích thích.
2.3.1 Vocal tract
Cổ họng, mũi, lƣỡi và miệng là hốc cộng hƣởng không khí để tạo nên tiếng nói của con ngƣời. Vocal tract có cấu trúc khác nhau thì sẽ có các tần số cộng hƣởng khác nhau. Tần số cộng hƣởng cùng với tín hiệu kích thích là hai hệ số chính điều khiển vocal tract tạo ra các âm vị.
2.3.2 Kích thích
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 18
Đối với tiếng nói âm hữu thanh, dạng sóng tuần hoàn tạo kích thích đến vocal tract. Dạng sóng tuần hoàn từ các xung thanh môn sẽ làm cho dây thanh sẽ rung. Dạng đơn giản và hay dùng cho âm vô thanh là nhiễu trắng. Nhiễu trắng thƣờng ngẫu nhiên và có phổ bằng phẳng ở mọi tần số có cùng công suất. Giả sử nhiễu trắng đƣợc tạo ra khi không khí đi qua bộ phận co thắt. Một số âm nhƣ âm /z/ đƣợc tạo ra vừa bởi một kích thích tuần hoàn và vocal tract co thắt không khí. Điều này đƣợc gọi là kích thích pha trộn. Vì vậy, nhiệm vụ chính của mã hoá thoại là phải phân biệt đâu là âm hữu thanh, âm vô thanh hay là pha trộn của nó.
CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI 2.3.3 Dạng bộ lọc nguồn tổng quát
Pitch
Thông tin vocal tract
Kích thích tuần hoàn
Kích thích
Vocal tract
Quyết định trộn
Thông tin tiếng nói
Thoại đƣợc tổng hợp
Nhiễu kích thích
Sơ đồ hình 2.9 chứng minh rằng luồng tín hiệu và thông tin của một bộ lọc nguồn tổng quát. Thông tin pitch thƣờng đƣợc chứa trong giá trị chu kì pitch. Giá trị này thay đổi tuỳ theo sự thay đổi của tín hiệu thoại. Dựa vào chu kì pitch, khối “kích thích tuần hoàn” tạo ra một dạng sóng xung đại diện cho các xung thanh môn. Khối “nhiễu kích thích” có ngõ ra là nhiễu liên tục với đáp ứng phổ bằng phẳng. Hai kích thích này đƣợc cho vào bộ quyết định trộn. Thoại cũng sẽ cho vào một ngõ vào khác. Dựa vào các mức của thoại gốc, khối “quyết định trộn” kết hợp với “kích thích tuần hoàn” và “nhiễu kích thích” sẽ tạo ra tín hiệu kích thích phù hợp.
Hình 17Hình 2.9 Dạng bộ lọc nguồn tổng quát
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 19
Thƣờng có 2 dạng, bộ lọc nguồn sẽ kết hợp quyết định cứng âm hữu thanh/âm vô thanh đối với mỗi đoạn thoại. Trong trƣờng hợp này, chức năng của khối “quyết định trộn” nhƣ một chuyển mạch với kích thích là âm hữu thanh/âm vô thanh. Thông tin vocal tract đƣợc cung cấp vào khối “vocal tract” để tạo ra một bộ lọc vocal tract. Bộ lọc sẽ làm cho phổ của kích thích giống nhƣ của tín hiệu thoại gốc. Thực tế, thông tin vocal tract đƣợc tạo ra bằng một số phƣơng pháp bao gồm một dự đoán tuyến tính và giá trị Fourier. Kích thích đƣợc lọc bởi vocal tract để tạo ra thoại tổng hợp đến tai ngƣời nghe sao cho giống tín hiệu thoại ban đầu nhất.
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ MÃ HOÁ TIẾNG NÓI
3.1 Các phƣơng pháp cơ sở mã hoá tiếng nói
Về cơ bản bộ mã hóa tiếng nói có 3 loại: Mã hóa da ̣ng sóng (waveform). Mã hóa nguồn (source). Mã hóa lai (hybrid): là sƣ̣ kết hơ ̣p củ a mã hoá dạng sóng và mã hoá nguồn. Nguyên lý củ a mã hóa da ̣ng sóng là tìm cách số hóa da ̣ng sóng củ a tiếng nói theo cách thích hơ ̣p . Tái phía phát, bộ mã hóa sẽ nh ận các tín hiệu nói tươ ng tƣ̣ liên tu ̣c và chuyển thành tín hi ệu số trướ c khi truyền đi . Tại phía thu sẽ làm nhi ệm vu ̣ ngươ ̣c la ̣i để khôi phục tín hi ệu tiếng nói . Khi không có lỗi truyền dẫn thì da ̣ng sóng củ a tiếng nói khôi phu ̣c rất giống vớ i da ̣ng sóng củ a tiếng nói gốc. Ƣu điểm của loại mã hóa này là: độ phƣ́ c ta ̣p, giá thành thiết kế , độ trễ và công suất tiêu thu ̣ thấp . Bộ mã hóa da ̣ng (PCM), điều chế Delta (DM)... Tuy nhiên , sóng đơ n giản nhất là điều chế xung mã nhƣợc điểm của b ộ mã da ̣ng s óng là không ta ̣o đươ ̣c tiếng nói chất lươ ̣ng cao , tốc độ dƣới 16kbit/s.
Bộ mã hóa nguồn khắc phu ̣ đươ ̣c nhươ ̣c điểm này . Nguyên lý củ a mã hóa là mã hóa kiểu phát âm (vocoder), ví du ̣ như b ộ mã hóa bằng dƣ̣ đoán tuyến tính (Linear Prediction Coding - LPC). Các bộ mã hóa này có thể thƣ̣c hi ện đươ ̣c ta ̣i tốc đ ộ bit lớn ệc mô phỏng nguồn hơn 1kbps. Hạn chế chủ yếu của mã hóa kiểu phát âm LPC là vi kích thích còn đơ n giản nên tiếng nói tái ta ̣o đươ ̣c là tiếng nói da ̣ng tổ ng hơ ̣p , chất lƣợng không cao và khó có thể nh ận ra gio ̣ng ngườ i nói chuy ện. Vào nă m 1982, Atal đã đề xuất m ột mô hình mớ i về kích thích , đươ ̣c go ̣i là kích thích đa xung .Trong mô hình này, không cần biết trướ c xem đó là âm hƣ̃u thanh h ay vô thanh . Sƣ̣ kích thích đươ ̣c mô hình hóa bở i m ột số xung có biên đ ộ và vi ̣ trí đươ ̣c xá c định bằng vi ệc cƣ̣c tiểu hóa sai l ệch, có tính đến tro ̣ng số thu ̣ cảm , giƣ̃a tiếng nói gốc và tiếng nói tổng hơ ̣p. Việc đưa ra mô hình này đã gâ y chú ý và đó là mô hình đầu tiên củ a m ột thế h ệ mớ i củ a các bộ điều chế tiếng nói phân tích bằng tổng hơ ̣p (Analisis by Synthesis). Tín hiệu kích thích sẽ đươ ̣c tối ưu hóa m ột cách kỹ lưỡng và ngườ i ta sƣ̉ du ̣ng k ỹ thuật mã hóa da ̣ng sóng để mã hóa tín hiệu kích thích này một cách có hiệu quả.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 20
Chỉ tiêu đánh giá thuật toán mã hoá: - Hai mục tiêu quan trọng đặt ra là : tối thiểu hóa tốc đ ộ bit và tối ưu hóa chất lƣợng. Hai mu ̣c tiêu này thườ ng có mâu thuẫn vớ i nhau . Tốc đ ộ bit đươ ̣c tính bằng bps. Chất lươ ̣ng đươ ̣c đánh giá ở vi ệc đươ ̣c tái ta ̣o la ̣i da ̣ng tươ ng tƣ̣ vớ i m ột sai số cang nhỏ càng tốt . Việc lấy mẫu không ảnh hưở ng đến chất lươ ̣ng . Còn lươ ̣ng tƣ̉ hóa thì có thể gây ra nhƣ̃ng sai số làm mất mát thô ng tin so vớ i tín hi ệu ban đầu đươ ̣c go ̣i
. Tỷ số tín hi ệu trên nhiễu (SNR) đươ ̣c dung đánh giá chất lươ ̣ng
- Chất lƣợng chấp nh ận đươ ̣c có SNR khoảng trên 30 dB. Theo tính toán việc 6dB, tƣơng tự sẽ
- Ngƣời ta thƣờng dùng m ột tiêu chuẩn go ̣i là MOS (Mean Opinion Score) để so , vớ i thang giá tri ̣ tƣ̀ 1 đến 5, cho ta biết m ột thuật
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI là nhiễu lươ ̣ng tƣ̉ tiếng nói. Nếu tỉ số này thấp ngườ i nghe sẽ thu đươ ̣c tiếng nói không tốt . thêm 1 bit biểu diễn giá tri ̣ lươ ̣ng tƣ̉ sẽ làm tă ng SNR lên khoảng giảm 1 bit làm SNR giảm xuống 6dB. sánh chất lươ ̣ng mã hoá tiếng nói toán điều chế đa ̣t đươ ̣c chất lươ ̣ng có gần vớ i tiếng nói tƣ̣ nhiên hay không . 3.1.1 Phƣơng pháp mã hoá tiếng nói dạng sóng
Kiểu mã hóa này cố gắng mã hóa da ̣ng sóng củ a tiếng nói m ột cách có hiệu quả , dạng đơn giản là điều chế xung mã PCM , ngoài ra còn có các thuật toán khác có thể làm giảm tốc đ ộ bit hơ n nƣ̃a. Công nghệ mã hóa dạng sóng thườ ng cho tiếng nói chất lƣợng tốt với băng thông 16kbps trở lên. Để tránh hi ện tươ ̣ng chồng phổ , tiếng nói tươ ng tƣ̣ đươ ̣c lo ̣c trướ c khi số hóa để loại trừ các thành ph ần tần số cao không mong muốn . Phổ tiếng nói có thể gồm cả nhƣ̃ng thành phần t ần số tớ i 10 kHz, nhƣng do hầu hết các t ần số tiếng nói tập trung vào khoảng từ (300 Hz – 3.4 kHz) nên tín hiệu tiếng nói đươ ̣c lo ̣c đi để loa ̣i bỏ thành phần ngoài khoảng tần số ấy.Theo đi ̣nh luật lấy mẫu thì tần số lấy mẫu sẽ là 8 kHz. Hệ thố ng như vậy go ̣i là PCM (Pulse Code Modulation). Phổ biến hiện nay ngườ i ta cho ̣n tố c độ lấy mẫu là 8 kHz và số bit lươ ̣ng tƣ̉ n =8, tƣ́ c là tốc độ truyền sẽ là 64 kbps. Các bit mã hóa đươ ̣c truyền tuần tƣ̣ trên đườ ng truyền. 3.1.1.1 PCM (Pulse Code Modulation)
PCM đều (uniform PCM):Đầu vào của b ộ lƣợng tử là tín hi ệu tươ ng tƣ̣ đã đươ ̣c đưa qua bộ lấy mẫu.Vớ i một bộ lƣợng tử dùng N bit tƣ̀ mã,miền giá tri ̣ lươ ̣ng tƣ̉ đươ ̣c chia thành 2N mƣ́ c, mỗi tƣ̀ mã N bit tươ ng ƣ́ ng vớ i 1 giá tri ̣.Khoảng cách giữa các mức gọi là bƣớc lƣợng tử (step size).Bộ lƣợng tử quyết định xem với mỗi giá trị đầu ra là . Trong kiểu PCM đều ,các giá tri ̣ lươ ̣ng tƣ̉ cách đều giá tri ̣ lớ n nhất củ a miền giá tri ̣ nhau.Bƣớc lƣợng tử phải đƣợc chọn sao cho đủ nhỏ để có thể tối thiểu nhiễu lƣợng tƣ̉ ,nhƣng lại có thể đủ lớn để miền giá trị của cả b ộ lƣợng tử có đ ộ lớ n thích hơ ̣p.Vớ i một bộ lƣợng tử N bit có bƣớc lƣợng tử là S,thì miền giá tri ̣ là R=2N*S.
Nếu N không đủ lớ n thì vi ệc cắt xén tín hi ệu vươ ̣t qua miền giá tri ̣ sẽ xảy ra
Phƣơng pháp này có nhƣợc điểm là SNR ,tƣ́ c là chất lươ ̣ng không chỉ phu ̣ thu ộc
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 21
nhiều hơ n và đó là dĩ nhiên là một nguyên nhân khác củ a nhiễu lưỡng tƣ̉ . vào bướ c lươ ̣ng tƣ̉ mà còn phu ̣ thuộc và cả biên độ của tín hiệu lấy mẫu. Lượng tử hóa kiểu PCM đều :Cần N cỡ 11 bit trở lên để có thể đảm bảo chất lƣợng tiếng nói.Điều này làm tốc độ bit lớ n nên chúng ít đươ ̣c sƣ̉ du ̣ng trong thƣ̣c tế .
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI Lượng tử hóa Logarithm (logarithmic PCM):Mục tiêu của phƣơng pháp này là duy trì một tỷ số SNR ít thay đổi trong toán pha ̣m vi giá tri ̣ biên đ ộ.Thay vì lươ ̣ng tƣ̉ hóa giá tri ̣ tươ ng tƣ̣ củ a tín hiệu lấy mẫu,trƣớc tiên ta tính toán hàm logarithm của tƣ̀ ng giá tri ̣ rồi mớ i lươ ̣ng tƣ̉ hóa chúng .SNR sẽ chỉ phu ̣ thu ộc vào bướ c lươ ̣ng tƣ̉ .Lƣợng tử logarithm là một quá trình nén, chúng làm giảm miền giá tri ̣ đầu vào một cách đáng kể tùy thuộc vào da ̣ng hàm logarithm đươ ̣c dùng .Sau khi nén,một quá trình ngươ ̣c la ̣i là mũ hóa đƣợc sử dụng để tái tạo lại tín hi ệu nguyên thủ y ban đầu .Toàn bộ chu trình đươ ̣c go ̣i là Companding(Compressing/expanding). Hai tiêu chuẩn đươ ̣c dùng phổ biến hi ện nay là luậtμvà luật A.Lƣợng tử hoá theo luật μ sử dụng ở Bắc Mỹ và Nhật Bản, trong khi đó lƣợng tử hoá theo luật A đƣợc sử dụng ở châu Âu.
Các mẫu tín hiệu rời rạc theo biên độ đƣợc mã hoá nhị phân. Ví dụ, mã hoá theo
luật A, ngƣời ta chia đƣờng cong logarith thành 13 đoạn.
Bit thứ nhất là bit có trọng số lớn nhất, là bit đấu. Giá trị 1 chỉ thị tín hiệu dƣơng
và giá trị 0 chỉ thị tín hiệu âm.
Bit 2, 3, 4 xác định đoạn lƣợng tử hoá theo mỗi vùng âm và dƣơng.
Bit 5, 6, 7, 8 là các bit có trọng số nhỏ nhất, xác định vị trí của giá trị lƣợng tử
hoá trong đoạn.
3.1.1.2 DM(Delta Modulation)
Là một trong nhƣ̃ng phươ ng pháp điều chế vi sai
Ý tưở ng củ a phươ ng pháp điều chế Delta là chỉ truyền đi giá trị thay đ ổi tuyệt đối
,dƣ̣a trên tính chất là tín hi ệu tiếng nói ta ̣i thờ i điểm có ít nhiều phu ̣ thu ộc vào tín hiệu ở các thờ i điểm trướ c đó ,vì thế ta có thể dƣ̣ đoán tín hi ệu ta ̣i thờ i điểm hi ện ta ̣i,và chỉ cần lưu trƣ̃ giá tri ̣ khác bi ệt ệu,sƣ̣ sai khác này,giúp tiết ki ệm bă ng giƣ̃a giá tri ̣ thƣ̣c và giá tri ̣ dƣ̣ đoán củ a tín hi thông để đa ̣t hiệu quả cao. của tín hi ệu.Dƣ̣a vào sƣ̣ khác nhau củ a tín hi ệu ta ̣i thờ i điểm liền kề nhau mà ta tính đươ ̣c tín hiệu phải truyền trên đƣờng dây .Phƣơng pháp này chỉ sử dụng 1 bit để mã hóa tín hiệu sai khác đó ,nghĩa là cho biết tín hi ệu ta ̣i thờ i điểm t +1 là lớ n hơ n hay nhỏ hơn tín hiệu ta ̣i thờ i điểm t.
3.1.1.3 DPCM(Differential PCM)
+1.Khác vớ i DM chỉ dùng
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 22
Đây là phươ ng pháp cũng dƣ̣a trên nguyên tắc chỉ truyền đi sƣ̣ khác nhau củ a tín hiệu ta ̣i hai thờ i điểm kề nhau là t và t 1 bit để giải mã,DPCM dùng N bit để có thể biểu diễn giá tri ̣ sai khác này .Chất lươ ̣ng điều chế khá tốt vớ i lươ ̣ng bit cần dùng ít hơ n so vớ i PCM.
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI 3.1.1.4 ADPCM (Adaptive Differential PCM)-G.726
Vớ i mu ̣c tiêu làm giảm tốc đ
ệu vào .Đây đươ ̣c go ̣i là phươ ng pháp Adaptive
Là phươ ng pháp mở r ộng củ a DPCM.Ngƣời ta vẫn dùng m ột số bit nhất đi ̣nh để mã hóa sƣ̣ sai khác giƣ̃a tín hi ệu ta ̣i 2 thờ i điểm kề nhau,nhƣng bƣớc lƣợng tử có thể đươ ̣c điều chỉnh ta ̣i các thờ i điểm khác nhau để tối ưu hóa việc điều chế. ệu tươ ng ộ bit hơ n nƣ̃a mà chất lươ ̣ng tín hi đươ ng,ngƣời ta sử dụng phƣơng pháp thích nghi động giá tri ̣ củ a bướ c lươ ̣ng tƣ̉ trư ớc nhƣ̃ng thay đổi củ a biên đ ộ tín hiệu vào.Mục đích là duy trì miền giá trị lƣợng tử p hù hơ ̣p vớ i miền giá tri ̣ củ a tín hi PCM(APCM).Thích nghi bướ c lươ ̣ng tƣ̉ có thể áp du ̣ng cho cả kiểu lươ ̣ng tƣ̉ đều và không đều.Tiêu chuẩn thay đổi bướ c lươ ̣ng tƣ̉ dƣ̣a vào m ột số thống kê về tín hi ệu có liên quan đến biên đ ộ của nó.Có nhiều bướ c toán đ ể tính toán bƣớc lƣợng tƣ̉ . Thông thƣờng có 2 kiểu là feedforward APCM và feedback APCM .Trong cả 2 kiểu ngườ i ta đều dựa trên những tính toán liên quan đến m ột khối (block) mẫu thu đươ ̣c trong m ột thờ i gianngắn ,về nă ng lươ ̣ng ,sƣ̣ biến đổi và nhƣ̃ng đo đa ̣ c khác .Ta còn go ̣i là block companding.Trong kiểu feedback ,việc tính toán bướ c lươ ̣ng tƣ̉ đươ ̣c thƣ̣c hi ện trên mỗi câu khi nó đươ ̣c đưa vào xƣ̉ lý (vẫn dùng giá tri ̣ bướ c lươ ̣ng tƣ̉ trướ c đó),thì cho ra kết quả là một giá tri ̣ bướ c lượng tử mới đƣợc dùng xử lý N mẫu tiếp theo. Feedforward theo một cách tiếp c ận khác,dùng chính ngay giá tri ̣ bướ c lươ ̣ng tƣ̉ đươ ̣c tính toán ngay trên N mẫu để xƣ̉ lý N mẫu đó .Nhƣ vậy qua trình xƣ̉ lý phải cần tớ i môt b ộ đệm để chƣ́ a khối dƣ̃ li ệu lấy mẫu .Trong khi kiểu feedback có ưu điểm là rất nha ̣y cảm vớ i nhiễu lươ ̣ng tƣ̉ vì nó có tính toán bướ c lươ ̣ng tƣ̉ và sƣ̉ du ̣ng ngay cho chính block mà tƣ̀ đó nó thƣ̣c hiện phép tính.
3.1.2 Phƣơng pháp mã hóa tiếng nói kiểu Vocoder
ộ máy phát Vocoder là kiểu điều mã hóa nói dƣ̣a trên các tham số mô phỏng b
ng tƣ̣ , gọi là mã hóa nguồn
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 23
âm,khác vớ i mã hóa da ̣ng sóng củ a tiếng nói tươ (Vocoder).Nguyên lý dƣ̣a trên vi ệc cho rằng tuyến âm thanh thay đổi tƣ̀ tƣ̀ ,trạng thái và cấu hình củ a chúng ta ̣i bất cƣ́ thờ i điểm nào có thể đươ ̣c mô phỏng m ột cách gần đúng bằng m ột tập nhỏ các tham số .Nhờ vi ệc tuyến âm có tốc đ ộ thay đổi tƣ̀ tƣ̀ cho phép mỗi t ập tham số có thể đa ̣i di ện cho tra ̣ng thái củ a nó qua m ột khoảng thờ i gian 25 ms.Hầu hết các Vocoder biểu diễn đ ặc tính củ a nguồn kích thích và tuyến âm chỉ bằng một tập tham số .Nó gồm khoảng 10 đến 15 hệ số củ a b ộ lọc để định nghĩa các đặc tính cộng hưở ng củ a tuyến âm ,1 tham số 2 giá tri ̣ đơ n giản để chỉ ra nguồn phát âm là vô thanh hay hƣ̃u thanh ,1 tham số chỉ ra nă ng lươ ̣ng kích thích và 1 tham số chỉ ra chu kì cơ bản (âm sắc,chỉ có với hữu âm thanh ).Trạng thái của tuyến âm đƣợc suy ra bằng cách phân tích da ̣ng sóng tiếng nói trong khoảng thờ i gian 10 đến 25ms và tính toán ra một tập mớ i cá c tham số (một khung dƣ̃ li ệu) tại phần c uối củ a khoảng thờ i
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI gian đó.Khung dƣ̃ liệu này đƣợc truyền đi và sau đó dùng để điều khiển việc tổng hơ ̣p lại tiếng nói.Vocoder có khả nă ng chuyển giƣ̃a 2 kiểu nguồn kích thích là nguồn xung đố i âm hƣ̃u thanh và nhiễu trắng vớ i âm vô thanh .Bên phía tổng hơ ̣p sẽ dùng 1 trong 2 nguồ n này cho đi qua bộ lọc gồm các hệ số của khung dữ liệu để tổng hơ ̣p tiếng nói.
ặt la ̣i giá tri ̣ củ a bit
Ngoài việc đa ̣t đươ ̣c tốc đ ộ bit thấp ,Vocoder còn có ưu điểm là phân tích đươ ̣c các tham số nguồn kích thích .Bit biểu thi ̣ âm s ắc, âm lươ ̣ng và âm h ữu thanh/âm vô thanh. Bản thân nó là các bit trong khung dƣ̃ liệu, nên các sƣ̣ thay đổi củ a chúng có thể đươ ̣c sƣ̉ a đổi trướ c ho ặc trong khi tổng hơ ̣p .Vì thế ta có thể biến m ột âm thanh hƣ̃u âm hữu thanh/âm vô thanh thành một lờ i thì thầm khi thiết đ thanh.Cũng có thể thay đổi bản thân câu nói bằng cách sửa đổi các tham số c ộng hƣởng.
Nhƣợc điểm của phƣơng pháp này là cho tiếng nói có dạng tổng hợp , khó có khả
Mô tả bộ máy phát âm củ a con ngƣời: Khi chúng ta nói,âm thanh đươ ̣c ta ̣o ra như
năng nhận da ̣ng đươ ̣c ngườ i nói. sau: - Không khí đươ ̣c đẩy vào phổi qua tuyến âm (vocal track) và miệng ta ̣o thành câu nói. - Đối với âm hữu thanh thì d ây thanh (vocal cords) rung lên. Tốc đ ộ rung củ a dâ y thanh nhanh hay chậm quyết đi ̣nh âm s ắc (pitch) của tiếng nói . Phụ nữ và trẻ em thƣờng có giọng thanh (âm sắc cao-dao động nhanh hơ n),trong khi nam giớ i thườ ng có giọng trầm (dao động chậm).
- Âm thanh đƣợc tạo ra không phải do sự rung của các dây thanh mà do không khí bị dây thanh co thắt thì đƣợc gọi là âm vô thanh.
. Khi ta nói, tuyến âm thay đổi - Hình da ̣ng củ a tuyến âm quyết đi ̣nh âm thanh ta ̣o ra hình da ̣ng để tạo ra các tiếng khác nhau ,nói chung là hình da ̣ng củ a tuyến âm thay đổi một cách tƣ̀ tƣ̀ ,thƣờng là từ 10ms đến 100ms. - Lƣợng không khí từ phổi quyết định âm lƣợng (gain) của tiếng nói.
3.1.3 Phƣơng pháp mã hóa lai (Hybrid)
Mã hóa dạng sóng nói chung không cho phép đa ̣t chất lươ ̣ng tiếng nói tốt ở tốc
,có thể nh ận da ̣ng đươ ̣c ngườ i nói
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 24
độ bit dướ i 16Kbps.Mặt khác mã hóa vocoder có thể đa ̣t đươ ̣c tốc đ ộ bit rất thấp ,tuy nhiên phươ ng pháp này tổng hơ ̣p la ̣i tiếng nói nên có nhươ ̣c điểm là rất khó nh ận diện đươ ̣c ngườ i nói và thườ ng xuyên g ặp vấn đề vớ i nhiễu nền .Mã hóa lai cố gắng t ận dụng ƣu điểm của cả hai phươ ng pháp điều chế trên.Nó mã hóa tiếng nói ở tốc độ thấp, mà la ̣i cho kết quả tiếng nói tái ta ̣o la ̣i tốt . Băng thông yêu cầu thư ờng nằm trong khoảng 4.8 kbps đến 16kbps.
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI Vấn đề cơ bản đối vớ i Vo coder là nguồn kích thích đươ ̣c mô phỏng m ột cách đơ n giản:tín hiệu tiếng nói đươ ̣c coi là vô thanh hay hƣ̃u thanh ,nó làm cho tiếng nói nh ận đươ ̣c có da ̣ng đươ ̣c nhân ta ̣o hơ n là v ẻ tự nhiên .Các phươ ng pháp mã hóa lai có gắng cải thiện điều này bằng cách thay đổi nguồn kích thích tiếng nói theo các cách khác .
Mã hoá lai phổ biến nhất là mã hoá phân tích bằng tổng hợp AbS (Analysis by Synthesis), RPE-LTP, CELP, ACELP, CS-CELP, … Hầu hết các tiêu chuẩn mã hoá tiếng nói trong liên lạc di động đều sử dụng mã hoá kết hợp mã hoá lai AbS. Do đó, phần này sẽ trình bày chi tiết mã hoá lai AbS.
3.1.3.1 Mã hoá phân tích AbS
Hình 18Hình 3.1 Mô hình chung bộ mã hoá phân tích bằng tổng hợp AbS
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 25
Cấu trúc cơ bản của mô hình chung bộ mã hoá tiếng nói phân tích bằng tổng hợp AbS đƣợc mô tả nhƣ hình 2.1. Mô hình trên bao gồm ba phần chính. Phần đầu tiên là bộ lọc tổng hợp, thƣờng đƣợc gọi là bộ lọc tƣơng quan ngắn hạn bởi các hệ số đƣợc tính ra dựa trên dự đoán một mẫu tiếng nói bằng các mẫu tiếng nói trƣớc đó (thƣờng là 8 đến 16 mẫu, do đó gọi là ngắn hạn). Bộ lọc tổng hợp cũng có thể là bộ lọc tƣơng quan dài hạn nối tầng bộ lọc tƣơng quan ngắn hạn. Các đoạn tiếng nói hữu thanh có dạng sóng tuần hoàn và sự tuần hoàn này có thể đƣợc khai thác để trợ giúp cho quá trình dự đoán tiếng nói. Cũng nhƣ các bộ dự đoán ngắn hạn là các bộ dự đoán tuyến tính nhƣng trong khi bộ dự đoán ngắn hạn thực hiện việc dự đoán dựa trên các mẫu kề
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI nhau trƣớc đó thì bộ dự đoán dài hạn dựa trên các mẫu từ một hay nhiều chu kì pitch trƣớc đó (do đó, gọi là dài hạn). Phần thứ hai của mô hình là bộ tạo xung kích thích, tạo ra chuỗi kích thích đƣa vào bộ lọc tổng hợp để tạo ra tiếng nói tái tạo bên phía thu. Cuối cùng là bộ giảm thiểu sai số cung cấp thông tin cần thiết cho bộ tạo tín hiệu kích thích. Trong phần sau, ta sẽ trình bày về bộ lọc tổng hợp LPC và tổng hợp pitch cũng nhƣ cách tính toán các thông số.
a, Dự đoán ngắn hạn STP (Short Term Predictor)
Dự đoán ngắn hạn mô hình hoá đƣờng bao phổ ngắn hạn của tiếng nói. Đƣờng bao phổ ngắn hạn của đoạn tiếng nói có độ dài L mẫu có thể đƣợc mô hình hoá bởi bộ lọc số toàn điểm cực có dạng sau:
(3.1)
với (3.2)
là bộ dự đoán ngắn hạn. Trong đó, các hệ số ak đƣợc tính toán theo phƣơng pháp dự đoán tuyến tính (LP). Tập các hệ số ak đƣợc gọi là các tham số LPC hay còn gọi là các hệ số dự đoán, p là số lƣợng các hệ số dự đoán hay còn gọi là bậc dự đoán. Nhƣ vậy, ý tƣởng của phân tích tuyến tính là các mẫu tiếng nói có thể xấp xỉ bằng tổ hợp tuyến tính của các mẫu tiếng nói trong quá khứ (8-16 mẫu)
(3.3)
Trong đó, s(n) là mẫu tiếng nói tại thời điểm lấy mẫu n, là mẫu tiếng nói dự
đoán tại thời điểm n. Sai số giữa giá trị dự đoán và giá trị thực e(n) là:
(3.4)
Biến đổi Z biểu thức (3.4) ta có:
(3.5)
(3.6) với
là nghịch đảo của H(z). Vì vậy, A(z) đƣợc gọi là bộ lọc đảo.
Các hệ số dự đoának đƣợc tính bằng cực tiểu hoá sai số bình phƣơng trung bình
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 26
trên đoạn ngắn (10-20 ms) của dạng sóng tiếng nói.
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
(3.7)
với i=1, ..., p. Để tìm các giá trị ak mà E cực tiểu, ta đặt
(3.8)
(3.9)
(3.10)
Đặt: (3.11)
(3.10) đƣợc biến đổi thành: , i=1, …, p (3.12)
Có hai phƣơng pháp để thực hiện điều này, đó là phƣơng pháp tự tƣơng quan và
phƣơng pháp hiệp phƣơng sai. Phần sau chỉ trình bày về phƣơng pháp tự tƣơng quan.
Phƣơng trình (3.12) đươ ̣c áp dụng chỉ trong t rƣờng hợp nếu mô hình tiếng nói là quá trình ngẫu nhiên dƣ̀ ng . Tất nhiên tín hiệu tiếng nói không là như thế trong khoảng dài củ a thờ i gian , cho phép tính dƣ̀ ng là xác thƣ̣c chỉ trong khoảng ngắn tín hi ệu tiếng nói.
Giả sử các đoạn thoại tiến đến 0 khi nằm ngoài giới hạn cho trƣớc
, với L là độ dài của khung phân tích STP. Điều này tƣơng đƣơng với nhân tín hiệu tiếng nói đầu vào với cửa sổ w(n) có độ dài hữu hạn và bằng 0 nằm ngoài khoảng trên. Ta xét công thức (3.7) trong khoảng :
, (3.11)
Đặt :
(3.12)
chính là hàm tự tƣơng quan tín hiệu của s(m) với độ dịch i-k:
(3.13)
với (3.14)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 27
Nhƣ vậy, công thức (3.12) có thể viết lại thành:
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
(3.15)
Biểu diễn dƣới dạng ma trận, ta có:
(3.16)
Do có cấu trúc Toepliz (là ma trận đối xứng), nên phƣơng pháp đệ quy Levinson-
Durbin đƣợc dùng để giải quyết với giải thuật nhƣ sau:
For i=1 to p do
(3.17)
For j=1 to i-1 do
(3.18)
(3.19)
(3.20) Kết quả cuối cùng của giải thuật: , j = 1, …, p
E(i) ở biểu thức (3.19) là lỗi dự đoán của bộ dự đoán bậc i.
. ki là hệ số phản xạ và nằm trong khoảng
Ví dụ cho p=2, khi đó:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 28
Đối với i=1:
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
Đối với i=2:
Kết quả:
và
Nhƣ đã đề cập ở phần trƣớc, các mẫu tiếng nói s(n) bằng 0 nằm ngoài đoạn . Sự cắt xén thình lình của các khung tiếng nói có khả năng tạo ra sự thay đổi lớn trong lỗi dự đoán tại điểm bắt đầu và kết thúc của khung tiếng nói đƣợc phân tích. Vấn đề này đƣợc giải quyết bằng cách sử dụng cửa sổ Hamming, có tác động thu hẹp đối với các rìa của một khối trong khi nó không có tác động nào trong các dải giữa của nó:
, (3.21)
L là độ dài khung phân tích LPC. Độ dài của cửa sổ Hamming đƣợc sử dụng thƣờng dài hơn độ dài của khung thoại. Các cửa sổ chồng lên nhau sẽ tạo hiệu ứng mƣợt trong phân tích LPC, có nghĩa là sẽ làm giảm sự thay đổi đột ngột các hệ số phân tích LPC giữa các khung đƣợc phân tích.
Hệ số phản xạ: Trong thực tế, các hệ số dự đoán ak không đƣợc tính toán trực tiếp. Thay vào đó, một số hệ số phản xạ đƣợc tính từ các hệ số tự tƣơng quan của khối tiếng nói. Các hệ số phản xạ ki thu đƣợc trong quá trình giải công thức (3.12) bằng giải tiến đến 1 thì các điểm cực của hàm truyền H(z) cũng thuật Levinson-Durbin. Khi
tiến đến vòng tròn đơn vị. Sự thay đổi nhỏ về ki dẫn đến sự thay đổi lớn về phổ. Do đó, các hệ số phản xạ đƣợc biến đổi thành tập các hệ số khác gọi là các tỷ số vùng logarit LAR. Vì các tỷ số vùng logarit LAR đƣợc nén giản theo luật logarit có các tính chất lƣợng tử tốt hơn các hệ số ki.
(3.22)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 29
Hàm mật độ xác suất (PDF) các tham số LAR của bộ lọc bậc tám đƣợc trình bày nhƣ hình 2.2. Ta thấy rằng dải động của các tham số LAR(i) giảm khi i tăng. Do đó,
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI các bit đƣợc ấn định cho các tham số LAR càng nhiều khi bậc của LAR càng nhỏ. Điều này, lý giải trong trƣờng hợp lƣợng tử hoá 8 LAR trên khối 20 ms tiếng nói bằng 6 bit cho LAR(1) và LAR(2), 5 bit cho LAR(3) và LAR(4), 4 bit cho LAR(5) và LAR(6) và 3 bit cho LAR(7) và LAR(8).
Hình 19Hình 3.2 Đồ thị hàm mật độ xác suất của 8 hệ số LAR đầu tiên
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 30
Nội suy các tham số LPC: Nhƣ đã nói ở phần trƣớc, độ dài khung kích thích thƣờng nhỏ hơn độ dài khung LPC. Khung LPC đƣợc chia thành nhiều khung con, và
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI các tham số kích thích đƣợc cập nhật ở mỗi khung con này. Hình 2.3 sẽ chỉ ra mối quan hệ giữa khung, khung con, và cửa sổ Hamming đƣợc sử dụng để tính ra các tham số LPC.
Mỗi khung thoại bao gồm 160 mẫu (20 ms), khung con gồm 40 mẫu (5 ms) và cửa sổ Hamming gồm 200 mẫu (25 ms). Trong ví dụ này, các tham số LPC sẽ đƣợc truyền đi mỗi 20 ms. Để làm giảm bớt các thay đổi đột biến trong bản chất đƣờng bao tín hiệu tiếng nói quanh rìa khung phân tích LPC, nội suy của các tham số LPC giữa các khung kế cận nhau đƣợc sử dụng để thu đƣợc các thông số cho mỗi khung con, bằng cách cập nhật chúng mỗi 5 ms trong khi truyền chúng mỗi 20 ms.
Hình 20Hình 3.3 Mối quan hệ giữa khung, khung con và cửa sổ Hamming
Các hệ số dự đoán aikhông đƣợc sử dụng trong nội suy, bởi các tham số nội suy trong trƣờng hợp này không đảm bảo cho bộ lọc tổng hợp đƣợc ổn định. Nội suy đƣợc sử dụng để biến đổi các tham số ở các bộ lọc cần sự ổn định, ví dụ nhƣ LARs.
Gọi fn là các tham số LPC trong khung hiện tại, fn-1 là các tham số ở khung kề
trƣớc đó, thì tham số LPC đƣợc nội suy sfk tại khung con k đƣợc tính nhƣ sau:
(3.23)
Ở ví dụ dƣới đây, δk = 0.75, 0.5, 0.25 và 0 tƣơng ứng với k= 1, ..., 4. Với những
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 31
với δk thuộc đoạn [0,1], δkgiảm dần theo chỉ số của khung con. giá trị này, tham số LPC đƣợc nội suy trong bốn khung con nhƣ sau:
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
b, Dự đoán dài hạn LTP (Long Term Predictor)
Lọc tiếng nói bằng b ộ lọc đảo A(z)có xu hướ ng loa ̣i bỏ nhiều đ ộ thƣ̀ a bằng cách trƣ̀ mỗi mẫu tiếng nói m ột giá tri ̣ dƣ̣ đoán củ a nó dùng bởi pmẫu trong quá khƣ́ . Tín hiệu nhận đươ ̣c đươ ̣c go ̣i là dƣ thừa dƣ̣ đoán ngắn ha ̣n và nói chung nó sẽ có lươ ̣ng chu kì nhất đi ̣nh liên quan đến chu kì pitch củ a tiếng nói gốc khi nó đươ ̣c phát âm . Tính chu kì này thể hi ện mƣ́ c dư thƣ̀ a nƣ̃a mà ta có thể loa ̣i bỏ bằng b ộ dƣ̣ đoán pitch hay còn gọi là bộ dƣ̣ đoán dài ha ̣n. Dạng tổng quát của bộ lọc dự đoán dài hạn nhƣ sau:
(3.24)
Trong đó:
(3.25)
là bộ dự đoán dài hạn; m1,m2 xác định số điểm trích bộ dự đoán; α là chu kì pitch hay gọi là độ trễ LTP và Gk là hệ số khuếch đại LTP. Các tham số αvà Gkđƣợc xác định bằng cực tiểu hoá sai số còn dƣ bình phƣơng trung bình sau khi dự đoán dài hạn và ngắn hạn trên chu kì N mẫu. Đối với dự đoán 1 điểm trích, sai số dự đoán LTP e(n) đƣợc cho bởi:
(3.26)
(3.27)
ở đây, r(n) là phần dƣ tạo nên sau dự đoán ngắn hạn. Phần dƣ bình phƣơng trung bình E là:
nên:
(3.28)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 32
Thế G vào(3.27), ta có
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
(3.29)
Cực tiểu sai số E, tức là tối đa biểu thức thứ hai ở vế phải đa thức (3.29). Nghĩa là cực đại hoá tƣơng quan chéo giữa STP dƣ r(n) hiện tại và phiên bản trễ của nó. Giá trị α đƣợc chọn là giá trị lớn nhất.
Đối với dự đoán 1 điểm trích, điều kiện ổn định là Sự ổn định của bộ lọc tổng hợp pitch 1/P(z) không phải lúc nào cũng ổn định. . Do đó, để bảo đảm tính ổn
định của bộ lọc thì đặt khi .
3.2. Ứng dụng các phƣơng pháp cơ sở mã hóa âm thanh trong truyền thông.
3.2.1 . Các yêu cầu đố i vớ i một bộ mã hóa âm thoa ̣i Trong hầu hết các bộ mã hóa âm thoa ̣i, tín hiệu đươ ̣c xây dƣ̣ng la ̣i sẽ khác vớ i tín hiệu nguyên thủ y. Nguyên nhân là do khi cố gắng làm tă ng chất lươ ng âm thoa ̣i sẽ dẫn đến việc làm giảm các đ ặc tính tốt khác củ a h ệ thống. Các yêu cầu lý tưở n g củ a m ột bộ mã hóa thoa ̣i bao gồm:
Chấ t lươ ̣ng thoa ̣i cao : tín hiệu âm thoa ̣i đã giải mã phải có chất lươ ̣ng có thể
Cƣờng độ mạnh ở trong kênh truyền nhiễu : đây là yếu tố quan tro ̣ng đối vớ i ợng của tín
Tố c độ bit thấ p : đối vớ i chuỗi bit mã hóa có tốc bit tỉ l ệ thuận vớ i bă ng thông cần cho truyền dƣ̃ li ệu. Tốc độ bit thấp sẽ làm tă ng hi ệu suất củ a h ệ thống. Tuy nhiên yêu cầu này la ̣i xung đột vớ i các các đặc tính tốt khác củ a h ệ thống như chất lươ ̣ng âm thoại. Tốc độ thoại càng cao thì đòi hỏi tốc đ ộ bit càng cao , để bảo đảm âm thoại tại phía nhận đươ ̣c phát ra vớ i tốc đ ộ bằng vớ i tốc đ ộ của môt ngƣời bình thƣờng nói chuyện lưu loát. . Có rất nhiều khía ca ̣nh về m ặt chất lươ ̣ng chấp nhận đươ ̣c đối vớ i ƣ́ ng du ̣ng cần đa ̣t bao gồm tính dễ hiểu , tƣ̣ nhiên, dễ nghe và cũng như có thể nh ận da ̣ng ngườ i nói l à nam hay nƣ̃ , già hay trẻ, … các hệ thống truyền thông số vớ i các nhiễu ảnh hưở ng ma ̣nh đến chất lư hiệu thoa ̣i.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 33
Kích thướ c b ộ nhớ thấ p và đ ộ phƣ́ c ta ̣p tính toán thấ p : nhằm mu ̣c đích sƣ̉ dụng đƣợc bộ mã hóa âm thoa ̣i trong thƣ̣c tế . Chi phí thƣ̣c hiện liên quan đến việc triển khai hệ thống phải thấp , bao gồm cả ch i phí cho bộ nhớ cần thiết để hỗ trơ ̣ khi h ệ thố ng hoa ̣t động cũng như các yêu cầu tính toán.
Độ trễ mã hóa thấ p : trong quá trình xƣ̉ lý mã hóa và giải mã thoa ̣i
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI , độ trễ tín hiệu luôn luôn tồn ta ̣i . Việc trễ quá mƣ́ c sẽ sinh ra nhiề u vấn đề trong vi ệc thƣ̣c hi ện trao đổ i tiếng nói hai chiều trong thờ i gian thƣ̣c. Khả năng cắt bỏ khoảng l ặng: khi nói chuyện không phải âm thoa ̣i đƣ ợc phát ra liên tu ̣c mà có nhƣ̃ng khoảng l ặng. Đó là nhƣ̃ng lúc đƣ̀ ng la ̣i lấy hơ i h ay là lúc nghe ngƣời khác nói. Nhƣ̃ng khoảng lặng này nếu có thể đươ ̣c nhận ra và cắt bỏ có thể giúp làm giảm tốc độ bit hệ thống mã hóa âm thoa ̣i.
Các tham số truyền dẫn cơ bản liên quan đến chất lươ ̣ng thoa ̣i là:
(OLR-Overall Loudness
3.2.2. Các tham số liên quan đến chấ t lươ ̣ng thoa ̣i - Tham số đánh giá cườ ng đ ộ âm lươ ̣ng /tổn hao tổng thể Rating) - Trễ: thờ i gian truyền dẫn tín hi ệu giƣ̃a hai đầu cuối gây ra nhƣ̃ng khó khă n trong vi ệc hội thoa ̣i. Trễ bao gồ m: trễ chuyển mã thoa ̣i , trễ mã hóa kênh, trễ ma ̣ng và trễ xƣ̉ lý tín hiệu thoa ̣i để loa ̣i bỏ tiếng vo ̣ng và giảm nhiễu ở chế độ Handsfree. - Tiếng vo ̣ng (echo).
- Cắt ngưỡng (clipping): là hiện tươ ̣ng mất phần đầu ho ặc phần cuố i củ a cu ̣m tín hi ệu thoại, do quá trình xƣ̉ lý khoảng lặng bi ̣ sai. - Các tính chất liên quan đến độ nhạy tần số.
- Xuyên âm (sidetone loss).
- Nhiễu nền...
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 34
3.2.3. Các phươ ng pháp đánh giá chấ t lươ ̣ng thoa ̣i cơ bả n Việc đánh giá chất lươ ̣ng thoa ̣i trong ma ̣ng có thể đươ ̣c thƣ̣c hi ện bằng cách đánh giá các tham số truyền dẫn có ảnh hưở ng đến chất lươ ̣ng thoa ̣i và xác đi ̣nh tác đ ộng của các tham số này đối với chất lƣợng tổng thể . Tuy nhiên, việc đánh giá từng tham số rất phƣ́ c ta ̣p và tốn kém . Hiện nay, việc đánh giá chất lươ ̣ng thoa ̣i đươ ̣c dƣ̣a trên một tham số chất lươ ̣ng tổng thể là MOS (Mean Opinion Score). Nhƣ̃ng phươ ng pháp huộc vào quan điểm củ a sƣ̉ du ̣ng MOS đều mang tính chất chủ quan do chúng phu ̣ t ngƣời sử dụng dịch vụ . Tuy vậy, chúng ta có thể phân chia các phươ ng pháp đánh giá chất lươ ̣ng thoại ra làm hai loại cơ bản: - Các phươ ng pháp đánh giá chủ quan : việc đánh giá theo quan điểm củ a ngườ i sƣ̉ dụng về mức chất lƣợng đƣợc thực hiện trong thờ i gian thƣ̣c. - Các phươ ng pháp đánh giá khách quan : sƣ̉ du ̣ng m ột số mô hình để ướ c lươ ̣ng mƣ́ c chất lươ ̣ng theo thang điểm MOS.
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
3.2.3.1. Phƣơng pháp đánh giá chủ quan (MOS)
Kỹ thu ật này đánh giá chất lươ ̣ng thoa ̣i sƣ̉ du ̣ng đối tươ ̣ng là m ột số lươ ̣ng lớ n ngƣời nghe, sƣ̉ du ̣ng phươ ng pháp thống kê để tính điểm chất lươ ̣ng . Điểm đánh giá bình quân củ a nhiều ngườ i đươ ̣c tính là điểm Mean Opinion Scoring (MOS).Phƣơng ện theo các bài kiểm tra h ội thoa ̣i hai thƣ́ c đánh giá theo MOS có thể đươ ̣c thƣ̣c hi chiều ho ặc bài nghe một chiều . Các bài kiểm tra nghe m ột chiều sƣ̉ du ̣ng các mẫu thoại chuẩn . Ngƣời nghe nghe mẫu truyền qua m ột hệ thống và đánh giá chất lươ ̣ng tổng thể củ a mẫu dƣ̣a trên thang điểm cho trướ c. 3.2.3.2. Các phươ ng pháp đánh giá khách quan - Các phươ ng pháp so sánh : dƣ̣a trên việc so sánh tín hiệu thoa ̣i truyền dẫn vớ i m ột tín hiệu chuẩn đã biết . Tín hiệu dùng để so sánh cũng có thể dùng chính tín hi ệu âm thoa ̣i đầu vào. So sánh có thể dƣ̣a trên da ̣ng sóng âm thanh củ a hai tín hi ệu hoặc so sánh đƣ̣a trên các thông số đặc trưng cho âm thoa ̣i. - Các phươ ng pháp ướ c lươ ̣ng tuy ệt đối: dựa trên việc ướ c lươ ̣ng tuy ệt đối chất lươ ̣ng tín hiệu thoa ̣i.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 35
- Các mô hình đánh giá truyền dẫn : phƣơng pháp này xác định giá trị chất lƣợng thoại mong muốn dƣ̣a trên nhƣ̃ng hiểu biết về ma ̣ng. Ví dụ: mô hình ETSI Model.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
4.1 Các bộ mã hoá tiếng nói dự tuyển cho hệ thống GSM
Việc chọn bộ mã hoá và giải mã tiếng nói (speech codec) thích hợp nhất cho hệ thống GSM từ một tập các bộ mã hoá dự truyển đã đƣợc dựa trên các phép thử so sánh khái quát giữa một loạt các điều kiện hoạt động. Các so sánh khắt khe về chất lƣợng tiếng nói, sức kháng lỗi kênh, độ trễ hệ thống cũng nhƣ độ phức tạp.
4.1.1 SBC- APCM
SBC-APCM là codec mã hoá băng con với PCM thích nghi theo khối. Codec này sử dụng các bộ lọc gƣơng cầu phƣơng QMF () để phân tách tín hiệu lối vào thành 16 băng con rộng 250 Hz, hai băng cao nhất trong số đó không đƣợc truyền đi. Ấn định bit thích nghi đã đƣợc sử dụng trong các băng con trên cơ sở tỷ lệ công suất của một loạt băng tạo thành nên thông tin biên cần truyền đi. Tốc độ truyền dẫn tổng cộng của các tín hiệu băng con là 10 kbps, thông tin biên là 3kbps mà chúng đƣợc bảo vệ bởi độ dƣ thừa 3kbps của mã sửa lỗi hƣớng đi FEC (Forward Error Correction).
4.1.2 SBC-ADPCM
SBC-ADPCM là codec mã hoá băng con với PCM delta thích nghi. Trong sơ đồ này, tiếng nói lối vào đã đƣợc chia thành 8 băng con, trong số đó chỉ có 6 băng đƣợc truyền đi. Các tín hiệu băng con đã đƣợc mã hoá bằng mã vi sai với đánh giá ngƣợc và thích nghi để đổi lại với SBC-APCM đã đƣợc đề nghị, trong đó đánh giá thuận và thích nghi đã đƣợc sử dụng. Ấn định bit của các băng con đƣợc đặt cố định, do vậy không có thông tin biên nào đƣợc truyền đi, nhờ đó làm cho hệ thống thích nghi với tạp nhiễu nhiều hơn và thế không cần mã FEC. Tốc độ mã của codec này chỉ 15 kbps.
4.1.3 MPE-LTP
MPE-LTP (Multi-Pulse Excited LPC codec with Long Term Predictor) là codec dự doán tuyến tính kích thích đa xung với bộ dự đoán dài hạn. Việc thực bộ mã hoá và giải mã tiếng nói cụ thể đƣợc sử dụng trong thử nghiệm đểso sánh đòi hỏi tốc độ truyền dẫn 13.2 kbps và mã hoá FEC đƣợc gắn vào đó với tốc độ 2.8 kbps nữa đã đƣợc sử dụng để bảo vệ các bit quan trọng nhất của bộ mã hoá và giải mã tiếng nói.
4.1.4 RPE-LTP
RPE-LTP (Regular Pulse Excited - Long Term Prediction) là codec LPC kích
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 36
thích xung đều. Bộ mã hóa tiếng nói này dƣ̣a trên nền tảng kích thích xung đều (regular pulse excitation ) vớ i dƣ̣ đoán dài ha ̣n và liên quan tớ i 2 bộ mã hóa tiếng nói khác là: RELP (Residual Excited Linear Prediction ) và MPE -LPC (Multi Pulse Excited LPC ). Lơ ̣i thế củ a RELP là không quá phƣ́ c ta ̣p do sƣ̉ du ̣ng mã hóa dải tần gốc. Bộ mã hóa MPE-LTP phƣ́ c ta ̣p hơ n nhưng nó cung cấ p mƣ́ c độ hiệu quả cao hơ n.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM Bộ mã hóa RPE-LTP cho một kết quả khá tốt , cân bằng giƣ̃a hi ệu nă ng và tính phƣ́ c tạp.
Bốn codec này đã đƣợc so sánh với nhau về chất lƣợng tiếng nói, khả năng kháng tạp nhiễu, các trễ xử lý và độ phức tạp tính toán của chúng. Từ kinh nghiệm với hệ thống tham chiếu điều tần (FM), hai tỷ lệ lỗi bit chỉ tiêu đã đƣợc đề nghị mà tại đó các só sánh về chất lƣợng đƣợc thực hiện. Điểm số ý kiến trung bình MOS (Mean Opinion Score) tính trung bình trên một thang điểm 5 trên nhiều điều kiện thử nghiệm khác nhau đã đƣợc tìm ra là:
Codec FM SBC-APCM SBC-ADPCM MPE-LTP RPE-LPC RPE-LTP MOS 1.95 3.14 2.92 3.27 3.54 ~ 4.0
Bit rate (kbps) - 16 15 16 13 13 Bảng 5Bảng 4.1
Các kết quả này đã nhấn mạnh tín vƣợt trội của các bộ codec kích thích xung và tầm quan trọng của bộ dự đoán dài hạn LTP. Codec RPE, do thể hiện các đặc tính ƣa chuộng nhất, đã đƣợc cải thiện hơn nữa bằng cách áp dụng một LTP; codec RPE-LTP bảo đảm một MOS bằng khoảng 4.0 điểm trên một dải rộng điều kiện hoạt động.
4.2 Bộ mã hoá tiếng nói RPE-LTP
Sơ đồ bộ mã hoá RPE-LTP đƣợc thể hiện nhƣ trên hình 4.1. Trong đó, có các bộ
phận chức năng sau:
Tiền xử lý Lọc phân tích STP Lọc phân tích LTP Tính toán RPE
4.2.1 Tiền xử lý
Tín hiệu tiếng nói đã lấy mẫu đầu tiên đƣợc cho qua một bộ lọc để loại bỏ bất kì
sai lệch DC nào có thể tồn tại rồi cho qua bộ lọc tiền nhấn.
Mô hình toán ho ̣c củ a b ộ tạo tiếng nói trong b ộ mã hóa chỉ ra rằng nă ng lươ ̣ng tần số tă ng dần . Do đó, việc tiền nhấn đƣợc áp dụng để nâng độ
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 37
suy giảm dần vớ i chính xác tính toán bằng cách nhấn phần tần số cao công suất thấp của phổ tiếng nói.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM Điều này có thể thực hiện đƣợc bằng bộ lọc một cực với hàm truyền dạng:
(4.1) H(z) = 1 - c1z-1
trong đó, c1 ~ 0.9. 4.2.2 Lọc phân tích STP
Tiếng nói đã đƣợc tiền nhấn đƣợc phân đoạn thành các khối 160 mẫu tƣơng ứng
với khoảng thời gian 20 ms trong một bộ đệm.
Đối với mỗi một đoạn gồm L=160 mẫu, chín hệ số tự tƣơng quan đƣợc tính từ
s(k) theo công thức sau:
, (4.2)
Từ các hệ số tự tƣơng quan của tiếng nói ACF(i), tám hệ số phản xạ đƣợc tính theo thuật toán lặp Schur, là phƣơng pháp tƣơng đƣơng với thuật toán Levision-Durbin đƣợc sử dụng để giải phƣơng trình then chốt LPC để tìm các hệ số phản xạ r(i), cũng nhƣ các hệ số lọc STP. Tuy nhiên, thuật toán Schur chỉ đƣa đến các hệ số phản xạ r(i) mà thôi.
Các hệ số phản xạ r(i) đƣợc tính nằm trong khoảng
, (4.3)
Các hệ số phản xạ r(i) đƣợc biến đổi thành các tỷ số vùng logarit LAR(i), bởi vì các LAR(i) đƣợc nén-giản theo luật logarit có các tính chất lƣợng tử hoá tốt hơn các hệ số r(i).
, (4.4)
Tuy nhiên, để làm đơn giản hoá việc thực thi thời gian thực, một xấp xỉ tuyến
tính kiểu từng đoạn với 5 đoạn đƣợc sử dụng
(4.5)
Các tham số lọc LAR(i), i = 1, 2, …, 8 có các dải động khác nhau và các hàm mật độ xác suất có hình dáng khác nhau. Điều này lý giải cho việc mã hoá các cặp LAR thứ nhất, thứ hai, thứ ba, thứ tƣ tƣơng ứng với 6 bit, 5 bit, 4 bit, 3 bit.
(4.6)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 39
với Nint(z)=int{z+sign(z).0,5} LARc(i)= Nint {A(i).LAR(i) +B(i)} (4.6a)
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM Trong đó, hàm Nint(z) đƣợc định nghĩa là giá trị nguyên gần nhất của z và các hệ số A(i), B(i) cùng với các giá trị LARc(i) tƣơng ứng với LAR(i) đƣợc cho theo bảng 3.2.
LAR No i A(i) B(i)
Min LARc(i)
1 2 3 4 5 6 7 8 20.000 20.000 20.000 20.000 13.637 15.000 8.334 8.824 0.000 -32 0.000 -32 4.000 -16 -5.000 -16 0.184 - 8 -3.500 - 8 -0.666 - 4 -2.235 - 4 Max LARc(i) +31 +31 +15 +15 + 7 + 7 + 3 + 3
Bảng 6Bảng 4.2 Lƣợng tử các hệ số LARc(i)
Các hệ số LARc(i) đƣợc biến đổi về LAR’’(i) nhƣ sau:
(4.7)
Để làm giảm bớt các thay đổi đột biến trong bản chất đƣờng bao tín hiệu tiếng nói quanh các rìa khung phân tích STP, các tham số LAR’’ đƣợc nội suy tuyến tính thành LAR’. Trong mỗi khối chứa 160 mẫu tiếng nói, bộ lọc phân tích ngắn hạn đƣợc thực hiện với 4 chuỗi tham số khác nhau theo bảng 4.3:
LAR’J (i) =
k 0… 12 13…26 27…39 40..159 0.75*LAR’’J-1 (i) + 0.25*LAR’’J (i) 0.50*LAR’’J-1 (i)+0.50*LAR’’J (i) 0.25*LAR’’J-1 (i) +0.75*LAR’’J (i) LAR’’J (i)
Bảng 7Bảng 4.3 Nội suy các tham số LAR (J=khối hiện tại)
Các hệ số phản xạ r’(i) đƣợc giải mã tại chỗ đƣợc tính bằng cách biến đổi
LAR’(i) thành r’(i) nhƣ sau:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 40
(4.8)
Các hệ số phản xạ r’(i) đƣợc dùng để tính STP dƣ d(k)bằng bộ lọc phân tích ngắn
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM hạn có cấu trúc mắt cáo đƣợc mô tả nhƣ hình 4.2.
Hình 21Hình 4.2 Bộ lọc phân tích ngắn hạn
(4.8a)
(4.8b)
(4.8c)
(4.8d)
(4.8e) d0(k) = s(k) u0(k) = s(k) di(k) = di-1(k) + r’i . ui-1(k-1) , i=1, …, 8 ui(k) = ui-1(k-1) + r’i . di-1(k) d(k)=d8(k)
4.2.3 Lọc phân tích LTP
Tín hiệu STP dƣ tƣ̀ việc lo ̣c ngắn ha ̣n có độ dài 160 mẫu, tƣơng ứng với 20 ms
đươ ̣c phân chia thành 4 đoạn con chứa 40 mẫu tƣơng ứng với 5 ms. Ta kí hiệu:
j = 0, …, 3 là số thứ tự đoạn con
d(kj+k) là tín hiệu dƣ thừa mỗi đoạn với j = 0, …, 3; kj = k0 + j.40 (k0 là giá trị đầu tiên của khung chứa 160 mẫu)và k
= 0, …, 39
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 41
Sai số dự đoán LTP đƣợc tối thiểu hoá bởi độ trễ λ mà nó cực đại hoá tƣơng quan chéo giữa STP dƣ hiện tại và giá trị của nó đã nhận đƣợc và đƣợc nhớ đệm với độ trễ λ. Cụ thể, STP dƣ có độ dài L =160 mẫu đƣợc chia thành bốn đoạn con với độ dài N=40 mẫu và đối với mỗi đoạn con thì tham số khuếch đại (gain) và độ trễ (lag) cho bộ lọc dự đoán dài hạn LTP đƣợc xác định bằng cách tính tƣơng quan chéo giữa đoạn hiện đang xử lý và một đoạn dài 40 mẫu đƣợc trƣợt đi một cách liên tục của đoạn STP dƣ dài 120 mẫu trƣớc đó.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
,
(4.9)
Giá trị tƣơng quan lớn nhất đƣợc tìm thấy tại độ trễ λ = Nj mà tại đó đoạn con hiện đang xử lý giống nhất với quá khứ của mình. Điều này có khả năng đúng với chu kì pitch hoặc tại bội của chu kì pitch. Do đó, hầu hết độ dƣ thừa có thể tách ra khỏi STP dƣ.
, j = 0, ..., 3 (4.10)
Hệ số khuếch đại bj đƣợc tính bằng cách chuẩn hoá hệ số tƣơng quan chéo tại độ
trễ Nj.
(4.11)
, j = 0, ..., 3 (4.12)
Một khi tham số LTP là Nj (độ trễ) và bj (độ lợi) đã tìm đƣợc, chúng đƣợc mã
hoá thành Ncj và bcj.
Nj có giá trị trong đoạn (40, ..., 120) nên chỉ cần dùng 7 bit để mã hoá Ncj là đủ. bcj đƣợc mã hoá với 2 bit nhƣ sau:
,
(4.13)
Trong đó, DLB(i), (i=0, 1..., 2) là mức quyết định đƣợc cho theo bảng 3.4 và bcj
là hệ số khuếch đại đƣợc mã hoá.
i
0 1 2 3 Decision Level DLB(i) 0.2 0.5 0.8 Quantizing Level QLB(i) 0.10 0.35 0.65 1.00
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 42
Bảng 8Bảng 4.4 Bảng lƣợng tử cho tham số khuếch đại LTP
Các tham số LTP đƣợc mã hoá (Ncjvàbcj) đƣợc giải mã tại chỗ thành cặp (Nj’
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM vàbj’) nhƣ sau. Nj’ = Ncj bj’ = QLB(bcj) , j=0, ..., 3 với QLB(i), i=0, ..., 3 là mức lượng tử được tính theo bảng 3.4.
(4.14)
Với các tham số LTP vừa tính đƣợc, LTP dƣ đƣợc tính bằng sai lệch giữa STP dƣ và ƣớc lƣợng của nó (tính đƣợc nhờ sự trợ giúp của các tham số LTP đã giải mã đƣợc tại chỗ Nj’ vàbj’) nhƣ sau:
(4.15) e(kj+k) = d(kj+k) - d’’(kj+k) ,
(4.16) với d’’(kj+k) = bj’.d’(kj+k-Nj’) ,
Ở đây, d’(kj+k-Nj’) biểu diễn một đoạn đã biết rồi của quá khứ của d’(kj+k),
đƣợc trữ trong bộ nhớ đệm tìm kiếm.
Cuối cùng, nội dung của bộ nhớ đệm tìm kiếm đƣợc cập nhật bằng cách sử dụng
LTP dƣ đã đƣợc giải mã tại chỗ e’(kj+k) và STP dƣ đã đƣợc ƣớc lƣợng d’’(kj+k) để tạo nên d’(kj+k) nhƣ dƣới đây:
(4.17) d’(kj+k) = e’(kj+k) + d’’(kj+k) ,
4.2.4 Tính toán RPE
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 43
Tín hiệu dƣ thừa dài hạn đƣợc lọc bởi bộ lọc trọng số. Đồ thị đáp ứng xung và đáp ứng tần số nhƣ hình 3.3. Bộ lọc trọng số là bộ lọc đáp ứng xung hữu hạn 11 điểm, về cơ bản là một bộ làm trơn, có tác dụng làm trơn sự thay đổi giữa các mẫu, loại bỏ nhiễu tần số cao, và làm cho sự chuyển tiếp giữa các đoạn con trở nên mềm mại hơn. Do đó, chất lƣợng tiếng nói tổng hợp đƣợc cải thiện.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
Hình 22Hình 4.3 Đáp ứng xung (trái) và đáp ứng tần số (phải) của bộ lọc trọng số
Phép chập giữa 40 mẫu trong chuỗi e(k) và 11 mẫu trong chuỗi h(n) tạo nên 40+11-1=50 mẫu đƣợc mô tả theo công thức 3.18, lƣu ý rằng ta chỉ tính 40 mẫu của phép chập.
(4.18)
với k= 0, ..., 39
e(k+5-i) = 0 khi k+5-i < 0 hoặc k+5-i > 39
Giai đoa ̣n kích thích xung đều bao gồm vi ệc giảm 40 mẫu dư thƣ̀ a dài ha ̣n xuống thành 4 bộ chuỗi con 13 bit thông qua sƣ̣ kết hơ ̣p củ a kỹ thu ật đan xen và chia nhỏ mẫu.
; i = 0, …, 12
m = 0, …, 3 (4.19)
Ta có thể minh hoạ (4.19) bằng hình sau:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 44
Hình 23Hình 4.4 Vị trí các mẫu trong 4 chuỗi con
Năng lƣợng của bốn chuỗi con đã đƣợc chiết ra sẽ đƣợc tính toán, và chuỗi dự
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM tuyển có năng lƣợng lớn nhất sẽ đƣợc chọn để biểu diễn một cách tốt nhất LTP dƣ.
; m = 0, … , 3 (4.20)
Theo 4 vị trí m của lƣới ban đầu có thể có, 2 bit là đủ để mã hoá dịch trƣợt ban
đầu của lƣới đối với mỗi đoạn con.
Các biên độ xung đƣợc chuẩn hoá theo biên độ cao nhất của khối và đƣợc lƣợng
tử hoá bằng 3 bit. Và giá trị cực đại của khối đƣợc lƣợng tử hoá bằng 6 bit.
Các vị trí lƣới, biên độ xung và giá trị cực đại của chuỗi đƣợc giải mã tại chỗ để
cho ra LTP dƣ e’(k), trong đó các xung bị thiếu trong chuỗi đƣợc điền với giá trị 0.
4.3Bộ giải mã tiếng nói RPE-LTP
Sơ đồ khối bộ giải mã RPE-LTP đƣợc trình bày trong hình 3.3, thể hiện một cấu
trúc ngƣợc hình thành bởi các bộ phận chức năng:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 45
Giải mã RPE Lọc tổng hợp LTP Lọc tổng hợp STP Hậu xử lý
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
Postprocessing
RPE decoding
Long Term Prediction
Short term synthesis filtering
e’ r
d’ r
sr
sro
Mcr
Deemphasis
RPE grid position
Short term synthesis filter 1/A(z)
d’’ r
x’
mr
r’ r
z-N
Reflection coefficients
b’ r
N’ r
Inverse APCM
LAR’ r
xmaxcr
xmcr
bcr
Interpolation
LTP parameter decoder
Ncr
LAR’’
r
LARcr
LAR decoder
Hình 24Hình 4.5 Bộ giải mã RPE-LTP
4.3.1Giải mã RPE
Trong bộ giải mã, lƣới vị trí M, các giá trị cực đại kích thích của đoạn con và các biên độ xung kích thích đƣợc lƣợng tử nghịch đảo và các biên độ xung kích thích đƣợc tính toán bằng cách nhân các biên độ đã giải mã đƣợc với các trị cực đại khối tƣơng ứng của chúng. Mô hình LTP dƣ e’r đã đƣợc tái tạo lại bằng việc định vị chính xác các biên độ xung theo theo lƣợng dịch M ban đầu.
4.3.2Lọc tổng hợp LTP
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 46
Đầu tiên, các tham số lọc LTP (khuếch đại bcrvà độ trễ Ncr) đƣợc khôi phục tạo ra b’r và N’rvà chúng đƣợc dùng để xây dựng bộ lọc tổng hợp LTP. Sau đó, tín hiệu LTP dƣ đã khôi phục đƣợc er’ đƣợc sử dụng để kích thích bộ lọc tổng hợp LTP này để khôi phục một đoạn mới có độ dài N=40 của STP dƣ đã đƣợc ƣớc lƣợng dr’’. Để làm vậy, một đoạn trong quá khứ của STP dƣ đã tái tạo đƣợc d’ đƣợc sử dụng, đƣợc làm trễ
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM đúng đi Nr’ mẫu và đƣợc nhân với b’r để có đƣợc STP dƣ đƣợc ƣớc lƣợng d’’r . theo 3.16.
Rồi sau đó, d’’r đƣợc sử dụng để tính toán đoạn con gần đây nhất của STP dƣ đã
đƣợc tái tạo theo 3.17.
4.3.3Lọc tổng hợp STP
Các tham số LAR’’r đƣợc giải mã bằng cách sử dụng bộ giải mã LAR từ các LAR’’cr mà nó nhận đƣợc. Và một lần nữa lại đƣợc nội suy tuyến tính về phía các rìa của khung phân tích giữa các tham số của các khung lân cận nhằm tránh các thay đổi đột ngột trong đặc điểm của đƣờng bao phổ tiếng nói. Cuối cùng, tập tham số đã nội suy đã đƣợc biến đổi tạo thành các hệ số phản xạ r’r, trong đó tính ổn định của bộ lọc tổng hợp STP đƣợc bảo đảm nếu các hệ số phản xạ đƣợc khôi phục rơi ra ngoài vòng tròn đơn vị đƣợc phản xạ ngƣợc vào trong vòng tròn đơn vị nhờ thực hiện lấy giá trị nghịch đảo của chúng. Công thức biến đổi LAR’r(i) trở lại thành r’r đƣợc cho nhƣ sau
(4.18)
4.3.4Hậu xử lý
Quá trình hậu xử lý đƣợc thiết lập bởi việc giải nhấn bằng cách sử dụng bộ lọc
H(z) trong biểu thức 3.1.
Tham số
Tên tham số
Kí hiệu
Số lƣợng bit
Bit
STP
Log. Area ratios 1 - 8
LAR 1 LAR 2 LAR 3 LAR 4 LAR 5 LAR 6 LAR 7 LAR 8
6 6 5 5 4 4 3 3
b1-b6 b7-b12 b13-b17 b18-b22 b23-b26 b27-b30 b31-b33 b34-b36
Đoạn con thứ 1
LTP
Độ trễ LTP Khuếch đại LTP
N1 b1
7 2
b37-b43 b44-b45
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 47
Nhƣ vậy, đối với một khoảng thời gian 20 ms, tƣơng đƣơng với việc mã hoá 160 mẫu, các bit đƣợc phân bố trong mã hoá tiếng nói RPE-LTP đƣợc trình bày theo bảng 3.5.
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM
Vị trí lƣới RPE
M1
2
b46-b47
Giá trị cực đại khối RPE
Xmax1
6
b48-b53
RPE
3 3
Xung RPE thứ 1 Xung RPE thứ 2 ... Xung RPE thứ 13
3
x1(0) x1(1) ... x1(12)
b54-b56 b57-b59 ... b90-b92
Đoạn con thứ 2
LTP
Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
7 2 2
N2 b2 M2
b93-b99 b100-b101 b102-b103
Giá trị cực đại khối RPE
Xmax2
6
b104-b109
RPE
3 3
Xung RPE thứ 1 Xung RPE thứ 2 ... Xung RPE thứ 13
3
x2(0) x2(1) ... x2(12)
b110-b112 b113-b115 ... b146-b148
Đoạn con thứ 3
LTP
Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
7 2 2
N3 b3 M3
b149-b155 b156-b157 b158-b159
Giá trị cực đại khối RPE
Xmax3
6
b160-b165
RPE
3 3
Xung RPE thứ 1 Xung RPE thứ 2 ... Xung RPE thứ 13
3
x3(0) x3(1) ... x3(12)
b166-b168 b168-b171 ... b202-b204
Đoạn con thứ 4
LTP
Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
7 2 2
N4 b4 M4
b205-b211 b212-b213 b214-b215
Giá trị cực đại khối RPE
Xmax4
6
b216-b221
RPE
3 3
Xung RPE thứ 1 Xung RPE thứ 2 ... Xung RPE thứ 13
3
x4(0) x4(1) ... x4(12)
b222-b224 b225-b227 ... b258-b260
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 48
Bảng 9Bảng 4.5 Vị trí bit các tham số ngõ ra của bộ mã hoá tiếng nói RPE-LTP trong khung thoại 20ms
Tóm lại, tổng số bit truyền dẫn trong một khung là 36+ 4x(2+7+2+6+13x3) =
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM 260 bit.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 49
CHƢƠNG 5: MÔ PHỎNG CHƢƠNG 5: MÔ PHỎNG
Matlab là một môi trƣờng tính toán số và lập trình, đƣợc thiết kế bởi công ty MathWorks, Inc. Matlab cho phép tính toán số với ma trận, vẽ đồ thịhàm số hay biểu đồ thông tin, thực hiện thuật toán, tạo các giao diện ngƣời dùng và liên kết với những chƣơng trình máy tính viết trên nhiều ngôn ngữ lập trình khác.
Chƣơng trình mô phỏng quá trình nén và giải nén tiếng nói đƣợc viết trên
Matlab, dựa trên kĩ thuật mã hoá RPE-LTP đã trình bày ở chƣơng trƣớc.
Ngƣời sử dụng sẽ chọn file tiếng nói đƣợc mã hoá PCM 13 bit ở đầu vào. Chƣơng trình sẽ mô phỏng quá trình nén và giải nén, cuối cùng ta sẽ thu đƣợc tiếng nói giải nén ở ngõ ra.
So sánh kết quả ngõ vào và ngõ ra ta thấy kết quả chất lƣợng vẫn đảm bảo tốt.
Giao diện chƣơng trình mô phỏng nhƣ sau:
Hình 25Hình 5.1 Giao diện chƣơng trình mô phỏng
Trong đó:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 50
File là tín hiệu tiếng nói ngõ vào.
CHƢƠNG 5: MÔ PHỎNG
Thời gian là độ dài thời gian tín hiệu tiếng nói ngõ vào.
Start là nút bắt đầu thực hiện chƣơng trình mã hoá và giải mã tiếng nói.
Sau khi click vào Start, đợi một thời gian, ta sẽ thu đƣợc đồ thị dạng sóng của
tiếng nói ngõ vào và ngõ ra.
Nhấn nút Play tƣơng ứng để nghe file tiếng nói ban đầu và file tiếng nói sau khi
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 51
thực hiện mã hoá và giải mã.
KẾT LUẬN
Kết luận
Về căn bản chúng ta có thể thấy bộ mã hoá tiếng nói trong GSM là một bộ mã
hoá tiếng nói dạng lai (hybrid) giữa LPC vocoder và mã hoá dạng sóng. Trong đó mô hình lọc từ cấu hình vocoder đƣợc giữ nguyên song các tham số kích thích lại đƣợc cải thiện. Điều này nghĩa là phần chủ yếu của các tham số đƣợc truyền đi liên quan tới chuỗi kích thích. Bộ mã hoá lai đã san đƣợc hố ngăn cách giữa các bộ mã hoá vocoder và các bộ mã hoá dạng sóng.
Quy trình mã hoá tiếng nói trong bộ mã hoá tiếng nói có thể tóm tắt lại nhƣ sau.
Tín hiệu tiếng nói lối vào đƣợc chia thành từng khung 20 ms để biến đổi thành tín hiệu số. Các bƣớc cơ bản của quá trình mã hoá bao gồm: Lọc dự đoán tuyến tính LPC, Lọc dự đoán dài hạn LTP và mã hoá kích thích xung đều RPE. Các thông số đƣợc mã hoá do vậy cũng bao gồm bit mã của các thông số LPC, LTP và RPE.
Về mặt thực hành, em cũng đã cố gắng mô phỏng đƣợc kĩ thuật mã hoá tiếng nói
chạy đƣợc trên PC. Trƣớc tiên, chƣơng trình sẽ thực hiện nén tín hiệu tiếng nói ở file mẫu có sẵn dƣới định dạng .wav bằng codec RPE-LTP. Sau đó, sẽ tổng hợp các thông số lại để tạo thành tín hiệu tiếng nói ở ngõ ra. Với chƣơng trình mô phỏng này, em hy vọng chƣơng trình này phần nào giúp ta có thể hình dung đƣợc kĩ thuật mã hoá này.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 52
Em xin cám ơn sự giúp đỡ tận tình của thầy Phạm Thanh Đàm đã hƣớng dẫn em thực hiện bài báo cáo này. Do thời gian và kiến thức có hạn nên báo cáo thực hiện vẫn còn nhiều thiếu sót, em rất mong sự nhận xét, đánh giá, đóng góp từ thầy cô và bạn bè. Em sẽ cố gắng tìm hiểu thêm. Một lần nữa, em xin chân thành cám ơn.
TÀI LIỆU THAM KHẢO
Tài liệu tham khảo
[1].A. M. Kondoz, “Digital Speech – Coding for Low Bit Rate Communication Systems, 2nd”, John Wiley & Sons, Ltd, 2004.
[2]. Raymond Steele and Lajos Hanzo, “Mobile Radio Communication 2nd”, John Wiley & Sons, Ltd, 1992.
[3]. “GSM 06.10”, ETSI, 1997.
[4]. Randy Goldberg and Lance Riek, “A Practical Handbook of Speech Coders”, CRC Press LLC, 2000.
[5]. Wai C. Chu, “Speech coding algorithms”, John Wiley & Sons, Ltd, 2003.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 53
[6]. Phạm Thanh Đàm, “Thông tin di động”, Học viện Công nghệ Bƣu chính Viễn thông Tp.HCM, 2010.
CHỮ VIẾT TẮT
Chữ viết tắt
Analog to Digital Access Burst Analysis by Synthesis
Cụm truy xuất Phân tích bằng tổng hợp Điều chế mã xung vi sai thích ứng Cụm giả Điều chế Delta Điều chế mã xung vi sai Cụm điều chỉnh tần số Mã sửa lỗi hƣớng đi
GSM Hệ thống thông tin di động toàn cầu
LAR LP LPC LTP MOS
MPE-LTP
A/D AB AbS ADPCM Adaptive Differently PCM Dummy Burst DB Delta Modulation DM Differential PCM DPCM Frequency Correction Burst FC Forward Error Correction FEC Gaussian Minimum Shift Keying Điều chế khoá chuyển pha cực tiểu GMSK Global System For Mobile Communications Logarithm Area Ratio Linear Prediction Linear Prediction Coding Long Term Predictor Mean Opinion Score Multi-Pulse Excited LPC Codec with Long term Predictor Normal Burst Pulse Code Modulation Probability Density Function Quadrature Mirror Filter Quality of Service NB PCM PDF QMF QoS
Residual Excited Linear Prediction RELP
Tỉ số vùng logarith Dự đoán tuyến tính Mã hoá dự đoán tuyến tính Dự đoán dài hạn Điểm số ý kiến trung bình Dự đoán tuyến tính kích thích đa xung với bộ dự đoán dài hạn Cụm thƣờng Điều chế xung mã Hàm mật độ xác suất Bộ lọc gƣơng cầu phƣơng Chất lƣợng dịch vụ Dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán Kích thích xung đều RPE
RPE-LTP Kích thích xung đều - Dự đoán dài hạn
Regular Pulse Excitation Regular Pulse Excited - Long Term Prediction Synchronization Burst Signal to Noise Ratio Short term Predictor Cụm đồng bộ Tỉ số tín hiệu trên nhiễu Dự đoán ngắn hạn
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 54
SB SNR STP