Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
77
ĐÁNH GIÁ KÊNH TRUYỀN VIỄN THÔNG THÔNG QUA
MÔ HÌNH ĐÁNH GIÁ TIẾNG NÓI KHÔNG XÂM LẤN
Trần Hồng Nhật1, 2, Lê Minh Tú1, 2, Đỗ Văn Hải3
1Trung tâm Dch v d liu và Trí tu nhân to Viettel
2Trường Đại hc Bách khoa Hà Ni
3Trường Đại hc Thy li, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Đánh giá chất lượng kênh truyền viễn
thông là bài toán quan trọng cho các tập đoàn
viễn thông nhằm phục vụ giám sát chất lượng
đường truyền hoặc so sánh các hệ thống viễn
thông. Đánh giá kênh truyền thường được
thực hiện bằng cách chấm điểm trên thang từ
1-5, thông qua đánh giá trực tiếp từ con
người hoặc gửi cuộc gọi mẫu tính toán
điểm chất lượng [1]. Cả hai cách này tuy
chính xác nhưng chi phí cao không phải
lúc nào cũng tiếp cận được cả hai đầu của
đường truyền với trường hợp cuộc gọi ngoại
mạng [1]. Do đó, cần một phương pháp đánh
giá kênh truyền không xâm lấn, hay chỉ cần
sử dụng duy nhất tín hiệu ở đầu nhận.
Chất lượng tiếng nói đầu nhận bị ảnh
hưởng bởi hai yếu tố: chất lượng kênh truyền
chất lượng tiếng nói bên gửi. Hơn nữa,
con người hoàn toàn thể đánh giá được
chất lượng kênh truyền thông qua nghe tín
hiệu đầu nhận. Dựa trên đây, chúng tôi giả
thiết rằng ta thể sử dụng các hình học
sâu đã được tiền huấn luyện cho đánh giá
tiếng nói để tinh chỉnh cho bài toán đánh giá
chất lượng kênh truyền không xâm lấn. Để
kiểm chứng giả thiết này, chúng tôi tiến hành
tinh chỉnh hình học sâu NISQA phổ biến
cho bài toán đánh giá chất lượng tiếng nói
trên tập dữ liệu kênh truyền của chúng tôi.
Kết quả thực nghiệm cho thấy, việc học
chuyển giao (transfer learning) từ tác vụ đánh
giá tiếng nói giúp nâng cao đáng kể độ chính
xác của đánh giá kênh truyền.
Các đóng góp chính của nghiên cứu này có
thể được tóm tắt như sau:
Thông qua các thí nghiệm lập luận,
chúng tôi đánh giá mức độ tương đồng giữa
các tác vụ khác nhau của đánh giá chất lượng
tiếng nói đánh giá chất lượng kênh truyền.
Kết quả cho thấy tác vụ đánh giá chất lượng
tiếng nói tổng thể đánh giá mức độ đứt
đoạn tiếng nói sự tương quan lớn nhất với
đánh giá kênh truyền.
Chúng tôi sử dụng hai hình NISQA
ứng với hai tác vụ kể trên để tinh chỉnh trên
tập dữ liệu chất lượng kênh truyền. Việc huấn
luyện hình theo cách này giúp cải thiện
đáng kể đ chính xác khi dự đoán so với
huấn luyện từ đầu trên cùng tập dữ liệu.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Tiền huấn luyện mô hình NISQA
Trong các thử nghiệm của bài viết này,
chúng tôi sử dụng hình NISQA [1] đã
được tiền huấn luyện với tập dữ liệu đánh giá
chất lượng tiếng nói. NISQA hình học
sâu đánh giá chất lượng giọng nói không xâm
lấn, với đầu vào các đoạn âm thanh đầu
ra các điểm số trên thang 1-5 đánh giá với
các tác vụ khác nhau như MOS, điểm đứt
đoạn,... Các điểm số đánh giá này càng cao
thì chất lượng của tiếng nói càng cao. Chi tiết
hơn về các điểm số đánh giá này thể thấy
trong Bảng 1.
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
78
Bảng 1. Các tác vụ đánh giá
chất lượng tiếng nói [2]
Tác vụ
đánh giá Mô tả Nguồn gốc
Điểm tổng thể
(MOS)
Chất lượng tín
hiệu tổng thể
Độ đứt đoạn
(discontinuity)
Sự không ổn
định và liên tục
Mất gói tin, xử
lý gói tin,...
Độ to
(loudness)
Mức độ to, rõ
ràng của tiếng
nói
Khoảng cách
thu âm,...
Độ chói
(coloration)
Mức biến dạng
đáp ứng tần số
Băng thông giới
hạn, cộng hưởng
Độ nhiễu
(noisiness)
Mức nhiễu của
tín hiệu
Nhiễu môi
trường hoặc
thiết bị
hình NISQA được thiết kế cho đa tác
vụ, cho phép thực hiện nhiều tác vụ đánh giá
đồng thời. Trong quá trình tiền huấn luyện,
NISQA được huấn luyện trên một tập dữ liệu
lớn đa dạng để học các đặc trưng bản
của tín hiệu giọng nói, sau đó tinh chỉnh trên
các tập dữ liệu cụ thể để cải thiện độ chính
xác. Chi tiết hơn về hình NISQA thể
được thấy trong Hình 1.
Hình 1. Mô hình NISQA [1]
2.2. Tinh chỉnh hình cho đánh giá
kênh truyền
Ta đã biết, để việc học chuyển giao
(transfer learning) đạt được hiệu quả cao, thì
các tác vụ của hình tiền huấn luyện phải
sự tương đồng tương đối cao so với tác vụ
được quan tâm. Để phân tích sự tương đồng
giữa việc đánh giá điểm số kênh truyền
đánh giá các tiêu chí của tiếng nói, trước tiên
chúng tôi sử dụng hình NISQA đã được
tiền huấn luyện trên tập dữ liệu tiếng nói để
trực tiếp dự đoán điểm số trên tập dữ liệu
kênh truyền.
Từ việc đánh giá kết quả của dự đoán trực
tiếp chất lượng kênh truyền (Bảng 2), chúng
tôi thấy hai hình ứng với các tác vụ đánh
giá tổng thể (MOS) mức độ đứt đoạn
mức độ tương đồng cao nhất với đánh giá
kênh truyền. Điều này là hoàn toàn hợp lý, do
điểm đánh giá tổng thể bị ảnh hưởng bởi
kênh truyền, còn mức độ đứt đoạn của tín
hiệu thì phần lớn nguồn gốc từ mất gói tin
hay chính là lỗi kênh truyền.
Bảng 2. Kết quả dự đoán trực tiếp
từ các mô hình tiền huấn luyện
Tác vụ RMSE () PCC ()
Noisiness 1.151 0.198
Loudness 0.827 0.305
Coloration 1.380 0.336
MOS 1.199 0.515
Discontinuity 0.594 0.532
Chúng tôi tiến hành sử dụng hai hình
NISQA được tiền huấn luyện trên hai tác vụ
kể trên để tinh chỉnh trên tập dữ liệu kênh
truyền đánh giá kết quả dự đoán. Để phục
vụ mục đích so sánh, chúng tôi cũng tiến
hành huấn luyện lại hình NISQA từ đầu
trên tập dữ liệu kênh truyền, để chỉ ra rằng
tiền huấn luyện trên các tác vụ đánh giá tiếng
nói giúp đạt độ chính xác cao hơn đáng kể
nhờ vào học được các biểu diễn hữu ích từ
tập dữ liệu đánh giá tiếng nói.
3. CÁC THÍ NGHIỆM VÀ KẾT QUẢ
3.1. Các tập dữ liệu
3.1.1. Tp d liu VT-TQA
Tập dữ liệu VT-TQA nội bộ bao gồm tổng
cộng 6699 đoạn tiếng nói, được ghi âm với
tần số lấy mẫu 8KHz. Mỗi đoạn giọng nói
đều đi kèm với điểm chất lượng kênh viễn
thông tương ứng để dự đoán trên thang từ 1-
5. Trong đó, 5000 đoạn được sử dụng cho
quá trình huấn luyện, 1699 đoạn còn lại được
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
79
dùng để đánh giá các hình. Các đoạn
tiếng nói này được thu âm trên kênh truyền
trong nhiều điều kiện khác nhau, nhằm
phỏng kênh truyền trong thực tế.
3.1.2. Tp d liu NISQA
Các mô hình NISQA được tiền huấn luyện
trên bộ dữ liệu cùng tên được công bố trong
[1]. Tập dữ liệu này bao gồm hơn 70.000 file
ghi âm, bao gồm cả các bản ghi mô phỏng
ghi âm thực tế. Tập dữ liệu này cũng đi kèm
với các nhãn cho điểm đánh giá tổng thể
cũng như điểm đánh giá các tác vụ khác,
được chỉ ra trong Bảng 1.
3.2. Đánh giá mô hình tiền huấn luyện
Chúng tôi sử dụng hình tiền huấn
luyện NISQA cho các tác vụ tiếng nói khác
nhau để trực tiếp dự đoán giá trị điểm số trên
tập dữ liệu VT-TQA.
Để đánh giá sự tương đồng giữa các giá trị
dự đoán giá trị thực tế, chúng tôi sử dụng
sai s căn bc hai trung bình (RMSE) và h
số tương quan Pearson (PCC) trên tập kiểm
tra. RMSE càng thấp PCC càng cao thì
càng tốt. Kết quả thể được thấy trong
Bảng 2. Các mô hình dự đoán điểm đứt đoạn,
điểm số trung bình tương quan mạnh
nhất với điểm số kênh truyền được lựa
chọn cho quá trình tinh chỉnh.
3.3. Huấn luyện, tinh chỉnh trên VT-TQA
Sau khi chọn được các hình trong thí
nghiệm phía trên, các hình này được tinh
chỉnh (finetuned) lại trên tập dữ liệu kênh
truyền VT-TQA. Chúng tôi sử dụng cài đặt
được đề xuất từ [1] để tinh chỉnh trên tập dữ
liệu VT-TQA. Để phục vụ so sánh, chúng tôi
cũng huấn luyện hình NISQA từ đầu trên
tập dữ liệu của mình (mô hình train_scratch
trên Bảng 3), kết quả cho độ chính xác
kém hơn nhiều các hình đã tinh chỉnh
trên. Điều này thể được giải bởi việc
thiếu đi các biểu diễn ý nghĩa được học từ
nhiệm vụ tiền huấn luyện.
Bảng 3. Kết quả thí nghiệm
sau khi tinh chỉnh các mô hình
Mô hình RMSE () PCC ()
finetuned_dis 0.338 0.880
finetuned_MOS 0.326 0.886
train_scratch 0.389 0.828
Chúng tôi lựa chọn 2 đầu ra có tương quan
cao nhất với tác vụ đánh giá chất lượng
đường truyền từ Bảng 1 Discontinuity và
MOS. Kết quả của thí nghiệm thể được
thấy ở Bảng 3. Trong đó, finetuned_dis là mô
hình đánh giá mức độ đứt đoạn sau khi tinh
chỉnh, finetuned_MOS hình đánh
giá chất lượng tổng thể sau khi tinh chỉnh.
4. KẾT LUẬN
Bài viết đề xuất đánh giá chất lượng kênh
truyền sử dụng mô hình học sâu đánh giá
tiếng nói không xâm lấn. Chúng tôi sử dụng
mô hình NISQA đã được tiền huấn luyện trên
các tác vụ tiếng nói khác nhau để tinh chỉnh
trên tập dữ liệu đánh giá kênh truyền VT-
TQA. Kết quả thí nghiệm cho thấy rằng các
tác vụ đánh giá chất lượng tổng thể hoặc mức
độ đứt đoạn tiếng nói sự tương đồng lớn
nhất với đánh giá kênh truyền. Đồng thời,
việc sử dụng học chuyển giao giúp cải thiện
đáng kể độ chính xác của dự đoán so với
phương pháp huấn luyện truyền thống.
5. TÀI LIỆU THAM KHẢO
[1] Gabriel Mittag, et.al. NISQA: A Deep CNN-
Self-Attention Model for Multidimensional
Speech Quality Prediction with Crowdsourced
Datasets. Interspeech 2021.
[2] Naderi, Babak, Ross Cutler, and Nicolae-
Cătălin Ristea. "Multi-dimensional speech
quality assessment in crowdsourcing."
ICASSP 2024-2024 IEEE International
Conference on Acoustics, Speech and
Signal Processing (ICASSP). IEEE, 2024.