
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
77
ĐÁNH GIÁ KÊNH TRUYỀN VIỄN THÔNG THÔNG QUA
MÔ HÌNH ĐÁNH GIÁ TIẾNG NÓI KHÔNG XÂM LẤN
Trần Hồng Nhật1, 2, Lê Minh Tú1, 2, Đỗ Văn Hải3
1Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel
2Trường Đại học Bách khoa Hà Nội
3Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Đánh giá chất lượng kênh truyền viễn
thông là bài toán quan trọng cho các tập đoàn
viễn thông nhằm phục vụ giám sát chất lượng
đường truyền hoặc so sánh các hệ thống viễn
thông. Đánh giá kênh truyền thường được
thực hiện bằng cách chấm điểm trên thang từ
1-5, thông qua đánh giá trực tiếp từ con
người hoặc gửi cuộc gọi mẫu và tính toán
điểm chất lượng [1]. Cả hai cách này tuy
chính xác nhưng chi phí cao và không phải
lúc nào cũng tiếp cận được cả hai đầu của
đường truyền với trường hợp cuộc gọi ngoại
mạng [1]. Do đó, cần một phương pháp đánh
giá kênh truyền không xâm lấn, hay chỉ cần
sử dụng duy nhất tín hiệu ở đầu nhận.
Chất lượng tiếng nói đầu nhận bị ảnh
hưởng bởi hai yếu tố: chất lượng kênh truyền
và chất lượng tiếng nói bên gửi. Hơn nữa,
con người hoàn toàn có thể đánh giá được
chất lượng kênh truyền thông qua nghe tín
hiệu ở đầu nhận. Dựa trên đây, chúng tôi giả
thiết rằng ta có thể sử dụng các mô hình học
sâu đã được tiền huấn luyện cho đánh giá
tiếng nói để tinh chỉnh cho bài toán đánh giá
chất lượng kênh truyền không xâm lấn. Để
kiểm chứng giả thiết này, chúng tôi tiến hành
tinh chỉnh mô hình học sâu NISQA phổ biến
cho bài toán đánh giá chất lượng tiếng nói
trên tập dữ liệu kênh truyền của chúng tôi.
Kết quả thực nghiệm cho thấy, việc học
chuyển giao (transfer learning) từ tác vụ đánh
giá tiếng nói giúp nâng cao đáng kể độ chính
xác của đánh giá kênh truyền.
Các đóng góp chính của nghiên cứu này có
thể được tóm tắt như sau:
Thông qua các thí nghiệm và lập luận,
chúng tôi đánh giá mức độ tương đồng giữa
các tác vụ khác nhau của đánh giá chất lượng
tiếng nói và đánh giá chất lượng kênh truyền.
Kết quả cho thấy tác vụ đánh giá chất lượng
tiếng nói tổng thể và đánh giá mức độ đứt
đoạn tiếng nói có sự tương quan lớn nhất với
đánh giá kênh truyền.
Chúng tôi sử dụng hai mô hình NISQA
ứng với hai tác vụ kể trên để tinh chỉnh trên
tập dữ liệu chất lượng kênh truyền. Việc huấn
luyện mô hình theo cách này giúp cải thiện
đáng kể độ chính xác khi dự đoán so với
huấn luyện từ đầu trên cùng tập dữ liệu.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Tiền huấn luyện mô hình NISQA
Trong các thử nghiệm của bài viết này,
chúng tôi sử dụng mô hình NISQA [1] đã
được tiền huấn luyện với tập dữ liệu đánh giá
chất lượng tiếng nói. NISQA là mô hình học
sâu đánh giá chất lượng giọng nói không xâm
lấn, với đầu vào là các đoạn âm thanh và đầu
ra là các điểm số trên thang 1-5 đánh giá với
các tác vụ khác nhau như MOS, điểm đứt
đoạn,... Các điểm số đánh giá này càng cao
thì chất lượng của tiếng nói càng cao. Chi tiết
hơn về các điểm số đánh giá này có thể thấy
trong Bảng 1.