ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN ĐĂNG LINH
XÂY DỰNG MÔ HÌNH NGÔN NGỮ VÀ SỬA LỖI TIẾNG
BANA TỰ ĐỘNG
LUN VĂN THẠC
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
BÌNH DƯƠNG – 2021
1
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN ĐĂNG LINH
XÂY DỰNG MÔ HÌNH NGÔN NGỮ VÀ SỬA LỖI TIẾNG
BANA TỰ ĐỘNG
LUN VĂN THẠC
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
NGƯỜI HƯNG DN KHOA HC:
PGS. TS. QUẢN THÀNH THƠ
BÌNH DƯƠNG – 2021
LỜI CAM ĐOAN
Tôi là Nguyễn Đăng Linh, học viên lớp CH19HT02, ngành Hệ thống thông
tin, trường Đại học Thủ Dầu Một. Tôi xin cam đoan luận văn Xây dựng
hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động” là do tôi nghiên cứu, tìm hiểu
phát triển ới sự hướng dẫn của PGS.TS. Quản Thành Thơ, không phải sự
sao chép từ các tài liệu, công trình nghiên cứu của người khác không ghi
trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan này.
Bình Dương, ngày 23 tháng 12 năm 2021
Nguyễn Đăng Linh
LỜI CẢM ƠN
Để hoàn thành luận văn này, tôi xin gửi lời cảm ơn đến tất cả Quý thầy
trường Đại học Thủ Dầu Một đã tận tình giảng dạy và truyền đạt cho tôi những
kiến thức hữu ích trong suốt quá trình học tập tại trường. Tôi cũng xin chân thành
cảm ơn Viễn thông nh Dương cùng Ban Giám đốc Trung tâm Công nghệ
Thông tin Truyền thông đã giúp đỡ, cung cấp nhiều thông tin quý báu và tạo
điều kiện cho i trong quá trình thu thập dữ liệu, cảm ơn các anh chị em đồng
nghiệp đã hỗ trợ cho tôi để tôi có thể thực hiện tốt luận văn của mình.
Hơn hết, tôi xin chân thành cảm ơn thầy hướng dẫn PGS.TS. Quản Thành
Thơ, người đã tận tình truyền đạt, chỉ dạy cho tôi những kiến thức bổ ích về y
học và học sâu, cảm ơn thầy đã nhiệt tình hướng dẫn, chỉ bảo cho tôi trong suốt
quá trình tôi nghiên cứu, xây dựng và hoàn thiện luận văn này.
Xin gửi lời cảm ơn sâu sắc tới gia đình, các anh chị em học viên lớp
CH19HT01 CH19HT02 đã luôn động viên, chia sẻ kinh nghiệm, cung cấp các
tài liệu hữu ích cho tôi để tôi thực hiện tốt luận văn của mình.
Nguyễn Đăng Linh
MỤC LỤC
LỜI CAM ĐOAN
LI CẢM ƠN
MC LC
DANH MC THUT NG VÀ CÁC T VIT TT
DANH MC HÌNH V
DANH MC CÁC BNG, Đ TH
CHƯƠNG 1 MỞ ĐẦU
1.1 Lý do chọn đề tài 1
1.2 Mục tiêu nghiên cứu 2
1.3 Đối tượng, phạm vi nghiên cứu 2
1.4 Phương pháp nghiên cứu 3
1.5 Ý nghĩa khoa học và thực tiễn 3
1.6 B cc luận văn 4
CHƯƠNG 2 TỔNG QUAN 5
2.1 Công trình nghiên cứu có liên quan 5
2.2 Người Ba Na 5
2.2.1. Ngôn ng tiếng Ba Na 7
2.2.2. T điển Ba Na Kriêm 7
2.2.3. Bng ch cái và du tiếng Ba Na 8
2.2.4. Một số quy luật của tiếng Ba Na 9
2.3 Vấn đề chung còn tồn đọng 10
CHƯƠNG 3 CƠ S LÝ THUYT VÀ PHƯƠNG PHÁP ĐỀ XUT
11
3.1 Mô hình ngôn ng 11
3.2 Kiến trúc RNN 12
3.3 Kiến trúc LSTM 13
3.4 Xây dựng tập dữ liệu tiếng Ba Na 15
3.4.1. Thu thập dữ liệu văn bản 17
3.4.2. Làm giàu dữ liệu 18
3.5 Đặt bài toán cho mô hình ngôn ngữ tiếng Ba Na 24
3.6 Đề xut hưng gii quyết 25
3.7 Các đặc trưng của mô hình đề xuất 26
3.7.1. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na left-
to-right (Char L2R) 26
3.7.2. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na
right-to-left (Char R2L) 27
3.7.3. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na
Look-ahead 28
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 30
4.1 Tiêu chí đánh giá với độ đo WER 30
4.2 Chuẩn bị dữ liệu 30
4.3 Huấn luyện dữ liệu 31
4.4 Kết quả thực nghiệm 32