Luận văn Thạc sĩ Hệ thống thông tin: Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động
lượt xem 5
download
Mục đích nghiên cứu của đề tài "Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động" là xây dựng thêm kho ngữ liệu phục vụ huấn luyện mô hình ngôn ngữ và sửa lỗi tự động và phân tích dữ liệu thu thập được gồm các tài nguyên dữ liệu tiếng Ba Na từ đó xây dựng mô hình ngôn ngữ và sửa lỗi tự động. Phân tích các yếu tố ảnh hưởng, lựa chọn các phương pháp học sâu phù hợp với bộ dữ liệu có được để hệ thống xây dựng mô hình ngôn ngữ và hỗ trợ sửa lỗi đạt được độ chính xác cao.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động
- ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ĐĂNG LINH XÂY DỰNG MÔ HÌNH NGÔN NGỮ VÀ SỬA LỖI TIẾNG BANA TỰ ĐỘNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG – 2021
- UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ĐĂNG LINH XÂY DỰNG MÔ HÌNH NGÔN NGỮ VÀ SỬA LỖI TIẾNG BANA TỰ ĐỘNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 1
- LỜI CAM ĐOAN Tôi là Nguyễn Đăng Linh, học viên lớp CH19HT02, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một. Tôi xin cam đoan luận văn “Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động” là do tôi nghiên cứu, tìm hiểu và phát triển dưới sự hướng dẫn của PGS.TS. Quản Thành Thơ, không phải sự sao chép từ các tài liệu, công trình nghiên cứu của người khác mà không ghi rõ trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan này. Bình Dương, ngày 23 tháng 12 năm 2021 Nguyễn Đăng Linh
- LỜI CẢM ƠN Để hoàn thành luận văn này, tôi xin gửi lời cảm ơn đến tất cả Quý thầy cô trường Đại học Thủ Dầu Một đã tận tình giảng dạy và truyền đạt cho tôi những kiến thức hữu ích trong suốt quá trình học tập tại trường. Tôi cũng xin chân thành cảm ơn Viễn thông Bình Dương cùng Ban Giám đốc Trung tâm Công nghệ Thông tin và Truyền thông đã giúp đỡ, cung cấp nhiều thông tin quý báu và tạo điều kiện cho tôi trong quá trình thu thập dữ liệu, cảm ơn các anh chị em đồng nghiệp đã hỗ trợ cho tôi để tôi có thể thực hiện tốt luận văn của mình. Hơn hết, tôi xin chân thành cảm ơn thầy hướng dẫn PGS.TS. Quản Thành Thơ, người đã tận tình truyền đạt, chỉ dạy cho tôi những kiến thức bổ ích về máy học và học sâu, cảm ơn thầy đã nhiệt tình hướng dẫn, chỉ bảo cho tôi trong suốt quá trình tôi nghiên cứu, xây dựng và hoàn thiện luận văn này. Xin gửi lời cảm ơn sâu sắc tới gia đình, các anh chị em học viên lớp CH19HT01 và CH19HT02 đã luôn động viên, chia sẻ kinh nghiệm, cung cấp các tài liệu hữu ích cho tôi để tôi thực hiện tốt luận văn của mình. Nguyễn Đăng Linh
- MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG, ĐỒ THỊ CHƯƠNG 1 MỞ ĐẦU 1.1 Lý do chọn đề tài 1 1.2 Mục tiêu nghiên cứu 2 1.3 Đối tượng, phạm vi nghiên cứu 2 1.4 Phương pháp nghiên cứu 3 1.5 Ý nghĩa khoa học và thực tiễn 3 1.6 Bố cục luận văn 4 CHƯƠNG 2 TỔNG QUAN 5 2.1 Công trình nghiên cứu có liên quan 5 2.2 Người Ba Na 5 2.2.1. Ngôn ngữ tiếng Ba Na 7 2.2.2. Từ điển Ba Na Kriêm 7 2.2.3. Bảng chữ cái và dấu tiếng Ba Na 8 2.2.4. Một số quy luật của tiếng Ba Na 9 2.3 Vấn đề chung còn tồn đọng 10 CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP ĐỀ XUẤT 11 3.1 Mô hình ngôn ngữ 11 3.2 Kiến trúc RNN 12 3.3 Kiến trúc LSTM 13 3.4 Xây dựng tập dữ liệu tiếng Ba Na 15 3.4.1. Thu thập dữ liệu văn bản 17 3.4.2. Làm giàu dữ liệu 18 3.5 Đặt bài toán cho mô hình ngôn ngữ tiếng Ba Na 24 3.6 Đề xuất hướng giải quyết 25 3.7 Các đặc trưng của mô hình đề xuất 26 3.7.1. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na left- to-right (Char L2R) 26 3.7.2. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na right-to-left (Char R2L) 27 3.7.3. Xây dựng mô hình ngôn ngữ mức ký tự tiếng Ba Na Look-ahead 28 CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 30 4.1 Tiêu chí đánh giá với độ đo WER 30 4.2 Chuẩn bị dữ liệu 30 4.3 Huấn luyện dữ liệu 31 4.4 Kết quả thực nghiệm 32
- 4.4.1. Kết quả mô hình ngôn ngữ mức ký tự tiếng Ba Na (Char L2R) 32 4.4.2. Kết quả mô hình ngôn ngữ mức ký tự tiếng Ba Na (Char R2L) 33 4.4.3. Kết quả sửa lỗi kết hợp 2 mô hình ngôn ngữ Char L2R và Char R2L 34 4.4.4. Kết quả mô hình ngôn ngữ mức ký tự tiếng Ba Na Look- ahead 37 4.4.5. Kết quả thực nghiệm kết hợp 3 mô hình ngôn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER 40 CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44 5.1. Kết luận 44 5.2. Hướng phát triển 44 TÀI LIỆU THAM KHẢO 46
- DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo LSTM Long Short-Term Memory Bộ nhớ dài ngắn ML Machine Learning Học máy RNN Recurrent Neural Network Mạng nơ ron hồi quy Char L2R Character Left to Right Model Mô hình ngôn ngữ mức ký tự từ trái sang phải Char R2L Character Right to Left Model Mô hình ngôn ngữ mức ký tự từ phải sang trái Look-ahead Character Look-ahead Model Mô hình ngôn ngữ mức ký tự look-ahead LM Language Model Mô hình ngôn ngữ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên DTTS Dân tộc thiểu số Dân tộc thiểu số
- DANH MỤC HÌNH VẼ Hình 2. 1 Dân tộc người Ba Na – nguồn: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na ...................... 6 Hình 2. 2 Từ điển Bana Kriêm Bình Định - Nguồn: Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn. .............................................................................................. 8 Hình 2. 3 Bảng chữ cái và dấu tiếng Bana - Nguồn: Chữ Bana kriêm Bình Định - Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn. ............................................... 9 Hình 3. 1 Ứng dụng mô hình ngôn ngữ - Nguồn: https://viblo.asia/p/language- modeling-mo-hinh-ngon-ngu-va-bai-toan-them-dau-cau-trong-tieng-viet- 1VgZveV2KAw ..................................................................................................... 11 Hình 3. 2 Mô hình ngôn ngữ mức ký tự với RNN - nguồn https://towardsdatascience.com/character-level-language-model-1439f5dd87fe .............................................................................................................................. 13 Hình 3. 3 Kiến trúc RNN - nguồn: https://towardsdatascience.com/introduction- to-recurrent-neural-network-27202c3945f3 ........................................................ 12 Hình 3. 4 Kiến trúc LSTM - nguồn: https://nttuan8.com/bai-14-long-short-term- memory-lstm/ ........................................................................................................ 14 Hình 3. 5 Bản tin Việt – Ba Na huyện Vĩnh Thạnh .............................................. 15 Hình 3. 6 Nội dung bản tin theo ngày .................................................................. 15 Hình 3. 7 Dữ liệu gốc ........................................................................................... 16 Hình 3. 8 Nội dung văn bản tiếng Việt - Ba Na ................................................... 17 Hình 3. 9 Dữ liệu sau khi được chuyển sang ngôn ngữ Ba Na bằng các quy luật heuristic ................................................................................................................ 17 Hình 3. 10 Dữ liệu dịch văn bản phát thanh radio huyện Vĩnh Thạnh ................ 18 Hình 3. 11 Đề xuất mô hình huấn luyện và mô hình dự đoán ............................. 26 Hình 3. 12 mô hình ngôn ngữ mức ký tự từ trái sang phải .................................. 27 Hình 3. 13 mô hình ngôn ngữ mức ký tự từ phải sang trái .................................. 28 Hình 3. 14 Mô hình ngôn ngữ ký tự Look-ahead ................................................. 28
- DANH MỤC CÁC BẢNG, ĐỒ THỊ Bảng 3. 1 Các từ đồng nghĩa, trái nghĩa, cùng từ loại tiếng Bana ...................... 19 Bảng 4. 1 Dữ liệu phục vụ cho đề tài. .................................................................. 31 Bảng 4. 2 Thời gian huấn luyện mô hình. ............................................................ 32 Bảng 4. 3 Tập dữ liệu huấn luyện và kiểm thử..................................................... 32 Bảng 4. 4 Kết quả mô hình ngôn ngữ mức ký tự tiếng Ba Na (Char L2R) .......... 32 Bảng 4. 5 Kết quả mô hình ngôn ngữ mức ký tự tiếng Ba Na (Char R2L) .......... 33 Bảng 4. 6 So sánh kết quả của hai mô hình ngôn ngữ Char L2R và Char R2L .. 35 Bảng 4. 7 Kết hợp 2 mô hình Char L2R và Char R2L để sửa lỗi tiếng Ba Na. ... 36 Bảng 4. 8 Kết quả thực nghiệm mô hình Look-ahead .......................................... 37 Bảng 4. 9 Kết quả thực nghiệm kết hợp 03 mô hình ngôn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER ......................................................................... 40
- CHƯƠNG 1 MỞ ĐẦU 1.1 Lý do chọn đề tài Ngôn ngữ là phương tiện giao tiếp chủ yếu của con người, bằng ngôn ngữ con người có thể truyền đi bất cứ một loại thông tin nào, như diễn tả tình cảm, ám chỉ, miêu tả sự vật. Mà ngôn ngữ là một thành tố trong văn hóa, đồng thời là một phương tiện bảo tồn và phát triển nhiều thành tố văn hóa khác của các dân tộc. Mô hình ngôn ngữ đóng một vai trò quan trọng trong nhiều các tác vụ xử lý ngôn ngữ tự nhiên (NLP) như tóm tắt tự động, dịch máy, phân tích cảm xúc, chatbot và nhận dạng giọng nói… Trong đó sửa lỗi chính tả đóng một vai trò quan trọng trong việc truyền đạt thông tin chính xác trong giao tiếp, do đó bảo tồn và lưu giữ tính nguyên vẹn của ngôn ngữ. Việt Nam hiện có 54 dân tộc anh em, trong đó nhiều dân tộc thiểu số có chữ viết, tiêu biểu như: Tày, Chăm, Hoa, Thái, Khmer, Ê Đê, Ba Na, Mnông... Việc bảo vệ sự đa dạng văn hóa, ngôn ngữ các dân tộc hiện đang trở thành vấn đề cần quan tâm. Trong suốt chiều dài lịch sử, văn hóa truyền thống các dân tộc thiểu số (DTTS) luôn là di sản quý giá góp phần làm nên sự phong phú, đa dạng và thống nhất của nền văn hóa Việt Nam. Trong bối cảnh cuộc sống hiện đại, việc giữ gìn, phát huy bản sắc văn hóa đồng bào các dân tộc thiểu số là nhiệm vụ cấp thiết để phát triển bền vững đất nước. Thách thức đầu tiên phải kể đến là khả năng đánh mất ngôn ngữ truyền thống, linh hồn của văn hóa dân tộc, cũng là phương tiện để chuyển tải, trao truyền nghệ thuật, phong tục tập quán của các tộc người. Trên thực tế, từ nhiều năm nay, Đảng và Nhà nước cũng như nhiều địa phương đã có nhiều chính sách khuyến khích, bảo tồn văn hóa dân tộc, trong đó có chú trọng đến việc bảo tồn tiếng nói, chữ viết của đồng bào các dân tộc thiểu số. Bản chất hình thái phong phú của tiếng Ba Na nhưng ít tài nguyên về dữ liệu khiến việc xây dựng mô hình ngôn ngữ và sửa lỗi chính tả trở thành một nhiệm vụ khó khăn. Đối với tiếng Ba Na việc sửa lỗi chính tả là một điều kiện tiên quyết cần phải thực hiện vì hầu hết nguồn dữ liệu là từ các văn bản thô đều bị nhiễu và có nhiều lỗi chính tả. Hiện nay, đã có nhiều công trình nghiên cứu về mô hình ngôn ngữ và kiểm tra sửa lỗi chính tả tự động sử dụng các giải thuật học máy và học sâu, nhưng chủ yếu áp dụng vào các ngôn ngữ phổ biến trên thế giới. Hiện nay, xu hướng hội nhập đang làm 1
- nảy sinh nguy cơ suy giảm ngôn ngữ “mẹ đẻ” của nhiều dân tộc thiểu số. Việc bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số là cấp thiết để giữ gìn bản sắc văn hóa, thực hiện quyền bình đẳng giữa các dân tộc. Một số tiếng dân tộc thiểu số như tiếng Ba Na vẫn chưa có nhiều công trình nghiên cứu. Để thực hiện mục tiêu: bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số nhằm giữ gìn bản sắc văn hóa, việc khôi phục chữ viết cho tiếng dân tộc thiểu số là cấp thiết. Nhận thấy việc cần thiết như ở trên qua tìm hiểu và nghiên cứu tôi xin thực hiện đề tài : “Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động”. 1.2 Mục tiêu nghiên cứu Mục đích nghiên cứu của đề tài là xây dựng thêm kho ngữ liệu phục vụ huấn luyện mô hình ngôn ngữ và sửa lỗi tự động và phân tích dữ liệu thu thập được gồm các tài nguyên dữ liệu tiếng Ba Na từ đó xây dựng mô hình ngôn ngữ và sửa lỗi tự động. Phân tích các yếu tố ảnh hưởng, lựa chọn các phương pháp học sâu phù hợp với bộ dữ liệu có được để hệ thống xây dựng mô hình ngôn ngữ và hỗ trợ sửa lỗi đạt được độ chính xác cao. Từ đó, cung cấp được mô hình ngôn ngữ và sửa lỗi tự động cho tiếng Ba Na ở mức ký tự. Ứng dụng những thành tựu khoa học mới vào xử lý cho ngôn ngữ tiếng Ba Na, từ đó người dùng có thể hiểu được mô hình ngôn ngữ của tiếng Ba Na và nhập các từ, câu hoặc đoạn văn bản để nhận được hỗ trợ sửa lỗi tự động của hệ thống. Góp phần vào việc bảo tồn tiếng nói, chữ viết của đồng bào các dân tộc thiểu số ở nước ta. 1.3 Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu của đề tài là ngôn ngữ Tiếng Ba Na. Dữ liệu đầu vào là văn bản tiếng Ba Na bao gồm từ và câu . Sửa lỗi tự động tiếng Ba Na với những từ xuất hiện nhiều trong dữ liệu được huấn luyện trong dữ liệu học sâu. Ví dụ: input: adriêng 'bă 'băn nb x tơman_ output: adriêng 'bă 'băn năm tơmang Ngôn ngữ tiếng Ba Na ngày nay có thể lưu trữ trên văn bản hoặc dưới dạng hình ảnh, do đó sẽ xuất hiện một số lỗi chính tả không mong muốn, vì thế việc sửa lỗi tiếng Ba Na tự động là rất quan trọng và cần thiết trong ngôn ngữ tiếng Ba Na. 2
- Nghiên cứu các Mô hình huấn luyện dựa trên nền tảng học sâu LSTM để “Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động”. Từ qua cơ chế huấn luyện của phương pháp học sâu từ nguồn dữ liệu gốc cuốn từ điển Bana Kriêm và nội dung phát thanh radio huyện Vĩnh Thạnh – Bình Định như: RNN, LSTM sau đó tiến hành sửa lỗi tự động tiếng Ba Na. 1.4 Phương pháp nghiên cứu Bài toán sửa lỗi chính tả nhằm giải quyết nhiệm vụ suy ra các từ đúng tương ứng với từ lỗi chính tả và ngữ cảnh xung quanh của chúng. Trong nghiên cứu này, mô hình đề xuất của chúng tôi sử dụng kết hợp kết quả của các mô hình ngôn ngữ sau: - Mô hình ngôn ngữ mức ký tự trái sang phải - Mô hình ngôn ngữ mức ký tự phải sang trái. - Mô hình ngôn ngữ mức ký tự look-ahead. Các mô hình ngôn ngữ này sẽ sử dụng RNN và LSTM. Chúng ta sẽ lần lượt tìm hiểu chi tiết ở phần sau. Luận văn dựa trên phương pháp nghiên cứu lý thuyết và thực nghiệm, vận dụng các lý thuyết về xử lý ngôn ngữ tự nhiên, các nghiên cứu mới trong học máy và lĩnh vực xử lý ngôn ngữ tự nhiên để đề xuất mô hình thích hợp. Luận văn cũng sử dụng phương pháp so sánh, đánh giá để phân tích đánh giá mô hình đề xuất với các mô hình trước. 1.5 Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Luận văn củng cố được kiến thức khoa học cho người nghiên cứu, giúp bổ sung và hoàn thiện về kiến thức khoa học cho nghiên cứu về Xử lý ngôn ngữ tự nhiên bằng phương pháp Học Sâu. Luận văn tập trung phân tích dữ liệu thu thập được gồm các tài nguyên tiếng Ba Na từ đó xây dựng mô hình ngôn ngữ và sửa lỗi tự động. Phân tích các yếu tố ảnh hưởng, lựa chọn các phương pháp học sâu phù hợp với bộ dữ liệu có được để hệ thống xây dựng mô hình ngôn ngữ và hỗ trợ sửa lỗi đạt được độ chính xác cao. Bằng cách dùng Học Sâu để tạo ra mô hình ngôn ngữ, luận văn này có thể cung cấp được mô hình ngôn ngữ và sửa lỗi tự động cho tiếng Bana ở mức ký tự và đóng góp nghiên cứu phương pháp sử dụng mô hình ngôn ngữ kết hợp RNN, LSTM 3
- cho bài toán. Mô hình này có thể được đề xuất phương pháp thu thập, xử lý dữ liệu làm cơ sở cho các nghiên cứu trong tương lai. Ý nghĩa thực tiễn: Tôi chọn đề tài này với mong muốn góp phần ứng dụng những thành tựu khoa học mới vào xử lý cho ngôn ngữ tiếng Ba Na, từ đó người dùng có thể hiểu được mô hình ngôn ngữ của tiếng Ba Na và nhập các từ, câu hoặc đoạn văn bản để nhận được hỗ trợ sửa lỗi tự động của hệ thống. Mà văn hóa truyền thống các dân tộc thiểu số luôn là di sản quý giá; góp phần làm nên sự phong phú, đa dạng và thống nhất của nền văn hóa Việt Nam. Trong bối cảnh cuộc sống hiện đại, việc giữ gìn, phát huy bản sắc văn hóa đồng bào các dân tộc thiểu số là nhiệm vụ cấp thiết để phát triển bền vững đất nước. Có thể giúp xây dựng và phát triển các bộ phần mềm, ứng dụng liên quan đến bài toán sửa lỗi chính tả tự động. 1.6 Bố cục luận văn Luận văn có 5 chương: Chương 1: Mở Đầu. Chương 2: Tổng Quan. Chương 3: Cơ Sở Lý Thuyết và Phương Pháp Đề Xuất. Chương 4: Thực Nghiệm và Đánh Giá. Chương 5: Kết Luận và Hướng Phát Triển. Kết luận chương 1 Chương này nêu lên lý do, mục đích và ý nghĩa khoa học, thực tiễn của đề tài nghiên cứu liên quan đến mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động. Qua đó đề xuất mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu cho luận văn. 4
- CHƯƠNG 2 TỔNG QUAN 2.1 Công trình nghiên cứu có liên quan Các nghiên cứu về mô hình ngôn ngữ và sửa lỗi tự động đã được nghiên cứu từ rất lâu trước đây và đạt được các thành tựu nhất định trong lĩnh vực xử lý ngôn ngữ tự nhiên. Hiện nay là các giải thuật học máy và học sâu về bài toán sửa lỗi chính tả đóng một vai trò quan trọng trong các đề tài nghiên cứu khoa học liên quan đến ứng dụng này. Về đề tài xây dựng mô hình ngôn ngữ và sửa lỗi chính tả tự động có rất nhiều các công trình liên quan đến đề tài hiện tại như: - Recurrent neural network based language model - [3] Trong bài báo này, nhóm tác giả trình bày phương pháp hiện thực mô hình ngôn ngữ dựa trên mạng RNN ở cấp độ kí tự. Các kết quả thử nghiệm trên tập dữ liệu cho thấy kết quả vượt trội hơn nhiều so với các mô hình ngôn ngữ n-gram. - Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics –[4] Bài báo này nêu bật việc sửa lỗi chính tả gồm hai bước chính: bước phát hiện và bước sửa lỗi. Nhóm tác giả đề xuất sử dụng phương pháp “hiệu chỉnh khoảng cách” tối thiểu giúp phát hiện những lỗi chính tả và thay thế chúng bằng những ký tự phù hợp hơn cho việc sửa lỗi. - A Vietnamese Language Model Based on Recurrent Neural Network -[5] Bài báo này nghiên cứu mô hình RNN cho tiếng Việt, ở cấp độ ký tự và âm tiết. Các thí nghiệm được thực hiện dựa trên một tập dữ liệu lớn. Kết quả đạt được kết quả tốt hơn trong việc sử dụng mô hình ngôn ngữ dựa trên RNN so với mô hình ngôn ngữ truyền thống. Những cách tiếp cận trong của những bài báo này gợi mở cho tôi nhiều ý tưởng hơn trong việc xử lý, giải quyết bài toán của mình. 2.2 Người Ba Na Dân tộc Ba Na là một trong những cư dân sinh tụ lâu đời ở Trường Sơn - Tây Nguyên đã kiến lập nên nền văn hoá độc đáo ở đây. Họ là tộc người có dân số đông nhất, có dân số sấp xỉ 287 nghìn người vào năm 2019 [1], chiếm vị trí rất quan trọng trong các lĩnh vực văn hoá, xã hội ở tây nguyên và miền trung nước ta. 5
- Người Ba Na nói tiếng Ba Na thuộc Ngữ chi Ba Na là một ngôn ngữ thuộc Ngữ hệ Nam Á, cùng với đó là Ngữ chi Ba Na và Ngữ chi Việt-Mường được xếp vào ngôn ngữ Môn-Khmer. Hình 2. 1 Dân tộc người Ba Na – nguồn: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na Về mặt ngôn ngữ, tiếng Ba Na về cơ bản thống nhất trong cơ cấu ngữ âm, ngữ pháp. Tuy nhiên, do quá trình biến đổi lịch sử, do tiếp xúc với các ngôn ngữ khác nhau, tiếng nói của mỗi nhóm địa phương có sự khác biệt về cách phát âm, và một số về từ vựng. Các phương ngữ chính tiếng Ba Na gồm: Ba Na Kon Tum, Ba Na An Khê, và Ba Na Tơ lo, Ba Na Kon Kơ Ðeh, Ba Na Kriêm; giữa các phương ngữ trên, tìm thấy sự khác biệt rõ rệt giữa Ba Na Kon tum, Ba Na Gia lai (An Khê) và Ba Na Bình Ðịnh (Ba Na Kriêm). Người Ba Na ở Vĩnh Thạnh còn giữ được nhiều nét văn hoá tộc người đặc thù hơn cả. Người Ba Na ở Vĩnh Thạnh, An Lão, một số xã ở Hoài Ân, thuộc nhóm Ba Na Kriêm. Theo đồng bào Ba Na ở Vĩnh Thạnh, tên gọi Kriêm, ban đầu là tên con sông Ðăc 6
- Kriêm; người Ba Na Kriêm – người Ba Na sống quanh con sông Kriêm, ở vùng thấp. Người dân Ba Na Kriêm cũng cho rằng, về nguồn gốc, Ba Na Kriêm vốn từ khu vực Gia Lai chuyển đến. Từ những nguồn trên, nghiên cứu xoay quanh ngôn ngữ Ba Na Kriêm gồm từ điển, các câu hội thoại cũng như nội dung phát thanh của truyền hình Vĩnh Thạnh – Bình Định. 2.2.1. Ngôn ngữ tiếng Ba Na Người Ba Na ở Vĩnh Thạnh thuộc 1 trong 7 dòng Ba Na, gọi là Ba Na Kriêm. Cuộc sống của người Ba Na Kriêm gắn liền với nương rẫy, núi rừng. Đồng bào rất nhiệt tình, cởi mở, thân thiện. Hòa vào nhịp sống hiện đại, nhiều giá trị văn hóa đã dần mai một. Do vậy, việc lưu giữ, bảo tồn bản sắc văn hóa truyền thống là điều vô cùng cần thiết. 2.2.2. Từ điển Ba Na Kriêm Từ điển Ba Na Kriêm được xây dựng hoàn chỉnh trên cơ sở các tài liệu tiếng Bana tỉnh Gia Lai đã được Bộ Nội vụ thẩm định, do Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn, có bổ sung, chỉnh sửa nhiều phương ngữ tại Bình Định (còn gọi là Bana Kriêm).[2] 7
- Hình 2. 2 Từ điển Bana Kriêm Bình Định - Nguồn: Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn. Đây là bộ tài liệu quan trọng nhằm giúp cán bộ, công chức, viên chức công tác tại vùng có đông đồng bào dân tộc Bana làm nhiệm vụ tuyên truyền, vận động đồng bào thực hiện chủ trương, chính sách của Đảng. Ngoài ra, tài liệu này cũng sẽ được sử dụng để giảng dạy cho cả đồng bào Bana trên địa bàn tỉnh Bình Định chưa biết chữ Bana. 2.2.3. Bảng chữ cái và dấu tiếng Ba Na Hình 2. SEQ Hình_2.8 \* ARABIC 3 Bảng chữ cái và dấu tiếng Ba Na
- Hình 2. 3 Bảng chữ cái và dấu tiếng Bana - Nguồn: Chữ Bana kriêm Bình Định - Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn. Dấu: “'” – (dấu “phẩy trên”) và dấu “ ̆ ” (dấu “vành trăng khuyết”) Cách ghi các nguyên âm: a, ă, e, ĕ, ê, ê̆ , i, ĭ, o, ŏ, ô, ô̆ , ơ, ơ̆ , u, ŭ, ư, ư̆ , ươ Cách ghi các phụ âm đơn: b, 'b, ch, d, đ, g, h, i, j, k, kh, l, m, n, nh, ng, p, ph, r, s, t, th, u, w, y. Cách ghi các phụ âm kép: hm, hnh, 'm, 'n, 'ng, hk, kl, kr, br, li, pi, su, pu, ih, hngl, hri, 'ng, Các nguyên âm đôi: ia, iă, ie, iĕ, iô, iô̆ , ua, uă, ue, uĕ, uê, uê̆ 2.2.4. Một số quy luật của tiếng Ba Na Về tiếng nói, các nhánh người Ba Na cùng một thứ tiếng, tuy cũng có sự thay đổi ít nhiều tùy theo địa phương. Về chữ viết, người Ba Na là dân tộc thiểu số đầu tiên ở Tây Nguyên biết đọc, biết viết và biết làm tính. Năm 1861, chữ Ba Na viết theo mẫu tự la tinh như chữ quốc ngữ được đặt ra và tồn tại, phát triển cho đến ngày nay. 9
- Tiếng Ba Na còn hạn chế khi chưa có nhiều từ vựng, nên có những từ không có trong từ điển tiếng Ba Na sẽ mượn từ tiếng Việt, sau đó bỏ các dấu không có trong tiếng Ba Na như sắc, hỏi, ngã, nặng. Theo nghiên cứu của Tôi ở các đoạn hội thoại từ cuốn từ điển Ba Na Kriêm, tiếng Ba Na không có các thể bị động, chia các thì quá khứ, hiện tại hay tương lai như tiếng Anh. 2.3 Vấn đề chung còn tồn đọng Hiện nay chưa có nhiều nghiên cứu khoa học về bài toán xây dựng mô hình ngôn ngữ và sửa lỗi chính tả tự động có liên quan đến ngôn ngữ tiếng Ba Na. Trong quá trình thực hiện đề tài. Tôi gặp không ít khó khăn thách thức như: Rào cản ngôn ngữ. Quá trình thu thập dữ liệu. Dữ liệu ít gây khó khăn trong quá trình huấn luyện cũng như dịch thuật. Kết luận chương 2 Chương này đầu tiên là khảo cứu các công trình nghiên cứu khoa học có liên quan đến việc xây dựng mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động. Tiếp theo là tìm hiểu về người dân tộc Ba Na, từ điển Ba Na kriêm, bảng chữ cái và dấu tiếng Ba Na. Từ đó kế thừa giá trị của các nghiên cứu này, tác giả cũng nêu lên thực trạng và những vấn đề còn tồn đọng, qua đó đề xuất, đóng góp phương pháp nghiên cứu để giải quyết vấn đề của luận văn. 10
- CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Mô hình ngôn ngữ Mô hình ngôn ngữ là một mô hình để gán xác suất cho một chuỗi các từ hay câu. Mục đích của mô hình này là để cung cấp phân bố xác suất tiền nghiệm, từ đó giúp chúng ta biết được một câu có "chính xác" với ngôn ngữ xác định hay không hoặc một từ thêm vào sau 1 câu có đúng ngữ pháp và ngữ cảnh với các từ ở trước đó hay không. Thường được sử dụng để dự đoán từ hoặc ký tự tiếp theo của chuỗi đầu vào. Mô hình ngôn ngữ là một thuật ngữ mà bất cứ ai tìm hiểu về Xử lí ngôn ngữ tự nhiên (NLP) đều biết và cần phải biết để có thể hiểu rõ hơn về cách thức mà một ngôn ngữ được xây dựng từ một bộ từ vựng, về cách đánh giá, xử lí đối với ngôn ngữ tự nhiên cũng như là tiền đề để đi sâu vào tìm hiểu các lĩnh vực nghiên cứu có liên quan như : Nhận dạng chữ viết, Nhận dạng tiếng nói, dịch máy, tóm tắt văn bản, sửa lỗi chính tả … Một ứng dụng phổ biến của mô hình ngôn ngữ mà mọi người hầu như tiếp cận nhiều nhất đó là việc tự động gợi ý từ tiếp theo trên thanh tìm kiếm của Google. Hình 3. 1 Ứng dụng mô hình ngôn ngữ - Nguồn: https://viblo.asia/p/language- modeling-mo-hinh-ngon-ngu-va-bai-toan-them-dau-cau-trong-tieng-viet- 1VgZveV2KAw Trong thời gian gần đây, mô hình ngôn ngữ đóng vai trò quan trọng trong rất nhiều ứng dụng, bài toán của Xử lý ngôn ngữ tự nhiên và đang là chủ đề nghiên cứu thu hút được nhiều sự quan tâm của các nhà nghiên cứu trên toàn thế giới. Tuy nhiên, do mỗi quốc gia, sẽ sử dụng một ngôn ngữ khác nhau với cấu trúc ngữ pháp, văn hóa, hình thức nói khác nhau, dẫn đến việc xây dựng mô hình ngôn ngữ cho từng ngôn ngữ sẽ phải giải quyết nhiều bài toán đặc thù của nó. 11
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ Hệ thống thông tin: Xây dựng hệ thống chấm điểm tự động, hỗ trợ luyện thi học sinh giỏi tin học THPT
80 p | 34 | 21
-
Tóm tắt luận văn Thạc sĩ Quản trị kinh doanh: Xây dựng hệ thống thông tin kế toán phục vụ quản trị cước viễn thông - công nghệ thông tin tại viễn thông Quảng Bình
13 p | 118 | 19
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu hệ thống tổng hợp tiếng nói theo phương pháp học sâu
49 p | 61 | 13
-
Luận văn Thạc sĩ Hệ thống thông tin: Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu
76 p | 28 | 10
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng kỹ thuật khai phá dữ liệu trong dự báo một số thông số khí quyển
57 p | 12 | 6
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu giải pháp đánh giá chất lượng dịch vụ đa phương tiện trên mạng không dây sử dụng mô phỏng
72 p | 20 | 6
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu đánh giá một số phương pháp chú giải hệ gen lục lạp
68 p | 8 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu xử lý các đoạn video để trợ giúp phát triển tư duy học sinh
81 p | 49 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Phát triển hệ thống dự đoán điểm thi tốt nghiệp của học sinh trung học phổ thông sử dụng kỹ thuật rừng ngẫu nhiên hồi quy
38 p | 26 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Xây dựng hệ thống hỏi đáp tự động hỗ trợ công tác tư vấn dịch vụ hành chính công tại Sở Thông tin và Truyền thông tỉnh Bình Dương
66 p | 57 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt
73 p | 45 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu một số vấn đề ảnh hưởng đến hiệu suất của hệ thống phân loại hành vi bò
76 p | 10 | 5
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu triển khai phương pháp phát hiện biến động công trình biển sử dụng dữ liệu viễn thám
60 p | 31 | 4
-
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu hệ thống truyền thông đa phương tiện thời gian thực trên cơ sở giải pháp kỹ thuật WEBRTC
26 p | 43 | 3
-
Luận văn Thạc sĩ Quản trị kinh doanh: Ứng dụng hệ thống thẻ điểm cân bằng (The Balanced Scorecard) nhằm nâng cao hiệu quả hoạt động kinh doanh tại Ngân hàng Xuất nhập khẩu (EXIMNABK) - chi nhánh Hùng Vương
113 p | 12 | 2
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi
91 p | 6 | 2
-
Luận văn Thạc sĩ Kế toán: Hoàn thiện hệ thống kiểm soát nội bộ tại Mobifone Thành phố Đà Nẵng 2
103 p | 2 | 1
-
Luận văn Thạc sĩ Kế toán: Hoàn thiện hệ thống kiểm soát nội bộ tại Bảo hiểm xã hội huyện Châu Thành - Tỉnh Kiên Giang
107 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn