Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:67

Thêm vào BST

Báo xấu

22
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài "Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh" là tìm hiểu phương thức trích xuất thông tin từ hình ảnh để sinh ra ký tự, văn bản số thông qua việc nhận dạng ký tự quang học (OCR) cho tiếng Ba Na. Ở bước sau trích xuất, đề xuất kỹ thuật huấn luyện mô hình ngôn ngữ để sửa sai lỗi chính tả kí tự trên văn bản được sinh ra.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh

UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021
LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn Bản Hình Ảnh” là một công trình nghiên cứu độc lập dưới sự hướng dẫn của giáo viên hướng dẫn: PGS.TS. Quản Thành Thơ. Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hoặc sử dụng để nhận bằng cấp ở nơi khác. Đề tài, nội dung báo cáo là sản phẩm mà tôi đã nỗ lực nghiên cứu trong quá trình học tập tại trường. Các số liệu, kết quả trình bày trong báo cáo là hoàn toàn trung thực, em xin chịu hoàn toàn trách nhiệm, kỷ luật của nhà trường đề ra nếu như có vấn đề xảy ra. Học viên thực hiện Luận văn ÔN THIỆN TÀI i
LỜI CẢM ƠN Lời đầu tiên, tôi xin cảm ơn Ban Giám hiệu trường Đại học Thủ Dầu Một, Bộ phận Đào tạo Sau đại học, Giảng viên tham gia giảng dạy đã giúp đỡ, tạo mọi điều kiện cho tôi nghiên cứu trong suốt quá trình học tập và thực hiện đề tài luận văn tốt nghiệp. Tôi xin được cảm ơn đến Thầy PGS.TS. Quản Thành Thơ đã cung cấp tài liệu, giúp đỡ , hướng dẫn và tạo điều kiện thuận lợi trong quá trình nghiên cứu, thực hiện đề tài. Cuối cùng tôi xin chân thành cảm ơn đến Quý Thầy cô trong Hội đồng bảo vệ luận văn thạc sĩ đã góp ý để tôi hoàn thành tốt hơn luận văn này. Trân trọng cảm ơn! Học viên thực hiện Luận văn ÔN THIỆN TÀI ii
TÓM TẮT Ngày nay, bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số là cấp thiết để giữ gìn bản sắc văn hóa, thực hiện quyền bình đẳng giữa các dân tộc. Nhưng các các loại sách báo, tư liệu về tiếng nói, chữ viết của các dân tộc thiểu số lại không nhiều, hoặc có thì lại được in trên giấy truyền thống. Do đó, qua thời gian văn bản in giấy truyền thống đó không còn chất lượng tốt, cập nhật, sửa chữa, và trao đổi cũng gập nhiều khó khăn. Từ đó, nảy sinh vấn đề làm cách nào để khôi phục lại những thông tin của sách báo dưới dạng văn bản số để có thể cập nhật, tái bản hay để có thể lưu trữ lâu dài hơn. Việc khôi phục lại những thông tin được lưu trữ dưới dạng hình ảnh, điển hình từ cuốn từ điển la tinh tiếng Ba Na mang đến tầm quan trọng đối với tiếng Ba Na khi có thể lưu giữ và bảo tồn chúng dưới dạng văn bản số. Tuy nhiên việc chuyển đổi này không phải lúc nào cũng luôn mang đến sự chính xác tuyệt đối, điều đó dẫn đến xuất hiện những lỗi sai chính tả trong văn bản số làm cho kết quả không đạt như mong muốn. Mục đích của nghiên cứu này là thực hiện hậu xử lý cho quá trình trên nhằm cải tiến chất lượng cho văn bản số đầu ra từ bước chuyển đổi. Trong phạm vi của luận án, tôi thực hiện các cách tiếp cận sau: • Thực hiện chuyển đổi thông tin từ hình ảnh sang văn bản số dưới định dạng phù hợp gồm mục từ và thân từ như cuốn từ điển gốc. • Xây dựng bộ sửa lỗi dựa trên mô hình ngôn ngữ mức kí tự nhằm sửa lỗi chính tả cho tiếng Ba Na. Mở rộng thêm với những phương thức nhằm tăng cường khả năng sửa lỗi cho mô hình. • Đề xuất chiến lược cho mô hình ngôn ngữ trong việc đánh giá kí tự nguyên âm trên lỗi sai nhằm phù hợp với thực tế bài toán. Bên cạnh đó, dùng các kĩ thuật nghiệm suy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết quả tốt nhất. Kết quả thực nghiệm cho thấy mô hình đề xuất mang tính ứng dụng cao khi giúp cải thiện chất lượng cho kết quả thu được từ việc chuyển đổi hình ảnh sang văn bản trên cuốn từ điển Tiếng Ba Na. Sau cùng luận văn đưa ra hướng mở rộng cho đề tài khi có thể phát triển mô hình này nhằm đạt kết quả tốt hơn hoặc sử dụng vào những nghiên cứu khác liên quan đến sửa lỗi chính tả tiếng Ba Na. iii
MỤC LỤC LỜI CAM ĐOAN .................................................................................................................... i LỜI CẢM ƠN......................................................................................................................... ii TÓM TẮT ............................................................................................................................. iii DANH MỤC BẢNG BIỂU .................................................................................................. vii DANH MỤC HÌNH ẢNH ................................................................................................... viii CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU .......................................................... 1 1.1. Giới thiệu đề tài ...................................................................................................... 1 1.2. Mục tiêu và phạm vi đề tài .................................................................................... 2 1.2.1. Mục tiêu nghiên cứu ......................................................................................... 2 1.2.2. Phạm vi nghiên cứu .......................................................................................... 2 1.3. Tính ứng dụng của đề tài ...................................................................................... 2 1.4. Các công trình nghiên cứu liên quan ................................................................... 3 1.5. Thách thức của bài toán ........................................................................................ 4 1.6. Phương pháp nghiên cứu ...................................................................................... 4 1.7. Cấu trúc luận văn .................................................................................................. 5 TÓM TẮT CHƯƠNG 1 ......................................................................................................... 5 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ....................................................................................... 6 2.1. Cơ sở lý thuyết ........................................................................................................ 6 2.1.1. Đôi nét về người Ba Na .................................................................................... 6 2.1.2. Ngôn ngữ chữ BaNa ......................................................................................... 6 2.2. Tổng quan về Tesseract ......................................................................................... 7 2.2.1. Tiền xử lý hình ảnh ........................................................................................... 8 2.2.2. Thư viện Tesseract............................................................................................ 9 2.2.3. Cách Tesseract hoạt động ............................................................................... 10 2.2.4. Hạn chế của Tesseract .................................................................................... 10 2.2.5. Công cụ Pytesseract ........................................................................................ 11 2.3. Thư viện OpenCV ................................................................................................ 11 2.4. Mạng nơ-ron hồi quy (RNN)............................................................................... 13 2.4.1. Phân loại bài toán RNN .................................................................................. 16 2.4.2. Ứng dụng bài toán RNN ................................................................................. 16 2.4.3. Huấn luyện mạng RNN .................................................................................. 18 2.5. LSTM .................................................................................................................... 18 2.6. CNN ....................................................................................................................... 21 2.7. Tổng quan về thuật giải Heuristic ...................................................................... 25 2.8. Khoảng cách Levenshtein ................................................................................... 27 TÓM TẮT CHƯƠNG 2 ....................................................................................................... 29 iv
CHƯƠNG 3: HIỆN THỰC MÔ HÌNH ĐỀ TÀI.................................................................. 30 3.1. Thu thập dữ liệu ................................................................................................... 30 3.1.1. Xử lý trước hình ảnh ....................................................................................... 30 3.1.2. Các vấn đề cơ bản trong xử lý ảnh ................................................................. 30 3.2. Xây dựng mô hình đề xuất .................................................................................. 32 TÓM TẮT CHƯƠNG 3 ....................................................................................................... 36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................ 37 4.1. Thực hiện xử lý hình ảnh trước .......................................................................... 37 4.2. Thực hiện OCR .................................................................................................... 37 4.3. Đặc điểm lỗi .......................................................................................................... 39 4.4. Thực nghiệm sửa lỗi ký tự................................................................................... 41 4.5. Đánh giá kết quả .................................................................................................. 42 4.6. Một số hạn chế của mô hình ............................................................................... 45 TÓM TẮT CHƯƠNG 4 ....................................................................................................... 45 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ........................................................................ 46 5.1. Kết luận ................................................................................................................. 46 5.2. Hướng mở rộng đề tài.......................................................................................... 46 TÓM TẮT CHƯƠNG 5 ....................................................................................................... 47 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................................. 48 v
DANH MỤC TỪ VIẾT TẮT Từ tiếng Anh Diễn giải Từ viết tắt AI Artificial Intelligence Trí tuệ nhân tạo CNN Convolutional Neural Network Mạng nơ ron tích chập DL Deep Learning Học sâu HO Humanitarian Organization Tổ chức nhân đạo LM Language Model Mô hình hóa ngôn ngữ LSTM Long Short-Term Memory Bộ nhớ dài ngắn ML Machine Learning Học máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OpenCV Open Source Computer Vision Thị giác máy tính nguồn mỡ RNN Recurrent Neural Network Mạng nơ ron tái phát vi
DANH MỤC BẢNG BIỂU Bảng 4. 1 Các kí tự bị lỗi thường xuyên ....................................................................... 41 Bảng 4. 2: Kết quả so sánh ocr thô và heuristic ............................................................ 44 vii
DANH MỤC HÌNH ẢNH Hình 1. 3: Cuốn sách từ điển Ba Na – Ba Na .................................................................. 3 Hình 2. 2: Bộ bảng chữ cái Tiếng Ba Na (Nguồn tác giả) .............................................. 7 Hình 2. 3: OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số .............................. 8 Hình 2. 4: Quá trình OCR (Optical Character Recognition process) .............................. 8 Hình 2. 5: Kiến trúc Tesseract OCR .............................................................................. 10 Hình 2. 6: Mô hình mạng Neural Network thông thường ............................................. 14 Hình 2. 7: Kiến trúc cơ bản mạng RNN ........................................................................ 14 Hình 2. 8: Các dạng bài toán RNN ................................................................................ 16 Hình 2. 9: Mô hình dịch máy......................................................................................... 17 Hình 2. 10: Kiến trúc của LSTM ................................................................................... 18 Hình 2. 11: LSTM – cổng forget ................................................................................... 20 Hình 2. 12: LSTM – cổng input và lớp tanh ................................................................. 20 Hình 2. 13: LSTM – cập nhật trạng thái tế bào (cell state) .......................................... 21 Hình 2. 14: LSTM – lớp output ..................................................................................... 21 Hình 2. 15: Mô hình cấu trúc CNN ............................................................................... 23 Hình 2. 16: Mô hình nhận dạng object CNN ................................................................ 25 Hình 2. 17: Khoảng cách Levenshtein giữa hai chuỗi a và b ........................................ 28 Hình 3. 1 Ảnh thu nhận và ảnh mong muốn ................................................................. 31 Hình 3.2: Mô hình công cụ Tesseract OCR nhận dạng văn bản hình ảnh .................... 32 Hình 3. 3: Mô hình Tesseract tiếng Việt ....................................................................... 33 Hình 3. 6: Thuật toán heuristic sửa lỗi kí tự .................................................................. 35 Hình 3. 7: Mô hình nhận dạng văn bản hình ảnh tiếng Ba Na ...................................... 35 Hình 4. 1: Kết quả đạt được sau khi xử lý hình ảnh ...................................................... 37 Hình 4. 2: Quá trình OCR cho việc thực hiện cuốn từ điển Tiếng Ba Na..................... 37 Hình 4. 3: Kết quả đạt được sau khi OCR thô ............................................................... 38 Hình 4. 4: Thống kê lỗi sau khi sử dụng Tesseract ...................................................... 39 Hình 4. 5: Trực quan hóa trước và sau khi heuristic dữ liệu từ điển tiếng Ba Na......... 40 Hình 4. 6: Tập hợp các lỗi thay thế ............................................................................... 41 Hình 4. 7: Kết quả đạt được sau khi sửa lỗi kí tự .......................................................... 42 Hình 4. 8: Biểu đồ trực quan hóa so sánh ocr thô và heuristic ...................................... 44 viii
Hình 4. 9: Trực quan hóa kết quả test trên 4 tập dữ liệu ............................................... 45 ix
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1. Giới thiệu đề tài Ngày nay, bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số là cấp thiết để giữ gìn bản sắc văn hóa, thực hiện quyền bình đẳng giữa các dân tộc. Nhưng các các loại sách báo, tư liệu về tiếng nói, chữ viết của các dân tộc thiểu số lại không nhiều, hoặc có thì lại được in trên giấy truyền thống. Do đó, qua thời gian văn bản in giấy truyền thống đó không còn chất lượng tốt, cập nhật, sửa chữa, và trao đổi cũng gập nhiều khó khăn. Từ đó, nảy sinh vấn đề làm cách nào để khôi phục lại những thông tin của sách báo dưới dạng văn bản số để có thể cập nhật, tái bản hay để có thể lưu trữ lâu dài hơn. Đây là một nhiệm vụ thực tế trong nhiều lĩnh vực, chẳng hạn như trong các thư viện và nhà xuất bản. Có một số cách khác nhau để giải quyết bài toán chuyển đổi trên. Một biện pháp dễ thực hiện nhất là nhập lại nội dung của văn bản thông qua bàn phím. Mặc dù vậy, đây là một công việc thủ công trong thao tác chế bản nên nếu số lượng văn bản là quá lớn và mất nhiều thời gian sẽ dẫn tới nhiều sai sót. Giải pháp khác là tạo ra một chương trình nhận dạng văn bản tự động. Theo hướng này, từ điển, sách, báo, … được máy quét lưu trữ dưới dạng ảnh số, chương trình có chức năng nhận dạng ký tự, từ đó chuyển đổi thành văn bản số. Tuy nhiên việc chuyển đổi này không phải lúc nào cũng luôn mang đến sự chính xác 100%, điều đó dẫn đến xuất hiện những lỗi sai chính tả trong văn bản số làm cho kết quả không đạt như mong muốn. Vì vậy việc thực hiện hậu xử lý (post-processing) cho quá trình trên là một công việc quan trọng và cần thiết để cải tiến chất lượng cho văn bản số đầu ra từ bước chuyển đổi. Nhận thấy việc ứng dụng công việc trên cho một bộ từ điển tiếng Ba Na là một chủ đề đáng được quan tâm, qua tìm hiểu và nghiên cứu tôi xin thực hiện đề tài : Nhận dạng chữ Ba Na trên văn bản hình ảnh. Đề tài này sẽ tìm hiểu tổng quan cách tiếp cận dựa trên các kĩ thuật Học Sâu (Deep Learning) để giải bài toán. Trong đó bên cạnh khả năng áp dụng công nghệ nhận dạng ký tự quang học (OCR – Optical Character Recognition) giúp chuyển đổi chữ viết, văn bản số từ hình ảnh, thì bước tìm hiểu các phương pháp xử lý ngôn ngữ tiếng Ba Na và sử dụng mô hình ngôn ngữ để sửa lỗi chính tả là phần công việc chính yếu cần hướng đến. Từ đó đưa ra cách tiếp cận, xây dựng chiến lược phù hợp ở công việc hậu xử lý nhằm giúp giảm độ lỗi của quá trình OCR ban đầu. 1
1.2. Mục tiêu và phạm vi đề tài 1.2.1. Mục tiêu nghiên cứu Mục tiêu của đề tài này là tìm hiểu phương thức trích xuất thông tin từ hình ảnh để sinh ra ký tự, văn bản số thông qua việc nhận dạng ký tự quang học (OCR) cho tiếng Ba Na. Ở bước sau trích xuất, đề xuất kỹ thuật huấn luyện mô hình ngôn ngữ để sửa sai lỗi chính tả kí tự trên văn bản được sinh ra. Sau cùng, thực hiện việc so sánh kết quả ở bước trích xuất thông tin văn bản từ hình ảnh và kết quả sau khi qua mô hình sửa lỗi để áp dụng mô hình đạt hiệu quả nhất. Tổng quát lại, mục tiêu của đề tài bao gồm: • Đề xuất và huấn luyện mô hình sửa lỗi cho bước hậu xử lý. • Thực hiện các thử nghiệm và so sánh kết quả trước và sau khi qua mô hình sửa lỗi. • Áp dụng được mô hình sửa lỗi chính tả trong tiếng Ba Na. 1.2.2. Phạm vi nghiên cứu Đề tài này tập trung vào 3 vấn đề nghiên cứu sau: • Tiền xử lý trên tập hình ảnh được quét từ bộ từ điển tiếng Ba Na có sẵn giúp trích xuất thông tin theo định dạng phù hợp với yêu cầu. • Đề xuất và huấn luyện mô hình sửa lỗi ban đầu. • Áp dụng mô hình kết hợp với những phương thức hỗ trợ để sửa lỗi chính tả cho những định dạng thịnh hành nhất. So sánh kết quả cũng như lựa chọn mô hình thịnh hành nhất giúp đem lại kết quả tốt nhất cho bài toán. Phần chính của luận văn này sẽ tập trung vào mô hình sửa lỗi, các phương pháp giúp tăng cường hiệu suất của mô hình sửa lỗi. Do đó luận văn sẽ không tập trung nhiều về việc áp dụng các kĩ thuật để cải thiện độ chính xác ở bước nhận dạng kí tự quang học OCR cũng như phương thức giúp phát hiện lỗi trong văn bản được sinh ra. 1.3. Tính ứng dụng của đề tài Đề tài này giúp bản thân tôi củng cố được kiến thức khoa học trong việc nghiên cứu về mô hình nhận dạng văn bản hình ảnh bằng kỹ thuật Học Sâu Deep Learning. Thông qua đó tôi có thể ứng dụng được các phương pháp “state of the art” - thịnh hành 2
nhất - vào mô hình để xử lý cho ngôn ngữ cụ thể là tiếng Ba Na giúp mang tính ứng dụng vào thực tiễn. Với việc nghiên cứu và xử lý trực tiếp trên cuốn Từ Điển Tiếng Ba Na (Bơhnar Kriêm do Sở Khoa học và Công nghệ (Ủy ban nhân dân tỉnh Bình Định) và Viện Ngôn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện), tôi đã có thể thực hiện một đề tài với tính ứng dụng cao giúp đóng góp vào việc bảo tồn ngôn ngữ dân tộc và bảo tồn văn bản số cho từ ngữ tiếng Ba Na thông qua cuốn từ điển này. Ngoài ra, việc thực hiện mô hình sửa lỗi này có tính tổng quát cao và có thể được dùng lại cho các nghiên cứu liên quan về xử lý ngôn ngữ tiếng Ba Na sau này. Hình 1. 3: Cuốn sách từ điển Ba Na – Ba Na 1.4. Các công trình nghiên cứu liên quan • Training TESSERACT Tool for Amazigh OCR KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED OUMSIS Laboratory of research in Informatics and Telecommunications, Faculty of Sciences – Rabat, Mohammed V University, Rabat, MOROCCO CEISIC, The Royal Institute of Amazigh Culture, Rabat, MOROCCO Department of Computer Science, School of Technology-Sale, Mohammed V University, Sale MOROCCO – [1] Trong bài báo này, quan tâm đến nhận dạng ký tự quang học của tài liệu, là một lĩnh vực nghiên cứu hoạt động ngày nay. Bài báo giới thiệu hệ thống OCR và các thành phần của nó. Sau đó, bài báo đã trình bày ngôn ngữ Amazigh. Với thành công mà công cụ Tesseract có được chấp thuận, tác giả 3
đã chọn áp dụng nó cho Amazigh ngôn ngữ phiên âm sang tiếng Latinh. Ngôn ngữ này chưa được khám phá sâu về OCR. • On the Use of Machine Translation-Based Approaches for Vietnamese Diacritic Restoration – [2] Trong bài báo này, tác giả tiếp cận theo hướng sử dụng mô hình dịch máy nhằm khôi phục lại dấu phụ cho tiếng Việt. Ý tưởng chính của phương pháp này là coi văn bản không dấu như ngôn ngữ nguồn và văn bản có dấu như ngôn ngữ đích trong công thức dịch máy.Tác giả có đề cập và sử dụng một mô hình sequence- to-sequence là sự kết hợp của hai mạng nơ-ron hồi quy (RNN – Recurrent Neural Network).Việc hiện thực mô hình này mang tính hiệu quả cao cho ứng dụng sửa lỗi chính tả tiếng Ba Na trong trường hợp mất dấu hoặc thiếu dấu, tuy nhiên sẽ không sửa được những lỗi sai khác phức tạp hơn. • A Vietnamese Language Model Based on Recurrent Neural Network - [3] Bài báo này nghiên cứu mô hình mạng nơ-ron hồi quy (RNNs – Recurrent Neural Networks) cho tiếng Việt, ở cấp độ ký tự và âm tiết. Các thí nghiệm được thực hiện dựa trên một tập dữ liệu lớn gồm 24 triệu âm tiết và xây dựng từ 1.500 phụ đề phim. Bài báo cho thấy kết quả đạt được hiệu suất tốt hơn trong việc sử dụng mô hình ngôn ngữ dựa trên mạng nơ-ron hồi quy so với mô hình ngôn ngữ dựa trên xác suất truyền thống. Những cách tiếp cận trong bài báo này gợi mở cho tôi nhiều ý tưởng hơn trong việc xử lý, giải quyết bài toán của mình. 1.5. Thách thức của bài toán Hiện tại tập dữ liệu hình ảnh lưu trữ là bản quét toàn bộ cuốn từ điển Tiếng Ba Na nên chất lượng hình ảnh không được rõ nét, văn bản có trang bị nghiêng lệch, một số chỗ bị mờ, lem, không rõ ràng. Từ đó ảnh hưởng đến kết quả đầu ra chưa tốt, còn gặp tương đối nhiều lỗi của bước nhận dạng kí tự quang học trên cuốn từ điển này, ví dụ: cùng một kí tự nhưng lại được nhận dạng lỗi thành nhiều kí tự khác. Ngoài ra, Tiếng Ba Na theo mẫu la tinh chưa được nghiên cứu nhiều và chưa được hỗ trợ công nghệ nhận dạng kí tự nên bước nhận dạng kí tự quang học gặp tương đối nhiều lỗi. Điều này dẫn đến việc phát hiện lỗi gặp rất nhiều khó khăn. 1.6. Phương pháp nghiên cứu Trong quá trình nghiên cứu và thực hiện đề tài, tôi sẽ tập trung vào việc sửa lỗi chính tả kí tự trên văn bản số đầu ra sau bước nhận dạng kí tự quang học thay vì thực 4
hiện đồng thời cả 2 bước phát hiện lỗi chính tả rồi sau đó sửa lỗi chính tả. Tôi sẽ thực hiện tô đỏ những lỗi sai trên văn bản số đầu ra để đánh dấu vị trí lỗi. Tiếp đến, tôi sẽ tiếp cận bằng cách sử dụng mô hình ngôn ngữ được xử lý ở mức kí tự để phù hợp cho bài toán. Ngoài ra, tôi còn dùng các phương pháp hỗ trợ nhằm chọn ra phương pháp phù hợp với kết cấu của từng loại từ trong cuốn từ điển đồng thời đánh giá kết quả để chọn lựa phương thức đạt hiệu suất sửa lỗi tốt nhất. 1.7. Cấu trúc luận văn Những nội dung chi tiết hơn trong quá trình thực hiện đề tài sẽ được trình bày có 5 chương: • CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU. • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT • CHƯƠNG 3: HIỆN THỰC MÔ HÌNH NGHIÊN CỨU • CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ • CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ TÓM TẮT CHƯƠNG 1 Chương 1, giới thiệu tổng quan toàn bộ nội dung đề tài “Nhận dạng chữ Ba Na trên văn bản hình ảnh” gồm: mục tiêu và phạm vi đề tài, tính ứng dụng của đề tài, các công trình nghiên cứu liên quan, thách thức của bài toán, Phương pháp nghiên cứu và cấu trúc luận văn. 5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1. Cơ sở lý thuyết 2.1.1. Đôi nét về người Ba Na Người Ba Na (Bahnar; các tên gọi khác: Jơ Lơng, Rơ Ngao, Glar, Tơ Lô, Bơ Nâm, Krem, Roh, Con Kde) là một dân tộc trong số 54 dân tộc tại Ba Na Nam. - [4] Người Ba Na cư trú chủ yếu ở vùng Tây Nguyên và cao nguyên trung phần Ba Na Nam, có dân số xấp xỉ 287 nghìn người năm 2019. Theo tổng điều tra dân số và nhà ở người Ba Na ở Ba Na cư trú tại 51 trên tổng số 63 tỉnh, thành phố. Người Ba Na cư trú tập trung tại các tỉnh: • Gia Lai (104.997 người, chiếm 11,8% dân số toàn tỉnh và 45,9% tổng số người Ba Na tại Ba Na Nam), • Kon Tum (99.416 người, chiếm 12,5% dân số toàn tỉnh và 43,7% tổng số người Ba Na tại Ba Na Nam), • Bình Định (18.175 người, chiếm 8,0% tổng số người Ba Na tại Ba Na Nam), • Phú Yên (4.145 người, chiếm 1,8 % tổng số người Ba Na tại Ba Na Nam). Người Ba Na có nhiều tên gọi khác nhau theo nơi cư trú hay phong tục tập quán mỗi vùng. Người Ba Na là dân tộc bản địa Ba Na Nam có từ lâu đời tập trung ở các vùng Tây Nguyên điển hình là hai tỉnh Kon Tum, Gia Lai đây được coi là bản địa cũng như địa bàn cư trú của người Ba Na Tại Mỹ có một số người Ba Na nhập cư theo diện HO. Tiếng Ba Na liên quan đến tiếng Kinh. Người Ba Na nói tiếng Ba Na thuộc Ngữ chi Ba Na là một ngôn ngữ thuộc Ngữ hệ Nam Á (hay còn gọi ngôn ngữ Môn-Khmer), cùng với đó là Ngữ chi Ba Na và Ngữ chi Ba Na-Mường được xếp vào ngôn ngữ Môn-Khmer. 2.1.2. Ngôn ngữ chữ BaNa Tiếng Ba Na là ngôn ngữ của người Ba Na, sắc tộc thiểu số ở miền trung Ba Na Nam. – [4] (Theo Bách khoa toàn thư mở Wikipedia) 6
Tiếng Ba Na còn ít được nghiên cứu. Hiện nó được xếp loại là nhóm Bắc Ba Na, thuộc Ngữ chi Bahnar, Ngữ hệ Nam Á. Ngôn ngữ này có 9 nguyên âm về chất, hơn nữa còn phân biệt độ dài nguyên âm. Năm 1861, chữ Ba Na viết theo mẫu tự la tinh. Hình 2. 1: Bộ bảng chữ cái Tiếng Ba Na (Nguồn tác giả) 2.2. Tổng quan về Tesseract Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và thị giác máy tính - [6] . Đây là một công nghệ phổ biến để nhận dạng văn bản bên trong hình ảnh, chẳng hạn như tài liệu và ảnh được quét. Công nghệ OCR được sử dụng để chuyển đổi hầu như bất kỳ loại hình ảnh nào có chứa văn bản viết (đánh máy, viết tay hoặc in) thành dữ liệu văn bản có thể đọc được bằng máy. Những dữ liệu được sinh ra từ việc nhận dạng ký tự quang học có thể được sử dụng cho rất nhiều việc, ví dụ như: số hóa các văn bản, tài liệu cũ, sách báo, dịch sang các ngôn ngữ khác, hoặc kiểm tra và xác minh vị trí văn bản,… Công nghệ OCR trở nên phổ biến vào đầu những năm 1990 khi cố gắng số hóa các tờ báo lịch sử. Kể từ đó, công nghệ đã trải qua một số cải tiến. Ngày nay, các giải pháp cung cấp độ chính xác OCR gần như hoàn hảo. 7
Một ví dụ về OCR như hình dưới : Hình 2. 2: OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số OCR là một quy trình thường bao gồm một số quy trình phụ để thực hiện chính xác nhất có thể [7]. Các quy trình phụ thường bao gồm: 2.2.1. Tiền xử lý hình ảnh • Cục bộ hóa văn bản: phân tách tài liệu các yếu tố (dòng, từ, ký tự ...) • Phân đoạn ký tự: xác định các tính năng đặc trưng cho các phần tử được phân cách của một tài liệu. • Nhận dạng ký tự: nhận biết và xác định từng phần tử. Nó được thực hiện dựa trên các tính năng được trích xuất. • Hậu xử lý: Nó có thể là tự động hoặc thủ công Tất nhiên, các quy trình phụ trong danh sách trên có thể khác nhau, nhưng đây là những bước gần như cần thiết để tiếp cận nhận dạng ký tự tự động. Trong phần mềm OCR, mục đích chính là xác định và nắm bắt tất cả các từ duy nhất bằng các ngôn ngữ khác nhau từ các ký tự văn bản viết. Hình 2. 3: Quá trình OCR (Optical Character Recognition process) 8
Nguồn: [7] 2.2.2. Thư viện Tesseract Tesseract - một công cụ OCR mã nguồn mở đang phổ biến hiện nay. Nó giúp tiết kiệm thời gian và công sức của con người. Nó hoạt động tự động trích xuất văn bản từ một hình ảnh, tồn tại trong nhiều loại phông chữ và bị bóp méo theo mọi cách. Nhận dạng ký tự quang học (OCR), ban đầu được phát triển tại Hewlett Packard từ năm 1984 đến năm 1994, là một nguồn mở (theo Giấy phép Apache 2.0) quang ngoại tuyến công cụ nhận dạng ký tự. Bristol, lần đầu tiên bắt đầu phát triển Tesseract như một dự án nghiên cứu tiến sĩ trong HP Labs. Năm 1995, Tesseract được gửi đến Đại học Nevada, Les Vegas (UNLV). Đến năm 2005, Tesseract đã được phát hành bởi Hewlett Packard và Đại học Nevada, Las Vegas và hiện tại nó được tài trợ và duy trì một phần bởi Google. Tesseract với phiên bản 3.x khi nó bắt đầu hỗ trợ nhiều định dạng hình ảnh và dần dần bổ sung một số lượng lớn các tập lệnh (ngôn ngữ). Tesseract 3.x dựa trên các thuật toán thị giác máy tính truyền thống. Trong vài năm qua, các phương pháp dựa trên Deep Learning đã vượt qua các kỹ thuật máy học truyền thống nhờ một lợi nhuận rất lớn về độ chính xác trong nhiều lĩnh vực của Thị giác máy tính. Nhận dạng chữ viết tay là một trong những ví dụ nổi bật. Đến phiên bản 4.x trở đi, Tesseract đã triển khai một công cụ nhận dạng dựa trên Bộ nhớ Ngắn hạn Dài hạn (LSTM). LSTM là một loại Mạng thần kinh tái diễn (RNN). 9