Thư viện Tesseract
-
Bài báo "Nhận dạng tiếng Việt trên hệ điều hành android" giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%.
13p xuanphongdacy09 29-09-2024 1 1 Download
-
Mục tiêu của đề tài "Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh" là tìm hiểu phương thức trích xuất thông tin từ hình ảnh để sinh ra ký tự, văn bản số thông qua việc nhận dạng ký tự quang học (OCR) cho tiếng Ba Na. Ở bước sau trích xuất, đề xuất kỹ thuật huấn luyện mô hình ngôn ngữ để sửa sai lỗi chính tả kí tự trên văn bản được sinh ra.
67p dongcoxanh2510 25-10-2022 13 5 Download
-
Mục tiêu nghiên cứu của đề tài này là áp dụng thư viện mã nguồn mở Tessaract tạo ra bộ dữ liệu từ điển tiếng Việt và tiếng Anh, từ đó khôi phục văn bản tiếng Anh và Việt thông qua máy quét. Mời các bạn cùng tham khảo!
43p bobietbay 22-12-2021 26 7 Download
-
Bài viết trình bày đề xuất phương pháp tiền xử lý ảnh và hậu xử lý tiếng Việt áp dụng cho quá trình nhận dạng ký tự quang học bằng thư viện mã nguồn mở Tesseract. Xây dựng một ứng dụng trên hệ điều hành Android và áp dụng kết quả nghiên cứu cho các danh thiếp tiếng Việt. Mời các bạn cùng tham khảo!
13p wangxinling 23-07-2021 40 6 Download
-
Báo cáo đồ án thực tập tốt nghiệp với đề tài "Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở tesseract OCR" được thực hiện nhằm mục đích tìm hiểu, chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh. Kết cấu của luận văn gồm 3 chương và Kết luận, cụ thể: Chương 1 - Tổng quan về đề tài, chương 2 - Tìm hiểu hệ thống mã nguồn mở Tesseract OCR, chương 3 - Xây dựng chương trình nhận dạng văn bản tiếng Việt sử dụng thư viện Tesseract OCR.
44p change04 26-05-2016 481 86 Download