Mã nguồn mở Tesseract
-
Mục tiêu nghiên cứu của đề tài này là áp dụng thư viện mã nguồn mở Tessaract tạo ra bộ dữ liệu từ điển tiếng Việt và tiếng Anh, từ đó khôi phục văn bản tiếng Anh và Việt thông qua máy quét. Mời các bạn cùng tham khảo!
43p bobietbay 22-12-2021 26 7 Download
-
Bài viết trình bày đề xuất phương pháp tiền xử lý ảnh và hậu xử lý tiếng Việt áp dụng cho quá trình nhận dạng ký tự quang học bằng thư viện mã nguồn mở Tesseract. Xây dựng một ứng dụng trên hệ điều hành Android và áp dụng kết quả nghiên cứu cho các danh thiếp tiếng Việt. Mời các bạn cùng tham khảo!
13p wangxinling 23-07-2021 40 6 Download
-
Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn bản từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy.
7p quaymax4 05-09-2018 68 5 Download
-
Báo cáo đồ án thực tập tốt nghiệp với đề tài "Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở tesseract OCR" được thực hiện nhằm mục đích tìm hiểu, chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh. Kết cấu của luận văn gồm 3 chương và Kết luận, cụ thể: Chương 1 - Tổng quan về đề tài, chương 2 - Tìm hiểu hệ thống mã nguồn mở Tesseract OCR, chương 3 - Xây dựng chương trình nhận dạng văn bản tiếng Việt sử dụng thư viện Tesseract OCR.
44p change04 26-05-2016 481 86 Download
-
Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử lý ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy.
7p votinhdon91 28-08-2014 174 24 Download
-
Trình bày kiến thức tổng quan về lĩnh vực OCR (Optical Character Recognition) - Lĩnh vực nhận dạng ký tự quang học. Tìm hiểu nội dung về công nghệ mã nguồn mở Tesseract OCR, công nghệ Android, mô hình client/server, công nghệ dịch Google Translate. Các công nghệ, mô hình này được sử dụng để xây dựng hệ thống. Giới thiệu kiến trúc và các thành phần cơ bản của hệ thống nhận dạng và dịch trên thiết bị di động đã xây dựng. Trình bày kết quả thực nghiệm chức năng rút trích thông tin từ ảnh của hệ...
5p banhbeovodung 20-06-2013 173 30 Download