Review các phương pháp nhận dạng văn bản

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

24
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu cung cấp một bức tranh tổng thể về các kỹ thuật dùng trong nhận dạng văn bản. Nhận dạng văn bản được chia thành các bài toán con. Các kỹ thuật được dùng để giải quyết các bài toán con được trình bày. Các nghiên cứu mới nhất từ năm 2015 đến nay được tổng hợp, đánh giá.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Review các phương pháp nhận dạng văn bản

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Review các phương pháp nhận dạng văn bản Nông Thị Hoa, Nguyễn Duy Minh, Nông Thị Lý Trường Khoa học máy tính, Đại học Duy Tân Trường ĐH CNTT &TT, ĐH Thái Nguyên Trường ĐH Hùng Vương Email: nongthihoa@duytan.edu.vn, ndminh@ictu.edu.vn, nongthily@hvu.edu.vn Abstract— Phát hiện, nhận dạng văn bản trong ảnh và Nhận dạng văn bản được chia thành các bài toán con. video có một số lượng lớn các ứng dụng trong cuộc sống Với mỗi bài toán con, các kỹ thuật được dùng để giải hàng ngày. Để xây dựng được một ứng dụng nhận dạng quyết các bài toán con được trình bày. Các nghiên cứu văn bản tốt, chúng ta cần có một hiểu biết đầy đủ về các mới nhất từ năm 2015 đến nay được tổng hợp, đánh tri thức và các kỹ thuật được dùng để thực hiện từng giá. Dựa vào việc so sánh, đánh giá kết quả nhận dạng bước xử lý trong ứng dụng. Hiện nay, có rất ít bài báo văn bản trong các nghiên cứu mới, chúng tôi đưa ra các tổng hợp các nghiên cứu mới nhất về nhận dạng văn bản. gợi ý cho việc lựa chọn một mô hình phù hợp với một Trong bài báo này, chúng tôi cung cấp một bức tranh ứng dụng cụ thể. Cuối cùng, các thách thức lớn trong tổng thể về các kỹ thuật dùng trong nhận dạng văn bản. nhận dạng văn bản được mô tả để các kỹ sư xây dựng Nhận dạng văn bản được chia thành các bài toán con. Các kỹ thuật được dùng để giải quyết các bài toán con ứng dụng cải tiến hiệu quả và hiệu suất của ứng dụng. được trình bày. Các nghiên cứu mới nhất từ năm 2015 Phần còn lại của bài báo được tổ chức như sau: đến nay được tổng hợp, đánh giá. Dựa vào việc so sánh, trong Phần II, trình bày các kiến thức cơ bản về bài đánh giá kết quả nhận dạng văn bản trong các nghiên toán nhận dnagj văn bản. Phần III tổng hợp các kết quả cứu mới, chúng tôi đưa ra các gợi ý cho việc lựa chọn một mô hình phù hợp với một ứng dụng cụ thể. Cuối nghiên cứu mới nhất. Các kỹ thuật được dùng để giải cùng, các thách thức lớn trong nhận dạng văn bản được quyết các bài toán con được trình bày trong Phần IV. mô tả để các kỹ sư xây dựng ứng dụng cải tiến hiệu quả Phần V trình bày kết quả nhận dạng của các mô hình và hiệu suất của ứng dụng. mới nhất để đưa ra các gợi ý cho việc chọn một mô hình phù hợp với một ứng dụng cụ thể. Phần VI mô tả Keywords-. phát hiện văn bản, nhận dạng văn bản, một số thách thức trong nhận dạng văn bản cần được nhận dạng từ, nhận dạng kí tự, phân tích ảnh giải quyết. Cuối cùng, Phần VII trình bày một số kết luận. I. GIỚI THIỆU II. BÀI TOÁN NHẬN DẠNG VĂN BẢN Nhận dạng văn bản là một chủ đề nghiên cứu hấp dẫn do sự tiến bộ của khoa học công nghệ. Ba lý do A. Phát biểu bài toán chính gồm nhu cầu về các ứng dụng nhận dạng văn bản tăng nhanh, việc nhận dạng văn bản xảy ra mọi lúc, Văn bản trong ảnh có thể chia thành hai loại chính mọi nơi do các thiết bị di động có khả năng chụp ảnh gồm (i) văn bản được in ở dạng ngay ngắn, ko bị méo và tính toán nhanh, công nghệ nhận dạng mẫu và nhìn hay xô lệch như văn bản in bằng máy, văn bản là chú máy phát triển nhanh và giải quyết tốt nhiều vấn đề thích, phụ đề trong hình ảnh, và (ii) văn bản có dạng xô thách thức. lệch, biến dạng, bị mất một phần thông tin… như văn bản trên biển hiệu, gói hàng, quần áo. Loại thứ hai là Hiện nay, việc nhận dạng các ký tự quang trên nền văn bản trong cảnh tự nhiên. Hình 1 trình bày ví dụ về trắng như quét mã vạch, scan bài báo đã đạt được độ các dạng văn bản trong ảnh. chính xác cao do không có nhiễu của cảnh nền, các ký tự không bị méo và được xếp thẳng hàng. Tuy nhiên, Nhận dạng văn bản trong cảnh tự nhiên được quan việc nhận dạng văn bản trên cảnh nền phức tạp, bố cục tâm nhiều hơn do hướng nghiên cứu này còn nhiều văn bản xô lệch, văn bản ở nhiều font chữ khác nhau, thách thức và có nhiều ứng dụng thực tế ánh sáng trong ảnh không đồng đều, độ phân giải ảnh thấp và nội dung trình bày trong nhiều ngôn ngữ là các thách thức lớn. Để giải quyết các thách thức đó, các công nghệ tiên tiến trong nhìn máy và nhận dạng mẫu cần được áp dụng. Để xây dựng được một ứng dụng nhận dạng văn (a) (b) bản tốt, chúng ta cần có một hiểu biết đầy đủ về các tri thức và các kỹ thuật được dùng để thực hiện từng bước Hình 1. Các ảnh mẫu chứa văn bản. Hình 1(a) là văn bản xử lý trong ứng dụng. Hiện nay, có rất ít bài báo tổng được in thẳng hàng, ngay ngắn. Hình 1(b) là văn bản bị xô hợp các nghiên cứu mới nhất về nhận dạng văn bản. lệch do góc chụp ảnh và xuất hiện đan xen trong cảnh tự Trong bài báo này, chúng tôi cung cấp một cái nhìn nhiên. tổng thể về các kỹ thuật dùng trong nhận dạng văn bản. ISBN 978-604-80-5958-3 345
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) B. Quá trình phát hiện và nhận dạng văn bản Hệ thống phát hiện và nhận dạng văn bản hoàn chỉnh thường dùng hai phương pháp chính gồm làm III. CÁC NGHIÊN CỨU LIÊN QUAN từng bước và tích hợp [1]. Hình 2(a) thể hiện phương Max Jaderberg và đồng nghiệp [2] đề xuất một kiến pháp làm từng bước bằng cách tách riêng bước phát trúc dựa trên mạng nơ-ron tích hợp (CNN) kết hợp mô hiện và bước nhận dạng. Phương pháp tích hợp thực hình đồ thị Trường ngẫu nhiên có điều kiện hiện theo cách pha phát hiện và pha nhận dạng chia sẻ (Conditional Random Field) để nhận dạng các từ trong thông tin với pha phân loại ký tự như được trình bày ảnh tự nhiên. Hệ thống dùng một CNN dự đoán các ký trong Hình 2(b). tự ở mỗi vị trí trong ảnh vào và dùng một CNN khác với mô hình ngôn ngữ N-gram để nhận dạng từ. Mạng được tối ưu bằng kỹ thuật lan truyền ngược để đạt mức lỗi nhất định và được huấn luyện trên dữ liệu tổng hợp. Các thực nghiệm được làm trên các bộ dữ liệu chuẩn: ICDAR 2003, ICDAR 2013, Street View Text và IIIT5k. Độ chính xác đạt 97.8% đối với tập dữ liệu nhỏ và 89.6% đối với tập dữ liệu lớn. Baoguang Shi và đồng nghiệp [3] đưa ra một mô hình mạng nơ-ron mới có kiến trúc đặc biệt để nhận Hình 2. Hai phương pháp phát hiện và nhận dạng văn bản dạng chuỗi văn bản. Mô hình mạng nơ-ron đề xuất là thường được dùng gồm (a) Phương pháp làm từng bước và sự kết hợp của DCNN và RNN. Kiến trúc mạng gồm (b) Phương pháp tích hợp. ba phần: (i) các lớp phức hợp để trích xuất các đặc trưng từ ảnh vào; (ii) các lớp lặp hồi quy để dự đoán Một số phương pháp làm từng bước lấy phản hồi từ một nhãn cho mỗi frame; (iii)) lớp phiên dịch để bước nhận dạng văn bản về bước phát hiện để cải tiến chuyển các dự đoán nhãn trên mỗi frame thành đoạn khả năng phát hiện vùng ảnh chứa văn bản. Một số văn bản ra. Các thực nghiệm được làm trên bốn bộ dữ phương pháp tích hợp sử dụng bước tiền xử lý để xác liệu chuẩn gồm ICDAR 2003, ICDAR 2013, IIIT 5k- định vùng quan tâm. Sự khác biệt chính là phương word, Street View Text. Độ chính xác đạt 98.7% đối pháp tích hợp lấy nhận dạng văn bản làm trọng tâm xử với tập dữ liệu nhỏ và đạt 94.4% đối với tập dữ liệu lý. lớn. C. Các ứng dụng Mohamed Yousef và đồng nghiệp [4] đề xuất một mạng nơ-ron mới và đơn giản để nhận dạng văn bản. Các ứng dụng liên quan đến nhận dạng văn bản Kiến trúc được đề xuất là một CNN tổng hợp gồm các trong ảnh và video có thể chia thành ba nhóm gồm thu tầng phân tách theo chiều sâu với các kết nối giữa các thập thông tin trong multimedia, truy cập và nhập dữ lớp. Việc huấn luyện dựa trên hàm mất mát CTC. Các liệu trực quan, và tự động hóa công nghiệp [1]. kỹ thuật tăng dữ liệu phù hợp với nhiệm vụ nhận dạng Thu thập thông tin trong multimedia: Văn bản văn bản và cho biết sự ảnh hưởng của tăng dữ liệu đến trong hình ảnh web liên quan đến nội dung của trang hiệu suất của hệ thống cùng được trình bày. Các thực web. Phụ đề video thường chú thích thông tin về địa nghiệm được làm trên các bộ dữ liệu chuẩn: điểm, thời gian và những người tham gia của các sự CAPTCHA, SVHN, IAM, KHATT, UW3, AOLP, kiện đang xảy ra. Nhận dạng văn bản và trích xuất từ READ. Độ chính xác cao nhất đạt 97.6% trên AOLP. khóa trong multimedia giúp tăng cường khả năng hiểu R. Messina và J. Louradour [5] trình bày việc sử nội dung của multimedia. dụng mạng nơ-ron hồi quy dựa trên bộ nhớ đa chiều để Truy cập và nhập dữ liệu trực quan: Hiện nay, nhận dạng các dòng văn bản viết tay của Trung Quốc. nhiều thiết bị di động có khả năng chụp ảnh kỹ thuật số Mạng nơ ron đề xuất không tách riêng từng ký tự để nhanh và có độ nét cao nên số lượng dữ liệu ảnh tăng tránh các lỗi tách sai ký tự làm ảnh hưởng đến kết quả nhanh. Với một chương trình nhúng, thiết bị di động có nhận dạng. Các thực nghiệm được làm trên các bộ dữ thể tự động nhập thẻ nhân viên, quét mã QR, nhận diện liệu chuẩn: ICDAR 2013, CASIA. Độ chính xác cao mã vạch trên hàng hóa mà không phải nhập dữ liệu từ nhất đạt 90.2% . bàn phím. Vì vậy, việc nhập dữ liệu diễn ra nhanh và J. Serrano và A. Gordo [6] đề xuất nhúng nhãn từ hiệu quả hơn. và hình ảnh từ vào một không gian Euclide chung. Với Tự động hóa công nghiệp: Nhận dạng văn bản một hình ảnh từ, nhận dạng được thực hiện như một trên bao bì, đồ đạc, nhà cửa và bản đồ được ứng dụng cách tìm nhãn từ gần nhất trong không gian này. rộng rãi trong công nghiệp. Nhận dạng địa chỉ trên Không gian chung này được học bằng một mô hình phong bì để phân loại thư. Nhận dạng tự động số hiệu SVM để các cặp nhãn-hình ảnh phù hợp phải gần hơn container để phục vụ hoạt động vận chuyển, giao hàng. các cặp nhãn-hình ảnh không phù hợp. Các thử nghiệm Việc ghi nhận số nhà và văn bản trong bản đồ có lợi được làm trong bốn nhiệm vụ: nhận dạng biển số xe, cho hệ thống mã hóa địa lý tự động. nhận dạng văn bản trong cảnh, thu thập văn bản trong ISBN 978-604-80-5958-3 346
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) cảnh và thu thập các ký tự đại diện. Với IIIT-5K, độ thu được các thông số liên quan và hiển thị một hình chính xác đạt 76.1% và đạt 70% đối với Street View ảnh “sạch” khác để dễ nhận dạng và dùng để giám sát. Text. Một mạng đa tác vụ với kiến trúc mã hóa-phân biệt- sinh ra để hướng đặc điểm của ảnh gốc về ảnh sạch. Baoguang Shi và đồng nghiệp [7] đề xuất một bộ Nhóm thiết kế một thuật toán nhận dạng văn bản trong nhận dạng văn bản mạnh mẽ có điều chỉnh tự động cảnh để học các đặc trưng của ảnh chứa văn bản thông (RARE). RARE là mạng nơ-ron học sâu được thiết kế qua tạo ảnh, đối sánh đặc trưng và huấn luyện các ảnh. đặc biệt, bao gồm mạng chuyển đổi không gian (STN) Các thực nghiệm được làm trên các bộ dữ liệu: ICDAR và mạng nhận dạng trình tự (SRN). Trước tiên, hình 2003, ICDAR 2013, IIIT 5k, Street View Text. Độ ảnh được biến đổi bằng Thin-Plate-Spline (TPS) để chính xác đạt 98.1% đối với tập dữ liệu nhỏ và đạt làm ảnh “dễ đọc” hơn cho mạng SRN nhận dạng trình 97.3% đối với tập dữ liệu lớn. tự. Mô hình nhận dạng các văn ở nhiều góc chụp và văn bản cong. Các thực nghiệm được làm trên các bộ Z. Fangneng và L. Shijian [13] thiết kế mạng nhận dữ liệu chuẩn: ICDAR 2003, ICDAR 2013, Street dạng văn bản trong cảnh được huấn luyện thông qua sự View Text và IIIT5k. Độ chính xác đạt 98.3% đối với điều chỉnh liên tục (ESIR). ESIR áp dụng một mạng tập dữ liệu nhỏ và đạt 96.5% đối với tập dữ liệu lớn. điều chỉnh sáng tạo để sửa các biến dạng theo từng góc quay và độ cong của văn bản. Ảnh văn bản chỉnh sửa Christian Bartz và đồng nghiệp [8] trình bày STN- cuối cùng được đưa đến mạng nhận dạng để xuất ra OCR, một mạng nơ-ron bán giám sát để nhận dạng văn văn bản. Nhóm thiết kế một hệ thống chuyển đổi phù bản trong cảnh. STN-OCR là mạng có tích hợp mạng hợp theo dòng để tạo mô hình và sửa các biến dạng văn chuyển đổi không gian để phát hiện các vùng văn bản bản bằng cách ước tính tư thế của các dòng văn bản trong ảnh và mạng nhận dạng nội dung văn bản. Các thẳng hoặc cong một cách linh hoạt. Các thực nghiệm thực nghiệm được làm trên các bộ dữ liệu: SVHN, được làm trên các bộ dữ liệu: ICDAR2013, French Street Name Signs (FSNS), ICDAR 2013, SVT, ICDAR2015, IIIT5K, SVT, SVTP, CUTE80. Độ chính IIIT5K. Độ chính xác đạt 90.3% đối với tập dữ liệu nhỏ xác đạt 99.6% đối với tập dữ liệu nhỏ và đạt 91.3% đối và đạt 86% đối với tập dữ liệu lớn. với tập dữ liệu lớn. C. Arindam và V. Lovekesh [9] giới thiệu một sự Yaping Zhang và đồng nghiệp [14] phát triển Mạng kết hợp mạng tích hợp thực hiện học sâu với một mạng thích ứng miền theo trình tự (SSDAN) để nhận dạng mã hóa-giải mã hồi quy để lấy ra văn bản trong ảnh. văn bản trong cảnh. Mô hình này khai thác dữ liệu trình Mô hình được huấn luyện dựa trên hàm mất mát Focal. tự không giám sát bởi một mạng mã hóa- giải mã theo Để nâng cao khả năng giải mã của mô hình, thuật toán trình tự dựa vào sự chú ý. Trong SSDAN, một đơn vị tìm kiếm Beam được dùng để tìm kiếm chuỗi văn bản giám sát sự tương tự của mức chú ý được dùng để điều tốt nhất từ các ký tự riêng lẻ. Các thực nghiệm được chỉnh phân phối dữ liệu nguồn và dữ liệu đích trong làm trên các bộ dữ liệu IAM và RIMES. Với IAM, lỗi không gian đặc trưng về sự chú ý ở cấp độ ký tự. Các nhận dạng ký tự là 8.1 % và lỗi nhận dạng một từ là thực nghiệm được làm trên các bộ dữ liệu: ICDAR 16.7%. Với RIMES, lỗi nhận dạng ký tự là 3.5% và 2003, ICDAR 2013, IIIT5k, Street View Text, IAM và lỗi nhận dạng một từ là 9.6%. CROHME 2014. Độ chính xác đạt 92.1% đối với tập Christian Bartz và đồng nghiệp [10] trình bày SEE, dữ liệu nhỏ và đạt 83.8% đối với tập dữ liệu lớn. một mạng nơ-ron bán giám sát để phát hiện và nhận Rowel Atienza [15] hình thành một thư viện các dạng văn bản trong cảnh. SEE là một mạng nơ-ron học hàm tăng dữ liệu đặc biệt cho nhận dạng văn bản trong sâu phát hiện và nhận dạng văn bản từ các ảnh tự cảnh. Trong nhận dạng văn bản trong cảnh, có một nhiên. SEE là mạng có tích hợp mạng chuyển đổi hoặc nhiều ký tự xuất hiện trong một vùng ảnh nhỏ. không gian để phát hiện các vùng văn bản trong ảnh và Việc xóa một vùng hoặc trộn hai hình ảnh sẽ ảnh mạng nhận dạng nội dung văn bản. Với SVHN, độ hướng đến một hoặc nhiều ký tự trong hình ảnh văn chính xác đạt 95.2% và đạt 78.0% với French Street bản. Ý nghĩa chính xác của văn bản có thể thay đổi. Name Signs (FSNS). Nhóm đưa ra 36 hàm tăng dữ liệu và chia thành 8 Fan Bai và đồng nghiệp [11] đề xuất một phương nhóm (co rút theo chiều dọc, dạng hình học, nhiễu, làm pháp mới được gọi là xác suất chỉnh sửa (EP) để nhận mờ, thời tiết, chế độ của máy ảnh, dạng mẫu và các dạng văn bản trong cảnh. EP ước tính xác suất tạo ra biến đổi nâng cao chất lượng ảnh). Các thực nghiệm một chuỗi văn bản từ phân phối xác suất có điều kiện được làm trên các bộ dữ liệu: ICDAR2003, trên ảnh đầu vào, đồng thời xem xét các khả năng có ICDAR2013, ICDAR2015, Street View Text, SVT thể xảy ra của các ký tự thiếu/thừa. Các thực nghiệm Perspective, IIIT5k, CUTE80 (CT). Độ chính xác cao được làm trên các bộ dữ liệu chuẩn: ICDAR 2003 nhất đạt 88.5%. ICDAR 2013, ICDAR 2015, IIIT 5k-word, Street View Text. Độ chính xác đạt 98.7% đối với tập dữ liệu IV. CÁC KỸ THUẬT DÙNG TRONG NHẬN nhỏ và đạt 99.5% đối với tập dữ liệu lớn. DẠNG VĂN BẢN Yang Liu và đồng nghiệp [12] đề xuất dùng các Nhận dạng văn bản được chia thành các bài toán tham số cho ảnh đầu ra để cải thiện việc học đặc trưng con gồm định vị, xác minh, phân đoạn và nhận dạng của ảnh. Đối với mỗi ảnh trong quá trình tạo dữ liệu, văn bản [1]. ISBN 978-604-80-5958-3 347
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) A. Xác định vùng chứa văn bản quả thu được một bản đồ, trong đó mỗi phần tử tương Xác định vùng chứa văn bản là xác định phần vùng ứng với giá trị chiều rộng nét vẽ. Các đặc trưng dựa ảnh có chứa văn bản mà chứa ít cảnh nền nhất. Phân trên nét vẽ có ưu thế trong việc xác định vùng chứa văn tích thành phần kết nối và dùng cửa sổ trượt là hai bản trong ảnh có độ phân giải cao. phương pháp được dùng phổ biến. Màu sắc, cạnh, nét Đặc trưng vùng và điểm: Sự hiện diện dày đặc của và kết cấu thường được dùng làm đặc trưng. các điểm góc trong các vùng văn bản, các góc Harris Phương pháp được sử dụng để xác định vùng chứa văn bản trong video. Thuật toán MSER được dùng rộng rãi để tìm ra Phân tích thành phần kết nối. Một thuật toán đồ thị kí tự. Các vùng chứa văn bản thường có độ tương phản trong đó các tập con của các thành phần kết nối được màu cao so với nền và có xu hướng tạo thành các vùng gắn nhãn dựa vào sự đồng nhất của đặc trưng như sự về màu đồng nhất. Thuật toán MSER phát hiện tốt các tương đồng màu sắc và bố cục không gian. Nhận dạng vùng màu ổn định nên khả thi trong xác định vùng mẫu cú pháp được dùng để phân tích sự đồng nhất về chứa văn bản. không gian và đặc trưng, và để xác định vùng chứa văn bản. Một xu hướng mới là thực hiện phân tích thành Các đặc trưng lai: Văn bản từ các danh mục khác phần kết nối với các mô hình thống kê như bộ phân nhau có các đặc điểm khác nhau. Nhóm vùng văn bản loại AdaBoost. chứa dày đặc ký tự và gradient lớn. Nhóm văn bản khác chứa ít ký tự nhưng màu sắc giúp phân biệt chúng Phân loại cửa sổ trượt. Các vùng ảnh với nhiều với cảnh nền. Để cải thiện độ chính xác, các đặc trưng kích thước khác nhau được nhóm lại thành các vùng kết hợp đã được áp dụng. chứa văn bản dựa vào các phép toán hình thái (morphological operations), CRF (conditional random B. Xác minh văn bản field) hoặc phương pháp đồ thị. Ưu điểm là việc huấn luyện để phát hiện văn bản đơn giản và thích nghi. Xác định vùng chứa văn bản thường đưa ra kết quả Nhược điểm là tốn thời gian và bộ nhớ cho việc tính xác thực sai vì một phần nhỏ của vùng ảnh chứa văn toán do phải phân loại số lượng lớn các cửa sổ. bản không chứa đủ thông tin để phân loại. Sau khi xác định vùng chứa văn bản, các đặc trưng tổng thể của Đặc trưng vùng chứa văn bản được dùng để phân loại và xác minh tính chính xác. Màu sắc: Văn bản thường được tạo ra với màu sắc nhất quán và dễ phân biệt do có màu tương phản với Phương pháp dựa trên tri thức nền. Các đặc trưng màu được sử dụng để xác định vùng chứa văn bản. Phương pháp này đơn giản và hiệu quả Các tri thức có trước về màu sắc, sự đồng nhất về nhưng lại nhạy với các ký tự nhiều màu và ánh sáng kích thước và không gian, và sự tổng hợp đặc trưng không đồng đều. Để thích ứng với sự biến đổi màu sắc, của pixel được dùng để xác minh văn bản. Xác minh các đặc điểm màu sắc được trích xuất trong không gian dựa trên tri thức rất đơn giản và trực quan. Tuy nhiên, màu chuyển đổi bằng các mô hình hỗn hợp. rất khó để chuyển tri thức đó thành các quy tắc cú pháp rõ ràng. Nếu các quy tắc chặt, có thể không nhận diện Đặc trưng cạnh/gradient: Dựa vào đặc điểm vùng được văn bản không theo các quy tắc đó. Nếu các quy chứa văn bản có sự chênh lệch gradient lớn so với cảnh tắc lỏng, có thể đưa ra nhiều phát hiện sai. nền. Do đó, những pixel có giá trị gradient lớn được coi là thể hiện văn bản. Các đặc trưng cạnh được sử dụng Các phương pháp phân biệt đặc trưng để phát hiện các văn bản và các đặc trưng gradient Nhiều đặc trưng khác nhau gồm cấu trúc, đặc điểm được sử dụng. So với màu sắc, các đặc trưng hình dạng và mật độ, Wavelet, LBP và bộ mô tả kết cạnh/gradient ít nhạy với ánh sáng không đồng đều và cấu HOG, các nét Gabor, và các phép lai được sử dụng các ký tự nhiều màu. Chúng được kết hợp với các bộ để phân biệt văn bản. Điều kiện tiên quyết là các đặc phân loại như mạng nơ-ron nhân tạo hoặc Adaboost để trưng được trích xuất từ vùng ảnh có tỷ lệ khung hình thực hiện xác định vùng chứa văn bản dựa trên cửa sổ khác nhau cần được chuẩn hóa về cùng một kích thước. trượt. Tuy nhiên, gặp khó khăn khi phân biệt văn bản Vì vậy, cần trích xuất các đặc trưng độc lập với tỷ lệ với nền phức tạp. khung hình hoặc chia các vùng ảnh thành các vùng con Các đặc trưng về kết cấu: Khi các ký tự dày đặc, với số lượng vùng con bằng nhau và có kích thước khác nhau. văn bản có thể coi như kết cấu. Các đặc trưng kết cấu bao gồm Fourier Transform, Discrete Cosine Transform (DCT), Wavelet, LBP và HOG. Các đặc C. Phân đoạn văn bản trưng này thường được kết hợp với phương pháp phân Trước khi nhận dạng ký tự từ vùng chứa văn bản, loại cửa sổ trượt. Các đặc trưng kết cấu có hiệu quả một số phương pháp dùng phân đoạn nhị phân, phân trong phát hiện nhiều ký tự dày đặc nhưng có thể đoạn dòng văn bản và phân đoạn ký tự để thu được không phát hiện tốt với số ít ký tự. từng ký tự. Phân đoạn là một vấn đề khó khăn nhất, và các cách tiếp cận mới thường tích hợp bước phân đoạn Sự biến đổi độ rộng nét vẽ: Một toán tử tính toán với bước nhận dạng, hoặc sử dụng đối sánh từ để tránh chiều rộng của nét vẽ (bằng pixel) trên ảnh cục bộ. Kết vấn đề phân đoạn ký tự. ISBN 978-604-80-5958-3 348
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Nhị phân hóa văn bản Nhận dạng từ Mã hóa văn bản trích xuất các pixel thể hiện văn Đối với các văn bản mờ và/hoặc bị méo, mô hình bản và xóa các pixel thể hiện nền. Các thuật toán liên nhận dạng có thể gán nhãn khác nhau cho các ký tự quan đến ngưỡng thích nghi, mô hình xác suất và phân giống nhau khi thiếu dữ liệu huấn luyện cho các font cụm đã được sử dụng. Ngưỡng thích nghi phân đoạn chữ. Phân đoạn từ và nhận dạng từ được tích hợp với văn bản theo các đặc trưng cục bộ và thích nghi với các ngôn ngữ gốc bằng cách dùng các phương pháp tối màu nền. Tuy nhiên, rất khó để chọn một ngưỡng tin ưu hóa như suy luận Bayes, quy hoạch nguyên, cậy cho văn bản mờ do màu của các pixel thể hiện văn Markov, CRF, và các mô hình đồ thị. bản thường lẫn với màu nền. Nhận dạng “từ đầu đến cuối” Phân đoạn dòng văn bản Cung cấp ảnh có nền phức tạp làm đầu vào, hệ Phân đoạn dòng văn bản là chuyển một vùng gồm thống nhận dạng “từ đầu đến cuối” thể hiện các chức nhiều dòng văn bản thành nhiều vùng con chứa một năng xác định vị trí, phát hiện và nhận dạng để phân dòng văn bản. Đối với văn bản ngang, phân tích các tích các vùng chứa văn bản thành chuỗi ký tự. Xét một đặc trưng của pixel thể hiện văn bản là một phương từ vựng nhỏ, dò từ cung cấp một chiến lược hiệu quả pháp đơn giản và hiệu quả. Tuy nhiên, đối với văn bản để nhận dạng “từ đầu đến cuối”. Động lực của việc dò bị xô lệch hoặc bị méo ký tự, rất khó để ước tính được từ là "câu hình thành từ các từ", và nhiệm vụ tìm kiếm hướng của văn bản. để khớp các từ cụ thể trong một từ vựng nhất định với các mảng hình ảnh bằng cách sử dụng các mô hình về Phân đoạn dòng văn bản dựa trên phân tích xương ký tự và từ. Tuy nhiên, xét một từ vựng mở, các chiến khá hiệu quả. Các xương thể hiện văn bản được trích lược dò tìm từ không làm được do không gian tìm kiếm xuất từ các thành phần kết nối. Một dòng văn bản là lớn nên các hệ thống yêu cầu một biểu diễn ký tự một đường liên tục trên xương từ một điểm giao đến mạnh, mô hình ngôn ngữ lớn, và các chiến lược tối ưu. một điểm cuối hoặc một điểm giao khác. Một vùng chứa văn bản được phân đoạn thành các dòng văn bản bằng cách sử dụng thuật toán cắt xương. V. ĐÁNH GIÁ MỘT SỐ NGHIÊN CỨU MỚI Phân đoạn ký tự A. Một số tập dữ liệu chuẩn Phân đoạn ký tự tách một vùng chứa văn bản thành ICDAR’03 gồm 509 ảnh do cắt ra phần văn bản các vùng chứa một ký tự đơn lẻ. Phân tích đặc trưng trong cảnh từ ảnh của camera. ICDAR’03 gồm các ảnh của pixel hay dùng để phân đoạn ký tự. Tuy nhiên, theo chiều dọc và dùng cho cả phát hiện và nhận dạng thường rất khó để xác định ngưỡng sáng tối ưu khi các văn bản. ký tự bị mờ hoặc bị dính vào nhau. Với ngưỡng cao, ICDAR’13 gồm 462 ảnh do cắt ra phần văn bản các phân đoạn đúng có thể bị mất còn với ngưỡng thấp, trong cảnh, trong hình đồ họa, trong vide từ dữ liệu của nhiều phân đoạn sai có thể được phát hiện. Thuật toán camera và website. Các ảnh trong ICDAR’13 được tìm kiếm đường dẫn hai lần được áp dụng trong đó tìm chụp từ nhiều hướng và dùng cho cả phát hiện phân kiếm lần đầu khoanh vùng các đường cắt tiềm năng và đoạn và nhận dạng văn bản. trong lần sau loại bỏ các đường cắt sai đi qua các ký tự. Street View Text (SVT) gồm 350 ảnh chứa từng từ D. Nhận dạng văn bản trong cảnh từ các ảnh chụp đường phố của Google Nhận dạng văn bản chuyển đổi các vùng hình ảnh Street View Text gồm các ảnh theo chiều dọc và dùng thành chuỗi ký tự. Nhận dạng từ là nhiệm vụ chính của cho cả phát hiện và nhận dạng văn bản. nhận dạng văn bản bởi vì các từ được hình thành hiệu IIIT5K-words gồm 5000 ảnh do cắt ra phần văn bản quả nhờ các mô hình thống kê dựa vào các đặc trưng trong cảnh, trong hình đồ họa từ website và camera cấp thấp và các đặc điểm của ngôn ngữ. Điều này phù trên Internet. IIIT5K-words gồm các văn bản bị biến hợp với nhận thức thị giác của con người. Việc nhận dạng và chỉ dùng cho nhận dạng văn bản. dạng văn bản mờ ở mức độ ký tự rất khó khăn do thiếu các yếu tố ngôn ngữ. Street View House Numbers (SVHN) gồm hơn 600,000 ảnh về số nhà trên các đường phố của Google. Nhận dạng ký tự SVHN được dùng cho nhận dạng từng kí tự số và cả Để nhận dạng các ký tự của một phông chữ duy một số trong cảnh thiên nhiên. nhất, các đặc trưng chung như các đặc trưng Gabor và French Street Name Signs (FSNS) gồm hơn các bộ phân loại đơn giản như phân tích phân biệt 1,000,000 ảnh về các biển hiệu trên các đường phố của tuyến tính (LDA) thường được sử dụng. Khi có nhiều Pháp. FSNS được dùng cho phát hiện từng dòng và font chữ, ký tự bị méo, ký tự bị mất một phần ký tự sẽ nhận dạng văn bản. gây khó khăn cho việc nhận dạng ký tự của cùng một lớp. Các giải pháp được áp dụng gồm căn chỉnh các ký IAM gồm 1539 trang văn bản, được viết bởi 657 tự, học đại diện, tổng hợp đặc trưng phân biệt, thuật nhà văn khác nhau. Hình ảnh một dòng có chiều cao toán chỉnh sửa hình ảnh hoặc mô hình biến dạng. trung bình là 124 pixel và chiều rộng trung bình là ISBN 978-604-80-5958-3 349
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) 1751 pixel. Có 79 ký tự khác nhau trong cơ sở dữ liệu,  Độ chính xác nhận dạng ký tự là tỷ lệ % của số bao gồm cả khoảng trắng. TAM được dùng cho phát lượng ký tự có trong đoạn văn bản được nhận dạng hiện từng dòng và nhận dạng văn bản. đúng trên tổng số ký tự có trong tất cả các ảnh chứa văn bản. CUTE80 gồm số lượng lớn văn bản trong cảnh bị biến dạng do phối cảnh và độ cong. CUTE80 có 6 bộ C. Kết quả nhận dạng của các mô hình dữ liệu được sử dụng rộng rãi để đánh giá trong nghiên Để việc so sánh thể hiện đúng hiệu suất, hiệu quả cứu nhận dạng văn bản trong cảnh của từng mô hình, các mô hình cần được thử nghiệm trên cùng một tập dữ liệu và chạy trên cùng một máy B. Đánh giá kết quả nhận dạng tính. Hơn nữa, một số khởi tạo giá trị ban đầu cho các Để đánh giá kết quả nhận dạng văn bản, thường tham số của mô hình cũng nên tương đương. Do đó, dùng ba thước đo sau: chúng tôi sẽ tổng hợp kết quả đã được công bố trong các bài báo để có được các đánh giá tương đối về các  Độ chính xác nhận dạng văn bản là tỷ lệ % của số mô hình. lượng ảnh có đoạn văn bản được nhận dạng đúng trên tổng số ảnh chứa văn bản. Chúng tôi sẽ tổng hợp kết quả nhận dạng trên bốn  Độ chính xác nhận dạng từ là tỷ lệ % của số lượng tập dữ liệu phổ biến ICDAR’03, ICDAR’13, STV, từ có trong đoạn văn bản được nhận dạng đúng IIIT5K và dùng độ chính xác nhận dạng văn bản để trên tổng số từ có trong tất cả các ảnh chứa văn đánh giá sự thực hiện của các mô hình. Các số liệu bản. được lấy từ các nghiên cứu từ năm 2015 đến nay. TABLE I. ĐỘ CHÍNH XÁC NHẬN DẠNG VĂN BẢN TRÊN CÁC TẬP DỮ LIỆU CHUẨN Độ chính xác nhận dạng trên các tập dữ liệu Nhóm tác giả Năm ICDAR’03 ICDAR’13 STV IIIT5K Max Jaderberg [2] 2015 97 81.8 71.7 89.6 Baoguang Shi [3] 2015 97.6 86.7 80.8 94.4 Baoguang Shi [7] 2016 96.4 87.5 81.5 92.8 Christian Bartz [8] 2017 - 90.3 79.8 86 Fan Bai [11] 2018 97.9 94.4 87.5 97.9 Yang Liu [12] 2018 97.5 94.0 87.1 96.1 Z. Fangneng [13] 2019 - 91.3 90.2 98.8 Yaping Zhang [14] 2019 92.1 91.8 84.5 83.8 hợp nhất cho ứng dụng, chúng ta cần xem xét đặc trưng Dữ liệu trong bảng 1 cho thấy mô hình của Fan Bai của các mẫu dữ liệu mà hệ thống sẽ xử lý trong tương [11] cho độ chính xác cao nhất với các tập dữ liệu nhỏ lai giống với đặc trưng của tập dữ liệu chuẩn nào nhất. và văn bản trong ảnh được trình bày trên đường thẳng Sau đó, dựa vào Bảng 1 để tìm ra mô hình xử lý tốt và không bị biến dạng (ICDAR’03 và ICDAR’13). nhất với tập dữ liệu chuẩn đó. Sau đó, dùng mô hình Bảng 1 cũng cho thấy mô hình của Z. Fangneng [13] vừa tìm được để xây dựng ứng dụng. cho độ chính xác cao nhất với các tập dữ liệu lớn, văn bản trong ảnh bị xô lệch hoặc biến dạng do góc chụp VI. CÁC THÁCH THỨC ảnh và cách trình bày văn bản ở dạng cong (STV, IIIT5K). Khoảng cách giữa các công nghệ và yêu cầu về sự hiệu suất nhận dạng cho thấy việc phát hiện và nhận Nếu xây dựng hệ thống nhận dạng văn bản chung dạng văn bản vẫn còn các vấn đề chưa được giải quyết thì nên chọn mô hình của Z. Fangneng [13] vì hiện nay [1]. Dưới đây là một số vấn đề phổ biến và các hướng các tập dữ liệu đều phức tạp và lớn. Mô hình của Z. nghiên cứu khả thi. Fangneng xử lý tốt với tập dữ liệu lớn, phức tạp và có độ chính xác lớn hơn 90% cho cả 3 tập dữ liệu ICDAR’13, STV, IIIT5K. Để chọn được mô hình phù ISBN 978-604-80-5958-3 350
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) A. Nhận dạng “từ đầu đến cuối” xác và nâng cao hiệu suất nhận dạng theo thời gian So với hiệu suất nhận dạng ký tự trên các tài liệu thực. sạch, hiệu suất nhận dạng văn bản “từ đầu đến cuối” vẫn còn thấp. Sự cải tiến được tạo ra từ các mô hình VII. KẾT LUẬN nhận dạng ký tự tốt và chiến lược chia sẻ thông tin, Bài báo này cung cấp các kiến thức quan trọng về phản hồi, tối ưu hóa được thiết kế tốt hơn. Học sâu với các kỹ thuật dùng trong phát hiện và nhận dạng văn tập huấn luyện lớn đã cải thiện đáng kể hiệu suất phân bản. Quy trình nhận dạng văn bản chung có hai cách loại ký tự bằng cách học các biểu diễn của ký tự từ nhỏ tiếp cận chính gồm làm từng bước (phân đoạn xong thì đến lớn. Việc tích hợp học sâu với các mô hình phân nhận dạng) và tích hợp (gộp chung phân đoạn và nhận đoạn tối ưu, nhận dạng và mô hình ngôn ngữ bậc cao dạng). Để nhận dạng văn bản, cần giải quyết các vấn đề có thể tăng hiệu suất cao hơn. con như xác định vùng chứa văn bản, xác minh văn bản, phân đoạn văn bản, và nhận dạng văn bản. Với B. Nhận dạng từ vựng mở từng vấn đề con, các kỹ thuật được dùng để giải quyết Các phương pháp dò tìm từ với các từ vựng nhỏ đã được trình bày. Các nghiên cứu mới nhất được tổng cho hiệu suất tốt. Tuy nhiên, ứng dụng của các phương hợp, so sánh, đánh giá để đưa ra gợi ý chọn một mô pháp này bị hạn chế vì các từ vựng chung không có khả hình nhận dạng văn bản thích hợp cho một ứng dụng cụ năng chứa các danh từ riêng và các từ khác xuất hiện thể dựa vào tập dữ liệu cần phân tích. Cuối cùng, các trong ảnh. Để khắc phục hạn chế, cần tích hợp từ vựng thách thức lớn trong nhận dạng văn bản cũng được mở, thông tin ngôn ngữ dựa vào nội dung của nhiều tổng kết để các kỹ sư xây dựng ứng dụng quan tâm xử trang web. Các phương pháp xấp xỉ cần được phát triển lý và gợi ý nội dung nghiên cứu mới. Các thách thức để sử dụng hiệu quả thông tin ngôn ngữ quy mô lớn gồm nhận dạng văn bản đang chuyển động trong video, trong việc nhận dạng văn bản. nhận dạng văn bản ở nhiều chủ đề khác nhau với kho từ vựng mở, nhận dạng cùng lúc nhiều ngôn ngữ khác C. Xử lý văn bản ngẫu nhiên nhau, và nhận dạng theo thời gian thực Văn bản ngẫu nhiên bị giảm chất lượng, biến dạng, chứa biến thể font chữ và nền lộn xộn. Nhiều cách tiếp TÀI LIỆU THAM KHẢO cận có thể giải quyết các vấn đề đơn lẻ, nhưng ít cách [1] Y. Qixiang, D. Doermann, “Text Detection and Recognition in tiếp cận xử lý được hai hay nhiều vấn đề cùng lúc. Để Imagery: A survey”, IEEE Transactions on Pattern Analysis giải quyết các vấn đề của nhận dạng văn bản ngẫu and Machine Intelligence, 37(7), 1480–1500, 2015. nhiên, cần áp dụng các giải pháp sau: (i) các đặc trưng [2] M. Jaderberg, K. Simonyan, A. Vedaldi, A. Zisserman, “Deep Structured Output Learning for Unconstrained Text bất biến cải tiến phải được thiết kế hoặc huấn luyện, (ii) Recognition”, International Conference on Learning các phương pháp cải tiến, chỉnh sửa hiện đại phải được Representations, 2015. tích hợp, và (iii) các cảm biến mới phải được áp dụng. [3] S. Baoguang, B. Xiang, Y. Cong, “An End-to-End Trainable Neural Network for Image-based Sequence Recognition and D. Xử lý văn bản trong nhiều ngôn ngữ Its Application to Scene Text Recognition”, Computer Vision and Pattern Recognition, Cornell University, 2015. Văn bản từ nhiều ngôn ngữ khác nhau có các đặc [4] M. Yousef, Khaled F. Hussain, Usama S. Mohammed, điểm khác nhau. Việc nhận dạng văn bản từ các nước “Accurate, Data-Efficient, Unconstrained Text Recognition Đông Á như Trung Quốc, Nhật Bản và Hàn Quốc là with Convolutional Neural Networks”, Journal of Latex class vấn đề cực kỳ khó khăn do số lượng lớn các lớp ký tự, files, 14(8), 2015 cấu trúc ký tự phức tạp, sự giống nhau giữa các ký tự [5] R. Messina, J. Louradour, “Segmentation-free handwritten và sự thay đổi của phông chữ. Việc sử dụng một Chinese text recognition with LSTM-RNN”, International Conference on Document Analysis and Recognition, 171-175, phương pháp với các tham số cố định để nhận dạng văn 2015. bản từ tất cả các ngôn ngữ vẫn khó đạt được. Một giải [6] J. A. Rodriguez-Serrano, A. Gordo, “Label Embedding: A pháp khả thi là sử dụng một phương pháp huấn luyện Frugal Baseline for Text Recognition”, International Journal chung để chỉ định một mô hình cho từng loại ngôn ngữ on Computer Vision, 113, 193–207, 2015. và một phương pháp có thể định cấu hình để quản lý [7] S. Baoguang, W. Xinggang, L. Pengyuan, Y. Cong, B. Xiang, các mô hình con. “Robust Scene Text Recognition with Automatic Rectification”, Computer Vision and Pattern Recognition, Cornell University, 4168-4176, 2016. E. Phát hiện và nhận dạng thời gian thực [8] B. Christian Bartz, Y. Haojin, M. Christoph, “STN-OCR: A Video từ điện thoại di động là một nguồn dữ liệu single Neural Network for Text Detection and Text quan trọng để phát hiện văn bản và các ứng dụng nhận Recognition”, Computer Vision and Pattern Recognition, dạng. Các ứng dụng yêu cầu xử lý dữ liệu video trong Cornell University, 2017. thời gian thực ngay sau video được quay từ điện thoại. [9] C. Arindam, V. Lovekesh, “An Efficient End-to-End Neural Model for Handwritten Text Recognition”, Computer Vision Tuy nhiên, nhiều phương pháp chỉ được áp dụng cho and Pattern Recognition, Cornell University, 2018. ảnh tĩnh và các yêu cầu về xử lý theo thời gian thực của [10] B. Christian, Y. Haojin, M. Christoph, “SEE: Towards Semi- các ứng dụng trên thiết bị di động thường bị bỏ qua. Supervised End-to-End Scene Text Recognition”, AAAI Việc kết hợp phát hiện văn bản và nhận dạng văn bản Conference on Artificial Intelligence, 6674-6681, 2018. với các thuật toán lần vết văn bản sẽ cải thiện độ chính ISBN 978-604-80-5958-3 351
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) [11] B. Fan, C. Zhanzhan, N. Yi, P. Shiliang, Z. Shuigeng, “Edit [14] Y. Zhang, S. Nie, W. Liu, X. Xu, D. Zhang, H. T. Shen, Probability for Scene Text Recognition”, Computer Vision and “Sequence-To-Sequence Domain Adaptation Network for Pattern Recognition, Cornell University, 1508-1516, 2018. Robust Text Image Recognition”, IEEE/CVF Conference on [12] L. Yang, W. Zhaowen, J. Hailin, W. Ian, “Synthetically Computer Vision and Pattern Recognition, pp. 2735-2744, Supervised Feature Learning for Scene Text Recognition”, 2019. Computer Vision, 449-465, 2018. [15] Rowel Atienza, “Data Augmentation for Scene Text [13] Z. Fangneng, L. Shijian, “ESIR: End-to-end Scene Text Recognition”, Computer Vision and Pattern Recognition, Recognition via Iterative Image Rectification”, Computer Cornell University, 1561-1570, 2021. Vision and Pattern Recognition, Cornell University, 2059- 2068, 2019. ISBN 978-604-80-5958-3 352