BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

BÙI HẢI PHONG

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN

Ngành: Khoa học máy tính Mã số: 9480101

TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội −2021

Công trình này được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội

Người hướng dẫn khoa học:

1. PGS.TS. Hoàng Mạnh Thắng 2. PGS.TS. Lê Thị Lan

Phản biện 1: Phản biện 2: Phản biện 3:

Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi giờ , ngày tháng năm 2021

Có thể tìm hiểu luận án tại thư viện:

1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam

GIỚI THIỆU

Động lực nghiên cứu

Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công thức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian, số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạng dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF, tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này, các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm: phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2]. Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xác cao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ý của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phức tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh. Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh

Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức toán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theo ngữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định. Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc, dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bản thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát hiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi.

Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định dạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này, kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mối quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác. Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhận dạng.

Phạm vi nghiên cứu của luận án như sau:

1

Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệu dạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhật màu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c).

(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán học (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này, công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ.

(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng tài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạng công thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao.

(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được nhận dạng và biểu diễn nhờ định dạng Latex [4].

Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:

(1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việc nhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tự có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí a ). (2) Một số kí tự toán học có tự toán học phức tạp có thể chứa các kí tự khác (ví dụ vai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn một cách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tự nhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương. Do đó, luận án chỉ tập trung nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học.

2

Đóng góp chính của luận án

Luận án có ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận

dạng công thức toán học:

(1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học. Ngoài ra, một ưu điểm của phương pháp này là có thể phát hiện công thức toán học với độ chính xác cao mà không phụ thuộc vào các phần mềm nhận dạng kí tự. (2) Tiếp theo, luận án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp này gồm hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các thông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức này được nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã. Cấu trúc của luận án

Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăn của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất mô hình lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự động dựa trên các mô hình học sâu tiên tiến. Phương pháp lai này cùng với một số chiến lược phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương 3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức. Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa trên các mô hình học sâu tiên tiến. Chương kết luận trình bày tóm tắt các đóng góp của luận án và đưa ra các hướng phát triển tiếp theo.

CHƯƠNG 1

Nghiên cứu liên quan

Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa ra trong các chương tiếp theo.

3

1.1 Các kỹ thuật phân tích trang tài liệu

Các phương pháp truyền thống giải quyết bài toán phát hiện công thức toán học dựa trên hai bước [9]: phân tích trang tài liệu và phát hiện công thức dựa trên kết quả phân tích trang. Phân tích trang tài liệu là kỹ thuật được sử dụng để phân vùng tài liệu thành các vùng đồng nhất về cấu trúc [17]. Trong những năm gần đây, phân tích trang tài liệu thu hút được nhiều nhà nghiên cứu trên thế giới. Trước hết, các trang tài liệu được tiền xử lý để nâng cao chất lượng. Các kỹ thuật tiền xử lý thường gặp như: lọc nhiễu, loại bỏ góc nghiêng, cong của tài liệu. Sau đó, các kỹ thuật phân tích trang tài liệu được áp dụng bao gồm: kỹ thuật phân tích từ dưới lên, phân tích từ trên xuống, phân tích dựa trên độ phân giải khác nhau và kỹ thuật lai [15]. Trong những năm gần đây, các mạng học sâu được áp dụng để phân tích trang tài liệu. Ưu điểm của các mạng học sâu là có thể phân tích các tài liệu có cấu trúc đa dạng khác nhau [16]. 1.2 Phát hiện công thức trong tài liệu ảnh

Phát hiện công thức toán học trong tài liệu ảnh đã được nghiên cứu từ nhiều năm. Các phương pháp có thể được chia thành ba loại chính: phương pháp sử dụng luật, phương pháp sử dụng trích chọn đặc trưng thủ công và phương pháp sử dụng các mạng học sâu. 1.2.1 Phát hiện công thức dựa trên luật

Trong những nghiên cứu đầu tiên về phát hiện công thức trong tài liệu ảnh, các luật được đưa ra để phát hiện công thức [6, 18]. Các luật được đưa ra dựa trên sự khác nhau về hình thái học, biểu diễn công thức so với văn bản thông thường. Các phương pháp này thường được áp dụng để phát hiện công thức trong một số trường hợp đặc biệt. Phương pháp này gặp nhiều lỗi sai trong phát hiện công thức trong tài liệu có cấu trúc phức tạp. 1.2.2 Phát hiện công thức dựa trên trích chọn đặc trưng thủ công

Các đặc trưng của công thức được trích chọn, thiết kế thủ công để phát hiện công thức trong tài liệu ảnh. Bảng 1.1 tổng hợp một số đặc trưng cơ bản được thiết kế để phát hiện công thức độc lập. Bên cạnh đó, các đặc trưng khác được thiết kế để phát hiện công thức nội tuyến. Bảng 1.2 tổng hợp các đặc trưng được thiết kế để phát hiện công thức nội tuyến. Sau khi trích chọn đặc trưng, các bộ phân lớp như K láng giềng gần nhất hay Máy vec tơ hỗ trợ được áp dụng để phát hiện công thức. Các phương pháp phát hiện công thức dựa trên trích chọn đặc trưng thủ công cho độ chính xác cao với một số dữ liệu nhất định, tuy vậy, các phương pháp phát hiện này cho hiệu quả thấp với công thức nội tuyến.

Bảng 1.1 Các đặc trưng được sử dụng để phát hiện công thức độc lập

Mô tả Mật độ các điểm ảnh màu đen

Đặc trưng Mật độ [12] Tỉ lệ chiều cao và chiều rộng [19] Tỉ lệ chiều cao và chiều rộng của dòng chữ Căn lề trái, phải [12, 20] Vị trí của kí tự [12] Khoảng cách dòng [23] Căn lề của dòng chữ so với lề văn bản Thay đổi vị trí của kí tự trong công thức Khoảng cách với dòng trước và dòng sau

4

Bảng 1.2 Các đặc trưng được sử dụng để phát hiện công thức nội tuyến

Mô tả Một từ có chứa kí tự đặc biệt hay không Mật độ điểm ảnh màu đen Tỉ lệ chiều cao/chiều rộng của từ Sự thay đổi vị trí của các kí tự trong một từ

Đặc trưng Kí tự đặc biệt [13] Mật độ[12] Tỉ lệ chiều cao/chiều rộng [12] Thay đổi vị trí của kí tự [12] Khoảng cách giữa các kí tự [23] Khoảng cách giữa các kí tự trong từ

1.2.3 Phát hiện công thức toán học dựa trên các mạng học sâu

Trong những năm gần đây, kỹ thuật học sâu cho thấy hiệu quả vượt trội trong phát hiện và nhận dạng công thức. Nghiên cứu [21] áp dụng kiến trúc mạng U-net trong phát hiện công thức. Sau khi phát hiện, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trong phát hiện công thức. Mạng U-net được huấn luyện trên tập dữ liệu khoa học đa dạng để nâng cao hiệu quả phát hiện công thức. Độ chính xác đạt được cho phát hiện công thức theo các độ đo "precision"và "recall"lần lượt là 95.2% và 91% trên cơ sở dữ liệu dùng chung GTDB. Mặc dù nghiên cứu này cho kết quả phát hiện kí tự toán học chính xác, nhưng trong quá trình phát hiện công thức, nghiên cứu này chưa xử lý tốt việc xây dựng cấu trúc của công thức đầy đủ. Ngoài ra, nghiên cứu [22] phát hiện công thức dựa trên các cấu trúc mạng nơ ron SSD-512 và YOLOv3. 1.3 Nhận dạng công thức 1.3.1 Các phương pháp truyền thống trong nhận dạng công thức

Nhận dạng công thức toán học đã được nghiên cứu từ những năm 1960. Đây là lĩnh vực thu hút được nhiều sự chú ý nhưng cũng vô cùng thử thách. Các phương pháp truyền thống nhận dạng công thức toán học thường gồm 3 bước: phân vùng kí tự, nhận dạng kí tự và phân tích cấu trúc tài liệu. Nghiên cứu [1] tổng hợp nhiều phương pháp khác nhau để giải quyết bài toán nhận dạng công thức. Các phương pháp phân vùng kí tự thường dựa trên phân tích các thành phần liên tục của kí tự hoặc dựa trên hình chiếu của kí tự. Các phương pháp này thường gặp khó khăn trong phân vùng kí tự lớn có chứa các kí tự con (ví dụ kí tự căn bậc hai, tính tổng) hoặc các kí tự liền kề nhau. Các phương pháp nhận dạng kí tự được nghiên cứu dựa trên các đặc trưng của các kí tự kết hợp với các bộ phân lớp học máy. So với phân vùng và nhận dạng kí tự, bước phân tích cấu trúc công thức là khó khăn nhất. Một số cấu trúc thường dùng để giải quyết bài toán phân tích cấu trúc toán học như: cấu trúc cây, đồ thị, văn phạm phi ngữ cảnh.

Như vậy, các phương pháp truyền thống để nhận dạng công thức đã được nghiên cứu từ nhiều năm. Các phương pháp này thường có những nhược điểm chính sau: (1) Độ chính xác nhận dạng công thức toán học còn thấp. Bất kỳ lỗi nào gặp phải trong quá trình phân vùng, nhận dạng kí tự hay phân tích cấu trúc kí tự đều dẫn đến kết quả nhận dạng sai. (2) Việc trích chọn đặc trưng thủ công cho một số lượng lớn kí tự toán học tốn rất nhiều thời gian và công sức. (3) Rất khó đánh giá, so sánh độ chính xác trong nhận dạng của các phương pháp

5

đề xuất vì các phương pháp này thử nghiệm trên các tập dữ liệu khác nhau. 1.3.2 Nhận dạng công thức toán học sử dụng các mạng Nơ ron

Trong những năm gần đây, các mạng học sâu được áp dụng một cách hiệu quả trong nhận dạng công thức toán học. Nghiên cứu [24] áp dụng mạng nơ ron tích chập và mạng hồi quy để nhận dạng công thức toán học được chụp bằng camera. Một số mô hình dựa trên mạng Encoder-Decoder[25] được đưa ra để nhận dạng công thức toán học. Ý tưởng chính của mạng này là sử dụng mạng nơ ron tích chập để trích chọn đặc trưng tự động của ảnh công thức. Sau đó, bộ giải mã áp dụng cấu trúc mạng hồi quy để giải mã các đặc trưng này thành kết quả nhận dạng công thức. Từ mô hình mạng Encoder-Decoder, một số kỹ thuật được tiếp tục cải tiến để nâng cao chất lượng nhận dạng công thức. Nghiên cứu [3] đưa ra cơ chế học tăng cường dựa trên mẫu chữ viết tay và chữ in để nâng cao độ chính xác nhận công thức. So với các phương pháp truyền thống, phương pháp nhận dạng dựa trên học sâu cho độ chính xác cao hơn đối với các công thức toán học lớn, phức tạp. 1.4 Cơ sở dữ liệu và độ đo đánh giá hệ thống 1.4.1 Cơ sở dữ liệu

Một số phương pháp đã có đánh giá độ chính xác của bài toán phát hiện và nhận dạng công thức toán học trên các cơ sở dữ liệu cá nhân có kích thước nhỏ. Để có đánh giá rõ ràng và so sánh được các phương pháp đã có, luận án thực hiện các thử nghiệm trên các bộ cơ sở dữ liệu dùng chung trên thế giới là cơ sở dữ liệu Marmot [11] và GTDB [21]. So với cơ sở dữ liệu Marmot, cơ sở dữ liệu GTDB lớn hơn, thách thức hơn về số lượng, kích thước công thức. Thông tin so sánh giữa hai cơ sở dữ liệu được mô tả trong bảng 1.3.

Bảng 1.3 Thông tin về cơ sở dữ liệu Marmot và GTDB

GTDB Marmot Cơ sở dữ liệu

Huấn luyện Thử nghiệm Huấn luyện Thử nghiệm 569 4218 22178 236 2488 9397 330 1322 6951 70 253 956

Số trang tài liệu Số lượng công thức độc lập Số lượng công thức nội tuyến Số lượng font chữ Số công thức trung bình/1 trang 30 47.55 18 23.70

1.4.2 Độ đo đánh giá hiệu năng hệ thống

Hai độ đo phổ biến được áp dụng để đánh giá hiệu năng hệ thống phát hiện công thức. Độ đo thứ nhất là Precision (P), Recall (R) và F1 score. Độ đo thứ hai được sử dụng là độ đo IoU (Intersection over Union). Độ đo IoU thường được áp dụng trong bài toán phát hiện đối tượng.

Trong khi đó, hai độ đo về tỉ lệ lỗi ký tự (WER) và tỉ lệ lỗi nhận dạng công thức (ExpRate) được áp dụng để đánh giá độ chính xác của hệ thống nhận dạng công thức. Độ đo (ExpRate) là tỉ lệ số lượng công thức nhận dạng đúng hoàn toàn so với tổng số công thức có trong cơ sở dữ liệu. Độ đo (WER) được tính theo tỉ lệ giữa số lượng kí tự cần thay đổi (thêm, sửa, xóa)

6

để thu được chuỗi chính xác biểu diễn công thức và tổng số kí tự của chuỗi biểu diễn công thức.

CHƯƠNG 2

Phát hiện công thức sử dụng phương pháp kết hợp giữa trích chọn đặc trưng thủ công và các mạng học sâu

2.1 Giới thiệu phương pháp

Tài liệu khoa học thường bao gồm nhiều thành phần khác nhau như: bảng, hình vẽ, kí tự và công thức toán học. Các phương pháp truyền thống phát hiện công thức dựa trên hai kỹ thuật chính: phân tích trang tài liệu và trích chọn đặc trưng thủ công. Các phương pháp truyền thống thường cho kết quả phát hiện công thức thấp đối với các tài liệu có cấu trúc phức tạp. Do đó, chương này trình bày phương pháp kết hợp giữa trích chọn đặc trưng thủ công và kỹ thuật học sâu tiên tiến nhằm nâng cao độ chính xác phát hiện công thức toán học. Hình 2.1 minh họa các bước của phương pháp. Đầu vào của phương pháp là hình ảnh tài liệu đen trắng. Kỹ thuật phân tích trang tài liệu dựa trên phép chiếu được thực hiện để tách dòng tài liệu (text lines). Các công thức độc lập được phát hiện từ các dòng tài liệu thu được. Các dòng tài liệu không phải là công thức độc lập được tách thành các từ (word). Các công thức nội tuyến được phát hiện từ các từ. Cuối cùng, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trong phát hiện công thức.

Hình 2.1 Sơ đồ khối của hệ thống phát hiện công thức toán học.

7

2.2 Phân tích trang tài liệu

thủ công

Công thức và văn bản trong tài liệu được biểu diễn từ trên xuống dưới và từ trái sang phải, do vậy, kĩ thuật phân tích trang tài liệu dựa trên hình chiếu ngang và hình chiếu dọc được áp dụng [8]. Hình chiếu ngang và hình chiếu dọc của ảnh cho biết sự phân bố của các điểm ảnh theo hai chiều, do đó, đây là kĩ thuật đơn giản và phù hợp cho phân tích cấu trúc tài liệu. Mục tiêu của quá trình phân tích trang tài liệu là để lấy ra các dòng văn bản và các từ. Dựa trên các dòng và các từ đã lấy được từ trang tài liệu, công thức độc lập và công thức nội tuyến sẽ được phát hiện. 2.3 Phát hiện công thức dựa trên phương pháp trích chọn đặc trưng

Hình 2.2 Sơ đồ khối của quá trình phát hiện công thức toán học dựa trên trích chọn đặc trưng thủ công

Sơ đồ khối của quá trình phát hiện công thức độc lập và công thức nội tuyến được mô tả trong hình 2.2. Với phương pháp phát hiện dựa trên trích chọn đặc trưng thủ công, dựa trên những đặc điểm khác nhau của công thức toán học và kí tự văn bản thông thường, những đặc trưng được nghiên cứu, đề xuất để nâng cao độ chính xác trong phát hiện. 2.3.1 Phát hiện công thức độc lập dựa trên trích chọn đặc trưng thủ công

Mật độ và khoảng cách giữa các kí tự của công thức độc lập thường khác so với các kí tự văn bản thông thường. Do đó, để làm nổi bật đặc trưng này, các dòng văn bản được chuyển đổi sang miền tần số nhờ biến đổi Fast Fourier Transform (FFT).

8

Cho ảnh a có kích thước M × N , biến đổi FFT [7] của ảnh này được tính dựa trên công

M (cid:88)

N (cid:88)

thức sau:

m=1

n=1

A(Ω, ψ) = a(m, n)e−j(Ωm+ψn) (2.1)

Trong đó, A(Ω, ψ) là giá trị biến đổi thu được trong miền tần số nhờ áp dụng biến đổi FFT. Sau quá trình biến đổi sang miền tần số, thành phần tần số và biên độ của biến đổi FFT thu được sẽ được sử dụng làm đặc trưng để phát hiện công thức độc lập.

Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện công thức độc lập. 2.3.2 Phát hiện công thức nội tuyến dựa trên trích chọn đặc trưng thủ công

Sau khi phát hiện công thức độc lập, các dòng không phải là công thức độc lập được phân vùng thành các từ (word). Các từ thu được sẽ được tiếp tục phân loại để phát hiện công thức nội tuyến. Công thức nội tuyến thường chứa ít kí tự toán học và thường được biểu diễn nghiêng. Để phát hiện công thức nội tuyến, luận án đề xuất phương pháp trích chọn đặc trưng dựa trên phép chiếu của ảnh công thức nội tuyến. Trong phương pháp này, trước hết, hình chiếu theo phương ngang và phương dọc của ảnh công thức được tính toán. Sau đó, phương pháp tìm những điểm cực đại và cực tiểu của các hình chiếu. Các điểm cực trị này phân bố gần đúng theo phân bố chuẩn (Gaussian), do đó, các tham số của phân bố chuẩn được sử dụng làm các đặc trưng của hình chiếu của công thức. Như vậy, vectơ đặc trưng để phát hiện công thức nội tuyến sẽ bao gồm những giá trị như sau:

(1) Số lượng các cực đại địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh

các từ (word).

(2) Giá trị trung bình của các cực đại địa phương của các hình chiếu ngang, dọc.

(3) Độ lệch chuẩn của các cực đại địa phương

(4) Số lượng các cực tiểu địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh

các từ (word).

(5) Giá trị trung bình của các cực tiểu địa phương của các hình chiếu ngang, dọc.

(6) Độ lệch chuẩn của các cực tiểu địa phương

Với ảnh có kích thước m × n, độ phức tạp của giải thuật trích chọn đặc trưng lần lượt là O(m) và O(n) áp dụng cho hình chiếu ngang và hình chiếu dọc của ảnh. Giải thuật tập trung lấy đặc trưng của các điểm cực trị của hình chiếu trên mỗi chiều của ảnh thay vì lấy đặc trưng

9

của toàn bộ ảnh, do đó hiệu năng của giải thuật tốt hơn hơn so với các phương pháp trích chọn đặc trưng đã có trên toàn bộ ảnh.

Hình 2.3 Sơ đồ khối phát hiện công thức sử dụng các mạng nơ ron tích chập

Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện công thức độc lập. 2.4 Phát hiện công thức sử dụng các mạng nơ ron tích chập

So với các phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập cho hiệu quả cao hơn trong phát hiện công thức. Trong luận án này, hai mạng nơ ron tích chập phổ biến là Alexnet và Resnet được áp dụng để tăng độ chính xác trong phát hiện công thức. So với mạng Alexnet, mạng Resnet có cấu trúc phức tạp hơn và cho khả năng phát hiện công thức chính xác hơn.

Hình 2.3 minh họa các bước phát hiện công thức toán học dựa trên các mạng nơ ron tích chập. Khác với phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập học tự động một số lượng lớn các đặc trưng của ảnh công thức. Nhờ vậy mà các đặc trưng khác biệt giữa công thức và văn bản được học tự động một cách hiệu quả mà không phụ thuộc nhiều vào sự quan sát của người dùng. Sau quá trình học tự động, sự phân loại công thức được thực hiện ở lớp softmax.

10

2.5 Phát hiện công thức dựa trên kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập

Hình 2.4 Sơ đồ khối của phát hiện công thức dựa trên kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập.

Trong những năm gần đây, chiến lược kết hợp nhiều mô hình cho hiệu quả cao trong phát hiện và phân loại đối tượng. Luận án nghiên cứu và áp dụng phương pháp kết hợp muộn giữa kết quả dự đoán công thức đầu ra của các bộ phân lớp học máy (SVM, kNN, cây quyết định, rừng ngẫu nhiên) và kết quả dự đoán của lớp softmax của các mạng nơ ron tích chập. Sơ đồ khối 2.4 mô tả chi tiết quá trình kết hợp muộn trong phát hiện công thức. 2.6 Kỹ thuật hậu xử lý trong phát hiện công thức

Trong phát hiện công thức, một số công thức lớn thường bị tách thành nhiều dòng. Do đó, nhằm nâng cao độ chính xác trong phát hiện công thức, luận án áp dụng phương pháp

11

(a) Trước khi hậu xử lý

(b) Sau khi hậu xử lý

ước lượng ngưỡng để ghép các thành phần bị tách của công thức thành công thức cuối cùng. Hình 2.5 minh họa quá trình ghép hai thành phần của một công thức bị tách thành một công thức hoàn chỉnh.

2.7 Kết quả đánh giá thực nghiệm

Hình 2.5 Ví dụ minh họa về kỹ thuật hậu xử lý áp dụng để ghép hai phần của công thức để thu được công thức cuối cùng.

Bảng 2.1 So sánh kết quả nhận dạng công thức độc lập trên cơ sở dữ liệu Marmot của phương pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm)

Phương pháp Phát hiện (PH) lỗi Thiếu Sai Tổng

Kết quả phát hiện PH hoàn toàn PH một phần Tổng 26.87% 44.89% 71.76% 9.89% 18.35% 28.24%

Phương pháp [12] Đề xuất 31.02% FFT và RF 47.22% Mạng AlexNet 50.89% Mạng ResNet-18 Kết hợp trung bình 51.34% 51.34% Kết hợp nhân 42.32% 41.44% 39.27% 39.45% 39.84% 73.34% 9.04% 17.62% 26.66% 88.66% 2.78% 8.56% 11.34% 90.16% 3.55% 6.29% 9.84% 90.79% 3.55% 5.66% 9.21% 91.18% 3.14% 5.68% 8.82%

Bảng 2.2 So sánh kết quả nhận dạng công thức nội tuyến trên cơ sở dữ liệu Marmot của phương pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm)

Phát hiện (PH) sai Phương pháp Total

Phát hiện Đúng 1.74% Đúng một phần Tổng số PH thiếu Sai 28.87% 30.61% 9.93% 59.46% 69.39%

Phương pháp [12] Đề xuất 11.05% 41.40% Phép chiếu và RF 21.54% 56.25% Mạng AlexNet 22.68% 57.06% Mạng ResNet-18 Kết hợp trung bình 22.79% 57.96% 22.90% 58.45% Kết hợp nhân 52.45% 8.36% 77.79% 7.60% 79.74% 5.59% 79.85% 5.79% 81.35% 5.40% 39.19% 47.55% 14.61% 22.21% 14.67% 20.26% 14.36% 20.15% 13.25% 18.65%

12

Bảng 2.3 So sánh hiệu năng của phương pháp đề xuất và các phương pháp đã có trên cơ sở dữ liệu GTDB

Phương pháp Dựa trên đồ thị + nhận dạng [22] Hệ thống Michiking [22] Phương pháp đề xuất IoU ≥ 0.5 94.36% 36.87% 50.17% IoU ≥ 0.75 94.17% 19.10% 43.19%

Hình 2.6 Ví dụ minh họa phát hiện công thức trong cơ sở dữ liệu GTDB. Kết quả phát hiện được biểu diễn bởi màu xanh, dữ liệu trong cơ sở dữ liệu được biểu diễn bởi màu đỏ

Bảng 2.1 và 2.2 thể hiện kết quả phát hiện công thức toán học của phương pháp đề xuất và các phương pháp đã có trên cơ sở dữ liệu Marmot. Bảng 2.3 thể hiện kết quả phát hiện công thức của phương pháp đề xuất và phương pháp đã có trên cơ sở dữ liệu GTDB. So với phương pháp phát hiện truyền thống dựa trên xử lý ảnh và trích chọn đặc trưng thủ công, phương pháp đề xuất cho kết quả cao hơn đáng kể trong phát hiện công thức. Hiệu quả phát hiện cao hơn là nhờ phương pháp đề xuất kết hợp được hiệu quả của các mạng nơ ron tích chập và phương pháp trích chọn đặc trưng dựa trên biến đổi FFT và phép chiếu. Phương pháp phát hiện dựa trên đồ thị và kết quả nhận dạng cho kết quả cao nhất, tuy nhiên, để có kết quả nhận dạng một số lượng lớn các kí tự, phương pháp này đòi hỏi rất nhiều thời gian và công sức. 2.8 Tiểu kết chương

Chương này trình bày phương pháp nâng cao độ chính xác trong phát hiện công thức toán học dựa trên phương pháp kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và các mạng nơ ron tích chập. Phương pháp đề xuất nâng cao độ chính xác trong phát hiện công thức so với các phương pháp trích chọn đặc trưng thủ công truyền thống. Tuy vậy, độ chính xác của phương pháp phụ thuộc và độ chính xác trong quá trình phân tích trang tài liệu. Trong chương tiếp theo, phương pháp phát hiện công thức tích hợp dựa trên mạng học sâu Faster R-CNN được đề xuất để nâng cao hơn nữa độ chính xác phát hiện công thức. Các

13

kết quả của phương pháp đề xuất được công bố trong các bài báo khoa học 1, 2, 3, 4, 6 và 7.

CHƯƠNG 3

Phát hiện công thức sử dụng biến đổi khoảng cách và tối ưu mạng Faster R-CNN

3.1 Giới thiệu phương pháp phát hiện công thức dựa trên biến đổi

khoảng cách và mạng Faster R-CNN

Hình 3.1 Sơ đồ khối mô tả phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN.

Chương trước trình bày phương pháp phát hiện công thức toán học trong tài liệu ảnh dựa trên hai bước chính: phân tích trang tài liệu và kỹ thuật lai giữa trích chọn đặc trưng thủ công và mạng nơ ron tích chập. Hiệu quả của phương pháp phụ thuộc vào độ chính xác của bước phân tích trang tài liệu. Đối với những tài liệu có cấu trúc phức tạp, phương pháp trên gặp nhiều lỗi phát hiện công thức. Để cải thiện độ chính xác phát hiện công thức đối với các tài liệu có cấu trúc phức tạp, chương này nghiên cứu và đề xuất phương pháp phát hiện công thức tích hợp dựa trên biến đổi khoảng cách (Distance Transform - DT) và mạng nơ ron Faster R-CNN. Biến đổi khoảng cách thực hiện biến đổi từ ảnh tài liệu từ đen trắng sang ảnh màu. Phương pháp biến đổi này nhằm khai thác đặc tính khoảng cách giữa kí tự trong công thức khác với khoảng cách giữa các kí tự trong văn bản thông thường. Sau đó, mạng Faster R-CNN thực hiện phát hiện công thức toán học trong ảnh thu được sau khi biến đổi. Mạng Faster R-CNN đã cho thấy hiệu quả phát hiện chính xác hơn so với các mạng nơ ron khác. Để nâng cao độ chính xác trong phát hiện công thức của mạng Faster R-CNN, luận án đề xuất chiến lược tối ưu các thành phần của mạng Faster R-CNN. Hình 3.1 mô tả các bước phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN. Chi tiết các bước tiếp tục được mô tả trong các phần tiếp theo của chương.

14

3.2 Phát hiện công thức dựa trên biến đổi khoảng cách và mạng

Faster R-CNN

3.2.1 Biến đổi ảnh dựa trên khoảng cách

(a) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo Euclidean

(b) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo City block

Ảnh tài liệu thường là ảnh đen trắng. Mục tiêu của biến đổi ảnh dựa trên khoảng cách [14] là biến đổi ảnh đen trắng thành ảnh xám. Sau đó, các kênh màu xám sẽ được ghép lại để biến đổi từ ảnh xám thành ảnh màu RGB. Phép chuyển đổi ảnh này làm nổi bật thông tin của công thức toán học. Hơn nữa, mạng Faster R-CNN được thiết kế để phát hiện đối tượng trong ảnh màu, do đó, chuyển đổi ảnh từ đen trắng sang ảnh màu giúp mạng Faster R-CNN phát hiện công thức chính xác hơn. Với ảnh tài liệu có kích thước m × n, độ phức tạp của thuật toán biến đổi ảnh dựa trên khoảng cách là O(m × n).

Hình 3.2 Ví dụ về ảnh thu được sau khi áp dụng DT với độ đo Euclidean (a) và độ đo City block (b). Kích thước ảnh hiển thị trên các trục tọa độ x và y. Tỉ lệ màu của ảnh được thể hiện trên biểu đồ màu sắc.

3.2.2 Cấu trúc mạng Faster R-CNN phát hiện công thức

Sau khi ảnh được chuyển đổi sang ảnh màu RBG, công thức được phát hiện một cách tích hợp nhờ mạng nơ ron Faster R-CNN. Cấu trúc của mạng Faster R-CNN gồm hai mạng chính: mạng RPN (Region proposal network) và mạng FCN (Fully connected detection network). Phần này mô tả các bước cài đặt, cấu hình và tinh chỉnh mạng Faster R-CNN để phát hiện công thức.

15

Hình 3.3 Mô hình cấu trúc của mạng Faster R-CNN gồm hai mạng RPN và FCN.

3.2.2.1 Cấu hình mạng RPN

Mạng RPN được sử dụng để sinh ra các vùng ứng cử viên cho công thức. Đầu vào của mạng RPN là bảng kích thước n × n gồm các đặc trưng của ảnh. Với mỗi vùng trong bảng đặc trưng, k vùng được đề xuất trong quá trình phát hiện đối tượng. Cấu hình mặc định của mạng RPN được thiết lập với k=9. Luận án thực hiện chuẩn hóa kích thước ảnh tài liệu đầu vào và thống kê kích thước công thức trong ảnh. Số lượng và kích thước của các vùng được đề xuất sao cho độ bao phủ của các vùng này với các công thức là tối ưu. Từ đó, mạng RPN được tinh chỉnh để có thể phát hiện chính xác nhất các công thức trong ảnh tài liệu. Kết quả cho thấy tham số k=15 và k=12 được xác định để tối ưu mạng RPN trong phát hiện công thức độc lập và công thức nội tuyến. 3.2.2.2 Cấu trúc mạng FCN

Các vùng được đề xuất nhờ mạng RPN sau đó được đưa vào mạng FCN để xác định chính xác vị trí các công thức toán học. Mạng FCN sử dụng lớp softmax để phân loại công thức và lớp Box Regression để tinh chỉnh vị trí công thức. Trong luận án này, mạng Faster R-CNN được phát triển dựa trên mạng Resnet-50 với 177 lớp. Tỉ lệ học được thiết lập với giá trị 0.001 và giá trị max epochs trong quá trình huấn luyện được thiết lập là 10. Các giá trị này được kiểm tra và thiết lập để mạng Faster R-CNN phát hiện chính xác nhất công thức. 3.3 Kết quả thực nghiệm

Bảng 3.1 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm)

Phương pháp PH một phần Tổng Sai PH thiếu Sai Tổng

Phương pháp [12] FFT (chương 2) Kết hợp (chương 2) Phát hiện Đúng 26.87% 44.89% 31.02% 42.32% 51.34% 39.84% 71.76% 9.89% 73.34% 9.04% 91.18% 3.14% 18.35% 28.24% 17.62% 26.66% 5.68% 8.82%

Mô hình đề xuất 84.80% 8.10% 92.90% 2.27% 4.83% 7.10%

Kết quả so sánh của phương pháp đề xuất phát hiện công thức độc lập và công thức nội tuyến và các phương pháp đã có trên cơ sở dữ liệu Marmot được mô tả trong các bảng 3.1 và 3.2. Kết quả so sánh trên cơ sở dữ liệu GTDB được mô tả trong các bảng 3.3 và 3.4. So

16

Bảng 3.2 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm)

Phương pháp Lỗi PH thiếu Sai Tổng

Phương pháp [12] Phép chiếu (chương 2) Kết hợp (chương 2) Phát hiện PH một phần Tổng Đúng 1.74% 28.87% 11.05% 41.40% 22.90% 58.45% 30.61% 9.93% 52.45% 8.36% 81.35% 5.40% 59.46% 69.39% 39.19% 47.55% 13.25% 18.65%

Mô hình đề xuất 75.95% 9.95% 85.90% 6.25% 8.20% 14.10%

Bảng 3.3 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm)

Phương pháp PH một phần Tổng Lỗi PH thiếu Sai Total

Phương pháp [12] FFT (chương 2) Kết hợp (chương 2) Phát hiện Đúng 26.22% 44.87% 30.86% 42.12% 50.37% 39.14% 71.09% 9.91% 72.98% 9.25% 89.51% 3.16% 19.00% 28.91% 17.77% 27.02% 7.33% 10.49%

Mô hình đề xuất 83.79% 7.25% 91.04% 2.15% 6.81% 8.96%

Bảng 3.4 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm)

Phương pháp Lỗi PH thiếu Sai Total

Phương pháp [12] Phép chiếu (chương 2) Kết hợp (chương 2) Phát hiện PH một phần Tổng Đúng 1.56% 28.67% 10.48% 41.36% 22.76% 57.44% 30.23% 9.97% 51.84% 8.26% 80.20% 5.46% 59.80% 69.77% 39.90% 48.16% 14.34% 19.80%

Mô hình đề xuất 75.20% 9.95% 85.15% 6.15% 8.70% 14.85%

với các phương pháp phát hiện công thức dựa trên nhiều bước, phương pháp phát hiện tích hợp cho độ chính xác cao hơn vì kết quả phương pháp không phụ thuộc vào độ chính xác của kỹ thuật phân tích trang tài liệu. So với các phương pháp phát hiện sử dụng mạng Yolov3 và SSD-512, phương pháp đề xuất cho kết quả tốt hơn nhờ áp dụng phương pháp xử lý ảnh dựa trên khoảng cách và tối ưu mạng Faster R-CNN. Kết quả so sánh được thể hiện trong bảng 3.5.

Bảng 3.5 So sánh hiệu năng phát hiện công thức của phương pháp đề xuất và các phương pháp khác trên cơ sở dữ liệu GTDB

Phương pháp Đồ thị + nhận dạng [10] Sử dụng mạng SSD512 Sử dụng mạng Yolov3 Hệ thống Michiking [22] Mô hình đề xuất Phát hiện IoU ≥ 0.5 Phát hiện IoU ≥ 0.75 94.36% 83.14% 74.4% 36.87% 83.79% 94.17% 75.29% 63.20% 19.10% 77.20%

17

3.4 Tiểu kết chương

Hình 3.4 Ví dụ về phát hiện công thức trong cơ sở dữ liệu GTDB. Công thức được phát hiện và mô tả trong cơ sở dữ liệu được biểu diễn lần lượt bằng màu xanh và màu đỏ.

Chương này trình bày phương pháp phát hiện công thức tích hợp dựa trên biến đổi khoảng cách và mạng Faster R-CNN. So với phương pháp phát hiện nhiều bước mô tả trong chương 2, phương pháp tích hợp cho kết quả phát hiện cao hơn. Kết quả của phương pháp đề xuất được công bố trong bài báo số 8.

CHƯƠNG 4

Hệ thống phát hiện và nhận dạng công thức trong tài liệu ảnh

4.1 Tổng quan hệ thống

Hình 4.1 Sơ đồ khối của hệ thống phát hiện và nhận dạng công thức toán học.

Trước đây, các nghiên cứu đã có tập trung vào nhận dạng công thức đã được phân vùng thủ công hoặc công thức trong ảnh chụp. Chương này giới thiệu hệ thống phát hiện và nhận dạng công thức toán học trong tài liệu ảnh cho người sử dụng cuối. Hệ thống được phát triển gồm hai thành phần chính. Phần thứ nhất, công thức được phát hiện tự động dựa trên mô hình mạng Faster R-CNN đề xuất trong chương 3. Sau đó, công thức đã phát hiện được nhận dạng nhờ mạng học sâu theo kiến trúc Encoder-Decoder, mạng WAP. Đây là kiến trúc mạng

18

có hiệu quả nhận dạng tốt đối với công thức viết tay. Luận án đã áp dụng phương pháp học chuyển giao để áp dụng và tối ưu mạng cho nhận dạng công thức in. So với phương pháp truyền thống thực hiện nhận dạng công thức dựa trên các kỹ thuật phân vùng, nhận dạng, phân tích cấu trúc kí tự toán học, việc áp dụng mạng học sâu WAP cho độ chính xác cao hơn, tiết kiệm thời gian và công sức. Hình 4.1 mô tả chi tiết hai thành phần của hệ thống phát hiện và nhận dạng công thức. 4.2 Nhận dạng công thức toán học dựa trên mạng WAP

Cấu trúc của mạng WAP cho nhận dạng công thức gồm hai thành phần chính: thành phần Watcher trích chọn đặc trưng của ảnh công thức được thực hiện nhờ mạng nơ ron tích chập FCN và thành phần Parser phân tích, chuyển đổi từ vectơ đặc trưng thu được thành dạng chuỗi được thực hiện bởi mạng GRU (Gated Recurrent Unit). Kiến trúc mạng WAP được minh họa trong hình 4.2. 4.2.1 Thành phần trích chọn đặc trưng của công thức (Watcher)

Để thực hiện chức năng trích chọn đặc trưng tự động của ảnh công thức, mô hình WAP áp dụng mạng nơ ron tích chập FCN. Với mỗi ảnh công thức đầu vào, mạng FCN tự động trích chọn đặc trưng và biểu diễn bằng vectơ đặc trưng. Trong luận án này, ảnh công thức đầu vào là ảnh xám và được chuẩn hóa kích thước để hệ thống có thể xử lý được các ảnh công thức đa dạng, khác nhau.

Hình 4.2 Kiến trúc mạng WAP

4.2.2 Thành phần phân tích, giải mã công thức (Parser)

Sau khi trích chọn đặc trưng tự động nhờ thành phần Watcher, mạng WAP phân tích và giải mã vectơ đặc trưng để thu được chuỗi kí tự biểu diễn công thức toán học dưới định dạng Latex. Để thực hiện nhiệm vụ này, mạng GRU là một cải tiến của mạng hồi quy được nghiên cứu và áp dụng. Chức năng của mạng GRU là để biên dịch từng vị trí của công thức thành từng kí tự và ghép các kí tự thu được thành chuỗi Latex biểu diễn công thức. Ngoài ra, do công thức toán học có thể gồm hàng trăm kí tự và được biểu diễn dưới dạng không gian hai chiều, để phân tích và giải mã công thức được tốt hơn, cơ chế attention được áp dụng cho thành phần Parser. Cơ chế này giúp mạng WAP có thể tập trung cao hơn vào một số thành phần của công thức toán học. Bên cạnh đó, thành phần Parser cũng sử dụng coverage vectơ để đảm bảo công thức được nhận dạng hoàn toàn.

Trong quá trình huấn luyện mạng WAP, tập từ vựng gồm 110 kí tự toán học được chuẩn bị thủ công. Ngoài ra, tập hợp các ảnh công thức và mã Latex tương ứng của công thức được chuẩn bị thủ công cho huấn luyện mạng.

19

Bảng 4.1 Đánh giá hiệu năng hệ thống phát hiện và nhận dạng công thức trên cơ sở dữ liệu Marmot

ExpRate

Phương pháp Nhận dạng công thức (phân vùng thủ công) Nhận dạng công thức (phân vùng tự động) WER 51.28% 51.77% 51.95% 45.50%

4.3 Kết quả thực nghiệm

Hình 4.3 So sánh hiệu năng nhận dạng công thức toán học của các hệ thống khác nhau.

Hình 4.4 Ví dụ về phát hiện và nhận dạng công thức trong một trang tài liệu.

Hệ thống phát hiện và nhận dạng được áp dụng huấn luyện và thử nghiệm trên cơ sở dữ

liệu Marmot.

Bảng 4.1 hiển thị kết quả nhận dạng cho công thức toán học được phân vùng tự động và phân vùng thủ công trên cơ sở dữ liệu Marmot. Hệ thống nhận dạng được áp dụng cho công thức phân vùng thủ công được chuẩn bị sẵn trong cơ sở dữ liệu Marmot và công thức phân vùng tự động thực hiện nhờ mạng Faster R-CNN trong chương 3. So với các công thức phân vùng thủ công, hệ thống tự động phân vùng và phát hiện công thức cho kết quả thấp hơn vì kết quả phát hiện sai có thể ảnh hưởng tới kết quả nhận dạng.

Để đánh giá hiệu năng của hệ thống, độ chính xác trong phát hiện và nhận dạng công

20

thức của hệ thống đề xuất được so sánh với các hệ thống phổ biến hiện nay như: Tesseract v4, Infty Reader v 3.2 và Mathpix. Hình 4.3 cho thấy độ chính xác của hệ thống đề xuất được cải tiến hơn nhiều so với các hệ thống hiện có như Tesseract v4, Infty Reader v 3.2. Mathpix là phần mềm thương mại, thường xuyên được huấn luyện với bộ dữ liệu công thức lớn, do đó độ chính xác trong nhận dạng của Mathpix tốt nhất trong các hệ thống thử nghiệm. Hình 4.4 mô tả ví dụ minh họa về nhận dạng và phát hiện công thức trong một trang tài liệu. Với các công thức ngắn, hệ thống cho kết quả nhận dạng cao hơn. Với các công thức dài và chứa nhiều kí tự, hệ thống có thể cho kết quả nhận dạng chưa chính xác. Nguyên nhân của kết quả nhận dạng sai có thể do quá trình phát hiện chưa chính xác kí tự hoặc một số kí tự không có trong bộ dữ liệu huấn luyện. 4.4 Tiểu kết chương

Chương này trình bày hệ thống phát hiện và nhận dạng công thức toán học dựa trên mạng học sâu Faster R-CNN và WAP. So với các hệ thống truyền thống đã có, hệ thống đề xuất cho kết quả nhận dạng cao hơn đáng kể. Tuy vậy, do tập công thức huấn luyện còn hạn chế nên hiệu năng của hệ thống cần tiếp tục được cải tiến hơn trong tương lai. Kết quả chính của chương được trình bày trong công bố 5.

Kết luận và hướng phát triển

Kết luận

Luận án đã nghiên cứu và đề xuất các giải pháp nâng cao độ chính xác trong phát hiện và nhận dạng công thức toán học trong tài liệu ảnh. Cụ thể, những đóng góp chính của luận án như sau:

(1) Luận án đã đề xuất phương pháp nâng cao độ chính xác trong phát hiện công thức dựa trên kỹ thuật kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và mạng nơ ron tích chập hiện đại. So với các phương pháp trích chọn đặc trưng truyền thống, phương pháp đề xuất giúp cải thiện độ chính xác trong phát hiện công thức.

(2) Để tiếp tục nâng cao độ chính xác của phát hiện công thức trong những tài liệu có cấu trúc phức tạp, luận án đề xuất phương pháp phát hiện dựa trên phép biến đổi ảnh dựa trên khoảng cách và tối ưu mạng Faster R-CNN. Việc biến đổi ảnh dựa trên khoảng cách nhằm làm nổi bật sự khác nhau trong hiển thị của công thức so với văn bản thông thường. Bên cạnh đó, mạng Faster R-CNN được tối ưu nhằm phát hiện công thức chính xác hơn.

(3) Sau khi nâng cao độ chính xác trong phát hiện công thức, luận án phát triển hệ thống phát hiện và nhận dạng công thức toán học. Trong hệ thống này, công thức sau khi được phát hiện sẽ được nhận dạng dựa vào mạng Encoder-Decoder. Với cấu trúc mạng học sâu hiện đại, tích hợp khả năng xử lý ảnh và xử lý chuỗi, công thức được phát hiện và nhận dạng chính xác hơn so với các phương pháp nhận dạng truyền thống.

21

Hướng phát triển

Trong thời gian tới, luận án tiếp tục được nghiên cứu và phát triển hoàn thiện hơn như

sau:

(1) Áp dụng và tối ưu các mạng học sâu nhằm nâng cao hơn nữa độ chính xác trong phát

hiện và nhận dạng công thức.

(2) Nghiên cứu và áp dụng những kỹ thuật tiền xử lý ảnh, cho phép các phương pháp đề

xuất có thể áp dụng với nhiều ảnh tài liệu đa dạng hơn như ảnh nghiêng, ảnh cong.

(3) Mở rộng phạm vi, số lượng công thức được phát hiện và nhận dạng nhằm hỗ trợ người dùng trong các ứng dụng thực tế có sử dụng thông tin về công thức toán học trong tài liệu ảnh thuận tiện hơn.

22

Tài liệu tham khảo

[1] D.F.Chan and D.Yeung (2000). Mathematical expression recognition: A survey. Interna- tional Journal on Document Analysis and Recognition, 3.1, pp. 3–15.

[2] Muno F.A. (2015). Mathematical expression recognition based on probabilistic grammar . PhD. Thesis, Technical University of Valencia, Spain.

[3] J.Wu et al. (2019).

Image-to-markup generation via paired adversarial learning. Ma- chine Learning and Knowledge Discovery in Databases, pp. 18–34. doi:10.1007/978-3- 030-10925-7_2.

[4] L.Lamport (1994). Latex: A document preparation system. Addison-Wesley Professional, 2nd Edition.

[5] Redden J. (2011). Elementary algebra textbook . Saylor Foundation.

[6] Fateman R. (December 1997). How to find mathematics on a scanned page. Proceedings of SPIE - The International Society for Optical Engineering. doi:10.1117/12.373482.

[7] Young I.T. et al. (1995). Fundamentals of image processing. Delft University of Technol- ogy.

[8] Papandreou A. and Gatos B. (2011). A novel skew detection technique on vertical pro- jections. International Conference on Document Analysis and Recognition.

[9] Zanibbi R. and Blostein D. (2012). Recognition and retrieval of mathematical expressions. International Journal on Document Analysis and Recognition, 15.4, pp. 331–357.

[10] Degtyarenko I., Radyvonenko O., Bokhan K., and Khomenko V. (2016). Text/shape clas- sifier for mobile applications with handwriting input. International Journal on Document Analysis and Recognition, 19.4, pp. 369–379.

[11] Lin X., Gao L., Tang Z., Lin X., and Hu X. (March 2012). Performance evaluation of mathematical formula identification. International Workshop on Document Analysis Systems. doi:10.1109/das.2012.68.

[12] Chu W. and Liu F. (2013). Mathematical formula detection in heterogeneous document images. Proceeding of the International Conference on Technologies and Applications of Artificial Intelligence.

[13] Garain U. (2009). Identification of mathematical expressions in document images. Inter- national Conference on Document Document Analysis and Recognition.

[14] Xu D. and Li H. (2006). Euclidean distance transform of digital images in arbitrary dimensions. Advances in Multimedia Information Processing - PCM 2006, pp. 72–79.

[15] Tran T.A., Na I.S., and Kim S.H. (2016). Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology. International Journal on Document Analysis and Recognition, 19.3, p. 191–209.

[16] Chen K. et al. (2017). Convolutional neural networks for page segmentation of historical document images. International Conference on Document Analysis and Recognition.

[17] Oliveira S. et al. (2018). A generic deep-learning approach for document segmentation. International Conference on Frontiers in Handwriting Recognition.

23

[18] Lee H. and Wang J. (1997). Design of a mathematical expression understanding system. Pattern Recognition Letters, 18.3, pp. 289–298.

[19] J.Toumit et al. (1999). A hierarchical and recursive model of mathematical expressions for automatic reading of mathematical documents. Proceedings of the Fifth International Conference on Document Analysis and Recognition September 1999.

[20] Kacem A. et al. (2001). Automatic extraction of printed mathematical formulas using fuzzy logic and propagation of context. International Journal on Document Analysis and Recognition, 4.2, pp. 97–108.

[21] Ohyama W. et al. (2019). Detecting mathematical expressions in scientific document images using a u-net trained on a diverse datase. IEEE Access, 7, pp. 144030 – 144042.

[22] Mahdavi M. et al. (2019). Icdar 2019 crohme + tfd: Competition on recognition of hand- written mathematical expressions and typeset formula detection. International Conference on Document Analysis and Recognition. doi:10.1109/icdar.2019.00247.

[23] Yamazaki S. et al. (2011). Embedding a mathematical ocr module into ocropus. Interna- tional Conference on Document Analysis and Recognition.

[24] He W. et al. (2016). Context-aware mathematical expression recognition: An end-to-end framework and a benchmark . International Conference on Pattern Recognition (ICPR), pp. 3246–3251.

[25] J.Zhang et al. (2017). Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition. Pattern Recognition, 71, pp. 196–206.

24

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN

[1] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le (2017), A new method for displayed mathematical expression detection based on FFT and SVM, 4th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, Hanoi, Vietnam, ISBN: 978-1-5386- 3210-9, DOI: 10.1109/NAFOSTED.2017.8108044, pp.90-96, 2017.

[2] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le and Akkiko Aizawa (2019), Math- ematical variable detection in PDF scientific documents, 11th Asian conference on in- telligent information and database systems (ACIIDS), Springer, Cham, Indonesia, DOI: https://doi.org/10.1007/978-3-030-14802-7-60, ISBN: 978-3-030-14802-7, 2019.

[3] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), Mathematical vari- able detection based on CNN and SVM, 2nd International Conference on Multi- ISBN: 978-1-7281-1829-1, DOI: media Analysis and Pattern Recognition (MAPR), 10.1109/MAPR.2019.8743543, pp. 1-5, 2019.

[4] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), A unified system for for mathematical expression detection in scientific document images , Korea-Vietnam Interna- tional Joint Workshop on Communications and Information Sciences (KICS), ISBN: 978- 89-950043-7-1[93560], Hanoi, Viet Nam, pp.14-16, 2019.

[5] Bui Hai Phong, Luong Tan Dat, Nguyen Thi Yen, Thang Manh Hoang and Thi- Lan Le (2020), A deep learning based system for mathematical expression detection and recognition in scientific document images, The 12th IEEE International Conference on Knowledge and Systems Engineering (KSE), ISBN:978-1-7281-3003-3, pp.85-90, 2020, DOI:10.1109/KSE.2019.8919461.

[6] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2020), A hybrid method for mathematical expression detection in scientific document images, IEEE Access, vol. 8, pp.83663 - 83684, 2020, ISSN: 2169-3536 (Print) 2169-3536 (Online), DOI: 10.1109/AC- CESS.2020.2992067 (ISI, Q1, IF=4.098).

[7] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), Mathematical variable de- tection in in scientific document images, International Journal of Computational Vision and Robotics, Vol. 11, No. 1, pp.66-89, 2021, ISSN online: 1752-914X, ISSN print: 1752-9131, DOI:10.1504/IJCVR.2021.111876 (SCOPUS).

[8] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), An end-to-end framework for the detection of mathematical expressions in scientific document images, Expert Systems, Online ISSN:1468-0394, DOI: 10.1111/exsy.12800 (ISI, Q2, IF=2.587).