Nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản: Tóm tắt Luận án Tiến sĩ Khoa học máy tính

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

BÙI HẢI PHONG

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN

CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN

Ngành: Khoa học máy tính

Mã số: 9480101

TÓM TẮT LUẬN ÁN TIẾN SĨ

KHOA HỌC MÁY TÍNH

Hà Nội −2021

Công trình này được hoàn thành tại:

Trường Đại học Bách Khoa Hà Nội

Người hướng dẫn khoa học:

1. PGS.TS. Hoàng Mạnh Thắng

2. PGS.TS. Lê Thị Lan

Phản biện 1:

Phản biện 2:

Phản biện 3:

Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ

cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi giờ , ngày tháng năm 2021

Có thể tìm hiểu luận án tại thư viện:

1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội

2. Thư viện Quốc gia Việt Nam

GIỚI THIỆU

Động lực nghiên cứu

Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công

thức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian,

số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạng

dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF,

tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này,

các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm:

phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2].

Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xác

cao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ý

của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phức

tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong

phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh.

Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong

tài liệu định dạng ảnh

Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức

toán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theo

ngữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.

Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc,

dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân

theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công

thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản

riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bản

thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát

hiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi.

Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong

khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định

dạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này,

kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện

và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mối

quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.

Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhận

dạng.

Phạm vi nghiên cứu của luận án như sau:

Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệu

dạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhật

màu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c).

(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực

khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán

học (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này,

công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích

thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công

thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ.

(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng

tài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạng

công thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao.

(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức

được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được

nhận dạng và biểu diễn nhờ định dạng Latex [4].

Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:

(1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việc

nhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tự

có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí

tự toán học phức tạp có thể chứa các kí tự khác (ví dụ √a). (2) Một số kí tự toán học có

vai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn một

cách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tự

nhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương. Do đó, luận án chỉ tập trung

nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học.

Đóng góp chính của luận án

Luận án có ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận

dạng công thức toán học:

(1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc

trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng

học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học.

Ngoài ra, một ưu điểm của phương pháp này là có thể phát hiện công thức toán học với độ

chính xác cao mà không phụ thuộc vào các phần mềm nhận dạng kí tự. (2) Tiếp theo, luận

án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp này gồm

hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để

chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các

thông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác

hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện

công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các

mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công

thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức này

được nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã.

Cấu trúc của luận án

Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăn

của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một

số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất mô hình

lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự

động dựa trên các mô hình học sâu tiên tiến. Phương pháp lai này cùng với một số chiến lược

phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương

3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức.

Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa

trên các mô hình học sâu tiên tiến. Chương kết luận trình bày tóm tắt các đóng góp của luận

án và đưa ra các hướng phát triển tiếp theo.

CHƯƠNG 1

Nghiên cứu liên quan

Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng

công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân

tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa

ra trong các chương tiếp theo.

Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi