
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÙI HẢI PHONG
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN
CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN
Ngành: Khoa học máy tính
Mã số: 9480101
TÓM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH
Hà Nội −2021

Công trình này được hoàn thành tại:
Trường Đại học Bách Khoa Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Hoàng Mạnh Thắng
2. PGS.TS. Lê Thị Lan
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:
Vào hồi giờ , ngày tháng năm 2021
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam

GIỚI THIỆU
Động lực nghiên cứu
Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công
thức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian,
số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạng
dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF,
tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này,
các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm:
phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2].
Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xác
cao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ý
của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phức
tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong
phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh.
Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong
tài liệu định dạng ảnh
Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức
toán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theo
ngữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.
Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc,
dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân
theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công
thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản
riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bản
thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát
hiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi.
Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong
khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định
dạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này,
kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện
và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mối
quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.
Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhận
dạng.
Phạm vi nghiên cứu của luận án như sau:
1

Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệu
dạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhật
màu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c).
(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực
khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán
học (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này,
công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích
thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công
thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ.
(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng
tài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạng
công thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao.
(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức
được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được
nhận dạng và biểu diễn nhờ định dạng Latex [4].
Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:
(1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việc
nhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tự
có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí
tự toán học phức tạp có thể chứa các kí tự khác (ví dụ √a). (2) Một số kí tự toán học có
vai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn một
cách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tự
nhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương. Do đó, luận án chỉ tập trung
nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học.
2

Đóng góp chính của luận án
Luận án có ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận
dạng công thức toán học:
(1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc
trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng
học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học.
Ngoài ra, một ưu điểm của phương pháp này là có thể phát hiện công thức toán học với độ
chính xác cao mà không phụ thuộc vào các phần mềm nhận dạng kí tự. (2) Tiếp theo, luận
án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp này gồm
hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để
chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các
thông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác
hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện
công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các
mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công
thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức này
được nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã.
Cấu trúc của luận án
Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăn
của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một
số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất mô hình
lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự
động dựa trên các mô hình học sâu tiên tiến. Phương pháp lai này cùng với một số chiến lược
phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương
3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức.
Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa
trên các mô hình học sâu tiên tiến. Chương kết luận trình bày tóm tắt các đóng góp của luận
án và đưa ra các hướng phát triển tiếp theo.
CHƯƠNG 1
Nghiên cứu liên quan
Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng
công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân
tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa
ra trong các chương tiếp theo.
3

