BỘ GIÁO DỤC VÀ ĐÀO TO
TRƯỜNG ĐẠI HỌC CH KHOA NỘI
BÙI HẢI PHONG
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN
CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN
Ngành: Khoa học y tính
số: 9480101
TÓM TT LUẬN ÁN TIẾN
KHOA HỌC Y TÍNH
Nội 2021
Công trình y được hoàn thành tại:
Trường Đại học Bách Khoa Nội
Người hướng dẫn khoa học:
1. PGS.TS. Hoàng Mạnh Thắng
2. PGS.TS. Thị Lan
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo v trước Hội đồng đánh giá luận án tiến
cấp Trường họp tại Trường Đại học Bách khoa Nội:
Vào hồi giờ , ngày tháng năm 2021
thể tìm hiểu luận án tại thư viện:
1. Thư viện T Quang Bửu - Trường ĐHBK Nội
2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU
Động lực nghiên cứu
Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công
thức toán học một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian,
số lượng tài liệu khoa học được công b ngày càng tăng. Các tài liệu khoa học được định dạng
dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF,
tuy vy, vẫn còn một số lượng lớn các tài liệu dạng ảnh. Để thể số hóa các tài liệu y,
các kỹ thuật xử ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm:
phân tích cấu trúc trang tài liệu, nhận dạng tự, so khớp, tìm kiếm nội dung tài liệu [2].
Việc số hóa các tài liệu văn bản tự được coi bài toán đã được giải quyết với độ chính xác
cao. Tuy vy, việc số hóa các tài liệu khoa học nhiều thách thức và đang thu hút sự chú ý
của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học bài toán phức
tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong
phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh.
Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong
tài liệu định dạng ảnh
Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức
toán học thể được định nghĩa sự kết hợp chặt chẽ, hữu hạn các hiệu toán học theo
ngữ cảnh [5]. Các luật kết hợp các hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.
Công thức toán học thường chứa các biến, phép toán, hàm, các hiệu đặc biệt (dấu ngoặc,
dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân
theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công
thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản
riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với tự văn bản
thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát
hiện công thức nội tuyến vẫn một thách thức và đang tiếp tục được nghiên cứu rộng rãi.
Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong
khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định
dạng chuỗi tự và biểu diễn chuỗi tự dưới một định dạng nhất định (trong luận án này,
kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện
và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức mối
quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.
Ngược lại, các lỗi trong quá trình phát hiện công thức thể y ra lỗi trong quá trình nhận
dạng.
Phạm vi nghiên cứu của luận án như sau:
1
Hình 1 dụ minh họa phát hiện (a) nhận dạng (b) công thức toán học trong tài liệu
dạng ảnh. Công thức độc lập công thức nội tuyến được đánh dấu bằng các hình chữ nhật
màu đỏ xanh. Kết quả nhận dạng công thức biểu diễn bằng Latex (c).
(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực
khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán
học (không phải công thức vật , hóa học) trong tài liệu khoa học. Trong các tài liệu này,
công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích
thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công
thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ.
(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng
tài liệu ảnh đầu vào. Luận án y đi sâu nghiên cứu phương pháp phát hiện và nhận dạng
công thức trong tài liệu in, thẳng (không nghiêng, cong) độ phân giải cao.
(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức
được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được
nhận dạng và biểu diễn nhờ định dạng Latex [4].
Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:
(1) Cho tới nay, hàng trăm tự toán học được sử dụng trong công thức toán học. Việc
nhận dạng chính xác một số lượng lớn các tự toán học một thách thức lớn. Một số tự
thể chứa một hoặc nhiều thành phần (ví dụ các tự ’i’, ‘j’, ‘=’). Trong khi đó, một số
tự toán học phức tạp thể chứa các tự khác (ví dụ a). (2) Một số tự toán học
vai trò khác nhau tùy theo ngữ cảnh. (3) Một số tự toán học thể được biểu diễn một
cách tường minh hoặc thể hiểu ngầm tùy theo các tự đi kèm. (4) Cũng như ngôn ngữ tự
nhiên, hiệu toán học rất đa dạng và tính chất địa phương. Do đó, luận án chỉ tập trung
nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học.
2
Đóng góp chính của luận án
Luận án ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận
dạng công thức toán học:
(1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc
trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng
học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học.
Ngoài ra, một ưu điểm của phương pháp y thể phát hiện công thức toán học với độ
chính xác cao không phụ thuộc vào các phần mềm nhận dạng tự. (2) Tiếp theo, luận
án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp y gồm
hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để
chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các
thông tin khác nhau v hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác
hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện
công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các
mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công
thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức y
được nhận dạng dựa trên mạng học sâu theo cấu trúc hóa-Giải mã.
Cấu trúc của luận án
Chương "Giới thiệu"trình y mục tiêu, giới hạn của luận án cũng như những khó khăn
của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một
số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất hình
lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự
động dựa trên các hình học sâu tiên tiến. Phương pháp lai y cùng với một số chiến lược
phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương
3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức.
Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa
trên các hình học sâu tiên tiến. Chương kết luận trình y tóm tắt các đóng góp của luận
án và đưa ra các hướng phát triển tiếp theo.
CHƯƠNG 1
Nghiên cứu liên quan
Chương y nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng
công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân
tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa
ra trong các chương tiếp theo.
3