BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÙI HẢI PHONG
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN
CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN
Ngành: Khoa học máy tính
Mã số: 9480101
TÓM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH
Hà Nội −2021
Công trình này được hoàn thành tại:
Trường Đại học Bách Khoa Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Hoàng Mạnh Thắng
2. PGS.TS. Lê Thị Lan
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:
Vào hồi giờ , ngày tháng năm 2021
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU
Động lực nghiên cứu
Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công
thức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian,
số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạng
dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF,
tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này,
các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm:
phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2].
Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xác
cao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ý
của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phức
tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong
phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh.
Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong
tài liệu định dạng ảnh
Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức
toán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theo
ngữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.
Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc,
dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân
theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công
thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản
riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bản
thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát
hiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi.
Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong
khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định
dạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này,
kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện
và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mối
quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.
Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhận
dạng.
Phạm vi nghiên cứu của luận án như sau:
1
Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệu
dạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhật
màu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c).
(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực
khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán
học (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này,
công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích
thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công
thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ.
(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng
tài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạng
công thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao.
(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức
được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được
nhận dạng và biểu diễn nhờ định dạng Latex [4].
Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:
√
(1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việc
nhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tự
có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí
a ). (2) Một số kí tự toán học có
tự toán học phức tạp có thể chứa các kí tự khác (ví dụ
vai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn một
cách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tự
nhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương. Do đó, luận án chỉ tập trung
nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học.
2
Đóng góp chính của luận án
Luận án có ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận
dạng công thức toán học:
(1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc
trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng
học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học.
Ngoài ra, một ưu điểm của phương pháp này là có thể phát hiện công thức toán học với độ
chính xác cao mà không phụ thuộc vào các phần mềm nhận dạng kí tự. (2) Tiếp theo, luận
án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp này gồm
hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để
chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các
thông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác
hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện
công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các
mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công
thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức này
được nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã.
Cấu trúc của luận án
Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăn
của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một
số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất mô hình
lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự
động dựa trên các mô hình học sâu tiên tiến. Phương pháp lai này cùng với một số chiến lược
phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương
3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức.
Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa
trên các mô hình học sâu tiên tiến. Chương kết luận trình bày tóm tắt các đóng góp của luận
án và đưa ra các hướng phát triển tiếp theo.
CHƯƠNG 1
Nghiên cứu liên quan
Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng
công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân
tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa
ra trong các chương tiếp theo.
3
1.1 Các kỹ thuật phân tích trang tài liệu
Các phương pháp truyền thống giải quyết bài toán phát hiện công thức toán học dựa
trên hai bước [9]: phân tích trang tài liệu và phát hiện công thức dựa trên kết quả phân tích
trang. Phân tích trang tài liệu là kỹ thuật được sử dụng để phân vùng tài liệu thành các vùng
đồng nhất về cấu trúc [17]. Trong những năm gần đây, phân tích trang tài liệu thu hút được
nhiều nhà nghiên cứu trên thế giới. Trước hết, các trang tài liệu được tiền xử lý để nâng cao
chất lượng. Các kỹ thuật tiền xử lý thường gặp như: lọc nhiễu, loại bỏ góc nghiêng, cong của
tài liệu. Sau đó, các kỹ thuật phân tích trang tài liệu được áp dụng bao gồm: kỹ thuật phân
tích từ dưới lên, phân tích từ trên xuống, phân tích dựa trên độ phân giải khác nhau và kỹ
thuật lai [15]. Trong những năm gần đây, các mạng học sâu được áp dụng để phân tích trang
tài liệu. Ưu điểm của các mạng học sâu là có thể phân tích các tài liệu có cấu trúc đa dạng
khác nhau [16].
1.2 Phát hiện công thức trong tài liệu ảnh
Phát hiện công thức toán học trong tài liệu ảnh đã được nghiên cứu từ nhiều năm. Các
phương pháp có thể được chia thành ba loại chính: phương pháp sử dụng luật, phương pháp
sử dụng trích chọn đặc trưng thủ công và phương pháp sử dụng các mạng học sâu.
1.2.1 Phát hiện công thức dựa trên luật
Trong những nghiên cứu đầu tiên về phát hiện công thức trong tài liệu ảnh, các luật được
đưa ra để phát hiện công thức [6, 18]. Các luật được đưa ra dựa trên sự khác nhau về hình
thái học, biểu diễn công thức so với văn bản thông thường. Các phương pháp này thường
được áp dụng để phát hiện công thức trong một số trường hợp đặc biệt. Phương pháp này
gặp nhiều lỗi sai trong phát hiện công thức trong tài liệu có cấu trúc phức tạp.
1.2.2 Phát hiện công thức dựa trên trích chọn đặc trưng thủ công
Các đặc trưng của công thức được trích chọn, thiết kế thủ công để phát hiện công thức
trong tài liệu ảnh. Bảng 1.1 tổng hợp một số đặc trưng cơ bản được thiết kế để phát hiện
công thức độc lập. Bên cạnh đó, các đặc trưng khác được thiết kế để phát hiện công thức
nội tuyến. Bảng 1.2 tổng hợp các đặc trưng được thiết kế để phát hiện công thức nội tuyến.
Sau khi trích chọn đặc trưng, các bộ phân lớp như K láng giềng gần nhất hay Máy vec tơ hỗ
trợ được áp dụng để phát hiện công thức. Các phương pháp phát hiện công thức dựa trên
trích chọn đặc trưng thủ công cho độ chính xác cao với một số dữ liệu nhất định, tuy vậy, các
phương pháp phát hiện này cho hiệu quả thấp với công thức nội tuyến.
Bảng 1.1 Các đặc trưng được sử dụng để phát hiện công thức độc lập
Mô tả
Mật độ các điểm ảnh màu đen
Đặc trưng
Mật độ [12]
Tỉ lệ chiều cao và chiều rộng [19] Tỉ lệ chiều cao và chiều rộng của dòng chữ
Căn lề trái, phải [12, 20]
Vị trí của kí tự [12]
Khoảng cách dòng [23] Căn lề của dòng chữ so với lề văn bản
Thay đổi vị trí của kí tự trong công thức
Khoảng cách với dòng trước và dòng sau
4
Bảng 1.2 Các đặc trưng được sử dụng để phát hiện công thức nội tuyến
Mô tả
Một từ có chứa kí tự đặc biệt hay không
Mật độ điểm ảnh màu đen
Tỉ lệ chiều cao/chiều rộng của từ
Sự thay đổi vị trí của các kí tự trong một từ
Đặc trưng
Kí tự đặc biệt [13]
Mật độ[12]
Tỉ lệ chiều cao/chiều rộng [12]
Thay đổi vị trí của kí tự [12]
Khoảng cách giữa các kí tự [23] Khoảng cách giữa các kí tự trong từ
1.2.3 Phát hiện công thức toán học dựa trên các mạng học sâu
Trong những năm gần đây, kỹ thuật học sâu cho thấy hiệu quả vượt trội trong phát hiện
và nhận dạng công thức. Nghiên cứu [21] áp dụng kiến trúc mạng U-net trong phát hiện công
thức. Sau khi phát hiện, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trong
phát hiện công thức. Mạng U-net được huấn luyện trên tập dữ liệu khoa học đa dạng để nâng
cao hiệu quả phát hiện công thức. Độ chính xác đạt được cho phát hiện công thức theo các độ
đo "precision"và "recall"lần lượt là 95.2% và 91% trên cơ sở dữ liệu dùng chung GTDB. Mặc
dù nghiên cứu này cho kết quả phát hiện kí tự toán học chính xác, nhưng trong quá trình
phát hiện công thức, nghiên cứu này chưa xử lý tốt việc xây dựng cấu trúc của công thức đầy
đủ. Ngoài ra, nghiên cứu [22] phát hiện công thức dựa trên các cấu trúc mạng nơ ron SSD-512
và YOLOv3.
1.3 Nhận dạng công thức
1.3.1 Các phương pháp truyền thống trong nhận dạng công thức
Nhận dạng công thức toán học đã được nghiên cứu từ những năm 1960. Đây là lĩnh vực
thu hút được nhiều sự chú ý nhưng cũng vô cùng thử thách. Các phương pháp truyền thống
nhận dạng công thức toán học thường gồm 3 bước: phân vùng kí tự, nhận dạng kí tự và phân
tích cấu trúc tài liệu. Nghiên cứu [1] tổng hợp nhiều phương pháp khác nhau để giải quyết
bài toán nhận dạng công thức. Các phương pháp phân vùng kí tự thường dựa trên phân tích
các thành phần liên tục của kí tự hoặc dựa trên hình chiếu của kí tự. Các phương pháp này
thường gặp khó khăn trong phân vùng kí tự lớn có chứa các kí tự con (ví dụ kí tự căn bậc
hai, tính tổng) hoặc các kí tự liền kề nhau. Các phương pháp nhận dạng kí tự được nghiên
cứu dựa trên các đặc trưng của các kí tự kết hợp với các bộ phân lớp học máy. So với phân
vùng và nhận dạng kí tự, bước phân tích cấu trúc công thức là khó khăn nhất. Một số cấu
trúc thường dùng để giải quyết bài toán phân tích cấu trúc toán học như: cấu trúc cây, đồ
thị, văn phạm phi ngữ cảnh.
Như vậy, các phương pháp truyền thống để nhận dạng công thức đã được nghiên cứu từ
nhiều năm. Các phương pháp này thường có những nhược điểm chính sau: (1) Độ chính xác
nhận dạng công thức toán học còn thấp. Bất kỳ lỗi nào gặp phải trong quá trình phân vùng,
nhận dạng kí tự hay phân tích cấu trúc kí tự đều dẫn đến kết quả nhận dạng sai. (2) Việc
trích chọn đặc trưng thủ công cho một số lượng lớn kí tự toán học tốn rất nhiều thời gian và
công sức. (3) Rất khó đánh giá, so sánh độ chính xác trong nhận dạng của các phương pháp
5
đề xuất vì các phương pháp này thử nghiệm trên các tập dữ liệu khác nhau.
1.3.2 Nhận dạng công thức toán học sử dụng các mạng Nơ ron
Trong những năm gần đây, các mạng học sâu được áp dụng một cách hiệu quả trong
nhận dạng công thức toán học. Nghiên cứu [24] áp dụng mạng nơ ron tích chập và mạng hồi
quy để nhận dạng công thức toán học được chụp bằng camera. Một số mô hình dựa trên mạng
Encoder-Decoder[25] được đưa ra để nhận dạng công thức toán học. Ý tưởng chính của mạng
này là sử dụng mạng nơ ron tích chập để trích chọn đặc trưng tự động của ảnh công thức.
Sau đó, bộ giải mã áp dụng cấu trúc mạng hồi quy để giải mã các đặc trưng này thành kết
quả nhận dạng công thức. Từ mô hình mạng Encoder-Decoder, một số kỹ thuật được tiếp tục
cải tiến để nâng cao chất lượng nhận dạng công thức. Nghiên cứu [3] đưa ra cơ chế học tăng
cường dựa trên mẫu chữ viết tay và chữ in để nâng cao độ chính xác nhận công thức. So với
các phương pháp truyền thống, phương pháp nhận dạng dựa trên học sâu cho độ chính xác
cao hơn đối với các công thức toán học lớn, phức tạp.
1.4 Cơ sở dữ liệu và độ đo đánh giá hệ thống
1.4.1 Cơ sở dữ liệu
Một số phương pháp đã có đánh giá độ chính xác của bài toán phát hiện và nhận dạng
công thức toán học trên các cơ sở dữ liệu cá nhân có kích thước nhỏ. Để có đánh giá rõ ràng
và so sánh được các phương pháp đã có, luận án thực hiện các thử nghiệm trên các bộ cơ sở
dữ liệu dùng chung trên thế giới là cơ sở dữ liệu Marmot [11] và GTDB [21]. So với cơ sở dữ
liệu Marmot, cơ sở dữ liệu GTDB lớn hơn, thách thức hơn về số lượng, kích thước công thức.
Thông tin so sánh giữa hai cơ sở dữ liệu được mô tả trong bảng 1.3.
Bảng 1.3 Thông tin về cơ sở dữ liệu Marmot và GTDB
GTDB Marmot Cơ sở dữ liệu
Huấn luyện Thử nghiệm Huấn luyện Thử nghiệm
569
4218
22178 236
2488
9397 330
1322
6951 70
253
956
Số trang tài liệu
Số lượng công thức độc lập
Số lượng công thức nội tuyến
Số lượng font chữ
Số công thức trung bình/1 trang 30
47.55 18
23.70
1.4.2 Độ đo đánh giá hiệu năng hệ thống
Hai độ đo phổ biến được áp dụng để đánh giá hiệu năng hệ thống phát hiện công thức.
Độ đo thứ nhất là Precision (P), Recall (R) và F1 score. Độ đo thứ hai được sử dụng là độ
đo IoU (Intersection over Union). Độ đo IoU thường được áp dụng trong bài toán phát hiện
đối tượng.
Trong khi đó, hai độ đo về tỉ lệ lỗi ký tự (WER) và tỉ lệ lỗi nhận dạng công thức (ExpRate)
được áp dụng để đánh giá độ chính xác của hệ thống nhận dạng công thức. Độ đo (ExpRate)
là tỉ lệ số lượng công thức nhận dạng đúng hoàn toàn so với tổng số công thức có trong cơ sở
dữ liệu. Độ đo (WER) được tính theo tỉ lệ giữa số lượng kí tự cần thay đổi (thêm, sửa, xóa)
6
để thu được chuỗi chính xác biểu diễn công thức và tổng số kí tự của chuỗi biểu diễn công
thức.
CHƯƠNG 2
Phát hiện công thức sử dụng phương pháp kết hợp giữa
trích chọn đặc trưng thủ công và các mạng học sâu
2.1 Giới thiệu phương pháp
Tài liệu khoa học thường bao gồm nhiều thành phần khác nhau như: bảng, hình vẽ, kí
tự và công thức toán học. Các phương pháp truyền thống phát hiện công thức dựa trên hai
kỹ thuật chính: phân tích trang tài liệu và trích chọn đặc trưng thủ công. Các phương pháp
truyền thống thường cho kết quả phát hiện công thức thấp đối với các tài liệu có cấu trúc
phức tạp. Do đó, chương này trình bày phương pháp kết hợp giữa trích chọn đặc trưng thủ
công và kỹ thuật học sâu tiên tiến nhằm nâng cao độ chính xác phát hiện công thức toán học.
Hình 2.1 minh họa các bước của phương pháp. Đầu vào của phương pháp là hình ảnh tài liệu
đen trắng. Kỹ thuật phân tích trang tài liệu dựa trên phép chiếu được thực hiện để tách dòng
tài liệu (text lines). Các công thức độc lập được phát hiện từ các dòng tài liệu thu được. Các
dòng tài liệu không phải là công thức độc lập được tách thành các từ (word). Các công thức
nội tuyến được phát hiện từ các từ. Cuối cùng, kỹ thuật hậu xử lý được áp dụng để nâng cao
độ chính xác trong phát hiện công thức.
Hình 2.1 Sơ đồ khối của hệ thống phát hiện công thức toán học.
7
2.2 Phân tích trang tài liệu
thủ công
Công thức và văn bản trong tài liệu được biểu diễn từ trên xuống dưới và từ trái sang
phải, do vậy, kĩ thuật phân tích trang tài liệu dựa trên hình chiếu ngang và hình chiếu dọc
được áp dụng [8]. Hình chiếu ngang và hình chiếu dọc của ảnh cho biết sự phân bố của các
điểm ảnh theo hai chiều, do đó, đây là kĩ thuật đơn giản và phù hợp cho phân tích cấu trúc
tài liệu. Mục tiêu của quá trình phân tích trang tài liệu là để lấy ra các dòng văn bản và các
từ. Dựa trên các dòng và các từ đã lấy được từ trang tài liệu, công thức độc lập và công thức
nội tuyến sẽ được phát hiện.
2.3 Phát hiện công thức dựa trên phương pháp trích chọn đặc trưng
Hình 2.2 Sơ đồ khối của quá trình phát hiện công thức toán học dựa trên trích chọn đặc
trưng thủ công
Sơ đồ khối của quá trình phát hiện công thức độc lập và công thức nội tuyến được mô tả
trong hình 2.2. Với phương pháp phát hiện dựa trên trích chọn đặc trưng thủ công, dựa trên
những đặc điểm khác nhau của công thức toán học và kí tự văn bản thông thường, những đặc
trưng được nghiên cứu, đề xuất để nâng cao độ chính xác trong phát hiện.
2.3.1 Phát hiện công thức độc lập dựa trên trích chọn đặc trưng thủ công
Mật độ và khoảng cách giữa các kí tự của công thức độc lập thường khác so với các kí tự
văn bản thông thường. Do đó, để làm nổi bật đặc trưng này, các dòng văn bản được chuyển
đổi sang miền tần số nhờ biến đổi Fast Fourier Transform (FFT).
8
Cho ảnh a có kích thước M × N , biến đổi FFT [7] của ảnh này được tính dựa trên công
M
(cid:88)
N
(cid:88)
thức sau:
m=1
n=1
A(Ω, ψ) = a(m, n)e−j(Ωm+ψn) (2.1)
Trong đó, A(Ω, ψ) là giá trị biến đổi thu được trong miền tần số nhờ áp dụng biến đổi
FFT. Sau quá trình biến đổi sang miền tần số, thành phần tần số và biên độ của biến đổi
FFT thu được sẽ được sử dụng làm đặc trưng để phát hiện công thức độc lập.
Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau
bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision
tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này
được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện
công thức độc lập.
2.3.2 Phát hiện công thức nội tuyến dựa trên trích chọn đặc trưng thủ công
Sau khi phát hiện công thức độc lập, các dòng không phải là công thức độc lập được
phân vùng thành các từ (word). Các từ thu được sẽ được tiếp tục phân loại để phát hiện công
thức nội tuyến. Công thức nội tuyến thường chứa ít kí tự toán học và thường được biểu diễn
nghiêng. Để phát hiện công thức nội tuyến, luận án đề xuất phương pháp trích chọn đặc trưng
dựa trên phép chiếu của ảnh công thức nội tuyến. Trong phương pháp này, trước hết, hình
chiếu theo phương ngang và phương dọc của ảnh công thức được tính toán. Sau đó, phương
pháp tìm những điểm cực đại và cực tiểu của các hình chiếu. Các điểm cực trị này phân bố
gần đúng theo phân bố chuẩn (Gaussian), do đó, các tham số của phân bố chuẩn được sử
dụng làm các đặc trưng của hình chiếu của công thức. Như vậy, vectơ đặc trưng để phát hiện
công thức nội tuyến sẽ bao gồm những giá trị như sau:
(1) Số lượng các cực đại địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh
các từ (word).
(2) Giá trị trung bình của các cực đại địa phương của các hình chiếu ngang, dọc.
(3) Độ lệch chuẩn của các cực đại địa phương
(4) Số lượng các cực tiểu địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh
các từ (word).
(5) Giá trị trung bình của các cực tiểu địa phương của các hình chiếu ngang, dọc.
(6) Độ lệch chuẩn của các cực tiểu địa phương
Với ảnh có kích thước m × n, độ phức tạp của giải thuật trích chọn đặc trưng lần lượt là
O(m) và O(n) áp dụng cho hình chiếu ngang và hình chiếu dọc của ảnh. Giải thuật tập trung
lấy đặc trưng của các điểm cực trị của hình chiếu trên mỗi chiều của ảnh thay vì lấy đặc trưng
9
của toàn bộ ảnh, do đó hiệu năng của giải thuật tốt hơn hơn so với các phương pháp trích
chọn đặc trưng đã có trên toàn bộ ảnh.
Hình 2.3 Sơ đồ khối phát hiện công thức sử dụng các mạng nơ ron tích chập
Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau
bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision
tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này
được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện
công thức độc lập.
2.4 Phát hiện công thức sử dụng các mạng nơ ron tích chập
So với các phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập cho
hiệu quả cao hơn trong phát hiện công thức. Trong luận án này, hai mạng nơ ron tích chập
phổ biến là Alexnet và Resnet được áp dụng để tăng độ chính xác trong phát hiện công thức.
So với mạng Alexnet, mạng Resnet có cấu trúc phức tạp hơn và cho khả năng phát hiện công
thức chính xác hơn.
Hình 2.3 minh họa các bước phát hiện công thức toán học dựa trên các mạng nơ ron tích
chập. Khác với phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập học tự
động một số lượng lớn các đặc trưng của ảnh công thức. Nhờ vậy mà các đặc trưng khác biệt
giữa công thức và văn bản được học tự động một cách hiệu quả mà không phụ thuộc nhiều
vào sự quan sát của người dùng. Sau quá trình học tự động, sự phân loại công thức được thực
hiện ở lớp softmax.
10
2.5 Phát hiện công thức dựa trên kết hợp muộn giữa phương pháp
trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích
chập
Hình 2.4 Sơ đồ khối của phát hiện công thức dựa trên kết hợp muộn giữa phương pháp trích
chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập.
Trong những năm gần đây, chiến lược kết hợp nhiều mô hình cho hiệu quả cao trong phát
hiện và phân loại đối tượng. Luận án nghiên cứu và áp dụng phương pháp kết hợp muộn giữa
kết quả dự đoán công thức đầu ra của các bộ phân lớp học máy (SVM, kNN, cây quyết định,
rừng ngẫu nhiên) và kết quả dự đoán của lớp softmax của các mạng nơ ron tích chập. Sơ đồ
khối 2.4 mô tả chi tiết quá trình kết hợp muộn trong phát hiện công thức.
2.6 Kỹ thuật hậu xử lý trong phát hiện công thức
Trong phát hiện công thức, một số công thức lớn thường bị tách thành nhiều dòng. Do
đó, nhằm nâng cao độ chính xác trong phát hiện công thức, luận án áp dụng phương pháp
11
(a) Trước khi hậu xử lý
(b) Sau khi hậu xử lý
ước lượng ngưỡng để ghép các thành phần bị tách của công thức thành công thức cuối cùng.
Hình 2.5 minh họa quá trình ghép hai thành phần của một công thức bị tách thành một công
thức hoàn chỉnh.
2.7 Kết quả đánh giá thực nghiệm
Hình 2.5 Ví dụ minh họa về kỹ thuật hậu xử lý áp dụng để ghép hai phần của công thức để
thu được công thức cuối cùng.
Bảng 2.1 So sánh kết quả nhận dạng công thức độc lập trên cơ sở dữ liệu Marmot của phương
pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm)
Phương pháp Phát hiện (PH) lỗi
Thiếu Sai Tổng
Kết quả phát hiện
PH hoàn toàn PH một phần Tổng
26.87% 44.89% 71.76% 9.89% 18.35% 28.24%
Phương pháp [12]
Đề xuất
31.02%
FFT và RF
47.22%
Mạng AlexNet
50.89%
Mạng ResNet-18
Kết hợp trung bình 51.34%
51.34%
Kết hợp nhân 42.32%
41.44%
39.27%
39.45%
39.84% 73.34% 9.04% 17.62% 26.66%
88.66% 2.78% 8.56% 11.34%
90.16% 3.55% 6.29% 9.84%
90.79% 3.55% 5.66% 9.21%
91.18% 3.14% 5.68% 8.82%
Bảng 2.2 So sánh kết quả nhận dạng công thức nội tuyến trên cơ sở dữ liệu Marmot của
phương pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm)
Phát hiện (PH) sai Phương pháp Total
Phát hiện
Đúng
1.74% Đúng một phần Tổng số PH thiếu Sai
28.87% 30.61% 9.93% 59.46% 69.39%
Phương pháp [12]
Đề xuất
11.05% 41.40%
Phép chiếu và RF
21.54% 56.25%
Mạng AlexNet
22.68% 57.06%
Mạng ResNet-18
Kết hợp trung bình 22.79% 57.96%
22.90% 58.45%
Kết hợp nhân 52.45% 8.36%
77.79% 7.60%
79.74% 5.59%
79.85% 5.79%
81.35% 5.40% 39.19% 47.55%
14.61% 22.21%
14.67% 20.26%
14.36% 20.15%
13.25% 18.65%
12
Bảng 2.3 So sánh hiệu năng của phương pháp đề xuất và các phương pháp đã có trên cơ sở
dữ liệu GTDB
Phương pháp
Dựa trên đồ thị + nhận dạng [22]
Hệ thống Michiking [22]
Phương pháp đề xuất IoU ≥ 0.5
94.36%
36.87%
50.17% IoU ≥ 0.75
94.17%
19.10%
43.19%
Hình 2.6 Ví dụ minh họa phát hiện công thức trong cơ sở dữ liệu GTDB. Kết quả phát hiện
được biểu diễn bởi màu xanh, dữ liệu trong cơ sở dữ liệu được biểu diễn bởi màu đỏ
Bảng 2.1 và 2.2 thể hiện kết quả phát hiện công thức toán học của phương pháp đề
xuất và các phương pháp đã có trên cơ sở dữ liệu Marmot. Bảng 2.3 thể hiện kết quả phát
hiện công thức của phương pháp đề xuất và phương pháp đã có trên cơ sở dữ liệu GTDB.
So với phương pháp phát hiện truyền thống dựa trên xử lý ảnh và trích chọn đặc trưng thủ
công, phương pháp đề xuất cho kết quả cao hơn đáng kể trong phát hiện công thức. Hiệu quả
phát hiện cao hơn là nhờ phương pháp đề xuất kết hợp được hiệu quả của các mạng nơ ron
tích chập và phương pháp trích chọn đặc trưng dựa trên biến đổi FFT và phép chiếu. Phương
pháp phát hiện dựa trên đồ thị và kết quả nhận dạng cho kết quả cao nhất, tuy nhiên, để có
kết quả nhận dạng một số lượng lớn các kí tự, phương pháp này đòi hỏi rất nhiều thời gian
và công sức.
2.8 Tiểu kết chương
Chương này trình bày phương pháp nâng cao độ chính xác trong phát hiện công thức
toán học dựa trên phương pháp kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ
công và các mạng nơ ron tích chập. Phương pháp đề xuất nâng cao độ chính xác trong phát
hiện công thức so với các phương pháp trích chọn đặc trưng thủ công truyền thống. Tuy vậy,
độ chính xác của phương pháp phụ thuộc và độ chính xác trong quá trình phân tích trang tài
liệu. Trong chương tiếp theo, phương pháp phát hiện công thức tích hợp dựa trên mạng học
sâu Faster R-CNN được đề xuất để nâng cao hơn nữa độ chính xác phát hiện công thức. Các
13
kết quả của phương pháp đề xuất được công bố trong các bài báo khoa học 1, 2, 3, 4, 6 và 7.
CHƯƠNG 3
Phát hiện công thức sử dụng biến đổi khoảng cách và tối ưu
mạng Faster R-CNN
3.1 Giới thiệu phương pháp phát hiện công thức dựa trên biến đổi
khoảng cách và mạng Faster R-CNN
Hình 3.1 Sơ đồ khối mô tả phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster
R-CNN.
Chương trước trình bày phương pháp phát hiện công thức toán học trong tài liệu ảnh
dựa trên hai bước chính: phân tích trang tài liệu và kỹ thuật lai giữa trích chọn đặc trưng
thủ công và mạng nơ ron tích chập. Hiệu quả của phương pháp phụ thuộc vào độ chính xác
của bước phân tích trang tài liệu. Đối với những tài liệu có cấu trúc phức tạp, phương pháp
trên gặp nhiều lỗi phát hiện công thức. Để cải thiện độ chính xác phát hiện công thức đối với
các tài liệu có cấu trúc phức tạp, chương này nghiên cứu và đề xuất phương pháp phát hiện
công thức tích hợp dựa trên biến đổi khoảng cách (Distance Transform - DT) và mạng nơ ron
Faster R-CNN. Biến đổi khoảng cách thực hiện biến đổi từ ảnh tài liệu từ đen trắng sang ảnh
màu. Phương pháp biến đổi này nhằm khai thác đặc tính khoảng cách giữa kí tự trong công
thức khác với khoảng cách giữa các kí tự trong văn bản thông thường. Sau đó, mạng Faster
R-CNN thực hiện phát hiện công thức toán học trong ảnh thu được sau khi biến đổi. Mạng
Faster R-CNN đã cho thấy hiệu quả phát hiện chính xác hơn so với các mạng nơ ron khác. Để
nâng cao độ chính xác trong phát hiện công thức của mạng Faster R-CNN, luận án đề xuất
chiến lược tối ưu các thành phần của mạng Faster R-CNN. Hình 3.1 mô tả các bước phát hiện
công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN. Chi tiết các bước tiếp tục
được mô tả trong các phần tiếp theo của chương.
14
3.2 Phát hiện công thức dựa trên biến đổi khoảng cách và mạng
Faster R-CNN
3.2.1 Biến đổi ảnh dựa trên khoảng cách
(a) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo Euclidean
(b) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo City block
Ảnh tài liệu thường là ảnh đen trắng. Mục tiêu của biến đổi ảnh dựa trên khoảng cách
[14] là biến đổi ảnh đen trắng thành ảnh xám. Sau đó, các kênh màu xám sẽ được ghép lại để
biến đổi từ ảnh xám thành ảnh màu RGB. Phép chuyển đổi ảnh này làm nổi bật thông tin
của công thức toán học. Hơn nữa, mạng Faster R-CNN được thiết kế để phát hiện đối tượng
trong ảnh màu, do đó, chuyển đổi ảnh từ đen trắng sang ảnh màu giúp mạng Faster R-CNN
phát hiện công thức chính xác hơn. Với ảnh tài liệu có kích thước m × n, độ phức tạp của
thuật toán biến đổi ảnh dựa trên khoảng cách là O(m × n).
Hình 3.2 Ví dụ về ảnh thu được sau khi áp dụng DT với độ đo Euclidean (a) và độ đo City
block (b). Kích thước ảnh hiển thị trên các trục tọa độ x và y. Tỉ lệ màu của ảnh được thể
hiện trên biểu đồ màu sắc.
3.2.2 Cấu trúc mạng Faster R-CNN phát hiện công thức
Sau khi ảnh được chuyển đổi sang ảnh màu RBG, công thức được phát hiện một cách tích
hợp nhờ mạng nơ ron Faster R-CNN. Cấu trúc của mạng Faster R-CNN gồm hai mạng chính:
mạng RPN (Region proposal network) và mạng FCN (Fully connected detection network).
Phần này mô tả các bước cài đặt, cấu hình và tinh chỉnh mạng Faster R-CNN để phát hiện
công thức.
15
Hình 3.3 Mô hình cấu trúc của mạng Faster R-CNN gồm hai mạng RPN và FCN.
3.2.2.1 Cấu hình mạng RPN
Mạng RPN được sử dụng để sinh ra các vùng ứng cử viên cho công thức. Đầu vào của
mạng RPN là bảng kích thước n × n gồm các đặc trưng của ảnh. Với mỗi vùng trong bảng
đặc trưng, k vùng được đề xuất trong quá trình phát hiện đối tượng. Cấu hình mặc định của
mạng RPN được thiết lập với k=9. Luận án thực hiện chuẩn hóa kích thước ảnh tài liệu đầu
vào và thống kê kích thước công thức trong ảnh. Số lượng và kích thước của các vùng được
đề xuất sao cho độ bao phủ của các vùng này với các công thức là tối ưu. Từ đó, mạng RPN
được tinh chỉnh để có thể phát hiện chính xác nhất các công thức trong ảnh tài liệu. Kết quả
cho thấy tham số k=15 và k=12 được xác định để tối ưu mạng RPN trong phát hiện công
thức độc lập và công thức nội tuyến.
3.2.2.2 Cấu trúc mạng FCN
Các vùng được đề xuất nhờ mạng RPN sau đó được đưa vào mạng FCN để xác định
chính xác vị trí các công thức toán học. Mạng FCN sử dụng lớp softmax để phân loại công
thức và lớp Box Regression để tinh chỉnh vị trí công thức. Trong luận án này, mạng Faster
R-CNN được phát triển dựa trên mạng Resnet-50 với 177 lớp. Tỉ lệ học được thiết lập với giá
trị 0.001 và giá trị max epochs trong quá trình huấn luyện được thiết lập là 10. Các giá trị
này được kiểm tra và thiết lập để mạng Faster R-CNN phát hiện chính xác nhất công thức.
3.3 Kết quả thực nghiệm
Bảng 3.1 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các
phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm)
Phương pháp PH một phần Tổng Sai
PH thiếu Sai Tổng
Phương pháp [12]
FFT (chương 2)
Kết hợp (chương 2) Phát hiện
Đúng
26.87% 44.89%
31.02% 42.32%
51.34% 39.84% 71.76% 9.89%
73.34% 9.04%
91.18% 3.14% 18.35% 28.24%
17.62% 26.66%
5.68% 8.82%
Mô hình đề xuất 84.80% 8.10% 92.90% 2.27% 4.83% 7.10%
Kết quả so sánh của phương pháp đề xuất phát hiện công thức độc lập và công thức nội
tuyến và các phương pháp đã có trên cơ sở dữ liệu Marmot được mô tả trong các bảng 3.1
và 3.2. Kết quả so sánh trên cơ sở dữ liệu GTDB được mô tả trong các bảng 3.3 và 3.4. So
16
Bảng 3.2 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các
phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm)
Phương pháp Lỗi
PH thiếu Sai Tổng
Phương pháp [12]
Phép chiếu (chương 2)
Kết hợp (chương 2) Phát hiện
PH một phần Tổng
Đúng
1.74%
28.87%
11.05% 41.40%
22.90% 58.45% 30.61% 9.93%
52.45% 8.36%
81.35% 5.40% 59.46% 69.39%
39.19% 47.55%
13.25% 18.65%
Mô hình đề xuất 75.95% 9.95% 85.90% 6.25% 8.20% 14.10%
Bảng 3.3 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các
phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm)
Phương pháp PH một phần Tổng Lỗi
PH thiếu Sai Total
Phương pháp [12]
FFT (chương 2)
Kết hợp (chương 2) Phát hiện
Đúng
26.22% 44.87%
30.86% 42.12%
50.37% 39.14% 71.09% 9.91%
72.98% 9.25%
89.51% 3.16% 19.00% 28.91%
17.77% 27.02%
7.33% 10.49%
Mô hình đề xuất 83.79% 7.25% 91.04% 2.15% 6.81% 8.96%
Bảng 3.4 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các
phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm)
Phương pháp Lỗi
PH thiếu Sai Total
Phương pháp [12]
Phép chiếu (chương 2)
Kết hợp (chương 2) Phát hiện
PH một phần Tổng
Đúng
1.56%
28.67%
10.48% 41.36%
22.76% 57.44% 30.23% 9.97%
51.84% 8.26%
80.20% 5.46% 59.80% 69.77%
39.90% 48.16%
14.34% 19.80%
Mô hình đề xuất 75.20% 9.95% 85.15% 6.15% 8.70% 14.85%
với các phương pháp phát hiện công thức dựa trên nhiều bước, phương pháp phát hiện tích
hợp cho độ chính xác cao hơn vì kết quả phương pháp không phụ thuộc vào độ chính xác của
kỹ thuật phân tích trang tài liệu. So với các phương pháp phát hiện sử dụng mạng Yolov3 và
SSD-512, phương pháp đề xuất cho kết quả tốt hơn nhờ áp dụng phương pháp xử lý ảnh dựa
trên khoảng cách và tối ưu mạng Faster R-CNN. Kết quả so sánh được thể hiện trong bảng
3.5.
Bảng 3.5 So sánh hiệu năng phát hiện công thức của phương pháp đề xuất và các phương
pháp khác trên cơ sở dữ liệu GTDB
Phương pháp
Đồ thị + nhận dạng [10]
Sử dụng mạng SSD512
Sử dụng mạng Yolov3
Hệ thống Michiking [22]
Mô hình đề xuất Phát hiện IoU ≥ 0.5 Phát hiện IoU ≥ 0.75
94.36%
83.14%
74.4%
36.87%
83.79% 94.17%
75.29%
63.20%
19.10%
77.20%
17
3.4 Tiểu kết chương
Hình 3.4 Ví dụ về phát hiện công thức trong cơ sở dữ liệu GTDB. Công thức được phát hiện
và mô tả trong cơ sở dữ liệu được biểu diễn lần lượt bằng màu xanh và màu đỏ.
Chương này trình bày phương pháp phát hiện công thức tích hợp dựa trên biến đổi
khoảng cách và mạng Faster R-CNN. So với phương pháp phát hiện nhiều bước mô tả trong
chương 2, phương pháp tích hợp cho kết quả phát hiện cao hơn. Kết quả của phương pháp đề
xuất được công bố trong bài báo số 8.
CHƯƠNG 4
Hệ thống phát hiện và nhận dạng công thức trong tài liệu
ảnh
4.1 Tổng quan hệ thống
Hình 4.1 Sơ đồ khối của hệ thống phát hiện và nhận dạng công thức toán học.
Trước đây, các nghiên cứu đã có tập trung vào nhận dạng công thức đã được phân vùng
thủ công hoặc công thức trong ảnh chụp. Chương này giới thiệu hệ thống phát hiện và nhận
dạng công thức toán học trong tài liệu ảnh cho người sử dụng cuối. Hệ thống được phát triển
gồm hai thành phần chính. Phần thứ nhất, công thức được phát hiện tự động dựa trên mô
hình mạng Faster R-CNN đề xuất trong chương 3. Sau đó, công thức đã phát hiện được nhận
dạng nhờ mạng học sâu theo kiến trúc Encoder-Decoder, mạng WAP. Đây là kiến trúc mạng
18
có hiệu quả nhận dạng tốt đối với công thức viết tay. Luận án đã áp dụng phương pháp học
chuyển giao để áp dụng và tối ưu mạng cho nhận dạng công thức in. So với phương pháp
truyền thống thực hiện nhận dạng công thức dựa trên các kỹ thuật phân vùng, nhận dạng,
phân tích cấu trúc kí tự toán học, việc áp dụng mạng học sâu WAP cho độ chính xác cao hơn,
tiết kiệm thời gian và công sức. Hình 4.1 mô tả chi tiết hai thành phần của hệ thống phát
hiện và nhận dạng công thức.
4.2 Nhận dạng công thức toán học dựa trên mạng WAP
Cấu trúc của mạng WAP cho nhận dạng công thức gồm hai thành phần chính: thành
phần Watcher trích chọn đặc trưng của ảnh công thức được thực hiện nhờ mạng nơ ron tích
chập FCN và thành phần Parser phân tích, chuyển đổi từ vectơ đặc trưng thu được thành
dạng chuỗi được thực hiện bởi mạng GRU (Gated Recurrent Unit). Kiến trúc mạng WAP
được minh họa trong hình 4.2.
4.2.1 Thành phần trích chọn đặc trưng của công thức (Watcher)
Để thực hiện chức năng trích chọn đặc trưng tự động của ảnh công thức, mô hình WAP
áp dụng mạng nơ ron tích chập FCN. Với mỗi ảnh công thức đầu vào, mạng FCN tự động
trích chọn đặc trưng và biểu diễn bằng vectơ đặc trưng. Trong luận án này, ảnh công thức
đầu vào là ảnh xám và được chuẩn hóa kích thước để hệ thống có thể xử lý được các ảnh công
thức đa dạng, khác nhau.
Hình 4.2 Kiến trúc mạng WAP
4.2.2 Thành phần phân tích, giải mã công thức (Parser)
Sau khi trích chọn đặc trưng tự động nhờ thành phần Watcher, mạng WAP phân tích
và giải mã vectơ đặc trưng để thu được chuỗi kí tự biểu diễn công thức toán học dưới định
dạng Latex. Để thực hiện nhiệm vụ này, mạng GRU là một cải tiến của mạng hồi quy được
nghiên cứu và áp dụng. Chức năng của mạng GRU là để biên dịch từng vị trí của công thức
thành từng kí tự và ghép các kí tự thu được thành chuỗi Latex biểu diễn công thức. Ngoài ra,
do công thức toán học có thể gồm hàng trăm kí tự và được biểu diễn dưới dạng không gian
hai chiều, để phân tích và giải mã công thức được tốt hơn, cơ chế attention được áp dụng cho
thành phần Parser. Cơ chế này giúp mạng WAP có thể tập trung cao hơn vào một số thành
phần của công thức toán học. Bên cạnh đó, thành phần Parser cũng sử dụng coverage vectơ
để đảm bảo công thức được nhận dạng hoàn toàn.
Trong quá trình huấn luyện mạng WAP, tập từ vựng gồm 110 kí tự toán học được chuẩn
bị thủ công. Ngoài ra, tập hợp các ảnh công thức và mã Latex tương ứng của công thức được
chuẩn bị thủ công cho huấn luyện mạng.
19
Bảng 4.1 Đánh giá hiệu năng hệ thống phát hiện và nhận dạng công thức trên cơ sở dữ liệu
Marmot
ExpRate
Phương pháp
Nhận dạng công thức (phân vùng thủ công)
Nhận dạng công thức (phân vùng tự động) WER
51.28% 51.77%
51.95% 45.50%
4.3 Kết quả thực nghiệm
Hình 4.3 So sánh hiệu năng nhận dạng công thức toán học của các hệ thống khác nhau.
Hình 4.4 Ví dụ về phát hiện và nhận dạng công thức trong một trang tài liệu.
Hệ thống phát hiện và nhận dạng được áp dụng huấn luyện và thử nghiệm trên cơ sở dữ
liệu Marmot.
Bảng 4.1 hiển thị kết quả nhận dạng cho công thức toán học được phân vùng tự động và
phân vùng thủ công trên cơ sở dữ liệu Marmot. Hệ thống nhận dạng được áp dụng cho công
thức phân vùng thủ công được chuẩn bị sẵn trong cơ sở dữ liệu Marmot và công thức phân
vùng tự động thực hiện nhờ mạng Faster R-CNN trong chương 3. So với các công thức phân
vùng thủ công, hệ thống tự động phân vùng và phát hiện công thức cho kết quả thấp hơn vì
kết quả phát hiện sai có thể ảnh hưởng tới kết quả nhận dạng.
Để đánh giá hiệu năng của hệ thống, độ chính xác trong phát hiện và nhận dạng công
20
thức của hệ thống đề xuất được so sánh với các hệ thống phổ biến hiện nay như: Tesseract
v4, Infty Reader v 3.2 và Mathpix. Hình 4.3 cho thấy độ chính xác của hệ thống đề xuất được
cải tiến hơn nhiều so với các hệ thống hiện có như Tesseract v4, Infty Reader v 3.2. Mathpix
là phần mềm thương mại, thường xuyên được huấn luyện với bộ dữ liệu công thức lớn, do đó
độ chính xác trong nhận dạng của Mathpix tốt nhất trong các hệ thống thử nghiệm. Hình
4.4 mô tả ví dụ minh họa về nhận dạng và phát hiện công thức trong một trang tài liệu. Với
các công thức ngắn, hệ thống cho kết quả nhận dạng cao hơn. Với các công thức dài và chứa
nhiều kí tự, hệ thống có thể cho kết quả nhận dạng chưa chính xác. Nguyên nhân của kết quả
nhận dạng sai có thể do quá trình phát hiện chưa chính xác kí tự hoặc một số kí tự không có
trong bộ dữ liệu huấn luyện.
4.4 Tiểu kết chương
Chương này trình bày hệ thống phát hiện và nhận dạng công thức toán học dựa trên
mạng học sâu Faster R-CNN và WAP. So với các hệ thống truyền thống đã có, hệ thống đề
xuất cho kết quả nhận dạng cao hơn đáng kể. Tuy vậy, do tập công thức huấn luyện còn hạn
chế nên hiệu năng của hệ thống cần tiếp tục được cải tiến hơn trong tương lai. Kết quả chính
của chương được trình bày trong công bố 5.
Kết luận và hướng phát triển
Kết luận
Luận án đã nghiên cứu và đề xuất các giải pháp nâng cao độ chính xác trong phát hiện
và nhận dạng công thức toán học trong tài liệu ảnh. Cụ thể, những đóng góp chính của luận
án như sau:
(1) Luận án đã đề xuất phương pháp nâng cao độ chính xác trong phát hiện công thức
dựa trên kỹ thuật kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và mạng
nơ ron tích chập hiện đại. So với các phương pháp trích chọn đặc trưng truyền thống, phương
pháp đề xuất giúp cải thiện độ chính xác trong phát hiện công thức.
(2) Để tiếp tục nâng cao độ chính xác của phát hiện công thức trong những tài liệu có
cấu trúc phức tạp, luận án đề xuất phương pháp phát hiện dựa trên phép biến đổi ảnh dựa
trên khoảng cách và tối ưu mạng Faster R-CNN. Việc biến đổi ảnh dựa trên khoảng cách
nhằm làm nổi bật sự khác nhau trong hiển thị của công thức so với văn bản thông thường.
Bên cạnh đó, mạng Faster R-CNN được tối ưu nhằm phát hiện công thức chính xác hơn.
(3) Sau khi nâng cao độ chính xác trong phát hiện công thức, luận án phát triển hệ thống
phát hiện và nhận dạng công thức toán học. Trong hệ thống này, công thức sau khi được phát
hiện sẽ được nhận dạng dựa vào mạng Encoder-Decoder. Với cấu trúc mạng học sâu hiện đại,
tích hợp khả năng xử lý ảnh và xử lý chuỗi, công thức được phát hiện và nhận dạng chính
xác hơn so với các phương pháp nhận dạng truyền thống.
21
Hướng phát triển
Trong thời gian tới, luận án tiếp tục được nghiên cứu và phát triển hoàn thiện hơn như
sau:
(1) Áp dụng và tối ưu các mạng học sâu nhằm nâng cao hơn nữa độ chính xác trong phát
hiện và nhận dạng công thức.
(2) Nghiên cứu và áp dụng những kỹ thuật tiền xử lý ảnh, cho phép các phương pháp đề
xuất có thể áp dụng với nhiều ảnh tài liệu đa dạng hơn như ảnh nghiêng, ảnh cong.
(3) Mở rộng phạm vi, số lượng công thức được phát hiện và nhận dạng nhằm hỗ trợ người
dùng trong các ứng dụng thực tế có sử dụng thông tin về công thức toán học trong tài liệu
ảnh thuận tiện hơn.
22
Tài liệu tham khảo
[1] D.F.Chan and D.Yeung (2000). Mathematical expression recognition: A survey. Interna- tional Journal on Document Analysis and Recognition, 3.1, pp. 3–15.
[2] Muno F.A. (2015). Mathematical expression recognition based on probabilistic grammar . PhD. Thesis, Technical University of Valencia, Spain.
[3] J.Wu et al. (2019).
Image-to-markup generation via paired adversarial learning. Ma-
chine Learning and Knowledge Discovery in Databases, pp. 18–34. doi:10.1007/978-3-
030-10925-7_2.
[4] L.Lamport (1994). Latex: A document preparation system. Addison-Wesley Professional, 2nd Edition.
[5] Redden J. (2011). Elementary algebra textbook . Saylor Foundation.
[6] Fateman R. (December 1997). How to find mathematics on a scanned page. Proceedings
of SPIE - The International Society for Optical Engineering. doi:10.1117/12.373482.
[7] Young I.T. et al. (1995). Fundamentals of image processing. Delft University of Technol- ogy.
[8] Papandreou A. and Gatos B. (2011). A novel skew detection technique on vertical pro- jections. International Conference on Document Analysis and Recognition.
[9] Zanibbi R. and Blostein D. (2012). Recognition and retrieval of mathematical expressions. International Journal on Document Analysis and Recognition, 15.4, pp. 331–357.
[10] Degtyarenko I., Radyvonenko O., Bokhan K., and Khomenko V. (2016). Text/shape clas-
sifier for mobile applications with handwriting input. International Journal on Document
Analysis and Recognition, 19.4, pp. 369–379.
[11] Lin X., Gao L., Tang Z., Lin X., and Hu X. (March 2012). Performance evaluation
of mathematical formula identification. International Workshop on Document Analysis
Systems. doi:10.1109/das.2012.68.
[12] Chu W. and Liu F. (2013). Mathematical formula detection in heterogeneous document
images. Proceeding of the International Conference on Technologies and Applications of
Artificial Intelligence.
[13] Garain U. (2009). Identification of mathematical expressions in document images. Inter- national Conference on Document Document Analysis and Recognition.
[14] Xu D. and Li H. (2006). Euclidean distance transform of digital images in arbitrary
dimensions. Advances in Multimedia Information Processing - PCM 2006, pp. 72–79.
[15] Tran T.A., Na I.S., and Kim S.H. (2016). Page segmentation using minimum homogeneity
algorithm and adaptive mathematical morphology. International Journal on Document
Analysis and Recognition, 19.3, p. 191–209.
[16] Chen K. et al. (2017). Convolutional neural networks for page segmentation of historical
document images. International Conference on Document Analysis and Recognition.
[17] Oliveira S. et al. (2018). A generic deep-learning approach for document segmentation. International Conference on Frontiers in Handwriting Recognition.
23
[18] Lee H. and Wang J. (1997). Design of a mathematical expression understanding system. Pattern Recognition Letters, 18.3, pp. 289–298.
[19] J.Toumit et al. (1999). A hierarchical and recursive model of mathematical expressions
for automatic reading of mathematical documents. Proceedings of the Fifth International
Conference on Document Analysis and Recognition September 1999.
[20] Kacem A. et al. (2001). Automatic extraction of printed mathematical formulas using
fuzzy logic and propagation of context. International Journal on Document Analysis and
Recognition, 4.2, pp. 97–108.
[21] Ohyama W. et al. (2019). Detecting mathematical expressions in scientific document
images using a u-net trained on a diverse datase. IEEE Access, 7, pp. 144030 – 144042.
[22] Mahdavi M. et al. (2019). Icdar 2019 crohme + tfd: Competition on recognition of hand-
written mathematical expressions and typeset formula detection. International Conference
on Document Analysis and Recognition. doi:10.1109/icdar.2019.00247.
[23] Yamazaki S. et al. (2011). Embedding a mathematical ocr module into ocropus. Interna- tional Conference on Document Analysis and Recognition.
[24] He W. et al. (2016). Context-aware mathematical expression recognition: An end-to-end
framework and a benchmark . International Conference on Pattern Recognition (ICPR),
pp. 3246–3251.
[25] J.Zhang et al. (2017). Watch, attend and parse: An end-to-end neural network based
approach to handwritten mathematical expression recognition. Pattern Recognition, 71,
pp. 196–206.
24
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN
[1] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le (2017), A new method for displayed
mathematical expression detection based on FFT and SVM, 4th NAFOSTED Conference
on Information and Computer Science (NICS), IEEE, Hanoi, Vietnam, ISBN: 978-1-5386-
3210-9, DOI: 10.1109/NAFOSTED.2017.8108044, pp.90-96, 2017.
[2] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le and Akkiko Aizawa (2019), Math-
ematical variable detection in PDF scientific documents, 11th Asian conference on in-
telligent information and database systems (ACIIDS), Springer, Cham, Indonesia, DOI:
https://doi.org/10.1007/978-3-030-14802-7-60, ISBN: 978-3-030-14802-7, 2019.
[3] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), Mathematical vari-
able detection based on CNN and SVM, 2nd International Conference on Multi-
ISBN: 978-1-7281-1829-1, DOI:
media Analysis and Pattern Recognition (MAPR),
10.1109/MAPR.2019.8743543, pp. 1-5, 2019.
[4] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), A unified system for for
mathematical expression detection in scientific document images , Korea-Vietnam Interna-
tional Joint Workshop on Communications and Information Sciences (KICS), ISBN: 978-
89-950043-7-1[93560], Hanoi, Viet Nam, pp.14-16, 2019.
[5] Bui Hai Phong, Luong Tan Dat, Nguyen Thi Yen, Thang Manh Hoang and Thi-
Lan Le (2020), A deep learning based system for mathematical expression detection and
recognition in scientific document images, The 12th IEEE International Conference on
Knowledge and Systems Engineering (KSE), ISBN:978-1-7281-3003-3, pp.85-90, 2020,
DOI:10.1109/KSE.2019.8919461.
[6] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2020), A hybrid method for
mathematical expression detection in scientific document images, IEEE Access, vol. 8,
pp.83663 - 83684, 2020, ISSN: 2169-3536 (Print) 2169-3536 (Online), DOI: 10.1109/AC-
CESS.2020.2992067 (ISI, Q1, IF=4.098).
[7] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), Mathematical variable de-
tection in in scientific document images, International Journal of Computational Vision and
Robotics, Vol. 11, No. 1, pp.66-89, 2021, ISSN online: 1752-914X, ISSN print: 1752-9131,
DOI:10.1504/IJCVR.2021.111876 (SCOPUS).
[8] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), An end-to-end framework
for the detection of mathematical expressions in scientific document images, Expert Systems,
Online ISSN:1468-0394, DOI: 10.1111/exsy.12800 (ISI, Q2, IF=2.587).