intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

27
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung luận án gồm 4 chương chính: chương 1 giới thiệu, phân tích một số phương pháp liên quan trong phát hiện và nhận dạng công thức; chương 2 đề xuất mô hình lại cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn dặc trưng tự dùng du trên các mô hình học sâu tiên tiến; chương 3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức; chương 4 đề xuất phương pháp kết hợp giữa phát hiền và nhận dạng công thức toán học dựa trên các mô hình học sâu tiên tiến.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI HẢI PHONG NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN Ngành: Khoa học máy tính Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội −2021
  2. Công trình này được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Hoàng Mạnh Thắng 2. PGS.TS. Lê Thị Lan Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi giờ , ngày tháng năm 2021 Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
  3. GIỚI THIỆU Động lực nghiên cứu Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Công thức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian, số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạng dưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF, tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này, các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm: phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2]. Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xác cao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ý của các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phức tạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trong phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh. Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thức toán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theo ngữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định. Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc, dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuân theo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: công thức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bản riêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bản thông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, phát hiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi. Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trong khi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang định dạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này, kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiện và nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mối quan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác. Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhận dạng. Phạm vi nghiên cứu của luận án như sau: 1
  4. Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệu dạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhật màu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c). (1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vực khoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toán học (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này, công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kích thước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các công thức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ. (2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượng tài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạng công thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao. (3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thức được phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức được nhận dạng và biểu diễn nhờ định dạng Latex [4]. Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau: (1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việc nhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tự có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí √ tự toán học phức tạp có thể chứa các kí tự khác (ví dụ a ). (2) Một số kí tự toán học có vai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn một cách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tự nhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương. Do đó, luận án chỉ tập trung nghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học. 2
  5. Đóng góp chính của luận án Luận án có ba đóng góp chính trong việc nâng cao độ chính xác của phát hiện và nhận dạng công thức toán học: (1) Trước hết, luận án nghiên cứu, đề xuất một phương pháp lai nhằm kết hợp các đặc trưng được trích chọn thủ công và các đặc trưng được trích chọn tự động dựa trên các mạng học sâu. Phương pháp lai giúp nâng cao độ chính xác trong phát hiện công thức toán học. Ngoài ra, một ưu điểm của phương pháp này là có thể phát hiện công thức toán học với độ chính xác cao mà không phụ thuộc vào các phần mềm nhận dạng kí tự. (2) Tiếp theo, luận án đề xuất một phương pháp phát hiện công thức một cách tích hợp. Phương pháp này gồm hai bước chính. Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách để chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu. Phép biến đổi này nhằm tận dụng các thông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xác hơn. Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiện công thức trong ảnh sau khi biến đổi một cách chính xác. (3) Luận án kết hợp và tối ưu các mạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học. Cụ thể, các công thức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN. Sau đó, các công thức này được nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã. Cấu trúc của luận án Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăn của bài toán phát hiện và nhận dạng công thức toán học. Chương 1 giới thiệu, phân tích một số phương pháp liên quan trong phát hiện và nhận dạng công thức. Chương 2 đề xuất mô hình lai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tự động dựa trên các mô hình học sâu tiên tiến. Phương pháp lai này cùng với một số chiến lược phân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học. Chương 3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức. Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựa trên các mô hình học sâu tiên tiến. Chương kết luận trình bày tóm tắt các đóng góp của luận án và đưa ra các hướng phát triển tiếp theo. CHƯƠNG 1 Nghiên cứu liên quan Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạng công thức toán học trong tài liệu ảnh. Các ưu, nhược điểm của các phương pháp được phân tích. Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa ra trong các chương tiếp theo. 3
  6. 1.1 Các kỹ thuật phân tích trang tài liệu Các phương pháp truyền thống giải quyết bài toán phát hiện công thức toán học dựa trên hai bước [9]: phân tích trang tài liệu và phát hiện công thức dựa trên kết quả phân tích trang. Phân tích trang tài liệu là kỹ thuật được sử dụng để phân vùng tài liệu thành các vùng đồng nhất về cấu trúc [17]. Trong những năm gần đây, phân tích trang tài liệu thu hút được nhiều nhà nghiên cứu trên thế giới. Trước hết, các trang tài liệu được tiền xử lý để nâng cao chất lượng. Các kỹ thuật tiền xử lý thường gặp như: lọc nhiễu, loại bỏ góc nghiêng, cong của tài liệu. Sau đó, các kỹ thuật phân tích trang tài liệu được áp dụng bao gồm: kỹ thuật phân tích từ dưới lên, phân tích từ trên xuống, phân tích dựa trên độ phân giải khác nhau và kỹ thuật lai [15]. Trong những năm gần đây, các mạng học sâu được áp dụng để phân tích trang tài liệu. Ưu điểm của các mạng học sâu là có thể phân tích các tài liệu có cấu trúc đa dạng khác nhau [16]. 1.2 Phát hiện công thức trong tài liệu ảnh Phát hiện công thức toán học trong tài liệu ảnh đã được nghiên cứu từ nhiều năm. Các phương pháp có thể được chia thành ba loại chính: phương pháp sử dụng luật, phương pháp sử dụng trích chọn đặc trưng thủ công và phương pháp sử dụng các mạng học sâu. 1.2.1 Phát hiện công thức dựa trên luật Trong những nghiên cứu đầu tiên về phát hiện công thức trong tài liệu ảnh, các luật được đưa ra để phát hiện công thức [6, 18]. Các luật được đưa ra dựa trên sự khác nhau về hình thái học, biểu diễn công thức so với văn bản thông thường. Các phương pháp này thường được áp dụng để phát hiện công thức trong một số trường hợp đặc biệt. Phương pháp này gặp nhiều lỗi sai trong phát hiện công thức trong tài liệu có cấu trúc phức tạp. 1.2.2 Phát hiện công thức dựa trên trích chọn đặc trưng thủ công Các đặc trưng của công thức được trích chọn, thiết kế thủ công để phát hiện công thức trong tài liệu ảnh. Bảng 1.1 tổng hợp một số đặc trưng cơ bản được thiết kế để phát hiện công thức độc lập. Bên cạnh đó, các đặc trưng khác được thiết kế để phát hiện công thức nội tuyến. Bảng 1.2 tổng hợp các đặc trưng được thiết kế để phát hiện công thức nội tuyến. Sau khi trích chọn đặc trưng, các bộ phân lớp như K láng giềng gần nhất hay Máy vec tơ hỗ trợ được áp dụng để phát hiện công thức. Các phương pháp phát hiện công thức dựa trên trích chọn đặc trưng thủ công cho độ chính xác cao với một số dữ liệu nhất định, tuy vậy, các phương pháp phát hiện này cho hiệu quả thấp với công thức nội tuyến. Bảng 1.1 Các đặc trưng được sử dụng để phát hiện công thức độc lập Đặc trưng Mô tả Mật độ [12] Mật độ các điểm ảnh màu đen Tỉ lệ chiều cao và chiều rộng [19] Tỉ lệ chiều cao và chiều rộng của dòng chữ Căn lề trái, phải [12, 20] Căn lề của dòng chữ so với lề văn bản Vị trí của kí tự [12] Thay đổi vị trí của kí tự trong công thức Khoảng cách dòng [23] Khoảng cách với dòng trước và dòng sau 4
  7. Bảng 1.2 Các đặc trưng được sử dụng để phát hiện công thức nội tuyến Đặc trưng Mô tả Kí tự đặc biệt [13] Một từ có chứa kí tự đặc biệt hay không Mật độ[12] Mật độ điểm ảnh màu đen Tỉ lệ chiều cao/chiều rộng [12] Tỉ lệ chiều cao/chiều rộng của từ Thay đổi vị trí của kí tự [12] Sự thay đổi vị trí của các kí tự trong một từ Khoảng cách giữa các kí tự [23] Khoảng cách giữa các kí tự trong từ 1.2.3 Phát hiện công thức toán học dựa trên các mạng học sâu Trong những năm gần đây, kỹ thuật học sâu cho thấy hiệu quả vượt trội trong phát hiện và nhận dạng công thức. Nghiên cứu [21] áp dụng kiến trúc mạng U-net trong phát hiện công thức. Sau khi phát hiện, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trong phát hiện công thức. Mạng U-net được huấn luyện trên tập dữ liệu khoa học đa dạng để nâng cao hiệu quả phát hiện công thức. Độ chính xác đạt được cho phát hiện công thức theo các độ đo "precision"và "recall"lần lượt là 95.2% và 91% trên cơ sở dữ liệu dùng chung GTDB. Mặc dù nghiên cứu này cho kết quả phát hiện kí tự toán học chính xác, nhưng trong quá trình phát hiện công thức, nghiên cứu này chưa xử lý tốt việc xây dựng cấu trúc của công thức đầy đủ. Ngoài ra, nghiên cứu [22] phát hiện công thức dựa trên các cấu trúc mạng nơ ron SSD-512 và YOLOv3. 1.3 Nhận dạng công thức 1.3.1 Các phương pháp truyền thống trong nhận dạng công thức Nhận dạng công thức toán học đã được nghiên cứu từ những năm 1960. Đây là lĩnh vực thu hút được nhiều sự chú ý nhưng cũng vô cùng thử thách. Các phương pháp truyền thống nhận dạng công thức toán học thường gồm 3 bước: phân vùng kí tự, nhận dạng kí tự và phân tích cấu trúc tài liệu. Nghiên cứu [1] tổng hợp nhiều phương pháp khác nhau để giải quyết bài toán nhận dạng công thức. Các phương pháp phân vùng kí tự thường dựa trên phân tích các thành phần liên tục của kí tự hoặc dựa trên hình chiếu của kí tự. Các phương pháp này thường gặp khó khăn trong phân vùng kí tự lớn có chứa các kí tự con (ví dụ kí tự căn bậc hai, tính tổng) hoặc các kí tự liền kề nhau. Các phương pháp nhận dạng kí tự được nghiên cứu dựa trên các đặc trưng của các kí tự kết hợp với các bộ phân lớp học máy. So với phân vùng và nhận dạng kí tự, bước phân tích cấu trúc công thức là khó khăn nhất. Một số cấu trúc thường dùng để giải quyết bài toán phân tích cấu trúc toán học như: cấu trúc cây, đồ thị, văn phạm phi ngữ cảnh. Như vậy, các phương pháp truyền thống để nhận dạng công thức đã được nghiên cứu từ nhiều năm. Các phương pháp này thường có những nhược điểm chính sau: (1) Độ chính xác nhận dạng công thức toán học còn thấp. Bất kỳ lỗi nào gặp phải trong quá trình phân vùng, nhận dạng kí tự hay phân tích cấu trúc kí tự đều dẫn đến kết quả nhận dạng sai. (2) Việc trích chọn đặc trưng thủ công cho một số lượng lớn kí tự toán học tốn rất nhiều thời gian và công sức. (3) Rất khó đánh giá, so sánh độ chính xác trong nhận dạng của các phương pháp 5
  8. đề xuất vì các phương pháp này thử nghiệm trên các tập dữ liệu khác nhau. 1.3.2 Nhận dạng công thức toán học sử dụng các mạng Nơ ron Trong những năm gần đây, các mạng học sâu được áp dụng một cách hiệu quả trong nhận dạng công thức toán học. Nghiên cứu [24] áp dụng mạng nơ ron tích chập và mạng hồi quy để nhận dạng công thức toán học được chụp bằng camera. Một số mô hình dựa trên mạng Encoder-Decoder[25] được đưa ra để nhận dạng công thức toán học. Ý tưởng chính của mạng này là sử dụng mạng nơ ron tích chập để trích chọn đặc trưng tự động của ảnh công thức. Sau đó, bộ giải mã áp dụng cấu trúc mạng hồi quy để giải mã các đặc trưng này thành kết quả nhận dạng công thức. Từ mô hình mạng Encoder-Decoder, một số kỹ thuật được tiếp tục cải tiến để nâng cao chất lượng nhận dạng công thức. Nghiên cứu [3] đưa ra cơ chế học tăng cường dựa trên mẫu chữ viết tay và chữ in để nâng cao độ chính xác nhận công thức. So với các phương pháp truyền thống, phương pháp nhận dạng dựa trên học sâu cho độ chính xác cao hơn đối với các công thức toán học lớn, phức tạp. 1.4 Cơ sở dữ liệu và độ đo đánh giá hệ thống 1.4.1 Cơ sở dữ liệu Một số phương pháp đã có đánh giá độ chính xác của bài toán phát hiện và nhận dạng công thức toán học trên các cơ sở dữ liệu cá nhân có kích thước nhỏ. Để có đánh giá rõ ràng và so sánh được các phương pháp đã có, luận án thực hiện các thử nghiệm trên các bộ cơ sở dữ liệu dùng chung trên thế giới là cơ sở dữ liệu Marmot [11] và GTDB [21]. So với cơ sở dữ liệu Marmot, cơ sở dữ liệu GTDB lớn hơn, thách thức hơn về số lượng, kích thước công thức. Thông tin so sánh giữa hai cơ sở dữ liệu được mô tả trong bảng 1.3. Bảng 1.3 Thông tin về cơ sở dữ liệu Marmot và GTDB GTDB Marmot Cơ sở dữ liệu Huấn luyện Thử nghiệm Huấn luyện Thử nghiệm Số trang tài liệu 569 236 330 70 Số lượng công thức độc lập 4218 2488 1322 253 Số lượng công thức nội tuyến 22178 9397 6951 956 Số lượng font chữ 30 18 Số công thức trung bình/1 trang 47.55 23.70 1.4.2 Độ đo đánh giá hiệu năng hệ thống Hai độ đo phổ biến được áp dụng để đánh giá hiệu năng hệ thống phát hiện công thức. Độ đo thứ nhất là Precision (P), Recall (R) và F1 score. Độ đo thứ hai được sử dụng là độ đo IoU (Intersection over Union). Độ đo IoU thường được áp dụng trong bài toán phát hiện đối tượng. Trong khi đó, hai độ đo về tỉ lệ lỗi ký tự (WER) và tỉ lệ lỗi nhận dạng công thức (ExpRate) được áp dụng để đánh giá độ chính xác của hệ thống nhận dạng công thức. Độ đo (ExpRate) là tỉ lệ số lượng công thức nhận dạng đúng hoàn toàn so với tổng số công thức có trong cơ sở dữ liệu. Độ đo (WER) được tính theo tỉ lệ giữa số lượng kí tự cần thay đổi (thêm, sửa, xóa) 6
  9. để thu được chuỗi chính xác biểu diễn công thức và tổng số kí tự của chuỗi biểu diễn công thức. CHƯƠNG 2 Phát hiện công thức sử dụng phương pháp kết hợp giữa trích chọn đặc trưng thủ công và các mạng học sâu 2.1 Giới thiệu phương pháp Tài liệu khoa học thường bao gồm nhiều thành phần khác nhau như: bảng, hình vẽ, kí tự và công thức toán học. Các phương pháp truyền thống phát hiện công thức dựa trên hai kỹ thuật chính: phân tích trang tài liệu và trích chọn đặc trưng thủ công. Các phương pháp truyền thống thường cho kết quả phát hiện công thức thấp đối với các tài liệu có cấu trúc phức tạp. Do đó, chương này trình bày phương pháp kết hợp giữa trích chọn đặc trưng thủ công và kỹ thuật học sâu tiên tiến nhằm nâng cao độ chính xác phát hiện công thức toán học. Hình 2.1 minh họa các bước của phương pháp. Đầu vào của phương pháp là hình ảnh tài liệu đen trắng. Kỹ thuật phân tích trang tài liệu dựa trên phép chiếu được thực hiện để tách dòng tài liệu (text lines). Các công thức độc lập được phát hiện từ các dòng tài liệu thu được. Các dòng tài liệu không phải là công thức độc lập được tách thành các từ (word). Các công thức nội tuyến được phát hiện từ các từ. Cuối cùng, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trong phát hiện công thức. Hình 2.1 Sơ đồ khối của hệ thống phát hiện công thức toán học. 7
  10. 2.2 Phân tích trang tài liệu Công thức và văn bản trong tài liệu được biểu diễn từ trên xuống dưới và từ trái sang phải, do vậy, kĩ thuật phân tích trang tài liệu dựa trên hình chiếu ngang và hình chiếu dọc được áp dụng [8]. Hình chiếu ngang và hình chiếu dọc của ảnh cho biết sự phân bố của các điểm ảnh theo hai chiều, do đó, đây là kĩ thuật đơn giản và phù hợp cho phân tích cấu trúc tài liệu. Mục tiêu của quá trình phân tích trang tài liệu là để lấy ra các dòng văn bản và các từ. Dựa trên các dòng và các từ đã lấy được từ trang tài liệu, công thức độc lập và công thức nội tuyến sẽ được phát hiện. 2.3 Phát hiện công thức dựa trên phương pháp trích chọn đặc trưng thủ công Hình 2.2 Sơ đồ khối của quá trình phát hiện công thức toán học dựa trên trích chọn đặc trưng thủ công Sơ đồ khối của quá trình phát hiện công thức độc lập và công thức nội tuyến được mô tả trong hình 2.2. Với phương pháp phát hiện dựa trên trích chọn đặc trưng thủ công, dựa trên những đặc điểm khác nhau của công thức toán học và kí tự văn bản thông thường, những đặc trưng được nghiên cứu, đề xuất để nâng cao độ chính xác trong phát hiện. 2.3.1 Phát hiện công thức độc lập dựa trên trích chọn đặc trưng thủ công Mật độ và khoảng cách giữa các kí tự của công thức độc lập thường khác so với các kí tự văn bản thông thường. Do đó, để làm nổi bật đặc trưng này, các dòng văn bản được chuyển đổi sang miền tần số nhờ biến đổi Fast Fourier Transform (FFT). 8
  11. Cho ảnh a có kích thước M × N , biến đổi FFT [7] của ảnh này được tính dựa trên công thức sau: M X X N A(Ω, ψ) = a(m, n)e−j(Ωm+ψn) (2.1) m=1 n=1 Trong đó, A(Ω, ψ) là giá trị biến đổi thu được trong miền tần số nhờ áp dụng biến đổi FFT. Sau quá trình biến đổi sang miền tần số, thành phần tần số và biên độ của biến đổi FFT thu được sẽ được sử dụng làm đặc trưng để phát hiện công thức độc lập. Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện công thức độc lập. 2.3.2 Phát hiện công thức nội tuyến dựa trên trích chọn đặc trưng thủ công Sau khi phát hiện công thức độc lập, các dòng không phải là công thức độc lập được phân vùng thành các từ (word). Các từ thu được sẽ được tiếp tục phân loại để phát hiện công thức nội tuyến. Công thức nội tuyến thường chứa ít kí tự toán học và thường được biểu diễn nghiêng. Để phát hiện công thức nội tuyến, luận án đề xuất phương pháp trích chọn đặc trưng dựa trên phép chiếu của ảnh công thức nội tuyến. Trong phương pháp này, trước hết, hình chiếu theo phương ngang và phương dọc của ảnh công thức được tính toán. Sau đó, phương pháp tìm những điểm cực đại và cực tiểu của các hình chiếu. Các điểm cực trị này phân bố gần đúng theo phân bố chuẩn (Gaussian), do đó, các tham số của phân bố chuẩn được sử dụng làm các đặc trưng của hình chiếu của công thức. Như vậy, vectơ đặc trưng để phát hiện công thức nội tuyến sẽ bao gồm những giá trị như sau: (1) Số lượng các cực đại địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh các từ (word). (2) Giá trị trung bình của các cực đại địa phương của các hình chiếu ngang, dọc. (3) Độ lệch chuẩn của các cực đại địa phương (4) Số lượng các cực tiểu địa phương của các hình chiếu ngang và hình chiếu dọc của ảnh các từ (word). (5) Giá trị trung bình của các cực tiểu địa phương của các hình chiếu ngang, dọc. (6) Độ lệch chuẩn của các cực tiểu địa phương Với ảnh có kích thước m × n, độ phức tạp của giải thuật trích chọn đặc trưng lần lượt là O(m) và O(n) áp dụng cho hình chiếu ngang và hình chiếu dọc của ảnh. Giải thuật tập trung lấy đặc trưng của các điểm cực trị của hình chiếu trên mỗi chiều của ảnh thay vì lấy đặc trưng 9
  12. của toàn bộ ảnh, do đó hiệu năng của giải thuật tốt hơn hơn so với các phương pháp trích chọn đặc trưng đã có trên toàn bộ ảnh. Hình 2.3 Sơ đồ khối phát hiện công thức sử dụng các mạng nơ ron tích chập Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhau bao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decision tree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh. Các bộ phân lớp này được sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiện công thức độc lập. 2.4 Phát hiện công thức sử dụng các mạng nơ ron tích chập So với các phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập cho hiệu quả cao hơn trong phát hiện công thức. Trong luận án này, hai mạng nơ ron tích chập phổ biến là Alexnet và Resnet được áp dụng để tăng độ chính xác trong phát hiện công thức. So với mạng Alexnet, mạng Resnet có cấu trúc phức tạp hơn và cho khả năng phát hiện công thức chính xác hơn. Hình 2.3 minh họa các bước phát hiện công thức toán học dựa trên các mạng nơ ron tích chập. Khác với phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập học tự động một số lượng lớn các đặc trưng của ảnh công thức. Nhờ vậy mà các đặc trưng khác biệt giữa công thức và văn bản được học tự động một cách hiệu quả mà không phụ thuộc nhiều vào sự quan sát của người dùng. Sau quá trình học tự động, sự phân loại công thức được thực hiện ở lớp softmax. 10
  13. 2.5 Phát hiện công thức dựa trên kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập Hình 2.4 Sơ đồ khối của phát hiện công thức dựa trên kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập. Trong những năm gần đây, chiến lược kết hợp nhiều mô hình cho hiệu quả cao trong phát hiện và phân loại đối tượng. Luận án nghiên cứu và áp dụng phương pháp kết hợp muộn giữa kết quả dự đoán công thức đầu ra của các bộ phân lớp học máy (SVM, kNN, cây quyết định, rừng ngẫu nhiên) và kết quả dự đoán của lớp softmax của các mạng nơ ron tích chập. Sơ đồ khối 2.4 mô tả chi tiết quá trình kết hợp muộn trong phát hiện công thức. 2.6 Kỹ thuật hậu xử lý trong phát hiện công thức Trong phát hiện công thức, một số công thức lớn thường bị tách thành nhiều dòng. Do đó, nhằm nâng cao độ chính xác trong phát hiện công thức, luận án áp dụng phương pháp 11
  14. ước lượng ngưỡng để ghép các thành phần bị tách của công thức thành công thức cuối cùng. Hình 2.5 minh họa quá trình ghép hai thành phần của một công thức bị tách thành một công thức hoàn chỉnh. (a) Trước khi hậu xử lý (b) Sau khi hậu xử lý Hình 2.5 Ví dụ minh họa về kỹ thuật hậu xử lý áp dụng để ghép hai phần của công thức để thu được công thức cuối cùng. 2.7 Kết quả đánh giá thực nghiệm Bảng 2.1 So sánh kết quả nhận dạng công thức độc lập trên cơ sở dữ liệu Marmot của phương pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm) Kết quả phát hiện Phát hiện (PH) lỗi Phương pháp PH hoàn toàn PH một phần Tổng Thiếu Sai Tổng Phương pháp [12] 26.87% 44.89% 71.76% 9.89% 18.35% 28.24% Đề xuất FFT và RF 31.02% 42.32% 73.34% 9.04% 17.62% 26.66% Mạng AlexNet 47.22% 41.44% 88.66% 2.78% 8.56% 11.34% Mạng ResNet-18 50.89% 39.27% 90.16% 3.55% 6.29% 9.84% Kết hợp trung bình 51.34% 39.45% 90.79% 3.55% 5.66% 9.21% Kết hợp nhân 51.34% 39.84% 91.18% 3.14% 5.68% 8.82% Bảng 2.2 So sánh kết quả nhận dạng công thức nội tuyến trên cơ sở dữ liệu Marmot của phương pháp đề xuất và các phương pháp đã có (kết quả phát hiện cao nhất được in đậm) Phát hiện Phát hiện (PH) sai Phương pháp Đúng Đúng một phần Tổng số PH thiếu Sai Total Phương pháp [12] 1.74% 28.87% 30.61% 9.93% 59.46% 69.39% Đề xuất Phép chiếu và RF 11.05% 41.40% 52.45% 8.36% 39.19% 47.55% Mạng AlexNet 21.54% 56.25% 77.79% 7.60% 14.61% 22.21% Mạng ResNet-18 22.68% 57.06% 79.74% 5.59% 14.67% 20.26% Kết hợp trung bình 22.79% 57.96% 79.85% 5.79% 14.36% 20.15% Kết hợp nhân 22.90% 58.45% 81.35% 5.40% 13.25% 18.65% 12
  15. Bảng 2.3 So sánh hiệu năng của phương pháp đề xuất và các phương pháp đã có trên cơ sở dữ liệu GTDB Phương pháp IoU ≥ 0.5 IoU ≥ 0.75 Dựa trên đồ thị + nhận dạng [22] 94.36% 94.17% Hệ thống Michiking [22] 36.87% 19.10% Phương pháp đề xuất 50.17% 43.19% Hình 2.6 Ví dụ minh họa phát hiện công thức trong cơ sở dữ liệu GTDB. Kết quả phát hiện được biểu diễn bởi màu xanh, dữ liệu trong cơ sở dữ liệu được biểu diễn bởi màu đỏ Bảng 2.1 và 2.2 thể hiện kết quả phát hiện công thức toán học của phương pháp đề xuất và các phương pháp đã có trên cơ sở dữ liệu Marmot. Bảng 2.3 thể hiện kết quả phát hiện công thức của phương pháp đề xuất và phương pháp đã có trên cơ sở dữ liệu GTDB. So với phương pháp phát hiện truyền thống dựa trên xử lý ảnh và trích chọn đặc trưng thủ công, phương pháp đề xuất cho kết quả cao hơn đáng kể trong phát hiện công thức. Hiệu quả phát hiện cao hơn là nhờ phương pháp đề xuất kết hợp được hiệu quả của các mạng nơ ron tích chập và phương pháp trích chọn đặc trưng dựa trên biến đổi FFT và phép chiếu. Phương pháp phát hiện dựa trên đồ thị và kết quả nhận dạng cho kết quả cao nhất, tuy nhiên, để có kết quả nhận dạng một số lượng lớn các kí tự, phương pháp này đòi hỏi rất nhiều thời gian và công sức. 2.8 Tiểu kết chương Chương này trình bày phương pháp nâng cao độ chính xác trong phát hiện công thức toán học dựa trên phương pháp kết hợp muộn giữa phương pháp trích chọn đặc trưng thủ công và các mạng nơ ron tích chập. Phương pháp đề xuất nâng cao độ chính xác trong phát hiện công thức so với các phương pháp trích chọn đặc trưng thủ công truyền thống. Tuy vậy, độ chính xác của phương pháp phụ thuộc và độ chính xác trong quá trình phân tích trang tài liệu. Trong chương tiếp theo, phương pháp phát hiện công thức tích hợp dựa trên mạng học sâu Faster R-CNN được đề xuất để nâng cao hơn nữa độ chính xác phát hiện công thức. Các 13
  16. kết quả của phương pháp đề xuất được công bố trong các bài báo khoa học 1, 2, 3, 4, 6 và 7. CHƯƠNG 3 Phát hiện công thức sử dụng biến đổi khoảng cách và tối ưu mạng Faster R-CNN 3.1 Giới thiệu phương pháp phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN Hình 3.1 Sơ đồ khối mô tả phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN. Chương trước trình bày phương pháp phát hiện công thức toán học trong tài liệu ảnh dựa trên hai bước chính: phân tích trang tài liệu và kỹ thuật lai giữa trích chọn đặc trưng thủ công và mạng nơ ron tích chập. Hiệu quả của phương pháp phụ thuộc vào độ chính xác của bước phân tích trang tài liệu. Đối với những tài liệu có cấu trúc phức tạp, phương pháp trên gặp nhiều lỗi phát hiện công thức. Để cải thiện độ chính xác phát hiện công thức đối với các tài liệu có cấu trúc phức tạp, chương này nghiên cứu và đề xuất phương pháp phát hiện công thức tích hợp dựa trên biến đổi khoảng cách (Distance Transform - DT) và mạng nơ ron Faster R-CNN. Biến đổi khoảng cách thực hiện biến đổi từ ảnh tài liệu từ đen trắng sang ảnh màu. Phương pháp biến đổi này nhằm khai thác đặc tính khoảng cách giữa kí tự trong công thức khác với khoảng cách giữa các kí tự trong văn bản thông thường. Sau đó, mạng Faster R-CNN thực hiện phát hiện công thức toán học trong ảnh thu được sau khi biến đổi. Mạng Faster R-CNN đã cho thấy hiệu quả phát hiện chính xác hơn so với các mạng nơ ron khác. Để nâng cao độ chính xác trong phát hiện công thức của mạng Faster R-CNN, luận án đề xuất chiến lược tối ưu các thành phần của mạng Faster R-CNN. Hình 3.1 mô tả các bước phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN. Chi tiết các bước tiếp tục được mô tả trong các phần tiếp theo của chương. 14
  17. 3.2 Phát hiện công thức dựa trên biến đổi khoảng cách và mạng Faster R-CNN 3.2.1 Biến đổi ảnh dựa trên khoảng cách Ảnh tài liệu thường là ảnh đen trắng. Mục tiêu của biến đổi ảnh dựa trên khoảng cách [14] là biến đổi ảnh đen trắng thành ảnh xám. Sau đó, các kênh màu xám sẽ được ghép lại để biến đổi từ ảnh xám thành ảnh màu RGB. Phép chuyển đổi ảnh này làm nổi bật thông tin của công thức toán học. Hơn nữa, mạng Faster R-CNN được thiết kế để phát hiện đối tượng trong ảnh màu, do đó, chuyển đổi ảnh từ đen trắng sang ảnh màu giúp mạng Faster R-CNN phát hiện công thức chính xác hơn. Với ảnh tài liệu có kích thước m × n, độ phức tạp của thuật toán biến đổi ảnh dựa trên khoảng cách là O(m × n). (a) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo Euclidean (b) Ví dụ về chuyển đổi ảnh đen trắng sang ảnh RGB dựa trên độ đo City block Hình 3.2 Ví dụ về ảnh thu được sau khi áp dụng DT với độ đo Euclidean (a) và độ đo City block (b). Kích thước ảnh hiển thị trên các trục tọa độ x và y. Tỉ lệ màu của ảnh được thể hiện trên biểu đồ màu sắc. 3.2.2 Cấu trúc mạng Faster R-CNN phát hiện công thức Sau khi ảnh được chuyển đổi sang ảnh màu RBG, công thức được phát hiện một cách tích hợp nhờ mạng nơ ron Faster R-CNN. Cấu trúc của mạng Faster R-CNN gồm hai mạng chính: mạng RPN (Region proposal network) và mạng FCN (Fully connected detection network). Phần này mô tả các bước cài đặt, cấu hình và tinh chỉnh mạng Faster R-CNN để phát hiện công thức. 15
  18. Hình 3.3 Mô hình cấu trúc của mạng Faster R-CNN gồm hai mạng RPN và FCN. 3.2.2.1 Cấu hình mạng RPN Mạng RPN được sử dụng để sinh ra các vùng ứng cử viên cho công thức. Đầu vào của mạng RPN là bảng kích thước n × n gồm các đặc trưng của ảnh. Với mỗi vùng trong bảng đặc trưng, k vùng được đề xuất trong quá trình phát hiện đối tượng. Cấu hình mặc định của mạng RPN được thiết lập với k=9. Luận án thực hiện chuẩn hóa kích thước ảnh tài liệu đầu vào và thống kê kích thước công thức trong ảnh. Số lượng và kích thước của các vùng được đề xuất sao cho độ bao phủ của các vùng này với các công thức là tối ưu. Từ đó, mạng RPN được tinh chỉnh để có thể phát hiện chính xác nhất các công thức trong ảnh tài liệu. Kết quả cho thấy tham số k=15 và k=12 được xác định để tối ưu mạng RPN trong phát hiện công thức độc lập và công thức nội tuyến. 3.2.2.2 Cấu trúc mạng FCN Các vùng được đề xuất nhờ mạng RPN sau đó được đưa vào mạng FCN để xác định chính xác vị trí các công thức toán học. Mạng FCN sử dụng lớp softmax để phân loại công thức và lớp Box Regression để tinh chỉnh vị trí công thức. Trong luận án này, mạng Faster R-CNN được phát triển dựa trên mạng Resnet-50 với 177 lớp. Tỉ lệ học được thiết lập với giá trị 0.001 và giá trị max epochs trong quá trình huấn luyện được thiết lập là 10. Các giá trị này được kiểm tra và thiết lập để mạng Faster R-CNN phát hiện chính xác nhất công thức. 3.3 Kết quả thực nghiệm Bảng 3.1 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm) Phát hiện Sai Phương pháp Đúng PH một phần Tổng PH thiếu Sai Tổng Phương pháp [12] 26.87% 44.89% 71.76% 9.89% 18.35% 28.24% FFT (chương 2) 31.02% 42.32% 73.34% 9.04% 17.62% 26.66% Kết hợp (chương 2) 51.34% 39.84% 91.18% 3.14% 5.68% 8.82% Mô hình đề xuất 84.80% 8.10% 92.90% 2.27% 4.83% 7.10% Kết quả so sánh của phương pháp đề xuất phát hiện công thức độc lập và công thức nội tuyến và các phương pháp đã có trên cơ sở dữ liệu Marmot được mô tả trong các bảng 3.1 và 3.2. Kết quả so sánh trên cơ sở dữ liệu GTDB được mô tả trong các bảng 3.3 và 3.4. So 16
  19. Bảng 3.2 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các phương pháp khác trên cơ sở dữ liệu Marmot (Chỉ số cao nhất được in đậm) Phát hiện Lỗi Phương pháp Đúng PH một phần Tổng PH thiếu Sai Tổng Phương pháp [12] 1.74% 28.87% 30.61% 9.93% 59.46% 69.39% Phép chiếu (chương 2) 11.05% 41.40% 52.45% 8.36% 39.19% 47.55% Kết hợp (chương 2) 22.90% 58.45% 81.35% 5.40% 13.25% 18.65% Mô hình đề xuất 75.95% 9.95% 85.90% 6.25% 8.20% 14.10% Bảng 3.3 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức độc lập và các phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm) Phát hiện Lỗi Phương pháp Đúng PH một phần Tổng PH thiếu Sai Total Phương pháp [12] 26.22% 44.87% 71.09% 9.91% 19.00% 28.91% FFT (chương 2) 30.86% 42.12% 72.98% 9.25% 17.77% 27.02% Kết hợp (chương 2) 50.37% 39.14% 89.51% 3.16% 7.33% 10.49% Mô hình đề xuất 83.79% 7.25% 91.04% 2.15% 6.81% 8.96% Bảng 3.4 So sánh hiệu năng của phương pháp đề xuất phát hiện công thức nội tuyến và các phương pháp khác trên cơ sở dữ liệu GTDB (Chỉ số cao nhất được in đậm) Phát hiện Lỗi Phương pháp Đúng PH một phần Tổng PH thiếu Sai Total Phương pháp [12] 1.56% 28.67% 30.23% 9.97% 59.80% 69.77% Phép chiếu (chương 2) 10.48% 41.36% 51.84% 8.26% 39.90% 48.16% Kết hợp (chương 2) 22.76% 57.44% 80.20% 5.46% 14.34% 19.80% Mô hình đề xuất 75.20% 9.95% 85.15% 6.15% 8.70% 14.85% với các phương pháp phát hiện công thức dựa trên nhiều bước, phương pháp phát hiện tích hợp cho độ chính xác cao hơn vì kết quả phương pháp không phụ thuộc vào độ chính xác của kỹ thuật phân tích trang tài liệu. So với các phương pháp phát hiện sử dụng mạng Yolov3 và SSD-512, phương pháp đề xuất cho kết quả tốt hơn nhờ áp dụng phương pháp xử lý ảnh dựa trên khoảng cách và tối ưu mạng Faster R-CNN. Kết quả so sánh được thể hiện trong bảng 3.5. Bảng 3.5 So sánh hiệu năng phát hiện công thức của phương pháp đề xuất và các phương pháp khác trên cơ sở dữ liệu GTDB Phương pháp Phát hiện IoU ≥ 0.5 Phát hiện IoU ≥ 0.75 Đồ thị + nhận dạng [10] 94.36% 94.17% Sử dụng mạng SSD512 83.14% 75.29% Sử dụng mạng Yolov3 74.4% 63.20% Hệ thống Michiking [22] 36.87% 19.10% Mô hình đề xuất 83.79% 77.20% 17
  20. Hình 3.4 Ví dụ về phát hiện công thức trong cơ sở dữ liệu GTDB. Công thức được phát hiện và mô tả trong cơ sở dữ liệu được biểu diễn lần lượt bằng màu xanh và màu đỏ. 3.4 Tiểu kết chương Chương này trình bày phương pháp phát hiện công thức tích hợp dựa trên biến đổi khoảng cách và mạng Faster R-CNN. So với phương pháp phát hiện nhiều bước mô tả trong chương 2, phương pháp tích hợp cho kết quả phát hiện cao hơn. Kết quả của phương pháp đề xuất được công bố trong bài báo số 8. CHƯƠNG 4 Hệ thống phát hiện và nhận dạng công thức trong tài liệu ảnh 4.1 Tổng quan hệ thống Hình 4.1 Sơ đồ khối của hệ thống phát hiện và nhận dạng công thức toán học. Trước đây, các nghiên cứu đã có tập trung vào nhận dạng công thức đã được phân vùng thủ công hoặc công thức trong ảnh chụp. Chương này giới thiệu hệ thống phát hiện và nhận dạng công thức toán học trong tài liệu ảnh cho người sử dụng cuối. Hệ thống được phát triển gồm hai thành phần chính. Phần thứ nhất, công thức được phát hiện tự động dựa trên mô hình mạng Faster R-CNN đề xuất trong chương 3. Sau đó, công thức đã phát hiện được nhận dạng nhờ mạng học sâu theo kiến trúc Encoder-Decoder, mạng WAP. Đây là kiến trúc mạng 18
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2