intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học máy tính: Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:67

9
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn của tôi sẽ được trình bày theo 5 chương. Chương đầu tiên đã giới thiệu, đặt vấn đề và mô tả bài toán cũng như phương pháp thực hiện. Chương 2 sẽ liệt kê các nghiên cứu liên quan. Chương 3 sẽ mô tả các phương pháp tác giả đã xây dựng để giải quyết bài toán đặt ra. Chương 4 sẽ trình bày kết quả thực nghiệm tôi đạt được sau khi áp dụng phương pháp đề xuất đã trình bày trong chương 3. Chương cuối cùng sẽ tổng kết và thảo luận lại các kết quả tôi đạt được khi nghiên cứu luận văn này.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản

  1. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng Anh Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Hà Nội - 2021
  2. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng Anh Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Giảng viên hướng dẫn: TS. Nguyễn Thị Ngọc Diệp Hà Nội - 2021
  3. Tóm tắt Số hóa đang là xu hướng của thế giới. Một ví dụ rõ nhất thể hiện cho xu hướng số hóa là việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thay thế cho các định dạng văn bản vật lý nhờ sự tiện dụng và an toàn của chúng. Đi kèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý là rất lớn và không thể giải quyết bằng phương pháp thủ công mà cần các phương pháp trích xuất thông tin tự động. Trên văn bản có nhiều dạng biểu diễn thông tin mà bảng là một trong những dạng chứa nhiều thông tin và phổ biến nhất. Trong bảng, các dữ liệu thường được tổ chức theo hàng cột rất đặc trưng. Vì vậy, để trích xuất thông tin trong bảng, bước đầu tiên cần xác định và tách được bảng ra khỏi văn bản. Đồng thời, bảng có cấu trúc rất đa dạng nên việc sử dụng các thuật toán xử lý ảnh truyền thống để phát hiện là rất khó khăn. Tận dụng sức mạnh của học sâu, trên thế giới đã có nhiều nghiên cứu ứng dụng các mô hình học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản. Trong đó, phát hiện bảng là nhiệm vụ tìm vị trí và tách được bảng ra khỏi văn bản còn nhận dạng cấu trúc là nhiệm vụ xác định cấu trúc biểu diễn dữ liệu trong bảng. Mặc dù đã có nhiều nghiên cứu liên quan nhưng các nghiên cứu đã công bố chưa tập trung vào dạng dữ liệu ảnh văn bản thu được từ việc chụp các văn bản vật lý bằng các thiết bị ghi hình. Trong thực thế, lượng dữ liệu ảnh chụp văn bản là rất lớn vì chụp ảnh là một trong những cách nhanh nhất để số hóa văn bản. Vì vậy, trong khóa luận này, tôi sẽ ứng dụng công nghệ học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh chụp văn bản. Để giải quyết bài toán đặt ra, tôi đã phát triển các phương pháp phát hiện và nhận dạng cấu trúc bảng dựa trên các mô hình học sâu. Phương pháp phát hiện bảng sẽ bao gồm các mô hình học sâu được huấn luyện để phát hiện vị trí của bảng trong ảnh văn bản và một bước hậu xử lý để làm phẳng bảng. Mục đích của phương pháp là tách được từng bảng ra khỏi ảnh văn bản ban đầu. Sau đó, các ảnh bảng này được đưa vào phương pháp nhận dạng cấu trúc bảng. Phương pháp nhận dạng cấu trúc sẽ sử dụng các mô hình học sâu được huấn luyện để nhận dạng cấu i
  4. trúc của bảng thông qua việc phát hiện các ô trong bảng. Để huấn luyện các mô hình học sâu đề xuất, tôi đã xây dựng một phương pháp tự động tạo ảnh mô phỏng ảnh chụp văn bản do các bộ dữ liệu sẵn có về ảnh chụp văn bản là rất ít. Phương pháp này sử dụng các tính toán để mô phỏng và thêm các hiệu ứng chỉ xuất hiện khi chụp văn bản (biến dạng 3D và bóng) lên các ảnh văn bản chuyển đổi từ các định dạng số (PDF, Word...). Sử dụng phương pháp này, tôi đã xây đựng được bộ dữ liệu bao gồm 22000 ảnh mô phỏng ảnh chụp văn bản (được gán nhãn vị trí bảng) và 42028 ảnh bảng (được gán nhãn vị trí các ô trong bảng). Ngoài ra, để đánh giá độ chính xác của các phương pháp phát hiện và nhận dạng cấu trúc bảng, tôi đã gán nhãn thủ công một bộ dữ liệu thực tế gồm 100 ảnh chụp văn bản và 100 ảnh bảng. Kết quả cuối cùng tôi đạt được khá tốt và cao hơn các nghiên cứu liên quan đã công bố khi đánh giá trên bộ dữ liệu thực tế đã gán nhãn. Cụ thể, phương pháp phát hiện bảng của tôi cho kết quả IoU điểm ảnh lên đến 0.96 và chỉ số F1 là 0.83 (khi xét các bảng dự đoán có IoU > 0.9 được tính là chính xác). Với phương pháp làm phẳng bảng, nghiên cứu của tôi cho tỉ lệ cắt và làm phẳng bảng thành công lên đến 95%. Với phương pháp nhận dạng cấu trúc bảng thông qua phát hiện các ô trong bảng, mô hình của tôi cho chỉ số F1 khi phát hiện các ô là 0.76. ii
  5. Lời cảm ơn Tôi xin cảm ơn sâu sắc đến TS. Nguyễn Thị Ngọc Diệp đã tiếp nhận, hướng dẫn, tận tình chỉ bảo cũng như đốc thúc tôi hoàn thành nghiên cứu trong suốt thời gian làm luận văn. Tôi xin gửi lời cảm ơn đến các giảng viên dạy các lớp cao học của trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt kiến thức cho tôi trong suốt 2 năm tôi làm học viên cao học tại trường. Và cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất đến bố mẹ - những người đã luôn đồng hành và động viên tôi trên con đường học tập. iii
  6. Lời cam đoan Tôi xin cam đoan luận văn này do bản thân tôi tự thực hiện dưới sự hướng dẫn của TS. Nguyễn Thị Ngọc Diệp. Mọi thông tin tham khảo được sử dụng trong luận văn đều được tôi trích dẫn đầy đủ trong phần tài liệu tham khảo. Tôi xin hoàn toàn chịu trách nhiệm với lời cam đoan của mình và xin chịu mọi hình thức kỉ luật theo quy định nếu sai phạm. iv
  7. Mục lục Tóm tắt i Lời cảm ơn iii Lời cam kết iv Mục Lục v Danh sách bảng vii Danh sách hình vẽ viii 1 Tổng quan 1 1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Phạm vi của luận văn . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Các nghiên cứu liên quan 6 2.1 Các nghiên cứu về phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Các nghiên cứu về làm phẳng ảnh văn bản bị biến dạng . . . . . . 9 3 Phương pháp đề xuất 12 3.1 Phương pháp tự động tạo dữ liệu tăng cường . . . . . . . . . . . . 12 3.1.1 Phương pháp tạo bóng trên ảnh văn bản . . . . . . . . . . 14 3.1.2 Phương pháp tạo ảnh văn bản bị biến dạng . . . . . . . . . 15 3.2 Phương pháp phát hiện bảng trên ảnh chụp văn bản . . . . . . . . 18 3.2.1 Các kiến trúc học sâu cho việc phát hiện bảng . . . . . . . 19 3.2.2 Các mạng cơ bản được sử dụng trong luận văn . . . . . . 24 3.2.3 Các phương pháp làm phẳng ảnh chụp văn bản bị biến dạng 31 v
  8. 3.3 Phương pháp nhận dạng cấu trúc bảng . . . . . . . . . . . . . . . 32 3.4 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4.1 Phương pháp đánh giá độ chính xác của phương pháp phát hiện và phương pháp nhận dạng cấu trúc bảng . . . . . . . 35 3.4.2 Phương pháp đánh giá độ chính xác của phương pháp làm phẳng ảnh văn bản . . . . . . . . . . . . . . . . . . . . . 36 3.5 Các framework và thư viện sử dụng . . . . . . . . . . . . . . . . 37 4 Thực nghiệm 39 4.1 Bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.1.1 Dữ liệu cho nhiệm vụ phát hiện bảng . . . . . . . . . . . 39 4.1.2 Dữ liệu cho nhiệm vụ nhận dạng cấu trúc bảng . . . . . . 40 4.2 Kết quả huấn luyện mô hình học sâu phát hiện bảng trên ảnh văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.3 Kết quả làm phẳng bảng trong ảnh văn bản . . . . . . . . . . . . . 46 4.4 Kết quả huấn luyện mô hình học sâu nhận dạng cấu trúc bảng . . . 49 Kết luận 51 Tài liệu tham khảo 53 vi
  9. Danh sách bảng 2.1 Thống kê các tập dữ liệu ảnh văn bản cho bài toán phát hiện và nhận dạng cấu trúc bảng. . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Hướng tiếp cận của các nghiên cứu sử dụng học sâu cho bài toán phát hiện bảng trên ảnh văn bản. . . . . . . . . . . . . . . . . . . 8 4.1 Bộ dữ liệu tăng cường cho nhiệm vụ phát hiện bảng. . . . . . . . . 39 4.2 Bộ dữ liệu tăng cường cho nhiệm vụ nhận dạng cấu trúc bảng. . . 41 4.3 Thông số huấn luyện của các mô hình. . . . . . . . . . . . . . . . 42 4.4 Kết quả huấn luyện mạng phát hiện bảng theo IoU. . . . . . . . . 42 4.5 Kết quả huấn luyện mạng phát hiện bảng theo Precision, Recall và F1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.6 Thống kê kết quả tiếp cận theo hướng thứ nhất. . . . . . . . . . . 46 4.7 Thống kê kết quả tiếp cận theo hướng thứ hai. . . . . . . . . . . . 47 4.8 Thống kê kết quả kết hợp giữa hai hướng. . . . . . . . . . . . . . 47 4.9 Kết quả huấn luyện các mô hình nhận dạng cấu trúc bảng. . . . . . 49 vii
  10. Danh sách hình vẽ 1.1 Minh họa ảnh văn bản. Từ trái sang phải: ảnh chuyển đổi từ PDF, ảnh scan và ảnh chụp bằng máy ảnh điện thoại. . . . . . . . . . . 3 2.1 Hình ảnh minh họa cách thu thập dữ liệu 3D của ảnh văn bản biến dạng. Trích từ [7]. . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1 Minh họa quá trình tạo dữ liệu. Từ hình ảnh văn bản gốc bên trái, thông qua các bước biến đổi, tôi thu được hình ảnh văn bản mô phỏng khi được chụp trong thực tế. . . . . . . . . . . . . . . . . 13 3.2 Một số hình ảnh trong bộ dữ liệu TableBank. . . . . . . . . . . . 14 3.3 Minh họa cho hệ màu HSV. . . . . . . . . . . . . . . . . . . . . . 15 3.4 Minh họa cho quá trình thêm bóng vào ảnh. . . . . . . . . . . . . 15 3.5 Minh họa cho thuật toán tạo ảnh văn bản bị biến dạng. Trích từ [16]. 16 3.6 Minh họa ảnh hưởng của a đến sự biến dạng. Trích từ [16]. Hình (a) và (b) mô tả biến dạng gập khi a nhỏ và a lớn. Hình (c) và (d) mô tả biến dạng bẻ cong khi a nhỏ và a lớn. . . . . . . . . . . . . 17 3.7 Ảnh mô phỏng hình nền trong bộ dữ liệu DTD. . . . . . . . . . . 17 3.8 Hướng tiếp cận thứ nhất. . . . . . . . . . . . . . . . . . . . . . . 18 3.9 Hướng tiếp cận thứ hai. . . . . . . . . . . . . . . . . . . . . . . . 19 3.10 Kiến trúc tổng quan của DeepLabv3+. . . . . . . . . . . . . . . . 20 3.11 So sánh tích chập thông thường (trái) và tích chập mở rộng (phải). 21 3.12 Minh họa cho tích chập phân tách theo chiều sâu. . . . . . . . . . 22 3.13 Kiến trúc UperNet. . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.14 Kiến trúc của Mask R-CNN. Trích [11]. . . . . . . . . . . . . . . 24 3.15 Kiến trúc của Cascade Mask R-CNN. Trích [19]. . . . . . . . . . 24 3.16 Khối dư trong mạng ResNet. Trích [12]. . . . . . . . . . . . . . . 25 3.17 Kiến trúc của ResNet. Trích [12]. . . . . . . . . . . . . . . . . . . 26 3.18 Kiến trúc tổng quan của HRNetv2. Trích [24]. . . . . . . . . . . . 26 3.19 Kiến trúc chi tiết của HRNetv2. Trích [24]. . . . . . . . . . . . . 27 viii
  11. 3.20 Khối MSA trong kiến trúc Transformer. Trích [28]. . . . . . . . . 27 3.21 Kiến trúc mạng Swin Transformer. Trích [15]. . . . . . . . . . . . 28 3.22 Kiến trúc các khối Swin Transformer. Trích [15]. . . . . . . . . . 29 3.23 Mô tả sự thay đổi của vùng không chồng chéo từ khối W.MSA sang khối SW.MSA. Trích [15]. Các ô vuông nhỏ là các phần 4x4 của ảnh. Các ô vuông to màu đỏ là các vùng không chồng chéo . . 29 3.24 Kết quả so sánh của Swin Transformer trên các tập dữ liệu công khai. Trích [15]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.25 Kiến trúc các phiên bản Swin Transformer. Trích [15]. . . . . . . 30 3.26 Kiến trúc DewarpNet. Trích [7]. . . . . . . . . . . . . . . . . . . 31 3.27 Làm phẳng bảng nhờ đường viền. Trích [7]. . . . . . . . . . . . . 32 3.28 Hình ảnh bảng đã được xử lý. . . . . . . . . . . . . . . . . . . . . 33 3.29 Hình ảnh bảng trong bộ TableBank. . . . . . . . . . . . . . . . . 33 3.30 Ảnh bảng và định dạng nhãn trong TableBank. . . . . . . . . . . . 34 3.31 Minh họa đánh nhãn từng ô trong bảng. Trích [26]. . . . . . . . . 34 3.32 Cách tính chỉ số IoU. . . . . . . . . . . . . . . . . . . . . . . . . 35 3.33 Một số ví dụ tính IoU. . . . . . . . . . . . . . . . . . . . . . . . . 35 3.34 Một số ví dụ tính MS-SSIM. . . . . . . . . . . . . . . . . . . . . 37 4.1 Một số mẫu dữ liệu đã tạo. . . . . . . . . . . . . . . . . . . . . . 40 4.2 Một số mẫu ảnh chụp văn bản và nhãn của bảng. . . . . . . . . . 40 4.3 Một số mẫu ảnh bảng và nhãn của các ô trong bảng. . . . . . . . . 41 4.4 Một số trường hợp phát hiện bảng tốt. . . . . . . . . . . . . . . . 44 4.5 Các trường hợp phát hiện thừa bảng của các mạng phân đoạn cá thể. 45 4.6 Các trường hợp phát hiện không ổn định và dính bảng của các mạng phân đoạn ngữ nghĩa. . . . . . . . . . . . . . . . . . . . . . 45 4.7 Các bảng không có đường viền chưa được phát hiện chính xác. . . 46 4.8 Một số trường hợp bảng đã được làm phẳng (ảnh kết quả và ảnh chuyển từ định dạng Word). . . . . . . . . . . . . . . . . . . . . . 48 4.9 Một số trường hợp bảng chưa được làm phẳng (ảnh kết quả và ảnh chuyển từ định dạng Word). . . . . . . . . . . . . . . . . . . . . . 48 4.10 Một số kết quả phát hiện ô tốt. . . . . . . . . . . . . . . . . . . . 49 4.11 Một số kết quả phát hiện ô không tốt. . . . . . . . . . . . . . . . . 50 ix
  12. Chương 1 Tổng quan Chương này sẽ mô tả bối cảnh và bài toán được giải quyết trong luận văn này. Đầu tiên, phần một sẽ trình bày bối cảnh và động lực thúc đẩy nghiên cứu của tôi. Sau đó, phần hai sẽ mô tả bài toán được đặt ra và giải quyết trong luận văn. 1.1 Đặt vấn đề Số hóa đang là xu thế tất yếu của thế giới. Một cách ngắn gọn, số hóa là quá trình chuyển đổi các dạng dữ liệu vật lý hoặc các quy trình thủ công thành các dạng dữ liệu số để có thể lưu trữ và xử lý trên máy tính. Một ví dụ rõ nhất thể hiện cho xu hướng số hóa là việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thay thế cho các định dạng văn bản vật lý nhờ sự tiện dụng và an toàn của chúng. Đi kèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý là rất lớn và không thể giải quyết bằng phương pháp thủ công mà cần các phương pháp trích xuất thông tin tự động. Trong văn bản có rất nhiều kiểu biểu diễn dữ liệu. Thông tin có thể được thể hiện trong các đoạn văn bản, trong các hình vẽ và trong các bảng... Bảng là một dạng biểu diễn thông tin được xuất hiện phổ biến trong các văn bản nhờ khả năng biểu diễn dữ liệu có cấu trúc rất trực quan của nó. Thông tin trong các bảng được tổ chức theo các ô thuộc từng hàng và cột rất đặc trưng. Vì vậy, để trích xuất được thông tin trong bảng, chúng ta cần phải phát hiện và tách riêng các bảng để xử lý riêng. Với nhu cầu số hóa các văn bản giấy, ảnh văn bản đang là một nguồn dữ liệu lớn và phổ biến. Việc phát hiện và nhận dạng cấu trúc bảng trên các ảnh văn bản là cần thiết để có thể trích xuất thông tin tự động từ ảnh văn bản. Trong đó, phát hiện bảng là nhiệm vụ tìm vị trí và tách được bảng ra khỏi văn bản còn nhận dạng 1
  13. cấu trúc là nhiệm vụ xác định cấu trúc biểu diễn dữ liệu trong bảng. Bảng trong văn bản có rất nhiều kiểu biểu diễn như: có đường kẻ (kẻ liền hoặc kẻ đứt), không đường kẻ hoặc một phần theo cột hay hàng có đường kẻ. Với sự đa dạng về biểu diễn như đã nêu trên của bảng, việc phát hiện bảng bằng các thuật toán xử lý ảnh truyền thống là một thách thức khó giải quyết. Vì vậy, các nghiên cứu gần đây tập trung vào việc sử dụng các mô hình học sâu để giải quyết bài toán phát hiện bảng trên ảnh văn bản. Các mô hình học sâu có khả năng học biểu diễn từ các tập dữ liệu lớn và từ đó có thể xử lý các bài toán mà các phương pháp xử lý ảnh truyền thống gặp khó khăn như bài toán này. Bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh văn bản là một chủ đề được xuất hiện trong nhiều cuộc thi về trích xuất thông tin tự động từ văn bản như ICDAR (International Conference on Document Analysis and Recognition) - một cuộc thi lớn được tổ chức 2 năm một lần từ năm 1991 (phần thi phát hiện bảng đã được thêm vào từ năm 2013). Đồng thời, trên thế giới đã có nhiều nghiên cứu và các tập dữ liệu về nhiệm vụ này được công khai. Một số nghiên cứu mới nhất có thể thể kể đến như mô hình CascadeTabNet [19] và CDeC-Net [1]. Điểm chung của các nghiên cứu này là sử dụng các kỹ thuật phát hiện đối tượng trong học sâu để phát hiện bảng và các ô trong bảng trong ảnh văn bản. Tuy nghiên, các nghiên cứu này tập trung vào dạng dữ liệu ảnh văn bản thu được từ chuyển đổi từ các định dạng văn bản số khác hoặc scan văn bản vật lý. Các bộ dữ liệu có sẵn về ảnh văn bản có bảng cũng đều là các ảnh văn bản tương tự. Trong thực tế, nhu cầu trích xuất các thông tin từ ảnh văn bản được chụp thông qua các thiết bị ghi hình là rất lớn vì một trong những cách để số hóa văn bản nhanh và thuận tiện nhất chính là chụp ảnh. Và để trích xuất thông tin từ các hình ảnh như vậy, vấn đề phát hiện và nhận dạng cấu trúc bảng thông qua ảnh chụp văn bản là một bài toán cần được giải quyết. Trong luận văn này, tôi sẽ tập trung xây dựng bộ dữ liệu và huấn luyện các mô hình học sâu để giải quyết bài toán này. 1.2 Mô tả bài toán Như đã trình bày trong phần đặt vấn đề, luận văn này tập trung vào việc giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trong hình ảnh văn bản được chụp qua các thiết bị ghi hình. Thông thường, ảnh văn bản có thể được thu thập từ các phương pháp sau: • Cách 1: Chuyển đổi từ các dạng văn bản số khác (PDF, Word... ). 2
  14. • Cách 2: Scan các dạng văn bản vật lý. • Cách 3: Chụp các dạng văn bản vật lý bằng các thiết bị ghi hình. Hình 1.1: Minh họa ảnh văn bản. Từ trái sang phải: ảnh chuyển đổi từ PDF, ảnh scan và ảnh chụp bằng máy ảnh điện thoại. Hiện đã có nhiều tập dữ liệu công khai được gán nhãn vị trí bảng trong ảnh văn bản thu được theo cách 1 và cách 2 như các bộ dữ liệu trong các cuộc thi ICDAR (từ năm 2013), TableBank [14], PubTabNet [31]... Tuy nhiên, hầu như không có tập dữ liệu công khai nào về bộ dữ liệu ảnh văn bản có bảng được chụp từ các thiết bị ghi hình. Để huấn luyện được các mô hình học sâu, chúng ta cần rất nhiều dữ liệu. Việc tạo bộ dữ liệu thủ công sẽ mất rất nhiều thời gian và công sức. Vì vậy, bước đầu tiên tôi sẽ xây dựng phương pháp tự động tạo bộ dữ liệu ảnh chụp văn bản. Phương pháp tôi đề xuất là tăng cường các ảnh văn bản trong các bộ dữ liệu có sẵn. Qua so sánh (xem hình 1.1), tôi đã nhận thấy ảnh chụp văn bản bằng các thiết bị ghi hình có một số loại nhiễu khác biệt với 2 loại ảnh văn bản còn lại như sau: • Có thể xuất hiện các biến đổi hình dạng 3D phức tạp hơn (cong vênh, bị gập..) thay vì chỉ có các biến dạng 2D (nghiêng, lật...) như 2 loại còn lại. • Xuất hiện các vùng bóng do ánh sáng không đều như khi scan. Sau khi giải quyết bài toán dữ liệu, tôi sẽ huấn luyện các mô hình học sâu cho nhiệm vụ phát hiện bảng trên ảnh văn bản bằng các dữ liệu đã tạo. Các mô hình học sâu được sử dụng sẽ là các mô hình liên quan đến việc phát hiện đối tượng trong ảnh mới nhất được cập nhập tại thời điểm nghiên cứu. Trong đó, tôi có sử 3
  15. dụng một kiến trúc mới của học sâu trong bài toán xử lý hình ảnh là Transformer. Đây là một kiến trúc được xây dựng cho bài toán xử lý ngôn ngữ tự nhiên nhưng gần đây đã được ứng dụng và được kỳ vọng có thể thay thế các mạng tích chập truyền thống trong xử lý hình ảnh. Để phục vụ mục đích trích xuất dữ liệu, các hình ảnh bảng thu được cần phải được loại bỏ các biến đổi 3D để thu được dạng bề mặt phẳng như khi scan. Điều này rất có ý nghĩa để đảm bảo các bước đọc thông tin phía sau được chính xác và đảm bảo giữ được cấu trúc dữ liệu của bảng (do bảng tổ chức thông tin theo các hàng cột). Để xử lý vấn đề này, tôi sẽ sử dụng các phương pháp để làm phẳng văn bản biến dạng. Mục đích của bước này nhằm loại bỏ các biến đổi 3D trong bảng và đưa hình ảnh bảng về dạng hình chữ nhật thẳng đứng. Các phương pháp này sẽ dựa trên cả các thuật toán xử lý ảnh truyền thống (xử lý thông qua đường viền) và các mô hình học sâu có sẵn. Cuối cùng, tôi sẽ huấn luyện mô hình học sâu để phát hiện các ô trong bảng từ hình ảnh bảng đã được xử lý. Để đánh giá các kết quả đạt được, tôi sẽ tạo và gán nhãn một bộ dữ liệu ảnh chụp văn bản bằng các thiết bị ghi hình bằng phương pháp thủ công. 1.3 Phạm vi của luận văn Trong luận văn này, tôi đã nghiên cứu và giải quyết các vấn đề sau: • Xây dựng được bộ dữ mô phỏng ảnh chụp văn bản bằng các thiết bị ghi hình bằng các phương pháp tự động. • Huấn luyện các mô hình phát hiện bảng trong ảnh văn bản dựa trên bộ dữ liệu xây dựng được. • Ứng dụng các phương pháp để xử lý ảnh tài liệu bị biến dạng để hậu xử lý kết quả phát hiện bảng thu được. • Huấn luyện mô hình phát hiện các ô trong bảng từ ảnh bảng đã được xử lý (tách riêng và làm phẳng) để nhận dạng cấu trúc bảng. • Xây dựng và gắn được một bộ dữ liệu ảnh chụp văn bản bằng các thiết bị ghi hình bằng phương pháp thủ công. Đây là bộ dữ liệu sử dụng để đánh giá kết quả tôi đạt được. Luận văn của tôi sẽ được trình bày theo 5 chương. Chương đầu tiên đã giới thiệu, đặt vấn đề và mô tả bài toán cũng như phương pháp thực hiện. Chương 2 sẽ liệt kê các nghiên cứu liên quan. Chương 3 sẽ mô tả các phương pháp tôi đã 4
  16. xây dựng để giải quyết bài toán đặt ra. Chương 4 sẽ trình bày kết quả thực nghiệm tôi đạt được sau khi áp dụng phương pháp đề xuất đã trình bày trong chương 3. Chương cuối cùng sẽ tổng kết và thảo luận lại các kết quả tôi đạt được khi nghiên cứu luận văn này. 5
  17. Chương 2 Các nghiên cứu liên quan Chương này sẽ đề cập đến các nghiên cứu liên quan đến bài toán trong luận văn. Các nghiên cứu này có thể là cùng đề tài hoặc được ứng dụng trong luận văn. Phần một của chương sẽ trình bày về các nghiên cứu liên quan về việc phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản. Phần hai của chương sẽ trình bày về các nghiên cứu làm phẳng ảnh văn bản bị biến dạng. 2.1 Các nghiên cứu về phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản Chủ đề về phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản đã được quan tâm và nghiên cứu từ khá sớm. Một số nghiên cứu đã được thực hiện từ cuối thế kỉ 20 như [4] và đầu thế kỉ 21 như [3]. Các nghiên cứu này sử dụng các kỹ thuật xử lý ảnh truyền thống để phát hiện các đường nét cạnh của bảng. Sau đó, các tác giả sử dụng các mô hình logic để ghép chúng lại và tìm được vị trí của bảng trong ảnh văn bản. Tuy nghiên, trong văn bản hiện nay, bảng được biểu diễn bởi rất nhiều loại định dạng chứ không yêu cầu phải có đường kẻ liền để phân biệt các ô hoặc hàng. Điều này kiến cho mỗi phương pháp pháp hiện ảnh dựa trên kỹ thuật xử lý ảnh truyền thống hầu như chỉ có thể xử lý một số các trường hợp cố định và xác định trước. Sau đó một thời gian, các nghiên cứu phát hiện ảnh chủ yếu chỉ tập trung vào việc phát hiện bảng dựa trên các định dạng số. Một số nghiên cứu đã phân tích định dạng dữ liệu của các tệp PDF để tìm vị trí của bảng tự động như [23] và [17]. Một nghiên cứu khác phân tích mã HTML của các trang web để xác định vị trí bảng như [13]. Các nghiên cứu này có điểm chung là phân tích cú pháp hoặc định dạng dữ liệu cố định để phát hiện bảng. 6
  18. Với sự xuất hiện và phát triển của các mô hình học sâu, ảnh văn bản một lần nữa được quan tâm và chọn làm đối tượng cho các thuật toán phát hiện bảng trong những năm gần đây. Điều này có thể lý giải do khả năng học biểu diễn trên các bộ dữ liệu lớn của học sâu kiến cho chúng có thể học được vị trí và kiến trúc từ nhiều loại bảng khác nhau (nếu có đủ dữ liệu). Như đã đề cập từ phần giới thiệu, ảnh văn bản có thể thu thập bằng 3 cách: chuyển đổi từ định dạng số khác, scan hoặc chụp các văn bản vật lý bằng các thiết bị ghi hình. Các tập dữ liệu được gắn nhãn công khai hiện nay chủ yếu là các tập dữ liệu ảnh văn bản thu được từ chuyển định dạng hoặc scan các bản vật lý. Vì vậy, các nghiên cứu gần đây chủ yếu tập trung vào xử lý các hai dạng ảnh văn bản này. Một số tập dữ liệu ảnh văn bản có gắn nhãn vị trí bảng và vị trí các ô trong bảng được liệu kê trong bảng 2.1. Bảng 2.1: Thống kê các tập dữ liệu ảnh văn bản cho bài toán phát hiện và nhận dạng cấu trúc bảng. Tên Thông tin gắn nhãn Số lượng bảng được gắn nhãn Marmot [8] Ví trí bảng và các ô 958 PubLayNet [31] Ví trí bảng 113k DeepFigure [22] Ví trí bảng 1.4m ICDAR2013 [10] Ví trí bảng 156 ICDAR2019 [9] Ví trí bảng và các ô 3.6k UNLV [21] Ví trí bảng và các ô 558 TableBank [14] Ví trí bảng và các ô 417k Các mô hình học sâu đã được nghiên cứu để xử lý nhiệm vụ phát hiện và nhận dạng cấu trúc bảng trong ảnh văn bản có thể kể đến như DeepDeSRT [20], CascadeTabNet [19], CDeC-Net [1] và TableNet [18]. Hướng tiếp cận của các mô hình trên cho bài toán phát hiện bảng được tổng hợp trong bảng 2.2. 7
  19. Bảng 2.2: Hướng tiếp cận của các nghiên cứu sử dụng học sâu cho bài toán phát hiện bảng trên ảnh văn bản. Tên mô hình Kiến trúc sử dụng Kiểu mạng Dữ liệu huấn luyện Kiểu ảnh văn bản DeepDeSRT Faster R-CNN Phát hiện đối tượng Marmot dataset[8] Chuyển đổi từ PDF [20] CascadeTabNet Cascade Mask R-CNN Phân đoạn cá thể TableBank [14] Chuyển đổi từ Word 8 [19] và dữ liệu tự tạo và Latex CDeC-Net [1] Cascade Mask R-CNN Phân đoạn cá thể Nhiều bộ dữ liệu trong Chuyển đổi từ định bảng 2.1 dạng PDF, Word... hoặc ảnh scan TableNet [18] FCN Phân đoạn ngữ nghĩa Marmot dataset [8] Chuyển đổi từ PDF
  20. Với nhiệm vụ phát hiện cấu trúc trong bảng, các nghiên cứu trên có các hướng tiếp cận khác nhau. Mô hình CDeC-Net không xử lý nhiệm vụ nhận dạng cấu trúc bảng. Với các mô hình TableNet và DeepDeSRT, tác giả sử dụng các phương pháp học sâu và xử lý ảnh để phát hiện từng cột và hàng của bảng. Mô hình CascadeTabNet sử dụng phương pháp học sâu để phát hiện các ô trong bảng. Tuy đã có nhiều nghiên cứu liên quan, các nghiên cứu trên hầu như đều xử lý bài toán phát hiện và nhận dạng cấu trúc bảng trên dữ liệu ảnh văn bản chuyển định dạng hoặc ảnh scan. Trong nghiên cứu này, tôi sẽ tập trung xử lý bài toán này trên dữ liệu ảnh chụp văn bản. Riêng nhiệm vụ nhận dạng cấu trúc bảng, với sự phức tạp trong thể hiện của bảng, tôi nhận thấy phương pháp phát hiện ô trong bảng sẽ có khả năng ứng dụng rộng rãi hơn. Sau khi phát hiện được vị trí từng ô, việc xác định các hàng và cột có thể thực hiện với logic cho từng bài toán cụ thể. 2.2 Các nghiên cứu về làm phẳng ảnh văn bản bị biến dạng Lượng dữ liệu ảnh văn bản thu được thông qua việc chụp văn bản vật lý bằng các thiết bị ghi hình là rất lớn. Khác với các loại ảnh văn bản khác (chuyển định dạng hoặc scan), ảnh chụp văn bản có thể xuất hiện các biến dạng 3D như bẻ cong hoặc gập. Các biến dạng này sẽ làm hình dáng của chữ trong văn bản bị biến dạng, lệch dòng hoặc sai vị trí tương đối so với khi tờ giấy ở dạng phẳng. Các vấn đề trên sẽ gây khó khăn cho việc trích xuất thông tin từ văn bản. Do đó, đã có nhiều nghiên cứu được công bố về vấn đề làm phẳng mặt giấy bị biến dạng. Các nghiên cứu đầu tiên xuất hiện từ những năm đầu thế kỉ 21 như [27] và [30]. Hai nghiên cứu này có điểm chung là sử dụng ảnh từ nhiều góc độ (thường là một cặp ảnh) của văn bản bị biến dạng để tìm các cặp điểm đặc trưng tương ứng trên 2 ảnh. Các cặp điểm đặc trưng này được sử dụng để ước tính tọa độ 3D của các điểm trên bề mặt văn bản. Sau đó, bề mặt văn bản được làm phẳng dựa trên các phép biến đổi các điểm tọa độ này. Một nghiên cứu khác mới hơn là [25] mang đến một cách tiếp cận tương tự nhưng ít phụ thuộc vào phần cứng hơn. Tác giả tìm cách ước tính tọa độ 3D cho bề mặt của mặt phẳng thông qua một ảnh. Phương pháp được đưa ra là tính toán tọa độ 2D cho một tập các điểm có khoảng cách tương tự (tính trong bề mặt phẳng) của văn bản bị biến dạng. Để làm được điều này, tác giả tính toán dòng của các đoạn văn bản trong ảnh và xấp xỉ tọa độ các điểm cần tìm. Sau đó, từ tương quan tọa độ của các điểm tìm được, tác giả sẽ tính toán tọa độ trong không gian 3D của các điểm trên. Sau cùng, bề mặt tờ giấy sẽ được làm 9
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2