
Tóm tắt
Số hóa đang là xu hướng của thế giới. Một ví dụ rõ nhất thể hiện cho xu hướng
số hóa là việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thay
thế cho các định dạng văn bản vật lý nhờ sự tiện dụng và an toàn của chúng. Đi
kèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý là rất lớn và
không thể giải quyết bằng phương pháp thủ công mà cần các phương pháp trích
xuất thông tin tự động. Trên văn bản có nhiều dạng biểu diễn thông tin mà bảng là
một trong những dạng chứa nhiều thông tin và phổ biến nhất. Trong bảng, các dữ
liệu thường được tổ chức theo hàng cột rất đặc trưng. Vì vậy, để trích xuất thông
tin trong bảng, bước đầu tiên cần xác định và tách được bảng ra khỏi văn bản.
Đồng thời, bảng có cấu trúc rất đa dạng nên việc sử dụng các thuật toán xử lý ảnh
truyền thống để phát hiện là rất khó khăn.
Tận dụng sức mạnh của học sâu, trên thế giới đã có nhiều nghiên cứu ứng dụng
các mô hình học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng
trong ảnh văn bản. Trong đó, phát hiện bảng là nhiệm vụ tìm vị trí và tách được
bảng ra khỏi văn bản còn nhận dạng cấu trúc là nhiệm vụ xác định cấu trúc biểu
diễn dữ liệu trong bảng. Mặc dù đã có nhiều nghiên cứu liên quan nhưng các
nghiên cứu đã công bố chưa tập trung vào dạng dữ liệu ảnh văn bản thu được từ
việc chụp các văn bản vật lý bằng các thiết bị ghi hình. Trong thực thế, lượng dữ
liệu ảnh chụp văn bản là rất lớn vì chụp ảnh là một trong những cách nhanh nhất
để số hóa văn bản. Vì vậy, trong khóa luận này, tôi sẽ ứng dụng công nghệ học sâu
để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh chụp văn bản.
Để giải quyết bài toán đặt ra, tôi đã phát triển các phương pháp phát hiện và
nhận dạng cấu trúc bảng dựa trên các mô hình học sâu. Phương pháp phát hiện
bảng sẽ bao gồm các mô hình học sâu được huấn luyện để phát hiện vị trí của
bảng trong ảnh văn bản và một bước hậu xử lý để làm phẳng bảng. Mục đích của
phương pháp là tách được từng bảng ra khỏi ảnh văn bản ban đầu. Sau đó, các ảnh
bảng này được đưa vào phương pháp nhận dạng cấu trúc bảng. Phương pháp nhận
dạng cấu trúc sẽ sử dụng các mô hình học sâu được huấn luyện để nhận dạng cấu
i