TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA NỘI
Nguyễn Hoàng Anh
Phát triển hình học sâu cho bài toán phát hiện bảng
và nhận dạng cấu trúc của bảng trong ảnh văn bản
LUẬN VĂN THẠC
Ngành: Khoa học y tính
Nội - 2021
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA NỘI
Nguyễn Hoàng Anh
Phát triển hình học sâu cho bài toán phát hiện bảng
và nhận dạng cấu trúc của bảng trong ảnh văn bản
LUẬN VĂN THẠC
Ngành: Khoa học y tính
Giảng viên hướng dẫn: TS. Nguyễn Thị Ngọc Diệp
Nội - 2021
Tóm tắt
Số hóa đang xu hướng của thế giới. Một dụ nhất thể hiện cho xu hướng
số hóa việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thay
thế cho các định dạng văn bản vật nhờ sự tiện dụng và an toàn của chúng. Đi
kèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý rất lớn
không thể giải quyết bằng phương pháp thủ công cần các phương pháp trích
xuất thông tin tự động. Trên văn bản nhiều dạng biểu diễn thông tin bảng
một trong những dạng chứa nhiều thông tin và phổ biến nhất. Trong bảng, các dữ
liệu thường được tổ chức theo hàng cột rất đặc trưng. Vì vậy, để trích xuất thông
tin trong bảng, bước đầu tiên cần xác định và tách được bảng ra khỏi văn bản.
Đồng thời, bảng cấu trúc rất đa dạng nên việc sử dụng các thuật toán xử ảnh
truyền thống để phát hiện rất khó khăn.
Tận dụng sức mạnh của học sâu, trên thế giới đã nhiều nghiên cứu ứng dụng
các hình học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng
trong ảnh văn bản. Trong đó, phát hiện bảng nhiệm vụ tìm vị trí tách được
bảng ra khỏi văn bản còn nhận dạng cấu trúc nhiệm vụ xác định cấu trúc biểu
diễn dữ liệu trong bảng. Mặc đã nhiều nghiên cứu liên quan nhưng các
nghiên cứu đã công bố chưa tập trung vào dạng dữ liệu ảnh văn bản thu được từ
việc chụp các văn bản vật lý bằng các thiết bị ghi hình. Trong thực thế, lượng dữ
liệu ảnh chụp văn bản rất lớn chụp ảnh một trong những cách nhanh nhất
để số hóa văn bản. Vì vy, trong khóa luận này, tôi sẽ ứng dụng công nghệ học sâu
để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh chụp văn bản.
Để giải quyết bài toán đặt ra, tôi đã phát triển các phương pháp phát hiện và
nhận dạng cấu trúc bảng dựa trên các hình học sâu. Phương pháp phát hiện
bảng sẽ bao gồm các hình học sâu được huấn luyện để phát hiện vị trí của
bảng trong ảnh văn bản và một bước hậu xử để làm phẳng bảng. Mục đích của
phương pháp tách được từng bảng ra khỏi ảnh văn bản ban đầu. Sau đó, các ảnh
bảng y được đưa vào phương pháp nhận dạng cấu trúc bảng. Phương pháp nhận
dạng cấu trúc sẽ sử dụng các hình học sâu được huấn luyện để nhận dạng cấu
i
trúc của bảng thông qua việc phát hiện các ô trong bảng. Để huấn luyện các
hình học sâu đề xuất, tôi đã y dựng một phương pháp tự động tạo ảnh phỏng
ảnh chụp văn bản do các bộ dữ liệu sẵn v ảnh chụp văn bản rất ít. Phương
pháp y sử dụng các tính toán để phỏng thêm các hiệu ứng chỉ xuất hiện
khi chụp văn bản (biến dạng 3D bóng) lên các ảnh văn bản chuyển đổi từ các
định dạng số (PDF, Word...). Sử dụng phương pháp y, tôi đã xây đựng được bộ
dữ liệu bao gồm 22000 ảnh phỏng ảnh chụp văn bản (được gán nhãn vị trí
bảng) và 42028 ảnh bảng (được gán nhãn vị trí các ô trong bảng). Ngoài ra, để
đánh giá độ chính xác của các phương pháp phát hiện và nhận dạng cấu trúc bảng,
tôi đã gán nhãn thủ công một bộ dữ liệu thực tế gồm 100 ảnh chụp văn bản 100
ảnh bảng. Kết quả cuối cùng tôi đạt được khá tốt và cao hơn các nghiên cứu liên
quan đã công bố khi đánh giá trên bộ dữ liệu thực tế đã gán nhãn. Cụ thể, phương
pháp phát hiện bảng của tôi cho kết quả IoU điểm ảnh lên đến 0.96 và chỉ số F1
0.83 (khi xét các bảng dự đoán IoU > 0.9 được tính chính xác). Với phương
pháp làm phẳng bảng, nghiên cứu của tôi cho tỉ lệ cắt và làm phẳng bảng thành
công lên đến 95%. Với phương pháp nhận dạng cấu trúc bảng thông qua phát hiện
các ô trong bảng, hình của tôi cho chỉ số F1 khi phát hiện các ô 0.76.
ii
Lời cảm ơn
Tôi xin cảm ơn sâu sắc đến TS. Nguyễn Thị Ngọc Diệp đã tiếp nhận, hướng
dẫn, tận tình chỉ bảo cũng như đốc thúc tôi hoàn thành nghiên cứu trong suốt thời
gian làm luận văn.
Tôi xin gửi lời cảm ơn đến các giảng viên dạy các lớp cao học của trường Đại
học Công nghệ - Đại học Quốc gia Nội đã truyền đạt kiến thức cho tôi trong
suốt 2 năm tôi làm học viên cao học tại trường.
Và cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất đến bố mẹ - những người đã
luôn đồng hành và động viên tôi trên con đường học tập.
iii