Trang chủ » Luận Văn - Báo Cáo » Thạc sĩ - Tiến sĩ - Cao học

111 trang

87 lượt xem

Luận án Tiến sĩ Toán học: Phân tích cấu trúc hình học trang ảnh tài liệu dựa trên phương pháp ngưỡng thích nghi

Luận án nhằm nghiên cứu các thuật toán phân tích trang giảm, bài toán phân tích trang, những lỗi cơ bản nhất của các thuật toán phân tích trang. Hướng tiếp cận dựa trên nền trang ảnh trong phân tích trang ảnh tài liệu, thuật toán phân tích trang WhiteSpace, thuật toán phát hiện nền trang ảnh nhanh. Thuật toán phân tách trang ảnh tài liệu HP2S và AOSM. Mời các bạn cùng tham khảo luận án để nắm rõ chi tiết nội dung nghiên cứu.

Chủ đề:

xacxuoc4321

Luận văn cao học

Luận văn thạc sĩ mỹ thuật ứng dụng

111

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ

VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

PHÂN TÍCH CẤU TRÚC HÌNH

HỌC TRANG ẢNH TÀI LIỆU

DỰA TRÊN PHƯƠNG PHÁP

NGƯỠNG THÍCH NGHI

LUẬN ÁN TIẾN SỸ TOÁN HỌC

Hà Nội - 08/02/2018

Lời cam đoan

Tôi xin cam đoan luận án tiến sĩ "Phân tích cấu trúc hình học trang ảnh tài

liệu dựa trên phương pháp ngưỡng thích nghi" là một công trình nghiên cứu của

riêng tôi. Các số liệu và tài liệu trong luận án là trung thực và chưa được công bố trong

bất kì công trình nghiên cứu nào. Tất cả các tài liệu tham khảo đều được trích dẫn và

tham chiếu đầy đủ.

Hà Nội, ngày 08 tháng 02 năm 2018

Tác giả luận án

Lời cảm ơn

Luận án Tiến sĩ được hoàn thiện bằng sự nỗ lực và nghiêm túc của tôi trong quá

trình nghiên cứu, quá trình luôn được sự hỗ trợ, giúp đỡ tận tình của Thầy giáo hướng

dẫn khoa học, Ban lãnh đạo Học viện Khoa học và Công nghệ, Ban lãnh đạo Trường

THPT Chuyên Hạ Long - Quảng Ninh, các đồng nghiệp, các chuyên gia và các nhà khoa

học, bạn bè và những người thân trong gia đình tôi.

Trước tiên, xin trân trọng cảm ơn Thầy giáo hướng dẫn khoa học đã luôn dành sự

nhiệt tình, ân cần, chỉ bảo và định hướng cho tôi trên con đường nghiên cứu khoa học

từ ngày đầu học tập và quá trình nghiên cứu trong những năm qua.

Chân thành cảm ơn Học viện Khoa học và Công nghệ - Viện Hàn Lâm Khoa học và

Công Nghệ Việt Nam đã ủng hộ, giúp đỡ tôi trong quá trình học tập và nghiên cứu.

Đặc biệt, tôi xin dành tặng tình cảm và sự biết ơn cao quý đến bạn bè và các thành

viên trong gia đình:Bố, mẹ, anh chị, vợ và hai con yêu quý đã chấp nhận nhiều hy sinh

vất vả, luôn sát cánh cùng tôi trong cuộc sống, quá trình học tập nghiên cứu để tôi có

được thành công này.

Mục lục

Lời cam đoan i

Lời cảm ơn ii

Danh mục các hình vẽ vi

Lời mở đầu xi

Chương 1. Tổng quan về phân tích cấu trúc hình học trang ảnh tài liệu 1

1.1 Các thành phần chính của hệ thống nhận dạng văn bản .......... 1

1.1.1 Tiền xử lý ............................... 1

1.1.1.1 Nhị phân hóa ........................ 2

1.1.1.2 Phát hiện và phân loại các thành phần liên thông .... 3

1.1.1.3 Lọc nhiễu .......................... 4

1.1.1.4 Căn chỉnh độ nghiêng ................... 4

1.1.2 Phân tích trang ảnh tài liệu ..................... 5

1.1.3 Nhận dạng kí tự quang học ..................... 7

1.1.4 Hậu xử lý ............................... 8

1.2 Các thuật toán phân tích cấu trúc hình học (phân tách) trang ảnh tài liệu

tiêu biểu .................................... 9

1.2.1 Hướng tiếp cận từ trên xuống .................... 9

1.2.2 Hướng tiếp cận từ dưới lên ...................... 9

1.2.3 Hướng tiếp cận lai ghép ....................... 11

1.2.4 Các thuật toán tiêu biểu ....................... 12

1.3 Các phương pháp và các tập dữ liệu đánh giá các thuật toán phân tách

trang ảnh tài liệu ............................... 15

1.3.1 Độ đo F-Measure ........................... 16

1.3.2 Độ đo PSET ............................. 16

1.3.3 Độ đo PRImA ............................. 18

1.3.4 Dữ liệu ................................. 23

1.4 Vấn đề nghiên cứu, hướng tiếp cận và những đóng góp của luận án . . . 26

1.5 Kết luận chương ............................... 27

iii

Chương 2. Thuật toán nhanh phát hiện nền trang ảnh tài liệu 28

2.1 Phân tách trang ảnh tài liệu dựa trên nền trang ảnh ........... 28

2.2 Bài toán phát hiện nền trang ảnh ...................... 29

2.2.1 Định nghĩa vùng trắng lớn nhất ................... 29

2.2.2 Thuật toán tìm vùng trắng lớn nhất ................ 32

2.2.3 Thuật toán phát hiện nền trang ảnh ................ 34

2.3 Tăng tốc thuật toán phát hiện nền trang ảnh ............... 34

2.4 Thuật toán WhiteSpace và Fast-WhiteSpace ................ 36

2.4.1 Thuật toán WhiteSpace ....................... 36

2.4.2 Thuật toán Fast-WhiteSpace ..................... 37

2.5 Thực nghiệm và thảo luận .......................... 38

2.6 Kết luận chương ............................... 39

Chương 3. Thuật toán phân tách trang ảnh tài liệu HP2S và AOSM 42

3.1 Mô hình phân tách trang của hai thuật toán HP2S và AOSM ...... 42

3.2 Thuật toán HP2S ............................... 44

3.2.1 Phát hiện các đường phân tách ................... 44

3.2.2 Xác định các dòng chữ ........................ 45

3.2.3 Gom cụm các dòng chữ thành các vùng chữ ............ 50

3.3 Thuật toán AOSM .............................. 52

3.3.1 Xác định các vùng chữ ứng cử viên ................. 52

3.3.1.1 Phát hiện các đối tượng phân tách ............ 52

3.3.1.2 Xác định biên của mỗi vùng chữ ứng cử viên ...... 56

3.3.1.3 Gom các kí tự thành các dòng chữ ứng cử viên ..... 58

3.3.2 Gom cụm các vùng chữ bị "tách quá" ................ 59

3.3.2.1 Hạn chế của các phương pháp truyền thống ....... 60

3.3.2.2 Phương pháp ngưỡng thích nghi .............. 63

3.4 Thuật toán Fast-AOSM ........................... 65

3.5 Xác định các đoạn văn bản .......................... 67

3.5.1 Định nghĩa các dòng chữ phân tách ................. 67

3.5.2 Tách các vùng chữ thuần nhất thành các đoạn văn bản ...... 68

3.6 Thực nghiệm và thảo luận .......................... 70

3.6.1 Các thuật toán, tập dữ liệu và độ đo ................ 70

3.6.2 Các kết quả thực nghiệm và thảo luận ............... 72

3.7 Kết luận chương ............................... 82

Kết luận và hướng phát triển 85

Danh mục các công trình đã công bố của tác giả 88

Tài liệu liên quan

Mô phỏng 3D vệt dầu loang tại vùng biển Việt Nam: Tóm tắt Luận án Tiến sĩ về nghiên cứu và dự đoán chuyển động

Tóm tắt Luận án Tiến sĩ: Nghiên cứu mô phỏng và dự đoán chuyển động của vệt dầu loang tại vùng biển Việt Nam dựa trên phương pháp mô phỏng 3D

Báo cáo thực tập: Nghiên cứu bài toán geocoding và phát triển ứng dụng minh họa

Luận văn Thạc sĩ: Tạo hình bàn tay trong tác phẩm Michelangelo, Leonardo Da Vinci, Albrecht Durer

Luận văn Thạc sĩ Mỹ thuật: Tạo hình bàn tay trong một số tác phẩm của Michelangelo, Leonardo Da Vinci, Albrecht Durer

Nghiên cứu chế tạo vật liệu compozit từ polylactic, dầu hạt đen và sợi gai xanh AP1: Luận văn Thạc sĩ Khoa học vật chất

Luận văn Thạc sĩ Khoa học vật chất: Nghiên cứu chế tạo vật liệu compozit từ polylactic, dầu hạt đen và sợi gai xanh AP1

Nghiên cứu phương pháp xác định dòng chảy bề mặt từ số liệu đo cao vệ tinh trên vùng biển Việt Nam phục vụ hoạt động của Hải quân Việt Nam - Luận án Tiến sĩ Kỹ thuật trắc địa - bản đồ

Luận án Tiến sĩ Kỹ thuật trắc địa - bản đồ: Nghiên cứu phương pháp xác định dòng chảy bề mặt trên vùng biển Việt Nam từ số liệu đo cao vệ tinh phục vụ cho một số hoạt động của Hải quân Việt Nam

Nghệ thuật trang trí nội thất khách sạn tại TP.HCM: Luận án Tiến sĩ Nghệ thuật về một số khách sạn tiêu biểu

Luận án Tiến sĩ Nghệ thuật: Nghệ thuật trang trí nội thất một số khách sạn tiêu biểu tại thành phố Hồ Chí Minh

Nghệ thuật tạo hình đồ trang sức Champa: Luận án Tiến sĩ Nghệ thuật

Luận án Tiến sĩ Nghệ thuật: Nghệ thuật tạo hình đồ trang sức Champa

Luận án Tiến sĩ: Hội họa sơn mài Thành phố Hồ Chí Minh (1986-2020)

Luận án Tiến sĩ Nghệ thuật: Hội họa sơn mài tại Thành phố Hồ Chí Minh giai đoạn từ năm 1986 đến năm 2020

Luận văn: Chất hài trong kiến trúc Renzo Piano - Thạc sĩ Kiến trúc

Luận văn Thạc sĩ Kiến trúc: Chất hài trong kiến trúc của Renzo Piano

Luận văn Thạc sĩ: Sự chuyển biến tạo hình trong minh họa tranh truyện thiếu nhi Việt Nam (1995-2015)

Luận văn Thạc sĩ Mỹ thuật: Sự chuyển biến về tạo hình trong minh họa tranh truyện thiếu nhi ở Việt Nam từ 1995 đến 2015

Tài liêu mới

Nghiên cứu xây dựng công cụ phát hiện lỗ hổng bảo mật trên firmware thiết bị ONU: Đề án Thạc sĩ

Đề án Thạc sĩ: Nghiên cứu xây dựng công cụ phát hiện lỗ hổng bảo mật trên firmware thiết bị ONU

Nghiên cứu phát triển công cụ leo thang đặc quyền dựa trên khai thác Windows Access Token: Đề án Thạc sĩ

Đề án Thạc sĩ: Nghiên cứu phát triển công cụ leo thang đặc quyền dựa trên việc khai thác Windows Access Token

Giải pháp phát hiện tấn công mạng bằng GNN: Đề án Thạc sĩ nghiên cứu xây dựng

Đề án Thạc sĩ: Nghiên cứu xây dựng giải pháp phát hiện tấn công mạng bằng GNN

Đề án Thạc sĩ: Nghiên cứu xây dựng hệ thống quản lý tài sản cho Công ty 2B bằng công nghệ blockchain

Đề án Thạc sĩ: Nghiên cứu xây dựng hệ thống quản lý tài sản cho Công ty 2B dựa trên công nghệ blockchain

Nghiên cứu phát triển Fileless Malware: Đề án Thạc sĩ phục vụ kiểm thử an toàn thông tin

Đề án Thạc sĩ: Nghiên cứu phát triển fileless malware phục vụ kiểm thử an toàn thông tin

Phát triển giải pháp cảnh báo tập trung từ các hệ thống giám sát: Đề án Thạc sĩ

Đề án Thạc sĩ: Phát triển giải pháp cảnh báo tập trung từ các hệ thống giám sát

Nghiên cứu triển khai giải pháp hỗ trợ điều tra, phối hợp ứng phó sự cố cho doanh nghiệp: Đề án Thạc sĩ

Đề án Thạc sĩ: Nghiên cứu triển khai giải pháp hỗ trợ điều tra và phối hợp ứng phó sự cố cho doanh nghiệp

Giải pháp phân loại spear phishing email dựa trên kỹ thuật xử lý ngôn ngữ tự nhiên: Đề án Thạc sĩ nghiên cứu

Đề án Thạc sĩ: Nghiên cứu giải pháp phân loại spear phishing email dựa trên các kỹ thuật xử lý ngôn ngữ tự nhiên

Nghiên cứu phát triển công cụ đồng bộ dữ liệu cho hệ thống Threat Intelligence: Đề án Thạc sĩ

Đề án Thạc sĩ: Nghiên cứu phát triển công cụ đồng bộ dữ liệu cho hệ thống Threat Intelligence

Mô hình GATGNN: Đề án Thạc sĩ nghiên cứu phát hiện tấn công mạng

Đề án Thạc sĩ: Nghiên cứu mô hình GATGNN phát hiện tấn công mạng

Nghiên cứu ứng dụng CIS Benchmark và CIS Control: Đề án Thạc sĩ đảm bảo an toàn thiết bị đầu cuối

Đề án Thạc sĩ: Nghiên cứu ứng dụng CIS Benchmark và CIS Control đảm bảo an toàn cho thiết bị đầu cuối

Kỹ thuật Tiêm Tiến Trình: Đề án Thạc sĩ Nghiên cứu và Ứng Dụng Rà Soát Chương Trình Độc Hại

Đề án Thạc sĩ: Nghiên cứu một số kỹ thuật tiêm tiến trình và ứng dụng trong việc phát triển công cụ rà soát chương trình độc hại

Đề án Thạc sĩ: Nghiên cứu giải pháp đảm bảo an toàn dịch vụ điện toán đám mây cho doanh nghiệp

Đề án Thạc sĩ: Nghiên cứu giải pháp đảm bảo an toàn dịch vụ trong điện toán đám mây cho doanh nghiệp

Đề án Thạc sĩ: Nghiên cứu xây dựng hệ thống giám sát phát hiện bất thường Amazon Web Services (AWS) dựa trên CloudTrail log cho doanh nghiệp tại Việt Nam

Đề án Thạc sĩ: Nghiên cứu xây dựng hệ thống giám sát phát hiện bất thường Amazon Web Services dựa trên nguồn log CloudTrail cho doanh nghiệp tại Việt Nam

Luận án Tiến sĩ Toán học: Phân tích cấu trúc hình học trang ảnh tài liệu dựa trên phương pháp ngưỡng thích nghi

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi