![](images/graphics/blank.gif)
Luận văn Thạc sĩ Khoa học máy tính: Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập
lượt xem 3
download
![](https://tailieu.vn/static/b2013az/templates/version1/default/images/down16x21.png)
Mục tiêu của luận văn "Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập" này đó là sử dụng bộ dữ liệu chỉ bao gồm vị trí các hộp giới hạn và một bộ dữ liệu dùng để phân loại các đối tượng đồ họa với số lượng ảnh mỗi lớp là hạn chế; Từ đó đề xuất phương pháp nhận dạng đối tượng đồ họa trong ảnh văn bản.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập
- ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ Nguyπn Tußn Anh NHäN DÑNG »I T◊—NG « H≈A TRONG ÉNH VãN BÉN S€ D÷NG MÑNG NÃ RON TÍCH CHäP LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính HÀ NÀI - 2021
- ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ Nguyπn Tußn Anh NHäN DÑNG »I T◊—NG « H≈A TRONG ÉNH VãN BÉN S€ D÷NG MÑNG NÃ RON TÍCH CHäP LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính Cán bÎ h˜Óng d®n: TS. Nguyπn Th‡ NgÂc Diªp HÀ NÀI - 2021
- TÓM TçT Chuy∫n Íi sË và sË hóa v´n b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn cho các doanh nghiªp là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc, các quy∏t ‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi. Íi l§i, sË l˜Òng các v´n b£n báo cáo c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u giÌ ây không còn chø d¯ng l§i viªc tìm ki∏m t¯ nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡. Các hª thËng tìm ki∏m Á hÂa muËn ho§t Îng hiªu qu£ thì c¶n có b˜Óc nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n hiªn nay ang ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng Á hÂa. Công s˘c và thÌi gian ∫ gán nhãn cho các bÎ d˙ liªu này là rßt lÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng bÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng Á hÂa. Nh˙ng óng góp chính cıa lu™n v´n bao gÁm. – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán ‡nh v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n. – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏. – Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n. Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa trong £nh v´n b£n ˜Òc trình bày trong lu™n v´n ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚ và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m và truy xußt các v´n b£n t¯ các Ëi t˜Òng Á hÂa §t ˜Òc k∏t qu£ Î hÁi t˜ng §t 93,3%. T¯ khóa: nh™n d§ng Ëi t˜Òng, phân lo§i hình £nh, Ëi t˜Òng Á hÂa 1
- ABSTRACT Digital transformation and digitization of documents have greatly benefited busi- nesses as they can cut operating costs and increase working efficiency. Decisions are now made quickly and accurately through timely and transparent reporting systems. In turn, the number of report documents that need to be processed and stored in- creases, leading to an increasingly complex search problem. The need now is not just to search from the textual content but also to look for graphic objects such as tables and graphs. For visual search systems to work effectively, there is a need to recognize and detect these objects. Most of the methods and models for recognizing graphic objects in-text images are currently being trained on a dataset with two parts, the lo- cation and the label name of the graphical object. The effort to label these datasets is not tiny, and the time spent is also considerable. Therefore, in this thesis, we propose a method that can use the incomplete data set of label names of classes to identify graphic objects. The main contributions of the thesis include. – We propose using a convolutional neural network (YOLO) to locate graphic objects with a dataset that includes only the bounding box’s locations. – We propose a method to use a self-supervised deep learning network (DINO) for the feature extraction step used to classify graphic objects with a dataset with a limited number of images per class. – Building and developing a system for searching and retrieving graphic objects in text images. The method of recognizing graphic objects in text images presented in this thesis has been tested and achieved approximately 74% results on test and evaluation datasets. Applying the above methods to build a system for searching and retrieving documents from graphic objects also achieved the top 3 recall results of 93.3%. Keywords: object recognition, image classification, graphic object 2
- LÕI CÉM ÃN LÌi ¶u tiên cho tôi xin ˜Òc g˚i lÌi c£m Ïn chân thành và sâu s≠c nhßt tÓi TS. Nguyπn Th‡ NgÂc Diªp ng˜Ìi ã h˜Óng d®n và chø b£o t™n tình nhßt cho tôi trong suËt quá trình hoàn thành lu™n v´n này. Tôi xin ˜Òc g˚i lÌi c£m Ïn tÓi toàn bÎ các th¶y giáo, cô giáo cıa tr˜Ìng §i hÂc Công Nghª - §i hÂc QuËc Gia Hà NÎi nh˙ng ng˜Ìi ã t§o i∑u kiªn tËt nhßt ∫ tôi có th∫ hÂc t™p, nghiên c˘u và hÏn c£ là ã truy∑n thˆ cho tôi nh˙ng hành trang ki∏n th˘c ¶y ı nhßt. Tôi cÙng xin g˚i lÌi c£m Ïn chân thành nhßt tÓi nh˙ng ng˜Ìi b§n ng˜Ìi anh, ch‡ ã giúp Ô tôi hoàn thiªn c£ v∑ ki∏n th˘c chuyên môn và kˇ n´ng hÂc t™p nghiên c˘u. CuËi cùng và không th∫ thi∏u ó là lÌi c£m Ïn tÓi bË mµ và ch‡ tôi và ∞c biªt là b§n Dung Phùng nh˙ng ng˜Ìi ã luôn bên c§nh tôi giúp Ô và Îng viên cÍ vÙ tinh th¶n tôi trong nh˙ng lúc khó kh´n nhßt. Tôi xin chân thành c£m Ïn! Hà NÎi, ngày 10 tháng 10 n´m 2021 Sinh viên Nguyπn Tußn Anh i
- LÕI CAM OAN Tôi xin cam oan toàn bÎ lu™n v´n v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n s˚ dˆng m§ng nÏ ron tích ch™p này là do tôi th¸c hiªn d˜Ói s¸ h˜Óng d®n cıa TS. Nguyπn Th‡ NgÂc Diªp. Tßt c£ các công trình nghiên c˘u, bài báo, khóa lu™n, tài liªu cıa các tác gi£ khác ˜Òc tôi s˚ dˆng trong khóa lu™n này ∑u ˜Òc trích d®n t˜Ìng minh và ∑u có trong danh sách tài liªu tham kh£o. Hà NÎi, ngày 10 tháng 10 n´m 2021 Sinh viên Nguyπn Tußn Anh ii
- Mˆc lˆc Mˆc lˆc iii Danh sách các k˛ hiªu và ch˙ vi∏t t≠t vi Danh sách b£ng vii Danh sách hình v≥ viii Ch˜Ïng 1 GiÓi thiªu 1 1.1 BËi c£nh nghiên c˘u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Mô t£ bài toán và ∞t vßn ∑ . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Mˆc tiêu nghiên c˘u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 óng góp cıa lu™n v´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 Cßu trúc lu™n v´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Ch˜Ïng 2 Các nghiên c˘u liên quan 6 2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa . . . . . . . . . . . . . . 6 2.2 Các ph˜Ïng pháp trích xußt thuÎc tính cıa £nh . . . . . . . . . . . . . 8 2.2.1 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng tích ch™p . . . . . 8 2.3 Các nghiên c˘u v∑ phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n . . . 10 2.3.1 Faster R-CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 iii
- 2.3.2 Mask R-CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.3 Ph˜Ïng pháp ti∏p c™n d¸a trên l™p trình Îng . . . . . . . . . . 14 2.4 Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung . . . . . . . . . . . . . . 14 Ch˜Ïng 3 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n 16 3.1 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn . . . . . . . . . . . 16 3.1.1 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Óc phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n . . . . . . . . . . . . . . . . . . 18 3.1.2 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng transformer . . . . 20 3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp . . . . . . . . 24 3.2 Hª thËng tìm ki∏m Ëi t˜Òng Á hÂa . . . . . . . . . . . . . . . . . . . . 24 Ch˜Ïng 4 Th¸c nghiªm và k∏t qu£ 27 4.1 BÎ d˙ liªu th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2 Ph˜Ïng pháp ánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3 K∏t qu£ th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3.1 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn . . . . . . . . . . . . . . . 30 4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn . . . . . . . . . . . . . . 33 4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa . . . . . . . . . . . . . . 35 4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa . . . . . . . . . . . . . 39 Ch˜Ïng 5 K∏t lu™n 41 iv
- Tài liªu tham kh£o 43 v
- Acronyms CNN Convolutional Neural Network PCA Principal Component Analysis RGB Red, green, blue SVC Support Vector Classification SVM Support-vector machine vi
- Danh sách b£ng 2.1 Các thông tin chung v∑ các bÎ d˙ liªu phÍ bi∏n . . . . . . . . . . . . . . 8 3.1 Thông tin v∑ các bi∫n th∫ cıa mô hình DINO ViT . . . . . . . . . . . . 23 4.1 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K . . . . . . . . . . . . . . . . . . . . 27 4.2 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K . . . . . . . . . . . . . . . . . . . . 28 4.3 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh vÓi bài báo [1] . . . . . 30 4.4 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác . 31 4.5 K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác . . . . . . 33 4.6 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn . . . . . . . . . . . . . . . . . . 34 4.7 BÎ d˙ liªu phân lo§i hình £nh . . . . . . . . . . . . . . . . . . . . . . . . 35 4.8 K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp . . . . . . . 35 4.9 K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình 35 4.10 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình £nh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.11 K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình trích xußt thuÎc tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 vii
- Danh sách hình v≥ 1.1 ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng Á hÂa . . . . . . 2 1.2 Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn các lÓp Ëi t˜Òng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 MÎt vài ví dˆ v∑ các bÎ d˙ liªu ICDAR-17, ICDAR-19, tableBank, UNLV 6 2.2 MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, PubLayNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Ví dˆ v∑ ki∏n trúc CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Ki∏n trúc cıa mô hình EfficientNet b0 [2] . . . . . . . . . . . . . . . . . 10 2.5 Ki∏n trúc cıa mô hình ResNet 18 [3] . . . . . . . . . . . . . . . . . . . . 10 2.6 Ki∏n trúc cıa mô hình GoogleNet [4] . . . . . . . . . . . . . . . . . . . . 10 2.7 Ki∏n trúc cıa Faster R-CNN [5] . . . . . . . . . . . . . . . . . . . . . . . 12 2.8 Ki∏n trúc cıa Mask R-CNN [6] . . . . . . . . . . . . . . . . . . . . . . . 13 3.1 Mô hình chung cıa ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Ki∏n trúc cıa FCNN trong nghiên c˘u [7] . . . . . . . . . . . . . . . . . 18 3.3 Ki∏n trúc cıa YOLO trong nghiên c˘u [8] . . . . . . . . . . . . . . . . . 19 3.4 Ki∏n trúc cıa YOLOv3 trong nghiên c˘u [9] . . . . . . . . . . . . . . . 20 3.5 Mô hình chung cıa ki∏n trúc transformer [10] cho £nh . . . . . . . . . . 21 viii
- 3.6 TÍng quan ph˜Ïng pháp hußn luyªn mô hình DINO trong nghiên c˘u [11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.7 Mô hình chung cıa các hª thËng tìm ki∏m £nh d¸a trên nÎi dung . . . 25 3.8 Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa . . . . . . . . . 26 4.1 Phân bË v∑ sË l˜Òng và Î dài các chi∑u cıa các Ëi t˜Òng Á hÂa trong bÎ d˙ liªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2 Ví dˆ v∑ Î chính xác và Î hÁi t˜ng . . . . . . . . . . . . . . . . . . . 29 4.3 Ví dˆ v∑ Î IoU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.4 Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR . . . . . . . . . 32 4.5 Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïn nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.6 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng . . . . . . . . . . . . . . . . . 38 4.7 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng sai . . . . . . . . . . . . . . . . . . . 38 ix
- Ch˜Ïng 1 GiÓi thiªu 1.1 BËi c£nh nghiên c˘u Trong nh˙ng n´m g¶n ây, khái niªm “chuy∫n Íi sË” ã không còn mÓi l§ và ˜Òc nh≠c ∏n rßt nhi∑u trên các ph˜Ïng tiªn truy∑n thông §i chúng. MÎt trong nh˙ng lÒi ích dπ dàng có th∫ nh™n thßy cıa chuy∫n Íi sË Ëi vÓi doanh nghiªp c£ t˜ nhân và nhà n˜Óc ó là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc. Các quy∏t ‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc n´ng sußt làm viªc cıa nhân viên. Trong các doanh nghiªp sË l˜Òng các v´n b£n báo cáo hàng ngày c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i viªc tìm ki∏m t¯ nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ và bi∫u Á. Do v™y yêu c¶u v∑ mÎt hª thËng tìm ki∏m các Ëi t˜Òng Á hÂa trong v´n b£n là c¶n thi∏t. Các hª thËng tìm ki∏m Ëi t˜Òng Á hÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên ó là qu£n l˛ và t§o ra chø mˆc các Ëi t˜Òng Á hÂa trong v´n b£n và ∫ có th∫ ánh chø mˆc các Ëi t˜Òng thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các Ëi t˜Òng. 1
- 1.2 Mô t£ bài toán và ∞t vßn ∑ Hình 1.1: ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng Á hÂa Nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n là bài toán ‡nh v‡ và phân lo§i 2
- các Ëi t˜Òng Á hÂa ví dˆ nh˜ b£ng bi∫u, Á th‡ xußt hiªn trong các £nh v´n b£n. Trong ph§m vi lu™n v´n này chúng tôi ã tÍng hÒp và l¸a chÂn n´m lo§i nhãn d¸a theo bÎ d˙ liªu IIT-AR-13k [1] ∫ nh™n d§ng bao gÁm các lo§i nhãn là b£ng, Á th‡, bi∫u t˜Òng, £nh th™t và ch˙ k˛. ¶u vào và ¶u ra cıa bài toán ˜Òc mô t£ nh˜ trong Hình 1.1, t§i ó ¶u vào s≥ là £nh scan, £nh chˆp cıa v´n b£n c¶n ˜Òc nh™n d§ng Ëi t˜Òng và ¶u ra s≥ là tÂa Î v‡ trí cıa các Ëi t˜Òng Á hÂa kèm theo tên cıa lo§i Ëi t˜Òng Á hÂa ó. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn hiªn nay c¶n ph£i ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu lÓn và ¶y ı c£ hai ph¶n là v‡ trí hÎp giÓi h§n và nhãn cıa các lÓp. Công s˘c ∫ gán nhãn cho các bÎ d˙ liªu này là không h∑ nh‰ hÏn n˙a thÌi gian b‰ ra cÙng rßt lÓn. Do v™y c¶n có mÎt ph˜Ïng pháp s˚ dˆng d˙ liªu vÓi sË l˜Òng nhãn nh‰ hÏn mà k∏t qu£ nh™n d§ng v®n hiªu qu£. 1.3 Mˆc tiêu nghiên c˘u Mˆc tiêu cıa lu™n v´n này ó là s˚ dˆng bÎ d˙ liªu chø bao gÁm v‡ trí các hÎp giÓi h§n và mÎt bÎ d˙ liªu dùng ∫ phân lo§i các Ëi t˜Òng Á hÂa vÓi sË l˜Òng £nh mÈi lÓp là h§n ch∏ nh˜ Hình 1.2. T¯ ó ∑ xußt ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n. 1.4 óng góp cıa lu™n v´n Nh˙ng óng góp chính cıa lu™n v´n bao gÁm: – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n (bounding box). – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa khi d˙ liªu nhãn mÈi chø vÓi sË l˜Òng nh‰ nhãn mÈi lÓp. 3
- Hình 1.2: Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn các lÓp Ëi t˜Òng – Ÿng dˆng mô hình YOLO trong khâu ‡nh v‡ Ëi t˜Òng và mô hình DINO trong khâu trích xußt thuÎc tính ∫ xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong £nh v´n b£n. 1.5 Cßu trúc lu™n v´n Cßu trúc các ph¶n cıa lu™n v´n ˜Òc trình bày nh˜ sau: – Ch˜Ïng 2: GiÓi thiªu và mô t£ v∑ các bÎ d˙ liªu ã có v∑ chı ∑ nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n, các ph˜Ïng pháp trích xußt thuÎc tính cıa £nh. Áng thÌi tÍng hÒp và tóm t≠t v∑ các ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa ã có cÙng nh˜ i∫m m§nh và i∫m y∏u cıa t¯ng ph˜Ïng pháp. Mô hình chung và cách th˘c xây d¸ng hª thËng tìm ki∏m, truy xußt hình £nh d¸a trên nÎi dung. 4
- – Ch˜Ïng 3 Mô t£ và gi£i thích v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn trong £nh v´n b£n và ph˜Ïng pháp phân lo§i hình £nh các Ëi t˜Òng Á hÂa. Mô t£ cách th˘c xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong £nh v´n b£n. – Ch˜Ïng 4: Trình bày v∑ cách th˘c tÍ ch˘c và chu©n b‡ bÎ d˙ liªu, các k∏t qu£ §t ˜Òc cıa ph˜Ïng pháp khi ˜Òc ánh giá trên các bÎ d˙ liªu ki∫m tra. Áng thÌi ánh giá v∑ m˘c Î hiªu qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong £nh v´n b£n. – Ch˜Ïng 5: Trình bày v∑ vai trò cıa nghiên c˘u trong lu™n v´n, các k∏t qu£ §t ˜Òc, các i∫m h§n ch∏ cıa ph˜Ïng pháp cÙng nh˜ h˜Óng phát tri∫n ti∏p theo cıa lu™n v´n. 5
- Ch˜Ïng 2 Các nghiên c˘u liên quan 2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa Hình 2.1: MÎt vài ví dˆ v∑ các bÎ d˙ liªu ICDAR-17, ICDAR-19, tableBank, UNLV Bài toán nh™n d§ng Ëi t˜Òng Á hÂa trong v´n b£n có th∫ ˜Òc nhìn nh™n là mÎt 6
- Hình 2.2: MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, Pub- LayNet b˜Óc phát tri∫n t¯ bài toán nh™n d§ng b£ng trong v´n b£n. MÎt vài các bÎ d˙ liªu v∑ nh™n d§ng b£ng và Ëi t˜Òng Á hÂa có th∫ k∫ ∏n nh˜ DocBank [12], ICDAR-13 [13], IIT-AR-13K [1], PubLayNet [14], ICDAR-17 POD [15], ICDAR-19 [16] , TableBank [17], and UNLV [18]. Hình 2.1 và Hình 2.2 cho thßy mÎt vài nh˙ng ví dˆ v∑ các bÎ d˙ liªu nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n. Các thông tin chung v∑ các bÎ d˙ liªu ˜Òc mô t£ trong B£ng 2.1. Trong lu™n v´n này chúng tôi s˚ dˆng bÎ d˙ liªu IIIT-AR-13k [1] do bÎ d˙ liªu này bao gÁm các Ëi t˜Òng Á hÂa a d§ng hÏn các bÎ d˙ liªu khác nh˜ £nh minh hÂa, £nh th™t, bi∫u t˜Òng và ch˙ k˛. BÎ d˙ liªu này bao gÁm 13 nghìn trang báo cáo hàng n´m có sÆn công khai. Báo cáo hàng n´m b¨ng ti∏ng Anh và các ngôn ng˙ không ph£i ti∏ng Anh (ti∏ng Pháp, ti∏ng Nh™t, ti∏ng Nga, v.v.) cıa hÏn hai m˜Ïi chín công ty khác nhau. Báo cáo hàng n´m ch˘a nhi∑u lo§i Ëi t˜Òng Á hÂa khác nhau nh˜ b£ng, nhi∑u lo§i bi∫u Á khác nhau (ví dˆ: bi∫u Á thanh, bi∫u Á hình tròn, bi∫u Á ˜Ìng, v.v.), hình £nh, bi∫u tr˜ng cıa công ty, ch˙ k˛, tem, b£n phác th£o, v.v. 7
![](images/graphics/blank.gif)
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Ảnh hưởng của văn học dân gian đối với thơ Tản Đà, Trần Tuấn Khải
26 p |
1147 |
100
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tô màu đồ thị và ứng dụng
24 p |
595 |
83
-
Luận văn thạc sĩ khoa học: Hệ thống Mimo-Ofdm và khả năng ứng dụng trong thông tin di động
152 p |
410 |
82
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán màu và ứng dụng giải toán sơ cấp
25 p |
476 |
74
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán đếm nâng cao trong tổ hợp và ứng dụng
26 p |
515 |
72
-
Tóm tắt luận văn thạc sĩ khoa học: Nghiên cứu thành phần hóa học của lá cây sống đời ở Quãng Ngãi
12 p |
910 |
61
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu vấn đề an ninh mạng máy tính không dây
26 p |
634 |
60
-
Luận văn thạc sĩ khoa học Giáo dục: Biện pháp rèn luyện kỹ năng sử dụng câu hỏi trong dạy học cho sinh viên khoa sư phạm trường ĐH Tây Nguyên
206 p |
402 |
60
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tìm đường ngắn nhất và ứng dụng
24 p |
452 |
55
-
Tóm tắt luận văn thạc sĩ khoa học: Bất đẳng thức lượng giác dạng không đối xứng trong tam giác
26 p |
417 |
46
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc trưng ngôn ngữ và văn hóa của ngôn ngữ “chat” trong giới trẻ hiện nay
26 p |
440 |
40
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán ghép căp và ứng dụng
24 p |
373 |
33
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Phật giáo tại Đà Nẵng - quá khứ hiện tại và xu hướng vận động
26 p |
346 |
22
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu ảnh hưởng của quản trị vốn luân chuyển đến tỷ suất lợi nhuận của các Công ty cổ phần ngành vận tải niêm yết trên sàn chứng khoán Việt Nam
26 p |
657 |
14
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Thế giới biểu tượng trong văn xuôi Nguyễn Ngọc Tư
26 p |
372 |
13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc điểm ngôn ngữ của báo Hoa Học Trò
26 p |
322 |
13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Ngôn ngữ Trường thơ loạn Bình Định
26 p |
307 |
5
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc điểm tín hiệu thẩm mĩ thiên nhiên trong ca từ Trịnh Công Sơn
26 p |
472 |
5
![](images/icons/closefanbox.gif)
![](images/icons/closefanbox.gif)
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
![](https://tailieu.vn/static/b2013az/templates/version1/default/js/fancybox2/source/ajax_loader.gif)