
ÑI H≈C QU»C GIA HÀ NÀI
TR◊ÕNG ÑI H≈C CÔNG NGHõ
Nguyπn Tußn Anh
NHäN DÑNG »I T◊—NG « H≈A TRONG
ÉNH VãN BÉN S€D÷NG MÑNG NÃRON
TÍCH CHäP
LUäN VãN THÑC Sû
Ngành: Khoa hÂc máy tính
HÀ NÀI - 2021

ÑI H≈C QU»C GIA HÀ NÀI
TR◊ÕNG ÑI H≈C CÔNG NGHõ
Nguyπn Tußn Anh
NHäN DÑNG »I T◊—NG « H≈A TRONG
ÉNH VãN BÉN S€D÷NG MÑNG NÃRON
TÍCH CHäP
LUäN VãN THÑC Sû
Ngành: Khoa hÂc máy tính
Cán bÎh˜Óng d®n: TS. Nguyπn Th‡NgÂc Diªp
HÀ NÀI - 2021

TÓM TçT
Chuy∫nÍi sËvà sËhóa v´n b£nãem l§i nh˙ng lÒi ích vô cùng to lÓn cho
các doanh nghiªp là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£làm viªc, các quy∏t
‡nh bây giÌ ˜Òc˜a ra nhanh chóng và chính xác hÏn nhÌcác hªthËng báo cáo
thông suËt k‡p thÌi. Íi l§i, sËl˜Òng các v´n b£n báo cáo c¶n ph£i gi£i quy∏t và l˜u
tr˙ngày mÎt lÓn d®n∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u giÌ ây
không còn chød¯ng l§iviªc tìm ki∏m t¯nÎi dung v´n b£n mà còn c¶n tìm ki∏m các
Ëi t˜Òng Á hÂa nh˜b£ng bi∫u, Á th‡. Các hªthËng tìm ki∏mÁ hÂa muËn ho§t
Îng hiªu qu£thì c¶n có b˜Óc nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n
các ph˜Ïng pháp và mô hình nh™n diªnËi t˜Òng Á hÂa trong £nh v´n b£n hiªn nay
ang ˜Òc hußn luyªn trên mÎt bÎd˙liªu có ı hai ph¶n là v‡trí và tên nhãn cıa
Ëi t˜Òng Á hÂa. Công s˘c và thÌi gian ∫ gán nhãn cho các bÎd˙liªu này là rßt
lÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫t™n dˆng
bÎd˙liªu không ¶yı v∑tên nhãn cıa các lÓp∫ nh™n d§ng các Ëi t˜Òng Á hÂa.
Nh˙ng óng góp chính cıa lu™n v´n bao gÁm.
–∑ xußt ph˜Ïng pháp s˚dˆng m§ng nÏron tích ch™p YOLO cho bài toán ‡nh
v‡ Ëi t˜Òng Á hÂa vÓi bÎd˙liªu chøbao gÁm các v‡trí cıa hÎp giÓi h§n.
–∑ xußt ph˜Ïng pháp s˚dˆng m§ng hÂc sâu t¸giám sát DINO cho b˜Óc trích
xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓpËi t˜Òng Á
hÂa vÓi bÎd˙liªu có sËl˜Òng £nh mÈi lÓp h§n ch∏.
–Xây d¸ng và phát tri∫n hªthËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa
trong £nh v´n b£n.
Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa trong £nh v´n b£n˜Òc trình bày trong
lu™n v´nã˜Òc th˚nghiªm và §t k∏t qu£xßp xø74% trên các bÎd˙liªu ki∫m th˚
và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hªthËng tìm ki∏m
và truy xußt các v´n b£n t¯các Ëi t˜Òng Á hÂa§t˜Òc k∏t qu£ Î hÁi t˜ng §t
93,3%.
T¯khóa: nh™n d§ng Ëi t˜Òng, phân lo§i hình £nh, Ëi t˜Òng Á hÂa
1

ABSTRACT
Digital transformation and digitization of documents have greatly benefited busi-
nesses as they can cut operating costs and increase working efficiency. Decisions are
now made quickly and accurately through timely and transparent reporting systems.
In turn, the number of report documents that need to be processed and stored in-
creases, leading to an increasingly complex search problem. The need now is not just
to search from the textual content but also to look for graphic objects such as tables
and graphs. For visual search systems to work effectively, there is a need to recognize
and detect these objects. Most of the methods and models for recognizing graphic
objects in-text images are currently being trained on a dataset with two parts, the lo-
cation and the label name of the graphical object. The effort to label these datasets is
not tiny, and the time spent is also considerable. Therefore, in this thesis, we propose
amethodthatcanusetheincompletedatasetoflabelnamesofclassestoidentify
graphic objects. The main contributions of the thesis include.
–We propose using a convolutional neural network (YOLO) to locate graphic
objects with a dataset that includes only the bounding box’s locations.
–We propose a method to use a self-supervised deep learning network (DINO) for
the feature extraction step used to classify graphic objects with a dataset with
alimitednumberofimagesperclass.
–Building and developing a system for searching and retrieving graphic objects in
text images.
The method of recognizing graphic objects in text images presented in this thesis has
been tested and achieved approximately 74% results on test and evaluation datasets.
Applying the above methods to build a system for searching and retrieving documents
from graphic objects also achieved the top 3 recall results of 93.3%.
Keywords: object recognition, image classification, graphic object
2

LÕI CÉMÃN
LÌi¶u tiên cho tôi xin ˜Òc g˚i lÌi c£mÏn chân thành và sâu s≠c nhßt tÓi TS.
Nguyπn Th‡NgÂc Diªp ng˜Ìiã h˜Óng d®n và chøb£o t™n tình nhßt cho tôi trong
suËt quá trình hoàn thành lu™n v´n này.
Tôi xin ˜Òc g˚i lÌi c£mÏn tÓi toàn bÎcác th¶y giáo, cô giáo cıa tr˜Ìng §i
hÂc Công Nghª-§i hÂc QuËc Gia Hà NÎi nh˙ng ng˜Ìiã t§oi∑u kiªn tËt nhßt∫
tôi có th∫hÂc t™p, nghiên c˘u và hÏn c£là ã truy∑n thˆcho tôi nh˙ng hành trang
ki∏n th˘c¶yı nhßt.
Tôi cÙng xin g˚i lÌi c£mÏn chân thành nhßt tÓi nh˙ng ng˜Ìi b§n ng˜Ìi anh, ch‡
ã giúp Ô tôi hoàn thiªn c£v∑ki∏n th˘c chuyên môn và kˇn´ng hÂc t™p nghiên c˘u.
CuËi cùng và không th∫thi∏uó là lÌi c£mÏn tÓi bËmµvà ch‡tôi và ∞c biªt là
b§n Dung Phùng nh˙ng ng˜Ìiã luôn bên c§nh tôi giúp Ô và Îng viên cÍvÙtinh
th¶n tôi trong nh˙ng lúc khó kh´n nhßt.
Tôi xin chân thành c£mÏn!
Hà NÎi, ngày 10 tháng 10 n´m 2021
Sinh viên
Nguyπn Tußn Anh
i

