B GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HC LC HNG
HUỲNH VĂN HUY
NGHIÊN CỨU PHƯƠNG PHÁP NÂNG CAO ĐỘ CHÍNH XÁC
PHÁT HIN VÀ NHN DNG TING VIT TRONG NH
CĂN CƯỚC CÔNG DÂN VÀ NH NGOI CNH
TÓM TT LUN ÁN TIẾN SĨ
NGÀNH KHOA HC MÁY TÍNH
Chuyên ngành: Khoa hc máy tính
Mã s ngành: 9480101
NGƯỜI HƯỚNG DN KHOA HC
PGS.TS. Ngô Quc To
TS. Nguyn Th Thanh Tân
Đồng Nai - năm 2025
Công trình được hoàn thành tại Trường Đại hc Lc Hng
Người hướng dn khoa hc:
1. HD 1: PGS.TS. Ngô Quc To
2. HD 2: TS. Nguyn Th Thanh Tân
Phn bin 1: .........................................................................................................
Phn bin 2: .........................................................................................................
Phn bin 3: .........................................................................................................
Lun án s được bo v trước Hội đồng đánh giá luận án cấp Trường hp ti....
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
vào hi...... giờ...... ngày.......... tháng........... năm..............
Có thể tìm hiểu luận án tại thư viện:
- Thư viện Trường Đại học Lạc Hồng;
- Thư viện Quốc Gia.
1
Ngày nay các thiết b thông minh đang phát triển rt mnh m như xe tự
lái, điện thoại di động có cài đặt trình ng dng dch thut t động các ngôn ng
hin th trên các bn hiệu cũng như rất nhiu loi thiết b khác. Các thiết b này
đã nhận dng ch có trên các b mặt đa dạng để thc hin nhiu mục đích khác
nhau trong thc tế. Điều này cho thy vic hun luyện để máy tính t động nhn
dng ch viết xut hin trong không gian ngoi cảnh đóng một vai trò quan trng
để góp phn vào s phát trin nâng cao th giác máy tính, giúp cho các thiết
b thông minh ngày càng hoàn thiện hơn. Bên cạnh vic nhn dng ch tiếng
Việt trên các văn bản giấy thông thường đã đưc hoàn thin, vic nhn dng ch
tiếng Vit trên các b mt ngoi cảnh như bản cnh báo, bn hiu qung cáo, tên
đường ph nhiu b mt khác ch Việt được trình bày trên nhiu cách thc
khác nhau đã làm cho máy tính chưa thể nhn dng chúng mt cách đầy đủ
chính xác. Vì vy, luận án đã tập trung vào vic nghiên cứu đối tượng văn bản
tiếng Việt được chp li mt cách ngẫu nhiên mà chúng được b trí đa dng trên
các b mt khác nhau ngoi cnh. Hình nh kh năng chứa văn bản tiếng
Việt được đưa qua các bước gm tin x lý, phát hin nhn dạng văn bản.
Lun án gồm có 5 chương chính thức nhm mc tiêu đưa giải pháp nâng cao độ
chính xác trong vic phát hin và nhn dạng văn bản tiếng Vit xut hin trong
các nh phc tạp này. Chương 1 trình bày tng quan v bài toán phát hin
nhn dạng văn bản nói chung văn bản tiếng Vit xut hin môi trường ngoi
cnh nói riêng cùng vi nn tng khoa học trình bày trong chương này
thuyết học sâu. Chương 2 trình bày về phương pháp nâng cao chất lượng tin x
lý, nn chnh hình ảnh đầu vào để được hình ảnh đạt chuẩn trước khi đưa
chúng vào x các bước tiếp theo. Phương pháp này được luận án đề xut
đặt tên là VNST-REC. Các ni dung chính của chương này gồm thut toán phát
hin vùng quan tâm, phân vùng nh phát hiện các điểm góc, thut toán nn
chnh hình ảnh. Chương 3 trình bày kết qu nghiên cứu để nâng cao chất lượng
phát hiện văn bản tiếng Vit trong nh ngoi cnh, trong đó phương pháp nâng
cao chất lượng phát hiện văn bản thông qua 4 bước chính gm trích chọn đặc
trưng từ ảnh đầu vào, mô hình hp nht, mô hình tp trung ng cnh, phân vùng
2
văn bản cùng vi các kết qu thc nghiệm. Phương pháp nâng cao độ chính xác
phát hiện văn bản tiếng Vit trong nh ngoi cảnh này được lun án đề xut
đặt tên VNSTD. Chương 4 trình bày kết qu nghiên cứu để nâng cao cht
ng nhn dạng văn bản tiếng Vit trong nh ngoi cảnh. Phương pháp nâng
cao chất lượng nhn dạng văn bản tiếng Vit có các phn gm mô hình d đoán
chui ký t t hình nh, mô hình ngôn ng, mô hình hp nht và hiu chnh li,
hun luyn mô hình kết qu thc nghiệm. Phương pháp nâng cao đ chính
xác nhn dng văn bản tiếng Vit trong nh ngoi cảnh này được luận án đề xut
đặt tên VNSTR. Chương 5 trình bày các kết lun nhận định v mt s
các vấn đề còn tn ti cùng vi việc đề xut các vấn đề th tiếp tc nghiên
cứu trong tương lai. Luận án đóng góp những kết qu nghiên cu mi gm
vic nghiên cu thc nghim trên tp d liu hoàn toàn mi gm 3000 hình
ảnh được chp t thc tế mà chúng chứa văn bản tiếng Việt trong môi trường
ngoi cnh, và t vic tng hợp ba phương pháp nâng cao chất lượng nn chnh
nh, nâng cao chất lượng phát hin, nâng cao chất lượng nhn dng ch tiếng
Vit trong nh ngoi cảnh đã hp nht thành mt gii pháp tng th để gii quyết
tốt hơn bài toán text spotting, trong đó kết hp của hai phương pháp cụ th gm
nâng cao độ chính xác phát hiện văn bản tiếng Vit trong nh ngoi cnh
phương pháp nâng cao độ chính xác nhn dạng văn bản tiếng Vit trong nh
ngoi cảnh trên cơ sở đối sánh vi quá trình xca các giải pháp đã được đề
xut t các nghiên cứu trước trên tp d liu nh sn có trước đây.
T khóa: Hc máy, hc sâu, tin x nh, phát hin ch tiếng Vit,
nhn dng ch tiếng Vit, nh ngoi cnh, tiếng Vit trong nh ngoi cnh.
Các ni dung ni bt c th trong 5 chương chính thc ca lun án chi
tiết như sau đây.
CHƯƠNG 1 - TNG QUAN V BÀI TOÁN PHÁT HIN NHN
DẠNG VĂN BẢN TRONG ẢNH CĂN CƯỚC CÔNG DÂN NH
NGOI CNH
Chương 1 gii thiu tng quan v bài toán phát hin nhn dạng văn
bn trong nh ngoi cnh (thut ng tiếng Anh: Text Spotting) và nhng vấn đề
3
thách thc còn tn tại, chưa được gii quyết. Bên cạnh đó, trong chương này lun
án cũng tập trung kho sát các hướng tiếp cn liên quan trong phát hin và nhn
dạng văn bản trong nh ngoi cảnh. Trên cơ sở đó, chương 1 làm cơ sở giúp các
chương tiếp theo ca lun án s đề xut một phương án t chi tiết đến tng th
để gii quyết bài toán đã đặt ra.
Chương 1 ca luận án được trình bày 7 mc ni dung chính gm các
Khái nim; Mô t bài toán phát hin và nhn dạng văn bản tiếng Vit trong nh
ngoi cnh; Kho sát nghiên cứu trước; Nhng vấn đề, nhng thách thc trong
vic phát hin nhn dạng văn bản tiếng Vit trong nh ngoi cảnh; sở
thuyết v hc sâu; Trình bày rõ v thut ngữ, đối tượng x lý cùng cơ sở d liu
nh Kết luận chương 1. Trong đó, s thuyết v học sâu được lun án
chn lọc đề cp đến kiến trúc mng CNN (Convolutional Neural Network -
Mng thn kinh tích chp) và kiến trúc mng phần dư Resnet. C th trng tâm
ca chương này trình bày tổng quan v bài toán phát hin và nhn dạng văn bản
trong nh ngoi cnh cùng nhng thách thc trong bài toán. Tại đây đã nghiên
cu phân tích 02 kiến trúc mng học sâu đang được ng dng ph biến để gii
quyết các bài toán phát hin, nhn dạng đối tượng nói chung bài toán phát
hin, nhn dạng văn bản nói riêng: Mng neural tích chp (CNN Network)
mng phần (Resnet-50). Mạng CNN được thiết kế để t động hc nhn
biết các đặc trưng trong dữ liu hình nh. Các thành phn chính ca mng CNN
bao gm: Lp Convolutions: Áp dng các b lọc (filter) để trích xuất các đặc
trưng từ hình ảnh đầu vào; Lp Pooling: Giảm kích thước của đặc trưng bằng
cách ly giá tr tối đa hoặc trung bình trong mt vùng nhất định; Lp Fully
Connected: Kết nối các đặc trưng đã trích xuất vi các lớp neural để phân loi.
Đặc trưng chính của mng ResNet là kh năng giải quyết tt vấn đề suy
giảm đ chính xác (vanishing gradient problem) bng ch s dng các khi
phần (residual blocks) trong mng. Mi khi còn li cha mt kết ni tt
(shortcut connection) để truyn thông tin trc tiếp t lớp đầu vào đến lớp đầu ra
qua các lp ẩn. Điều này giúp gim thiu kh năng suy gim độ chính xác và cho
phép mng neural sâu hc tốt hơn.