
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
HUỲNH VĂN HUY
NGHIÊN CỨU PHƯƠNG PHÁP NÂNG CAO ĐỘ CHÍNH XÁC
PHÁT HIỆN VÀ NHẬN DẠNG TIẾNG VIỆT TRONG ẢNH
CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH
TÓM TẮT LUẬN ÁN TIẾN SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số ngành: 9480101
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. Ngô Quốc Tạo
TS. Nguyễn Thị Thanh Tân
Đồng Nai - năm 2025

Công trình được hoàn thành tại Trường Đại học Lạc Hồng
Người hướng dẫn khoa học:
1. HD 1: PGS.TS. Ngô Quốc Tạo
2. HD 2: TS. Nguyễn Thị Thanh Tân
Phản biện 1: .........................................................................................................
Phản biện 2: .........................................................................................................
Phản biện 3: .........................................................................................................
Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án cấp Trường họp tại....
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
vào hồi...... giờ...... ngày.......... tháng........... năm..............
Có thể tìm hiểu luận án tại thư viện:
- Thư viện Trường Đại học Lạc Hồng;
- Thư viện Quốc Gia.

1
Ngày nay các thiết bị thông minh đang phát triển rất mạnh mẽ như xe tự
lái, điện thoại di động có cài đặt trình ứng dụng dịch thuật tự động các ngôn ngữ
hiển thị trên các bản hiệu cũng như rất nhiều loại thiết bị khác. Các thiết bị này
đã nhận dạng chữ có trên các bề mặt đa dạng để thực hiện nhiều mục đích khác
nhau trong thực tế. Điều này cho thấy việc huấn luyện để máy tính tự động nhận
dạng chữ viết xuất hiện trong không gian ngoại cảnh đóng một vai trò quan trọng
để góp phần vào sự phát triển và nâng cao thị giác máy tính, giúp cho các thiết
bị thông minh ngày càng hoàn thiện hơn. Bên cạnh việc nhận dạng chữ tiếng
Việt trên các văn bản giấy thông thường đã được hoàn thiện, việc nhận dạng chữ
tiếng Việt trên các bề mặt ngoại cảnh như bản cảnh báo, bản hiệu quảng cáo, tên
đường phố và nhiều bề mặt khác có chữ Việt được trình bày trên nhiều cách thức
khác nhau đã làm cho máy tính chưa thể nhận dạng chúng một cách đầy đủ và
chính xác. Vì vậy, luận án đã tập trung vào việc nghiên cứu đối tượng là văn bản
tiếng Việt được chụp lại một cách ngẫu nhiên mà chúng được bố trí đa dạng trên
các bề mặt khác nhau ở ngoại cảnh. Hình ảnh có khả năng chứa văn bản tiếng
Việt được đưa qua các bước gồm tiền xử lý, phát hiện và nhận dạng văn bản.
Luận án gồm có 5 chương chính thức nhằm mục tiêu đưa giải pháp nâng cao độ
chính xác trong việc phát hiện và nhận dạng văn bản tiếng Việt xuất hiện trong
các ảnh phức tạp này. Chương 1 trình bày tổng quan về bài toán phát hiện và
nhận dạng văn bản nói chung và văn bản tiếng Việt xuất hiện ở môi trường ngoại
cảnh nói riêng cùng với nền tảng khoa học trình bày trong chương này là lý
thuyết học sâu. Chương 2 trình bày về phương pháp nâng cao chất lượng tiền xử
lý, nắn chỉnh hình ảnh đầu vào để có được hình ảnh đạt chuẩn trước khi đưa
chúng vào xử lý các bước tiếp theo. Phương pháp này được luận án đề xuất và
đặt tên là VNST-REC. Các nội dung chính của chương này gồm thuật toán phát
hiện vùng quan tâm, phân vùng ảnh và phát hiện các điểm góc, thuật toán nắn
chỉnh hình ảnh. Chương 3 trình bày kết quả nghiên cứu để nâng cao chất lượng
phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh, trong đó phương pháp nâng
cao chất lượng phát hiện văn bản thông qua 4 bước chính gồm trích chọn đặc
trưng từ ảnh đầu vào, mô hình hợp nhất, mô hình tập trung ngữ cảnh, phân vùng

2
văn bản cùng với các kết quả thực nghiệm. Phương pháp nâng cao độ chính xác
phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh này được luận án đề xuất và
đặt tên là VNSTD. Chương 4 trình bày kết quả nghiên cứu để nâng cao chất
lượng nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh. Phương pháp nâng
cao chất lượng nhận dạng văn bản tiếng Việt có các phần gồm mô hình dự đoán
chuỗi ký tự từ hình ảnh, mô hình ngôn ngữ, mô hình hợp nhất và hiệu chỉnh lỗi,
huấn luyện mô hình và kết quả thực nghiệm. Phương pháp nâng cao độ chính
xác nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh này được luận án đề xuất
và đặt tên là VNSTR. Chương 5 trình bày các kết luận và nhận định về một số
các vấn đề còn tồn tại cùng với việc đề xuất các vấn đề có thể tiếp tục nghiên
cứu trong tương lai. Luận án có đóng góp những kết quả nghiên cứu mới gồm
việc nghiên cứu và thực nghiệm trên tập dữ liệu hoàn toàn mới gồm 3000 hình
ảnh được chụp từ thực tế mà chúng có chứa văn bản tiếng Việt trong môi trường
ngoại cảnh, và từ việc tổng hợp ba phương pháp nâng cao chất lượng nắn chỉnh
ảnh, nâng cao chất lượng phát hiện, nâng cao chất lượng nhận dạng chữ tiếng
Việt trong ảnh ngoại cảnh đã hợp nhất thành một giải pháp tổng thể để giải quyết
tốt hơn bài toán text spotting, trong đó kết hợp của hai phương pháp cụ thể gồm
nâng cao độ chính xác phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh và
phương pháp nâng cao độ chính xác nhận dạng văn bản tiếng Việt trong ảnh
ngoại cảnh trên cơ sở đối sánh với quá trình xử lý của các giải pháp đã được đề
xuất từ các nghiên cứu trước trên tập dữ liệu ảnh sẵn có trước đây.
Từ khóa: Học máy, học sâu, tiền xử lý ảnh, phát hiện chữ tiếng Việt,
nhận dạng chữ tiếng Việt, ảnh ngoại cảnh, tiếng Việt trong ảnh ngoại cảnh.
Các nội dung nổi bật cụ thể trong 5 chương chính thức của luận án chi
tiết như sau đây.
CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN
DẠNG VĂN BẢN TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH
NGOẠI CẢNH
Chương 1 giới thiệu tổng quan về bài toán phát hiện và nhận dạng văn
bản trong ảnh ngoại cảnh (thuật ngữ tiếng Anh: Text Spotting) và những vấn đề

3
thách thức còn tồn tại, chưa được giải quyết. Bên cạnh đó, trong chương này luận
án cũng tập trung khảo sát các hướng tiếp cận liên quan trong phát hiện và nhận
dạng văn bản trong ảnh ngoại cảnh. Trên cơ sở đó, chương 1 làm cơ sở giúp các
chương tiếp theo của luận án sẽ đề xuất một phương án từ chi tiết đến tổng thể
để giải quyết bài toán đã đặt ra.
Chương 1 của luận án được trình bày 7 mục nội dung chính gồm các
Khái niệm; Mô tả bài toán phát hiện và nhận dạng văn bản tiếng Việt trong ảnh
ngoại cảnh; Khảo sát nghiên cứu trước; Những vấn đề, những thách thức trong
việc phát hiện và nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh; Cơ sở lý
thuyết về học sâu; Trình bày rõ về thuật ngữ, đối tượng xử lý cùng cơ sở dữ liệu
ảnh và Kết luận chương 1. Trong đó, cơ sở lý thuyết về học sâu được luận án
chọn lọc và đề cập đến kiến trúc mạng CNN (Convolutional Neural Network -
Mạng thần kinh tích chập) và kiến trúc mạng phần dư Resnet. Cụ thể trọng tâm
của chương này trình bày tổng quan về bài toán phát hiện và nhận dạng văn bản
trong ảnh ngoại cảnh cùng những thách thức trong bài toán. Tại đây đã nghiên
cứu và phân tích 02 kiến trúc mạng học sâu đang được ứng dụng phổ biến để giải
quyết các bài toán phát hiện, nhận dạng đối tượng nói chung và bài toán phát
hiện, nhận dạng văn bản nói riêng: Mạng neural tích chập (CNN Network) và
mạng phần dư (Resnet-50). Mạng CNN được thiết kế để tự động học và nhận
biết các đặc trưng trong dữ liệu hình ảnh. Các thành phần chính của mạng CNN
bao gồm: Lớp Convolutions: Áp dụng các bộ lọc (filter) để trích xuất các đặc
trưng từ hình ảnh đầu vào; Lớp Pooling: Giảm kích thước của đặc trưng bằng
cách lấy giá trị tối đa hoặc trung bình trong một vùng nhất định; Lớp Fully
Connected: Kết nối các đặc trưng đã trích xuất với các lớp neural để phân loại.
Đặc trưng chính của mạng ResNet là khả năng giải quyết tốt vấn đề suy
giảm độ chính xác (vanishing gradient problem) bằng cách sử dụng các khối
phần dư (residual blocks) trong mạng. Mỗi khối còn lại chứa một kết nối tắt
(shortcut connection) để truyền thông tin trực tiếp từ lớp đầu vào đến lớp đầu ra
qua các lớp ẩn. Điều này giúp giảm thiểu khả năng suy giảm độ chính xác và cho
phép mạng neural sâu học tốt hơn.