Trang chủ » Luận Văn - Báo Cáo » Thạc sĩ - Tiến sĩ - Cao học

27 trang

99 lượt xem

Tóm tắt Luận án Tiến sĩ: Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

Luận án nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh. Đề xuất mô hình VNSTD và VNST-REC.

Chủ đề:

vijiraiya

Luận văn thạc sĩ quản lý

Luận văn thạc sĩ quản lý văn hóa

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

HUỲNH VĂN HUY

NGHIÊN CỨU PHƯƠNG PHÁP NÂNG CAO ĐỘ CHÍNH XÁC

PHÁT HIỆN VÀ NHẬN DẠNG TIẾNG VIỆT TRONG ẢNH

CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH

TÓM TẮT LUẬN ÁN TIẾN SĨ

NGÀNH KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số ngành: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS. Ngô Quốc Tạo

TS. Nguyễn Thị Thanh Tân

Đồng Nai - năm 2025

Công trình được hoàn thành tại Trường Đại học Lạc Hồng

Người hướng dẫn khoa học:

1. HD 1: PGS.TS. Ngô Quốc Tạo

2. HD 2: TS. Nguyễn Thị Thanh Tân

Phản biện 1: .........................................................................................................

Phản biện 2: .........................................................................................................

Phản biện 3: .........................................................................................................

Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án cấp Trường họp tại....

.............................................................................................................................

vào hồi...... giờ...... ngày.......... tháng........... năm..............

Có thể tìm hiểu luận án tại thư viện:

- Thư viện Trường Đại học Lạc Hồng;

- Thư viện Quốc Gia.

Ngày nay các thiết bị thông minh đang phát triển rất mạnh mẽ như xe tự

lái, điện thoại di động có cài đặt trình ứng dụng dịch thuật tự động các ngôn ngữ

hiển thị trên các bản hiệu cũng như rất nhiều loại thiết bị khác. Các thiết bị này

đã nhận dạng chữ có trên các bề mặt đa dạng để thực hiện nhiều mục đích khác

nhau trong thực tế. Điều này cho thấy việc huấn luyện để máy tính tự động nhận

dạng chữ viết xuất hiện trong không gian ngoại cảnh đóng một vai trò quan trọng

để góp phần vào sự phát triển và nâng cao thị giác máy tính, giúp cho các thiết

bị thông minh ngày càng hoàn thiện hơn. Bên cạnh việc nhận dạng chữ tiếng

Việt trên các văn bản giấy thông thường đã được hoàn thiện, việc nhận dạng chữ

tiếng Việt trên các bề mặt ngoại cảnh như bản cảnh báo, bản hiệu quảng cáo, tên

đường phố và nhiều bề mặt khác có chữ Việt được trình bày trên nhiều cách thức

khác nhau đã làm cho máy tính chưa thể nhận dạng chúng một cách đầy đủ và

chính xác. Vì vậy, luận án đã tập trung vào việc nghiên cứu đối tượng là văn bản

tiếng Việt được chụp lại một cách ngẫu nhiên mà chúng được bố trí đa dạng trên

các bề mặt khác nhau ở ngoại cảnh. Hình ảnh có khả năng chứa văn bản tiếng

Việt được đưa qua các bước gồm tiền xử lý, phát hiện và nhận dạng văn bản.

Luận án gồm có 5 chương chính thức nhằm mục tiêu đưa giải pháp nâng cao độ

chính xác trong việc phát hiện và nhận dạng văn bản tiếng Việt xuất hiện trong

các ảnh phức tạp này. Chương 1 trình bày tổng quan về bài toán phát hiện và

nhận dạng văn bản nói chung và văn bản tiếng Việt xuất hiện ở môi trường ngoại

cảnh nói riêng cùng với nền tảng khoa học trình bày trong chương này là lý

thuyết học sâu. Chương 2 trình bày về phương pháp nâng cao chất lượng tiền xử

lý, nắn chỉnh hình ảnh đầu vào để có được hình ảnh đạt chuẩn trước khi đưa

chúng vào xử lý các bước tiếp theo. Phương pháp này được luận án đề xuất và

đặt tên là VNST-REC. Các nội dung chính của chương này gồm thuật toán phát

hiện vùng quan tâm, phân vùng ảnh và phát hiện các điểm góc, thuật toán nắn

chỉnh hình ảnh. Chương 3 trình bày kết quả nghiên cứu để nâng cao chất lượng

phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh, trong đó phương pháp nâng

cao chất lượng phát hiện văn bản thông qua 4 bước chính gồm trích chọn đặc

trưng từ ảnh đầu vào, mô hình hợp nhất, mô hình tập trung ngữ cảnh, phân vùng

văn bản cùng với các kết quả thực nghiệm. Phương pháp nâng cao độ chính xác

phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh này được luận án đề xuất và

đặt tên là VNSTD. Chương 4 trình bày kết quả nghiên cứu để nâng cao chất

lượng nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh. Phương pháp nâng

cao chất lượng nhận dạng văn bản tiếng Việt có các phần gồm mô hình dự đoán

chuỗi ký tự từ hình ảnh, mô hình ngôn ngữ, mô hình hợp nhất và hiệu chỉnh lỗi,

huấn luyện mô hình và kết quả thực nghiệm. Phương pháp nâng cao độ chính

xác nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh này được luận án đề xuất

và đặt tên là VNSTR. Chương 5 trình bày các kết luận và nhận định về một số

các vấn đề còn tồn tại cùng với việc đề xuất các vấn đề có thể tiếp tục nghiên

cứu trong tương lai. Luận án có đóng góp những kết quả nghiên cứu mới gồm

việc nghiên cứu và thực nghiệm trên tập dữ liệu hoàn toàn mới gồm 3000 hình

ảnh được chụp từ thực tế mà chúng có chứa văn bản tiếng Việt trong môi trường

ngoại cảnh, và từ việc tổng hợp ba phương pháp nâng cao chất lượng nắn chỉnh

ảnh, nâng cao chất lượng phát hiện, nâng cao chất lượng nhận dạng chữ tiếng

Việt trong ảnh ngoại cảnh đã hợp nhất thành một giải pháp tổng thể để giải quyết

tốt hơn bài toán text spotting, trong đó kết hợp của hai phương pháp cụ thể gồm

nâng cao độ chính xác phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh và

phương pháp nâng cao độ chính xác nhận dạng văn bản tiếng Việt trong ảnh

ngoại cảnh trên cơ sở đối sánh với quá trình xử lý của các giải pháp đã được đề

xuất từ các nghiên cứu trước trên tập dữ liệu ảnh sẵn có trước đây.

Từ khóa: Học máy, học sâu, tiền xử lý ảnh, phát hiện chữ tiếng Việt,

nhận dạng chữ tiếng Việt, ảnh ngoại cảnh, tiếng Việt trong ảnh ngoại cảnh.

Các nội dung nổi bật cụ thể trong 5 chương chính thức của luận án chi

tiết như sau đây.

CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN

DẠNG VĂN BẢN TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH

NGOẠI CẢNH

Chương 1 giới thiệu tổng quan về bài toán phát hiện và nhận dạng văn

bản trong ảnh ngoại cảnh (thuật ngữ tiếng Anh: Text Spotting) và những vấn đề

thách thức còn tồn tại, chưa được giải quyết. Bên cạnh đó, trong chương này luận

án cũng tập trung khảo sát các hướng tiếp cận liên quan trong phát hiện và nhận

dạng văn bản trong ảnh ngoại cảnh. Trên cơ sở đó, chương 1 làm cơ sở giúp các

chương tiếp theo của luận án sẽ đề xuất một phương án từ chi tiết đến tổng thể

để giải quyết bài toán đã đặt ra.

Chương 1 của luận án được trình bày 7 mục nội dung chính gồm các

Khái niệm; Mô tả bài toán phát hiện và nhận dạng văn bản tiếng Việt trong ảnh

ngoại cảnh; Khảo sát nghiên cứu trước; Những vấn đề, những thách thức trong

việc phát hiện và nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh; Cơ sở lý

thuyết về học sâu; Trình bày rõ về thuật ngữ, đối tượng xử lý cùng cơ sở dữ liệu

ảnh và Kết luận chương 1. Trong đó, cơ sở lý thuyết về học sâu được luận án

chọn lọc và đề cập đến kiến trúc mạng CNN (Convolutional Neural Network -

Mạng thần kinh tích chập) và kiến trúc mạng phần dư Resnet. Cụ thể trọng tâm

của chương này trình bày tổng quan về bài toán phát hiện và nhận dạng văn bản

trong ảnh ngoại cảnh cùng những thách thức trong bài toán. Tại đây đã nghiên

cứu và phân tích 02 kiến trúc mạng học sâu đang được ứng dụng phổ biến để giải

quyết các bài toán phát hiện, nhận dạng đối tượng nói chung và bài toán phát

hiện, nhận dạng văn bản nói riêng: Mạng neural tích chập (CNN Network) và

mạng phần dư (Resnet-50). Mạng CNN được thiết kế để tự động học và nhận

biết các đặc trưng trong dữ liệu hình ảnh. Các thành phần chính của mạng CNN

bao gồm: Lớp Convolutions: Áp dụng các bộ lọc (filter) để trích xuất các đặc

trưng từ hình ảnh đầu vào; Lớp Pooling: Giảm kích thước của đặc trưng bằng

cách lấy giá trị tối đa hoặc trung bình trong một vùng nhất định; Lớp Fully

Connected: Kết nối các đặc trưng đã trích xuất với các lớp neural để phân loại.

Đặc trưng chính của mạng ResNet là khả năng giải quyết tốt vấn đề suy

giảm độ chính xác (vanishing gradient problem) bằng cách sử dụng các khối

phần dư (residual blocks) trong mạng. Mỗi khối còn lại chứa một kết nối tắt

(shortcut connection) để truyền thông tin trực tiếp từ lớp đầu vào đến lớp đầu ra

qua các lớp ẩn. Điều này giúp giảm thiểu khả năng suy giảm độ chính xác và cho

phép mạng neural sâu học tốt hơn.

Tài liệu liên quan

Luận án Tiến sĩ: Chuyển biến ngữ nghĩa từ chỉ vị giác 酸 (toan), 辣 (lạt), 咸 (hàm), 甜 (điềm), 苦 (khổ) tiếng Hán và liên hệ chua, cay, mặn, ngọt, đắng tiếng Việt

Luận án Tiến sĩ: Sự chuyển biến ngữ nghĩa của nhóm từ chỉ vị giác 酸 (toan), 辣 (lạt), 咸 (hàm), 甜 (điềm), 苦 (khổ) trong tiếng Hán (liên hệ với chua, cay, mặn, ngọt, đắng trong Tiếng Việt)

Tóm tắt Luận án: Ảnh hưởng tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân Hải Dương

Tóm tắt Luận án Tiến sĩ: Ảnh hưởng của tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân tỉnh Hải Dương hiện nay

Ảnh hưởng tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân Hải Dương: Luận án Tiến sĩ

Luận án Tiến sĩ: Ảnh hưởng của tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân tỉnh Hải Dương hiện nay

Xây dựng văn hóa nhà trường theo tiếp cận tổ chức biết học hỏi tại Học viện Chính trị Quốc gia Hồ Chí Minh: Luận án Tiến sĩ

Luận án Tiến sĩ: Xây dựng văn hóa nhà trường theo tiếp cận tổ chức biết học hỏi tại Học viện Chính trị Quốc gia Hồ Chí Minh

Văn hóa nhà trường theo tiếp cận tổ chức biết học hỏi: Tóm tắt luận án Tiến sĩ tại Học viện Chính trị Quốc gia Hồ Chí Minh

Tóm tắt Luận án Tiến sĩ: Xây dựng văn hóa nhà trường theo tiếp cận tổ chức biết học hỏi tại Học viện Chính trị Quốc gia Hồ Chí Minh

Biến đổi sinh kế người Sán Dìu Sơn Dương Tuyên Quang: Tóm tắt luận án Tiến sĩ

Tóm tắt Luận án Tiến sĩ: Biến đổi sinh kế của người Sán Dìu huyện Sơn Dương, tỉnh Tuyên Quang

Biến đổi hát Xoan Phú Thọ: Luận án Tiến sĩ nghiên cứu tại làng Xoan Phù Đức và An Thái

Luận án Tiến sĩ: Biến đổi của hát Xoan tại các làng Xoan gốc tỉnh Phú Thọ (qua nghiên cứu trường hợp làng Xoan Phù Đức và An Thái)

Phát hiện và nhận dạng tiếng Việt trong ảnh CCCD, ảnh ngoại cảnh: Nghiên cứu phương pháp nâng cao độ chính xác [Luận án Tiến sĩ]

Luận án Tiến sĩ: Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

Biến đổi sinh kế người Sán Dìu Sơn Dương Tuyên Quang: Luận án Tiến sĩ

Luận án Tiến sĩ: Biến đổi sinh kế của người Sán Dìu huyện Sơn Dương, tỉnh Tuyên Quang

Biến đổi hát Xoan Phú Thọ: Tóm tắt luận án Tiến sĩ tại làng Xoan gốc Phù Đức và An Thái

Tóm tắt Luận án Tiến sĩ: Biến đổi của hát Xoan tại các làng Xoan gốc tỉnh Phú Thọ (qua nghiên cứu trường hợp làng Xoan Phù Đức và An Thái)

Tài liêu mới

Phát triển du lịch nông nghiệp bền vững tại tỉnh Thái Nguyên: Luận án Tiến sĩ

Luận án Tiến sĩ: Phát triển du lịch nông nghiệp bền vững tại tỉnh Thái Nguyên

Các yếu tố ảnh hưởng đến hành vi ứng dụng Digital Marketing của doanh nghiệp khởi nghiệp ở Việt Nam: Luận án Tiến sĩ

Luận án Tiến sĩ: Các yếu tố ảnh hưởng đến hành vi ứng dụng Digital Marketing của các doanh nghiệp khởi nghiệp ở Việt Nam

Bài toán xác định tham số nguồn đối với phương trình dưới khuếch tán nửa tuyến tính: Luận án Tiến sĩ

Luận án Tiến sĩ: Bài toán xác định tham số nguồn đối với một số lớp phương trình dưới khuếch tán nửa tuyến tính

Bài toán xác định tham số nguồn đối với phương trình dưới khuếch tán nửa tuyến tính: Tóm tắt Luận án Tiến sĩ

Tóm tắt Luận án Tiến sĩ: Bài toán xác định tham số nguồn đối với một số lớp phương trình dưới khuếch tán nửa tuyến tính

Năng lực đổi mới sáng tạo của doanh nghiệp chế biến thực phẩm Việt Nam: Tóm tắt luận án Tiến sĩ

Tóm tắt Luận án Tiến sĩ: Năng lực đổi mới sáng tạo của doanh nghiệp ngành chế biến thực phẩm Việt Nam

Năng lực đổi mới sáng tạo của doanh nghiệp ngành chế biến thực phẩm Việt Nam: Luận án Tiến sĩ

Luận án Tiến sĩ: Năng lực đổi mới sáng tạo của doanh nghiệp ngành chế biến thực phẩm Việt Nam

Đánh giá hiệu năng đường truyền trong mạng 5G NR: Tóm tắt đề án tốt nghiệp Thạc sĩ

Tóm tắt Đề án tốt nghiệp Thạc sĩ: Đánh giá hiệu năng đường truyền trong mạng 5G NR

Giải pháp VXLAN trong trung tâm dữ liệu: Tóm tắt đề án tốt nghiệp Thạc sĩ Nghiên cứu

Tóm tắt Đề án tốt nghiệp Thạc sĩ: Nghiên cứu giải pháp VXLAN trong các trung tâm dữ liệu

Tóm tắt Đề án tốt nghiệp Thạc sĩ: Nghiên cứu và đánh giá giải pháp quản lý truy cập đặc quyền CyberArk

Nhận diện cảm xúc trong văn bản tiếng Việt bằng mô hình học sâu: Đề án tốt nghiệp Thạc sĩ

Đề án tốt nghiệp Thạc sĩ: Nhận diện cảm xúc trong văn bản tiếng Việt bằng mô hình học sâu

Đề án tốt nghiệp: Nghiên cứu, thiết kế hệ thống điều khiển động cơ PMSM không cảm biến tốc độ, tựa hướng từ thông rotor (FOC)

Đề án tốt nghiệp Thạc sĩ: Nghiên cứu, thiết kế hệ thống điều khiển động cơ PMSM không sử dụng cảm biến tốc độ dựa trên phương pháp điều khiển tựa hướng từ thông rotor (FOC)

Tóm tắt Luận án Tiến sĩ: Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

Luận án nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh. Đề xuất mô hình VNSTD và VNST-REC.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi