Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt

Chia sẻ: Diệp Khinh Châu | Ngày: | Loại File: PDF | Số trang:21

Thêm vào BST

Báo xấu

16
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân trình bày nội dung: giới thiệu về hệ thống nhận dạng ký tự Việt ngữ trong hình ảnh hiệu suất chưa cao; mô hình đề xuất trích xuất các vùng thông tin trong ảnh CCCD; hiệu quả nhận dạng Việt ngữ cho từng vùng thông tin trên CCCD; kết quả trích xuất và nhận dạng các vùng thông tin trong ảnh CCCD;... Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt

Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích Xuất Thông Tin Từ Căn Cước Công Dân Trịnh Tấn Đạt
Nội dung 1. Giới thiệu 2. Mô hình đề xuất 3. Thực nghiệm và kết quả 4. Sản phẩm 5. Kết luận
Giới thiệu ❖ Khó khăn và thách thức: ▪ Hệ thống nhận dạng ký tự Việt ngữ trong hình ảnh hiệu suất chưa cao. • Nhiễu • Ảnh bị mờ • Ảnh bị ảnh hưởng bởi ánh sáng/bóng tối • Độ phân giải thấp • Mất mát thông tin
Mô hình đề xuất Input image Cropper Text Detector Text Recognizer Results Số: 079060 Ngày, tháng, năm sinh: 26/04/1996 Giới tính: Nam Quốc tịch: Việt Nam …
Mô hình đề xuất ❖Cropper: Xác định vị trí của CCCD trong ảnh đầu vào có nền và chuẩn hóa ảnh CCCD về góc nhìn ở phía trước (front-view hay top-down view) ▪ Mô hình Mask R-CNN để phân đoạn ảnh CCCD và tìm biên của CCCD. ▪ Dựa vào biên của đối tượng, chúng tôi xác định 4 đỉnh của CCCD và áp dụng Perspective Transform để chuẩn hóa CCCD về góc nhìn trực diện. Kết quả của Mask-RCNN cho việc chuẩn hóa ảnh CCCD
Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD ▪ Hướng tiếp cận 1: dùng các kỹ thuật xử lý ảnh ▪ Hướng tiếp cận 2: dùng EAST detector
Mô hình đề xuất Convert to grayscale image ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Gaussian smoothing Black- hata operator Dùng các kỹ thuật xử lý ảnh Magnitude of gradient by x- direction Closing operator Otsu thresholdin g Find Using connected heuristic components information Extract text lines
Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Dùng EAST detector Kết quả của EAST detector Kết quả khi hậu xử lý
Mô hình đề xuất “Giới tính: Nam” Predicted sequence Transcription ❖ Text Recognition Layer ▪ Mạng tích chập hồi quy (CRNN) kết hợp Per-frame predictions (joint CTC-Attention) CTC. ▪ Mạng CRNN kết hợp cơ chế Attention. Deep bidirectional LSTM ▪ Kết hợp giữa mạng tích chập (CNN), Recurrent Layers mạng hồi quy (LSTM) và cơ chế Attention kết hợp CTC Feature sequence (CNN+LSTM+CTC+Attention) trong một mô hình đầu cuối (end-to-end). Convolutional Layers Convolutional feature maps Input (text lines)
Mô hình đề xuất
Thực nghiệm và kết quả ❖Dữ liệu ▪ 120 ảnh CCCD (ảnh thật) thu thập được chỉ được dùng trong quá trình kiểm tra ▪ Để huấn luyện mô hình đề xuất, chúng tôi sử dụng kỹ thuật tạo dữ liệu giả (synthetic data và augmentation data). ▪ 1150 ảnh CCCD với nền được dùng để huấn luyện mô hình Mask- RCNN. ▪ Các dữ liệu ảnh CCCD giả chứa đựng 73090 dòng văn bản chứa đựng các thông tin cơ bản của CCCD như: số CCCD, họ tên, ngày tháng năm sinh, quê quán. o 70044 mẫu như tập huấn luyện o 3046 mẫu được dùng như tập kiểm thử (valid data). o 1065 dòng thông tin (từ ảnh thật) để đánh giá mô hình nhận dạng
Thực nghiệm và kết quả Dữ liệu giả để huấn luyện mô hình nhận dạng CRNN.
Kết quả ▪ Kết quả so sánh của mô hình Cropper The Cropper Độ chính xác (%) Thời gian xử lý (giây) Mask-RCNN Resnet50 96.13% 0.50s Mask-RCNN Resnet101 95.92% 0.52s Mask-RCNN InceptionResnet V2 98.85% 0.59s
Kết quả ▪ Ví dụ kết quả từ Cropper Ảnh đầu vào Kết quả Mask-RCNN CCCD được chuẩn hóa
Kết quả ▪ Kết quả so sánh của mô hình Text Detector Phương pháp Precision (%) Recall (%) F1-score (%) Thời gian xử lý (giây) Phương pháp dùng xử lý 0.886 0.890 0.888 0.027s ảnh EAST detector 0.946 0.945 0.945 0.402s
Bảng 4.6: Kết quả trích xuất các vùng thông tin trên ảnh CCCD. Độ chính xác (%) Các vùng thông tin Phương pháp dùng xử lý ảnh EAST detector Số ID 97.57 99.39 Họ và Tên 93.93 96.36 Ngày tháng năm sinh 96.96 96.96 Giới tính 96.36 98.18 Quốc tịch 95.57 98.18 Quê quán 80.39 96.96 Nới thường trú 84.24 87.87 Hạn sử dụng 86.67 93.93
a) Traditional approach b) EAST detector
Kết quả ▪ Kết quả so sánh của mô hình Text Recognizer Phương pháp WER (%) CRNN+CTC 5.68 CRNN+Attention 6.77 CRNN+ joint CTC-Attention 4.28
Hiệu quả nhận dạng Việt ngữ cho từng vùng thông tin trên CCCD. Các vùng thông tin WER (%) Số ID 4.66 Họ và Tên 0.79 Ngày tháng năm sinh 0.00 Giới tính 0.22 Quê quán 6.22 Nơi thường trú 12.64 Hạn sử dụng 0.04
Kết quả trích xuất và nhận dạng các vùng thông tin trong ảnh CCCD. Phương pháp WER (%) Thời gian xử lý EAST+CRNN+CTC+Attention 5.38 0.4239s Manual cropped + 4.28 0.0219s CRNN+CTC+Attention