intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân

Chia sẻ: Bobietbo | Ngày: | Loại File: PDF | Số trang:82

79
lượt xem
19
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài được thực hiện nhằm mục tiêu sau nghiên cứu tổng quan và đánh giá một số phương pháp tiêu biểu trong xử lý ảnh, nhận dạng, lọc nhiễu, lấy biên, trích xuất dữ liệu. Xây dựng thuật toán, mô phỏng một thuật toán để ứng dụng vào Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN XUÂN DƯƠNG HỆ THỐNG TRÍCH XUẤT TỰ ĐỘNG THÔNG TIN TỪ ẢNH CĂN CƯỚC CÔNG DÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 TP. HỒ CHÍ MINH THÁNG 9 NĂM 2019
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN XUÂN DƯƠNG HỆ THỐNG TRÍCH XUẤT TỰ ĐỘNG THÔNG TIN TỪ ẢNH CĂN CƯỚC CÔNG DÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 HƯỚNG DẪN KHOA HỌC: PGS .TS PHẠM THẾ BẢO TP. HỒ CHÍ MINH THÁNG 9 NĂM 2019 2
  3. LỜI CAM ĐOAN. Tôi Nguyễn Xuân Dương tác giả của luận văn “Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân”. Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn nghiên cứu khoa học của PGS. TS Phạm Thế Bảo. Các thông tin sử dụng trong luận văn, các trích dẫn tôi có ghi đầy đủ, rõ ràng trong các tài liệu tham khảo. Các số liệu, kết quả thực nghiệm nêu trong luận văn là trung thực và chưa từng được ai công bố trong thời gian gần đây. Học viên đã bảo vệ thành công luận văn ngày 04 /06/2019, tại Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số 116 /QĐ-ĐNT ngày 29/05/2019 của Hiệu trưởng Trường ĐH Ngoại ngữ-Tin học TP HCM, với sự tham gia của: Chủ tịch hội đồng: PGS.TS Trần Văn Lăng Phản biện 1: TS Nguyễn Đức Cường Phản biện 2: PGS.TS Nguyễn Thanh Bình Có thể tìm hiểu Luận văn tại Thư viện Trường ĐH Ngoại ngữ-Tin học TP HCM, hoặc trên cổng thông tin điện tử, website của đơn vị quản lý sau đại học của Trường. Tôi xin hoàn toàn chịu trách nhiệm với cam kết trên. Tác giả luận văn Nguyễn Xuân Dương 3
  4. LỜI CẢM ƠN Trước tiên tôi xin tỏ lòng tri ân, gởi lời cảm ơn sâu sắc đến PGS. TS Phạm Thế Bảo đã tận tình hướng dẫn, giúp đỡ tôi trong suốt thời gian học tập, nghiên cứu tài liệu, hướng dẫn thực nghiệm để tôi hoàn thành công trình nghiên cứu. Tôi xin cảm ơn các thầy cô giáo Khoa Công Nghệ Thông Tin, ban sau đại học trường Đại học Ngoại Ngữ Tin học TP Hồ Chí Minh đã trang bị cho tôi những kiến thức cần thiết và bổ ích, tạo mọi điều kiện giúp đỡ, hướng dẫn tôi trong trong thời gian học tập, nghiên cứu và làm luận văn tốt nghiệp. Do thời gian có hạn và kiến thức còn hạn chế nên luận văn không tránh khỏi những sai sót, tôi mong nhận được sự đóng góp bổ sung của quý thầy cô giáo và các bạn để công trình nghiên cứu của tôi sớm ứng dụng vào thực tế. Cuối cùng tôi xin chân thành cảm ơn tất cả các bạn đồng nghiệp đã đóng góp ý kiến và hỗ trợ tôi trong quá trình thực hiện thành luận văn này. TP Hồ Chí Minh, tháng 9 năm 2019 Nguyễn Xuân Dương 4
  5. DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Anh ngữ Việt ngữ CCCD Căn cước công dân CMND Chứng minh nhân dân ĐĐ Đặc điểm UBND Ủy ban nhân dân ANN Artificial Neural Network Mạng nơron nhân tạo ML Machine Learning Học máy AI Artificial Intelligence Trí tuệ nhân tạo RRN Recurrent Neural Network Mạng nơron tái phát DL Deep Learning Máy học chuyên sâu DNN Deep Neural Network Mạng Nơ ron chuyên sâu OCR Optical Character Recognition Nhận dạng ký tự MLP Multi Layer Perceptron Mạng truyền thẳng nhiều lớp RGB Red Green Blue Mô hình màu đỏ xanh lục NTSC National Teltevision System Hệ tiêu chuẩn video tương tự Committee 5
  6. DANH MỤC CÁC HÌNH ẢNH VÀ BẢNG BIỂU Hình 1.1. Mẫu “Căn cước công dân” .............................................................. 17 Hình 2.1. So sánh miền tầng số trước và sau khi lọc băng thông thấp ........... 25 Hình 2.2. Tầng số trước và sau khi sử dụng lọc băng thông cao .................... 26 Hình 2.3. Mô hình mạng nơron ....................................................................... 36 Hình 2.4. Đơn vị xử lý ..................................................................................... 37 Hình 2.5. Hàm đồng nhất ................................................................................ 38 Hình 2.6. Hàm bước nhị phân ......................................................................... 39 Hình 2.7. Hàm Sigmoid ................................................................................... 39 Hình 2.8. Hàm simoid lưỡng cực .................................................................... 40 Hình 2.9. Mạng nơron truyền thẳng nhiều lớp ................................................ 41 Hình 2.10. Mạng nơron hồi quy nhiều lớp ...................................................... 42 Hình 2.11. Học có giám sát ............................................................................. 43 Hình 2.12. Mạng nơron MPL tổng quát .......................................................... 47 Hình 3.1. Tiền xử lý ảnh mặt trước CCCD ..................................................... 50 Hình 3.2. Vùng thông tin cần tách ở mặt trước CCCD ................................... 53 Hình 3.3. Xác định vị trí thông tin mặt trước thẻ CCCD ................................ 56 Hình 3.4. Các vùng thông tin cần tách ở mặt sau ........................................... 61 Hình 3.5. Tiền xử lý mặt sau CCCD ............................................................... 62 Hình 3.6. Xác định vùng thông tin mặt sau ..................................................... 63 Hình 3.7. Quá trình tách ký tự ......................................................................... 66 Hình 3.8. Quá trình tìm giới hạn kí tự ............................................................. 67 Hình 3.9. Quá trình chia lưới kí tự .................................................................. 67 Hình 3.10. Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị .................. 68 Hình 4.1. Ảnh mặt trước CCCD bị nhòe ......................................................... 71 Hình 4.2. Ảnh mặt sau CCCD bị nhòe ............................................................ 72 Hình 4.3. Giao diện chương trình thực nghiệm............................................... 74 Hình 4.4. Trường hợp tách bị lỗi ..................................................................... 78 Hình 4.5. Thẻ mặt sau CCCD chụp không đúng chuẩn .................................. 79 6
  7. Sơ đồ 1.1. Sơ đồ xử lý hệ thống xử lý ............................................................. 22 Bảng 3.1 Đặc trưng các trường thông tin ở mặt trước CCCD ....................... 61 Bảng 4.1. Cấu hình máy tính ........................................................................... 73 Bảng 4.2. Kết quả trích vùng của ảnh CCCD ................................................. 75 Bảng 4.3. Kết quả thực nghiệm trên tập dữ liệu A1 ........................................ 76 Bảng 4.4. Kết quả thực nghiệm trên tập dữ liệu A2 ........................................ 77 7
  8. DANH MỤC CÁC THUẬT TOÁN Thuật toán 2.1. Lọc băng thông thấp Gauss .................................................... 24 Thuật toán 2.2. Lọc băng thông cao Gauss ..................................................... 26 Thuật toán 2.3. Xoay ảnh ................................................................................ 28 Thuật toán 2.4. Xác định góc nghiêng dựa vào biến đổi Hough ..................... 29 Thuật toán 2.5. Nhị phân hóa ảnh ................................................................... 30 Thuật toán 2.6. Phương pháp phân ngưỡng Niblack ....................................... 32 Thuật toán 2.7. Phương pháp phân ngưỡng Otsu ............................................ 33 Thuật toán 2.8. Học có giám sát ..................................................................... 44 Thuật toán 2.9. Thuận toán lan truyền ngược ................................................. 45 Thuật toán 2.10. Xây dựng mạng nơ ron......................................................... 47 Thuật toán 3.1. Nhị phân hóa ảnh CCCD ....................................................... 50 Thuật toán 3.2. Hiệu chỉnh độ nghiêng của ảnh tài liệu .................................. 51 Thuật toán 3.3. Phân đoạn vùng Số CCCD ..................................................... 54 Thuật toán 3.4. Xác định các vùng có thể là Trường Số CCCD ..................... 54 Thuật toán 3.5. Tìm và tách trường Số CCCD ................................................ 55 Thuật toán 3.6. Tách các trường thông tin mặt trước thẻ CCCD ................... 57 Thuật toán 3.7. Tách các ký tự thuộc mỗi dòng .............................................. 58 Thuật toán 3.8. Xoá phần tiêu đề..................................................................... 60 Thuật toán 3.9. Tách thông tin mặt sau ........................................................... 64 Thuật toán 3.10. Tách dòng: ............................................................................ 65 Thuật toán 3.11. Tách kí tự: ............................................................................ 65 Thuật toán 3.12. Tìm giới hạn kí tự................................................................. 66 Thuật toán 3.13. Ánh xạ vào ma trận .............................................................. 67 Thuật toán 3.14. Chuyển ma trận điểm ảnh sang ma trận giá trị ................... 68 Thuật toán 3.15. Huấn luyện mạng nơ ron ...................................................... 68 Thuật toán 3.16. Nhận dạng ảnh kí tự ............................................................. 69 8
  9. MỤC LỤC LỜI CAM ĐOAN. ............................................................................................. 3 LỜI CẢM ƠN.................................................................................................... 4 DANH MỤC CÁC TỪ VIẾT TẮT ................................................................... 5 DANH MỤC CÁC HÌNH ẢNH VÀ BẢNG BIỂU .......................................... 6 DANH MỤC CÁC THUẬT TOÁN ................................................................. 8 MỤC LỤC ......................................................................................................... 9 GIỚI THIỆU TỔNG QUAN ........................................................................... 12 1.1. Lý do chọn đề tài ...................................................................................... 12 1.2. Mục đích nghiên cứu của luận văn ........................................................... 13 1.2.1. Về khoa học ......................................................................................... 13 1.2.2. Về thực tiễn ......................................................................................... 13 1.3. Các phương pháp nghiên cứu ................................................................... 13 1.3.1. Phương pháp nghiên cứu lý thuyết ...................................................... 13 1.3.2. Phương pháp nghiên cứu thực nghiệm ................................................ 14 1.3.3. Đề tài nhằm thực hiện mục tiêu sau .................................................... 14 1.3.4. Đối tượng của luận văn ....................................................................... 14 CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ ẢNH THẺ CĂN CƯỚC CÔNG DÂN ........... 16 1.1. Giới thiệu thẻ căn cước công dân ............................................................. 16 1.2. Bài toán trích xuất thông tin tự động từ thẻ CCCD ................................. 18 1.3. Các hướng tiếp cận ................................................................................... 18 1.4. Các khó khăn và thách thức...................................................................... 19 1.5. Đề xuất hướng giải quyết bài toán ........................................................... 20 1.5.1. Tiền xử lý ảnh ..................................................................................... 21 1.5.2. Phân đoạn tách các vùng dữ liệu ......................................................... 21 1.5.3. Nhận dạng ký tự và xuất thông tin các vùng dữ liệu........................... 21 9
  10. 1.5.4. Phương pháp thực hiện ........................................................................ 21 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT............................................................... 22 2.1. Tiền xử lý.................................................................................................. 23 2.1.1. Bộ lọc thông thấp................................................................................. 23 2.1.2. Lọc băng thông cao ............................................................................. 25 2.1.3. Bộ lọc High boost ................................................................................ 27 2.2. Hiệu chỉnh độ nghiêng của văn bản. ........................................................ 27 2.2.1. Xác định góc nghiêng dựa trên biến đổi Hough.................................. 28 2.3. Nhị phân hóa ảnh ...................................................................................... 29 2.3.1. Phân loại các phương pháp xác định ngưỡng T .................................. 31 2.3.2. Phương pháp xác định ngưỡng T theo Niblack................................... 32 2.3.3. Phương pháp Otsu ............................................................................... 33 2.3.4. Nhận xét............................................................................................... 35 2.4. Tổng quan về mạng nơron ........................................................................ 35 2.4.1. Mạng nơron nhân tạo........................................................................... 35 2.4.2. Các đặc trưng cơ bản của mạng nơron ................................................ 35 2.4.3. Các thành phần cơ bản của mạng nơron nhân tạo ............................... 36 2.4.4. Các cấu trúc của mạng nơ ron ............................................................. 40 2.4.5. Mạng hồi quy ....................................................................................... 41 2.4.6. Huấn luyện mạng Nơron ..................................................................... 42 2.4.7. Các phương pháp học .......................................................................... 42 2.4.8. Mạng truyền thẳng ............................................................................... 46 2.4.9. Kết luận chương .................................................................................. 48 CHƯƠNG 3: XÂY DỰNG THUẬT TOÁN PHÂN TÍCH ............................ 49 THẺ CĂN CƯỚC CÔNG DÂN ..................................................................... 49 3.1. Tiền xử lý.................................................................................................. 49 3.1.1. Chuyển ảnh màu về ảnh đa cấp xám ................................................... 49 3.1.2. Làm trơn ảnh ....................................................................................... 50 3.1.3. Nhị phân hóa ảnh ................................................................................. 50 10
  11. 3.1.4. Căn chỉnh độ nghiêng .......................................................................... 51 3.2. Phân đoạn các vùng .................................................................................. 52 3.2.1 Phân tích các trường thông tin ở mặt trước .......................................... 52 3.2.2. Xác định các vùng có ký tự ở mặt trước ............................................ 52 3.2.3. Phân đoạn vùng Số CCCD .................................................................. 53 3.2.4. Tách các trường thông tin còn lại ........................................................ 56 3.2.5. Tìm mặt nạ dòng .................................................................................. 57 3.2.6. Tách các đối tượng thuộc mỗi dòng .................................................... 57 3.2.7. Xoá tiêu đề ........................................................................................... 59 3.2.8. Phục hồi các ký tự bị mất .................................................................... 60 3.2.9. Tách các trường thông tin ở mặt sau ................................................... 61 3.3. Huấn luyện mạng nơ ron phân tích ảnh để nhận dạng ký tự .................... 64 3.4. Kết luận chương ....................................................................................... 69 CHƯƠNG IV: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ................................ 70 4.1. Xây dựng bộ dữ liệu ................................................................................. 70 4.2. Môi trường thực nghiệm........................................................................... 73 4.3. Thời gian thực nghiệm ............................................................................. 75 4.4. Kết quả thực nghiệm................................................................................. 75 4.4.1. Kết quả trên tập dữ liệu A1 ................................................................. 76 4.4.2. Kết quả trên tập dữ liệu A2 ................................................................. 76 4.5. Đánh giá.................................................................................................... 77 4.5.1. Ưu điểm ............................................................................................... 77 4.5.2. Khuyết điểm ........................................................................................ 78 4.6. Hướng phát triển ....................................................................................... 79 4.7. Kết luận..................................................................................................... 80 11
  12. GIỚI THIỆU TỔNG QUAN 1.1. Lý do chọn đề tài Trong những thập niên vừa qua, cùng với sự phát triển của khoa học máy tính, thì xử lý ảnh, các kỹ thuật xử lý ảnh số trên máy tính là một lĩnh vực đang được các nhà khoa học quan tâm nghiên cứu và phát triển. Ở Việt Nam xử lý ảnh là một ngành khoa học rất phát triển trong những năm gần đây. Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống của con người. Nhận dạng ký tự được biết đến đầu thế kỷ XX và luôn được quan tâm phát triển cùng với tiến bộ của khoa học máy tính. Nhận dạng ký tự góp phần không nhỏ vào trong nhiều lĩnh vực của cuộc sống như: bảo mật và lưu trữ thông tin, ngân hàng… Trong xử lý ảnh thì nhận dạng mẫu là một ngành khoa học của học máy tinh, nhằm phân loại dữ liệu (các mẫu) vào các lớp. Một trong những ứng dụng phổ biến hiện nay của nhận dạng mẫu là phân tích và nhận dạng ảnh tài liệu. Đối với bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng. Ở Việt Nam loại thẻ chứa thông tin cá nhân là thẻ căn cước công dân (CCCD) 12 số được cấp lần đầu tiên váo ngày 1/1/ 2016. Theo nghị quyết số 112 của chính phủ ký ngày 30/10/2017 thì đến năm 2020 thẻ căn cước công dân sẽ hoàn toàn thay thế chứng minh nhân dân và các loại giấy tờ khác [1]. Trong một số giao dịch dân sự bắt buộc dùng giấy chứng minh nhân dân (CMND) và thẻ CCCD trong nhiều lĩnh vực bệnh viện, bảo hiểm, văn phòng công chứng, văn phòng ủy ban nhân dân các cấp, làm thủ tục hải quan, các giao dịch ở các ngân hàng, khách sạn…vv. Để sử dụng thông tin trên thẻ, ví dụ mở một tài khoảng ngân hàng, hay đăng ký một thuê bao internet, thuê bao di động thì nhân viên phải đọc và gõ thông tin trong CMND, hay CCCD vào hệ thống máy tính có các biểu mẫu. Điều này có thể gõ sai thông tin, thiếu thông tin, tốn thời gian xử lý, gây ra nhiều phiền phức cho những người làm các giao dịch đó, một 12
  13. số cơ quan sau khi nhập xong thông tin còn phải quét bằng máy quét hoặc photo một bản để lưu trữ lại, điều này tốn thời gian công sức xử lý, không gian lưu trữ giấy tờ. Cùng với quá trình tin học hóa, đơn giản các thủ tục hành chính, cần có một hệ thống tự động tách và nhận dạng các trường thông tin trên CCCD để điền vào các biểu mẫu định dạng trước. Do đó tôi xin đề xuất đề tài: “Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân”. Hệ thống được xây dựng có các chức năng tự động trích xuất thông tin từ ảnh thẻ CCCD, sau khi quét thẻ hệ thống tự động xuất ra tập tin dữ liệu, đầy đủ thông tin mặt trước và mặt sau thẻ CCCD với độ chính xác cao, thời gian xử lý rất nhanh. 1.2. Mục đích nghiên cứu của luận văn 1.2.1. Về khoa học + Xây dựng các thuật toán giải quyết bài toán trích xuất thông tin tự động từ thẻ CCCD. + Đóng góp hỗ trợ các ứng dụng khác. 1.2.2. Về thực tiễn + Trong lĩnh vực cải cách thủ tục hành chính, giảm thời gian, công sức, tiền bạc đặc biệt hiệu quả công việc nâng cao, xử lý, trích xuất dữ liệu, lưu trữ dữ liệu nhanh chóng chính xác trong nhiều lĩnh vực khác nhau. + Các lĩnh vực có thể áp dụng như: sân bay, nhà ga, bến tàu, khách sạn, ngân hàng, bảo hiểm, y tế, phòng công chứng, văn phòng UBND các cấp, các sở ban ngành…vv. + Đề tài đáp ứng được yêu cầu kỹ thuật công nghệ thông tin trong tự động hóa. 1.3. Các phương pháp nghiên cứu 1.3.1. Phương pháp nghiên cứu lý thuyết + Tổng hợp nghiên cứu các tài liệu về nâng cao chất lượng ảnh số, tập trung sâu vào các phương pháp, thuật toán nâng cao chất lượng ảnh tài liệu, tìm hiểu các kiến thức liên quan. + Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn. 13
  14. + Nghiên cứu các cách tiếp cận, các kỹ thuật, các phương pháp hiện tại đã được công bố của các tác giả trong và ngoài nước có liên quan đến lĩnh vực xử lý ảnh, nhận dạng mẫu, máy học chuyên sâu. + Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn. 1.3.2. Phương pháp nghiên cứu thực nghiệm + Sau khi nghiên cứu lý thuyết, phát biểu bài toán, đưa ra giải pháp xử lý, mô phỏng thử nghiệm chương trình trên ngôn ngữ lập trình python. + Tiến hành phân tích, xây dựng giải pháp xử lý ảnh, nhận dạng gồm có: Tiền xử lý, trích chọn đặc trưng, huấn luyện mô hình, hậu xử lý. + Xây dựng và kiểm thử việc đánh giá hiệu quả phương pháp nhận dạng bằng ngôn ngữ lập trình Python, kết hợp máy học chuyên sâu, mạng nơron nhân tạo. 1.3.3. Đề tài nhằm thực hiện mục tiêu sau + Nghiên cứu tổng quan và đánh giá một số phương pháp tiêu biểu trong xử lý ảnh, nhận dạng, lọc nhiễu, lấy biên, trích xuất dữ liệu. + Xây dựng thuật toán, mô phỏng một thuật toán để ứng dụng vào “Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân”. 1.3.4. Đối tượng của luận văn Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân. Luận văn sẽ khảo sát và đánh giá một số phương pháp thường dùng trong nâng cao chất lượng ảnh số, lựa chọn các phương pháp được cho là phù hợp nhất đối với việc nâng cao chất lượng ảnh tài liệu. Tập trung sâu vào cài đặt thử nghiệm một số phương pháp nhằm chứng minh tính đúng đắn và khả năng ứng dụng trong thực tế của hệ thống. Với những yêu cầu đã đặt ra ở trên, cấu trúc của luận văn sẽ bao gồm bốn chương với những nội dung sau đây: Chương 1: Giới thiệu tổng quan bài toán trích xuất thông tin tự động từ ảnh thẻ căn cước công dân. Trong chương này giới thiệu tổng quan về bài toán 14
  15. trích xuất thông tin từ ảnh căn cước công dân, các hướng tiếp cận, khó khăn và thách thức, đề xuất hướng giải quyết. Chương 2: Cơ sở lý thuyết. Tác giả sẽ nghiên cứu các cơ sở lý thuyết, các thuật toán ứng dụng trong xử lý ảnh, phương pháp Niblack, Otsu, mạng nơ ron nhân tạo, mạng nơ ron nhân tạo chuyên sâu...vv. Chương 3: Xây dựng thuật giải cho bài toán phân tích trích xuất trong tin tự động từ ảnh thẻ căn cước công dân. Chương này sẽ phân tích thẻ CCCD, quy trình hệ thống xử lý, tiền xử lý, phân đoạn ảnh, xác định vùng xử lý, xây dựng hệ thống nhận dạng xử lý, trích xuất trong tin tự động từ ảnh thẻ căn cước công dân. Chương 4: Kết quả nghiên cứu, thực nghiệm và hướng phát triển của đề tài. Trên cơ sở lý thuyết đã trình bày ở chương 1, 2 và 3 chúng tôi sẽ tiến hành xây dựng bộ dữ liệu, cài đặt chương trình, thử nghiệm hệ thống trích xuất thông tin tự động từ thẻ căn cước công dân và đánh giá kết quả và kết luận, định hướng phát triển của đề tài. 15
  16. CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ ẢNH THẺ CĂN CƯỚC CÔNG DÂN 1.1. Giới thiệu thẻ căn cước công dân Thẻ căn cước công dân (CCCD) là một loại giấy tờ tùy thân của công dân Việt Nam, được xác nhận bởi cơ quan nhà nước có thẩm quyền về lý lịch của người được cấp. CCCD được ban hành lần đầu tiên vào năm 1/1/2016 để thay thế cho giấy chứng minh nhân dân [1]. Thẻ Căn cước công dân hình chữ nhật, bốn góc được cắt tròn, chiều dài 85,6 mm, chiều rộng 53,98 mm, độ dày 0,76 mm. Mặt trước thẻ Căn cước công dân gồm các thông tin: Bên trái, từ trên xuống, hình Quốc huy nước Cộng hòa xã hội chủ nghĩa Việt Nam, đường kính 14 mm; ảnh chân dung của người được cấp thẻ Căn cước công dân cỡ 20 mm x 30 mm; có giá trị đến; Bên phải, từ trên xuống: CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM, Độc lập - Tự do - Hạnh phúc; dòng chữ “CĂN CƯỚC CÔNG DÂN”; số CCCD, Họ và tên; Ngày, tháng, năm sinh; Giới tính; Quốc tịch; Quê quán; Nơi thường trú, hình 1.1a. Mặt sau thẻ Căn cước công dân gồm các thông tin sau: Trên cùng là mã vạch hai chiều; Bên trái, có 2 ô: ô trên, vân tay ngón trỏ trái; ô dưới, vân tay ngón trỏ phải của người được cấp thẻ Căn cước công dân; Bên phải, từ trên xuống: đặc điểm nhân dạng của người được cấp thẻ; ngày, tháng, năm cấp thẻ Căn cước công dân; họ, chữ đệm và tên, chức danh, chữ ký của người có thẩm quyền cấp thẻ và dấu có hình Quốc huy của cơ quan cấp thẻ Căn cước công dân, hình 1.1b. (a) (b) 16
  17. Hình 1.1. Mẫu “Căn cước công dân” (a)Mặt trước CCCD; (b) Mặt sau CCCD Hai mặt của thẻ Căn cước công dân in hoa văn màu xanh nhạt. Nền mặt trước thẻ Căn cước công dân gồm: hình ảnh trống đồng, bản đồ Việt Nam, hoa sen và các hoa văn, các họa tiết trang trí. Nền mặt sau thẻ Căn cước công dân gồm các hoa văn được kết hợp với các họa tiết đường cong vắt chéo đan xen. Quốc huy và ảnh chân dung của công dân được in màu trực tiếp trên thẻ Căn cước công dân… Thẻ Căn cước công dân được sản xuất bằng chất liệu nhựa, ngoài cùng của hai mặt có phủ lớp màng nhựa mỏng trong suốt. Ngôn ngữ trên thẻ Căn cước công dân được quy định cụ thể là Việt ngữ có dấu. Ngôn ngữ khác trên thẻ Căn cước công dân được quy định cụ thể khi Việt Nam ký kết điều ước hoặc thỏa thuận quốc tế cho phép công dân nước ký kết được sử dụng thẻ Căn cước công dân thay cho việc sử dụng hộ chiếu trên lãnh thổ của nhau [2]. Thời hạn sử dụng của thẻ Căn cước công dân được tính theo độ tuổi đổi thẻ Căn cước công dân quy định tại Điều 21 Luật Căn cước công dân. Thông tư này có hiệu lực thi hành kể từ ngày 01 tháng 01 năm 2016 và thay thế Thông tư số 57/2013/TT-BCA ngày 13 tháng 11 năm 2013 của Bộ trưởng Bộ Công an quy định về mẫu Chứng minh nhân dân. Mẫu thẻ Căn cước công dân quy định tại thông tư này được áp dụng từ ngày 01 tháng 01 năm 2016. Địa phương chưa có điều kiện triển khai cấp, đổi, cấp lại thẻ Căn cước công dân theo mẫu quy định tại Thông tư này thì tiếp tục thực hiện theo Quyết định số 998/2001/QĐ- BCA(C11) ngày 10 tháng 10 năm 2001 của Bộ trưởng Bộ Công an về việc ban hành các biểu mẫu sử dụng trong công tác quản lý hành chính về trật tự xã hội để cấp, đổi, cấp lại Chứng minh nhân dân, chậm nhất đến ngày 01 tháng 01 năm 2020 phải thực hiện thống nhất theo mẫu quy định tại Thông tư này[3]. 17
  18. 1.2. Bài toán trích xuất thông tin tự động từ thẻ CCCD Trong rất nhiều giao dịch dân sự thực tế bắt buột phải cần đến thẻ CCCD, hoặc CMND. Khi làm thủ tục mở tài khoảng ngân hàng, các giao dịch ở bưu điện, các công ty viễn thông mobiphone, Vinaphone, Viettel, FPT, văn phòng ủy ban nhân dân các cấp,..vv. Khi khách hàng giao dịch thì nhân viên phải đọc và nhập thông tin vào máy tính với các biểu mẫu có trong máy tính. Việc nhập thông tin này vừa chậm vừa không chính xác, vì có thể đọc sai, gõ nhằm đẫn đến việc xử lý lâu, tốn thời gian công sức, gây phiền phức cho khách hàng. Sau khi nhập xong thông tin, nhân viên phải photo hoặc quét bằng máy quét thẻ CCCD để lưu trữ lại. Trong cuộc cách mạng công nghệ số, ứng dụng công nghệ thông tin trong chính phủ điện tử, nhằm giảm bớt các thủ tục hành chánh, đáp ứng yêu cầu cấp bách hiện nay, nên chúng tôi đề xuất xây dựng “hệ thống trích xuất thông tin tự động từ thẻ CCCD”. Dựa trên việc nhận dạng mẫu và phân tích xử lý ảnh kết hợp mạng nơ ron nhân tạo…vv. Hệ thống được xây dựng có các chức năng tự động trích xuất thông tin từ ảnh thẻ CCCD, sau khi quét thẻ hệ thống tự động xuất ra tập tin văn bản, thông tin hai mặt trước và mặt sau thẻ CCCD đầy đủ thông tin với độ chính xác cao, thời gian xử lý rất nhanh, bài toán trích xuất như sau. Dữ liệu đầu vào: Ảnh thẻ CCCD chụp hoặc quét trên máy quét hai mặt, mặt trước và mặt sau. Dữ liệu xuất ra: Tập tin ảnh và tập tin văn bản chứa dữ liệu trong CCCD. + Tập tin ảnh gồm: Ảnh chân dung, ngón trỏ phải, ngón trỏ trái. + Tập tin văn bản gồm có: Số CCCD, Họ và tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, đặc điểm nhân dạng của người được cấp thẻ ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn. 1.3. Các hướng tiếp cận Trên thế giới xử lý ảnh là một ngành phát triển rất mạnh và rất nhanh trong những thập niên vừa qua, Họ cũng đạt được nhiều thành tựu rất lớn giữa xử lý ảnh kết hợp với trí tuệ nhân tạo. Rất nhiều công trình nghiên cứu và ứng 18
  19. dụng trong thực tiễn mang lại rất nhiều lợi ích về khoa học và kinh tế như trong nhận diện hình ảnh, nhận diện khuông mặt, nhận diện ký tự quang học qua hệ thống máy học. Một số nước như ở Mỹ và một số nước ở châu Âu người ta đã nghiên cứu ứng dụng nhận dạng quét thông tin với hộ chiếu, làm thủ tục xuất nhập cảnh ở các sân bay quốc tế rất thuận tiện và nhanh chóng. Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí. Ở Việt Nam có tác giả Lê Đức Hiếu ở Đại học công nghệ Hà Nội cũng đã có nghiên cứu “ Ứng dụng một số kỹ thuật xử lý ảnh trong phân tích giấy chứng minh nhân dân’’ vào năm 2012.[5] Tác giả đã dựa trên các kỹ thuật phân tích xử lý ảnh, kết hợp với các thư viện mã nguồi mở Open CV để thực hiện và cũng đã đạt được một số kết quả nghiên cứu nhất định nhưng chưa tạo ra các ứng dụng trong thực tế. Từ đó dến hiện nay chưa ai nghiên cứu úng dụng phân tích trích xuất thông tin tự động đối với thẻ CCCD. 1.4. Các khó khăn và thách thức Thẻ Căn cước công dân được sản xuất bằng chất liệu nhựa, ngoài cùng của hai mặt có phủ lớp màng nhựa mỏng trong suốt. Như vậy cần tách chính xác các trường thông tin yêu cầu trước khi chuyển cho phần nhận dạng, tuy nhiên việc này gặp một số vấn đề khó khăn sau: + Các trường thông tin có thể bị lệch so với dòng chuẩn hoặc đè lên phần tiêu đề đã được in trước. + Nét chữ không đều nhau giữa các dòng trong CCCD, thậm chí là trong cùng một CCCD: có chỗ chữ quá đậm hoặc quá mờ. + CCCD có thể bị ố, mờ, gãy, cong, biến dạng do sừ dụng lâu ngày, bảo quản không tốt… + Ở mặt trước, trong một số trường hợp hoa văn nền khá rõ nét trong khi nét chữ lại quá mờ, khó có thể phân biệt đâu là nét chữ đâu là hoa văn nền. 19
  20. + Ở mặt sau, trong khá nhiều trường hợp ngày tháng năm cấp bị in lệch so với chuẩn, phần đặc điểm nhận dạng chữ thường rất nhỏ, chữ in dính liền hay thường bị in lem mực, rất khó đọc. + Ngôn ngữ trên thẻ Căn cước công dân được quy định cụ thể là Việt ngữ có dấu cũng là một khó khăn trong nhận dạng ký so với một số các ngôn ngữ không có dấu, ví dụ như Anh ngữ. Xử lý các thông tin trên thẻ CCCD có có một số khó khăn như: khi quét thẻ, hay chụp hình bằng máy ảnh, có thể chụp hay quét không chuẩn ảnh có thẻ bị mờ, bị nhòe, bị mất thông tin. Thẻ CCCD làm bằng nhựa nhưng sử dụng lâu không bảo quản cẩn thận có thể bị vênh, bị cong, bị gãy. Thông tin trên thẻ in có thể không chuẩn, in bị lệch, chữ in trên thẻ không đồng đều, có chỗ in chữ thường, có chỗ in chữ hoa, có chỗ chữ lớn, có chỗ chữ nhỏ, có chỗ màu đỏ, có chỗ màu đen, trên thẻ có vân in chìm, có chổ vân in nổi, thông tin cùng một vùng dữ liệu trên thẻ nhưng có thẻ in một dòng, có thẻ khác lại in hai dòng như quê quán và nơi cư trú thông tin của từng người dài ngắn khác nhau. Yêu cầu của bài toán: Từ ảnh CCCD màu được quét bằng máy quét với độ phân giải 1024 dpi, tách lấy các trường thông tin: Ảnh chân dung, Họ và tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, đặc điểm nhân dạng của người được cấp thẻ ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn ghi trên thẻ, ngón trỏ trái, ngón trỏ phải. Các trường thông tin này nằm trên cả hai mặt của CCCD, mà mỗi mặt lại có các đặc điểm khác nhau nên tôi đề xuất hai thuật toán khác nhau để tách các trường thông tin trên mỗi mặt. 1.5. Đề xuất hướng giải quyết bài toán Ảnh đầu vào thẻ CCCD thường có chất lượng rất khác nhau: có thể bị ố, bị lệch, nghiêng khi chụp. Mặt khác, hai mặt trước, sau có hoa văn nền khá rõ nét. Do đó, để đảm bảo cho việc tách các trường thông tin được chính xác (cũng như kết quả nhận dạng sau này). Ta cần áp dụng các kỹ thuật xử lý ảnh để nâng cao chất lượng ảnh đầu vào. Với các khó khăn trên chúng tôi đề xuất hướng giải quyết như sau, bài toán sẽ được chia ra các bài toán nhỏ để xử lý. 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2