TỔNG CỤC THỐNG KÊ<br />
<br />
BÁO CÁO TỔNG HỢP<br />
KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC<br />
<br />
NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009<br />
<br />
Đơn vị chủ trì: Trung tâm Tin học Thống kê Chủ nhiệm: TS. Thiều Văn Tiến Thư ký: CN. Nguyễn Thị Huyền Thanh<br />
<br />
7873<br />
21/4/2010 HÀ NỘI, NĂM 2008<br />
<br />
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009<br />
<br />
LỜI NÓI ĐẦU Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công nghệ nhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệ nhận dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v.. Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông minh trong các điều tra để chuẩn bị cho việc áp dụng công nghệ này trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết. Những kinh nghiệm có được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng. Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong xử lý số liệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08 nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử nghiệm của Tổng điều tra dân số và nhà ở năm 2009. Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu khi áp dụng công nghệ quét, nhận dạng trong xử lý điều tra; Phần IV. Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở. Trên cơ sở những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR. -1-<br />
<br />
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009<br />
<br />
Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo từng phiếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử lý tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp hoặc cơ sở dữ liệu, nơi lưu giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử dụng sau này do sự đơn giản, chi phí đầu tư thấp. Tuy nhiên, nếu áp dụng phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác chất lượng thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin. Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính có thể tính toán được. Hiện nay công nghệ này đã được áp dụng ở nhiều nước trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào... đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê. Việt Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra. Tuy nhiên, do những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao... nên Tổng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009. Trong thời gian qua, với sự giúp đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứu, thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài. Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và Vụ thống kê Dân số và Lao động. Danh sách những người thực hiện như sau: 1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài 2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê, thư ký đề tài 3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê 4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê 5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao động -2-<br />
<br />
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009<br />
<br />
6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao động 13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê<br />
<br />
-3-<br />
<br />
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009<br />
<br />
PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC 1. Công nghệ quét, nhận dạng Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition). 1.1. Công nghệ đọc đánh dấu quang học (OMR) Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra. Đây là một bước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v. Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đường cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ viết tay và chữ in. Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR và OCR. 1.2. Công nghệ nhận dạng ký tự quang học (OCR) Công nghệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có thể nhận dạng ký tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể nhận dạng được chữ viết tay. Đối với chữ in, nó cũng chỉ có thể nhận dạng một số loại fonts chuẩn như Times Roman và Arial<br />
<br />
-4-<br />
<br />