intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khóa luận tốt nghiệp: Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

Chia sẻ: Tri Nhân | Ngày: | Loại File: PDF | Số trang:71

31
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm nhận dạng ABBYY; tìm hiểu những tính năng cơ bản của phần mềm; đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu, qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh nghiệm để triển khai phần mềm này.

Chủ đề:
Lưu

Nội dung Text: Khóa luận tốt nghiệp: Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

  1. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đã chiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thành thành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia. Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọi lĩnh vực của đời sống xã hội. Cuộc cách mạng khoa học công nghệ đã và đang diễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sự phát triển kinh tế, xã hội. Trong hoàn cảnh đó, hoạt động thư viện cũng đang dần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của công nghệ thông tin để trở thành các thư viện hiện đại. Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tin cần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin. Các phần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa các hoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụ người dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụ thư viện. Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phần mềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thư viện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằng quang học (Optical Character Recognition, OCR),…Về hệ quản trị thư viện tích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công ty Máy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân, COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển. Về phần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope… các phần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 1
  2. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ động hoá các thao tác trong dây truyền xử lý thông tin. Ngoài ra, để xây dựng thư viện điện tử, các thư viện cũng đang tích cực số hóa các loại tài liệu, trong đó phần mềm nhận dạng ký tự đóng một vai trò quan trọng. Hiện nay trên thế giới cũng như trong nước có nhiều phần mềm nhận dạng ký tự quang học (OCR) như VietDor, ABBYY, VnDocr… Mỗi phần mềm đều có những tính năng ưu việt riêng, phù hợp với mỗi điều kiện thực tế của mỗi thư viện. Hiện nay một số trung tâm thông tin thư viện đang sử dụng phần mềm nhận dạng ABBYY, đây là phần mềm đang được sử dụng rộng rãi trên toàn thế giới. Với những tính năng ưu việt của phần mềm này, một số thư viện ở Việt Nam đã lựa chọn và sử dụng để áp dụng cho thư viện mình và Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội là một trong những đơn vị đang áp dụng phần mềm này rất thành công. Để kịp thời phổ biến kinh nghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội” làm đề tài khóa luận tốt nghiệp. 2. Mục đích nghiên cứu - Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm nhận dạng ABBYY. - Tìm hiểu những tính năng cơ bản của phần mềm - Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu, qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh nghiệm để triển khai phần mềm này. 3. Đối tƣợng và phạm vi nghiên cứu. Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phần mềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 2
  3. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìm hiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội từ năm 2010 tới năm 2012. 4. Phƣơng pháp nghiên cứu Trong quá trình thực hiện đề tài đã sử dụng các phương pháp: * Phương pháp chung. Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thống các quan điểm của chủ nghĩa Mác –Lê nin và Tư tưởng Hồ Chí Minh. * Phương pháp cụ thể: + Phương pháp quan sát, khảo sát thực tế. + Phỏng vấn trực tiếp các cán bộ tại Thư viện. + Tổng hợp, thống kê số liệu. + Phân tích, tổng hợp các tài liệu có liên quan đến đề tài. + Phương pháp nghiên cứu tài liệu. + Phương pháp trao đổi, phỏng vấn chuyên gia. 5. Đóng góp của khóa luận. Khóa luận tuy mới chỉ dừng lại ở việc nghiên cứu tổng quan về phần mềm nhận dạng ABBYY và những ứng dụng của phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, song đề tài cũng đã giải quyết được những nhiệm vụ sau: - Tìm hiểu phần mềm nhận dạng ABBYY. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 3
  4. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Tìm hiểu các tính năng, tiện ích của phần mềm ABBYY trong việc nhận dạng chữ tiếng Việt tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. - Đánh giá quá trình ứng dụng phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội - Đưa ra một số kiến nghị và giải pháp nhằm hoàn thiện việc ứng dụng ABBYY tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. Tác giả khóa luận hy vọng những vấn đề nêu trên có thể giúp ích ít nhiều cho các thư viện đang có ý định sử dụng phần mềm nhận dạng ABBYY vào hoạt động số hóa của thư viện mình. 6. Cấu trúc của khóa luận Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phần nội dung, Kết luận, Danh mục tài liệu tham khảo. Trong đó phần nội dung được chia thành ba chương như sau: Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội. Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội. Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 4
  5. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ CHƢƠNG 1 SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG THÔNG TIN - THƢ VIỆN TẠI TRUNG TÂM THÔNG TIN - THƢ VIỆN ĐẠI HỌC QUỐC GIA HÀ NỘI 1.1. Giới thiệu khái quát về Trung tâm Thông tin - Thƣ viện Đại học Quốc Gia Hà Nội 1.1.1 Quá trình hình thành và phát triển của Trung tâm. Đại học Quốc gia Hà Nội (tên giao dịch tiếng Anh là Vietnam National University, Hanoi; viết tắt là VNU) được thành lập theo Nghị định số 97/ CP ngày 10 tháng 12 năm 1993 của Chính phủ trên cơ sở tổ chức, sắp xếp lại 3 trường đại học lớn ở Hà Nội là Đại học Tổng hợp Hà Nội, Đại học Sư phạm Hà Nội I và Đại học Sư phạm Ngoại ngữ Hà Nội. Đại học Quốc gia Hà Nội (ĐHQGHN) chính thức bước vào hoạt động theo Quy chế do Thủ tướng Chính phủ ban hành ngày 5 tháng 9 năm 1994. (Xem phụ lục: Hình 1) Truyền thống của ĐHQGHN gắn với lịch sử hình thành và phát triển của những trường đại học tiêu biểu ở Việt Nam trong suốt bề dày của thế kỷ XX, bắt đầu từ Trường đại học Đông Dương (16/5/1906) có cơ sở tại 19 Lê Thánh Tông, Hà Nội. Đây là trường đại học kiểu hiện đại đầu tiên ở Việt Nam (thời kỳ Pháp thuộc) được tổ chức theo mô hình trường đại học đa ngành, đa lĩnh vực. Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội được thành lập theo nghị quyết số 66/TCCP ngày 14/2/1997 của Giám đốc Đại học Quốc Gia Hà Nội trên cơ sở hợp nhất của 3 thư viện của các trường thành viên nói trên. Ngày 11/11/1999 Giám đốc Đại học Quốc Gia Hà Nội đã quyết định tách bộ phận Thư viện trường Đại học Sư phạm Hà Nội ra khỏi Trung tâm. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 5
  6. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giao dịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU) Vietnam Nationnal University Hanoi. Trung tâm là đơn vị hạch toán tài chính độc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN. Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội và các chi nhánh bao gồm: - Phòng phục vụ bạn đọc Thượng Đình: + Đại học Khoa học Xã hội và Nhân văn- 336 Nguyễn Trãi - Thanh Xuân- Hà Nội. + Tầng 7 nhà T5 - Đại học Khoa học Tự Nhiên, 334 Nguyễn Trãi - Thanh Xuân - Hà Nội. - Phòng phục vụ bạn đọc Mễ Trì, 182 Lương Thế Vinh - Thanh Xuân - Hà Nội. - Phòng phục vụ bạn đọc Đại học Ngoại ngữ, đường Phạm Văn Đồng - Cầu Giấy - Hà Nội. Sau hơn 10 năm xây dựng và phát triển, tới nay Trung tâm được trang bị tương đối đầy đủ nguồn lực thông tin, có phương tiện hiện đại đáp ứng nhu cầu của người dùng tin ở nhiều lĩnh vực khác nhau và trở thành trung tâm văn hóa, khoa học của toàn Đại Học Quốc Gia Hà Nội. 1.1.2 Chức năng, nhiệm vụ  Chức năng: Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm) có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lí của ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để góp phần thực hiện chính sách “Giáo dục là quốc sách hàng đầu”. Trung tâm là cơ sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 6
  7. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ học của đội ngũ giảng viên và sinh viện nói riêng, bồi dưỡng nhân tài cho quốc gia nói chung, phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng và quản lý của ĐHQGHN.  Nhiệm vụ: Trung tâm có nhiệm vụ nghiên cứu thu thập, xử lý, thông báo và cung cấp thông tin, tư liệu về khoa học giáo dục, ngoại ngữ và công nghệ phục vụ cán bộ và sinh viên ĐHQGHN cụ thể là tham mưu quyết định cho các cấp lãnh đạo về phương hướng tổ chức và hoạt động thông tin, tư liệu nhằm phục vụ cho hoạt động nghiên cứu khoa học, công tác nghiên cứu, giảng dạy và học tập của toàn thể cán bộ, giảng viên và sinh viên trong toàn ĐHQGHN. Bổ sung, trao đổi, phân tích, xử lý tài liệu và thông tin, tổ chức sắp xếp, lưu trữ, bảo quản kho tư liệu ĐHQGHN bao gồm tất cả các loại hình ấn phẩm và vật mang tin để đáp ứng nhu cầu khai thác, sử dụng thông tin của bạn đọc. Xây dựng hệ thống tra cứu tìm tin thích hợp, thiết lập mạng lưới truy nhập và tìm kiếm thông tin tự động hóa, tổ chức cho toàn thể cán bộ, giảng viên, sinh viên ĐHQGHN khai thác. Ngoài ra, Trung tâm còn là nơi thu nhận lưu chiểu những xuất bản phẩm do ĐHQGHN xuất bản, các luận án tiến sĩ, luận văn thạc sĩ được bảo vệ tại ĐHQGHN hoặc các công trình nghiên cứu khoa học của cán bộ, giảng viên, sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứu cấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vị thuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện. Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuất bản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 7
  8. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin, thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; tham gia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hội thông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầu mối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vào mạng quốc gia, khu vực và thế giới. Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạt động của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúng hướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN. 1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ  Cơ cấu tổ chức Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban chức năng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 8
  9. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Các phòng chức năng + Phòng hành chính - Tổng hợp - Tổ chức - Đối ngoại. + Phòng tài vụ. - Các phòng nghiệp vụ + Phòng bổ sung - trao đổi. + Phòng phân loại - biên mục. + Phòng thông tin thư mục nghiệp vụ. + Phòng máy tính và nghiệp vụ mạng. - Các phòng phục vụ bạn đọc + Phòng phục vụ bạn đọc chung : 144 Xuân Thủy – Cầu Giấy – Hà Nội + Phòng phục vụ bạn đọc Thượng Đình ( Gồm cả bộ phận phục vụ ở Mễ Trì và bộ phận phục vụ ở khoa Hóa, 19 Lê Thánh Tông- Hoàn Kiếm- Hà Nội). + Phòng phục vụ bạn đọc ở trường Đại học Ngoại Ngữ - Cầu Giấy - Hà Nội. Trung tâm được tổ chức theo quyết định số 947/TCCB của Giám đốc Đại học Quốc Gia Hà Nội (ĐHQGHN) ngày 21/04/1998. Nói chung cơ cấu tổ chức như trên là khá hợp lý , có sự thống nhất với nhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hành công tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất  Đội ngũ cán bộ Trung tâm Thông tin -Thư viện Đại học Quốc gia Hà Nội hiện có 130 cán bộ, trong đó: Về trình độ: - 01 tiến sĩ Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 9
  10. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - 09 thạc sĩ - 83 cử nhân (chiếm 40%), - 37 cao đẳng và trung cấp. Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình độ chuyên môn của từng người, trong đó: + Khối các phòng chức năng : 24 người. + Khối các phòng chuyên môn, nghiệp vụ : 28 người. + Khối các phòng phục vụ bạn đọc : 78 người. Hầu hết cán bộ nhân viên trong Trung tâm đều được đào tạo về chuyên môn nghiệp vụ, có lòng yêu ngành, yêu nghề, tâm huyết với công việc. Đội ngũ cán bộ của Trung tâm ngày càng được trẻ hóa nên năng động, sáng tạo, nhanh nhạy trong việc nắm bắt thông tin, có nhiều đóng góp tích cực giúp Trung tâm hoạt động ngày càng hiệu quả hơn. 1.1.4. Đặc điểm người dùng tin Người dùng tin là một trong bốn yếu tố cấu thành nên thư viện. Người dùng tin đóng vai trò quan trọng trong thư viện, họ là mục tiêu mà thư viện hướng tới. ĐHQGHN là đại học lớn với số lượng sinh viên đông đảo. Trình độ ở các cấp khác nhau bao gồm học sinh, sinh viên, học viên cao học, nghiên cứu sinh, giảng viên, cán bộ lãnh đạo quản lý trong ĐHQGHN. Qua quá trình khảo sát tại Trung tâm, tôi nhận thấy có thể chia người dùng tin của Trung tâm thành 3 nhóm chính sau đây: Nhóm 1: Cán bộ quản lý lãnh đạo. Nhóm 2: Giảng viên, cán bộ nghiên cứu. Nhóm 3: Nghiên cứu sinh, học viên cao học, sinh viên và học sinh. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 10
  11. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Nhóm cán bộ quản lý lãnh đạo: chiếm số lượng ít song lại là nhóm người dùng tin rất quan trọng. Họ là những người có trí tuệ và quyết định của họ đưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa ra những quyết định chính xác, kịp thời. - Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm tỉ lệ khá cao trong thư viện. Họ là những người có trình độ học vấn cao và nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loại hình tài liệu cả tài liệu truyền thống và tài liệu số. Nhu cầu dùng tin của giảng viên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về một ngành, lĩnh vực mà họ quan tâm. - Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện. Nhu cầu tin của họ rất đa dạng, phong phú. Họ cần nhiều nguồn tài liệu như giáo trình, sách tham khảo, luận văn, luận án... bên cạnh đó là các tài liệu ngoại văn, tài liệu số... 1.1.5. Vốn tài liệu Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xây dựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứng được nhu cầu tin của bạn đọc. Trung tâm rất quan tâm đầu tư phát triển vốn tài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồn lực thông tin điện tử (CD – ROM, Video, Casset…). Hiện nay, vốn tài liệu của Trung tâm bao gồm: Tài liệu trên vật mang tin truyền thống: + Sách: 1160 tên sách giáo trình với 180.500 bản Sách tham khảo: 100.768 tên tài liệu (250.345 bản) + Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt, tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 11
  12. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ + 7020 luận án, luận văn: + 2000 thác bản văn bia. Tài liệu điện tử. Trung tâm hiện có một số lượng khá lớn tài liệu điện tử trên CD – ROM, băng Video, casset…, một số giáo trình điện tử, 5 CSDL . Trung tâm đã số hóa một phần trong số tài liệu truyền thống, cụ thể như sau: - Luận văn: 516 cuốn (85077 trang). - Sách giáo trình của các lớp nhiệm vụ chiến lược: 120 cuốn (110000 trang). - Kỷ yếu Đại học Quốc gia: 50 cuốn. - Sách tham khảo: 28 cuốn. - Luận văn thạc sĩ chưa có file mềm: 800 cuốn (12000 trang). Trong năm 2011, đã có 12.000 bản luận án, luận văn, đề tài nghiên cứu khoa học, 3000 kỷ yếu của ĐHQGHN dưới dạng file điện tử. Trung tâm đang làm 10486 file tài liệu tham khảo richfile, 2514 file dạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQG HN đưa lên trang web Trung tâm đang thực hiện dự án Ebook đại học, số hóa 50000 tên sách, dự kiến thực hiện trong 3 năm từ 2012 đến 2014. Cơ sở dữ liệu trên CD-ROM (nguồn tin offline) 1.1.6 Cơ sở vật chất:  Cơ sở hạ tầng : Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG, với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại. Trung tâm có tổng diện tích sử dụng là : 4.800m2. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 12
  13. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2. Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2 Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân, Hà Nội: 200m2. Phòng phục vụ bạn đọc Ngoại Ngữ: 530m2. Phòng phục vụ bạn đọc Mễ Trì: 460m2. Phòng mượn giáo trình khoa Hóa: 19 Lê Thánh Tông: 60m2  Cơ sở vật chất kĩ thuật : Mạng LAN hoàn chỉnh tại trụ sở chính và khu vực Thượng Đình, Ngoại ngữ, Mễ Trì được kết nối Intranet ĐHQGHN và kết nối Internet. Trung tâm được đầu tư nâng cấp hệ thống trang thiết bị bao gồm : 10 máy chủ, 5 thống mạng cục bộ, 300 máy trạm, 100 máy truy cập Internet và 150 máy phục vụ nhân viên, 20 máy in, máy đọc đĩa laze. Thư viện quang gồm 76 giá đĩa (mỗi đĩa chứa được 9,1GB thông tin). Mạng LAN hoàn chỉnh tại trụ sở chính và các khu vực Thượng Đình, Ngoại Ngữ, Mễ Trì được kết nối Intranet ĐHQGHN. 1.2. Số hóa tài liệu với hoạt động thông tin thƣ viện tại Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội. 1.2.1. Một số khái niệm. + Tài liệu (Document) trong các thư viện và cơ quan thông tin được hiểu là “Vật mang tin”(Information medium), trên đó ghi cố định thông tin và được xem như một đối tượng xử lý trong quá trình xử lý thông tin và tư liệu. + Số hóa (Digitalize): Theo khái niệm được dùng trong công nghệ thông tin thì số hóa là việc biến đổi các loại hình thông tin sang thông tin số (các bit thông tin dữ liệu). Các loại hình tài liệu trên các vật mang truyền thống (giấy, Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 13
  14. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ ảnh, phim…) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành và phần mềm ứng dụng sẽ được chuyển thành các bit mang thông tin hay nói khác đi là chuyển thành dữ liệu điện tử. Dữ liệu này có thể được xử lý, lưu trữ trong máy tính điện tử, truyền trên mạng Intenet, tạo nên những cơ sở dữ liệu, dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm thức một cách thuận tiện nhất. Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh,… sử dụng trên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là dữ liệu số. Quá trình chuyển các dạng tài liệu trên vật mang tin truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết được gọi là số hoá tài liệu. Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trên giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang đóng một vai trò then chốt của dây chuyền số hóa tài liệu. + Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical Character Recognition, viết tắt là OCR). Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạng văn bản (file text). Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 14
  15. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Để nhận dạng ký tự, đầu tiên hệ thống nhận dạng được yêu cầu phải làm quen với các mẫu của các ký tự cụ thể, sau đó hệ thống sẽ đọc, nhận dạng và dịch các ký tự sang ký tự trong ngôn ngữ tương ứng. Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các hàng, cột, bảng biểu, các thành phần không phải là văn bản trong tài liệu. Nhận dạng ký tự bằng quang học thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến. Hiện nay, có nhiều phầm mềm nhận dạng ký tự quang học trong đó một số phần mềm đang được dùng nhiều như OmniPage - một ứng dụng đi kèm với dòng máy Kodak Scan giúp nhận dạng văn bản sau khi quét hay phần mềm ABBYY Recognition Server - là một phần mềm ứng dụng công nghệ nhận dạng ký tự (OCR) nổi tiếng nhất hiện nay. Các chương trình hỗ trợ nhận dạng ký tự quang học có thể nhận dạng ký tự với tỷ lệ chính xác tới trên 99% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan. Đối với văn bản tiếng Việt có nhiều dấu nên tỷ lệ phần trăm nhận dạng chính xác không cao so với các văn bản trên các ngôn ngữ khác. Việc nhận dạng văn bản tiếng Việt là một vấn đề khó bởi tiếng Việt có nhiều dấu. Từ lâu, các chuyên gia Việt Nam đã bỏ nhiều công sức đề nghiên cứu xây dựng một phần mềm nhận dạng ký tự văn bản tiếng Việt. Hiện nay, một số chương trình nhận dạng văn bản tiếng Việt đã ra đời như phần mềm có tên là VnDOCR do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công nghệ Thông tin nghiên cứu và phát triển. Phần mềm nhận dạng chữ Việt VnDOCR phiên bản 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 15
  16. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu. Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho các dạng ảnh TIFF, JPEG, GIF, PNG, và BMP. Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển và đã được thương mại hóa còn có một số phần mềm nhận dạng của nước ngoài, có thể dùng miễn phí như sau: - TopOCR: Phần mềm TopOCR sử dụng những công nghệ mới nhất, mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết quả tốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận dạng kí tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên Windows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời. SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng. Khi dùng phần mềm này ta có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác. Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới. Có thể nói SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự quang học thay cho việc đánh máy nhàm chán. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 16
  17. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Tuy nhiên các chương trình nói trên vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình, đối với các văn bản viết tay thì hầu như các phần mềm hiện tại không thể nhận dạng được. Gần đây, ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt và vào tháng 4 năm 2009, công ty này đã cho ra đời phần mềm ABBYY Recognition Server, có độ chính xác trong việc nhận dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, ... Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới. Chất lượng nhận dạng của các phần mềm một phần phụ thuộc vào công nghệ mà phần mềm đó được xây dựng nhưng không phải một phần mềm tốt là đủ để thực hiện công việc này mà chất lượng nhận dạng còn phụ thuộc vào chất lượng ảnh cần nhận dạng. Điều quan trọng nhất là tài liệu cần nhận dạng hay ảnh quét phải có chất lượng đủ tốt, khoảng 200dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi hỏi phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất. 1.2.2. Vai trò của số hóa tài liệu trong hoạt động của Trung tâm Thông tin thư viện Đại học Quốc Gia Hà Nội Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai. Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 17
  18. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ như Google. Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quan trọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là những văn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao. Điều này dẫn đến một hệ quả tất yếu: số hóa nền tri thức “giấy in”. Nhu cầu khai thác thông tin trên văn bản giấy bằng các hệ thống phần mềm là một thực tế, đòi hỏi phải có giải pháp lưu trữ hiệu quả. Người ta gọi các hệ thống chuyển đổi thông tin từ dạng giấy sang dạng số là các hệ thống số hóa. Sau khi được số hóa, các thông tin trên tài liệu trở nên hiện hữu bởi các hệ thống khai thác thông tin và sẵn sàng để phục vụ các nhân viên của tổ chức. Hãy tưởng tường rằng phải mất bao nhiêu giấy tờ và không gian để lưu trữ kho kiến thức khổng lồ của nhân loại ngày một nhiều; hơn nữa việc bảo quản và phạm vi sử dụng bị hạn chế, do vậy bắt buộc chúng ta phải nghĩ đến giải pháp số hóa dữ liệu. Việc lưu trữ nguồn tài liệu theo phương pháp thủ công truyền thống ngày nay đã nảy sinh nhiều bất cập như khó khai thác, tìm kiếm thông tin, thêm vào đó các yếu tố như cơ sở vật chất không gian có hạn và sự tác động của các nhân tố môi trường làm cho tài liệu dễ bị hư hỏng, mất mát. Do vậy, công tác số hóa là vô cùng cần thiết để lưu trữ, bảo quản lâu dài cũng như thuận tiện cho việc khai thác và truy nhập thông tin. Số hóa tài liệu giúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng hơn cũng như linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau và giảm được không gian lưu trữ cũng như công tác quản lý. Trung tâm có vốn tài liệu lớn, đa dạng, số lượng tài liệu ngày càng được bổ sung nhiều từ nguồn bổ sung định kỳ và nguồn tài liệu nội sinh. Trong khi đó diện tích kho để tài liệu không tăng thêm, do vậy không thể đáp ứng được sự gia tăng của vốn tài liệu. Điều này thực sự đặt ra rất nhiều khó khăn cho công tác bảo quản trong một tương lai không xa. Vì vậy số hóa tài liệu là việc Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 18
  19. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệm diện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốt hơn tránh được sự hủy hoại của môi trường và sự tác động của con người. ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượng cao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoa học đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏi Trung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất cả các ngành, chuyên ngành đào tạo với chất lượng cao. Theo GS.TS. Nguyễn Hữu Đức, Phó Giám đốc ĐHQGHN cho biế t , trường đang th ực hiện Đề án 16+23 nhằ m xây d ựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạo SĐH đạt trình độ quốc tế vào năm 2012. Theo học các chương trình này, sinh viên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do các giáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, tham gia nghiên cứu tại các phòng thí nghiệm hiện đại. Mục tiêu của nhà trường là tập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượng cao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo tài năng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và nhiều chương trình đào tạo đặc biệt khác. Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển kho tài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cách xây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảng điện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa các luận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tài nghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với các Trung tâm Thông tin-thư viện lớn trong nước và quốc tế, các trung tâm học liệu của cả nước để khai thác tối đa các nguồn lực thông tin đã được đầu tư, Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 19
  20. Khóa luận tốt nghiệp Nguyễn Thị Thuỷ tránh tình trạng lãng phí, đồng thời làm giàu thêm kho tài nguyên tri thức của ĐHQGHN. Công tác số hóa tài liệu càng trở nên cấp thiết hơn nữa khi ĐHQGHN chuyển từ đào tạo niên chế sang đào tạo tín chỉ. Phương thức đào tạo tín chỉ lấy sinh viên làm trung tâm, theo phương thức này, người học phải có khả năng tự học, tự tìm kiếm nguồn tài liệu dưới hướng dẫn của giảng viên để phục vụ cho việc học tập. Với một đội ngũ cán bộ giảng viên hàng nghìn người, số sinh viên, nghiên cứu sinh đông tới hàng chục nghìn người, trong khi nguồn thông tin, tài liệu của Trung tâm còn khá hạn chế thì việc số hóa tài liệu là con đường tất yếu giúp Trung tâm có thể nhanh chóng thỏa mãn nhu cầu tin của người dùng. Trong khi đó ĐHQGHN là cơ quan có nhiều đơn vị, trường thành viên nằm phân tán. Vì vậy nguồn tài liệu phân tán ở nhiều địa điểm khác nhau. Số hóa tài liệu sẽ làm giảm công sức, chi phí của sinh viên trong trường tìm tài liệu học tập và giúp sinh viên có thể sử dụng thông tin nhanh chóng, đầy đủ. Hiện tại tất cả các nguồn tài liệu của các thư viện nói chung và tại Trung tâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khí hậu, môi trường, của con người tác động vào. Vì vậy, việc số hóa tài liệu không những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện tích kho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ ở nơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được. Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thử nghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác số hóa tài liệu từ năm 2009. Trung tâm là một trong những thư viện đi đầu trong công tác số hóa tài liệu tại Việt Nam hiện nay. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2