Bài giảng Thư viện số - Quách Tuấn Ngọc, Đỗ Quang Vinh
lượt xem 15
download
Bài giảng "Thư viện số" do Quách Tuấn Ngọc, Đỗ Quang Vinh biên soạn đưa ra một số những nghiên cứu chi tiết về cấu tạo và phương thức hoạt động của thư viện số với kết cấu nội dung trình bày một mô hình hình thức cho thư viện số dựa vào đại số hiện đại, phân tích chi tiết các phương pháp chỉ mục tài liệu văn bản trong DL, phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ, phân tích chi tiết các giải thuật kinh điển. Mời các bạn tham khảo tài liệu.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Thư viện số - Quách Tuấn Ngọc, Đỗ Quang Vinh
- 1
- THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008 2
- Tính cấp thiết World Wide Web đã xâm nhập vào cuộc sống hàng ngày Giao diện cho Web tiến triển từ duyệt đến tìm kiếm DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới Tổng quan hoạt động nghiên cứu DL Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới Trọng tâm của các dự án DL Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin 3
- (tiếp) Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL Hoạt động nghiên cứu DL ở Mỹ Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế Dự án thư viện số DLI: Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU 4
- (tiếp) Dự án dịch vụ thông tin số của Đại học California ở Berkeley Dự án Alexandria của Đại học California ở Santa Barbara Dự án Interspace của Đại học Illinois ở Urbana- Champaign Dự án UMDL của Đại học Michigan Dự án InfoBus của Đại học Stanford Các dự án DL chủ yếu khác ở Mỹ: Thư viện quốc hội (Library of Congress) Dự án công nghệ thư viện số DLT của NASA Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 5
- (tiếp) Dự án thư viện số của IBM Dự án thư viện số California CDL Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency) Dự án MOA của hai Đại học Cornel và Michigan Dự án Open Book của Đại học Yale Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag Dự án TULIP của nhà xuất bản Elsevier Science Publisher 6
- (tiếp) Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand 7
- (tiếp) Việt Nam Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam 8
- (tiếp) Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin Hiện nay, một số phần mềm được cài đặt: Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia Hệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh 9
- I. TỔNG QUAN VỀ THƯ VIỆN SỐ 1. ĐỊNH NGHĨA Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu. Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai. 10
- (tiếp) Định nghĩa 1.4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống. Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì. Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng. LÝ DO CHÍNH XÂY DỰNG DL Thư viện số phân phát thông tin tốt hơn thư viện truyền thống 11
- (tiếp) LỢI ÍCH CỦA DL 1. Thư viện số mang thư viện đến người sử dụng 2. Máy tính được sử dụng để tìm kiếm và duyệt 3. Thông tin có thể được chia sẻ 4. Thông tin dễ dàng cập nhật hơn 5. Thông tin luôn sẵn có 6. Các dạng thông tin mới trở thành thực hiện được 7. Giá của DL 4 lĩnh vực kỹ thuật nổi bật đối với DL 1. Lưu trữ điện tử trở nên rẻ hơn giấy 2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3. Mạng tốc độ cao trở nên phổ biến 12
- (tiếp) NGHIÊN CỨU TIN HỌC TRONG DL 1. Mô hình đối tượng 2. Giao diện NSD 3. Chỉ mục và Tìm kiếm thông tin 4. Quản trị và bảo trì CSDL 5. Tính liên tác CHỈ MỤC & TÌM KIẾM THÔNG TIN 1. Siêu dữ liệu mô tả 2. Chỉ mục tự động 3. Xử lý ngôn ngữ tự nhiên 4. Tài liệu phi văn bản 13
- (tiếp) Hình - Máy tính trong thư viện số (W.Y.Arms) Kho lưu trữ NSD Hệ thống định Hệ thống tìm vị kiếm 14
- (tiếp) 2. Mô hình hình thức cho DL 1. Cơ sở toán học 2. Dòng Định nghĩa 1.14: Một dòng là một dãy có miền giá trị là một tập không rỗng. 3. Cấu trúc Định nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một dồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V ∪ E) → L 4. Không gian Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo 15
- (tiếp) 5. Kịch bản Định nghĩa 1.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1≤ k≤ n 6. Cộng đồng Định nghĩa 1.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x ... x cknj , 1 ≤ k1 < k2 < ... < knj ≤ n, định rõ các cộng đồng bị dính vào 16 quan hệ và i là một hoạt động mô tả tương tác
- (tiếp) 7. Định nghĩa hình thức thư viện số Định nghĩa 1.41: Một thư viện số là một bộ bốn (R, MC, DV, XH) trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng dồng NSD thư viện số. 17
- II. CHỈ MỤC TÀI LIỆU VĂN BẢN 2.1 MỞ ĐẦU Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số Bảng 2.1 - CSDL TREC Số tài liệu N 741856 Số thuật ngữ F 333338738 Số thuật ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 18
- (tiếp) 2.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống 19
- (tiếp) Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu TÀI LIỆU VĂN BẢN 1 Information retrieval is searching and indexing 2 Indexing is building an index 3 An inverted file is an index 4 Building an inverted file is indexing 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Module 8: Thư viện số và lưu trữ truy cập mở
25 p | 701 | 339
-
Bài giảng Hệ phần mềm thư viện số Greenstone - Quách Tuấn Ngọc, Đỗ Quang Vinh
58 p | 174 | 26
-
Bài giảng Phần mềm xây dựng bộ sưu tập cho thư viện số: Greenstone - ThS. Đỗ Văn Châu
22 p | 156 | 24
-
Bài giảng Thư viện số: Chương 1 - TS. Đỗ Quang Vinh
58 p | 158 | 21
-
Bài giảng Thư viện số - TS. Đỗ Quang Vinh
59 p | 120 | 15
-
Bài giảng Thư viện số: Chương 6 - TS. Đỗ Quang Vinh
99 p | 115 | 15
-
Bài giảng Thư viện số: Chương 4 - TS. Đỗ Quang Vinh
34 p | 143 | 13
-
Bài giảng Thư viện số: Thực hành Hệ phần mềm thư viện số Greenstone (Greenstone Digital Library Software) - TS. Đỗ Quang Vinh
100 p | 48 | 11
-
Bài giảng Thư viện số: Chương 3 - TS. Đỗ Quang Vinh
21 p | 119 | 11
-
Bài giảng Thư viện số: Chương 2 - TS. Đỗ Quang Vinh
10 p | 113 | 10
-
Bài giảng Thư viện số: Tìm kiếm thông tin - TS. Đỗ Quang Vinh
35 p | 30 | 9
-
Bài giảng Thư viện số: Chương 5 - TS. Đỗ Quang Vinh
132 p | 122 | 9
-
Bài giảng Thư viện số: Chỉ mục tài liệu văn bản - TS. Đỗ Quang Vinh
22 p | 25 | 7
-
Bài giảng Thư viện số: Tổng quan về thư viện số Digital Libraries - TS. Đỗ Quang Vinh
59 p | 34 | 7
-
Bài giảng Thư viện số: Các chuẩn sử dụng trong Digital Libraries - TS. Đỗ Quang Vinh
133 p | 37 | 6
-
Bài giảng Thư viện số: Mô hình hình thức cho thư viện số Digital Libraries - TS. Đỗ Quang Vinh
11 p | 33 | 5
-
Bài giảng Thư viện số (Digital Library)
15 p | 42 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn