intTypePromotion=1

Giáo trình Hệ thống tìm tin: Phần 1 - PGS.TS. Đoàn Phan Tân

Chia sẻ: Le Na | Ngày: | Loại File: PDF | Số trang:103

0
75
lượt xem
17
download

Giáo trình Hệ thống tìm tin: Phần 1 - PGS.TS. Đoàn Phan Tân

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phần 1 giáo trình "Hệ thống tìm tin" gồm nội dung 4 chương đầu tài liệu. Nội dung phần này trình bày tổng quan về hệ thống tìm tin, xử lý công cụ ngữ nghĩa trong hệ thống tìm tin, tổ chức thông tin trong hệ thống tìm tin, thiết kế hệ thống tìm tin. Đây là giáo trình dành cho sinh viên ngành Thông tin - Thư viện.

Chủ đề:
Lưu

Nội dung Text: Giáo trình Hệ thống tìm tin: Phần 1 - PGS.TS. Đoàn Phan Tân

  1. PGS.TS ĐOÀN PHAN TÂN ------------ HỆ THỐNG TÌM TIN NHÀ XUẤT THÀNH PHÓ HỒ CHÍ MINH 2010
  2. LỜI NÓI ĐẦƯ Giáo trình “Hệ thống tìm tin” được biên soạn nhằm cung cấp ihừng kiến Ihức cơ bàn về hệ thống lìm tin cho sinh viên chuyên igành thông tin - Ihư viện. Nội duno giáo trình bao gồm bảy chương như sau: Chương 1: Tống quan về hệ ihống tìm tin; Chi*one Hệ thốiì 2 công Ci \í: ]ý ngC' nghĩa ;rong các hệ thống lìm tin; Chương 3: Tồ chức thô ns tin trong hệ thống tìm tin; Chương 4; Thiết kế hệ thống tìm tin; Chương 5: Hệ thốne tìm tin thủ công; Chương 6: Hệ Ihổng lìm tin tự động hóa; Chương 7: Đánh 2 Ìá hiệu quá hoạt động của hệ thống tìm tin. Giáo trình này được biên soạn lần đầu nên không tránh khỏi hừng Ihiếu sót. Rất mong nhận được ý kiến đóng góp của các ồng nghiệp và bạn đọc đổ giáo trình được hoàn thiện hơn irong hững lần tái bản. Xin chân thành cảm ơn các đồng nghiệp ờ khoa T h ư viện - 'hông lin học, T m ờ n g Đại học Khoa học xã hội và Nhân văn - )HQG TP. HỒ Chí Minh, PGS.TS. Đoàn Phan Tân và ThS. VTnh )uốc Báo đã nhiệt lình giúp đỡ và có nhiều ý kiến đóng góp cho l giíi IC iro n g q u á Irình biên soạn íỉìáo trình. 77’. ỉỉ ồ C h í Mình, ihúng 12 năm 2009 * - - * '1 ác gia 3
  3. BẢNG CÁC TỪ VIẾT TẮT AACR Q uy tăc biên mục Anh - M ỳ (Anglo - American Cata oguing Rule) CSDL C ơ sỡ dừ liệu CQTT C ơ quan Ihông tin DDC Khung phân loại thập phân Devvey (Dewey Decimal Classification) DC Yếu tố siêu dừ !iệu côt lõi Dub in (Dub in Core) HTTT Hệ thống tìm lin H T T TTĐ H Hệ thống tìm tin tự động hóa LCSH B ảng đề mục chủ đề của T h ư viện Quốc hội Mỹ (Library o f Congress Subject Headings) MARC Biên mục đọc máy (Machine Readab e Cataloging) MLCC M ục ục chừ cái M L PL vlục lục phân loại NNTT '^gôn ng ừ tìm tin O PA C M ục ục công cộng truy cập tiTỊC tuyến (On ine Pub ic Access Calalog) TĐTC T ừ điển từ chuẩn 5
  4. Chương 1 TỔNG QUAN VỀ HỆ T H ốN G TÌM TIN 1.1. Tìm tin 1.1.1. K hái niêm tìm tin Khái niệm t'ip tin được nhiều tác giả đề cận đến trong nhiều tài liệu về các lĩnh \ ự c khác nhau nh ư thông tin học, thư viện học, khoa học m áy tín h ... Sau đây là mộí sổ định nghĩa về tìm tin. T h e o TC V N 5453-1991, tìm tin là quá trình lựa chọn và đưa ra từ m ột tập hợp tài liệu hay mảng tin nào đó nhừng tài liệu, thông tin thích hợp với nội dung yêu cầu tin. [8 C ác tác giá cuổn “C ơ sớ thông tin học” của Viện Thông tin VINITI đưa ra định nghĩa ‘T ì m tin là một tập hợp các công đoạn được thực hiện với mục đích tìm ra nhừng tài liệu có chứa thông tin nhất định (sau đó cung cấp chính các tài iiệu đó hoặc các bản sao cùa chúng) hoặc với mục đích cung cấp các số liệu cụ thể đề trá lời các câu hòi được định ti*irớc”. [24 Theo C.T. Meadow, các thuật ngữ tìm tài Hệiỉ, tìm dừ kiện, chọỉì lọc d ừ liệu và ĩìw tin được sử dụng để chỉ quá irình tìm các tài liệu đáp ứng yêu cầu lin (tìm tài liệu) hoặc lìm thông lin trực tiếp (ba dạng tìm sau cùng). Vì vậy, “T im Ún là quá trình tìm kiếm trong một mảng tin nào đó những tài liệu chứa thông lin và việc tìm kiếm này không phụ thuộc vào bản chất, loại thông tin cần lìm và phương thức sử dụng thông lin đó ” . [22 7
  5. Theo B .c . Vickery, tìm tin là quá trình lựa chọn ihông lin từ một mảng lin. [31 ''ỉhừng định nghĩa Irên cho Ihấy mặc dù cách diền đại khúc nhau nhưng có sự thống nhất tương đối giữa các tác giả về ý nghĩa của ihưật ngừ tìm tin. Như vậy, tìm tin là một thuật ngữ chuns được sử dụng để phản ánh quá trình tìm kiếm tài liệu hoặc thông tin cần thiếl trong một mảng tin nào đó. Việc tìm kiểm tài liệu hoặc thông tin cần thiết được Ihực hiện một cách chọn lọc và thường đòi hòi nhiều công sức, thời gian và chi phí. T hư viện là một ví dụ điển hình về một tồ chức chuyên phục vụ cho việc tìm kicm thông tin một cách chọn lọc. Một neười dủng tin đến thư viện không pnài để đọc toàn bộ tài liệu co irong thư viện mà đề tìm tài liệu hoặc thông tin một cách chọn lọc nhằm thỏa mãn các nhu cầu tin của mình. Phương pháp hiệu quả nhất để tìm tài liệu hoặc thông tin,cần thiết trong một ihư viện bất kỳ là đọc q ua từng tài liệu của thư viện này. Tuy n h iên , trong thực tế không thề áp dụng phương pháp này vì số lượng lài liệu trong các thư viện thường rất lớn nên việc đọc tất cả lài liệu để chọn ra nhừng tài liệu cần Ihiếí là không khả thi. Vì vậy, người ta sừ dụng một phưưng pháp tìm tin khác, đó là tìm tin theo các đặc tính nội dung ’ngắn gọn hoặc theo các đặc tính hình thức cúa tài liệu. Có thể xem tìm tin như một quá irình truyền thông mội cách gián liếp giữa các tác giả hoặc những người tạo lập các biểu ghi với nhĩrng người sử dụng thông tin. Các neôn n ^ừ và các kênh của hộ thống truyền thông này khác với các hệ thống truyền ihông khác n hư truyền thông đại chúng hoặc truyền thông tiỊTc tiếp. Các ngôn n gữ được sử dụng trong hệ thống tmyền thông này có Ihể là các 8
  6. ngôn ng ừ tìm tin và/hoặc ngôn ngữ tự nhiên. Còn các kênh truyền thông có thể là các công cụ tìm tin như hệ thổng mục lục, bảng tra, cơ sờ dữ liệu... Nói cách khác, tìm tin ]à một quá trình tương tác giừa người sừ dụng và các màng tin thông qua các công cụ tìm tin khác nhau. 1.1.2. Q uá trình tìm tin Tìm tin là một quá trình c a bản của con người và nó liên quan mậ^ ihiét vói V’ệc h ọ c ^ập v à giả’ quyết vấn đề. Quá trình tìm tin được bắt đầu với nhu cầu tin của người sử dụng. Để đạt được mục tiêu n h ư giải quyết một vấn đề, trả lời một câu hòi cụ thề hoặc để thỏa mãn lính ham hiểu biết, người dùng tin có thể cần thông tin nhanh và ngắn gọn hoặc thông tin đẩy đủ và chi tiết. Trong hình ỉ . l . là sơ đồ của quá trình tìm tin. M ặc dù trông có vẻ rấl đơn giản nhưng về thực chất, quá trình lìm tin bao gồm nhiều qui trình phức tạp. Một sổ qui trình là qui trình công nghệ và liên quan đến hệ thống tìm tin, giao diện người sử d ụ ng ... Các qui trình khác liên quan đến bán chất và các đặc trưng của nội dung Ihông tin và người dùng tin cụ thể. Thời gian thực hiện và mức độ phức tạp của quá trình tìm tin phụ thuộc vào khà năng nhận Ihức, trình độ và nhu cầu tin của người dùng tin. Q uá trình tìm tin là một quá trình tương tác phụ thuộc vào khá nàng cúa người dùng tin, sự phản hồi từ hệ thống tìm tin và các quyết định c ủ a người dùng tin về các hành động tiếp theo dựa trên sự phán hồi này. Các chi úél về nhu cầu tin ban đầu của người sử dụng có thố thay đổi. Các nhu cầu tin ban đầu thường được điều chính sau khi người tìm tin biết nhiều hcm về vấn đề đang lìm kiếm thông qua sự tương lác với các hệ thống tìm tin. Vì vậy, quá trình
  7. tìm tin tiếp lục đến khi người dùng lin có được thông lin thỏa mãn nhu cầu tin đã được điều chỉnh của mình. C ôn g nghệ thích hợp, chẳng hạn hệ Ihống lìm tin và giao diện người sử dụn g thích hợp, có thể thúc đẩy quá trình nhưng đó không phải là vấn đề cơ bàn nhất vì quá trình tìm tin phụ thuộc nhiều vào người dùn g tin và nhu cầu tin cùa người dùng tin cũng như bản chất, số lượng và sự đa dạng của thông tin. __ ^ H ình 1.1. Sff đô quá trình tìm tin 10
  8. ỉ . 1.3. C ác dạng tìm tin C ó thể phân chia các dạng tìm tin theo các tiêu chí khác nhau như dựa vào tính chấi của thông tin được tra cứu, dựa vào công cụ tìm tin được sử dụng, dựa vào loại hình tài iiệu, dựa vào thời gian xuất bản của tài liệu, dựa vào ngôn ngừ tài liệu... Trên thực tế, để lìm tin m ộ t cách hiệu quả, quá trinh tìm tin thường được thực hiện dựa trên sự kết họp nhiều dạng ùm tin với nhau. Dưới đây là hai cách phân chia các dạng tìm tin thường được sử dụng. 1 .1 ,3. ỉ. D ụ 2 vào tính ch ất cCa th ô n g tfn đĩiợc tra ZÚTI Dựa vào tính chấl cúa thông Ún được tra cứu, có thể phân chia thành các dạng tìm tài liệu và lìm thông tin dữ kiện. Tìm tài liệu ià quá trình xác định và chọn lọc các lài liệu từ các nguồn tìm tương ứng với yêu cầu tin hoặc các dấu hiệu tìm tin cho trước như tên lác giả, lên tài liệu, nơi xuất bản, nhà xuất b ả n . .. Tìm thông tin dừ kiện là quá trình xác định, chọn lọc và tách ra khỏi nguồn tin những số liệu, dữ kiện cụ thể như các số liệu thống kê, các đặc lính, thông số kỳ thuật của các thiết bị, vật liệu, các khái niệm khoa học... để đáp ứng các yêu cầu tin. 1.1.3.2. D ự a vào công cụ tìm tin D ự a vào c ô n g cụ tìm tin, có thể chia thành các dạng tìm tin thủ công, bán lự độn g và tự động hóa. Tìm tin thù công là quá trình tìm lin dựa trên các công cụ tìm lin thủ cô n g hay còn gọi là công cụ tìm tin truyền thống như hệ ihống mục lục, bộ phiếu Ira cửu, bảng tra, ihư mục, ấn phẩm thông tin, tài liệu tra c ứ u ... Tìm lin bán tự động là quá trình tìm tin dựa trên các cồng cụ tìm tin bán tự độn g như phiếu lồ mép và phiếu lồ soi. 11
  9. T ìm tin tự động hóa là quá trình tìm kiếm các thông tin được xử lý, lưu trừ và truy cập thônơ qua máy lính hoặc m ạ n s máy lính. Trước đây, tìm tin thủ công !à dạng lìm tin phổ biến nhất trong các thư viện và cơ quan thông tin. Ngày nay, với sự phát triển nhanh chóng của công nghệ thông tin và viền thông, tìm tin tự động hóa n g à y càng phồ biến hơn và trờ thành dạng tìm tin chủ yếu trong các thư viện và cơ quan thông tin ỉớn. Bên cạnh đó, các công cụ tìm tin bán tự động hầu như không còn được sử dụng n ùa nên dạng tìm tin bán tự động ngày càng đưọc ít người biết đến. 1.2. Hệ thống tìm tin 1.2.1. M ôt số khái nicin • » Ỉ .2 .I .Ỉ . K hái niệm h ệ th ốn g tìm tin Khái niệm hệ thống lìm tin (HTTT) được đề cập đến tro rg nhiều tài liệu khác nhau. Sau đây là một số định nghĩa ve hệ thống tìm tin. T h e o TC V N 5453-1991, hệ thống tìm tin là hệ thống được xăy dự ng nhằm tạo điều kiện cho việc tìm tin. [8' Theo D.B. Cleveland, hệ ihống tìm tin là một công cụ thực hiện qu á tiình tìm tin. [14 Theo F.w. Lancaster, hệ ihống tìm tin ỉà tổ hợp bao gồm các tài liệu, yêu cầu tin, các mô tả thổng nhất tài liệu và yêu cầu tin, ph ươ ng tiện cho phép so sánh các m ô lả này, và con người (bao g ồ m các chuyên gia thông tin, chuyên gia điều hành hệ thống và người sử dụng hệ thống). [20] Các tác giã cuốn chuyên khảo “C ơ sờ thông tin học” của Viện T hông tin VINITI đưa ra định nghĩa “Hệ thống tìm lin là tổ 12
  10. hợp các Ihành phần liên kết với nhau được sừ dụng để tìm trong mộl màng tin nào đó thông tin đáp ứng yêu cầu tin được đặt ra cho hệ thống” . [24] Trong giáo trình “Hệ thống thông lin”, v . p . Zakharov định nghĩa “Hệ thống tìm tin là tập hợp có to chức các tài liệu và các phương liện kỹ thuật đế lưu trữ và tìm kiếm thông tin hoặc tài liệu hoặc dừ liệu”. [33 G. Kowalski, tác giả cuốn chuyên khảo “Hệ thống tìm tin: Lý th u /ế t và ứng dụn o” , đưa ra định nglìĩa clơn giàn “Hệ ihống tìm tin là một hệ thống có kha năng lưu tm'. bảo quản và tìm kiếm thông tin” . [19] Nhừng định nghĩa trên cho thấy thuật ngữ “hệ thống tìm tin” nói chung được dùno để chi một hệ thống được xây dựng để lưu trừ và tìm kiếm th ô n g tin đã đ ư ợ c lưLi trừ. Có nhiều loại hệ thống thông lin khác nhau, lừ các hệ thống ihù công với thông tin được lưu trừ Irên giấy đến các hệ thống được số hóa hoàn toàn. Cách 10 chức thông tin và các kỳ thuật tìm tin trong các hệ thống tìm tin cũng khác nhau nhưng vấn đề chung đối với tất cả các hệ thống tìm tin là đảm bảo hiệu quả tìm tin của hệ thống. 1.2. ĩ . 2. M ộ t số k h á i niệm Hên quan N hu cầu tin Nhu cầu tin là nhu cầu khách quan của người dùng tin về những thông lin cần thiết cho công việc cụ thể cùa mình. [8] Yêu cầu tin Yêu cầu tin là nhu cầu tin của người dùng tin được thể hiện dưới dạng văn bản hoặc lời. [8 13
  11. M ản g tin M ảng tin (Iníormalion relrievai file) là tập hợp các tài liệu, dừ kiện (hoặc các thông tin về chúng) được sẳp xếp theo một trình tự nhất định tiện lợi cho việc tìm và xử lý tin. [8 M ầu tìm M ầu lìm của tài liệu là nội dung cơ bản của tài liệu được ihé hiện bằng các thuật ngữ của ngôn ngữ lìm tin. [24 M ầu tìm của một tài liệu được tạo lập trong quá innh xử lý tài liệu và được sử dụng để tìm tài liệu đó trong tập hợp nhiều tài liệu khác. Tập hợp các mẫu tìm của tài liệu là một bộ phận không thể thiếu của rnảng tin. Quá trình thể hiện nội dung cơ bàn của tài liệu bang mẫu tìm được gọi là quá trình đánh chỉ số. Lênh tìm « Lệnh tìm là nội dung cùa yêu cầu tin được thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin. [24 Đ iểm truy cập Điềm truy cập (Access poìnt) là một từ, cụm từ, mã số, tên gọi... được sừ dụng để tìm thông tin trong một hệ thống tìrr. lin, Điểm truy cập có thể là giá irị của các thuộc tính (hình Ihức và/hoặc nội dung) của đối tượng được phàn ánh trong hệ thống tìm tin. Ví dụ, trong một hệ thống tìm tin lư liệu, điểm iruy cập có thể là tên tác giả, nhan đề, đề mục chù đề, từ khóa, ký hiệu phân loại... cho phép tìm kiếm và nhận dạng một biểu ghi thư mục. Các điểm truy cập này được người xử lý tài liệu lựa chọn khi tạo lập một biểu ghi. 14
  12. Dánh c h ỉ số Đánh chỉ số (Indexing) là quá trình thê hiện nội dung tài liệu và/hoặc yêu cầu tin bằng ngôn ngừ tìm tin. [8 Tính thích hợp Tính thích hợp (Relevance) là mức độ trùng hợp giừa nội d u n " lài liệu với yêu cầu tin. [8 Tính p h ù hợp Tính phù hợp (Pertinence) là mức độ triing hợp giữa nội dung lài Iiệu và nhu cầu tin. [8 Tiêu chuẩn p h ù hợp ỷ nghĩa Tiêu chuẩn phù hợp ý nghTa là tập hợp các qui tắc nhằm xác lập mội cách hình thức mức độ thích hợp của tài liệu với yêu cầu tin. [24 Có thế chia các tiêu chuẩn phù hợp ý nghĩa thành hai nhóm chính là định lượng và logic. Loại thứ nhất sử dụng các tiêu chí định lượng để đánh giá mức độ giống nhau về nội dung giữa tài liệu và yêu cầu tin (hệ số tiĩơng ihích). Điều này cho phép sắp xếp kết quả tìm được theo trật tự giảm dần về mức độ thích hợp của tài liệu với yêu cầu tin. Có nhiều mô hình toán học và công thức khác nhau để ỉính hệ số iưong thích. Tuy nhiên, cách lính đơn giản nhất là dựa trên sự trùng hợp giữa các thuật ngừ trong mẫu tìm và ỉệnh tìm. Cách tính này dược áp dụng Irong lất cà các hệ thống tìm tin tư liệu sử dụng các ngôn ngừ lìm tin phân loại, đề mục chủ đề và từ khoá. Xác suất trùng hợp hoàn loàn giữa mẫu lìm và lệnh tìm trong các hệ ihống lìm tin thường rấl ihấp. Vì vậy, có thể phải đáiih giá 15
  13. mức độ trùng họp một phần giữa mầu tìm và lệnh tìm. N ếu sự trùng hợp này đạt đến mộl mức độ cần và đ ủ ihì tài liệu lìm được được xem ià thích họp với yêu cầu tin. Gọi R là mức độ trùng hợp cần và đủ giữa mầu lìm và lệnh tìm để tài liệu tìm được về cơ bản đáp ứ n g được yêu cầu tin. R được biểu thị bằng ti lệ %. R được tính bằng cô n g thức: R = (M /N ) X 100%, trong đó: M là số iượng các thuật ngữ của m ẫu tìm và lệnh tìm trùng nhau khi tìm tin. N là tổng số thuật ngừ có trong mẫu tìm. T arờ n g hợp ly tường nhất là khi m ẫu tìm trùng hợp hoàn loàn với lệnh tìm, nghĩa !à M =N hay R = 10 0% . Trên thực tế, với R>=25% là xem như đạt yêu cầu. Loại tiêu chuẩn phù hợp ý nghĩa thứ hai là tiêu chuẩn phù hợp ý nghĩa logic. Trên thực tế, các hệ thống tìm tin sử dụng các lệnh tìm với các toán tử logic Bool ngày càng phổ biến. Trong các hệ thống này, các yêu cầu tin được thể hiện bằng biểd thức logic bao gồm một tập hợp các thuật ngừ tìm được ỉiên kết với nhau bằng các toán tử Bool. Các thuật ngừ tìm của biểu thức đón g vai Irò như các biến số và sẽ nhận giá trị 1 (đúng) néu thuật n g ữ đó được chứa trong tài liệu hoặc nhận giá trị 0 (sai) khi tài liệu không chứa thuật ngữ đó. Tài liệu được xem là thích hợp vén yêu cầu tin nếu kết quả tổng thể của biểu thức logic nhận giá trị đúng. Nếu kết quả có giá trị sai thì tài liệu không thích hợp với yêu cầu tin. Việc sử dụng các toán từ Bool đảm bảo cho logic so sánh mẫu tìm và lệnh tìm đề hiểu đối với người sử dụng. Chính sự đcm giản và dễ hiểu của tiêu chuẩn phù hợp ý nghĩa logic đã giúp tiêu chuẩn này trở nên phổ biến. 16
  14. ỉ . 2.2. M ục đích củ a hệ thống tìm tin Một hệ thống tìm tin được xây dựng để tìm các tài liệu hoặc thông tin được cộng đồng người sử dụng yêu cầu và phải sẵn sàng cung cấp tài liệu hoặc thông tin cẩn thiết cho người sử dụng. Vì vậy, một hệ Ihống tìm tin bất kỳ phải tập trung vào việc thu thập và tồ chức thône tin về một hoặc nhiều ITnh vực kiến thức nhằm cung cấp thông tin một cách nhanh chóng nhất khi người sử dụng yêu cầu. Trên thực tế, hệ thống tìm tin đóng vai trò như một cầu nối giữa các nguồn tàỉ nguyên thông tin và những người sử dụng thóng tin. víục đích chung của một hệ thống tìm tin là giảm tối đa chi phí của người sử dụng để tìm thông tin cần thiết. Chi phí tìm tin có thể được tính bằng thời gian một người sử dụng phải bò ra trong tẩt cả các bước của qu á trình tìm tin cho đến khi có được tài liệu hoặc thông tin cần thiết. Người sử dụng có thể gặp nhiều trở ngại trong quá trình tìm tin. Vì vậy, mục đích của một hệ thống tìm tin là hỗ trợ tối đa để người sử dụng có thể tìm được thông tin cần thiết một cách nhanh chóng, đầy đủ và chính xác. 1.2.3. C hức năn g củ a hệ thống tìm tin và yêu cầu đối vói hệ th ốn g tìm tin 1 .2 3 .1 . C hứ c n ă n g củ a h ệ th ốn g tìm tin Một hệ thống tìm tin phái xử lý nhiều nguồn thông lin và yêu cầu tin khác nhau của người sử dụng. Có thể chia các chức năng cùa mộl hệ ihống tìm lin thành hai nhóm chính là; l) Phân tích nội dung và 2) T ìm tin và c u n g cấp kết quả tìm. Phân tích nội dung bao gồm các chức năng liên quan đến việc phân tích, tổ chức và lưu trữ thông lin. Tìm tin và cung cấp kết quà tìm bao gồm các chức năng 17
  15. phân lích yêu cầu tin cua người sử dụng, tìm tin, chọn lọc và cung cẩp kết quả tìm. Cụ thể, các chức năng chính của một hệ thống tìm tin bao gồm: ■ Phân tích nội dung các lài liệu: phân tích và trình bày nội dung chính của tài liệu bằng các ngôn ngừ thích hợp; ■ Tổ chức và lưu trừ thòns lin một cách ihích hợp đế có Ihe tìm kiếm thông tĩn theo các yêa cầu íin của ngưòi sử dụng; ■ Phân tích các yêu cầu tin của người sừ dụng và thê hiện các yêu cầu tin ở dạng thích hợp với việc tìm kiếm trong hệ thống; ■ Tìm trong hệ thống và lựa chọn thông tin thích hợp với yêu cầu tin; Chức nâng của một hộ ihống lìm tin tư liệu đơn^siàn được thể hiện trên sơ đồ trong hình 1.2. Trong hình i.2. là một hệ thống tìm tin với hai đầu vào (dành cho lài liệu và yêu cầu tin) và một đầu ra để cung cấp tài liệu hoặc thông tin theo yêu cầu. ờ các đầu vào có các bộ phận đánh chi số lài liệu và yéu cầu lin. Các mẫu tìm của tài liệu cùng với các địa chỉ lưu ti*ữ tài liệu được đưa vào bộ nhớ cùa hệ thống còn các tài liệu được đưa vào bộ phận lưu trữ tài liệu. Các lệnh tìm của lìmg ycu cầu tin được bộ xử lý đổi chiếu với mẫu tìm của tất cả các tài liệu được chứa trong bộ nhớ. Neu mẫu tìm và lệnh tìm tương thích (toàn phần hoặc theo tiêu chuẩn phù hợp ý nghĩa đã xác định) thì bộ xử lý sẽ đ ưa ra lệnh cung cấp tài liệu được chứa trong bộ phận lưu Iiôr tài liệu. Bộ phận lưu tiòr tài liệu được xem như bậc thứ hai của hệ thống và thành phần này không hiện diện trong các hệ thống 18
  16. tìm tin Ihư mục (chỉ có một bậc là bộ nhớ lưu trừ thông tin về tài liệu ). Sơ đồ này thể hiện hoạt động của một hệ thống tìm íin bất kỳ, bao gồm cả các hệ Ihổng ĩruyền thống. Ví dụ, trong hệ thống tìm lin thủ công của một thư viện, các bộ phận ở các đầu vào của hệ thống tương ứng các bộ phận xử ỉý tài liệu và tra cứu tin, bộ nhớ lương ứng với các mục lục thủ công. Trong hệ thống tìm tin thủ công không có bộ xử lý. Bộ phận này được thay thế bằng trí tuệ của người dùng tin hoặc cán bộ tra cửu - là người thực hiện việc so sánh, đối chiếu iệnh tìm với mầu ĩìm và lựa chọn kết quả tìm được. M ầu l ì m __________ & ( Jịa c h ì n h il T ììi liộ u T à i liêu V dảxừlý H ình 1.2. S ơ đồ tổng quát của hệ thống ĩìm tin 1.2.3.2. Yêu cầu đối với h ệ th ốn g tim tin Hệ thống tìm tin phải hướng đến người sử dụng, nghĩa là phải chú trọng các tiện ích cho người sừ dụng. Vì vậy, hệ thống tìm tin phái đáp ứng các yêu cẩu chức năng sau: - B ảo đảm khà năng lương lác giừa người thiết kế hộ ihống và người sử dụng; - C ung cấp thông tin với dạng thức thích hợp để có thể sừ dụng ngay; 19
  17. - C ó phạm vi đù rộng để bao quát tất cả các loại yêu cầu lin của cộng đồng người sử dụng; - Có khà năng cung cấp thông tin thích hợp và kịp thời; - Có khả năng tương thích với những thay đôi của môi trưcmg; - Phải duy trì các chuần để bảo vệ dĩr liệu; - Hệ thống phải dề truy cập và dề sử dụng; - Hồ trợ khai ihác thông lin một cách hiệu quả. 1.2.4. T hành phần của hệ thống tìm tin Thành phần của mội hệ ihống tìm tin cụ tỉiể bao gồin; 1. Các mảng tin bao gồm tài liệu, thông tin về lài liệu/siêu dừ liệu, dừ kiện; 2. Các còng cụ loơic - ngữ nghĩa, bao gồiTi neôn ngừ tìm tin, các qui tắc sử dụng ngôn ngữ tìm tin và các tiêu chuẩn phù hợp ý nghĩa; 3. Các phương tiện kỳ thuật đảm bảo thực hiện các chức năng của hệ thống; 4. Các yếu tố đảm bảo cho việc khai thác hệ thống n h ư nhân sự, lài liệu hướng dẫn sử d ụ n g ... Các thành phần cơ bản cùa hệ thống tìm tin đuợc gọi !à các phân hệ. Việc phân chia thành các phân hệ rất cần Ihiết và hữu ích cho việc thiết kế cũng như mô tả cơ chế vận hành của hệ thống tìm tin. Có nhiều cách chia hệ Ihống tìm tin ihành các phân hệ, trong đó hai cách thường được sù dụng nhất là phân chia theo loại yếu tố và phương tiện đảm bảo hoạt động của hệ thống và phân chia Iheo nguyên tắc chức năng* 20
  18. 1.2.4.1. C ác ph ân h ệ đảm bảo h o ạ t độn g của h ệ th ốn g tìm tỉìi Các phương tiện và yếu lố đảm bảo việc thực hiện các chức năng của hệ thống tìm tin được chia thành các phân hệ đảm bào hoạt động của hệ thống lìm tin. ở dạng tổng quát, các phân hệ bao gồm bổn thành phần cúa hệ thống tìm tin được liệt kê ờ trên, ở dạng chi tiết hơn, có thể chia ihành các phân hệ n h ư đảm bào ngôn ngừ, đảm bào thông tin, đảm bảo kỳ thuật, đảm bảo công nghệ, đảm bảo nhiin sự... Phân hệ đảm bảo thông tin bao gồm các mảng tin (tài liệu, thông tin về tài liệu/siêu dữ liệu, dừ kiện), các phương tiện, phương pháp mô tả và xây dựng các mảng tin. Phân hệ đảm bảo ngôn ngừ bao gồm các ngôn ngữ tìm tin, các qui tắc ứng dụng, các tiêu chuẩn phù hợp ý nghĩa và các công cụ ngôn ngữ khác, ở những giai đoạn đầu, khi hệ thống tìm tin mới bất đầu phát triển, đảm bào thông tin và đảm bảo ngôn ng ừ thường được nhập chung thành một phân hệ đám bào thông tin - ngồn ngừ. v ề sau, hai phân hệ này được tách riêng mặc dù ranh giới giữa chúng không thực sự rõ ràng. Chẳng hạn, có thể đưa các ngôn ngừ mô tả thông lin vào phân hệ đàm bảo ngôn ng ữ cũng như vào phân hệ đàm bảo thông tin. Phân hệ đảm bào chương irình bao gồm các thuật toán và các phần mềm (bao gồm phần mềm hệ thống và phần mềm ứng dụng) thực hiện các chức năng của hệ thống tìm tin với sự trợ giúp cùa máy tính. Phân hệ đảm bảo kỳ thuật bao gồm các phương tiện kỹ thuật hồ trợ cho việc lưu trữ, tìm và cung cấp thông tin. 21
  19. Phân hệ đảm bảo công nghệ là lập hợp và irình tự ihực hiện các qui trình (tự động hóa và thú công) và các thủ tục xừ lý thông tin irong hệ Ihổng tìm tin, bao gồm mô tả các qui trình và thủ lục, các sơ đồ thông tiĩi - công nghệ và các tài liệu hướng dần nghiệp vụ. Phân hệ đảm bảo nhân sự bao gồm các nhân viên thực hiện việc vận hành, khai thác hệ thống. 1.2.4.2. C ác p h â n hệ chứv nàng Có thể phân chia hệ thống tìm tin thành các bộ phận theo chức năng với mồi bộ phận thực hiện một chức năng nhất định trong qui trình công nghệ như xử lý tài liệu, nhập và điều chỉnh các yêu cầu tin, tìm tin. thông kê, xữ lý kết quả tìm, cung cấp kết I ^ ả tìm... Các bộ phận này được gọi là các phân hệ chức năng và lạo thành mô hình cấu trúc (còn gọi là mô hình vận hành) của hệ thống lìm lin. Ví dụ, một hệ thống tìm tin tư iiệu có thề bao gồm các phân hệ chức năng cơ bản sau: 1 . Phân hệ xừ lý lài liệu thực hiện các chức năng xử lý tài liệu, lưu i m và quản trị tài liệu và mẫu lìm của tài liệu; 2 . Phân hệ xừ lý yêu cầu tin thực hiện các chức năng xác định yêu cầu tin, xây dựng lệnh tìm và nhập lệnh tìm; 3 . Phân hệ tìm tin có chức năng tìm và đua ra các kết quả tìm; 4 . Phân hệ xử lý và cung cấp các kết quả tìm thực hiện chức năng phân tích các kết quả tìm, lựa chọn các kểl quả thích hợp và cung cấp cho người sừ dụng. 1.2.5. Các loại hệ thống tìm tin Có thể phân loại các hệ thống tìm tin dựa trên nhiều cơ sỏ khác nhau. Trong mục này sẽ đề cập một số cách phân loại cơ bàn nhất. 22
  20. Dụu vào tính ch ất của th ôn g tin được lim tr ữ và cung cấp, có Ihể phân các hệ thống tìm tin Ihành hai ioại là hệ thống tìm lin tư liệu và hệ thống tìm tin dừ kiện. Hệ thống tìm lin tư liệu là hệ thống tìm tin được xây dựng để tìm và cung cấp thông tin về tài liệu hoặc tài liệu. Hệ thống tìm tin tư liệu đáp ứng các yêu cầu tin được đặt ra cho hệ thống bằng cách cung cấp các mô tả thư mục cùa tài liệu, các tài liệu gốc, các bản sao hoặc địa chỉ những nơi bảo quán các tài liệu chứa thông tin được yêu cầLi. Đôi khi loại hệ Ihốiig tìm tin íư liệu chi cung cap các mô lả thư mục của các tài liệu cân tim được gọi lả hệ thống tìm tin ihư mục. Hệ thống tìm tin dừ kiện là hệ thống tìm tin được xây dựng để lưu líòr, lìm và cung cấp các số liệu và dữ kiện như các số liệu khoa học, kỳ thuật, kinh tế, đặc lính cùa các quá trình, hiện tượng, địa chi, tên cá nhân hoặc tổ c h ứ c ... Giữa hệ thống tìm tin tư liệu và hệ thống tìm tin dừ kiện không có sự khác biệt về nguyên tẳc xây dựng. Sự khác biệt cơ bản giữa các hệ thống tìm tin lư liệu và hệ thống tìm tin dừ kiện là ở mức độ xừ lý ban đầu nội dung lài liệu để sau đ ó có thể tìm được ihông lin. Trong các hệ thống tìm tin tư liệu, tài liệu được phân tích và mô tả ớ mức “tài liệu nói về cái gì”, còn trong các hộ thống tìm lin dừ kiện ihì mô tá ớ mức “điều được đề cập trong tài liệu cụ thể là gì” . Nói cách khác, các hệ thống tìm tin tư liệu lưu liòr thông tin về tài liệu còn các hệ thống tìm tin dừ kiện lưu trữ các số ỉiệu hoặc dữ kiện về một đối tượng hoậc một nhóm đối tượng nhất định và được trình bày với một hình thúc riêng biệt. Các số liộu/dừ kiện này có thể được thu thập tiTic tiếp hoặc được rút ra từ các tài liệu. Ví dụ, với yêu cầu tin “Vận tốc ánh sáng” , hệ thống tìm tin tư liệu sè 23
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2