intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tiến trình tạo tài liệu kết hợp và các mô tả

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

9
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Tiến trình tạo tài liệu kết hợp và các mô tả trình bày một mô hình quản lý siêu dữ liệu đơn giản cho môi trường kết hợp tài liệu, được xây dựng dựa trên mô hình trong. Tuy nhiên tập trung mô tả một cơ sở hạ tầng sử dụng siêu dữ liệu để chia sẻ các đối tượng thông tin còn bài viết này tập trung vào tiến trình tạo mô tả tài liệu.

Chủ đề:
Lưu

Nội dung Text: Tiến trình tạo tài liệu kết hợp và các mô tả

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2016. ISBN: 978-604-82-1980-2 TIẾN TRÌNH TẠO TÀI LIỆU KẾT HỢP VÀ CÁC MÔ TẢ Lý Anh Tuấn1, Trần Thị Minh Hoàn1 1 Trường Đại học Thủy lợi, email: tuanla@tlu.edu.vn 1. GIỚI THIỆU cơ sở hạ tầng sử dụng siêu dữ liệu để chia sẻ các đối tượng thông tin còn bài báo này tập Công nghệ xuất bản số đem đến sự linh trung vào tiến trình tạo mô tả tài liệu. hoạt hơn trong tiến trình tạo và hiệu chỉnh các tài liệu số sau khi xuất bản. Một ví dụ 2. MÔ HÌNH TÀI LIỆU KẾT HỢP VÀ tiêu biểu là hệ thống sách mở Connexions CÁC MÔ TẢ của Trường đại học Rice [1]. Trong kho lưu trữ của nó, sách được quản lý như một bộ sưu A. Tài liệu kết hợp tập các đối tượng ảo được gọi là các phân Mô hình không xét đến nội dung mà chỉ đoạn. Website của nó cho phép người dùng quan tâm đến cấu trúc tài liệu và các mô tả. đọc sách, tạo và hiệu chỉnh sách bằng cách Định nghĩa 1 (Biểu diễn tài liệu). Một tài kết hợp các phân đoạn lấy từ các sách có sẵn. liệu bao gồm một định danh d và một tập các Để tạo một tài liệu mới, tác giả tìm các tài liệu là các phần của d, ký hiệu là parts(d). phân đoạn thích hợp từ kho lưu trữ tài liệu và Nếu parts(d) = thì d được gọi là nguyên tử, kết hợp chúng với nhau. Thông thường, mỗi tài liệu và các phân đoạn của nó được liên kết ngược lại d được gọi là kết hợp. với các mô tả, còn gọi là siêu dữ liệu. Siêu dữ Có thể viết d = d1 + d2 + … + dn thay cho liệu thường bao gồm các thông tin như tiêu parts(d) = {d1, d2, …, dn}. đề, mô tả ngắn gọn, các từ khóa và các thông Định nghĩa 2 (Thành phần của tài liệu). tin dựa trên cây phân loại, bao gồm các hạng Giả sử d = d1 + d2 + … + dn. Tập các thành mục, nhóm chủ đề, vân vân. Thông tin dựa phần của d, ký hiệu là comp(d), được định trên cây phân loại giúp việc truy hồi nội dung nghĩa đệ quy như sau: chính xác và thông minh hơn. Nếu d là tài liệu nguyên tử thì comp(d) = Một phân đoạn tài liệu có thể có cha, các ; ngược lại comp(d) = parts(d) comp(d1) anh em, và các con là các phân đoạn khác của comp(d2) ... comp(dn). nó. Dựa vào các mối quan hệ giữa các phân đoạn, chúng ta có thể suy diễn ra siêu dữ liệu Giả sử rằng tất cả tài liệu kết hợp d đều là của các phân đoạn mới từ siêu dữ liệu của cây với d là gốc và comp(d) là tập các nút. các phân đoạn đã có. Điều này giúp giảm bớt B. Cây phân loại và mô tả công sức cho việc tạo siêu dữ liệu cho các Thông thường mô tả nội dung tài liệu là phân đoạn. Siêu dữ liệu của các phân đoạn tập thuật ngữ lấy từ một cây phân loại. nên được tạo bởi con người, nhưng máy tính Định nghĩa 3 (Cây phân loại). Giả sử T là có thể trợ giúp bằng cách “gợi ý” sử dụng một tập thuật ngữ. Một cây phân loại P được siêu dữ liệu suy diễn. định nghĩa trên T là một bộ (T, ) trong đó Bài báo này trình bày một mô hình quản lý  là một quan hệ nhị phân phản xạ và bắc cầu siêu dữ liệu đơn giản cho môi trường kết hợp trên T được gọi là quan hệ bao hàm. tài liệu, được xây dựng dựa trên mô hình Cho hai thuật ngữ s và t, nếu s  t thì s trong [2]. Tuy nhiên [2] tập trung mô tả một được bao hàm bởi t, hoặc t bao hàm s. 186
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2016. ISBN: 978-604-82-1980-2 Hình 1 trình bày một cây phân loại, trong Bên dưới là các thuật toán COVER và đó thuật ngữ Algorithms bao hàm thuật ngữ REDUCE được sử dụng để tính tập phủ và Sort, OOL bao hàm C++ và Java, vân vân. tập rút gọn của một mô tả. Do tính bắc cầu, thuật ngữ Programming bao hàm tất cả các thuật ngữ trong cây. Tập phủ của một tài liệu kết hợp là tập tất cả các chủ đề được phủ bởi các thành phần của tài liệu. Nó được định nghĩa như sau: Định nghĩa 6 (Tập phủ của một tài liệu). Cho d = d1 +…+ dn, là một tài liệu với các mô tả thành phần là D1, …, Dn tương ứng. Hình 1. Một cây phân loại Tập phủ của d, ký hiệu là cover(d), là một mô Định nghĩa 4 (Mô tả). Cho một cây phân tả được định nghĩa như sau: cover(d) = loại (T, ), một mô tả trong T là bất kỳ tập cover(D1 … Dn). thuật ngữ nào từ T. Tóm lược của một tài liệu là một mô tả sao Một mô tả là dư thừa nếu nó chứa một vài cho: (1) nó tóm lược các thuật ngữ mà mô tả của tất cả các thành phần tài liệu đều có; và thuật ngữ được bao hàm bởi các thuật ngữ (2) nó là bé nhất, hoặc nói cách khác, nó có khác. Chẳng hạn, {Sort, QuickSort, Java} là độ chính xác cao nhất. dư thừa, vì Sort bao hàm QuickSort. Để định nghĩa khái niệm này chúng tôi C. Các mô tả suy diễn giới thiệu mối quan hệ mịn trên các mô tả. Chúng tôi chia các mô tả thành hai loại: Định nghĩa 7 (Quan hệ mịn). Giả sử D và mô tả của tác giả, ký hiệu là ADescr(d), với d D' là hai mô tả. Chúng ta nói rằng D mịn hơn là một tài liệu; và mô tả suy diễn được tạo tự D', ký hiệu là D  D', nếu và chỉ nếu với mỗi động bằng việc sử dụng các thuật toán. t' trong D', tồn tại t trong D sao cho t  t'. Định nghĩa 5 (Mô tả không dư thừa). Cho Nói cách khác, D là mịn hơn D’ nếu tất cả một cây phân loại (T, ), tập thuật ngữ D từ T thuật ngữ của D’ đều bao hàm thuật ngữ nào được gọi là không dư thừa nếu với các thuật đó của D. Ví dụ, {QuickSort, Java, ngữ s và t bất kỳ trong D, s  t và t  s. AVLTree} mịn hơn {Algorithms, OOL}. Có thể tạo ra mô tả không dư thừa bằng  là một quan hệ phản xạ, bắc cầu và phản cách loại bỏ tất cả thuật ngữ trừ các thuật ngữ đối xứng. Do vậy  là trật tự một phần trên bé nhất, hoặc loại bỏ tất cả thuật ngữ trừ các các tập rút gọn và một tập bất kỳ các tập rút thuật ngữ lớn nhất. Do vậy, với D là một mô gọn đều có một cận trên bé nhất đối với , tả trong cây phân loại (T, ), ta có hai loại mô ký hiệu là lub (xem [2]). tả không dư thừa sau: Định nghĩa 8 (Tóm lược của một tài liệu). - Tập phủ của D, ký hiệu là cover(D), là Cho một tài liệu d, tóm lược của d, ký hiệu là tập thuật ngữ lớn nhất trong D. summary(d), là một mô tả được định nghĩa - Tập rút gọn của D, ký hiệu là reduce(D), như sau: là tập thuật ngữ bé nhất trong D. Nếu d là nguyên tử, summary(d) = Ví dụ, nếu D = {Sort, Quicksort, Java}, ta reduce(Adescr(d)); ngược lại, với d = d1 có cover(D) = {Sort, Java} và reduce(D) = +…+ dn, summary(d) = lub(D, ) trong đó {Quicksort, Java}. D = {summary(d1),…,summary(dn)}. 187
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2016. ISBN: 978-604-82-1980-2 Chúng tôi đã thiết kế thuật toán - Tạo một tài liệu nguyên tử mới: Gồm hai SUMMARY để tính tóm lược của một tài liệu trường hợp: tài liệu nguyên tử là độc lập cho trước (xem [3]). hoặc tài liệu nguyên tử là một phần của một tài liệu kết hợp đã có. 3. GỢI Ý DỰA TRÊN SIÊU DỮ LIỆU - Tạo một tài liệu kết hợp mới: Gồm hai TRONG TIẾN TRÌNH MÔ TẢ TÀI LIỆU trường hợp: tài liệu kết hợp là độc lập Tác giả có thể tự do lựa chọn các thuật ngữ hoặc tài liệu kết hợp là một phần của một để tạo mô tả, tuy nhiên các mô tả cần phải tài liệu kết hợp đã có. thỏa mãn tính đúng được định nghĩa như sau: - Loại bỏ các phần của tài liệu hoặc mô tả Định nghĩa 9 (Tính đúng của mô tả tài tài liệu: Chúng tôi đã thiết kế thuật toán liệu). Một mô tả D của tài liệu d được gọi là CheckSoundness (xem [3]) để cảnh báo đúng nếu thỏa mãn điều kiện sau đây: người dùng về các mô tả tài liệu bị ảnh d là nguyên tử; hoặc với mọi từ , ít hưởng bởi thao tác loại bỏ. nhất một từ t’ cover(d) được bao hàm bởi t. 4. KẾT LUẬN Khi tác giả loại bỏ một số phần của tài liệu kết hợp, hoặc một số thuật ngữ từ các mô tả Bài báo đã trình bày một mô hình siêu dữ của thành phần tài liệu, các thao tác này có liệu của các tài liệu kết hợp. Để tạo mô tả cho thể làm thay đổi tập phủ của tài liệu và gây một tài liệu độc lập, tác giả có thể tự do lựa ảnh hưởng đến tính đúng của mô tả. Để duy chọn các thuật ngữ từ một cây phân loại. Tuy trì tính đúng của mô tả, hệ thống cần kiểm tra nhiên khi tài liệu là một phần của một tài liệu sự vi phạm tính đúng trước khi áp dụng các kết hợp, hệ thống có thể dựa vào tính đúng thao tác và đưa ra cảnh báo phù hợp với một của mô tả để suy diễn ra các hạn chế và các danh sách thuật ngữ nên được loại bỏ để duy gợi ý cho các thuật ngữ của mô tả tài liệu. trì tính đúng. Tính đúng của mô tả là tiêu chí cơ bản để duy Gợi ý là việc đưa cho người dùng một trì tính toàn vẹn của một kho lưu trữ tài liệu. danh sách các đề xuất lựa chọn để họ có thể Công việc sắp tới của chúng tôi là cài đặt dễ dàng xác định các giá trị đầu vào. Chúng thử nghiệm một hệ thống quản lý tài liệu sử tôi sử dụng ba kiểu tập thuật ngữ gợi ý sau: dụng mô hình này để quản lý siêu dữ liệu. - Drec: Tất cả các thuật ngữ trong tập được lựa chọn mặc định và người dùng có thể 5. TÀI LIỆU THAM KHẢO loại bỏ thuật ngữ trong tập. [1] Connexions. http://cnx.rice.edu - Dopt: Tất cả các thuật ngữ trong tập không [2] P. Rigaux, N. Spyratos, Metadata inference được lựa chọn mặc định và người dùng có for document retrieval in a distributed thể thêm thuật ngữ vào tập. repository. In: Maher, M.J. (ed.) ASIAN - Dobso: Tất cả các thuật ngữ trong tập 2004. LNCS, vol. 3321, pp. 418-436. không được lựa chọn mặc định và người [3] T. Sugibuchi, A. T. Ly, and N. Spyratos. dùng không thể lựa chọn bất cứ thuật ngữ Metadata inference for description nào trong tập. authoring in a document composition Chúng tôi đã đề xuất ba tập thuật ngữ Drec, environment. In Italian Research Dopt, Dobso cho các thao tác sau (xem [3]): Conference on Digital Libraries, pages 69-80. Springer, 2012. 188
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2