Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
88
QUẢN LÝ SIÊU DỮ LIỆU VÀ HIỆN THỰC HÓA
TÀI LIỆU KẾT HỢP
Lý Anh Tun1, Trn Th Minh Hoàn2
1Đại hc Thy li, email: tuanla@tlu.edu.vn
2Đại hc Thy li, email: hoantm@tlu.edu.vn
1. GIỚI THIỆU
Thư viện số một hạ tầng sở mạng hỗ
trợ việc tạo phối các dịch vụ nội dung số.
Trong đó thao tác tạo tài liệu cho phép người
dùng tạo một tài liệu mới hoặc từ đầu hoặc
bằng cách sửa đổi sử dụng lại các tài liệu
sẵn có. Nếu được tạo từ đầu tài liệu là nguyên
tử ngược lại kết hợp. Theo tiếp cận của
chúng tôi một tài liệu kết hợp một tài liệu
ảo cấu trúc y, trong đó mỗi nút một
mô tả về nội dung nó biểu diễn.
Công việc của chúng tôi trong bài báo này
tập trung vào việc quản siêu dữ liệu
hiện thực hóa tài liệu kết hợp. Trước hết
chúng tôi đề xuất một cải tiến cho hình
suy diễn siêu dữ liệu của các tài liệu kết hợp
trong [1]. Mô hình trong [1] cho phép siêu dữ
liệu được suy diễn hoàn toàn tự động, còn với
hình cải tiến, tác giả người quyết định
tả đăng của tài liệu. Tiếp đó, chúng tôi
mô tả công việc hiện thực hóa tài liệu kết hợp
(tức là tạo ra một "phiên bản giấy" của tài
liệu kết hợp) đề xuất các thuật toán tạo
bảng nội dung, tạo chỉ mục giúp hiện thực
hóa tài liệu kết hợp.
2. HÌNH TÀI LIỆU KẾT HỢP
CÁC MÔ TẢ
2.1. Biểu diễn tài liệu
hình của chúng tôi không xét đến nội
dung của tài liệu chỉ quan tâm đến cấu
trúc của tài liệu và các mô tả [1][2].
Định nghĩa 1 (Biểu diễn i liệu). Một
i liệu bao gồm một đnh danh d và một tập
c i liệu là c phần của d, hiệu là
parts(d). Nếu parts(d) = thì d được gi
i liệu nguyên t, ngược lại d được gi là
i liệu kết hợp.
Chúng ta thể viết d = d1 + d2 + + dn
thay cho parts(d) = {d1, d2, …, dn}.
Định nghĩa 2 (Thành phần của tài liệu).
Giả sử d = d1 + d2 + + dn. Tập các thành
phần của d, hiệu comp(d), được định
nghĩa đệ quy như sau:
Nếu d tài liệu nguyên tử thì comp(d)=
; ngược lại comp(d) = parts(d) comp(d1)
comp(d2) ... comp(dn).
Giả sử rằng tất cả tài liệu kết hợp d đều
cây với d gốc và comp(d) tập các nút.
Lưu ý, hình của chúng tôi không quan
tâm đến trật tự các phần của tài liệu kết hợp.
2.2. Cây phân loại và mô tả
Thông thường tả nội dung tài liệu
tập thuật ngữ lấy từ một cây phân loại.
Định nghĩa 3 (Cây phân loại). Giả sử T
một tập thuật ngữ, hoặc từ khóa. Một cây
phân loại P được định nghĩa trên T một bộ
(T,) trong đó là một quan h nh phân
phản xbắc cầu trên T được gọi quan
hệ bao hàm.
Cho hai thuật ngữ st, nếu st thì chúng
ta nói rằng s được bao hàm bởi t, hoặc t bao
hàm s.
Hình 1 trình bày một cây phân loại, trong
đó thuật ngữ Algorithms bao hàm thuật ngữ
Sort Search, OOL bao hàm Java C++,
v.v... Do tính bắc cầu của mối quan hệ bao
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
89
hàm, thuật ngữ Programming bao hàm tất cả
các thuật ngữ trong cây.
Hình 1. Một cây phân loại
Định nghĩa 4 (tả). Cho một cây phân
loại (T,), một tả trong T bất kỳ tập
thuật ngữ nào từ T.
Một tả thừa nếu chứa một vài
thuật ngữ được bao hàm bởi các thuật ngữ
khác. Chẳng hạn, {Sort, QuickSort, Java}
dư thừa, Sort bao hàm QuickSort.
Định nghĩa 5 (Mô tả rút gọn). Cho một
cây phân loại (T,), tập thuật ngữ D từ T
được gọi rút gọn nếu với các thuật ngữ s
t bất kỳ trong D, s tt s.
thể tạo ra tả rút gọn bằng cách loại
bỏ tất cả thuật ngữ trừ các thuật ngnhất,
hoặc loại bỏ tất cả thuật ngữ trừ các thuật ng
lớn nhất. Trong đó cách đầu tạo ra t
chính xác hơn. dụ, {QuickSort, Java}
chính xác hơn {Sort, Java}.
Định nghĩa 6 (Quan hệ mịn). Giả sử D
D' là hai mô tả. Chúng ta nói rằng D mịn hơn
D', hiệu DD', nếu chỉ nếu với mỗi
t' trong D', tồn tại t trong D sao cho tt'.
Nói cách khác, D mịn hơn D’ nếu tất cả
thuật ngữ của D’ đều bao hàm thuật ngữ nào
đó của D. dụ, {QuickSort, Java,
AVLTree} mịn hơn {Algorithms, OOL}.
Định nghĩa 7 (Mô tả ngầm định). Giả sử
D = {D1, ..., Dn} một tập các tả trong
T. tả ngầm định của D, hiệu
IDescr(D), là cận trên nhất của D trong,
tức là IDescr(D)=lub(D, ).
Để tính toán tả ngầm định, chúng tôi
sử dụng thuật toán sau đây [1].
Ví dụ: Xét i liu gồm hai phn vi các
tả D1 = {QuickSort, Java} và D2 =
{AVLTree, C++}. Mô tả ngm định của tài
liu là {Algorithms,OOL}.
tả ngầm định được sử dụng đgợi ý
cho tác giả lựa chọn tả đăng khi đăng
ký tài liệu với thư viện số [2].
3. HIỆN THỰC HÓA TÀI LIỆU KẾT HỢP
Hiện thực a đơn giản đặt c nội
dung th được truy cập thông qua t
theo một tun tự đ tạo ra một tài liệu tng
thường. Cng ta dễ dàng thiết kế giao diện
để người dùng thc hiện ng việc này. Một
ng việc quan trọng khác rút ra bảng nội
dung chmục của i liệu kết hợp từ trật
tự tuyến tính của các t thi đim hiện
thc a.
Định nghĩa 8 (Bảng nội dung). Giả sử
descr1, …, descrn tập các tả nút trong
toàn bộ cây, đó mỗi descri liên kết với nút
ddi để tạo ra ng thứ i của bảng nội dung
của tài liệu kết hợp.
Định nghĩa 9 (Ch mục). Giả sử k1, …,
km là tập tất cả c thut ng trong y,
mỗi thuật ng xuất hiện trong một hoặc
nhiều tả nút. Liên kết mỗi ki với một
danh ch c t đó t ki xuất hiện,
đtạo ra dòng thi của ch mục. Tập tất c
c dòng như vậy tạo n ch mục của tài
liệu kết hợp.
Hình 2 trình y một tài liệu kết hợp
dạng y. Mỗi t của cây liên kết với một
tv ni dung nó biểu diễn. tả ln
kết với t lá được cung cấp bi c giả,
trong khi tả ln kết vi nút trung gian
do ni dùng quyết định vi s gợi ý của
hthống.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
90
Hình 2. Cấu trúc của một tài liệu kết hợp
Mỗi nút trong cây sẽ bao gồm các trường:
URI (định danh), description (mô tả), child
(danh sách nút con), birthorder (thứ tự sinh),
path (đường dẫn dựa trên thứ tự sinh).
Thuật toán 2 sinh ra bảng nội dung. Áp
dụng thuật toán cho cây trong hình 2 thu
được bảng nội dung trong hình 3a.
Để sinh ra chỉ mục chúng ta sử dụng một
mảng gồm hai trường key (từ khóa)
lspath (danh sách đường dẫn) để lưu kết quả
tạm thời. Thuật toán 4 sử dụng Thuật toán 3
để tạo mảng, sau đó nó sắp xếp mảng và in ra
chỉ mục. Áp dụng thuật toán cho cây trong
hình 2 thu được chỉ mục trong hình 3b.
Hình 3. Bảng nội dung và chỉ mục
4. KẾT LUẬN
Trong bài báo chúng tôi đã trình bày một
số cải tiến cho hình suy diễn siêu dữ liệu
của các tài liệu kết hợp. Theo đó các tả
ngầm định sẽ được hệ thống tính toán một
cách tự động được sử dụng để gợi ý cho
người dùng chọn tả đăng khi đăng
tài liệu kết hợp với thư viện số.
Chúng tôi cũng trình bày các định nghĩa và
các thuật toán giúp tạo bảng nội dung chỉ
mục cho tài liệu kết hợp từ các tả đăng
ký. Đây những khâu quan trọng của quá
trình hiện thực hóa tài liệu kết hợp.
5. TÀI LIỆU THAM KHẢO
[1] Rigaux, P., Spyratos, N., Metadata inference
for document retrieval in a distributed
repository. In: Maher, M.J. (ed.) ASIAN
2004. LNCS, vol. 3321, pp. 418-436.
[2] Tsuyoshi Sugibuchi, Anh Tuan Ly, and
Nicolas Spyratos, Metadata inference for
description authoring in a document
composition environment. Proceedings of
the 8th Italian Research Conference on
Digital Libraries, Bari, Italy, Feb. 2012, pp.
69-80, CCIS, Springer.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5