127
TP CHÍ KHOA HC, Đại hc Huế, S 53, 2009
XÂY DNG ONTOLOGY CHO THƯ VIN S
Nguy
n Th
M
Trang
Trung tâm H
c li
u,
Đ
i h
c Hu
ế
Hoàng H
u H
nh
Đ
i h
c Hu
ế
TÓM TT
Trong bài báo này, chúng tôi trình bày t
ng quan v
Web Ng
ngh
ĩ
a
ng d
ng công
ngh
Web Ng
ngh
ĩ
a vào th
ư
vi
n s
đ
nâng cao kh
n
ă
ng truy h
i, tìm ki
ế
m thông tin. Chúng
tôi
đ
ã b
ư
c
đ
u xây d
ng SemLib Ontology, m
t Ontology cho th
ư
vi
n s
, cung c
p m
t khung
nhìn duy nh
t v
tên c
a các
đ
i t
ư
ng trong th
ư
vi
n s
h
tr
tìm ki
ế
m hi
u qu
trên m
t kho
d
li
u l
n và phân tán,
đơ
n gi
n hóa ho
t
đ
ng liên thông th
ư
vi
n.
I. Gii thiu v Web Ng nghĩa
Năm 2001, Tim Berners-Lee, trong mt bài báo ln đầu tiên gii thiu chính
thc v Web Ng nghĩa (WebNN) đăng trên tp chí Scientific American Online, đã đưa
ra định nghĩa: “Web Ng nghĩa s m rng ca Web hin ti đó thông tin được
định nghĩa mt cách ý nghĩa, cho phép y tính con người th hp tác vi
nhau” [3].
Vi WebNN, thông tin th được định nghĩa không ch cho mc đích hin th
mà còn cho kh năng liên kết hot độngtích hp gia các ng dng và các h thng;
cho phép trao đổi thông tin gia máy y x lý thông tin mt cách t động, biu
din thông tin dng máy tính th hiu được. Mc tiêu ban đầu ca WebNN
để h tr người s dng tìm kiếm thông tin trên mng mt cách nhanh chóng, chun xác
thông minh hơn so vi các công c tìm kiếm truyn thng; tc tìm kiếm thông tin
da vào ng nghĩa ch không phi tìm kiếm theo t khóa.
Ontology được xem như“linh hn” ca WebNN. Ontology giúp con người và
máy th hp tác, cùng nhau làm vic, giúp máy th “hiu” kh năng x lý
thông tin hiu qu. Các Ontology được phát trin trong lĩnh vc trí tu nhân to để vic
s dng li chia x tri thc được thun tin hơn. Vào cui thp k 20 đầu thp k
21, các ontology đã tr thành mt lĩnh vc nghiên cu quan trng trong Khoa hc máy
tính.
Vào năm 1998, Studer và các cng s đã đưa ra định nghĩa Ontology: “Ontology
mt đặc t tường minh, mang tính hình thc ca s khái nim hóa th chia s
128
được” [1]. S khái nim hóa đề cp đến mt mô hình tru tượng ca mt s hin tượng
trong thế gii thc bng ch xác định các khái nim liên quan ca hin tượng đó.
Tường minh có nghĩa các khái nim được s dng các ràng buc trên chúng được
định nghĩa mt cách ràng. Hình thc đề cp đến vic máy kh năng đọc ontology.
Chia s phn ánh quan đim rng mt ontology nm bt tri thc được chp nhn bi
mt nhóm người.
Ontology cung cp tri thc dùng chung ca mt min xác định nào đó, cho phép
s giao tiếp gia con người, các t chc và các h thng ng dng.
II. ng dng Web Ng nghĩa vào thư vin s
Vn đề đặt ra hin nay cho các thư vin đin t vic liên thông hot động thư
vin, qun lý các tài nguyên khng l ca thư vin như thế nào để h tr vic tìm kiếm,
truy hi thông tin d ng hơn, chính xác hơn, tìm kiếm theo ng cnh ca người s
dng. Điu này u cu các thư vin phi s dng siêu d liu chung để t các bn
ghi ca danh mc và các t vng điu khin chung để cho phép gán các định danh (ID)
ch đề cho các xut bn phm.
Thư vin đin t thường s dng mt định dng siêu d liu nào đó để t chc
các t thư mc. Các chun định dng t thư mc ph biến MARC1, Dublin
Core2, BibTeX3,… Tuy nhiên, các chun này được định nghĩa cho quá trình s dng ca
con người, ch có con người mi hiu được, không định nghĩa ng nghĩa ca các trường
siêu d liu theo cách máy có th hiu được.
Vi công ngh WebNN, s biu din ca các chun t thư mc như các
ontology là mt s la chn tt yếu. Các định dng siêu d liu có ng nghĩa được biu
din trong các thut ng ca ontology cung cp kh năng s dng các khái nim đã
được định nghĩa và suy din d liu tim n t các mô t thư mc [9].
Quá trình hot động liên thông gia các thư vin khác nhau, hay thm chí gia
các b sưu tp khác nhau trong cùng thư vin mt vn đề. Vic tìm kiếm, truy hi s
chính xác hơn nếu chúng ta cung cp cho người s dng mt khung nhìn duy nht v
tên ca các đối tượng s trong thư vin. Onology th cung cp kh năng hot động
liên thông gia các tp d liu ln, cung cp mt khung nhìn chung cho các tp d liu
[8].
Bng cách y dng ontology, tt c người s dng th truy cp ontology
thông qua Web, các danh mc thư vin th s dng c t vng ging nhau để biên
1
http://www.loc.gov/marc/
2
http://dublincore.org/
3
http://www.bibtex.org/
129
mc, đánh du các trường vi các thut ng thích hp nht cho lĩnh vc quan tâm. RDF
[11] OWL [12] cung cp mt h thng hóa đơn gin nht quán, do đó s đơn
gin hóa vic thc hin hot động liên thông thư vin gia h thng siêu d liu thư
vin đin t này vi các h thng siêu d liu thư vin khác.
III. SemLIB Ontology
3.1 Gii thiu chung
Chúng ta th xây dng mt tng ng nghĩa trên cơ s d liu truyn thng
ca thư vin đin t. Tng ng nghĩa y cung cp các khung nhìn ng nghĩa, các ng
cnh trên cơ s d liu truyn thng, h tr tìm kiếm theo ng cnh cho người s dng,
giúp tìm kiếm trên khái nim ch không phi tìm kiếm theo t khóa. Chúng tôi xây
dng SemLib Ontology để t các biu ghi biên mc trong thư vin mt cách có ng
nghĩa và phát trin phương pháp để đưa SemLib Ontology vào tng ng nghĩa này, phn
ánh khung nhìn ca người s dng trên cơ s d liu truyn thng, c th là trên siêu d
liu ca cơ s d liu truyn thng.
Tng ng nghĩa được xây dng trên cơ s d liu truyn thng ca thư vin đin
t, t chc lưu tr d liu mt cách có ng nghĩa. Các ngun d liu được chuyn sang
dng b ba RDF và lưu tr vi các ontology ca chúng. Metastore s được cp nht mt
cách t động định k vi nhng thay đổi ca các tài nguyên trong thư vin đin t
thông qua các k thut ontology tích hp ca Metatore.
Chúng tôi đã bước đầu xây dng SemLib Ontology (Semantic Library
Ontology), để t chc và biu din ni dung ca cơ s d liu truyn thng mt cách
ng nghĩa, cơ bn định nghĩa 31 lp và 42 thuc tính.
Các lp InformationResource, PublishedMaterial, Article, Book,
MeetingProceedings, IssueOfPeriodical, MagazineIssue, NewspaperIssue,
ResourceCollection, Thesis, Place, City, ResourceType, Topic, ContactInformation,
Address, PostalAddress, Fax, InternetAddress, Email, InternetDomain, IPAddress,
WebPage, HomePage, PhoneNumber, MobilePhone, StationaryPhone,
AcademicDepartment, University, Copyright, Language.
Các thuc tính hasAbstract, hasNote, hasVolume, hasEdition, hasBeginDate,
hastitle, hasNumber, hasDate, hasEndDate, hasISBN, hasISSN, hasAccessionNumber,
hasPublisher, hasSubject, hasPlace, hasCity, hasContactInformation, hasInternetAddress,
hasWebPage, hasEmail, hasInternetDomain, hasIPAddress, hasPhone, hasMobilePhone,
hasStationaryPhone, hasFax, hasPostalAddress, hasResourceType, hasContributor,
hasSource, hasLanguage, hasOwner, publishedWithin, hasOrgannization,
hasDepartment, hasSchool, hasCreator, hasHumanCreator, hasEditor, hasAuthor,
hasCopyright, isPartOf.
130
Hình 1. Các phân c
p l
p trong SemLib Ontology
3.2 Mô t các lp trong SemLib Ontology
- Lp InformationResource: lp cha tt c c thư mc tài nguyên ca thư
vin. Lp InformationResource các thuc tính: hasCopyright,
hasHumanCreator, hasPublisher, hasSubject, hasContributor, hasLanguage,
hasResourceType, hasSource, hasNote, hasDate, hasAbstract, hasTitle,
hasOrganization, hasCreator.
- Lp PublishedMaterial: mt loi InformationResource, lp cha tt c các
xut bn phm trong thư vin, lp con ca lp InformationResource.
Lp PublishedMaterial ngoài các thuc nh kế tha t
InformationResource còn có các thuc tính: hasvolume, hasEdition.
- Lp Article: mt loi PublishedMaterial, mt tài liu tương đối ngn,
được xut bn như thành phn ca b sưu tp tài nguyên
(ResourceCollecion). Lp Article ngoài các thuc tính kế tha t
PublishedMaterial còn có thuc tính publishedWithin, hasISSN.
- Lp Book: mt loi PublishedMaterial, lp con ca PublishedMaterial.
Lp Book thuc tính ngoài các thuc tính kế tha t PublishedMaterial
còn có thuc tính hasISBN.
- Lp MeetingProceedings: lp k yếu, các bài báo được thông qua các
hi ngh được xut bn như mt cun sách. Lp MeetingProceedings lp
con ca lp BookResourceCollection,
131
- Lp IssueOfPeriodical: lp n phm định k, mt loi
PublishedMaterial. Mt s báo hay mt tp ca xut bn định k như báo,
tp chí, … Lp IssueOfPeriodical có thuc tính hasNumber, hasISSN.
- Lp MagazineIssue: mt loi IssueOfPeriodical, lp con ca lp
IssueOfPeriodical và ResourceCollection.
- Lp NewspaperIssue: mt loi IssueOfPeriodical, lp con ca lp
IssueOfPeriodical và ResourceCollection.
- Lp ResourceCollection: lp b sưu tp tài nguyên, lp con ca lp
InformationResource. Lp ResourceCollection thuc tính hasVolume,
hasNumber, hasEdition, hasISSN.
- Lp Thesis: lp các lun án báo cáo, lp con ca lp InformationResource.
Lp Thesis các thuc tính hasCity, hasDepartment, hasSchool,
hasAccessionNumber.
- Lp Place: th hin v t ca mt t chc, hay tài nguyên. Lp Place
thuc tính hasPlace.
- Lp City: th hin tên thành ph, lp con ca lp Place.
- Lp ResourceType: là lp các th loi ca ni dung tài nguyên. DCMI Type
Vocabulary [35] cung cp mt danh sách các thut ng th được s dng
như các giá tr cho lp ResourceType để xác định loi tài nguyên.
- Lp Topic: lp các ch đề ca tài nguyên thông tin. Các ch đề xác định
th được xây dng như các th hin (cá th) ca lp Topic hay các lp con
ca nó. Phân cp ch đề được xây dng s dng thuc tính subTopic
thuc tính này có tính bc cu.
- Lp ContactInformation: cha các thông tin ca mt t chc hay th,
thông tin liên lc ca nhà sn xut, Lp ContactInformation thuc
tính hasContactInformation.
- Lp Address: lp con ca lp ContactInformation.
- Lp PostalAddress: lp con ca lp Address. Lp PostalAddress thuc
tính hasPostalAddress.
- Lp Fax: lp con ca lp ContactInformation. Lp Fax có thuc tính
hasFax.
- Lp InternetAddress: lp con ca lp ContactInformation. Lp
InternetAddress có thuc tính hasInternetAddress.
- Lp Email: lp con ca lp InternetAddress. Lp Email thuc tính
hasEmail.