Khai thác s d ng tài li u l u tr đi n t ư
TS. Nguy n L Nhung
Có th th y r ng, công tác khai thác, s d ng tài li u là công tác t ch c toàn b
nh ng công vi c liên quan đ n vi c đáp ng m t cách k p th i, đ y đ , chính ế
xác các nhu c u v s d ng tài li u l u tr c a các c quan, cá nhân. ư ơ
Công tác khai thác ph n vi c cu i cùng c a công tác l u tr , ph n ánh k t ư ế
qu c a các khâu nghi p v l u tr nh : thu th p, ch nh lý, đánh giá, b o qu n, ư ư
th ng kê, xây d ng c s d li u,... ơ
M c đích c a công tác khai thác, s d ng tài li u cung c p tài li u ph c v
công tác lãnh đ o, ch đ o c a c quan qu n nhà n c th m quy n đ ơ ướ
nghiên c u, tham kh o đ ra các quy t đ nh qu n lý, vi t báo cáo, xây d ng k ế ế ế
ho ch công tác,...; cung c p tài li u cho vi c nghiên c u t ng h p, rút kinh
nghi m công tác; cung c p ngu n t li u chính xác đ nghiên c u l ch s , l ch ư
s cách m ng, l ch s ho t đ ng c a các c p, các ngành.
V i s phát tri n c a khoa h c công ngh , đ c bi t công ngh thông tin
nhu c u ng d ng công ngh thông tin trong th c ti n đã s n sinh ra m t lo i
hình tài li u m i. Đó tài li u đi n t . N i dung thông tin tài li u đi n t
ph n ánh r t đa d ng phong phú nh chính ho t đ ng đa d ng phong phú ư
c a các c quan, t ch c nhà n c. Cũng gi ng nh tài li u ghi trên ch t li u ơ ướ ư
gi y, tài li u đi n t ch a đ ng thông tin r t đa d ng nh thông tin v ho t ư
đ ng qu n Nhà n c, thông tin v ho t đ ng nghiên c u, thông tin v ho t ướ
đ ng s n xu t, ho t đ ng kinh doanh... Tuy nhiên, khác v i tài li u truy n th ng
là thông tin đ c ghi trên gi y đ c đ c b ng m t th ng thì đ i v i tài li uượ ượ ườ
đi n t , thông tin đ c ghi trên c ng, đĩa m m, băng t , đĩa CD, thi t b l u ượ ế ư
tr ... ch th khai thác, s d ng đ c thông qua máy tính ch a ph n ượ
m m t ng thích. ươ
Cùng v i s phát tri n c a công ngh thông tin, nhu c u ti p c n, khai thác, s ế
d ng tài li u đi n t ngày càng tăng. Đ th đ a ra đ c nh ng ý ki n ban ư ượ ế
đ u v các nguyên t c khai thác, s d ng tài li u đi n t , bài vi t c a chúng tôi ế
xin cung c p m t s thông tin v kh năng ph ng pháp chung đ b o đ m ươ
cho vi c ti p c n khai thác nh ng tài li u đi n t cũng nh nh ng nguyên t c ế ư
ti p c n khai thác d ng tài li u đ c thù này.ế
Th c hi n quá trình khai thác, s d ng tài li u l u tr đi n t bao g m c hai ư
phía cung c u. Tài li u l u tr t o nên ph n ư cung còn các yêu c u ti p c n ế
khai thác tài li u là ph n c u. Công ngh máy tính chính là ph ng ti n đ cung ươ
c p tài li u cho nh ng ng i có yêu c u khai thác s d ng tài li u. ườ
Phía cung c a ch c năng ti p c n khai thác tài li u nh ch t xác đ nh c ế
đ nh. Tài li u l u tr ph i đ c gi l i nguyên tr ng nh đ c s n sinh ra ư ượ ư ượ
trong quá trình ho t đ ng c a c quan, t ch c hay nhân giá tr c a chúng ơ
đ c c quan l u tr l a ch n, đánh giá. Vi c cung c p b gi i h n b i nh ngượ ơ ư
nhu c u ho t đ ng c a c quan, t ch c hay cá nhân s n sinh tài li u, đ ng th i ơ
hình t ch c, các quy trình các ho t đ ng c a c quan đ th c hi n ch c ơ
C:\Nhung\TL dien tu\khai_thac_su_dung_tl_dien_tu_9412.doc_6/9/2010_19:06
A6/P6
1
năng nhi m v c a mình cũng nh h ng không nh đ n vi c cung c p ưở ế
tài li u cho nhu c u khai thác, s d ng.
Nhu c u ti p c n khai thác tài li u l u tr đi n t r t đa d ng, phong phú. Vào ế ư
b t kỳ th i đi m xác đ nh nào cũng th nhi u lo i yêu c u tính ch t
c a các yêu c u cũng th thay đ i theo th i gian. Nh ng yêu c u ti p c n ế
khai thác tài li u ph c v cho vi c nghiên c u, biên so n l ch s c a c quan, t ơ
ch c s n y sinh t quá trình hình thành tài li u; tuy nhiên, cũng ph i nói r ng
v th c ch t, đa s các yêu c u đ c l p v i m c đích ban hành b o qu n tài
li u đi n t . M c tiêu c th c a nh ng yêu c u ti p c n khai thác tài li u đi n ế
t s nh m khai thác, s d ng nh ng thông tin ch a đ ng trong tài li u. Tính
ch t ch ng c c a tài li u v n y u t quy t đ nh trong nh ng tr ng h p ế ế ườ
nh v y, b i l vi c hi u chính xác nh ng thông tin ch a đ ng trong tài li u ư
th đi u không th th c hi n đ c n u nh không hi u đ c tính ch t c a ượ ế ư ượ
các thông tin tài li u nh nh ng tài li u đích th c. ư
Công ngh thông tin - ph ng ti n đ ti p c n khai thác tài li u s thay đ i theo ươ ế
th i gian nh ng thay đ i c a công ngh thông tin s tác đ ng t i kh năng
th ti p c n khai thác đ c c a tài li u cũng nh nhu c u khai thác. Tài li u ế ượ ư
đi n t s tr nên không th ti p c n khai thác đ c n u nh chúng l thu c ế ượ ế ư
vào công ngh l i th i. H n n a, khi công ngh thông tin cung c p nh ng ơ
ph ng ti n ti p c n khai thác nhanh và linh ho t thì ng i nghiên c u s mu nươ ế ườ
s d ng các công c đó đ khai thác s d ng tài li u l u tr . Có th tin r ng s ư
l ng các nhà nghiên c u s tăng khi công ngh làm cho kh năng ti p c n khaiư ế
thác tài li u t xa ngày càng tr nên ph bi n hi u qu v m t chi phí. Cu i ế
cùng, th hy v ng r ng yêu c u ngày càng cao c a các nhà nghiên c u mu n
t n d ng c h i mà công ngh thông tin đem l i trong vi c ti p c n khai thác tài ơ ế
li u s làm cho l u tr có vai trò trung gian cho vi c ti p c n khai thác tài li u. ư ế
Nh v y, ch c năng b o đ m cho vi c ti p c n khai thác tài li u l u tr đi nư ế ư
t th đ c nhìn nh n nh m t ch c năng cung ng nh ng đ i t ng c ượ ư ượ
đ nh cho m t th tr ng luôn thay đ i h t s c đa d ng. Đ th đáp ng ườ ế
nhu c u khai thác tài li u m t cách h u hi u, ch c năng ti p c n khai thác s ế
ph i thích ng v i nh ng thay đ i v nhu c u t n d ng đ c nh ng u ượ ư
đi m l i th c a ti n b c a khoa h c công ngh . Đ ng th i, ch c năng này ế ế
còn ph i kh năng b o đ m tính xác th c c a nh ng s n ph m cung
c p. Đ gi i quy t tình tr ng trên, đòi h i ph i s ki m soát tri th c thích ế
h p đ i v i tài li u, các ph ng pháp b o đ m ti p c n khai thác s thích ươ ế
ng k p th i tr c nh ng thay đ i v nhu c u v công ngh . Chúng tôi s ướ
bàn đ n v n đ này ph n ti p theo.ế ế
Ti n đ cho vi c ti p c n khai thác tài li u l u tr đi n t ph i b o đ m tài ế ư
li u luôn trong tình tr ng s n sàng th ti p c n và hi u đ c. Ngoài ra, các ế ượ
ph ng pháp đ c áp d ng, xét v khía c nh n i dung, c u trúc b i c nhươ ượ
c a tài li u ph i b o đ m r ng chúng đ c cung c p d ng xác th c. ượ
1. Ki m soát v tri th c
S ki m soát tri th c b o đ m kh năng ti p c n khai thác tài li u thông qua ế
vi c xác đ nh t tài li u. B ng cách đó, s ki m soát tri th c xác đ nh
C:\Nhung\TL dien tu\khai_thac_su_dung_tl_dien_tu_9412.doc_6/9/2010_19:06
A6/P6
2
các yêu c u đ i v i vi c ti p c n khai thác nh ng tài li u xác th c (Thông tin ế
này còn đ c s d ng nh m t công c ki m soát nh ng quy t đ nh v vi cượ ư ế
l u gi /chuy n đ i tài li u đi n t qua các th h công ngh ). ư ế
Vi c t tài li u đi n t , cũng nh tài li u nói chung, c n ph i bao g m c ư
thông tin b i c nh metadata. Thông tin b i c nh, trong đó tài li u đ c t o ượ
l p bao g m m c đích c a vi c t o l p tài li u, tác gi tài li u, các ch c
năng ho t đ ng qua quá trình đó tài li u đ c hình thành; nh ng hoàn ư
c nh/đi u ki n l ch s nh h ng đ n vi c t o l p hay duy trì tài li u. ưở ế
Metadata nh ng d li u k thu t v tài li u đi n t , ch ng h n nh d li u ư
t v t ch c c u trúc bên trong c a tài li u các quy t c đi u ch nh
vi c b sung, xoá b hay thay đ i tài li u ho c là vi c di n gi i n i dung c a
tài li u.
Vi c nh n di n hay xác đ nh tài li u b t đ u b ng vi c xác đ nh các ph ng ươ
ti n v t mà trên đó tài li u đ c l u tr các t p c th đ c ghi trên m i ượ ư ượ
đ n v c a v t mang tin. Đ i v i tài li u đi n t , vi c nh n di n còn đòi h iơ
ph i ch ra đ c các m i quan h gi a tài li u và các t p v t(th c th ) đ c ượ ượ
ghi trên v t mang tin. Đó th m t m i quan h đ n gi n, 1-1 (ch ng h n ơ
nh m t th th đ c l u d i d ng m t t p x văn b n riêng bi t).ư ư ượ ư ướ
Nh ng các m i quan h đó cũng r t ph c t p (ví d , m t b n báo cáo th ư
m t văn b n ph c h p đ c l u trong nhi u t p th c th khác nhau). M c đ ượ ư
xác đ nh đó c n thi t, nh ng nh v y ch a đ ch a phù h p v i các ế ư ư ư ư
m c tiêu ki m soát tri th c. Đ h tr cho ng i s d ng xác đ nh đ c nh ng ườ ượ
tài li u nào hi n có, tài li u đáp ng đ c yêu c u c a h hay không thì đòi ượ
h i ph i có s ki m soát tri th c và mô t n i dung, b i c nh và c u trúc c a tài
li u.
Vi c t tài li u đi n t đòi h i ph i xác đ nh m t cách đ y đ chính xác
c u trúc bên trong c a m t tài li u m i quan h gi a các tài li u. Trong
tr ng h p m t văn b n d ng ASCII đ n gi n thì vi c t c u trúc bênườ ơ
trong ch c n t th lo i văn b n (nh th tín, k ho ch, báo cáo...). Trong ư ư ế
nh ng tr ng h p ph c t p h n thì vi c t c u trúc bên trong th bao ườ ơ
g m các thông tin k thu t v c u trúc đó đ c th hi n trong các t p th c th ượ
nh th nào ho t đ ng x c n đ th c hi n c u trúc đó khi tài li uư ế
đ c ti p c n khai thác (ch ng h n nh đ i v i m t văn b n c u trúc bênượ ế ư
trong c a theo các SGML (Standard Generalired Mark up Language) thì
đi u c n thi t ph i đ nh nghĩa v các đ c s d ng trong th c t ế ượ ế
nh ng thông tin ch d n đ th ti p c n khai thác văn b n thì ph i ph n ế
m m th d ch các đó sao cho văn b n hi n th nh v n có). Còn trong ư
nh ng tr ng h p ph c t p h n n a thì c u trúc bên trong không đ c th hi n ườ ơ ượ
trong các t p ch a n i dung c a tài li u. Thay vào đó, c u trúc s đ c đ a ượ ư
ra vào th i đi m ti p c n khai thác (ch ng h n nh m t t p CSDL th ch a ế ư
đ ng m t chu i liên ti p các d li u nh ng không h các đ ch d n n i ế ư ơ
nào m t tài li u d li u hay m t ph n t d li u b t đ u m t tài li u/ph n
t d li u khác k t thúc. C u trúc lô gíc c a t p d li u đó s đ c mô t trong ế ượ
m t t p khác t p này s xác đ nh s đ s p x p tài li u gíc). Trong nh ng ơ ế
tr ng h p nh v y, vi c t c n ph i xác đ nh đ c lo i d li u c u trúcườ ư ượ
C:\Nhung\TL dien tu\khai_thac_su_dung_tl_dien_tu_9412.doc_6/9/2010_19:06
A6/P6
3
nào c n ph i có, th tìm th y chúng đâu c n ph i x nh th nào đ ư ế
áp d ng c u trúc khi mà tài li u đ c ti p c n khai thác. ượ ế
M t s thông tin c n thi t đ xác đ nh t tài li u đi n t s đ c tìm ế ượ
th y trong các tài li u c a c quan s n sinh ra tài li u. Các thông tin t khác ơ
s ph i đ c t o l p theo đúng các tiêu chu n l u tr , nh t trong tr ng h p ượ ư ư
các h th ng hay các nhóm tài li u liên quan v t ra ngoài các ranh gi i c a ượ
c quan, t ch c.ơ
M i m t l u tr nh ng đòi h i riêng v vi c ki m soát tri th c đ i v i tài ư
li u. Tuy nhiên, trong t t c các tr ng h p, s ki m soát tri th c v n đ ườ
thi t y u đ i v i tài li u đi n t . Ki m soát tri th c đ i v i tài li u đi n t cònế ế
đòi h i vi c xác đ nh b t kỳ m t gi i h n pháp lý nào liên quan đ n tài li u. ế
2. Kh năng thích ng tr c nh ng thay đ i ư
Cũng gi ng nh công ngh đ c dùng đ t o l p l u tr tài li u, b t kỳ h ư ượ ư
th ng nào đ c xây d ng đ cung c p vi c ti p c n khai thác tài li u l u tr s ượ ế ư
tr nên l c h u. T c đ l c h u nhanh chóng c a h th ng ti p c n khai thác ế
ch c ch n s ph thu c vào áp l c c a nh ng kỳ v ng ngày càng cao c a ng i ườ
s d ng. Cùng v i s phát tri n c a công ngh , ng i s d ng luôn mu n nh n ườ
đ c nhi u ti n ích t nh ng kh năng ngày càng đ c c i ti n nâng caoượ ượ ế
trong vi c ti p c n khai thác tài li u đi n t . Đ có th đáp ng đ c nh ng đòi ế ượ
h i c a ng i s d ng thì h th ng ti p c n khai thác tài li u s ph i đ c ườ ế ượ
nghiên c u xây d ng v i nh ng tính toán h t s c linh ho t. Vi c thi t k m t ế ế ế
h th ng ti p c n khai thác có kh năng thích nghi còn t o đi u ki n cho l u tr ế ư
đáp ng k p th i nh ng yêu c u luôn thay đ i c a ng i nghiên c u. Đ thích ư
ng v i các đòi h i luôn thay đ i theo th i gian c a ng i s d ng thì vi c s ườ
d ng các công c chung nh các ph n m m tra tìm toàn văn đ i v i các tài li u ư
văn b n ph n m m tra tìm d li u m nh đ i v i các c s d li u thay ơ
các ch ng trình tra tìm ch h ng t i các seri tài li u riêng l s làm cho vi cươ ư
đi u ch nh h th ng ti p c n khai thác tr nên d dàng h n. ế ơ
3. Nh ng công vi c liên quan đ n ti p c n khai thác xuyên su t vòng đ i ế ế
tài li u
3.1. Giai đo n chu n b
Vi c ti p c n khai thác tài li u đi n t , cũng nh các ho t đ ng khác trong ch c ế ư
năng l u tr , c n đ c xem xét gi i quy t càng s m càng t t trong vòng đ i tàiư ượ ế
li u. t ng nh t nên b t đ u ngay t giai đo n chu n b . Các ph ng ưở ươ
pháp xác đ nh hay nh n di n và ti p c n tài li u l u tr c n ph i đ c xác đ nh ế ư ượ
càng s m càng t t đ a vào thi t k h th ng. Vi c thi t k c n ph i xác ư ế ế ế ế
đ nh t t c các lo i tài li u l u tr , k c metadata các thông tin k thu t ư
c n thi t khác đ tra tìm di n gi i tài li u cũng nh nh ng tài li u ghi l i ế ư
ho t đ ng tác nghi p công vi c. H th ng th đ c thi t k đ tiêu chu n ượ ế ế
hoá và t đ ng hoá vi c t o ra metadata và nh ng thông tin b i c nh.
Nh ng h n ch khi ti p c n khai thác tài li u cũng c n đ c ch rõ và vi c thi t ế ế ượ ế
k h th ng c n các bi n pháp thi t th c hi u qu kh c ph c nh ng h nế ế
ch nh v y. Vi c l p k ho ch cho toàn b vòng đ i c a h th ng cũng c nế ư ế
C:\Nhung\TL dien tu\khai_thac_su_dung_tl_dien_tu_9412.doc_6/9/2010_19:06
A6/P6
4
ph i tính đ n vi c xoá b các h n ch khi chúng không còn c n thi t n a. Khi ế ế ế
mà tài li u l u tr đ c đánh giá giai đo n chu n b thì h th ng th đ c ư ượ ượ
thi t k sao cho các yêu c u v ti p c n khai thác lâu dài ch đ c áp d ng đ iế ế ế ượ
v i nh ng tài li u c n ph i đ c gi l i b o qu n ngoài nh ng nhu c u công ượ
vi c th c ti n tr c m t c a c quan. ướ ơ
3.2. Giai đo n hình thành tài li u
Cũng nh vi c đánh giá b o qu n, khi các yêu c u l u tr đ c xem xétư ư ượ
gi i quy t giai đo n chu n b thì vi c hình thành duy trì b o qu n tài li u ế
s c n ph i đ c giám sát sao cho các tác nghi p c th ph i tuân theo đúng ượ
nh ng quy t đ nh đ c đ a ra giai đo n chu n b còn đ nh n bi t b t kỳ ế ượ ư ế
nh ng c i ti n nào có th đòi h i các quy t đ nh đó ph i đ c xem xét, đánh giá ế ế ượ
l i. Đi u đ c bi t quan tr ng tài li u l u tr ph i đ c nh n di n, xác đ nh ư ượ
đúng nh khi chúng đ c hình thành; nh ng thông tin b i c nh metadata c nư ượ
thi t và phù h p ph i đ c n m b t, g n k t v i tài li u đó.ế ượ ế
3.3. Giai đo n duy trì, b o qu n
Khi mà các yêu c u l u tr đ c xem xét gi i quy t trong giai đo n chu n b ư ượ ế
đ c g n k t vào vi c thi t k h th ng thì nh ng tác nghi p b o đ m khượ ế ế ế
năng th ti p c n lâu dài trong su t giai đo n duy trì b o qu n s vi c ế
th c thi thi t k đó làm theo đúng nh ng k ho ch đã đ c xây d ng t ế ế ế ượ
tr c. C n ph i ti n hành các b c đi tích c c đ b o đ m r ng nh ng thôngướ ế ướ
tin b i c nh metadata c n thi t đ c cung c p trong vi c thi t k h th ng ế ượ ế ế
đ c gi l i trong su t th i gian t n t i c a tài li u.ượ
N u nh tr c đó tài li u ch a đ c đánh giá thì toàn b tài li u trong h th ngế ư ướ ư ượ
s ph i đ c duy trì b o qu n toàn b . T ng t nh v y, n u các ph ng ượ ươ ư ế ươ
pháp nh n di n, xác đ nh t tài li u không đ c g n k t vào thi t k h ượ ế ế ế
th ng thì chúng ph i đ c xây d ng sau. Thông tin b i c nh metadata c n ượ
thi t đ tra tìm di n gi i v tài li u th s r t khó ho c không th thi tế ế
l p đ c n u nh các yêu c u trên không đ c quan tâm chú ý t i ngay t đ u. ượ ế ư ượ
Vi c ti p c n khai thác s đ c th c hi n trong giai đo n duy trì b o qu n c a ế ư
vòng đ i tài li u. M t khi tài li u đ c duy trì, b o qu n đ ph c v cho các ượ
m c đích hi n hành trong h th ng qu n lý tài li u c a c quan thì vi c ti p ơ ế
c n khai thác th đ c b o đ m b i h th ng đó. Tuy nhiên, đi u mong ượ
mu n vi c th c hi n ti p c n khai thác tài li u bên ngoài h th ng hi n hành ế
nh m b o đ m hi u qu ho t đ ng c a h th ng ho c b o v h th ng kh i
nh ng nguy c phát sinh t vi c cho phép nh ng nhân bên ngoài c quan s ơ ơ
d ng tài li u. Đi u này th th c hi n đ c b ng cách tách bi t tài li u l u ượ ư
tr kh i h th ng hi n hành ho c t o ra b n sao c a tài li u n u nh tài li u ế ư
l u tr v n còn giá tr hi n hành.ư
Vi c ki m soát tri th c đ i v i tài li u đi n t đã đ c chuy n giao vào kho l u ượ ư
tr c n ph i k t h p vi c ki m soát tri th c đ i v i các tài li u liên quan khác ế
trong l u tr . Nh ng thông tin b i c nh metadata liên quan mà c quan s nư ơ
sinh tài li u t o ra cũng c n ph i đ c chuy n giao cho l u tr cùng v i tài ượ ư
li u. Khi tài li u đi n t ch a đ c chuy n giao vào l u tr thì v n c n ph i ư ượ ư
thi t l p duy trì vi c ki m soát tri th c m c c n thi t đ giám sát vi c b oế ế
qu n kh năng th ti p c n khai thác tài li u m t cách liên t c. L u tr ế ư
C:\Nhung\TL dien tu\khai_thac_su_dung_tl_dien_tu_9412.doc_6/9/2010_19:06
A6/P6
5