BÀI GI NG TH VI N S Ư
CH NG 3: ƯƠ CH M C TÀI LI U VĂN B N
TS. Đ QUANG VINH
HÀ N I - 2013
2
2
N I DUNG
I. T NG QUAN V TH VI N S DL Ư
II. MÔ HÌNH HÌNH TH C CHO TH VI N S DL Ư
III. CH M C TÀI LI U
IV. TÌM KI M TNG TIN
V. CÁC CHU N S D NG TRONG TH VI N S Ư
VI. TH C HÀNH H PH N M M
TH VI N S GREENSTONEƯ
3
3
III. CH M C TÀI LI U VĂN B N
3.1 M Đ U
Đ nh nghĩa 3.1 (t đ nh n d ng đ i v i ch m c): m t
dãy c c đ i c a các ký t ch s , nh ng gi i h n t i đa ư
256 ký t t i đa 4 ký t s
B ng 3.1 - CSDL TREC
S i li u N 741856
S thu t ng F 333338738
S thu t ng riêng bi t n 535346
S con tr ch m c f 134994414
Kích th c t ng (MB)ướ 2070.29
4
4
3.2 CH M C T P Đ O IFID
Đ nh nghĩa 3.2 Trung Tu n): Ch m c b ng d li u hay
c u trúc d li u ng đ xác đ nh v trí c a c ng trong t p
theo đi u ki n nào đó
Đ nh nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Ch m c
m t ch tìm ki m thông tin ế
Đ nh nghĩa 3.4: Ch m c m t c ch nh m đ nh v thu t ng ơ ế
cho tr c trong văn b nướ
Đ nh nghĩa 3.5 (ch m c t p đ o IFID) : Đ i v i m i m t thu t
ng trong t đi n, m t IF ch a m t danh ch đ o (IL) l u tr ư
m t danh sách con tr t i t t c xu t hi n c a thu t ng đó trong
văn b n chính, trong đó m i m t con tr trong th c t s tài ế
li u mà thu t ng đó xu t hi n. IL đôi khi đ c coi m t danh ượ
ch m c l c các con tr m c l c
Đây ph ng pp ch m c t nhiên nh t, g n t ng ng v i ươ ươ
ch m c c a m t cu n ch v i ch ng m c l c truy n
th ng
5
5
B ng 3.2 - Văn b n m u; m i dòng là m t tài li u
TÀI LI U VĂN B N
1 Information retrieval is searching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing