
BÀI GI NG TH VI N SẢ Ư Ệ Ố
CH NG 3: ƯƠ CH M C TÀI LI U VĂN B NỈ Ụ Ệ Ả
TS. Đ QUANG VINHỖ
HÀ N I - 2013Ộ

2
2
N I DUNGỘ
I. T NG QUAN V TH VI N S DLỔ Ề Ư Ệ Ố
II. MÔ HÌNH HÌNH TH C CHO TH VI N S DLỨ Ư Ệ Ố
III. CH M C TÀI LI UỈ Ụ Ệ
IV. TÌM KI M THÔNG TINẾ
V. CÁC CHU N S D NG TRONG TH VI N SẨ Ử Ụ Ư Ệ Ố
VI. TH C HÀNH H PH N M M Ự Ệ Ầ Ề
TH VI N S GREENSTONEƯ Ệ Ố

3
3
III. CH M C TÀI LI U VĂN B NỈ Ụ Ệ Ả
3.1 M Đ UỞ Ầ
Đ nh nghĩa 3.1 ị(từ đ nh n d ng đ i v i ch m c): là m t ể ậ ạ ố ớ ỉ ụ ộ
dãy c c đ i c a các ký t ch và s , nh ng gi i h n t i đa ự ạ ủ ự ữ ố ư ớ ạ ố
256 ký t và t i đa 4 ký t sự ố ự ố
B ng 3.1 - CSDL TREC ả
S tài li u Nố ệ 741856
S thu t ng Fố ậ ữ 333338738
S thu t ng riêng bi t nố ậ ữ ệ 535346
S con tr ch m c fố ỏ ỉ ụ 134994414
Kích th c t ng (MB)ướ ổ 2070.29

4
4
3.2 CH M C T P Đ O IFIDỈ Ụ Ệ Ả
Đ nh nghĩa 3.2 ị(Đ Trung Tu n):ỗ ấ Ch m cỉ ụ là b ng d li u hay ả ữ ệ
c u trúc d li u dùng đ xác đ nh v trí c a các dòng trong t p ấ ữ ệ ể ị ị ủ ệ
theo đi u ki n nào đóề ệ
Đ nh nghĩa 3.3 ị(Folk M.J., Zoellick B., Riccardi G.): Ch m c ỉ ụ là
m t cách tìm ki m thông tinộ ế
Đ nh nghĩa 3.4ị: Ch m cỉ ụ là m t c ch nh m đ nh v thu t ng ộ ơ ế ằ ị ị ậ ữ
cho tr c trong văn b nướ ả
Đ nh nghĩa 3.5ị (ch m c t p đ o IFID)ỉ ụ ệ ả : Đ i v i m i m t thu t ố ớ ỗ ộ ậ
ng trong t đi n, m t IF ch a m t danh sách đ o (IL) l u tr ữ ừ ể ộ ứ ộ ả ư ữ
m t danh sách con tr t i t t c xu t hi n c a thu t ng đó trong ộ ỏ ớ ấ ả ấ ệ ủ ậ ữ
văn b n chính, trong đó m i m t con tr trong th c t là s tài ả ỗ ộ ỏ ự ế ố
li u mà thu t ng đó xu t hi n. IL đôi khi đ c coi là m t danh ệ ậ ữ ấ ệ ượ ộ
sách m c l c và các con tr là m c l cụ ụ ỏ ụ ụ
Đây là ph ng pháp ch m c t nhiên nh t, g n t ng ng v i ươ ỉ ụ ự ấ ầ ươ ứ ớ
ch m c c a m t cu n sách và v i cách dùng m c l c truy n ỉ ụ ủ ộ ố ớ ụ ụ ề
th ngố

5
5
B ng 3.2 - Văn b n m u; m i dòng là m t tài li uả ả ẫ ỗ ộ ệ
TÀI LI U ỆVĂN B NẢ
1 Information retrieval is searching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing