M C L C
L I M
Đ U................................................................................................4
PH N I: M
Đ U........................................................................................6
1. Tính c p thi t c a lu n ế
văn.....................................................................6
2. M c đích, nhi m v c a lu n
văn...........................................................7
2.1 M c đích c a lu n
văn............................................................................7
2.2 Nhi m v c a lu n
văn............................................................................7
3. Ph m vi nghiên
c u..................................................................................7
4. N i dung lu n
văn....................................................................................8
PH N II: N I
DUNG..................................................................................9
CH NG I: GI I THI U B CÔNG C TÌM KI M THÔNGƯƠ
TIN.......9
1.1 Khái ni m b công c tìm ki m thông ế
tin............................................9
1
1.2 B công c tìm ki m thông tin trên ế
m ng..........................................13
1.3 hình b công c tìm ki m thông tin truy n ế
th ng......................18
1.4 c u trúc d li u trong t ch c tìm ki m thông ế
tin.......................20
1.4.1 B ng
băm.............................................................................................20
1.4.1.1 Khái ni m hàm
băm........................................................................20
1.4.1.2 Khái ni m b ng
băm......................................................................22
1.4.1.3 Gi i quy t xung ế
đ t........................................................................23
1.4.2 Cây cân b ng nhi u đ ng B - ườ
Tree..................................................27
1.4.2.1 Đ nh nghĩa cây B -
Trees................................................................27
1.4.2.2 Cây B* - Tree.................................................................................29
1.4.2.3 Cây B+ - Tree..................................................................................29
1.4.2.4 Cây BLink – Trees.............................................................................31
1.4.2.5 L a ch n ph ng pháp d li u t n ươ
s.............................................32
2
CH NG II: CÁC CÔNG C TÌM KI M CƯƠ Ơ
B N.............33
2.1 Thu h i trang
Web................................................................................33
2.1.1 Web Crawler.......................................................................................33
2.1.2 Ch n l a các
trang.............................................................................34
2.2 L uư
tr ...............................................................................................38
2.2.1 S phân tán trang theo các nút............................................................39
2.2.2 Các ph ng pháp t ch c trang v tươ
.................................................40
2.2.3 Các chi n thu t c pế
nh t......................................................................40
2.3 L p ch
m c........................................................................................43
2.1.1 C u trúc c a b ng ch
m c.................................................................45
2.1.2 M t s thách
th c................................................................................46
2.3.3 Chia b ng ch
m c................................................................................46
2.4 S p x p phân tích liên ế
k t............................................................48ế
3
2.4.1 Ph ng phápươ
PageRank.......................................................................49
2.4.2 Ph ng phápươ
HIST..............................................................................54
CH NG III: THI T K CÁC CÔNG C TÌM KI M THÔNG TINƯƠ
TRÊN M NG...............................................................................................61
3.1 đun l p ch
m c..............................................................................62
3.1.1 Khái ni m ch
m c................................................................................62
3.1.1 Các c u trúc l u ch ư
m c....................................................................62
3.1.2 Các b c xây d ng ch m c theo ph ng pháp Invertedướ ươ
files............68
3.1.4 L p ch m c v i ngu n d li u đ u
vào...............................................76
3.2 đun tìm
ki m..................................................................................77ế
3.2.1 Các d ng truy
v n...............................................................................80
3.2.2 Phân tích cú pháp truy v n.................................................................81
3.2.3 Các ph ng pháp gi i quy t v nươ ế
đ ....................................................83
3.3 đun s p
x p....................................................................................82ế
4
Các hình s p x p đánh ế
giá........................................................82
1. hình
Boolean.................................................................................83
2. Mô hình không gian vector.................................................................84
PH N III: K T
LU N...............................................................................90
1. K t qu đ t đ c trong lu nế ượ
văn.......................................................90
2. H ng phát tri n trong t ngướ ươ
lai......................................................91
TÀI LI U THAM KH O..........................................................................94
PH
L C.....................................................................................................98
5