
Thuật toán xếp hạng của các cỗ máy tìm kiếm
Khi tìm kiếm bất cứ thứ gì với các cỗ máy tìm kiếm ưu thích của các bạn, thì gần
như ngay lập tức, các cỗ máy tìm kiếm sẽ tìm trong cơ sở dữ liệu hàng triệu trang
của nó lấy một hay nhiều kết quả phù hợp nhất cho bạn. Những kết quả phù hợp
hơn sẽ được liệt kê trên cùng.
Tất nhiên, những cỗ máy tìm kiếm không luôn luôn đúng. Những trang không liên
quan làm nó bỏ qua, và đôi khi nó có thể đưa nhiều hơn những gì bạn cần. Nhưng,
đối với những cỗ máy tìm kiếm lớn, kết quả thật đáng kinh ngạc.
Brian Pinkerton - người sáng lập WebCrawler nói: "khi bạn vào một thư viện, bạn
hỏi người thủ thư: 'travel'? Người thủ thư sẽ nhìn bạn chằm chằm và đưa ra vài gợi
ý để bạn có thể miêu tả nhiều hơn, rõ nghĩa hơn những gì bạn cần tìm liên quan đế
n
từ khóa 'travel'. Đối với các search engine thì không phải như vậy. Bạn chỉ có thể
tìm được những thông tin liên quan đến từ khóa bạn nhập vào. Nó ít khi đưa ra cho
bạn một gợi ý tốt hơn (ngoại trừ từ bạn đưa vào bị sai chính tả)."
Vậy, làm sao để những cỗ máy tìm kiếm có thể tìm kiếm, lục lọi trong đống hồ sơ
hàng trăm triệu trang của chúng để tìm ra những kết quả liên quan cho bạn? Câu trả

lời ở đây là chúng có những quy tắc nhất định, được biết đến như những giải thuật
đặc biệt. Mỗi giải thuật được thể hiện chính xác như thế nào thì không ai được biết,
vì đây là bí mật thương mại, nhưng nhìn chung, chúng có những điểm cơ bản sau
đây:
Vị trí, vị trí, vị trí...và tần số
Một trong số những quy tắc chính trong giải thuật xếp hạng bao gồm sự định vị (vị
trí) và tần số xuất hiện của những từ khóa trên một trang web. Gọi ngắn gọn, nó là
phương pháp định vị (vị trí)/ tần số. Lấy lại ví dụ trước: Khi bạn hỏi một thủ thư về
"travel", rõ ràng anh ta sẽ đi tìm đến những cuốn sách có tiêu đề liên quan đến du
lịch (travel). Các cỗ máy tìm kiếm cũng làm việc như vậy. Những trang với những
thuật ngữ tìm kiếm xuất hiện trong tiêu đề HTML thường là những nội dung liên
quan nhất của đề tài. Những cỗ máy tìm kiếm cũng kiểm tra xem phải chăng những
từ khóa cần tìm kiếm xuất hiện gần đỉnh của một trang web, như trong hàng tít hay
trong câu đầu tiên văn bản. Chúng giả thiết rằng bất kỳ trang nào liên quan đối với
đề tài sẽ đề cập những từ đó ngay từ đầu tiên.
Tần số là nhân tố chính khác trong những cỗ máy tìm kiếm xác định mối quan hệ
như thế nào. Các cỗ máy tìm kiếm sẽ phân tích tần số xuất hiện của một từ khóa

trong tòan bộ trang web. Một từ xuất hiện lặp lại nhiều lần thường trên một trang
được coi là liên quan hơn so với các trang khác.
Gia vị trong công thức
Bây giờ sẽ là thời gian phân loại phương pháp định vị (vị trí)/ tần số được mô tả ở
trên. Tất cả những cỗ máy tìm kiếm chính cho phép nó tới độ nào đó, giống như
những người nấu bếp có thể đi theo sau một công thức tiêu chuẩn. Trừ phi những
người nấu bếp thích thêm những thành phần bí mật của mình. Với hình thức giống
như vậy, những cỗ máy tìm kiếm thêm đồ gia vị vào phương pháp định vị (vị trí)/
tần số. Không có một công thức nào là mẫu số chung. Chính vì vậy, mỗi cỗ máy
tìm kiếm sẽ cho ra kết quả khác nhau với cùng một từ khóa được tìm kiếm.
Đầu tiên, một số cỗ máy tìm kiếm lập chỉ mục nhiều trang web hơn so với các cỗ
máy khác. Một số cỗ máy tìm kiếm lại thường index một số trang web nào đó
thường xuyên hơn. Kết quả là không có cỗ máy tìm kiếm nào có cùng kết quả về
danh sách hồ sơ chúng tập hợp được. Đó là điều tự nhiên khi chúng ta thử so sánh
kết quả.
Nh
ững cỗ máy tìm kiếm có thể cũng phạt những trang hay loại trừ họ từ danh bạ

