
Tìm hiểu về hoạt động của các công cụ tìm kiếm

Internet và World Wide Web có đến hàng trăm triệu website có sẵn
mang các thông tin về nhiều chủ đề khác nhau. Tuy nhiên hầu hết
chúng đều được đặt tiêu đề theo ý thích của tác giả, và được đặt trên
máy chủ với các tên khó hiểu. Khi bạn cần biết về một chủ đề nào thì sẽ
phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đề
này họ sẽ sử dụng một công cụ tìm kiếm trên Internet (Internet search
engine).
Search engine trên Internet là các site đặc biệt trên web, được thiết kế để
giúp mọi người tìm kiếm thông tin được lưu trên các site khác nhau. Có
nhiều cách khác nhau trong cách tìm kiếm này, nhưng tất cả chúng đều thực
hiện ba nhiệm vụ cơ bản:
Tìm kiếm Internet – hoặc chọn các mẩu thông tin trên Internet – dựa
trên các từ quan trọng
Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng
Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm
trong chỉ mục đó.
Các cỗ máy tìm kiếm trước kia đều giữ chỉ mục của hàng trăm ngàn trang
web và tài liệu, chúng thường nhận có thể một hoặc hai nghìn yêu cầu tìm
kiếm mỗi ngày. Ngày nay, cỗ máy tìm kiếm hàng đầu đánh chỉ mục hàng
trăm triệu trang và đáp trả đến hàng chục triệu yêu cầu mỗi ngày. Trong bài
này chúng tôi muốn giới thiệu về các nhiệm vụ chính sẽ được thực hiện như
thế nào, và cách các cỗ máy tìm kiếm này sẽ xử lý như thế nào để cho phép
bạn tìm thông tin cần thiết trên web.

Xem xét Web
Khi hầu hết mọi người nói về các cỗ máy tìm kiếm Internet, họ đều cho đó là
cỗ máy tìm kiếm World Wide Web. Tuy nhiên trước khi Web trở thành phần
dễ thấy nhất của Internet thì thực sự đã có các cỗ máy tìm kiếm để giúp mọi
người có thể tìm được các thông tin trên mạng. Các chương trình với những
cái tên như "gopher" và "Archie" đã giữ chỉ số của các file được lưu trên
máy chủ kết nối với Internet, đã giảm được một cách rõ rệt số lượng thời
gian cần thiết để tìm kiếm các chương trình và tài liệu. Vào những năm cuối
thập kỷ 80, việc có được các giá trị quan trọng từ Internet có nghĩa là biết
cách sử dụng gopher, Archie, Veronica và một số chương trình tương tự
khác.
Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm kiếm của
họ trên Web, chính vì vậy chúng tôi sẽ giới thiệu vấn đề này bằng cách tập
trung vào nội dung của các trang web.
Khởi đầu
Trước khi cỗ máy tìm kiếm có thể cho bạn biết về nơi một file hoặc tài liệu
nào đó được lưu trữ thì nó phải tìm ra được chúng. Để tìm các thông tin trên
hàng trăm triệu trang web đang tồn tại, mỗi một cỗ máy tìm kiếm phải sử
dụng đến các robot phần mềm đặc biệt, các robot phần mềm này được gọi là
spider (con nhện), để thành lập danh sách các từ tìm thấy trong các website.
Quá trình spider xây dựng danh sách được gọi là Web crawling. Để tạo và
duy trì một danh sách hữu dụng cho việc tìm kiếm thì spider của cỗ máy tìm

kiếm phải xem được nội dung của các trang web.
Vậy cách spider thực hiện công việc của nó trên Web như thế nào? Điểm
khởi đầu là danh sách các máy chủ và trang web phổ biến. Spider sẽ bắt đầu
với một site phổ biến nào đó, đánh chỉ mục các từ trên trang của nó và theo
các liên kết tìm thấy bên trong site này. Theo cách này, hệ thống Spider sẽ
nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần
được sử dụng rộng rãi nhất của web.
Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép
người dùng trực tuyến có thể tìm các trang mong muốn.
Google.com bắt đầu như một cỗ máy tìm kiếm của trường đại học. Trong bài
viết mô tả về cách hệ thống được xây dựng như thế nào, Sergey Brin và
Lawrence Page đã lấy một ví dụ về spider của họ có thể làm việc nhanh đến

cỡ nào. Họ đã xây dựng hệ thống ban đầu để có thể sử dụng nhiều spider,
thường là có đến 3 spiders hoạt động đồng thời. Mỗi Spider có thể giữ tới
khoảng 300 kết nối với các trang web mỗi thời điểm. Với hiệu suất đỉnh của
nó, sử dụng đến 4 Spider, hệ thống của họ có thể tìm thêm trên 100 trang
mỗi giây, tạo ra khoảng 600KB dữ liệu mỗi giây.
Việc giữ được tốc độ tìm kiếm nhanh cũng có nghĩa phải xây dựng hệ thống
có thể cung cấp được các thông tin cần thiết cho Spider. Hệ thống Google
trước kia có một máy chủ chuyên dụng dùng để cung cấp các URL cho
Spider. Thay cho việc phụ thuộc vào nhà cung cấp dịch vụ về DSN để dịch
tên của máy chủ thành địa chỉ, Google đã có DSN của chính họ để độ giữ
chậm diễn ra chỉ trong khoảng thời gian tối thiểu.
Khi Spider của Google xem các trang HTML, nó lưu ý hai thứ:
Các từ bên trong trang
Nơi tìm thấy các từ
Các từ xuất hiện trong tiêu đề, phụ đề, các thẻ meta và các phần quan trọng
khác có liên quan được lưu ý bằng những xem xét đặc biệt cho những tìm
kiếm của người dùng sau đó. Spider của Google đã được xây dựng để có thể
đánh chỉ mục mọi từ quan trọng trên một trang và chỉ để lại các mạo từ như
"a," "an" và "the". Các Spider khác lại sử dụng các phương pháp khác.
Các phương pháp khác mà Spider áp dụng thường là cố gắng làm cho hệ
thống của Spider diễn ra nhanh hơn, cho phép người dùng có thể tìm kiếm
hiệu quả hơn, hoặc cả hai. Ví dụ, một số Spider giữ liên hệ với các từ trong
tiêu đề, các heading nhỏ và liên kết, cùng với 100 từ thường được sử dụng

