Web crawler- web spider- web robot- googlebot Web crawler, web spider hay web robot là
một chương trình tự động tìm kiếm trên
Internet. Nó được thiết kết để thu thập tài
nguyên Internet (trang Web, hình ảnh,
video, tài liệu Word, PDF hay PostScrips) ,
cho phép máy tìm kiếm đánh chỉ số sau đó.
Cùng phương thức, nhưng một số robots lại
bị sử dụng để lượm các tài nguyên hoặc để
lọc địa chỉ email.
Để đánh chỉ số các tài nguyên Web, mỗi
robot sẽ đi theo các liên kết mà nó tìm thấy
tại một trang trung tâm. Sau đó, mỗi trang
đã duyệt sẽ được ghi nhớ lại và gán cho tần
số đánh lại chỉ số dựa vào mức độ cập nhật
thường xuyên hay không của trang.
Để điểu chỉnh ứng xử các robots, một tệp
tin ngoại trừ (robots.txt) sẽ được đặt tại thư
mục gốc của trang Web để chỉ định cho
robots một danh sách những tài nguyên
không được tiếp cận. Tệp tin robots.txt này
còn đưa ra danh sách những bọ tìm kiếm
nào được quyền đánh chỉ số trang Web.
Qui tắc này cho phép giảm tải trên máy chủ
và tránh đánh chỉ số những tài liệu không
cần thiết hoặc nhạy cảm. Tuy nhiên có
nhiều bọ tìm kiếm không tôn trọng chỉ định
này, và hoàn toàn bỏ qua tệp tin ngoại trừ
(robots.txt).
Một số bọ tìm kiếm phổ biến của các
máy tìm kiếm :
- Googlebot của Google
- MSNBot của MSN
- Slurp của Yahoo
- Scooter của Alta Vista
- Baidu của Baidu