“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ

Robots

Hôm qua (3/6/08) cả Google, Yahoo! và Microsoft cùng ra tuyên bố

chung hỗ trợ “Giao thức loại trừ Robots” (Robots Exclusion Protocol,

viết tắt REP): file Robots.txt và thẻ Meta Robots.

REP giúp webmaster điều hướng hoạt động của robot (hay còn gọi là

crawler, spider - phần mềm dò tìm dữ liệu của các cỗ máy tìm kiếm) đối với

website của mình. Webmaster có thể dùng file Robots.txt để ngăn chặn robot

xâm nhập các thư mục và file trên server của mình và thẻ Meta Robots giúp

ngăn chặn robots ở cấp độ từng trang riêng lẻ.

Về Robots.txt, cả 3 đại gia tìm kiếm đều hỗ trợ các chỉ dẫn (directive) sau:

 Disallow: không cho phép crawler dò tìm site.

 Allow: cho phép crawler dò tìm site.

 Ký tự đặc biệt *, $: thông báo crawler (dò hay không dò) một số thuộc

tính chung. Microsoft sẽ hỗ trợ từ cuối tháng 6 này.

 Sitemap Location: khai báo crawler vị trí Sitemaps của site.

[ Các chỉ dẫn trên có thể dùng kết hợp với nhau và hẹn gặp lại bạn ở bài

hướng dẫn chi tiết khác! ]

Về thẻ Meta Robots, cả Google, Yahoo! và Microsoft đều thỏa thuận:

 noindex: không cho phép crawler dò tìm trang này.

 nofollow: không cho phép crawler đi theo các link trên trang này.

 noarchive: không cho hiển thị cache của trang này.

 nosnippet: không cho phép hiển thị snippet của trang này.

 noodpt: không cho phép crawler dùng Title và snippet từ ODP.

Thực ra Giao thức ngăn chặn Robots – REP đã được hiểu ngầm là 1 tiêu

chuẩn chưa chính thức (de-facto standard) của các cỗ máy tìm kiếm từ

những năm 1990. Tuy nhiên đây là lần đầu tiên Google, Yahoo! và

Microsoft “cộng tác” (collaborating) hay “làm việc với nhau” (working

together) về REP, mặc dù họ chưa xây dựng nên 1 tiêu chuẩn mới (như đã

từng dựng trang Sitemaps.org năm 2006 hướng dẫn Sitemap cho website)

mà chỉ mới tuyên bố trên blog của họ.