Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt
Có đôi lúc chúng ta không muốn spider/robot thu thập
những thông tin không cần thiết hoặc không muốn
“show” những thông tin nào đó trong website, vậy chúng
ta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này.
Có 2 cách để ngăn chặn robot thu thập thông tin của
website. Đầu tiên, đặt thẻ META Robots vào trong phần
HEAD của tập tin HTML (trang nào có chèn thẻ META
robots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viết
ra một tập tin đặc biệt được gọi là robots.txt và đặt nó vào
thư mục gốc của website.
Robots thực sự có ích từ khi các SE công bố chỉ thu thập
giới hạn một số trang của webiste để đánh chỉ mục, từ đó,
Robots được ứng dụng để tránh cho các robot thu thập
những trang chưa tối ưu hoặc những thông tin không muốn
trình bày. Ngoài ra, robots cũng được dùng trong các
trường hợp trùng lắp nội dung để tránh các robot đánh chỉ
mục nội dung trùng lặp.
Cuối cùng, các webmaster muốn loại bỏ nội dung của
những thư mục riêng tư, bí mật, … trên website.
Thẻ META Robots
Thẻ META robots là một thẻ bên trong mã HTML có tác
dụng điều hướng những robot thu thập thông tin những
trang nên đánh chỉ mục và những trang nên loại trừ của một
website.
Trong mã HTML của một trang web bất kỳ, thẻ META
Robots sẽ xuất hiện như sau:
“index” có nghĩa là các robot thu thập thông tin được phép
đánh chỉ mục trang này và “follow” có nghĩa là cho phép
các robot dựa vào những liên kết trên trang hiện tại để
khám phá các trang khác có liên quan đến trang này.
Bạn có thể hướng dẫn các robot không đánh chỉ mục một
trang bất kỳ nếu chuyển content=”noindex, follow” hoặc
content=”noindex, nofollow”. “follow” và “nofollow” là
cho phép hoặc không cho phép các robot dựa vào những
liên kết trên trang hiện tại để khám phá thêm các trang liên
quan.
Thẻ META Robots phải được đặt trong phần HEAD của
mã HTML. Một vài SE không hỗ trợ thẻ này mà chỉ hỗ trợ
Robots Exclusion Protocol.
Googlebot và MSNBot
Các spider/robot của Google được gọi là Googlebot, các
spider/robot của MSN được gọi là MSNBot. Khi đọc trang
HTML của bạn, những robot này xem xét thẻ META đặc
biệt là META Googlebot và META MSNBot. Hai thẻ này
có ý nghĩa trong việc webmaster không có quyền truy cập
vào thư mục gốc để áp dụng tập tin robots.txt, lúc đó,
webmaster sẽ bổ sung 2 thẻ này vào các tập tin HTML để
đáp ứng nhu cầu của mình.
Cú pháp như sau:
Bạn có thể dùng kết hợp “noindex”, “nofollow”,
“noarchive” hoặc “nosnippet” trong thuộc tính content.
“nosnippet”, “noarchive” sẽ thông báo với Google rằng
không trình bày snippet của trang trong các trang kết quả
tìm kiếm (SERP) và không lưu trữ bản sao của trang web.
Cú pháp khi dùng MSNBot:
MSNBot chỉ có 2 câu lệnh “noindex” và “nofollow”.
Robots Exclusion Protocol (tập tin robots.txt)
Robots Exclusion Protocol thường được gọi là tập tin
robots.txt, đây là một phương pháp khác để cho phép
chúng ta chỉ dẫn các robot thu thập thông tin như đã nói ở
trên.
Khi một robot viếng thăm website, đầu tiên, nó sẽ kiểm tra
sự tồn tại của tập tin robots.txt trong thư mục gốc của
website, nếu có tập tin robots.txt, nó sẽ làm theo những chỉ
dẫn được định nghĩa trong tập tin này.
Tập tin robots.txt sẽ có những thông tin như định dạng
sau:
User-agent: *
Disallow: /
Tập tin này luôn có 2 trường, trường thứ nhất là tên của các
robot, trường thứ 2 là thư mục hoặc các thư mục không cho
phép các robot thăm viếng.
“*” có nghĩa là tất cả các robot và “/” có nghĩa là tất cả
URL và điều này có nghĩa là ngăn chặn tất cả các robot cho
bất kỳ URL nào.
Sau đây là một ví dụ, ví dụ này cho chúng ta biết là
Googlebot sẽ không bị bất kỳ giới hạn nào.
User-agent: Googlebot
Disallow:
Hoặc không giới hạn với Googlebot, nhưng giới hạn thư
mục cgi-bin với các robot còn lại.
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /cgi-bin/
Một số ý kiến về tập tin robots.txt
1/ Tên tập tin robots.txt phải luôn là chữ thường ngay cả
khi website của bạn được đặt trên những server không phân
biệt hoa – thường như Windows.
2/ Ký tự đại diện chỉ được dùng trong User-agent, ngoài ra
không được hỗ trợ bởi các SE ngoại trừ Google (xem thêm
tại địa chỉ http://google.com/webmasters/).
3/ Các chức năng của website không bị ảnh hưởng bởi việc
có hay không có tập tin robots.txt hoặc tập tin này là rỗng.
Tuy nhiên, với một vài server và một vài robot, thì điều
này có thể gây ra lỗi 404, vì thế luôn luôn có tập tin
robots.txt.
4/ Mỗi tên miền chỉ có một tập tin robots.txt duy nhất và
nó phải được đặt trong thư mục gốc của tên miền đó.
5/ Nếu bạn không có quyền truy cập hay hiệu chỉnh tập tin
robots.txt, hãy sử dụng thẻ META Robots.
6/ Dùng chữ thường khi đặt tên tập tin robots.txt.
Để có thông tin đầy đủ hơn về tập tin robots.txt và cách sử
dụng, vui lòng truy cập vào
http://www.robotstxt.org/wc/norobots.html