Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt

Có đôi lúc chúng ta không muốn spider/robot thu thập

những thông tin không cần thiết hoặc không muốn

“show” những thông tin nào đó trong website, vậy chúng

ta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này.

Có 2 cách để ngăn chặn robot thu thập thông tin của

website. Đầu tiên, đặt thẻ META Robots vào trong phần

HEAD của tập tin HTML (trang nào có chèn thẻ META

robots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viết

ra một tập tin đặc biệt được gọi là robots.txt và đặt nó vào

thư mục gốc của website.

Robots thực sự có ích từ khi các SE công bố chỉ thu thập

giới hạn một số trang của webiste để đánh chỉ mục, từ đó,

Robots được ứng dụng để tránh cho các robot thu thập

những trang chưa tối ưu hoặc những thông tin không muốn

trình bày. Ngoài ra, robots cũng được dùng trong các

trường hợp trùng lắp nội dung để tránh các robot đánh chỉ

mục nội dung trùng lặp.

Cuối cùng, các webmaster muốn loại bỏ nội dung của

những thư mục riêng tư, bí mật, … trên website.

Thẻ META Robots

Thẻ META robots là một thẻ bên trong mã HTML có tác

dụng điều hướng những robot thu thập thông tin những

trang nên đánh chỉ mục và những trang nên loại trừ của một

website.

Trong mã HTML của một trang web bất kỳ, thẻ META

Robots sẽ xuất hiện như sau:

“index” có nghĩa là các robot thu thập thông tin được phép

đánh chỉ mục trang này và “follow” có nghĩa là cho phép

các robot dựa vào những liên kết trên trang hiện tại để

khám phá các trang khác có liên quan đến trang này.

Bạn có thể hướng dẫn các robot không đánh chỉ mục một

trang bất kỳ nếu chuyển content=”noindex, follow” hoặc

content=”noindex, nofollow”. “follow” và “nofollow” là

cho phép hoặc không cho phép các robot dựa vào những

liên kết trên trang hiện tại để khám phá thêm các trang liên

quan.

Thẻ META Robots phải được đặt trong phần HEAD của

mã HTML. Một vài SE không hỗ trợ thẻ này mà chỉ hỗ trợ

Robots Exclusion Protocol.

Googlebot và MSNBot

Các spider/robot của Google được gọi là Googlebot, các

spider/robot của MSN được gọi là MSNBot. Khi đọc trang

HTML của bạn, những robot này xem xét thẻ META đặc

biệt là META Googlebot và META MSNBot. Hai thẻ này

có ý nghĩa trong việc webmaster không có quyền truy cập

vào thư mục gốc để áp dụng tập tin robots.txt, lúc đó,

webmaster sẽ bổ sung 2 thẻ này vào các tập tin HTML để

đáp ứng nhu cầu của mình.

Cú pháp như sau:

Bạn có thể dùng kết hợp “noindex”, “nofollow”,

“noarchive” hoặc “nosnippet” trong thuộc tính content.

“nosnippet”, “noarchive” sẽ thông báo với Google rằng

không trình bày snippet của trang trong các trang kết quả

tìm kiếm (SERP) và không lưu trữ bản sao của trang web.

Cú pháp khi dùng MSNBot:

MSNBot chỉ có 2 câu lệnh “noindex” và “nofollow”.

Robots Exclusion Protocol (tập tin robots.txt)

Robots Exclusion Protocol thường được gọi là tập tin

robots.txt, đây là một phương pháp khác để cho phép

chúng ta chỉ dẫn các robot thu thập thông tin như đã nói ở

trên.

Khi một robot viếng thăm website, đầu tiên, nó sẽ kiểm tra

sự tồn tại của tập tin robots.txt trong thư mục gốc của

website, nếu có tập tin robots.txt, nó sẽ làm theo những chỉ

dẫn được định nghĩa trong tập tin này.

Tập tin robots.txt sẽ có những thông tin như định dạng

sau:

User-agent: *

Disallow: /

Tập tin này luôn có 2 trường, trường thứ nhất là tên của các

robot, trường thứ 2 là thư mục hoặc các thư mục không cho

phép các robot thăm viếng.

“*” có nghĩa là tất cả các robot và “/” có nghĩa là tất cả

URL và điều này có nghĩa là ngăn chặn tất cả các robot cho

bất kỳ URL nào.

Sau đây là một ví dụ, ví dụ này cho chúng ta biết là

Googlebot sẽ không bị bất kỳ giới hạn nào.

User-agent: Googlebot

Disallow:

Hoặc không giới hạn với Googlebot, nhưng giới hạn thư

mục cgi-bin với các robot còn lại.

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /cgi-bin/

Một số ý kiến về tập tin robots.txt

1/ Tên tập tin robots.txt phải luôn là chữ thường ngay cả

khi website của bạn được đặt trên những server không phân

biệt hoa – thường như Windows.

2/ Ký tự đại diện chỉ được dùng trong User-agent, ngoài ra

không được hỗ trợ bởi các SE ngoại trừ Google (xem thêm

tại địa chỉ http://google.com/webmasters/).

3/ Các chức năng của website không bị ảnh hưởng bởi việc

có hay không có tập tin robots.txt hoặc tập tin này là rỗng.

Tuy nhiên, với một vài server và một vài robot, thì điều

này có thể gây ra lỗi 404, vì thế luôn luôn có tập tin

robots.txt.

4/ Mỗi tên miền chỉ có một tập tin robots.txt duy nhất và

nó phải được đặt trong thư mục gốc của tên miền đó.

5/ Nếu bạn không có quyền truy cập hay hiệu chỉnh tập tin

robots.txt, hãy sử dụng thẻ META Robots.

6/ Dùng chữ thường khi đặt tên tập tin robots.txt.

Để có thông tin đầy đủ hơn về tập tin robots.txt và cách sử

dụng, vui lòng truy cập vào

http://www.robotstxt.org/wc/norobots.html