Trang chủ » Công Nghệ Thông Tin » Kỹ thuật phần mềm

6 trang

209 lượt xem

13

0

Robot.txt và Googlebot – Allow và Disallow

Robot.txt và Googlebot – Allow và Disallow Khả năng tìm kiếm của các spider là rất lơn, chúng có thể lùng xục khắp nơi trên website của bạn. Với bài viết này chúng ta sẻ cũng tìm hiểm cách thức sử dụng file robots.txt để quy định các spider, đặc biệt là googlebot. Các User Agent của Google Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt....

Chủ đề:

Robot tự hành

/

6

Robot.txt và Googlebot – Allow và Disallow

Khả năng tìm kiếm của các spider là rất lơn, chúng có

thể lùng xục khắp nơi trên website của bạn. Với bài

viết này chúng ta sẻ cũng tìm hiểm cách thức sử

dụng file robots.txt để quy định các spider, đặc biệt là

googlebot.

Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn

chúng bằng cách thêm tên của bọ tìm kiếm tương

ứng và trong dòng User-agent tương ứng trong bảng

ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là

bạn chặn tất cả các bọ tìm kiếm với từ khóa

“Googlebot”.

Googlebot: Đánh chỉ số từ các chỉ mục cũ và mới

của Google.

Googlebot-Mobile: Đánh chỉ số cho các thiết bị cầm

tay hoặc di động.

Googlebot-Image: Đánh chỉ số các tệp tin ảnh.

Mediapartners-Google: Xuất hiện trong các trang

dăng quảng cáo của Google Adsense.

Adsbot-Google: Đánh chỉ số các trang được nhà

quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ

thông qua Google Adwords. Nó cho phép đánh giá

chất lượng của trang dùng dịch vụ Adwords.

Chặn Googlebot

Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau

vào file robots loại trừ :

User-agent: Googlebot

Disallow: /

Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ tìm

kiếm khác trừ một robot, Googlebot chẳng hạn, thì

bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn

không muốn trang liên quan biến mất khỏi kết quả tìm

kiếm của các máy tìm kiếm như Yahoo, MSN Live

hay Ask thì bạn không nên làm như thế.

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow:

Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin

robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần

mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh

“Allow” hoạt động cũng giống như “Disallow” chỉ khác

là nó liệt kê các thư mục hay trang bạn cho phép

đánh chỉ số.

Bạn có thể sử dụng đồng thời “Allow” và “Disallow”

cùng nhau. Chẳng hạn để cấm tất cả các trang trong

một thư mục “seotips” chẳng hạn, trừ tệp tin “toi-uu-

hoa.html”, bạn hãy làm như sau :

User-agent: Googlebot

Disallow: /seotips/

Allow: /seotips/toi-uu-hoa.html

Còn trong trường hợp bạn muốn chặn Googlebot và

sau đó lại vẫn muốn cho các bot khác của Google

(Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng

lệnh Allow như sau :

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Allow: /

Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn

phải liệt kê tất cả các trang mà bạn muốn chặn. Đây

là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là

các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng

này.

Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp

chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các

thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin,

wp-content cho blog WordPress) như sau :

User-agent: Googlebot

Disallow: /wp*/

Để chặn tất cả đường dẫn URL mà chứa ký tự (?)

chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm

như sau :

User-agent: *

Disallow: /*?

Kiểm tra phần kết của chuỗi ký tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê

các URL có phần kết tương ứng. Ví dụ để chặn tất cả

các đường dẫn URL kết thúc với pdf (phiên bản pdf

trên website để tránh trùng nội dung chẳng hạn) :

User-agent: Googlebot

Disallow: /*.pdf$

Bạn cũng có thể sử dụng tổ hợp kết này với lệnh

Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một

session ID, bạn có thể loại trừ chúng để tránh cho

GoogleBot phải đánh chỉ số một nội dung trùng lặp.

Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một

phiên bản trang mà bạn muốn thêm vào. Trong

Tài liệu liên quan

Tạo và sử dụng file robots.txt chuẩn SEO

Tạo và sử dụng file robots.txt – Seo

Lập trình đồ họa: Hướng dẫn từ A-Z cho người mới bắt đầu

Lập trình đồ họa

YouTube Robot: Tải, chuyển đổi file YouTube nhanh chóng

YouTube Robot: download, convert file từ YouTube

Robots.txt: Những điều cần biết [A-Z cho SEO 2024]

Robots.txt những điều cần biết

RobotVN 1.0: Lấy tin tự động từ báo VnExpress và báo Tuổi Trẻ

RobotVN 1.0 – Lấy tin tự động từ báo VnExpress và TuoiTre

Tìm hiểu về Thẻ META Robots và cách dùng Tập Tin Robots.txt hiệu quả

Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt

SEO với file robots: Kinh nghiệm tối ưu hóa chuẩn nhất

Seo với file robots

Cách phát hiện và xử lý phần website không được Google crawl hiệu quả

Cách phát hiện xử lý những phần trong website không được google crawl

Web crawler, Web spider, Web robot, Googlebot là gì?

Web crawler- web spider- web robot- googlebot

Giao thức loại trừ Robots: “Tam gia” tìm kiếm hỗ trợ mới nhất

“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ Robots

Tài liêu mới

Xây dựng hệ thống dạy và học trực tuyến: Bài thuyết trình tích hợp công nghệ Android cho di động

Bài thuyết trình: Xây dựng hệ thống hỗ trợ dạy và học trực tuyến với tích hợp công nghệ Android cho di dộng

Bài giảng Lập trình hướng đối tượng ThS. Trương Thị Minh Châu

Bài giảng Lập trình hướng đối tượng - ThS. Trương Thị Minh Châu

Bài giảng Lập trình Java: Kết nối cơ sở dữ liệu (JDBC) - Chương 5

Bài giảng Lập trình Java: Chương 5 - Kết nối cơ sở dữ liệu (JDBC)

Bài giảng Lập trình Java: Luồng (streams) - Chương 4

Bài giảng Lập trình Java: Chương 4 - Luồng (streams)

Bài giảng Lập trình Java: Kế thừa - Đa hình - Đóng gói (Chương 3)

Bài giảng Lập trình Java: Chương 3 - Kế thừa - Đa hình - Đóng gói

Bài giảng Lập trình Java: Đối tượng, lớp và phương thức (Chương 2)

Bài giảng Lập trình Java: Chương 2 - Đối tượng - lớp - phương thức

Bài giảng Lập trình Java: Tổng quan ngôn ngữ Java - Chương 1

Bài giảng Lập trình Java: Chương 1 - Tổng quan ngôn ngữ Java

Bài tập lớn quản lý thư viện: Kinh nghiệm và giải pháp

Bài tập lớn: Quản lý thư viện

Hệ thống quản lý cửa hàng bán thức ăn nhanh: Bài tập lớn [chuẩn nhất]

Bài tập lớn: Hệ thống quản lý cửa hàng bán thức ăn nhanh

Bộ câu hỏi trắc nghiệm Nhập môn Công nghệ phần mềm [mới nhất]

Bộ câu hỏi trắc nghiệm Nhập môn Công nghệ phần mềm

Bài tập thực hành Thiết kế web chuẩn SEO cho người mới

Bài tập thực hành Thiết kế web

Bài tập thực hành phân tích thiết kế hướng đối tượng

Bài tập Thực hành Phân tích thiết kế hướng đối tượng

Hệ thống POS cho cửa hàng đồ ăn nhanh: Báo cáo bài tập lớn

Báo cáo bài tập lớn: Hệ thống POS của cửa hàng bán đồ ăn nhanh

Bài giảng Lập trình Python nâng cao

Bài giảng Lập trình Python nâng cao

Tổng hợp tài liệu bài lab Java chi tiết

Tài liệu Tổng hợp bài lab Java

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

Zalo/Tel:

093 303 0098

Email:

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok

chứng nhận

Chịu trách nhiệm nội dung: Nguyễn Công Hà

Doanh nghiệp quản lý: Công ty TNHH Tài Liệu trực tuyến Vi Na - GCN ĐKDN: 0307893603

Địa chỉ: 54A Nơ Trang Long, P. Bình Thạnh, TP.HCM - Điện thoại: 0283 5102 888 - Email: info@tailieu.vn

Giấy phép Mạng Xã Hội số: 670/GP-BTTTT cấp ngày 30/11/2015