Trang chủ » Công Nghệ Thông Tin » Kỹ thuật phần mềm

3 trang

257 lượt xem

33

0

Web crawler- web spider- web robot- googlebot

Web crawler- web spider- web robot- googlebot Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó. Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email. Để đánh chỉ số các tài nguyên Web, mỗi robot sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung...

Chủ đề:

Robot tự hành

/

3

Web crawler- web spider- web robot- googlebot

Web crawler, web spider hay web robot là

một chương trình tự động tìm kiếm trên

Internet. Nó được thiết kết để thu thập tài

nguyên Internet (trang Web, hình ảnh,

video, tài liệu Word, PDF hay PostScrips) ,

cho phép máy tìm kiếm đánh chỉ số sau đó.

Cùng phương thức, nhưng một số robots lại

bị sử dụng để lượm các tài nguyên hoặc để

lọc địa chỉ email.

Để đánh chỉ số các tài nguyên Web, mỗi

robot sẽ đi theo các liên kết mà nó tìm thấy

tại một trang trung tâm. Sau đó, mỗi trang

đã duyệt sẽ được ghi nhớ lại và gán cho tần

số đánh lại chỉ số dựa vào mức độ cập nhật

thường xuyên hay không của trang.

Để điểu chỉnh ứng xử các robots, một tệp

tin ngoại trừ (robots.txt) sẽ được đặt tại thư

mục gốc của trang Web để chỉ định cho

robots một danh sách những tài nguyên

không được tiếp cận. Tệp tin robots.txt này

còn đưa ra danh sách những bọ tìm kiếm

nào được quyền đánh chỉ số trang Web.

Qui tắc này cho phép giảm tải trên máy chủ

và tránh đánh chỉ số những tài liệu không

cần thiết hoặc nhạy cảm. Tuy nhiên có

nhiều bọ tìm kiếm không tôn trọng chỉ định

này, và hoàn toàn bỏ qua tệp tin ngoại trừ

(robots.txt).

Một số bọ tìm kiếm phổ biến của các

máy tìm kiếm :

- Googlebot của Google

- MSNBot của MSN

- Slurp của Yahoo

- Scooter của Alta Vista

- Baidu của Baidu

Tài liệu liên quan

Tạo và sử dụng file robots.txt chuẩn SEO

Tạo và sử dụng file robots.txt – Seo

Lập trình đồ họa: Hướng dẫn từ A-Z cho người mới bắt đầu

Lập trình đồ họa

YouTube Robot: Tải, chuyển đổi file YouTube nhanh chóng

YouTube Robot: download, convert file từ YouTube

Robots.txt: Những điều cần biết [A-Z cho SEO 2024]

Robots.txt những điều cần biết

RobotVN 1.0: Lấy tin tự động từ báo VnExpress và báo Tuổi Trẻ

RobotVN 1.0 – Lấy tin tự động từ báo VnExpress và TuoiTre

Tìm hiểu về Thẻ META Robots và cách dùng Tập Tin Robots.txt hiệu quả

Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt

SEO với file robots: Kinh nghiệm tối ưu hóa chuẩn nhất

Seo với file robots

Robot.txt: Hướng dẫn Allow và Disallow Googlebot hiệu quả

Robot.txt và Googlebot – Allow và Disallow

Cách phát hiện và xử lý phần website không được Google crawl hiệu quả

Cách phát hiện xử lý những phần trong website không được google crawl

Giao thức loại trừ Robots: “Tam gia” tìm kiếm hỗ trợ mới nhất

“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ Robots

Tài liêu mới

Xây dựng hệ thống dạy và học trực tuyến: Bài thuyết trình tích hợp công nghệ Android cho di động

Bài thuyết trình: Xây dựng hệ thống hỗ trợ dạy và học trực tuyến với tích hợp công nghệ Android cho di dộng

Bài giảng Lập trình hướng đối tượng ThS. Trương Thị Minh Châu

Bài giảng Lập trình hướng đối tượng - ThS. Trương Thị Minh Châu

Bài giảng Lập trình Java: Kết nối cơ sở dữ liệu (JDBC) - Chương 5

Bài giảng Lập trình Java: Chương 5 - Kết nối cơ sở dữ liệu (JDBC)

Bài giảng Lập trình Java: Luồng (streams) - Chương 4

Bài giảng Lập trình Java: Chương 4 - Luồng (streams)

Bài giảng Lập trình Java: Kế thừa - Đa hình - Đóng gói (Chương 3)

Bài giảng Lập trình Java: Chương 3 - Kế thừa - Đa hình - Đóng gói

Bài giảng Lập trình Java: Đối tượng, lớp và phương thức (Chương 2)

Bài giảng Lập trình Java: Chương 2 - Đối tượng - lớp - phương thức

Bài giảng Lập trình Java: Tổng quan ngôn ngữ Java - Chương 1

Bài giảng Lập trình Java: Chương 1 - Tổng quan ngôn ngữ Java

Bài tập lớn quản lý thư viện: Kinh nghiệm và giải pháp

Bài tập lớn: Quản lý thư viện

Hệ thống quản lý cửa hàng bán thức ăn nhanh: Bài tập lớn [chuẩn nhất]

Bài tập lớn: Hệ thống quản lý cửa hàng bán thức ăn nhanh

Bộ câu hỏi trắc nghiệm Nhập môn Công nghệ phần mềm [mới nhất]

Bộ câu hỏi trắc nghiệm Nhập môn Công nghệ phần mềm

Bài tập thực hành Thiết kế web chuẩn SEO cho người mới

Bài tập thực hành Thiết kế web

Bài tập thực hành phân tích thiết kế hướng đối tượng

Bài tập Thực hành Phân tích thiết kế hướng đối tượng

Hệ thống POS cho cửa hàng đồ ăn nhanh: Báo cáo bài tập lớn

Báo cáo bài tập lớn: Hệ thống POS của cửa hàng bán đồ ăn nhanh

Bài giảng Lập trình Python nâng cao

Bài giảng Lập trình Python nâng cao

Tổng hợp tài liệu bài lab Java chi tiết

Tài liệu Tổng hợp bài lab Java

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

Zalo/Tel:

093 303 0098

Email:

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok

chứng nhận

Chịu trách nhiệm nội dung: Nguyễn Công Hà

Doanh nghiệp quản lý: Công ty TNHH Tài Liệu trực tuyến Vi Na - GCN ĐKDN: 0307893603

Địa chỉ: 54A Nơ Trang Long, P. Bình Thạnh, TP.HCM - Điện thoại: 0283 5102 888 - Email: info@tailieu.vn

Giấy phép Mạng Xã Hội số: 670/GP-BTTTT cấp ngày 30/11/2015