Web crawler

Xem 1-11 trên 11 kết quả Web crawler

Báo cáo nghiên cứu khoa học: Kỹ thuật tách từ trong câu tiếng Việt và ứng dụng tìm kiếm thông tin trên website

Nội dung nghiên cứu đề tài gồm 4 chương, được trình bày cụ thể như sau: Tổng quan về tách từ tiếng Việt; Quy trình xây dựng hệ thống tìm kiếm thông tin tách từ tiếng Việt; Các kỹ thuật lưu trữ; Áp dụng vào tìm kiếm thông tin trên web.

62p concobay25 25-06-2021 37 12 Download

Tạo và sử dụng file robots.txt – Seo

Dưới đây là hướng dẫn tạo và sử dụng file robots.txt cho website, để các bộ máy tìm kiếm quản lý index nội dung của website bạn robots.txt là file văn bản có cấu trúc, khi các spider (bot, crawler) của các SE (Search engine) vào website để thu thập dữ liệu thì sẽ vào file robots.txt để xem các chỉ dẫn trong file này.

4p hihinn 21-08-2013 75 9 Download

Đánh cắp máy ảo và dữ liệu máy ảo

Chúng ta có thể khẳng định ảo hóa mang lại rất nhiều lợi ích so với những máy chủ vật lý, tuy nhiên cũng có nhiều hiểm họa khôn lường mà chúng ta cần lưu tâm để có thể áp dụng phương pháp bảo vệ tốt nhất tránh thất thoát những dữ liệu quan trọng. Do máy ảo được gói gọn trong một file đĩa ảo duy nhất trên một máy chủ ảo, nên không có gì khó khăn để tạo ra một bản copy của file đĩa ảo đó và truy cập vào mọi dữ liệu trong đó với...

3p bibocumi27 14-01-2013 64 4 Download
LUẬN VĂN: TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN

Tham khảo luận văn - đề án 'luận văn: tìm hiểu về web crawler và xây dựng website tổng hợp thông tin', luận văn - báo cáo, công nghệ thông tin phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả

61p chieu_mua 29-08-2012 881 189 Download
Đề tài " XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER "

Cùng với sự phát triển của Internet, số lượng các bài báo khoa học được công bố trên các Web ngày càng tăng, điều này gây ra một số khó khăn khi người dùng muốn tìm kiếm các bài báo về vấn đề mà mình nghiên cứu, cũng như gây ra một thách thức lớn đối với các hệ thống đánh dấu, lưu trữ dữ liệu chỉ mục hỗ trợ tìm kiếm trong việc đảm bảo thông tin các bài báo được cập nhật đẩy đủ, nhanh chóng và chính xác. Hiện nay khi người nghiên cứu cần tìm kiếm một...

89p lebronjamesuit 23-08-2012 186 54 Download
Sự quan trọng của file Robots.txt

Sự quan trọng của file Robots.txt Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt Vậy file Robots.txt là gì? khi một search engine tìm đến (nguyên văn Crawler) web site nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho search engine đó biết rằng, web site này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt). ...

5p davidvilla2425 31-03-2011 120 18 Download
Robots.txt những điều cần biết

Robots.txt những điều cần biết Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt. Vậy file Robots.txt là gì? Khi một search engine tìm đến (nguyên văn Crawler) Website nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, Website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt)....

6p davidvilla2425 31-03-2011 123 14 Download
Các cỗ máy tìm kiếm hoạt động như thế nào?

Các cỗ máy tìm kiếm hoạt động như thế nào? Thuật ngữ "Cỗ máy tìm kiếm - search Engine" được dùng chung để chỉ 2 hệ thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler-Based search Engines) và dạng thư mục internet do con người quản lý (Human-Powered Directories). Hai hệ thống tìm kiếm này tìm và lập danh mục website theo 2 cách khác nhau. Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự động Những cỗ máy tìm kiếm tự động, như Google, tạo ra những danh sách của họ tự động. ...

6p davidvilla2425 31-03-2011 190 34 Download
Web crawler- web spider- web robot- googlebot

Web crawler- web spider- web robot- googlebot Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó. Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email. Để đánh chỉ số các tài nguyên Web, mỗi robot sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung...

3p jupyter2425 19-03-2011 171 33 Download
“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ Robots

“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ Robots Hôm qua (3/6/08) cả Google, Yahoo! và Microsoft cùng ra tuyên bố chung hỗ trợ “Giao thức loại trừ Robots” (Robots Exclusion Protocol, viết tắt REP): file Robots.txt và thẻ Meta Robots. REP giúp webmaster điều hướng hoạt động của robot (hay còn gọi là crawler, spider - phần mềm dò tìm dữ liệu của các cỗ máy tìm kiếm) đối với website của mình. Webmaster có thể dùng file Robots.txt để ngăn chặn robot xâm nhập các thư mục và file trên server của mình và thẻ...

2p ad_uit 26-12-2010 103 7 Download
7 chiến lược SEO nâng cao

7 chiến lược SEO nâng cao Bài viết tổng hợp 7 chiến lược SEO nâng cao, được site HSPB dịch lại, và Làm SEO trân trọng giới thiệu với bạn đọc đang tìm hiểu “SEO nâng cao“. 1. Syndicate bài viết có đặt liên kết tới sitemap của bạn Có lẽ bạn đã biết, syndicate bài viết là một trong những phương pháp tốt nhất để thu được nhiều backlink một chiều. Các backlink này rất giá trị bởi vì đội ngũ crawler của các công cụ tìm kiếm sẽ thường xuyên truy cập tới những directory bài viết được nhiều...

6p ad_uit 26-12-2010 274 129 Download