m hiểu về hoạt động của các công cụm kiếm
Internet và World Wide Web có đến hàng trăm triệu website có sẵn
mang các thông tin về nhiều chủ đề khác nhau. Tuy nhn hầu hết
chúng đều được đặt tiêu đề theo ý thích của tác giả, và được đặt trên
máy chủ với cácn khó hiểu. Khi bạn cn biết về một chủ đề nào thì sẽ
phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đề
này họ sẽ sử dụng một công cụ tìm kiếm trên Internet (Internet search
engine).
Search engine trên Internet là các site đặc biệt trên web, được thiết kế để
giúp mọi người tìm kiếm thông tin được lưu trên các site khác nhau. Có
nhiu cách khác nhau trong cách tìm kiếm này, nhưng tất cả chúng đều thực
hin ba nhiệm vụ cơ bản:
Tìm kiếm Internet – hoặc chọn các mu thông tin tn Internet – dựa
trên các từ quan trọng
Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng
Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm
trong chỉ mục đó.
Các cỗ máy tìm kiếm trước kia đều giữ chỉ mục của hàng trăm ngàn trang
web và tài liệu, chúng thường nhận có thể một hoặc hai nghìn yêu cầu tìm
kiếm mỗi ngày. Ngày nay, cỗ máy tìm kiếm hàng đầu đánh chỉ mục hàng
trăm triệu trang và đáp trả đến hàng chục triệu yêu cầu mỗi ngày. Trong bài
này chúng tôi muốn giới thiệu về các nhiệm vụ chính sẽ được thực hiện như
thế nào, và cách các cỗ máy tìm kiếm này sẽ xử lý như thế nào để cho phép
bạn tìm tng tin cần thiết trên web.
Xem xét Web
Khi hầu hết mọi người nói về các cỗ máy tìm kiếm Internet, họ đều cho đó là
cỗ máy tìm kiếm World Wide Web. Tuy nhiên trước khi Web trở thành phần
dễ thấy nhất của Internet thì thực sự đã các cỗ máy tìm kiếm để giúp mọi
người có thể tìm được các thông tin trên mạng. Các chương trình với những
cái tên như "gopher" "Archie" đã giữ chỉ số của các file được lưu trên
máy chủ kết nối với Internet, đã giảm được một cách rõ rệt slượng thời
gian cần thiết để tìm kiếm các chương trình và i liu. Vào những m cuối
thập kỷ 80, việc có được các giá trị quan trọng từ Internet có nghĩa là biết
cách sử dụng gopher, Archie, Veronica và một số chương trình tương tự
khác.
Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm kiếm ca
họ trên Web, chính vì vy chúng i sẽ giới thiệu vấn đề này bằng cách tập
trung vào nội dung của các trang web.
Khởi đầu
Trước khi cỗ máy tìm kiếm có thể cho bạn biết về nơi một file hoặc tài liu
nào đó được lưu trữ t nó phải tìm ra được chúng. Để tìm các thông tin trên
hàng trăm triệu trang web đang tồn tại, mỗi một cỗ máy tìm kiếm phải sử
dụng đến các robot phần mm đặc biệt, các robot phần mm này được gọi là
spider (con nhện), để thành lập danh sách các từ tìm thấy trong các website.
Quá trình spider xây dựng danh sách được gọi là Web crawling. Để tạo
duy trì một danh sách hữu dụng cho việc tìm kiếm t spider của cỗ máy tìm
kiếm phải xem được nội dung của các trang web.
Vậy cách spider thực hiện công việc của nó trên Web như thế nào? Điểm
khởi đầu là danh sách các máy chủ và trang web phổ biến. Spider sẽ bắt đầu
với một site phổ biến nào đó, đánh chỉ mục các từ trên trang ca nó và theo
các liên kết tìm thấy bên trong site này. Theo cách này, hệ thống Spider sẽ
nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần
được sử dụng rộng rãi nhất của web.
Spider ly nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép
người dùng trực tuyến có thể tìm các trang mong muốn.
Google.com bắt đầu như một cỗ máy tìm kiếm của trường đại học. Trong bài
viết mô tả về cách hệ thống được xây dựng như thế nào, Sergey Brin và
Lawrence Page đã lấy một ví dụ về spider của họ có thể làm việc nhanh đến
cỡ nào. Họ đã xây dựng hệ thống ban đầu để có thể sử dụng nhiều spider,
thường là có đến 3 spiders hoạt động đồng thời. Mi Spider có thể giữ tới
khoảng 300 kết nối với các trang web mỗi thời điểm. Với hiệu suất đỉnh của
nó, sử dụng đến 4 Spider, hệ thống của họ có thể tìm tm tn 100 trang
mỗi giây, tạo ra khoảng 600KB dliệu mỗi giây.
Việc giữ được tốc độ tìm kiếm nhanh cũng nghĩa phải xây dựng hệ thống
có thể cung cấp được các thông tin cần thiết cho Spider. Hệ thống Google
trước kia có một máy chủ chuyên dụng dùng để cung cấp các URL cho
Spider. Thay cho việc phụ thuộc vào nhà cung cấp dịch vụ về DSN để dịch
tên của máy chủ thành địa chỉ, Google đã có DSN của chính họ để độ giữ
chậm diễn ra chỉ trong khoảng thời gian tối thiểu.
Khi Spider của Google xem các trang HTML, nó lưu ý hai thứ:
Các từ bên trong trang
Nơi tìm thấy các từ
Các từ xuất hiện trong tiêu đề, phụ đề, các thmeta và các phần quan trọng
khác có liên quan được lưu ý bằng những xem xét đặc biệt cho những tìm
kiếm của người dùng sau đó. Spider của Google đã được y dựng để có thể
đánh chỉ mục mọi từ quan trọng trên một trang và chỉ để lại các mạo tnhư
"a," "an" và "the". Các Spider khác lại sử dụng các phương pháp khác.
Các phương pháp khác mà Spider áp dụng thường là cố gắng làm cho hệ
thống của Spider diễn ra nhanh hơn, cho phép người dùng có thể tìm kiếm
hiu quả hơn, hoặc cả hai. Ví dụ, một số Spider giữ liên hệ với các từ trong
tiêu đề, các heading nhỏ và liên kết, cùng với 100 từ thường được sử dụng