Caffeine: Search index mới của Google
Google thông báo đã hoàn thành hệ thống search index (đánh chỉ mục)
website mới có tên là Caffeine. Caffeine mang lại nhiều hơn 50% kết
quả tìm kiếm cấp nhật nhất so với hệ thống cũ, nó là tp hợp nội dung
web ln nhất chúng tôi cung cấp. Nếu blog, forum ca bạn có bài post
mới bạn có thể tìm thấy ngay trên kết quả tìm kiếm trong thời gian
nhanh hơn nhiều so với trước đây.
Khi bạn search Google thực chất bạn không tìm kiếm các website thật mà
bạn chỉ đang tìm kiếm những website Google đã Index (Search Index),
giống như mục lục ở mi cuốn sách giúp bạn tìm kiếm chính xác nội dung
mình cntrang nào. (Bạn có thể tìm hiểu kỹ hơn về nguyên lý hoạt động
của SE ti đây)
Tại sao chúng tôi xây dựng hệ thống Index mi? Nội dung website phát triển
chóng mt, nó không chỉ phát triển về số lượng nội dung mà còn phát triển
nhiều hình thức khác nhau như video, ảnh, tin tức cập nhật thời gian thực.
Các webpage nhiu nội dung hơn và ngày càng phức tạp hơn. Hơn nữa
người dùng Google cũng đòi hỏi ngày càng cao hơn, họ đòi hỏi tìm thy nội
dung mới nhất và phù hợp nhất. Người xuất bản ni dung thì mong muốn
nội dung của họ phải được tìm thấy ngay sau khi xuất bản.
Để theo kp sự tiến hoá của web và đáp ứng nhu cầu của người dùng chúng
tôi xây dựng Caffeine. Ảnh dưới đây mô tả sự khác nhau giữa hệ thống
index cũ và caffein.
Hệ thống cũ có vài lớp, một vài thông tin mới cập nhật sẽ nhanh hơn số
khác. Lớp cơ bản sẽ update trong vòng 2 tuần. Để cập nhật một lớp cũ chúng
tôi s phân tích toàn bộ website, điều đó có nghĩa là sẽ có thi gian trễ từ lúc
tìm thy website cho đến lúc đưa kết quả đến vi người dùng.
Với Caffeine, chúngi sẽ phân tích website theo từng mảnh nhỏ và update
nội dung trong Search Index một cách liên tc. Khi tìm thấy một webpages
mới hoặc một thông tin mới trên mt trang cũ, chúng i sẽ đưa trực tiếp vào
Search Index. Điều đó có nghĩa là bạn sẽ tìm được nội dung cập nhật nhất
của một website.
Caffeine cho phép chúng tôi Index một khối lượng lớn webpages. Mỗi giây
Caffeine xử lý song song hàng trăm nghìn web pages . Nếu quy lượng thông
tin ra giy thì mỗi giây Caffeine xử lý một chồng giấy tờ cao 3 miles (
khoảng 5km). Caffein cũng sử dụng 100 triệu Gigabyte bộ nhớ trên mt
database và thêm vào 100 đến 1.000 Gigabyte mỗi ngày. Bạn cần 625.000
chiếc iPod để lưu trữ lượng thông tin đó, nếu xếp số iPod đó bạn sẽ được
một cây iPod cao 40 miles (khoảng 70km).
Chúng tôi xây dựng Caffeine với tầm nhìn cho tương lai. Không chỉ cập nhật
hơn, nó là một nền tảng mnh mẽ cho phép chúng tôi xây dựng một Search
Engine đủ sức đáp ứng được sự phát triển thông tin trên Internet và đưa kết
quả tìm kiếm tới bạn.