5 thách thức lớn của công nghệ tìm kiếm kế tiếp
Nhu cu hiện hữu hoặc chưa hiện hữu. Ngày nay, chúng ta khá thỏa mãn vi
những gì Google mang lại. Nhưng chưa chắc cm giác này còn tn tại
tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra s không
dừng khả năng hiện tại bởi những nhu cầu sắp tới, scạnh tranh ddội t
đối thủ và thách thức phát trin của Internet. Bằng hiểu biết hạn hẹp, người
viết xin được đưa ra 5 vấn đề lớn mà các y m kiếm đã, đang scần
giải quyết trong tương lai gn.
Thách thức thứ nhất: Dữ liệu Web 2.0
Không cn phải đề cập nhiều, sự bùng ncủa Web 2.0 kéo theo trào u
người dùng tham gia tạo nội dung trên Internet. Sbùng nnày một thách
thức ln vi việc xử d liệu trong hệ thống máy tìm kiếm.
Khoảng 5 năm trở lại đây, dliệu gia tăng đột biến về lượng. Lượng dliệu
này tồn tại trên các diễn đàn, blog, wiki, social network, multimedia
service,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hàng
ngày. Bng giải pháp lưu trữ và xpn n, máy tìm kiếm hiện tại giải
quyết khoàn hảo nhim vụ này. Tuy nhiên, tốc độ ng trưởng d liệu
chẳng những không ngừng mà thậm ccòn mạnh n. Đng nghĩa với nó,
chi phí băng tng, phần cứng u trữ, ng lực phần mềm, năng lượng,...
duy trì trung m dliệu sẽ tăng lên đặt ra những thách thức về giá: giá phát
triển và giá vn hành h thống search engine.
Không phải bất c nhà quản trị nào cũng muốn Google đánh chỉ mục
Website của họ. Và cũng rất nhiều trang bắt người dùng đăng thành
viên mi cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là một lần
trang Web bngốn ng thông rất ln, có thvượt xa với lượng người vào
trang mỗi ngày.
Dch vụ mạng 2.0 bùng nổ, dữ liu nhân được sinh ra và tn tại trên
Internet ngày ng nhiu. Chúng thể được bảo vệ bởi sự riêng hoặc rất
khó truy vn theo phương pháp lần liên kết (link) thông thường. n nữa,
nhiều Web 2.0 sử dụng script để sinh URL hoặc chọn phương thức Post
(HTTP Post) khi truy vn dliệu. Vậy làm sao đmáy tìm kiếm thể quét
hết dliệu tn Internet? Đây một thách thức khó kn đặt ra cho Crawler
của các Search Engine. Dĩ nhiên, không phi đến thời 2.0, Search Engine
mới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mng dịch vụ d
liu bùng nổ, Invisible web trở nên phc tạp và và rắc rối hơn nhiều.
Cập nhật dữ liệu thời gian thực cũng là một nhu cầu. i o đăng tải trên
CNN thdễ dàng tìm thy ngay khi truy vấn gửi tới Google. Cập nhật
thời gian thực với một lượng nhỏ dliệu thì không qkhó khăn, nhưng các
máy tìm kiếm phải xử đến hàng tloại dữ liệu trong một ngày. Đây
thách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.
Thách thức thứ hai: Lọc b dữ liệu rác và trùng lp
Như đã đề cập phần trên, chi pvmặt lưu trữ phải được tính toán sao
cho rnhất. Do đó, càng ít dliệu nháp, ít dữ liu trùng lặp càng tt. Những
dliu kiểu này n nh hưởng đến tốc đtiếp cn và chất ng kết quả
search trvề cho người dùng. Trong khi vấn nạn trác đang hoành hoành
thì vấn nạn dữ liệu rác cũng làm đau đầu các công cụ tìm kiếm