
Thesaurus một module
quan trọng quả Goolge

Bạn vào google và gõ "Ket qua so so" google sẽ trả lại cho
bạn trang kết quả kèm theo thông điệp "Hiển thị kết quả cho
ket qua xo so". Ồ Google thật là thông minh nó hiểu được
bạn đang muốn tìm kiếm kết quả xổ số nhưng đánh sai chính
tả và nó tự tìm cho bạn kết quả đúng. Đứng đằng sau sự
thông minh này của Google là một module ít người biết đến
có tên là Thesaurus, dịch ra tiếng việt thì Thesaurus gần
nghĩa với từ "Từ điển" tuy nhiên về ngữ nghĩa thì phức tạp
hơn nhiều nên tốt nhất cứ để nguyên tên tiếng Anh cho đỡ
phải giải thích.
Những phần mềm thesaurus ra đời khá lâu trước khi Google
thành lập, nó ra đời để đáp ứng nhu cầu tìm kiếm sách của
các thư viện khắp nước Mỹ. Khác nhiều so với những thuật
toán xếp hạng và các module khác của Google về cơ bản
thesaurus hoạt động cơ bản dựa vào con người, các thuật toán
cũng được sử dụng nhiều nhưng chỉ dừng lại ở vai trò hỗ trợ.
Để dễ hiểu chúng ta sẽ theo case study là từ "Ket qua so so"

Lúc đầu Google không thể hiểu được "Ket qua so so" là cụm
từ viết sai chính tả của "Ket qua so xo" nhưng khi nhiều
người search như vậy bộ lọc của Thesaurus sẽ gửi từ khóa
"Ket qua so so" đến một nhân viên Google phụ trách phần
tiếng Việt, nhân viên này sẽ nhận ra ngay đây là từ viết sai
chính tả của "Ket qua so xo" và anh/chị ta sẽ lưu ngay từ
ngày vào trong dữ liệu trong Thesaurus và từ đó trở đi nếu ai
đó gõ "Ket qua so so" họ đều nhận được kết quả chính xác.
Ví dụ trên chỉ là chức năng phát hiện những từ viết sai chính
tả, một chức năng đơn giản nhất của thesaurus, ngoài khả
năng trên thì thesaurus còn có chức năng: tìm từ gần nghĩa,
từ trái nghĩa, khái niệm rộng và khải niệm hẹp... Tóm lại nó
là một phần mềm quản lý từ ngữ rất phức tạp.
Khi tìm kiếm một cụm từ ở bên dưới trang kết quả tìm kiếm
bạn sẽ thấy "Các tìm kiếm liên quan đến ket qua xo so", đó là

