
(IT4853) Tìm kiếm và trình diễn thông tin
Phát hiện trùng lặp gần

Giảng viên
TS. Nguyễn Bá Ngọc
Địa chỉ:
Viện CNTT & TT/BM HTTT/B1-603
Email:
ngocnb@soict.hust.edu.vn
Website: http://is.hust.edu.vn/~ngocnb
2

3
Phát hiện trùng lặp
Trùng lặp tuyệt đối
Dễ dàng loại bỏ, v.d., bằng tổng đại diện.
Trùng lặp gần
Khó phát hiện
Người dùng không mong muốn những kết quả
trùng lặp.
Có thể coi một tài liệu vốn phù hợp là không phù hợp
nếu lặp lại ngay trong danh sách kết quả.
Cần loại bỏ những tài liệu trùng lặp!

4
Trùng lặp gần

5
Phát hiện trùng lặp gần
Tính độ tương đồng dựa trên “ký tự”
Rất khó tính độ tương đồng ngữ nghĩa
Những văn bản cùng nội dung nhưng được diễn đạt
khác nhau không phải trùng lặp.
Sử dụng ngưỡng θ để kết luận “trùng lặp”.
Ví dụ, Coi hai tài liệu là trùng lặp gần nếu độ tương
đồng > 80%.

