Nguyễn Thị Oanh
Bộ môn HTTT Viện CNTT & TT
oanhnt@soict.hut.edu.vn
Chương 4: Tìm kiếm DL ĐPT
P1: Dữ liệu văn bản
1
Nội dung
2
Giới thiệu chung
Biểu diễn n bản
Chất lượng từ
Trọng số từ
Đánh chỉ mục (chỉ số hóa) (indexing)
Tìm kiếm văn bản (retrieving)
Phản hồi thích đáng (relevance feedback)
Đánh giá hiệu năng
Văn bản
3
Dữ liệu văn bản:
1tài liệu văn bản chuỗi c từ
Từ đồng nghĩa: coi xem (hát), coi giữ -trông (nhà)
Từ đa nghĩa:mũi (người), mũi (thuyền, dao, mác)
Thứ tự các từ:đi ra ra đi
Tập văn bản:tập các chuỗi
Giây phút cận kề cái chết Nhật
Vẫn biết động đất chuyện cơm bữa Tokyo một năm khoảng
200 trận.Vẫn biết rằng khi động đất lớn thì phải thật bình tĩnh việc
đầu tiên phải chui xuống gầm bàn chứ đừng chạy.Vậy mà! ...
Tìm kiếm thông tin văn bản ?
4
Cho: 1 (tập) tài liệu n bản (từ, câu, đoạn, văn
bản, )
Mục tiêu:tìm các tài liệu liên quan đến tài liệu truy
vấn (tài liệu tương tự)
Biểu diễn và tìm kiếm
5
1tài liệu văn bản chuỗi các từ,đó thể:
tiêu đề
tóm tắt
toàn bộ nội dung tài liệu
CSDL văn bản:tập các chuỗi được chỉ số hóa một
cách hợp
Tìm kiếm:tìm các văn bản trong CSDL chứa các từ
trong văn bản truy vấn
Bài toán khớp xâu (string-matching, substring-finding)