IT4853
Tìm kiếm và trình diễn thông tin
Bài 9. Nén chỉ mục ngược
IIR.C5. Index Compression
Bộ môn Hệ thống thông tin
Viện CNTT & TT
2
Nội dung chính
Các quy luật phân bố từ vựng
Nén từ điển
Nén danh sách mã văn bản
Ch. 5
3
Quy luật Heap
M = kTb,
Trong đó
M
kích thước bộ từ vựng;
T
số từ
trong bộ dữ liệu;
k
,
b
là các hằng số.
Quan hệ tuyến tính trong mặt phẳng log-log:
log(
M
) = log(
k
) + b log(
T
)
thể dự đoán kích thước bộ từ vựng trước khi
hoàn thành quá trình xây dựng chỉ mục ngược.
4
Quy luật Heap: Xác định các hằng số
y = b0 + b1x
b
0
=Yb
1
X
b
1
=cov (X,Y )
var (X)
2
b
1
=
(X
i
X)(Y
i
Y)
(X
i
X)
2
Least square error line trên các tập giá trị X, Y:
b = b1
log(k) = b0
5
Quy luật Zipf
cf
i
= K/i ,
Trong đó K hằng số; cfi tần suất bộ dữ liệu
(
số lần từ thứ i xuất hiện trong bộ dữ liệu
); i
chỉ số trong danh ch từ sắp xếp theo thứ tự
giảm dần cf.