1
Phn hi thông tin
1
Lê Thanh Hương
B môn H thng thông tin
Vin CNTT&TT
Phn hi thông tin
Phn hi thông tin (Information
Retrieval - IR) là vic tìm các tài liu phi
cutrúc
(thường vănbn) thađiu
cu
trúc
(thường
văn
bn)
tha
điu
kin tìm kiếm t mt kho d liu ln
(thường được lưu trong máy tính)
2
Các h thng da trên t khóa
tp các t khóa có kh năng xut hin trong
tài liu (vd., JFK, assasination)
Các phép toán AND OR:
3
AND(Kennedy, conspiracy, OR(assasination, murder))
or
AND(OR(Kennedy,JFK), OR(conspiracy, plot),
OR(assasination,assasinated,assasinate,murder,
murdered,kill,killed)
Các vn đề
Đa nghĩa: 1 t - n nghĩa
Đồng nghĩa: n t - 1 nghĩa
4
Kích thước: các h th
ng IR phi có kh
năng x lý tp ng liu c ~Gb
Độ ph: Các h thng IR phi có kh năng
x lý câu truy vn thuc bt k lĩnh vc nào
Ly t gc
Gn các thut ng trong câu truy vn vi các
biến th ca t (cùng gc t) trong các tài liu
VD: assassination Æassassinat
Assassination
Assassinations
5
Assassination
Assassinations
Assassinate Assassinated
Assassinating
Vn đề:
Li: organization - organ past - paste
B qua: analysis - analyzes matrices - matrix
T dng
Là các t thường xut hin hu hết các
tài liu. Các t này không cha nhiu
thông tin
6
Không đưa vào file nghch đảo Ægim
kích thước ca file này
Các t dng: a, an, the, he, she, of, to, by,
should, can,…
2
Nhược đim ca vic b t dng
Có th b tên người như “The”
Các t dng có th là thành phn quan trng
ca đon. Ví d, 1 câu nói ca Shakepeare:
to be or not to be”
7
to
be
or
not
to
be”
Mt s t dng (vd., gii t) cung cp các
thông tin quan trng v mi quan h
B nh ngày nay đã r hơn Ætiết kim b
nh không còn là vn đề quan trng như
trước na
T chc năng và t ni dung
Mun loi b các t chc năng hoc gim nh
hưởng ca nó
Xác định t ni dung:
8
Nó có xut hin thường xuyên không?
Nó có xut hin trong s ít các tài liu không?
Tn sut ca nó có thay đổi trong các tài liu không?
File nghch đảo (Inverted
Files)
Để biu din tài liu trong kho ng liu
Là 1 bng t vi 1 danh sách các tài liu
cha 1 t
Assassination: (doc1 doc4 doc35 )
9
Assassination:
(doc1
,
doc4
,
doc35
,…
)
Murder: (doc3, doc7, doc36,…)
Kennedy: (doc24, doc27, doc29,…)
Conspiracy: (doc3, doc55, doc90,…)
Thông tin b sung:
v trí ca t trong tài liu
thông tin xp x: để so khp hoc so gn đúng các
đon
Ch s nghch đảo
Vi mi thut ng t, lưu danh sách các tài
liu cha t.
Định nghĩa mi tài liu bi docID, là s th t ca
Sec. 1.2
tài liu
10
Brut us
Calpurnia
Caesar
1 2 4 5 6 16 57 132
1 2 4 11 31 45 173
231
Vn đề gì xy ra nếu t
Caesar
được thêm vào tài liu 14?
174
54 101
Ch s nghch đảo
Ta cn các danh sách vi độ dài thay đổi
Có th s dng linked list hoc mng có độ dài
thay đổi
Sec. 1.2
11
T đin
Sp theo docID
Brut us
Calpurnia
Caesar
1 2 4 5 6 16 57 132
1 2 4 11 31 45 173
231
174
54 101
Tokenizer
Xây dng ch s nghch đảo
Các tài liu cn
đánh ch s
Friends, Romans, countrymen.
Sec. 1.2
Friends Romans Countrymen
Linguistic modules
Các t đã được biến đổifriend roman countryman
Indexer
Inverted index
friend
roman
countryman
2 4
2
13 16
1
3
Bước đánh ch s: Chui t
Chui các cp
(t đã biến đổi, Document ID)
Sec. 1.2
I did enact Julius
Caesar I was killed
i' the Capitol;
Brutus killed me.
Doc 1
So let it be with
Caesar. The noble
Brutus hath told you
Caesar was ambitious
Doc 2
Bước đánh ch s: Sp xếp
Sp theo t, ri theo
docID
Sec. 1.2
Bước đánh ch s
c
t lõi
Bước đánh ch s: T đin và
danh sách
Nhiu ch mc t
trong 1 tài liu
được trn ln
Sec. 1.2
Đưa vào trong t
đin và danh sách
Thêm s ln xut
hin ca tài liu
Lưu tr
Thut ng
sln
Sec. 1.2
Danh sách
docIDs
Con tr
s
ln
xut hin
X lý truy vn: AND
Xét câu truy vn:
Brutus AND Caesar
Định v Brutus trong t đin;
L
y
danh sách ca nó.
Sec. 1.3
y
Định v Caesar trong t đin;
Ly danh sách ca nó.
Trn 2 danh sách
17
128
34
2 4 8 16 32 64
1 2 3 5 8 13 21
Brutus
Caesar
Phép trn
Duyt qua 2 danh sách, thi gian t l
vi s nút
Sec. 1.3
18
34
1282 4 8 16 32 64
1 2 35 8 13 21
128
34
2 4 8 16 32 64
1 2 3 5 8 13 21
Brutus
Caesar
28
Nếu 2 danh sách có độ dài là x và y, phép trn có độ
phc tp O(
x+y
) .
Vn đề ct yếu: các danh sách sp theo docID
4
Trn 2 danh sách
19
Câu truy vn logic: so khp
Mô hình phn hi Boolean có th tr li
câu truy vn dng biu thc Boolean
Câu truy vnsdng
AND, OR
NOT
để
Sec. 1.3
Câu
truy
vn
s
dng
AND,
OR
NOT
để
kết ni các thut ng
Coi mi tài liu là 1 tp các t
Chính xác: tài liu tha điu kin hoc không
Đây là mô hình IR đơn gin nht
20
Câu truy vn logic: phép trn tng
quát hơn
Bài tp: Thc hin phép trn cho các câu
truy vn:
Brutus
AND NOT
Caesar
Sec. 1.3
Brutus
AND
NOT
Caesar
Brutus OR NOT Caesar
Thi gian thc hin còn là O(x+y)?
21
Phép trn
Thc hin phép trn cho các câu truy
vn:
(Brutus
OR
Caesar)
AND NOT
Sec. 1.3
(Brutus
OR
Caesar)
AND
NOT
(Antony OR Cleopatra)
Có th luôn thc hin trong thi gian
tuyến tính?
Có th làm tt hơn không?
22
Ti ưu hóa truy vn
Đâu là trt t tt nht để x lý truy vn?
Xét 1 câu truy vn là phép AND ca n thut ng
Vi mi thu
t n
g
,
l
y
danh sách ca nó
,
sau
Sec. 1.3
g , y ,
đó làm phép AND.
Brut us
Caesar
Calpurnia
12358162134
2 4 8 16 32 64 128
13 16
Query:
Brutus AND Calpurnia AND Caesar
23
Ti ưu hóa truy vn – Ví d
X lý theo trt t tăng ca tn sut:
khi đầu vi tp nh, sau đó tiếp tc loi b
Sec. 1.3
24
Thc hin câu truy vn (Calpurnia AND Brutus) AND Caesar.
Brut us
Caesar
Calpurnia
12358162134
2 4 8 16 32 64 128
13 16
5
Ti ưu hóa truy vn
vd., (madding OR crowd) AND (ignoble
OR strife)
Lytnsutxuthinchomithutng
Sec. 1.3
Ly
tn
sut
xut
hin
cho
mi
thut
ng
Đánh giá kích thước ca mi câu lnh OR
bng cách tính tng các tn sut ca nó
X lý theo trt t tăng ca kích thước các
danh sách trong phép OR
25
Bài tp
Đưa ra trình t x
truy vn cho
Term Freq
e
y
es 213312
(tangerine
OR
trees)
AND
y
kaleidoscop
e
87009
marmalade 107913
skies 271658
tangerine 46653
trees 316812
26
(tangerine
OR
trees)
AND
(marmalade OR skies) AND
(kaleidoscope OR eyes)
Bài tp
Cho câu truy vn friends AND romans
AND (NOT countrymen), ta s dng
tnsutca
countrymen
nhưthếnào?
tn
sut
ca
countrymen
như
thế
nào?
M rng phép trn cho câu truy vn
ngu nhiên. Có th đảm bo thc hin
trong thi gian tuyến tính vi tng kích
thước các danh sách không
27
Các k thut nâng cao
Cm t: Stanford University
Xp x: Tìm Gates NEAR Microsoft.
Cn đánh ch s để ly thông tin v v trí trong các tài liu
Vtrí trong tài liu: Tìm các tài liucó(
author
=
V
trí
trong
tài
liu:
Tìm
các
tài
liu
(
author
Ullman)AND (text contains automata).
T khóa tìm kiếm xut hin trong 1 tài liu nhiu hơn
thì tt hơn
Cn thông tin v tn sut ca thut ng trong các tài liu
Cn độ đo xp x câu truy vn vi tài liu
Cn quyết định tr v 1 tài liu tha câu truy vn hay
mt nhóm tài liu ph các khía cnh khác nhau ca
câu truy vn
28
T và thut ng
IR quan tâm đến thut ng
VD: câu truy vn
Whtkidf k li iCtRi?
29
Wh
a
t
ki
n
d
o
f
mon
k
eys
li
ve
i
n
C
os
t
a
Ri
ca
?
T và thut ng
What kind of monkeys live in Costa
Rica?
30
t?
t ni dung?
gc t?
các nhóm t?
các đon?