BÀI GI NG TH VI N S
Ư Ệ Ố
Ả
CH NG 4: ƯƠ Ế TÌM KI M THÔNG TIN
Ỗ TS. Đ QUANG VINH
HÀ N I - 2013 Ộ
N I DUNG
Ộ
I. T NG QUAN V TH VI N S DL Ề Ư Ệ Ố Ổ
II. MÔ HÌNH HÌNH TH C CHO TH VI N S DL Ứ Ư Ệ Ố
III. CH M C TÀI LI U Ỉ Ụ Ệ
IV. TÌM KI M THÔNG TIN Ế
V. CÁC CHU N S D NG TRONG TH VI N S Ẩ Ử Ụ Ư Ệ Ố
Ầ Ệ Ề
22
VI. TH C HÀNH H PH N M M TH VI N S GREENSTONE Ự Ư Ệ Ố
IV. Ế TÌM KI M THÔNG TIN
4.1 MÔ HÌNH TÌM KI M THÔNG TIN Ế
ế ề ậ
ch c, l u tr , tìm ki m ữ i nhu c u thông tin c a ế ổ ứ ư ầ ế ủ ớ
Tìm ki m thông tin IR đ c p đ n t và đánh giá thông tin có liên quan t NSD.
Mô hình IR t ng quát là m t c p bao g m các đ i t ổ ồ
ộ ố ố ượ ế ạ ộ ặ ế ng và ố ượ ng v i m t ộ ớ
m t ánh x liên k t (“tìm ki m”) m t s đ i t ộ ng đ i di n cho m t truy v n. đ i t ố ượ ệ ạ ấ ộ
Cho
2 (4.1) D = {d1, d2, ..., dM}, M ‡
là m t t p h u h n không r ng đ i t ng. ộ ậ ữ ạ ố ượ ỗ
c xem xét nh ng nó là ợ ư
33
ườ ng. Các đ i t Chú ý: tr t m th ườ ầ ng h p M = 1 có th đ ể ượ ng tiêu bi u là đ i di n. ể ố ượ ệ ạ
D vào trong l c l ng c a là m t ánh x tìm ki m t ạ ế ừ ự ượ ủ ộ
Cho ´ nó r (D), nghĩa là,
´ : D fi
B ng cách k t h p t p đ i t ố ượ ằ ạ
´ (4.2) ng D và ánh x tìm ki m ế , chúng tôi đ nh nghĩa c u trúc tìm ki m thông tin nh sau: ế r (D) ế ợ ậ ấ ư ị
Đ nh nghĩa 4.1 (c u trúc tìm ki m thông tin): ế ấ ị
C u trúc tìm ki m thông tin SIR là m t b 2 S =
(4.3)
ộ ị ổ
ề ệ ủ ạ
ế ´ t c a ánh x tìm ki m ạ ng D. T đó, các mô hình IR riêng bi ệ
44
´ c b ng cách đ c t D và . Đ nh nghĩa 4.1 là m t đ nh nghĩa t ng quát: nó không đ c p ề ậ ị và đ i ố đ n v các d ng riêng bi ế t khác nhau có th t ể ừ ượ nh n đ ậ ượ ằ ặ ả
Đ nh nghĩa 4.2 (mô hình tìm ki m thông tin MIR): ế ị
MIR là m t SIR ế ộ S =
Mô hình tìm ki m thông tin thu c tính sau đây: ộ
i (q) = {d
i. q = d (cid:222) (4.4) i, q, d (tính ph n x ); ạ ả m ãi(q, d ) = 1 "
k)}˙
i, i c đ nh tùy ố ị
˛ aa D| m ãi(q, d ) = max m ãk(q, d
ii. ´ ý.
trong đó:
‡ 1; ữ ỉ ụ ậ + T = {t1, t2, ..., tN} là m t t p h u h n thu t ng ch m c, N ộ ậ ữ ạ
‡ ng, U 2; ộ ậ ữ ạ ố ượ + O = {o1, o2, ..., oU} là m t t p h u h n đ i t
55
˛ J = {1, 2, ..., M} là m t h cluster đ i t ng, Dj r (O), ộ ọ ố ượ
+ (Dj)j ˛ M ‡ 2;
J} là m t t p tài li u, trong đó t p m đã chu n ệ ậ ẩ ờ
d d T, k = 1, ..., N}, j = 1, ..., M, m
j| j ˛ j = {(tk , m [0, 1] (cid:204)
j : T ng
fi + D = {d hóa d S ˝ ộ ậ j(tk))| tk ˛ R là đ i di n cluster c a cluster đ i t ạ ố ượ ủ ệ
Dj.
‡ 1, trong ộ ậ ẩ ạ + A = {ã1, ..., ãC} là m t t p h u h n tiêu chu n, C
˛
j), m ãi(q, d ẩ
D, j =1, ..., M}, i = 1, ..., C là [0, 1] (cid:204) m ãi : D x D fi R, q ˛ D
ữ j)) | d đó ãi = {((q, d j m t quan h m chu n hóa, ệ ờ ộ c đ nh tùy ý. ố ị
Theo truy n th ng, IR kinh đi n có thu c tính phân đôi ề ố
ộ ng c c) trong đó có 2 tiêu chu n rõ ràng: (l ể ẩ ưỡ ự
66
i. có m t và không có m t; ặ ặ
ii. tìm ki m đ ế ượ c th c hi n d a vào (i). ệ ự ự
i}, i = 1, ..., C là m t ộ a
i-lát c t tiêu ắ
˛ + aa
i = {d D| m ãi(q, d ) > a i, a chu n m nh ã ạ ẩ
i
‡ 0, q ˛ D c đ nh tùy ý; ố ị
: D fi ứ
ề ặ ớ ệ ạ ộ ậ ộ ế ộ
ấ ẩ ự ộ ớ
r (D) là m t ánh x tìm ki m. V m t hình th c, tìm + ´ ế ki m nghĩa là liên k t m t t p con tài li u v i m t truy v n ế n u chúng liên quan v i nhau – tuân theo m t tiêu chu n l a ế ch n - đ m nh. ọ ủ ạ
T đó, chúng ta b t bu c ph i xem truy v n là m t tài ấ ộ ắ ả
77
ừ li u và tìm ki m đ ộ c đ nh nghĩa dùng ệ ế ượ ị a -lát c t.ắ
Đ nh nghĩa 4.3: R.B. Yates và B.R. Neto ị
M t mô hình tìm ki m thông tin là m t b b n ộ ộ ố ế ộ
[D, Q, F, R(qi, dj)]
trong đó:
+ D là m t t p các tài li u; ộ ậ ệ
+ Q là m t t p h p các truy v n c a NSD; ấ ủ ộ ậ ợ
ộ ể ễ ệ ấ
+ F là m t khung mô hình hóa các bi u di n tài li u, truy v n và các quan h gi a chúng; ệ ữ
ộ ắ ế ế ớ
88
ế ệ ể ắ ộ ộ ố ự j ˛ Q và m t bi u di n tài li u d
i. gi a các tài li u đ i v i truy v n q
xác đ nh th t + R(qi, dj) là m t hàm s p x p liên k t m t s th c v i m t ộ i ˛ D. Hàm s p x p truy v n qấ ễ ứ ự ữ ố ớ ệ ấ ị
Kh o sát 3 ki u truy v n: ể ả ấ
Truy v n Boole BQ truy n th ng; ề ấ ố
Truy v n x p h ng RQ; ấ ế ạ
Mô hình tìm ki m thông tin xác su t. ấ ế
BQ 4.2 TRUY V N BOOLE Ấ
1 AND t2 AND ... AND tr
4.2.1 Truy v n BQ h i ộ ấ D ng t ạ
99
4.2.2 Truy v n BQ không h i ộ ộ ấ ổ ế ạ ộ ủ ể
D ng ph bi n khác là m t phép h i c a các phép tuy n: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing)
4.3 TRUY V N X P H NG RQ Ạ Ấ Ế
ớ
4.3.1 So kh p to đ ạ ộ ữ ố Đ m s thu t ng truy v n xu t hi n trong m i m t tài li u ấ ế ệ ệ ậ ấ ỗ ộ
4.3.2 Tích trong đ t ộ ươ ự
ủ ộ
ằ truy v n v i m t t p vect ơ ớ
d đ
c bi u di n ng t Quá trình đ vect ơ Đ t ộ ươ ượ ấ c a truy v n Q v i tài li u D ự ủ c hình th c hoá b ng m t tích trong c a m t ộ tài li u ệ ệ ượ ể ễ ớ ng t ứ ộ ậ ấ
nh sau: ư
(4.5) S(Q, Dd) = Q . Dd
trong đó: phép toán . là phép tích trong
i> và Y =
1010
n
X = c đ nh ượ ị ơ
(cid:229)= Tích trong c a hai n-vect
ủ
Y.X (4.6) nghĩa: đ i v i tính toán tích trong ả Vect ơ tài li u W
ệ d,t D inf ret sea indexing bui index inv file 1 1 1 1 0 0 0 0 1 (a) 0 0 0 1 1 1 0 0 2 0 0 0 0 0 1 1 1 3 0 0 0 1 1 0 1 1 4 0 0 1 0 0 0 0 0 searching (b) 0 0 0 1 0 0 0 0 indexing 1111 B ng 4.1 – Các vect
(a) Vect truy v n. ơ ố ớ
tài li u, (b) Vect
ệ ơ ơ ấ Ví d :ụ S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1 Cách ti p c n so kh p to đ có 3 h n ch :
ế
ớ ế ậ ạ ộ ạ 1. Không tính đ n t n su t thu t ng
ế ầ ậ ấ ữ 2. Không tính đ n s khó tìm thu t ng
ế ự ậ ữ 3. Các tài li u dài v i nhi u thu t ng
ữ
ớ ề ệ ậ Bài toán 1 có th đ c gi i quy t b ng cách thay th đánh giá ể ượ ả ế ằ ế “có” ho c “không” nh phân b ng m t s nguyên ch th thu t
ằ ộ ố ặ ậ ỉ ị ị 1212 ữ ấ ệ ầ ệ
ng xu t hi n bao nhiêu l n trong tài li u. - Đ nh nghĩa t n su t bên trong tài li u c a thu t ng ệ ủ ậ ấ ầ ị S đ m ch th s l n thu t ng xu t hi n trong tài li u ị ố ầ ữ ấ ố ế ệ ậ ỉ ữ fd,t :
ệ Ví d :ụ Tính đ t ng t ộ ươ ự ố ớ đ i v i truy v n m u tr thành
ấ ẫ ở S(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2 vì tài li u D1 ch a ứ information 1 l n và ệ ầ retrieval 1 l n. ầ c gán - T ng quát h n, thu t ng t trong tài li u d có th đ
ữ ể ượ ệ ậ ổ ơ d,t và tr ng s
ố
ọ m t ộ tr ng s tài li u - thu t ng ố ọ ệ ậ ữ, ký hi u là w
ệ 1313 ấ
truy v n khác wq,t trong vect
ơ - Đ t ng t ự ộ ươ là tích trong c a hai tr ng s w
ủ ấ ổ ọ n ố ủ ữ ậ ấ ậ ố d,t và wq,t – l y t ng
c a tích các tr ng s c a các thu t ng truy v n và thu t ng
ữ
ủ
tài li u t ọ
ng ng:
ệ ươ ứ tq, ww td, (cid:215) (cid:229) =
1t (4.7) S(Q, Dd) = Q . Dd = t,d (cid:215) ng t ệ ấ đ t
ộ ươ ự ế
∑
Q∈t N u ế wq,t = 0 thì (n u t không xu t hi n trong Q)
w w
t,q
nh sau: (4.8) ư S(Q, Dd) = Bài toán 2 không tính đ n các thu t ng khó tìm.
ế ữ ậ ấ ổ ế
ữ ữ
ậ ầ 1414 ậ
ứ
ố ữ ằ ậ M t tài li u v i đ l n xu t hi n c a m t thu t ng ph bi n
ộ
ớ ủ ầ
ệ ủ
ệ
ộ
c x p h ng đ u tiên n u truy v n ch a thu t ng đó,
luôn đ
ấ
ế
ạ
ượ ế
khác, b ng cách l y tr ng s thu t ng tuân
kh ng k các t
ọ
ấ
ừ
ể
ổ
theo t n su t tài li u đ o IDF.
ệ ầ ấ ả - ộ ầ ụ ướ ngh ch
ng là t l
ị
c coi là m t đ đo t m quan ỉ ệ
ầ Zipf quan sát t n su t c a m t m c tin có xu h
ấ ủ
v i h ng c a nó. T c là,
ứ
ủ
ớ ạ
tr ng thì tr ng s w
ọ
ọ ượ
ữ ượ ủ ộ ộ
c tính nh sau:
ư (4.9) n u h ng đ
ạ
ế
ố t c a m t thu t ng t đ
ậ
ộ
1
w =
t
f t
ậ ố ứ ữ - ọ ượ ử ụ ố
ậ
ể ượ ậ ầ ộ ữ ươ c s d ng theo 3 cách khác nhau:
ị t n su t thu t ng t
c nhân v i m t giá tr
ậ ệ ố
ng đ i
ữ d,t , trong đó rd,t có th ể h p b ng cách nhân v i r ằ ớ q,t ố
ộ ọ ậ ấ ố trong đó: ft là s tài li u ch a thu t ng t.
ệ
Tr ng s thu t ng w
ữ t đ
1. Có th đ
ấ
ớ
rd,t đ sinh ra tr ng s tài li u-thu t ng w
ọ
ố
ể
c tính theo m t s cách khác nhau.
đ
ộ ố
ượ
2. Tr ng s thu t ng có th đ
c t
ể ượ ổ ợ
ữ
ậ
ọ
ữ q,t
sinh ra m t tr ng s truy v n-thu t ng w d,t và wq,t , t c là, áp 1515 c dùng trong c hai tính toán w
ả ứ trên là kh năng duy nh t đ c dùng đ i v i ở ấ ượ ả ố ớ ứ ầ 3. Có th đ
ể ượ
d ng hai l n.
ầ
ụ
Không công th c nào
wt , thành ph n IDF. Lu t TFxIDF : t n su t thu t ng nhân t n su t tài li u đ o. ậ ữ ệ ả ầ ậ ấ ấ ầ Các vect tài li u đ c tính nh sau: ơ ệ ượ ư (4.12) wd,t = rd,t (TF x IDF) ho cặ wd,t = rd,t . wt Chú ý: ầ ể ư ộ ộ ươ
ậ ủ
ấ ầ ấ + Các thành ph n TF và IDF không nên hi u theo nghĩa đen là
các hàm đ a ra tên c a chúng. M t heuristic đ t
đ
c
ng t
ự ượ
ữ fd,t tăng
g i là “TF x IDF” b t kỳ khi dùng t n su t thu t ng
ọ 1616 đ u và t n su t tài li u c a thu t ng
ề ệ ủ ậ ấ ầ ề ữ ft gi m đ u.
ả + Các tr ng s truy v n-thu t ng w c tính t ng t ấ ậ ố ọ ượ ươ ự ữ q,t đ - Nhân t ử chu n hoá
ẩ đ không k đ n ph n đóng góp c a các
ầ ể ế ủ ể tài li u dài. Do đó, lu t tích trong đánh giá đ t ng t b ng ộ ươ ệ ậ ự ằ w t,d = (cid:215) (cid:229) ˛ )D,Q(S
d w
t,qQt
D d (cid:229)= D f (4.14) d i i,d d
là đ dài c a tài li u D
ủ 1717 trong đó ệ ộ n 2 = Đ t ng t là kho ng cách Euclide: 4.3.3 Mô hình không gian vectơ
ộ ặ ự đ i v i m t c p vect ộ ươ ố ớ ơ ả )D,Q(S w w d t,q t,d =
1t - (cid:229) (4.15) n H ngướ ch th b i 2 vect ị ở ỉ ơ (cid:229) i i =
1i (cid:215) (4.18) n n 2 2 (cid:229) (cid:229) i i =
1i =
1i Công th c có 2 hàm ý: chu n hoá là đ dài ứ
ứ ử ẩ ẩ ộ 1818 1. Ch ng minh s chu n hoá: Nhân t
ự
Euclide c a tài li u
ệ
ủ
2. Cung c p m t s tr c quan rõ ràng c a lu t x p h ng
ấ ậ ế ạ ộ ự ự ủ n Lu t cosin ậ đ i v i x p h ng:
ố ớ ế ạ d = ∑ w w = t,q t,d )D,Qcos( d =
1t 1
WW q d DQ
DQ d (cid:215) n = (4.19) w W
d 2
t,d trong đó (cid:229) ộ ủ ố = W
q 2
t,q (4.20)
ệ
(4.21) =
1t
là đ dài Euclide – tr ng s – c a tài li u d và
ọ
n
∑ w
=
1t
ấ là tr ng s c a truy v n q. ố ủ ọ Đ t ng t ộ ươ ự: (cid:246) (cid:230) = + + )D,Qcos( 1( log f ) log 1 d e t,d e dDQt 1
WW N
f d q t (cid:247) (cid:231) (cid:215) (cid:229) (cid:247) (cid:231) ˙ ˛ ł Ł 1919 (4.22) 4.4 Đ ĐO COSIN Ộ 4.4.1 T n su t bên trong tài li u ệ ầ ấ 4.4.2 Tính đ đo cosin ộ Xét l i công th c (4.22) đ i v i đ đo cosin: ạ ố ớ ộ ứ (cid:246) (cid:230) = + + 1( log ) log 1 )D,Qcos(
d f
t,de e (cid:247) (cid:231) (cid:215) (cid:229) (cid:247) (cid:231) N
f 1
WW
d
q t dDQt ˙ ˛ ł Ł 4.4.3. B nh dành cho tr ng s tài li u ộ ớ ố ọ ệ 2020 4.4.4. S p x p ắ ế i thu t 4.2 Tìm ki m r tài li u dùng đ đo cosin, ộ ả ệ ‹ ế
ậ ˛ Q, ữ { }. A là t p thanh tích lu .
ỹ
ấ
ậ ố ớ ụ ỉ ủ t , m c vào IF đ i v i t. Gi
ậ
1. Đ t A ặ
2. Đ i v i m i m t thu t ng truy v n t
ộ
ỗ
ố ớ
t.
(a) Truy g c t
ố ừ
(b) Tìm ki m t
v ng.
ừ ự
ế
(c) Ghi ft và đ a ch c a I
ị
(d) Đ t wặ t ‹
1 + loge(N / ft).
t.
(e) Đ c m c vào IF I
ụ
ọ
ộ ặ (f) Đ i v i m i m t c p (d,
ỗ ố ớ fd,t) thu c Iộ t , d ˛
i> N u Aế A thì 0 , 2121 ‹ A + {Ad}. Đ t Aặ d ‹
Đ t A ặ
ii> Đ t Aặ d ‹ Ad + loge(1 + fd,t) * wt. A, ố ớ ‹ d). ỗ
Đ t Aặ d
Bây gi ộ d ˛
3. Đ i v i m i m t A
Ad / Wd.
ỉ ệ ớ v i giá tr cos(Q, D
ị £ d = max{A}. Aờ d t l
i £
r,
4. Đ i v i 1
ố ớ
(a) L a ch n d sao cho A
ọ
ự ị ệ ỉ ủ
ệ ớ ‹ (b) Dò tìm đ a ch c a tài li u d.
(c) Tìm ki m tài li u d và trình bày v i NSD.
ế
(d) Đ t A
ặ A - {Ad}. 2222 Gi ậ i thu t nêu lên 3 đi m nh sau:
ư
ể
ả
q là m t h ng s
1. Wq b b qua vì W
ố
ộ ằ
ị ỏ
c s d ng
ng l n b nh đ
2. l
ớ ượ ử ụ
ộ
ớ
3. ch r << N tài li u có m t
ặ ượ
ỉ ệ Ấ Ế 4.5 MÔ HÌNH TÌM KI M THÔNG TIN XÁC SU T
Nguyên lý x p h ng theo xác su t
ạ ấ do Robertson đ a ra ư ế
(probability ranking principle): ế ủ ứ ộ ệ ớ ệ ắ đây đ ộ
ấ ộ N u đáp ng c a m t h tìm ki m thông tin v i m i m t yêu
ộ
ế
ỗ
gi m
c u c a NSD là m t dãy các tài li u s p x p theo th t
ế
ứ ự ả
ầ ủ
d n c a các xác su t liên quan, các xác su t
c đánh
ượ
ấ ở
ầ ủ
giá là đ chính xác có th trên CSDL có s n thì toàn b hi u
ộ ệ
ẵ
qu c a hê đ i v i NSD s là t
t nh t trên CSDL đó.
ố
ố ớ ể
ẽ ả ủ ấ
Mô hình tìm ki m thông tin xác su t ế ấ nh sau:
ư Đ nh nghĩa 4.4 (PIR): ị ấ ộ ệ ỏ Mô hình tìm ki m thông tin xác su t PIR là m t MIR S = 2323 ề ở ố Chúng ta l y C = 2 là vì
mô hình IR xác su t truy n th ng có
ấ
2 tiêu chu n: có liên quan và không liên quan. ấ
ẩ Đ nh nghĩa 4.5 (PIR) : đ nh nghĩa 4.4 có th đ c đ nh nghĩa ị ể ượ ị ấ ị
i nh sau:
l
ư
ạ
Mô hình tìm ki m thông tin xác su t PIR là
m t MIR ế
S = ộ
trong đó: i}. ´ C = 2 và
(q) = {d |m ãi(q,d ) ‡ m ãj(q, d )}, j = i + (-1)i+1, m ãi(q, d ) > a (4.30) Đ nh nghĩa 4.6 ị ˛ ấ
ộ ˛ ng truy v n q. M t tài li u d đ ế
ứ ệ
ọ ệ ộ 2424 P(I|(q, d)) ) (mô hình tìm ki m thông tin xác su t kinh đi n)
ế
ể
Cho D là m t t p tài li u, q
D m t truy v n và P(R|(q, d))
ệ
ộ ậ
ấ
D là có liên quan /không liên quan v i ớ
xác su t tài li u d
ệ
ấ
truy v n q t
ng ng. Cho R(q) là t p tài li u tìm ki m đáp
ậ
ứ
ươ
ấ
c l a ch n đáp ng m t
ượ ự
ộ
ấ
ứ
truy v n q n u
ế
ấ
P(R|(q, d)) ‡ (Lu t quy t đ nh Bayes
ế ị
ậ
(4.31) nghĩa là, R(q) = {d| P(R|(q, d)) ‡ i d ấ
i q t khi nó đ (4.32)
P(I|(q, d))}
- Chính xác h n, P(R|(q, d)) và P(I|(q, d)) là xác su t liên đ i t
ớ ớ
ơ
ng ng.
c xét có liên quan và không liên quan t
ươ ứ ượ ớ - Đánh giá P(R|(q, d)) và P(I|(q, d)) d a vào công th c Bayes. ự ứ ˛ ng, m t đ i t ộ ậ ộ ố ượ ố ị ấ ươ Cho D là m t t p đ i t
và hai tiêu chu n ãẩ
ứ D
ng c đ nh b t kỳ q
ố ượ
ng
1 và ã2 là liên quan và không liên quan t
ng b t kỳ d
ấ ộ ố ượ m ãi(q, d ), i = 1, 2 là m c đ mà m t đ i t ˛ ng. Cho
ứ ộ
D th a mãn tiêu chu n ãi liên quan t i q. ẩ ỏ ớ ị ấ ộ 1} 2525 Đ nh nghĩa 4.7 (PIR)
:
Mô hình tìm ki m thông tin xác su t PIR là
m t MIR
trong đó: ´ ế
S = (4.33) - t c a MIR ng h p đ c bi ợ ệ ủ ộ ườ - ươ ấ ng. PIR là m t tr
ặ
( đ nh nghĩa 4.5, l y i =1).
ấ
ở ị
S. Dominich đã ch ng minh PIR
đ nh nghĩa 4.7 và mô hình tìm
ở ị
ứ
ki m thông tin xác su t kinh đi n
ng
đ nh nghĩa 4.6 là t
ể ở ị
ế
đ
ươ B ng 4.4 – Các xác su t có đi u ki n. ệ ả ề
ấ
S tài li u
ệ
ố T ngổ ậ Có liên
quan
Rt Không
liên quan
ft - Rt ft Thu t ng t có
ữ
m tặ ậ R - Rt N - ft - (R - Rt) N - ft Thu t ng t
ữ
v ng m t
ặ
ắ 2626 N R N – R T ngổ - Các xác su t có đi u ki n có th đ c đánh giá t b ng 4.4. ể ượ ề ệ ấ ừ ả t / ft (4.34) P [có liên quan | thu t ng t có m t] = R
ậ ữ ặ và t – Rt) / ft P [không liên quan | thu t ng t có m t] = (f ữ ặ ậ T ng t , ươ ự t / R (4.35) P [thu t ng t có m t | có liên quan] = R
ặ ữ ậ và t – Rt) / (N – R) P [thu t ng t có m t | không liên quan] = (f ữ ậ ặ c dùng công th c ố ớ ậ ượ ứ = w t - tr ng s w
ọ
Bayes: t
fN/()R f( 2727 t t t t - - - - ố t đ i v i thu t ng t nh n đ
ữ
ậ
)RR/(R
t
))RR( (4.36) Ự Ả S PH N H I LIÊN QUAN
Ồ
- Là quá trình s a đ i truy v n đ nâng cao hi u su t tìm ki m ử ổ ệ ể ế ấ ấ - ng pháp l p l i truy ề ấ ươ ặ ạ Salton, Buckley và Harman đ xu t ph
v n. ấ d và truy
ơ
tr ng s , trong đó n là s thu t
ậ
ố
ơ ọ
c đ n gi n nh t nh sau: , trong đó tài li u D ể ễ ệ = t. Chi n l T t c s d ng bi u di n vect
ấ ả ử ụ
v n Q đ u đ
ấ
ề ượ
ng truy v n riêng bi
ấ
ữ c coi là n-vect
ệ ố
ế ượ ơ ư ấ ả (cid:229)+ DQ Q 1
+
i i n d - D
Rd ˛ (4.39) trong đó: 2828 ạ ấ + Dn là tài li u x p h ng cao nh t không liên quan;
ệ ế
+ R là t p tài li u có liên quan.
ệ ậ ả ể ơ ứ
ữ ưở ả ấ ầ ằ p= w+ l+ h+ Q Q Q D D ng đ n t Các bi u th c ph n h i t ng quát h n cho phép m t s l n
ộ ố ớ
ồ ổ
h n trong nh ng tài li u không liên quan nh h
ng đ n truy
ệ
ế
ơ
v n m i và bao hàm d tr s n cho truy v n ban đ u nh m
ự ữ ẵ
ấ
nh h
ả t c truy v n ti p theo:
ấ ế ấ ả ớ
ưở ế +
1i 0 i d d (cid:229) (cid:229) Rd Id ˛ ˛ (4.40) p và h 0); £ ố ớ h
là các h ng tr ng s (v i ằ ọ ệ ứ ủ ở 2929 NSD v i các phép l p truy v n. trong đó:
, l
, w
R là t p con tài li u có liên quan;
ậ
I là m t t p con tài li u không liên quan b i vì đáp ng c a
ộ ậ
ấ
ớ ệ
ặ Ấ Ế ộ ố ớ ươ ể ế ạ
ệ ế ạ ấ so quan P = ng pháp x p h ng đ i v i đi m
Đ chính xác P
ộ
c t nào đó r là m t ph n trong s tài li u x p h ng cao nh t r
ố
ắ
có liên quan đ n truy v n: 4.6 ĐÁNH GIÁ HI U SU T TÌM KI M
Ệ
4.6.1 Đ chính xác và đ ph c h i
ộ ụ ồ
c a m t ph
ộ
ủ
ầ
ộ
ấ ế tai
lieu tim
kiem
co
tong
lieu tim
so
tai lien
kiem (4.41) ươ ộ i giá tr r nào đó là t
ỷ
ạ
c tìm ki m trong r cao ng pháp t
ượ ố ị
ế so kiem R = tai
lieu
tong co
so lien
tai
lieu duoc
lien tim
quan Đ ph c h i R
c a m t ph
ủ
ộ ụ ồ
l
c a t ng s tài li u có liên quan đ
ệ
ệ ủ ổ
nh t: ấ 3030 (4.42) = RN P Đ chính xác P
: ộ k (4.41’) R R = N
N T Đ ph c h i R
ộ ụ ồ : (4.42’) trong đó: „ 0; ố ộ ệ ấ k „ ế c đáp ng q,
ứ
c. ố
ệ ượ ổ ộ . NT là t ng s tài li u có liên quan t
i m t truy v n q, NT
ớ
ổ
| ´
(q) | = k
0;
là s tài li u tìm ki m đ
ượ
ệ
NR là s tài li u có liên quan tìm ki m đ
ố
ế
Đ nh đ
ề: T s gi a đ ph c h i và đ chính xác R / P thay đ i
ỉ ố ữ ộ ụ ồ
ị
ố ớ k
tuy n tính đ i v i
Ch ng minh: ế
ứ 3131 (cid:222) R / P = k (4.43) NR = R NT = P k / NT ườ ộ ụ ồ ộ Đuong cong P-R doi voi hang 120 100 80 P 60 R (%)
P (%) 40 20 0 R Do thi hieu suat tinh toan 200 150 do chinh xac P 100 do phuc hoi 50 0 R 3232 Hình 4.1 – Đ ng cong P-R đ i v i h ng c a b ng 3.2 4.6.2 Đ ng cong đ ph c h i-đ chính xác
ủ ả ố ớ ạ ườ Ệ TÀI LI U THAM KH O
Ả
1. Đ Quang Vinh (2009), ỗ ế ,
Th vi n s - Ch m c và Tìm ki m ư ệ ố ỉ ụ Nxb Đ i h c Qu c gia Hà N i. ố ạ ọ ậ ở ễ ị ộ
2. Lourdes T.D. (2006), Th vi n s và truy c p m tài li u l u
ệ ư
ư ệ ố
trữ, Nguy n Xuân Bình và nnk biên d ch, UNESCO, Hà N i.
ộ
3. The 10th International Conference on Digital Libraries (2007),
Asian Digital Libraries: Looking Back 10 years and Forging
New Frontiers, Ha Noi
ướ ử ụ ủ ệ ể ặ ng d n cài đ t, s d ng và phát tri n c a h
ệ
ẫ
ph n m m th vi n s Greenstone
ư ệ ố 4. Tài li u h
ầ ề 5. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge.
6. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University. 7. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 8. Witten I.H., Bainbridge D. (2003), How to Build a Digital 3333 Library, Morgan Kaufmann, San Francisco. 3434yx
=q
=
cos
YX
YX
x
y
quan
co
K T THÚC !
Ế
TRÂN TR NG CÁM N !
Ơ
Ọ