BÀI GI NG TH VI N S

Ư Ệ Ố

CH NG 4: ƯƠ Ế TÌM KI M THÔNG TIN

Ỗ TS. Đ QUANG VINH

HÀ N I - 2013 Ộ

N I DUNG

I. T NG QUAN V TH VI N S DL Ề Ư Ệ Ố Ổ

II. MÔ HÌNH HÌNH TH C CHO TH VI N S DL Ứ Ư Ệ Ố

III. CH M C TÀI LI U Ỉ Ụ Ệ

IV. TÌM KI M THÔNG TIN Ế

V. CÁC CHU N S D NG TRONG TH VI N S Ẩ Ử Ụ Ư Ệ Ố

Ầ Ệ Ề

22

VI. TH C HÀNH H PH N M M TH VI N S GREENSTONE Ự Ư Ệ Ố

IV. Ế TÌM KI M THÔNG TIN

4.1 MÔ HÌNH TÌM KI M THÔNG TIN Ế

ế ề ậ

ch c, l u tr , tìm ki m ữ i nhu c u thông tin c a ế ổ ứ ư ầ ế ủ ớ

 Tìm ki m thông tin IR đ c p đ n t và đánh giá thông tin có liên quan t NSD.

 Mô hình IR t ng quát là m t c p bao g m các đ i t ổ ồ

ộ ố ố ượ ế ạ ộ ặ ế ng và ố ượ ng v i m t ộ ớ

m t ánh x liên k t (“tìm ki m”) m t s đ i t ộ ng đ i di n cho m t truy v n. đ i t ố ượ ệ ạ ấ ộ

Cho

2 (4.1) D = {d1, d2, ..., dM}, M ‡

là m t t p h u h n không r ng đ i t ng. ộ ậ ữ ạ ố ượ ỗ

c xem xét nh ng nó là ợ ư

33

ườ ng. Các đ i t  Chú ý: tr t m th ườ ầ ng h p M = 1 có th đ ể ượ ng tiêu bi u là đ i di n. ể ố ượ ệ ạ

D vào trong l c l ng c a là m t ánh x tìm ki m t ạ ế ừ ự ượ ủ ộ

Cho ´ nó r (D), nghĩa là,

´ : D fi

B ng cách k t h p t p đ i t ố ượ ằ ạ

´ (4.2) ng D và ánh x tìm ki m ế , chúng tôi đ nh nghĩa c u trúc tìm ki m thông tin nh sau: ế r (D) ế ợ ậ ấ ư ị

 Đ nh nghĩa 4.1 (c u trúc tìm ki m thông tin): ế ấ ị

C u trúc tìm ki m thông tin SIR là m t b 2 S = ế ấ ộ ộ

(4.3)

ộ ị ổ

ề ệ ủ ạ

ế ´ t c a ánh x tìm ki m ạ ng D. T đó, các mô hình IR riêng bi ệ

44

´ c b ng cách đ c t D và . Đ nh nghĩa 4.1 là m t đ nh nghĩa t ng quát: nó không đ c p ề ậ ị và đ i ố đ n v các d ng riêng bi ế t khác nhau có th t ể ừ ượ nh n đ ậ ượ ằ ặ ả

 Đ nh nghĩa 4.2 (mô hình tìm ki m thông tin MIR): ế ị

MIR là m t SIR ế ộ S = v i 2 ớ

Mô hình tìm ki m thông tin thu c tính sau đây: ộ

i (q) = {d

i. q = d (cid:222) (4.4) i, q, d (tính ph n x ); ạ ả m ãi(q, d ) = 1 "

k)}˙

i, i c đ nh tùy ố ị

˛ aa D| m ãi(q, d ) = max m ãk(q, d

ii. ´ ý.

trong đó:

‡ 1; ữ ỉ ụ ậ + T = {t1, t2, ..., tN} là m t t p h u h n thu t ng ch m c, N ộ ậ ữ ạ

‡ ng, U 2; ộ ậ ữ ạ ố ượ + O = {o1, o2, ..., oU} là m t t p h u h n đ i t

55

˛ J = {1, 2, ..., M} là m t h cluster đ i t ng, Dj r (O), ộ ọ ố ượ

+ (Dj)j ˛ M ‡ 2;

J} là m t t p tài li u, trong đó t p m đã chu n ệ ậ ẩ ờ

d d T, k = 1, ..., N}, j = 1, ..., M, m

j| j ˛ j = {(tk , m [0, 1] (cid:204)

j : T ng

fi + D = {d hóa d S ˝ ộ ậ j(tk))| tk ˛ R là đ i di n cluster c a cluster đ i t ạ ố ượ ủ ệ

Dj.

‡ 1, trong ộ ậ ẩ ạ + A = {ã1, ..., ãC} là m t t p h u h n tiêu chu n, C

˛

j), m ãi(q, d ẩ

D, j =1, ..., M}, i = 1, ..., C là [0, 1] (cid:204) m ãi : D x D fi R, q ˛ D

ữ j)) | d đó ãi = {((q, d j m t quan h m chu n hóa, ệ ờ ộ c đ nh tùy ý. ố ị

 Theo truy n th ng, IR kinh đi n có thu c tính phân đôi ề ố

ộ ng c c) trong đó có 2 tiêu chu n rõ ràng: (l ể ẩ ưỡ ự

66

i. có m t và không có m t; ặ ặ

ii. tìm ki m đ ế ượ c th c hi n d a vào (i). ệ ự ự

i}, i = 1, ..., C là m t ộ a

i-lát c t tiêu ắ

˛ + aa

i = {d D| m ãi(q, d ) > a i, a chu n m nh ã ạ ẩ

i

‡ 0, q ˛ D c đ nh tùy ý; ố ị

: D fi ứ

ề ặ ớ ệ ạ ộ ậ ộ ế ộ

ấ ẩ ự ộ ớ

r (D) là m t ánh x tìm ki m. V m t hình th c, tìm + ´ ế ki m nghĩa là liên k t m t t p con tài li u v i m t truy v n ế n u chúng liên quan v i nhau – tuân theo m t tiêu chu n l a ế ch n - đ m nh. ọ ủ ạ

T đó, chúng ta b t bu c ph i xem truy v n là m t tài ấ ộ ắ ả

77

ừ li u và tìm ki m đ ộ c đ nh nghĩa dùng ệ ế ượ ị a -lát c t.ắ

 Đ nh nghĩa 4.3: R.B. Yates và B.R. Neto ị

M t mô hình tìm ki m thông tin là m t b b n ộ ộ ố ế ộ

[D, Q, F, R(qi, dj)]

trong đó:

+ D là m t t p các tài li u; ộ ậ ệ

+ Q là m t t p h p các truy v n c a NSD; ấ ủ ộ ậ ợ

ộ ể ễ ệ ấ

+ F là m t khung mô hình hóa các bi u di n tài li u, truy v n và các quan h gi a chúng; ệ ữ

ộ ắ ế ế ớ

88

ế ệ ể ắ ộ ộ ố ự j ˛ Q và m t bi u di n tài li u d

i. gi a các tài li u đ i v i truy v n q

xác đ nh th t + R(qi, dj) là m t hàm s p x p liên k t m t s th c v i m t ộ i ˛ D. Hàm s p x p truy v n qấ ễ ứ ự ữ ố ớ ệ ấ ị

Kh o sát 3 ki u truy v n: ể ả ấ

 Truy v n Boole BQ truy n th ng; ề ấ ố

 Truy v n x p h ng RQ; ấ ế ạ

 Mô hình tìm ki m thông tin xác su t. ấ ế

BQ 4.2 TRUY V N BOOLE Ấ

1 AND t2 AND ... AND tr

4.2.1 Truy v n BQ h i ộ ấ D ng t ạ

99

4.2.2 Truy v n BQ không h i ộ ộ ấ ổ ế ạ ộ ủ ể

D ng ph bi n khác là m t phép h i c a các phép tuy n: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing)

4.3 TRUY V N X P H NG RQ Ạ Ấ Ế

4.3.1 So kh p to đ ạ ộ ữ ố Đ m s thu t ng truy v n xu t hi n trong m i m t tài li u ấ ế ệ ệ ậ ấ ỗ ộ

4.3.2 Tích trong đ t ộ ươ ự

ủ ộ

ằ truy v n v i m t t p vect ơ ớ

d đ

c bi u di n ng t Quá trình đ vect ơ Đ t ộ ươ ượ ấ c a truy v n Q v i tài li u D ự ủ c hình th c hoá b ng m t tích trong c a m t ộ tài li u ệ ệ ượ ể ễ ớ ng t ứ ộ ậ ấ

nh sau: ư

(4.5) S(Q, Dd) = Q . Dd

trong đó: phép toán . là phép tích trong

i> và Y = đ

1010

n X =

c đ nh ượ ị ơ (cid:229)= Tích trong c a hai n-vect ủ Y.X

(4.6)

nghĩa:

đ i v i tính toán tích trong ả

Vect

ơ

tài li u W ệ

d,t

D

inf

ret

sea

indexing

bui

index

inv

file

1

1

1

1

0

0

0

0

1

(a)

0

0

0

1

1

1

0

0

2

0

0

0

0

0

1

1

1

3

0

0

0

1

1

0

1

1

4

0

0

1

0

0

0

0

0

searching

(b)

0

0

0

1

0

0

0

0

indexing

1111

B ng 4.1 – Các vect (a) Vect truy v n. ơ ố ớ tài li u, (b) Vect ệ ơ ơ ấ

Ví d :ụ

S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1

 Cách ti p c n so kh p to đ có 3 h n ch : ế ớ ế ậ ạ ộ ạ

1. Không tính đ n t n su t thu t ng ế ầ ậ ấ ữ

2. Không tính đ n s khó tìm thu t ng ế ự ậ ữ

3. Các tài li u dài v i nhi u thu t ng ữ ớ ề ệ ậ

 Bài toán 1 có th đ c gi i quy t b ng cách thay th đánh giá ể ượ ả ế ằ ế

“có” ho c “không” nh phân b ng m t s nguyên ch th thu t ằ ộ ố ặ ậ ỉ ị ị

1212

ữ ấ ệ ầ ệ ng xu t hi n bao nhiêu l n trong tài li u.

- Đ nh nghĩa t n su t bên trong tài li u c a thu t ng ệ ủ ậ ấ ầ ị

S đ m ch th s l n thu t ng xu t hi n trong tài li u ị ố ầ ữ ấ ố ế ệ ậ ỉ ữ fd,t : ệ

Ví d :ụ

Tính đ t ng t ộ ươ ự ố ớ đ i v i truy v n m u tr thành ấ ẫ ở

S(information retrieval, D1)

= (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2

vì tài li u D1 ch a ứ information 1 l n và ệ ầ retrieval 1 l n. ầ

c gán - T ng quát h n, thu t ng t trong tài li u d có th đ ữ ể ượ ệ ậ ổ ơ

d,t và tr ng s ố ọ

m t ộ tr ng s tài li u - thu t ng ố ọ ệ ậ ữ, ký hi u là w ệ

1313

ấ truy v n khác wq,t trong vect ơ

- Đ t ng t ự ộ ươ là tích trong c a hai tr ng s w ủ ấ ổ ọ

n

ố ủ ữ ậ ấ ậ

ố d,t và wq,t – l y t ng c a tích các tr ng s c a các thu t ng truy v n và thu t ng ữ ủ tài li u t ọ ng ng: ệ ươ ứ

tq, ww

td,

(cid:215) (cid:229)

= 1t

(4.7) S(Q, Dd) = Q . Dd =

t,d

(cid:215) ng t ệ ấ đ t ộ ươ ự

ế ∑ Q∈t

N u ế wq,t = 0 thì (n u t không xu t hi n trong Q) w w t,q nh sau: (4.8) ư S(Q, Dd) =

 Bài toán 2 không tính đ n các thu t ng khó tìm. ế ữ ậ

ổ ế ữ ữ ậ ầ

1414

ậ ứ ố ữ ằ ậ

M t tài li u v i đ l n xu t hi n c a m t thu t ng ph bi n ộ ớ ủ ầ ệ ủ ệ ộ c x p h ng đ u tiên n u truy v n ch a thu t ng đó, luôn đ ấ ế ạ ượ ế khác, b ng cách l y tr ng s thu t ng tuân kh ng k các t ọ ấ ừ ể ổ theo t n su t tài li u đ o IDF. ệ ầ ấ ả

- ộ ầ ụ ướ

ngh ch ng là t l ị c coi là m t đ đo t m quan ỉ ệ ầ

Zipf quan sát t n su t c a m t m c tin có xu h ấ ủ v i h ng c a nó. T c là, ứ ủ ớ ạ tr ng thì tr ng s w ọ ọ ượ ữ ượ ủ ộ ộ c tính nh sau: ư

(4.9) n u h ng đ ạ ế ố t c a m t thu t ng t đ ậ ộ 1 w = t f

t ậ

ố ứ ữ

- ọ ượ ử ụ

ố ậ ể ượ ậ ầ ộ ữ ươ

c s d ng theo 3 cách khác nhau: ị t n su t thu t ng t c nhân v i m t giá tr ậ ệ ố ng đ i ữ d,t , trong đó rd,t có th ể

h p b ng cách nhân v i r ằ ớ q,t

ố ộ ọ ậ ấ ố trong đó: ft là s tài li u ch a thu t ng t. ệ Tr ng s thu t ng w ữ t đ 1. Có th đ ấ ớ rd,t đ sinh ra tr ng s tài li u-thu t ng w ọ ố ể c tính theo m t s cách khác nhau. đ ộ ố ượ 2. Tr ng s thu t ng có th đ c t ể ượ ổ ợ ữ ậ ọ ữ q,t sinh ra m t tr ng s truy v n-thu t ng w

d,t và wq,t , t c là, áp

1515

c dùng trong c hai tính toán w ả ứ

trên là kh năng duy nh t đ c dùng đ i v i ở ấ ượ ả ố ớ ứ

ầ 3. Có th đ ể ượ d ng hai l n. ầ ụ Không công th c nào wt , thành ph n IDF.

 Lu t TFxIDF : t n su t thu t ng nhân t n su t tài li u đ o. ậ ữ ệ ả ầ ậ ấ ấ ầ

Các vect tài li u đ c tính nh sau: ơ ệ ượ ư

(4.12) wd,t = rd,t

(TF x IDF) ho cặ wd,t = rd,t . wt

 Chú ý:

ầ ể

ư ộ

ộ ươ ậ ủ ấ ầ ấ + Các thành ph n TF và IDF không nên hi u theo nghĩa đen là các hàm đ a ra tên c a chúng. M t heuristic đ t đ c ng t ự ượ ữ fd,t tăng g i là “TF x IDF” b t kỳ khi dùng t n su t thu t ng ọ

1616

đ u và t n su t tài li u c a thu t ng ề ệ ủ ậ ấ ầ ề ữ ft gi m đ u. ả

+ Các tr ng s truy v n-thu t ng w c tính t ng t ấ ậ ố ọ ượ ươ ự ữ q,t đ

- Nhân t ử chu n hoá ẩ đ không k đ n ph n đóng góp c a các ầ ể ế ủ ể

tài li u dài. Do đó, lu t tích trong đánh giá đ t ng t b ng ộ ươ ệ ậ ự ằ

w

t,d

=

(cid:215) (cid:229) ˛

)D,Q(S d

w t,qQt D

d

(cid:229)=

D

f

(4.14)

d

i

i,d

d là đ dài c a tài li u D ủ

1717

trong đó ệ ộ

n

2

=

Đ t ng t là kho ng cách Euclide: 4.3.3 Mô hình không gian vectơ ộ ặ ự đ i v i m t c p vect ộ ươ ố ớ ơ ả

)D,Q(S

w

w

d

t,q

t,d

= 1t

- (cid:229) (4.15)

n

H ngướ ch th b i 2 vect ị ở ỉ ơ

(cid:229)

yx

i

i

= 1i

(cid:215)

=q

=

(4.18)

cos

n

n

2

2

YX YX

(cid:229) (cid:229)

x

y

i

i

= 1i

= 1i

Công th c có 2 hàm ý:

chu n hoá là đ dài ứ ứ ử ẩ ẩ ộ

1818

1. Ch ng minh s chu n hoá: Nhân t ự Euclide c a tài li u ệ ủ 2. Cung c p m t s tr c quan rõ ràng c a lu t x p h ng ấ ậ ế ạ ộ ự ự ủ

n

Lu t cosin ậ đ i v i x p h ng: ố ớ ế ạ

d

=

∑ w

w

=

t,q

t,d

)D,Qcos(

d

= 1t

1 WW

q

d

DQ DQ

d

(cid:215)

n

=

(4.19)

w

W d

2 t,d

trong đó (cid:229)

ộ ủ ố

=

W q

2 t,q

(4.20) ệ (4.21)

= 1t là đ dài Euclide – tr ng s – c a tài li u d và ọ n ∑ w = 1t ấ

là tr ng s c a truy v n q. ố ủ ọ

Đ t ng t ộ ươ ự:

(cid:246) (cid:230)

=

+

+

)D,Qcos(

1(

log

f

)

log

1

d

e

t,d

e

dDQt

1 WW

N f

d

q

t

(cid:247) (cid:231) (cid:215) (cid:229) (cid:247) (cid:231) ˙ ˛ ł Ł

1919

(4.22)

4.4 Đ ĐO COSIN Ộ

4.4.1 T n su t bên trong tài li u ệ ầ ấ

4.4.2 Tính đ đo cosin ộ

Xét l i công th c (4.22) đ i v i đ đo cosin: ạ ố ớ ộ ứ

(cid:246) (cid:230)

=

+

+

1(

log

)

log

1

)D,Qcos( d

f t,de

e

(cid:247) (cid:231) (cid:215) (cid:229) (cid:247) (cid:231)

N f

1 WW d q

t

dDQt

˙ ˛ ł Ł

4.4.3. B nh dành cho tr ng s tài li u ộ ớ ố ọ ệ

2020

4.4.4. S p x p ắ ế

i thu t 4.2 Tìm ki m r tài li u dùng đ đo cosin, ộ ả ệ

‹ ế ậ

˛ Q, ữ { }. A là t p thanh tích lu . ỹ ấ ậ

ố ớ ụ ỉ ủ t , m c vào IF đ i v i t.

Gi ậ 1. Đ t A ặ 2. Đ i v i m i m t thu t ng truy v n t ộ ỗ ố ớ t. (a) Truy g c t ố ừ (b) Tìm ki m t v ng. ừ ự ế (c) Ghi ft và đ a ch c a I ị (d) Đ t wặ t ‹ 1 + loge(N / ft). t. (e) Đ c m c vào IF I ụ ọ ộ ặ (f) Đ i v i m i m t c p (d, ỗ ố ớ fd,t) thu c Iộ t ,

d ˛ i> N u Aế

A thì

0 ,

2121

‹ A + {Ad}.

Đ t Aặ d ‹ Đ t A ặ ii> Đ t Aặ d ‹ Ad + loge(1 + fd,t) * wt.

A, ố ớ

d).

ỗ Đ t Aặ d Bây gi ộ d ˛ 3. Đ i v i m i m t A Ad / Wd. ỉ ệ ớ v i giá tr cos(Q, D ị

£

d = max{A}.

Aờ d t l i £ r, 4. Đ i v i 1 ố ớ (a) L a ch n d sao cho A ọ ự

ị ệ

ỉ ủ ệ ớ

‹ (b) Dò tìm đ a ch c a tài li u d. (c) Tìm ki m tài li u d và trình bày v i NSD. ế (d) Đ t A ặ A - {Ad}.

2222

Gi ậ

i thu t nêu lên 3 đi m nh sau: ư ể ả q là m t h ng s 1. Wq b b qua vì W ố ộ ằ ị ỏ c s d ng ng l n b nh đ 2. l ớ ượ ử ụ ộ ớ 3. ch r << N tài li u có m t ặ ượ ỉ ệ

Ấ Ế

4.5 MÔ HÌNH TÌM KI M THÔNG TIN XÁC SU T  Nguyên lý x p h ng theo xác su t ạ ấ do Robertson đ a ra ư

ế (probability ranking principle):

ế ủ ứ ộ ệ ớ

ệ ắ

đây đ ộ ấ

N u đáp ng c a m t h tìm ki m thông tin v i m i m t yêu ộ ế ỗ gi m c u c a NSD là m t dãy các tài li u s p x p theo th t ế ứ ự ả ầ ủ d n c a các xác su t liên quan, các xác su t c đánh ượ ấ ở ầ ủ giá là đ chính xác có th trên CSDL có s n thì toàn b hi u ộ ệ ẵ qu c a hê đ i v i NSD s là t t nh t trên CSDL đó. ố ố ớ ể ẽ ả ủ

ấ  Mô hình tìm ki m thông tin xác su t ế ấ nh sau: ư

Đ nh nghĩa 4.4 (PIR): ị

ấ ộ

ệ ỏ

Mô hình tìm ki m thông tin xác su t PIR là m t MIR S = th a mãn đi u ki n sau đây: ề C = 2 (4.29)

2323

ề ở ố

Chúng ta l y C = 2 là vì mô hình IR xác su t truy n th ng có ấ 2 tiêu chu n: có liên quan và không liên quan. ấ ẩ

 Đ nh nghĩa 4.5 (PIR) : đ nh nghĩa 4.4 có th đ c đ nh nghĩa ị ể ượ ị

ị i nh sau: l ư ạ Mô hình tìm ki m thông tin xác su t PIR là m t MIR ế S =

ộ trong đó:

i}.

´ C = 2 và (q) = {d |m ãi(q,d ) ‡ m ãj(q, d )}, j = i + (-1)i+1, m ãi(q, d ) > a

(4.30)

 Đ nh nghĩa 4.6 ị

˛ ấ ộ

˛

ng truy v n q. M t tài li u d đ ế ứ ệ ọ ệ ộ

2424

P(I|(q, d)) )

(mô hình tìm ki m thông tin xác su t kinh đi n) ế ể Cho D là m t t p tài li u, q D m t truy v n và P(R|(q, d)) ệ ộ ậ ấ D là có liên quan /không liên quan v i ớ xác su t tài li u d ệ ấ truy v n q t ng ng. Cho R(q) là t p tài li u tìm ki m đáp ậ ứ ươ ấ c l a ch n đáp ng m t ượ ự ộ ấ ứ truy v n q n u ế ấ P(R|(q, d)) ‡ (Lu t quy t đ nh Bayes ế ị ậ (4.31)

nghĩa là,

R(q) = {d| P(R|(q, d)) ‡

i d

ấ i q t khi nó đ (4.32) P(I|(q, d))} - Chính xác h n, P(R|(q, d)) và P(I|(q, d)) là xác su t liên đ i t ớ ớ ơ ng ng. c xét có liên quan và không liên quan t ươ ứ ượ ớ

- Đánh giá P(R|(q, d)) và P(I|(q, d)) d a vào công th c Bayes. ự ứ

˛ ng, m t đ i t ộ ậ ộ ố ượ ố ị ấ

ươ

Cho D là m t t p đ i t và hai tiêu chu n ãẩ ứ D ng c đ nh b t kỳ q ố ượ ng 1 và ã2 là liên quan và không liên quan t ng b t kỳ d ấ ộ ố ượ m ãi(q, d ), i = 1, 2 là m c đ mà m t đ i t

˛ ng. Cho ứ ộ D th a mãn tiêu chu n ãi liên quan t i q. ẩ ỏ ớ

1}

2525

 Đ nh nghĩa 4.7 (PIR) : Mô hình tìm ki m thông tin xác su t PIR là m t MIR trong đó: ´ ế S = (q) = {d |m ã1(q,d ) ‡ m ã2(q, d )}, m ã1(q, d ) > a

(4.33)

- t c a MIR ng h p đ c bi ợ ệ ủ ộ ườ

-

ươ ấ

ng. PIR là m t tr ặ ( đ nh nghĩa 4.5, l y i =1). ấ ở ị S. Dominich đã ch ng minh PIR đ nh nghĩa 4.7 và mô hình tìm ở ị ứ ki m thông tin xác su t kinh đi n ng đ nh nghĩa 4.6 là t ể ở ị ế đ ươ

B ng 4.4 – Các xác su t có đi u ki n. ệ ả

ề ấ S tài li u ệ ố

T ngổ

ậ Có liên quan Rt Không liên quan ft - Rt ft

Thu t ng t có ữ m tặ

ậ R - Rt N - ft - (R - Rt) N - ft

Thu t ng t ữ v ng m t ặ ắ

2626

N R N – R T ngổ

- Các xác su t có đi u ki n có th đ c đánh giá t b ng 4.4. ể ượ ề ệ ấ ừ ả

t / ft

(4.34) P [có liên quan | thu t ng t có m t] = R ậ ữ ặ

t – Rt) / ft

P [không liên quan | thu t ng t có m t] = (f ữ ặ ậ

T ng t , ươ ự

t / R

(4.35) P [thu t ng t có m t | có liên quan] = R ặ ữ ậ

t – Rt) / (N – R)

P [thu t ng t có m t | không liên quan] = (f ữ ậ ặ

c dùng công th c ố ớ ậ ượ ứ

=

w

t

-  tr ng s w ọ Bayes:

t fN/()R

f(

2727

t

t

t

t

- - - - ố t đ i v i thu t ng t nh n đ ữ ậ )RR/(R t ))RR(

(4.36)

Ự Ả

 S PH N H I LIÊN QUAN Ồ - Là quá trình s a đ i truy v n đ nâng cao hi u su t tìm ki m ử ổ ệ ể ế ấ ấ

- ng pháp l p l i truy ề ấ ươ ặ ạ

Salton, Buckley và Harman đ xu t ph v n. ấ

d và truy ơ tr ng s , trong đó n là s thu t ậ ố ơ ọ c đ n gi n nh t nh sau:

, trong đó tài li u D ể ễ ệ

=

t. Chi n l T t c s d ng bi u di n vect ấ ả ử ụ v n Q đ u đ ấ ề ượ ng truy v n riêng bi ấ ữ c coi là n-vect ệ ố ế ượ ơ ư ấ ả

(cid:229)+

DQ

Q 1 + i

i

n

d

-

D Rd

˛

(4.39)

trong đó:

2828

ạ ấ

+ Dn là tài li u x p h ng cao nh t không liên quan; ệ ế + R là t p tài li u có liên quan. ệ ậ

ả ể ơ

ứ ữ ưở ả

ấ ầ ằ

p=

w+

l+

h+

Q

Q

Q

D

D

ng đ n t  Các bi u th c ph n h i t ng quát h n cho phép m t s l n ộ ố ớ ồ ổ h n trong nh ng tài li u không liên quan nh h ng đ n truy ệ ế ơ v n m i và bao hàm d tr s n cho truy v n ban đ u nh m ự ữ ẵ ấ nh h ả t c truy v n ti p theo: ấ ế ấ ả ớ ưở ế

+ 1i

0

i

d

d

(cid:229) (cid:229)

Rd

Id

˛ ˛

(4.40)

p và h 0); £ ố ớ h là các h ng tr ng s (v i ằ ọ

ứ ủ ở

2929

NSD v i các phép l p truy v n. trong đó: , l , w R là t p con tài li u có liên quan; ậ I là m t t p con tài li u không liên quan b i vì đáp ng c a ộ ậ ấ ớ ệ ặ

Ấ Ế

ố ớ ươ ể

ế ạ ệ ế ạ ấ

so

quan

P =

ng pháp x p h ng đ i v i đi m Đ chính xác P ộ c t nào đó r là m t ph n trong s tài li u x p h ng cao nh t r ố ắ có liên quan đ n truy v n: 4.6 ĐÁNH GIÁ HI U SU T TÌM KI M Ệ 4.6.1 Đ chính xác và đ ph c h i ộ ụ ồ c a m t ph ộ ủ ầ ộ ấ ế

tai lieu tim kiem co tong lieu tim so tai

lien kiem

(4.41)

ươ ộ

i giá tr r nào đó là t ỷ ạ c tìm ki m trong r cao ng pháp t ượ ố ị ế

so

kiem

R =

tai lieu tong

co so

lien tai lieu

duoc lien

tim quan

Đ ph c h i R c a m t ph ủ ộ ụ ồ l c a t ng s tài li u có liên quan đ ệ ệ ủ ổ nh t: ấ

quan co

3030

(4.42)

= RN

P

 Đ chính xác P : ộ

k (4.41’)

R

R =

N N

T

 Đ ph c h i R ộ ụ ồ :

(4.42’)

trong đó:

„ 0; ố ộ ệ ấ

k „ ế

c đáp ng q, ứ c. ố ệ ượ

ổ ộ

.

NT là t ng s tài li u có liên quan t i m t truy v n q, NT ớ ổ | ´ (q) | = k 0; là s tài li u tìm ki m đ ượ ệ NR là s tài li u có liên quan tìm ki m đ ố ế  Đ nh đ ề: T s gi a đ ph c h i và đ chính xác R / P thay đ i ỉ ố ữ ộ ụ ồ ị ố ớ k tuy n tính đ i v i Ch ng minh: ế ứ

3131

(cid:222) R / P = k (4.43) NR = R NT = P k / NT

ườ ộ ụ ồ ộ

Đuong cong P-R doi voi hang

120

100

80

P

60

R (%) P (%)

40

20

0

R

Do thi hieu suat tinh toan

200

150

do chinh xac

P

100

do phuc hoi

50

0

R

3232

Hình 4.1 – Đ ng cong P-R đ i v i h ng c a b ng 3.2 4.6.2 Đ ng cong đ ph c h i-đ chính xác ủ ả ố ớ ạ ườ

 TÀI LI U THAM KH O Ả 1. Đ Quang Vinh (2009), ỗ ế , Th vi n s - Ch m c và Tìm ki m ư ệ ố ỉ ụ

Nxb Đ i h c Qu c gia Hà N i. ố ạ ọ

ậ ở

ễ ị

ộ 2. Lourdes T.D. (2006), Th vi n s và truy c p m tài li u l u ệ ư ư ệ ố trữ, Nguy n Xuân Bình và nnk biên d ch, UNESCO, Hà N i. ộ 3. The 10th International Conference on Digital Libraries (2007), Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers, Ha Noi ướ ử ụ ủ ệ ể ặ

ng d n cài đ t, s d ng và phát tri n c a h ệ ẫ ph n m m th vi n s Greenstone ư ệ ố 4. Tài li u h ầ ề

5. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 6. Fox E.A. (2000), Advanced Digital Libraries, Virginia

Polytechnic Institue and State University.

7. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition,

Morgan Kaufmann, San Francisco.

8. Witten I.H., Bainbridge D. (2003), How to Build a Digital

3333

Library, Morgan Kaufmann, San Francisco.

K T THÚC !

TRÂN TR NG CÁM N !

Ơ

3434