Đề thi môn học Tìm kiếm và Trình diễn Thông tin

Trường Đại Học Bách Khoa Hà Nội

Viện CNTT & TT

Đề thi cuối kỳ môn học IT4853 – Tìm kiếm và trình diễn thông tin

(Trọng số 0.7, đề thi gồm 2 trang, thời gian làm bài 120 phút, không được sử dụng tài liệu)

Bài 1 – Cấu trúc dữ liệu chỉ mục ngược (1.0 điểm)

Cho bộ dữ liệu văn bản sau:

Doc 1: Đại học bách khoa Hà Nội

Doc 2: Bách khoa toàn thư khoa học và công nghệ

Doc 3: Đại từ điển bách khoa tòan thư

Hãy minh họa bằng hình vẽ cấu trúc chỉ mục ngược đơn giản gồm từ điển và bộ thẻ định vị. Các từ trong

từ điển phải được sắp xếp tăng dần theo thứ tự bảng chữ cái, danh sách thẻ định vị cũng phải được sắp xếp theo

thứ tự tăng dần mã văn bản.

Điều kiện: tách từ theo khoảng trắng; đổi tất cả chữ hoa thành chữ thường; không cần lưu bất kỳ dữ liệu

nào khác ngoài từ tách được và mã văn bản; các ký tự là những ký tự Unicode dựng sẵn theo chuẩn TCVN

6909:2001; thứ tự bảng chữ cái của các ký tự đã được sử dụng như sau:

dấu_cách, a, b, c, g, h, i, k, n, o, t, v, à, á, ò, ô, đ, ư, ạ, ể, ệ, ọ, ộ, ừ

Bài 2 – Ước lượng thời gian thực hiện giải thuật sắp xếp (1.0 điểm)

Giả sử chúng ta cần Tlog

T so sánh (ví dụ, QuickSort) để sắp xếp T cặp mã từ-mã văn bản. Hãy ước

lượng thời gian thực hiện giải thuật sắp xếp (công thức tổng quát và kết quả cụ thể tính bằng giây) trong hai

trường hợp: lưu toàn bộ dữ liệu trên ổ đĩa và trong bộ nhớ. Một cách đơn giản, chúng ta giả sử rằng nếu lưu dữ

liệu trên đĩa thì cần hai thao tác định vị đầu đọc và một thao tác ALU để thực hiện một phép so sánh, còn nếu

sử dụng bộ nhớ thì cần hai thao tác đọc cặp mã từ-mã văn bản trong bộ nhớ và một thao tác ALU. Các tham số

hệ thống được cho trong bảng sau, (T = 10

Ký hiệu Tham số Giá trị

m Thời gian đọc cặp mã từ-mã văn bản trong bộ nhớ 5E-9 s

s Thời gian định vị đầu đọc của ổ đĩa 5E-3 s

p Thời gian thực hiện thao tác ALU 1E-9 s

Bài 3 – Chỉ mục ngược có vị trí, truy vấn với tham số khoảng cách (1.5 điểm)

Cho chỉ mục ngược có vị trí theo định dạng sau:

từ: mã-văn-bản: <vị trí, vị trí, …>; mã-văn-bản: <vị trí, …>.

Chỉ mục ngược:

Tìm-kiếm: 1: <1>; 2: <6>; 3: <2, 15>; 4: <1>.

Dữ-liệu: 1: <3>; 3:<4, 16>; 4: <3>; 7: <14>;

Thông-tin: 1: <2>; 2: <12, 16, 21>; 3: <18>; 5: <21, 25>.

Tham số /k trong truy vấn từ1 /k từ2 được hiểu là tìm từ2 trong phạm vi k từ so với từ1 (có tính đến thứ

tự), trong đó k là số nguyên dương. Như vậy nếu k = 1 thì từ2 là từ liền sau từ1.

Hãy xác định: a) Tập văn bản thỏa mãn truy vấn: Tìm-kiếm /2 Dữ-liệu

b) Tập giá trị k sao cho truy vấn: Tìm-kiếm /k Thông-tin trả về tập kết quả {1, 3}.

c) Tập giá trị k sao cho truy vấn Thông-tin /k Thông-tin trả về tập kết quả khác rỗng.

Bài 4 – Mô hình tìm kiếm thông tin, mô hình không gian vec-tơ (1.0 điểm)

Sử dụng chỉ mục ngược đã cho ở bài 3. Hãy tính độ tương đồng cosine với truy vấn Tìm-kiếm Thông-tin

(gồm hai từ Tìm-kiếm và Thông-tin) cho ba văn bản với mã số 1, 2, 3 và sắp xếp các văn bản này theo thứ tự

giảm dần độ tương đồng cosine. Sử dụng phương pháp xác định trọng số từ tf.idf theo cấu trúc lnc.ltc.

* Gợi ý giải mã ký hiệu SMART: bộ ba ký tự đầu tiên áp dụng cho văn bản, bộ ba ký tự tiếp theo áp dụng

cho câu truy vấn, các ký tự theo thứ tự áp dụng cho tf, df, và chuẩn hóa. Ý nghĩa các ký hiệu như sau:

l (logarithm): 1 + log(tf) n (no): df = 1 t (idf): log(N/df)

c (cosine): 1/

...

www +++ trong

ó M là s

ố

ừ

trong t

ừ

ể

Bài 5 – Đánh giá kết quả tìm kiếm (1.5 điểm)

ả

ử

có 3 v

n b

ả

n phù h

ợ

p v

ớ

i nhu c

ầ

u thông tin th

ứ

ấ

t và 5 v

n b

ả

n phù h

ợ

p v

ớ

i nhu c

ầ

u thông tin

ứ

2 trong b

ộ

ữ

ệ

u. K

ế

t qu

ả

ánh giá tính phù h

ợ

p cho 10 v

n b

ả

đầ

u tiên

đượ

c tr

ả

ề

sau (ký t

ự

bên

trái nh

ấ

đạ

i di

ệ

n cho k

ế

t qu

ả

đầ

u tiên

đượ

c tr

ả

ề

, R – phù h

ợ

p, N – không phù h

ợ

p):

Nhu c

ầ

u thông tin 1:

ệ

ố

ng 1: RNRNNNNRNN

ệ

ố

ng 2: NRNNNRNRNN

Nhu c

ầ

u thông tin 2:

ệ

ố

ng 1: NRNRNNRRNR

ệ

ố

ng 2: RRNRNNRNNR

Hãy so sánh hai h

ệ

ố

ng d

ự

a trên nh

ữ

ng d

ữ

ệ

ã cho:

a) Hãy tính MAP c

ủ

a hai h

ệ

ố

ng? Các giá tr

ị

MAP thu

đượ

c cho th

ấ

y h

ệ

ố

ng nào

u vi

ệ

t h

b) Hãy tính các giá tr

ị

F1 cho t

ừ

ng t

ậ

p k

ế

t qu

ả

ề

? Xác

đị

nh giá tr

ị

trung bình c

ủ

độ

o F1 cho m

ỗ

ệ

ố

ng? D

ự

a trên các giá tr

ị

thu

đượ

c hãy

đư

a ra k

ế

t lu

ậ

n h

ệ

ố

ng nào

u vi

ệ

t h

n trong t

ừ

ng tr

ườ

ợ

p (truy v

ấ

n 1, truy v

ấ

n 2, tr

ườ

ng h

ợ

p t

ổ

ng quát)?

c) Trong danh sách có th

ứ

ự

ủ

a k

ế

t qu

ả

ề

, chúng ta

đị

nh ngh

ể

m cân b

ằ

ng là

ể

m có

độ

chính

xác b

ằ

độ

đầ

đủ

. Hãy

đư

a ra

ề

u ki

ệ

để

ồ

n t

ạ

i m

ộ

ể

m nh

ậ

y và gi

ả

i thích?

* G

ợ

i ý: MAP

đượ

đị

nh ngh

a nh

sau: N

ế

u t

ậ

p v

n b

ả

n phù h

ợ

p cho nhu c

ầ

u thông tin Qq

∈

có d

ạ

{

}

ddd ,...,,

và

là t

ậ

p k

ế

t qu

ả

có x

ế

p h

ạ

ng t

ừ

ế

t qu

ả

đầ

u tiên theo th

ứ

ự

ớ

i v

n b

ả

d, thì

∑ ∑

= =

1 1

)(

QMAP

, trong

ó P(R

) là

độ

chính xác trên t

ậ

p R

F1 (trung bình

ề

u hòa c

ủ

a P và R)

đượ

c xác

đị

nh theo công th

ứ

c sau F1 = 2PR/(P + R).

Bài 6 – Nén danh sách mã số văn bản (1.0 điểm)

a) Gi

ả

ử

có m

ộ

t danh sách mã s

ố

n b

ả

đượ

c chuy

ể

n thành danh sách kho

ả

ng cách và

đượ

c mã hóa

ớ

i s

ố

bytes thay

đổ

i (VB), k

ế

t qu

ả

mã hóa nh

sau (d

ữ

ệ

đượ

c cho d

ướ

i d

ạ

ng mã nh

ị

phân):

10000101 00000011 10000001 10001001

Hãy gi

ả

i mã VB

ã cho

để

ấ

y danh sách mã s

ố

n b

ả

n ban

đầ

b) Hãy mã hóa danh sách kho

ả

ng cách c

ủ

a danh sách mã s

ố

n b

ả

ó s

ử

ụ

ng mã gamma (

-code).

Bài 7 – Lưu từ điển (1.5 điểm)

Xét m

ộ

t b

ộ

ừ

ự

ng (t

ừ

ể

n) trong

ó không có t

ừ

độ

dài 1 ho

ặ

c 2 ký t

ự

. Gi

ả

ử

ằ

ng s

ố

ừ

có

độ

dài i t

ỉ

ệ

thu

ậ

n v

ớ

i 1/i

, v

ớ

i i > 2 và

độ

dài c

ự

đạ

i c

ủ

a t

ừ

là 30. Ngoài ra b

ộ

ừ

ự

ng có M = 100000 t

ừ

và s

ử

ụ

ng 1 byte

để

ể

u di

ễ

n 1 ký t

ự

a) Hãy vi

ế

t công th

ứ

c t

ổ

ng quát xác

đị

nh s

ố

ượ

ng ký t

ự

ầ

n s

ử

ụ

để

ế

t t

ấ

t c

ả

ừ

có

độ

dài i.

b) N

ế

u chúng ta l

u t

ấ

t c

ả

ừ

ộ

t chu

ỗ

i ký t

ự

dài và con tr

ỏ

ớ

i ký t

ự

ắ

đầ

u c

ủ

a m

ỗ

i t

ừ

, thì s

ẽ

ầ

bao nhiêu bytes? (vi

ế

t công th

ứ

c t

ổ

ng quát và k

ế

t qu

ả

ố

i cùng, gi

ả

ử

ỗ

i con tr

ỏ

chi

ế

m 4 bytes).

c) N

ế

u s

ử

ụ

ng phân

ạ

n: l

u con tr

ỏ

ớ

i ký t

ự

đầ

u tiên c

ủ

a m

ỗ

i kh

ố

i m

ườ

i t

ừ

liên ti

ế

p, s

ử

ụ

ng m

ộ

t byte

đặ

t tr

ướ

c ký t

ự

đầ

u tiên c

ủ

a m

ỗ

i t

ừ

để

độ

dài c

ủ

a t

ừ

ó. Hãy tính s

ố

bytes c

ầ

n s

ử

ụ

ng trong tr

ườ

ợ

p này? (công th

ứ

c t

ổ

ng quát và k

ế

t qu

ả

ố

i cùng).

* G

ợ

i ý: Có th

ể

làm tròn t

ổ

ng 1 + 1/2

+ 1/3

+ … + 1/30

/6;

≈

1,65.

Bài 8 – Phân tích liên kết (1.5 điểm)

Cho m

ộ

đồ

ị

web nh

ỏ

ớ

i b

ố

n trang A, B, C, D nh

trên hình v

ẽ

. Hãy

tính PageRank,

ể

m gi

ớ

i thi

ệ

u (hub) và

ể

m uy tín (authority) cho m

ỗ

i trang.

Đồ

ng th

ờ

i hãy xác

đị

nh th

ứ

ự

ế

p h

ạ

ng các trang theo nh

ữ

ng tiêu chí này.

PageRank:

ả

ử

ạ

i m

ỗ

i b

ướ

c di chuy

ể

n ng

ẫ

u nhiên, v

ớ

i xác su

ấ

t 0.2 chúng ta s

ẽ

ả

y t

ớ

i m

ộ

t trang b

ấ

t k

ỳ

, v

ớ

i xác su

ấ

t còn l

ạ

i chúng ta s

ẽ

di chuy

ể

n theo liên

ế

t. Xác su

ấ

t b

ướ

c nh

ả

y t

ớ

i m

ỗ

i trang là b

ằ

ng nhau.

Điểm giới thiệu/điểm uy tín:

Hãy chu

ẩ

n hóa các giá tr

ị

ể

m gi

ớ

i thi

ệ

u và

ể

m uy tín sao cho giá tr

ị

ự

đạ

i b

ằ

ng 1.

Đáp án

Bài 1 – Cấu trúc dữ liệu chỉ mục ngược (1.0 điểm)

bách

→

công

→

hà

→

ọ

→

khoa

→

ngh

ệ

→

ộ

→

toàn

→

tòan

→

ừ

→

và

→

ể

→

đạ

→

Các mã v

n b

ả

n có th

ể

đặ

t tùy ý

đủ

để

ể

u là mã c

ủ

a các v

n b

ả

ã cho. K

ế

t qu

ả

úng hoàn toàn

đạ

t 1

ể

úng c

ấ

u trúc ch

ỉ

ụ

c ng

ượ

c nh

ng s

ắ

p x

ế

p sai

đạ

t 0,5

ể

m. N

ế

u không phân bi

ệ

t toàn và tòan thì ch

ỉ

đạ

t m

ộ

t n

ử

a s

ố

ể

m c

ủ

a hai tr

ườ

ng h

ợ

p v

ừ

a nêu.

Bài 2 –

Ước lượng thời gian thực hiện giải thuật sắp xếp (1.0 điểm)

ườ

ng h

ợ

p l

u toàn b

ộ

ữ

ệ

u trên

ổ

đĩ

a: [0,5]

T * log

T * (2 * s + p) = 10

* 6 * log

10 * (2 * 5 * 10

-3

+ 10

-9

) = 199315.7 (s)

ờ

i gian th

ự

c hi

ệ

n gi

ả

i thu

ậ

t s

ắ

p x

ế

p là 199315.7 (s) (kho

ả

ng 2 ngày 7 gi

ờ

)

ườ

ng h

ợ

p l

u toàn b

ộ

ữ

ệ

u trong b

ộ

ớ

[0,5]

T * log

T * (2 * m + p) = 10

* 6 * log

10 * (2 * 5 * 10

-9

+ 10

-9

) = 0.22 (s).

ờ

i gian th

ự

c hi

ệ

n gi

ả

i thu

ậ

t s

ắ

p x

ế

p là 0.22(s)

Bài 3 – Chỉ mục ngược có vị trí, truy vấn với tham số khoảng cách (1.5 điểm)

ề

u ki

ệ

để

n b

ả

n d th

ỏ

a mãn truy v

ấ

n d

ạ

ng T1 /k T2 là t

ồ

n t

ạ

i ít nh

ấ

t 1 c

ặ

p giá tr

ị

post1 và post2 (v

ị

trí xu

ấ

t hi

ệ

n c

ủ

a T1 và T2) sao cho post2 – post1 >= k.

a) T

ậ

p v

n b

ả

n th

ỏ

a mãn truy v

ấ

Tìm-kiếm /2 Dữ-liệu

là: {1, 3, 4} [0,5]

b) T

ậ

p giá tr

ị

k sao cho truy v

ấ

Tìm-kiếm /k Thông-tin

ả

ề

ậ

p k

ế

t qu

ả

{1, 3} là: {3, 4, 5}. N

ế

u k > 5

thì t

ậ

p k

ế

t qu

ả

ề

là {1, 2, 3} [0,5]

Để

truy v

ấ

Thông-tin /k Thông-tin

ả

ề

ậ

p k

ế

t qu

ả

khác r

ỗ

ng thì k>=4, hay t

ậ

p giá tr

ị

ủ

a k là:

{4, 5, …, +Inf} [0,5]

Bài 4 – Mô hình tìm kiếm thông tin, mô hình không gian vec-tơ (1.0 điểm)

ừ

ỉ

ụ

c ng

ượ

c suy ra N = 6, các mã s

ố

n b

ả

n là 1, 2, 3, 4, 5, 7.

ố

ng kê:

Truy vấn D1 D2 D3

tf df tf tf tf

Tìm-kiếm 1

Thông-tin 1

Dữ liệu 0

lnc.ltc:

Truy vấn D1 D2 D3

(1+log tf) * log(N/df) 1 + log tf 1 + log tf 1 + log tf

Tìm-kiếm 0,18

1,00

1,30

Thông-tin 0,18

1,00

1,48

1,00

Dữ liệu 0,00

1,00

0,00

1,30

c-norm 4,02

0,58

0,56

0,48

ể

u di

ễ

n vec-t

và

độ

ươ

đồ

ng cosine

Truy vấn D1 D2 D3

Tìm-kiếm 0,71

0,58

0,56

0,62

Thông-tin 0,71

0,58

0,83

0,48

Dữ liệu 0,00

0,58

0,00

0,62

cosine 0,82

0,98

0,78

ứ

ự

ế

p h

ạ

ng c

ủ

a ba v

n b

ả

n D1, D2, D3 theo truy v

ấ

n là: D2, D1, D3

úng bi

ể

u di

ễ

n vec-t

đạ

t 0,5.

úng

độ

ươ

đồ

ng cosine và s

ắ

p x

ế

úng các v

n b

ả

đạ

t 0,5.

Bài 5 – Đánh giá kết quả tìm kiếm (1.5 điểm)

a) Tính MAP và so sánh các h

ệ

ố

ng [0,5]

s1q1

= (1/1 + 2/3 + 3/8) / 3 = 0,68056 AP

s2q1

= (1/2 + 2/6 + 3/8) / 3 = 0,40278

s1q2

= (1/2 + 2/4 + 3/7 + 4/8 + 5/10) / 5 = 0,48571 AP

s2q2

= (1/1 + 2/2 + 3/4 + 4/7 + 5/10) / 5 = 0,76429

MAP

= (0,68056 + 0,48571) / 2 = 0,58313 MAP

= (0,40278 + 0,76429)/ 2 = 0,58353

MAP

> MAP

cho th

ấ

y h

ệ

ố

ng 2

u vi

ệ

t h

n h

ệ

ố

ng 1 dù chênh l

ệ

ể

m là không l

ớ

b) Tính F1 và so sánh các h

ệ

ố

ng [0,5]

s1q1

= P

s2q1

= 3/10 = 0,3; P

s1q2

= P

s2q2

= 5/10 = 0,5;

s1q1

= R

s2q1

= R

s1q2

= R

s2q2

= 1;

s1q1

= F

s2q1

= 2 * 0,3 * 1 / (1 + 0,3) = 0,46 F

s1q2

= F

s2q2

= 2 * 0,5 * 1 / (1 + 0,5) = 0,67

Các giá tr

ị

trung bình:

Avg(F1

) = Avg(F1

) = (0,46 + 0,67) / 2 = 0,57

Vì F1

= F1

trong m

ọ

i tr

ườ

ng h

ợ

p, nên có th

ể

ế

t lu

ậ

n là

độ

o F1 x

ế

p h

ạ

ng c

ả

hai h

ệ

ố

ng nh

nhau trong

ườ

ng h

ợ

p này. (L

u ý: P, R và F1 là các

độ

o áp d

ụ

ng cho t

ậ

p k

ế

t qu

ả

không x

ế

p h

ạ

ng. C

ả

hai h

ệ

ố

đề

ả

ề

ấ

t c

ả

ế

t qu

ả

phù h

ợ

p trong 10 v

n b

ả

đầ

u tiên)

ể

m cân b

ằ

ng [0,5]

Theo nh

đị

nh ngh

a, K là

ể

m cân b

ằ

ng khi và ch

ỉ

khi P@K = R@K. Gi

ả

ử

trong b

ộ

ữ

ệ

u có R v

n b

ả

phù h

ợ

p, và trong K k

ế

t qu

ả

đầ

u tiên tr

ả

ề

có r k

ế

t qu

ả

phù h

ợ

p. Chúng ta có:

P@K = R@K



r/K = r/R

ế

u R = 0 thì không t

ồ

n t

ạ

ể

m cân b

ằ

ng.

ế

u R > 0,

ể

m cân b

ằ

ng nh

trong

đị

nh ngh

a t

ồ

n t

ạ

i trong các tr

ườ

ng h

ợ

p sau:

K = R



ố

n b

ả

n tr

ả

ề

ớ

n h

n ho

ặ

c b

ằ

ng s

ố

n b

ả

n phù h

ợ

p trong b

ộ

ữ

ệ

u (tr

ườ

ng h

ợ

p c

ả

n).

r = 0



n b

ả

đượ

c tr

ả

ề

đầ

u tiên không phù h

ợ

*5a, 5b: Tính

úng các giá tr

ị

đạ

t 0,25; so sánh

úng

đạ

t 0,25.

*5c:

Đạ

t 0,5 n

ế

u ch

ỉ

đượ

c tr

ườ

ng h

ợ

p c

ả

Bài 6 – Nén danh sách mã số văn bản (1.0 điểm)

a) Danh sách kho

ả

ng cách: [0,5]

mã nh

ị

phân: 101 110000001 1001

ệ

ậ

p phân: 5 385 9

Danh sách mã s

ố

n b

ả

n: 5 390 399

b) Mã gamma c

ủ

a danh sách kho

ả

ng cách

giá trị Xóa 1 bít trái Độ dài

101 01 110

110000001 10000001 111111110

1001 001 1110001

ế

t q

ủ

a: 11001 11111111010000001 1110001

* 6a, xác

đị

úng danh sách kho

ả

ng cách

đạ

t 0,25; xác

đị

úng danh sách mã s

ố

n b

ả

đạ

t 0,25.

Bài 7 – Lưu từ điển (1.5 điểm)

a) S

ố

ượ

ng t

ừ

có

độ

dài i là C/i

, trong

ó C là h

ằ

ng s

ố

. [0,5]

∑

→

)25,165,1/(

−

→

C = 2,5 * M

ố

ký t

ự

ầ

n thi

ế

để

ế

t t

ấ

t c

ả

ừ

có

độ

dài i là: 2,5 * M/i

b) S

ố

bytes c

ầ

n s

ử

ụ

để

u t

ấ

t c

ả

con tr

ỏ

là 4 * M [0,5]

ố

bytes c

ầ

n s

ử

ụ

để

u các ký t

ự

là 2,5 * M * (1/3 + 1/4 + … + 1/30)

≈

6,23747*M

ổ

ng s

ố

bytes c

ầ

n s

ử

ụ

ng là (4 + 6,23747) * M

≈

1023747 bytes.

c) S

ố

phân

ạ

n là M/10 [0,5]

ố

bytes c

ầ

n s

ử

ụ

để

u con tr

ỏ

là 4 * M / 10 = 0,4 * M

ố

bytes c

ầ

n s

ử

ụ

để

độ

dài là M

ố

bytes

để

u các ký t

ự

không thay

đổ

i và b

ằ

ng 6,23747 * M

ổ

ng s

ố

bytes c

ầ

n s

ử

ụ

ng trong tr

ườ

ng h

ợ

p này là : (6,23747 + 1 + 0,4) * M

≈

763747 bytes.

Để

tính t

ổ

ng 1/3 + 1/4 + ... + 1/30 có th

ể

ử

ụ

ng công th

ứ

c làm tròn: ln(n) + 0.5772156649 – 1,5 ho

ặ

c tính

theo cách thông th

ườ

ng.

Bài 8 – Phân tích liên kết (1.5 điểm)

PageRank: [0,5]

Phương pháp:

Tính ma tr

ậ

n xác su

ấ

t chuy

ể

n r

ồ

i s

ử

ụ

ng ph

ươ

ng pháp l

y th

ừ

a ho

ặ

c gi

ả

i h

ệ

ươ

ng trình.

Tuy nhiên có th

ể

ử

ụ

ng tính ch

ấ

đố

i x

ứ

ng nh

sau (cách thông th

ườ

ng trình bày

ở

bên d

ướ

i):

Trang D không có liên k

ế

i vào, do

D = 0.2 * 1/4 = 0.05

Các trang A, B, C có c

ấ

u trúc liên k

ế

t nh

nhau, do

A = B = C = (1 – 0.05)/3 = 0.316

ứ

ự

các trang theo PageRank là: A B C D

ể

m uy tín: [0,5]

Trang D không có liên k

ế

i vào, do

ể

m uy tín D = 0

Các giá tr

ị

chu

ẩ

n hóa c

ủ

a A, B, C là A = B = C = 1

ứ

ự

các trang theo

ể

m uy tín là: A B C D

ể

m gi

ớ

i thi

ệ

u: [0,5]

ử

ụ

ng các

ể

m uy tín nh

trên chúng ta có các

ể

m gi

ớ

i thi

ệ

u nh

D = A + B + C

→

D = 3 A = B = C = 1

Các giá tr

ị

ể

m gi

ớ

i thi

ệ

u sau chu

ẩ

n hóa:

A = B = C = 0,333 D = 1

ứ

ự

các trang theo

ể

m gi

ớ

i thi

ệ

u là: D A B C

* Các trang A, B, C có giá tr

ị

tham s

ố

nhau, vì v

ậ

y th

ứ

ự

ươ

đố

i b

ấ

t k

ỳ

ữ

a ba trang này

đề

u là nh

ữ

ứ

ự

úng. Tính

úng các tham s

ố

đạ

t 0,25. Xác

đị

úng th

ứ

ự

đạ

t 0,25.

Tính PageRank thông qua h

ệ

ươ

ng trình:

Ma tr

ậ

n k

ề

A[4 x 4]:

A B C D

A 0

B 0

C 1

D 1

Ma tr

ậ

n xác su

ấ

t chuy

ể

n T[4 x 4]:

0 1 0 0 1/4

1/4 1/4 1/4 0,05 0,85 0,05 0,05

0 0 1 0 *0,8 + 1/4

1/4 1/4 1/4 * 0,2 = 0,05 0,05 0,85 0,05

1 0 0 0 1/4

1/4 1/4 1/4 0,85 0,05 0,05 0,05

1/3 1/3 1/3 0 1/4

1/4 1/4 1/4 0,95/3

0,95/3

0,05

ọ

i A, B, C, D là các giá tr

ị

PageRank c

ủ

a các trang t

ươ

ứ

ng.

Ở

ạ

ng thái

ổ

đị

nh chúng ta có:

[A B C D] * T = [A B C D] (vec-t

riêng chính trái c

ủ

a T).

Chúng ta có h

ệ

ươ

ng trình sau:

(1) -0,95A + 0,05B + 0,85C + 0,95D/3 = 0

{ (2) 0,85A - 0,95B + 0,05C + 0,95D/3 = 0

(3) 0,05A + 0,85B - 0,95C + 0,95D/3 = 0

(4) 0,05A + 0,05B + 0,05C - 0,95D = 0

Thay A + B + C + D = 1 vào (4) ta có D = 0,05

Thay D = 0,05 và nhân m

ỗ

i ph

ươ

ng trình (1), (2), (3) v

ớ

i 3/0,05 (60) ta

đượ

c h

ệ

ươ

ng trình sau:

(1) -57A + 3B + 51C = -0,95

{ (2) 51A - 57B + 3C = -0,95

(3) 3A + 51B - 57C = -0,95

ả

i h

ệ

chúng ta thu

đượ

c A = B = C = 0,95/3

≈

0,32. Th

ứ

ự

ế

p h

ạ

ng các trang theo PageRank là A B C D

Đề thi môn học: Tìm kiếm và trình diễn thông tin

Đề thi cuối kỳ môn học "Tìm kiếm và trình diễn thông tin" giúp các bạn củng cố lại kiến thức và thử sức mình trước kỳ thi. Hy vọng nội dung đề thi sẽ giúp các bạn đạt kết quả cao trong kỳ thi sắp tới.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi