Phản hồi thông tin
(cid:132) Phản hồi thông tin (Information
Phản hồi thông tin
Retrieval - IR) là việc tìm các tài liệu phi cấu trúc (thường là văn bản) thỏa điều cấu trúc (thường là văn bản) thỏa điều kiện tìm kiếm từ một kho dữ liệu lớn (thường được lưu trong máy tính)
Lê Thanh Hương Bộ môn Hệ thống thông tin Viện CNTT&TT
2
1
Các vấn đề
Các hệ thống dựa trên từ khóa
(cid:132) tập các từ khóa có khả năng xuất hiện trong
(cid:132) Đa nghĩa: 1 từ - n nghĩa
tài liệu (vd., JFK, assasination)
(cid:132) Đồng nghĩa: n từ - 1 nghĩa
(cid:132) Kích thước: các hệ thống IR phải có khả
ố
năng xử lý tập ngữ liệu cỡ ~Gb
(cid:132) Độ phủ: Các hệ thống IR phải có khả năng xử lý câu truy vấn thuộc bất kỳ lĩnh vực nào
(cid:132) Các phép toán AND OR: AND(Kennedy, conspiracy, OR(assasination, murder)) or AND(OR(Kennedy,JFK), OR(conspiracy, plot), OR(assasination,assasinated,assasinate,murder, murdered,kill,killed)
3
4
Lấy từ gốc
Từ dừng
(cid:132) Gắn các thuật ngữ trong câu truy vấn với các biến thể của từ (cùng gốc từ) trong các tài liệu
(cid:132) VD: assassination (cid:198) assassinat
(cid:132) Là các từ thường xuất hiện ở hầu hết các tài liệu. Các từ này không chứa nhiều thông tin
(cid:132) Không đưa vào file nghịch đảo (cid:198) giảm
Assassinations Assassinations Assassinated
kích thước của file này
Assassination Assassination Assassinate Assassinating
(cid:132) Các từ dừng: a, an, the, he, she, of, to, by,
(cid:132) Vấn đề:
should, can,…
past - paste
(cid:132) Lỗi: organization - organ (cid:132) Bỏ qua: analysis - analyzes matrices - matrix
5
6
1
Nhược điểm của việc bỏ từ dừng
Từ chức năng và từ nội dung
(cid:132) Muốn loại bỏ các từ chức năng hoặc giảm ảnh
hưởng của nó
(cid:132) Xác định từ nội dung:
(cid:132) Có thể bỏ tên người như “The” (cid:132) Các từ dừng có thể là thành phần quan trọng của đoạn. Ví dụ, 1 câu nói của Shakepeare: to be or not to be” “to be or not to be”
(cid:132) Một số từ dừng (vd., giới từ) cung cấp các
thông tin quan trọng về mối quan hệ
(cid:132) Nó có xuất hiện thường xuyên không? (cid:132) Nó có xuất hiện trong số ít các tài liệu không? (cid:132) Tần suất của nó có thay đổi trong các tài liệu không?
(cid:132) Bộ nhớ ngày nay đã rẻ hơn (cid:198) tiết kiệm bộ nhớ không còn là vấn đề quan trọng như trước nữa
7
8
Sec. 1.2
File nghịch đảo (Inverted Files)
Chỉ số nghịch đảo
(cid:132) Với mỗi thuật ngữ t, lưu danh sách các tài
(cid:132) Để biểu diễn tài liệu trong kho ngữ liệu (cid:132) Là 1 bảng từ với 1 danh sách các tài liệu
liệu chứa t. (cid:132) Định nghĩa mỗi tài liệu bởi docID, là số thứ tự của
tài liệu
chứa 1 từ (cid:132) Assassination: (doc1 doc4 doc35 (cid:132) Assassination: (doc1, doc4, doc35,…) ) (cid:132) Murder: (doc3, doc7, doc36,…) (cid:132) Kennedy: (doc24, doc27, doc29,…) (cid:132) Conspiracy: (doc3, doc55, doc90,…)
(cid:132) Thông tin bổ sung:
(cid:132) vị trí của từ trong tài liệu (cid:132) thông tin xấp xỉ: để so khớp hoặc so gần đúng các
Vấn đề gì xảy ra nếu từ Caesarđược thêm vào tài liệu 14?
đoạn
9
10
Sec. 1.2
Sec. 1.2
Brutus 1 2 4 11 31 45 173 174 Caesar 1 2 4 5 6 16 57 132 Calpurnia 2 54 101 31
Chỉ số nghịch đảo
Xây dựng chỉ số nghịch đảo
(cid:132) Ta cần các danh sách với độ dài thay đổi
Các tài liệu cần đánh chỉ số
(cid:132) Có thể sử dụng linked list hoặc mảng có độ dài
Friends, Romans, countrymen.
thay đổi
Xâu từ Xâu từ
Các từ đã được biến đổi
Sắp theo docID
Inverted index
11
Tokenizer Friends Romans Countrymen 174 Brutus 1 2 4 11 31 45 173 Linguistic modules Caesar 1 2 4 5 6 16 57 132 friend roman countryman Calpurnia 31 54 101 2 2 4 Indexer friend 1 2 roman Từ điển 16 13 countryman
2
Sec. 1.2
Sec. 1.2
Bước đánh chỉ số: Sắp xếp
Bước đánh chỉ số: Chuỗi từ
(cid:132) Sắp theo từ, rồi theo
(cid:132) Chuỗi các cặp (từ đã biến đổi, Document ID)
docID
Bước đánh chỉ số cốt lõi
ố ố
Doc 1 Doc 2
Sec. 1.2
Sec. 1.2
I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious
Bước đánh chỉ số: Từ điển và danh sách
Lưu trữ
Danh sách docIDs
(cid:132) Nhiều chỉ mục từ trong 1 tài liệu được trộn lẫn (cid:132) Đưa vào trong từ điển và danh sách (cid:132) Thêm số lần xuất hiện của tài liệu
Thuật ngữ và số lần và số lần xuất hiện
Sec. 1.3
Sec. 1.3
Con trỏ
Xử lý truy vấn: AND
Phép trộn
(cid:132) Xét câu truy vấn:
(cid:132) Duyệt qua 2 danh sách, thời gian tỉ lệ
với số nút
Brutus AND Caesar (cid:132) Định vị Brutus trong từ điển;
(cid:132) Lấy danh sách của nó.
y
(cid:132) Định vị Caesar trong từ điển;
(cid:132) Lấy danh sách của nó.
(cid:132) Trộn 2 danh sách
2 2 4 4 8 8 16 16 128 128 32 32 64 64 Brutus 2 8 Caesar 1 1 2 2 5 5 8 8 13 13 21 21 34 34 3 3
Nếu 2 danh sách có độ dài là x và y, phép trộn có độ phức tạp O(x+y) . Vấn đề cốt yếu: các danh sách sắp theo docID
17
18
2 4 8 16 32 64 128 Brutus Caesar 1 2 3 5 8 13 21 34
3
Sec. 1.3
Trộn 2 danh sách
Câu truy vấn logic: so khớp
(cid:132) Mô hình phản hồi Boolean có thể trả lời câu truy vấn ở dạng biểu thức Boolean Câu truy vấn sử dụng AND, OR và NOT để (cid:132) Câu truy vấn sử dụng AND, OR và NOT để kết nối các thuật ngữ (cid:132) Coi mỗi tài liệu là 1 tập các từ (cid:132) Chính xác: tài liệu thỏa điều kiện hoặc không
(cid:132) Đây là mô hình IR đơn giản nhất
19
20
Sec. 1.3
Sec. 1.3
Phép trộn
Câu truy vấn logic: phép trộn tổng quát hơn
Thực hiện phép trộn cho các câu truy
vấn:
(cid:132) Bài tập: Thực hiện phép trộn cho các câu
truy vấn: Brutus AND NOT Caesar Brutus AND NOT Caesar Brutus OR NOT Caesar
(Brutus OR Caesar) AND NOT (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) (cid:132) Có thể luôn thực hiện trong thời gian
Thời gian thực hiện còn là O(x+y)?
tuyến tính?
(cid:132) Có thể làm tốt hơn không?
21
22
Sec. 1.3
Sec. 1.3
Tối ưu hóa truy vấn
Tối ưu hóa truy vấn – Ví dụ
(cid:132) Xử lý theo trật tự tăng của tần suất:
(cid:132) khởi đầu với tập nhỏ, sau đó tiếp tục loại bỏ
(cid:132) Đâu là trật tự tốt nhất để xử lý truy vấn? (cid:132) Xét 1 câu truy vấn là phép AND của n thuật ngữ y (cid:132) Với mỗi thuật ngữ, lấy danh sách của nó , sau
,
ậ
g , đó làm phép AND.
Thực hiện câu truy vấn (Calpurnia AND Brutus) AND Caesar.
Query: BrutusANDCalpurniaANDCaesar
23
24
Brutus 2 4 8 16 32 64 128 Caesar 1 2 3 5 8 16 21 34 Brutus 2 4 8 16 32 64 128 Calpurnia 16 13 Caesar 1 2 3 5 8 16 21 34 13 Calpurnia 16
4
Sec. 1.3
Tối ưu hóa truy vấn
Bài tập
(cid:132) Đưa ra trình tự xử lý
truy vấn cho
(cid:132) vd., (madding OR crowd) AND (ignoble
(tangerine OR trees) AND (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)
OR strife) Lấy tần suất xuất hiện cho mọi thuật ngữ (cid:132) Lấy tần suất xuất hiện cho mọi thuật ngữ (cid:132) Đánh giá kích thước của mỗi câu lệnh OR bằng cách tính tổng các tần suất của nó (cid:132) Xử lý theo trật tự tăng của kích thước các
Term eyes y kaleidoscope marmalade skies tangerine trees
Freq 213312 87009 107913 271658 46653 316812
danh sách trong phép OR
25
26
Bài tập
Các kỹ thuật nâng cao
(cid:132) Cụm từ: Stanford University (cid:132) Xấp xỉ: Tìm Gates NEAR Microsoft.
(cid:132) Cần đánh chỉ số để lấy thông tin về vị trí trong các tài liệu
(cid:132) Cho câu truy vấn friends AND romans AND (NOT countrymen), ta sử dụng tần suất của countrymen như thế nào? tần suất của countrymen như thế nào?
(cid:132) Vị trí trong tài liệu: Tìm các tài liệu có (author (cid:132) Vị trí trong tài liệu: Tìm các tài liệu có (author =
Ullman) AND (text contains automata).
(cid:132) Mở rộng phép trộn cho câu truy vấn
(cid:132) Từ khóa tìm kiếm xuất hiện trong 1 tài liệu nhiều hơn
thì tốt hơn (cid:132) Cần thông tin về tần suất của thuật ngữ trong các tài liệu
ngẫu nhiên. Có thể đảm bảo thực hiện trong thời gian tuyến tính với tổng kích thước các danh sách không
(cid:132) Cần độ đo xấp xỉ câu truy vấn với tài liệu (cid:132) Cần quyết định trả về 1 tài liệu thỏa câu truy vấn hay một nhóm tài liệu phủ các khía cạnh khác nhau của câu truy vấn
27
28
Từ và thuật ngữ
Từ và thuật ngữ
(cid:132) What kind of monkeys live in Costa
Rica?
(cid:132) IR quan tâm đến thuật ngữ (cid:132) VD: câu truy vấn Wh t ki d
(cid:132) What kind of monkeys live in Costa Rica? ?
i C
Ri
li
f
t
k
(cid:132) từ? (cid:132) từ nội dung? (cid:132) gốc từ? (cid:132) các nhóm từ? (cid:132) các đoạn?
29
30
5
Tìm cụm từ
Cụm từ (các từ thường đi liền nhau)
O
of the in the in the to the
to be
(cid:132) Sử dụng bigrams? (cid:132) Không tốt: (cid:132) 80871 (cid:132) 58841 (cid:132) 58841 (cid:132) 26430 (cid:132) … (cid:132) 15494 (cid:132) … (cid:132) 12622 (cid:132) 11428 (cid:132) 10007
(cid:132) kick the bucket (cid:132) directed graph (cid:132) iambic pentameter (cid:132) Osama bin Laden bi L d (cid:132) United Nations (cid:132) real estate (cid:132) quality control (cid:132) international best practice (cid:132) … có ý nghĩa riêng, cách dịch riêng.
from the New York he said (cid:132) Giải quyết: bỏ các từ dừng
31
32
Tìm cụm từ
Tìm cụm từ (cid:132) Sử dụng bigrams? (cid:132) Tốt hơn: lọc theo thẻ : A N, N N, N P N …
(cid:132) Vẫn muốn bỏ “new companies” (cid:132) Các từ này thường xuất hiện nhưng chỉ vì cả 2
át á
(cid:132) Quan sát xác suất của từng từ và xác suất của
từ à á
ất ủ
(cid:132) 11487 New York (cid:132) 7261 United States (cid:132) 5412 Los Angeles (cid:132) 3301 last year (cid:132) … (cid:132) 1074 chief executive (cid:132) 1073 real estate (cid:132) …
từ đều thường xuất hiện Q ất ủ từ cụm từ (cid:132) p(new) p(companies) (cid:132) p(new companies) (cid:132) thông tin tương hỗ = p(new) p(companies | new)
33
34
data from Manning & Schütze textbook (14 million words of NY Times) data from Manning & Schütze textbook (14 million words of NY Times)
Thông tin tương hỗ
Phép thử mức độ quan trọng
new ___
TOTAL
new ___
TOTAL
4,675
584
___ companies
8
___ companies
1
¬new ___ 4,667 (“old companies”)
¬new ___ 583 (“old companies”)
p
1978
1,787,876
___ ___ ¬companies
15,820 15 820
___ ¬companies ¬companies
1,785,898 (“old machines”)
14,303,001 14 287 181 14 303 001 14,287,181 (“old machines”)
TOTAL
1979
1,786,481 1,788,460
TOTAL
15,828
14,291,848 14,307,676
(cid:132) Dữ liệu thưa. Giả sử chia tất cả các giá trị cho 8.
(cid:132) p(new companies) = p(new) p(companies) ?
N
(cid:132) MI = log2 p(new companies) / p(new)p(companies)
(cid:132) Giá trị MI có thay đổi không? (cid:132) Không. Nhưng khả năng là cụm từ của nó ít hơn. (cid:132) Điều gì xảy ra nếu 2 từ mới xuất hiện cạnh nhau?
(8/N) /((15828/N)(4675/N)) = log2 1.55 = 0.63
= log2
(cid:190) Cần thử mức độ quan trọng. Kích thước dữ liệu cũng là 1
yếu tố quan trọng
(cid:132) MI > 0 nhưng nhỏ. Với các cụm từ thường xuất hiện, giá trị này lớn hơn 35
36
6
Mức độ quan trọng nhị thức
Mức độ quan trọng nhị thức
new ___
TOTAL
new ___
TOTAL
¬new ___ 4,667
¬new ___ 4,667
8 15,820
4,675 14,287,181 14,303,001
___ companies ___ ¬companies
8 15,820
4,675 14,287,181 14,303,001
___ companies ___ ¬companies
TOTAL
15,828
14,291,848 14,307,676
15,828 15 828
14,291,848 14,307,676 14 291 848 14 307 676
TOTAL TOTAL (cid:131) Giả thiết Null: cùng 1 đồng xu
(cid:132) Giả sử có 2 đồng xu dùng để sinh văn bản. (cid:132) Tiếp theo new, ta dùng xu A để quyết định xem có từ companies tiếp theo không (cid:132) Tiếp theo ¬ new, ta dùng xu B để quyết định xem có từ companies tiếp theo
data from Manning & Schütze textbook (14 million words of NY Times) data from Manning & Schütze textbook (14 million words of NY Times)
(cid:131) Giả thiết đồng xuất hiện: 2 đồng xu khác nhau
(cid:131) giả sử pnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 4675/14307676 (cid:131) pnull(data) = pnull(8 out of 15828)*pnull(4667 out of 14291848) = .00042 không
(cid:132) Ta thấy A được tung 15828 lần và 8 lần có mặt ngửa (cid:132) B được tung 14291848 lần và 4667 lần có mặt ngửa (cid:132) Câu hỏi: 2 đồng xu có trọng số khác nhau không? Nói cách khác, cùng 1 đồng
(cid:132) Do đó giả thiết đồng xuất hiện gấp đôi dữ liệu p(data).
(cid:132) Ta có thể sắp xếp bigrams theo giá trị log pcoll(data)/pnull(data) (cid:132) nghĩa là, mức độ chắc chắn “companies” đi sau “new” như thế nào
37
38
(cid:131) giả sử pcoll(co’s | new) = 8/15828, pcoll(co’s | ¬new) = 4667/14291848 (cid:131) pcoll(data) = pcoll(8 out of 15828)*pcoll(4667 out of 14291848) = .00081 xu hay 2 đồng xu
Mức độ quan trọng nhị thức
data from Manning & Schütze textbook (14 million words of NY Times)
Phân tích ngữ nghĩa tiềm ẩn
new ___
TOTAL
(cid:132) Mỗi tài liệu được coi là 1 vector có độ dài k
1 1978
¬new ___ 583 1,785,898
584 1,787,876
___ companies ___ ¬companies
1979 1979
1,786,481 1,788,460 1 786 481 1 788 460
TOTAL TOTAL (cid:131) Giả thiết Null: cùng 1 đồng xu
(cid:132) giả sử pnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 584/1788460 (cid:132) pnull(data) = pnull(1 out of 1979)*pnull(583 out of 1786481) = .0056
(0, 3,
3,
1, 0,
7,
. . .
1, 0)
(cid:131) Giả thiết đồng xuất hiện: 2 đồng xu khác nhau
1 tài liệu
(cid:132) giả sử pcoll(co’s | new) = 1/1979, pcoll(co’s | ¬new) = 583/1786481 (cid:132) pcoll(data) = pcoll(1 out of 1979)*pcoll(583 out of 1786418) = .0061
(cid:131) Giả thiết đồng xuất hiện vẫn tăng p(data), nhưng khá nhỏ.
40
(cid:131) Nếu không có nhiều dữ liệu, mô hình 2 đồng xu không thuyết phục. (cid:131) Thông tin tương hỗ vẫn có giá trị, nhưng dựa trên ít dữ liệu hơn. Do vậy có thể 39 tin rằng giả thiết Null chỉ là sự trùng hợp ngẫu nhiên.
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Mỗi tài liệu được biểu diễn thành 1 điểm trong không
(cid:132) Giảm điểm: các điểm thực được chuyển về không gian ít chiều hơn (cid:132) ∃ một lựa chọn tốt nhất cho các chiều - có thể biểu diễn một cách tốt nhất các
gian vector
Các điểm trong không gian k chiều Các điểm trong không gian thu gọn Các điểm trong không gian k chiều Các điểm trong không gian thu gọn
Các điểm trong không gian thu gọn Các điểm trong không gian thu gọn
Các điểm trong không gian k chiều Các điểm trong không gian k chiều
41
42
41
42
đặc tính của dữ liệu (cid:132) Tìm được nhờ sử dụng đại số tuyến tính “Singular Value Decomposition” (SVD)
7
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Các điểm SVD cho phép phục hồi các điểm thực ( có thể phục hồi
(cid:132) SVD tìm một vài vector chủ đề (cid:132) Mỗi tài liệu được xấp xỉ một sự kết hợp tuyến tính các chủ đề (cid:132) Liên kết trong không gian thu gọn = hệ số tuyến tính
(cid:132) Bỏ qua các sai khác trên các cạnh mà nó không chọn (cid:132) Hy vọng các sai khác đó chỉ là nhiễu và chúng ta muốn bỏ qua nó
(cid:132) Có bao nhiêu chủ đề A trong tài liệu? Có bao nhiêu chủ đề B trong tài liệu? (cid:132) Có bao nhiêu chủ đề là 1 tập các từ thường xuất hiện cùng nhau
Các điểm trong không gian k chiều Các điểm trong không gian thu gọn Các điểm trong không gian k chiều Các điểm trong không gian thu gọn
Các điểm trong không gian k chiều Các điểm trong không gian thu gọn Các điểm trong không gian k chiều Các điểm trong không gian thu gọn
B e m e h t
B e m e h t
theme A
theme A
43
44
không gian 3 chiều với méo ít nhất)
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Các tọa độ mới có thể hữu ích trong IR (cid:132) Để so sánh 2 tài liệu, hoặc 1 câu hỏi và 1 tài liệu:
(cid:132) Các chủ đề trong IR có thể dùng trong phân giải nhập
nhằng
(cid:132) Chiếu cả 2 vào không gian thu gọn: chúng có cùng chủ đề không? (cid:132) Thậm chí cả khi chúng không có từ nào chung
Các điểm trong không gian thu gọn Các điểm trong không gian thu gọn
Các điểm trong không gian k chiều Các điểm trong không gian k chiều
Biể diễ ừ h 1 kế h
í h á
ế
(cid:132) Mỗi từ là 1 tài liệu: (0,0,0,1,0,0,…) (cid:132) Biểu diễn từ như 1 kết hợp tuyến tính các chủ đề hủ đề (cid:132) Mỗi chủ đề tương ứng với 1 nghĩa?
(cid:132) Vd., “Jordan” có các chủ đề Mideast và Sports (cid:132) Nghĩa của từ trong tài liệu: chủ đề nào mạnh nhất trong tài liệu?
(cid:132) Nhóm và tách các nghĩa
(cid:132) Một từ có nhiều nghĩa; nhiều từ có cùng nghĩa
B e m e h t
theme A
46
45
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Thuật ngữ 5 đóng vai trò quan trọng trong tài liệu nào
(cid:132) Cách nhìn khác (tương tự mạng nơron):
terms 1 2 3 4 5 6 7 8 9
terms 1 2 3 4 5 6 7 8 9
trong các tài liệu 2,5,6
ma trận trọng số (mỗi thuật ngữ trong tài liệu có tác dụng như thế nào)
Mỗi cạnh có 1 trọng số cho bởi ma trận
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
47
48
8
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Ngược lại, các thuật ngữ nào mạnh trong tài liệu 5?
(cid:132) Thuật ngữ 5 và 8 đóng vai trò quan trọng trong tài liệu nào
terms 1 2 3 4 5 6 7 8 9
terms 1 2 3 4 5 6 7 8 9
cho các tọa độ của tài liệu 5
Điều này trả lời cho câu truy vấn chứa thuật ngữ 5 và 8
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
đó chỉ là phép nhân ma trận: vector thuật ngữ(query) x trọng số của ma trận = vector tài liệu .
49
50
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Nghĩa là, làm trơn dữ liệu thưa bằng ma trận xấp xỉ: M ≈ A B
(cid:132) A được mã hóa qua các chủ đề, B – mỗi tài liệu sẽ có tập thuật
(cid:132) SVD xấp xỉ bằng mạng nơron 3 tầng (cid:132) Đưa các dữ liệu thưa qua 1 nút cổ chai và làm trơn nó
ngữ mới
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
terms 1 2 3 4 5 6 7 8 9
terms 1 2 3 4 5 6 7 8 9
A
themes
themes
matrix M
B
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
51
52
Phân tích ngữ nghĩa tiềm ẩn
Phân tích ngữ nghĩa tiềm ẩn
(cid:132) Phân nhóm tài liệu (có thể giải quyết được dữ
Coi A và B là các thuật ngữ và các tài liệu được chuyển về không gian chủ đề ít chiều, tại đó có thể xác định độ tương tự giữa chúng
liệu thưa)
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
A
(cid:132) Phân nhóm từ (cid:132) So sánh 1 từ với 1 tài liệu So sánh 1 từ với 1 tài liệu (cid:132) Xác định các chủ đề của 1 từ với các nghĩa
themes
matrix M
B
của nó (cid:132) Phân giải nhập nhằng bằng cách nhìn vào nghĩa của tài liệu (cid:132) Xác định các chủ đề con của tài liệu với chủ đề
1 2 3 4 5 6 7 documents
1 2 3 4 5 6 7 documents
của nó (cid:132) phân loại chủ đề
54
53
9
Dữ liệu phi cấu trúc
IR vs. CSDL: cấu trúc và phi cấu trúc
(cid:132) Dữ liệu có cấu trúc: thông tin lưu trong bảng
(cid:132) Thường đề cập đến dữ liệu văn bản
dạng tự do
(cid:132) Cho phép (cid:132) Cho phép
(cid:132) Các truy vấn sử dụng từ khóa kết hợp các
phép toán
(cid:132) các truy vấn ngữ nghĩa tinh vi, như
(cid:132) tìm tất cả các trang web có liên quan đến drug
abuse
Cho phép tìm kiếm trong khoảng và tìm kiếm so khớp, ví dụ Salary < 60000 AND Manager = Smith.
55
56
Employee Manager Salary Smith S h Jones 50000 0000 Chang Smith 60000 Ivy Smith 50000
Dữ liệu bán cấu trúc
Dữ liệu bán cấu trúc
(cid:132) Trên thực tế hầu hết dữ liệu đều không
(cid:132) Title is about Object Oriented
ở dạng phi cấu trúc
Programming AND Author something like stro rup like stro*rup
(cid:132) Vấn đề:
(cid:132) Hỗ trợ các tìm kiếm bán cấu trúc như (cid:132) Hỗ trợ các tìm kiếm bán cấu trúc như (cid:132) Title contains data AND Bullets contain
search
(cid:132) làm cách nào xử lý “about”? (cid:132) xếp hạng kết quả?
(cid:132) Đây là trọng tâm của tìm kiếm XML
57
58
Các hệ thống IR phức tạp hơn
(cid:132) IR đa ngôn ngữ (cid:132) Hỏi đáp (cid:132) Tóm tắt văn bản Tóm tắt văn bản (cid:132) Khai phá văn bản (cid:132) …
59