(IT4853) Tìm kiếm và trình diễn thông tin
Mô hình ngôn ngữ
Giảng viên
TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb
2
Nội dung chính
Mô hình sinh Các giả thuyết cơ bản Thử nghiệm
3
Mô hình sinh văn bản
Máy trạng thái hữu hạn
I wish I wish I wish I wish . . . Không thể sinh: “wish I wish”
hoặc “I wish I”.
4
Máy một trạng thái
frog said that toad likes frog STOP P(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048
Trong đó STOP là trạng thái dừng.
5
Xếp hạng văn bản
“frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12
P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 =
0.0000000000120 = 12 · 10-12
P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1
6
Nội dung chính
Mô hình sinh Các giả thuyết cơ bản Thử nghiệm
7
Xác suất sinh chuỗi từ
Giả thuyết Unigram: Xác suất sinh một từ là độc lập với xác suất sinh các từ
còn lại:
Giả thuyết đa thức:
8
Xác suất phù hợp truy vấn
Query likelihood language model Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d
phù hợp với truy vấn q.
Theo luật Bayes
P(q) là hằng số; Giả sử P(d) là đồng nhất;
Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản dsinh truy vấn q.
9
Giả thuyết Unigram và phân bố đa thức
𝐾𝑞 =
𝐿𝑞! 𝑡𝑓𝑡1,𝑞! 𝑡𝑓𝑡2,𝑞! … 𝑡𝑓𝑡𝑀,𝑞!
Trong đó Kq là hệ số đa thức – là hằng số với một câu truy vấn qxác định, có thể bỏ qua trong xếp hạng.
10
Ước lượng sử dụng khả năng cực đại
Hàm xếp hạng:
𝑝(𝑡|𝑀𝑑)
𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑡∈𝑞
𝑅𝑎𝑛𝑘 𝑑, 𝑞 =
𝑝(𝑡|𝑀𝑑)𝑡𝑓𝑡,𝑞
𝑡 𝑑𝑢𝑦 𝑛ℎấ𝑡 ∈𝑞
Maximum likelihood estimation:
𝑝 𝑡 𝑀𝑑 =
𝑡𝑓𝑡,𝑑 𝐿𝑑
Nếu dkhông chứa một từ truy vấn tthì Rank(d, q) = 0
==> Cần làm mịn để tránh giá trị 0.
11
Mô hình bộ dữ liệu
Tương tự văn bản, xác suất bộ dữ liệu sinh từ t:
𝑝 𝑡 𝑀𝐶 =
𝑐𝑓𝑡,𝐶 𝐿𝐶
MC là mô hình sinh xác định trên bộ dữ liệu C 𝐿𝐶 = 𝑑∈𝐶 𝐿𝑑, là số từ trong bộ dữ liệu
12
Làm mịn tuyến tính
Linear interpolation Kết hợp mô hình văn bản và mô hình bộ dữ liệu
p(t|d) = λp(t|Md) + (1 - λ)P(t|Mc)
+ (1 − λ)
𝑤𝑡,𝑑 = λ
𝑡𝑓𝑡,𝑑 𝐿𝑑
𝑐𝑓𝑡,𝐷 𝐿𝐷
13
Tổng hợp các giả thuyết
Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả năng cực đại: Maximum Likelihood
Estimation (MLE)
λ
+ (1 − λ)
𝑡𝑓𝑡,𝑑 𝐿𝑑
𝑐𝑓𝑡,𝐶 𝐿𝐶
𝑅𝑎𝑛𝑘 𝑞 𝑑 = 𝑡∈𝑉
14
Giá trị tham số
Sử dụng λlớn có xu hướng trả về văn bản chứa tất
cả từ truy vấn Hiệu ứng sử dụng điều kiện AND
Giá trị λnhỏ thích hợp cho xử lý truy vấn dài
Hiệu ứng sử dụng điều kiện OR
Cần tùy chỉnh λđể đạt được chất lượng cao.
15
Giả thuyết mô hình ngôn ngữ
Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn. Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng.
16
Nội dung chính
Mô hình sinh Các giả thuyết cơ bản Thử nghiệm
17
Thử nghiệm của Ponte và Croft
Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm
này…
…Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế
18
Ví dụ 1
Bộ dữ liệu: d1 và d2 d1: Jackson was one of the most talented entertainers of all
time
d2: Michael Jackson anointed himself King of Pop Truy vấn q: Michael Jackson Sử dụng mô hình như trên slide 14 với λ= 1/2
19
Ví dụ 1
Rank(q|d1) = [(0/11 + 1/18)/2] · [(1/11 + 2/18)/2] ≈ 0.003 Rank(q|d2) = [(1/7 + 1/18)/2] · [(1/7 + 2/18)/2] ≈ 0.013
d2 được xếp hạng cao hơn d1
20
Ví dụ 2
Bộ dữ liệu: d1 và d2 d1 : Xerox reports a profit but revenue is down d2: Lucene narrows quarter loss but decreases further Truy vấn q: revenue down Sử dụng mô hình như trên slide 14 với λ = 1/2
21
Ví dụ 2
P(q|d1) = [(1/8 + 2/16)/2] · [(1/8 + 1/16)/2] P(q|d1) = 1/8 · 3/32 = 3/256 P(q|d2) = [(1/8 + 2/16)/2] · [(0/8 + 1/16)/2] = P(q|d2) = 1/8 · 1/32 = 1/256 Xếp hạng d2 cao hơn d1
22
23