Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11

(IT4853) Tìm kiếm và trình diễn thông tin

Mô hình ngôn ngữ

Giảng viên

 TS. Nguyễn Bá Ngọc  Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603  Email: ngocnb@soict.hust.edu.vn  Website: http://is.hust.edu.vn/~ngocnb

Nội dung chính

 Mô hình sinh  Các giả thuyết cơ bản  Thử nghiệm

Mô hình sinh văn bản

 Máy trạng thái hữu hạn

 I wish I wish I wish I wish . . . Không thể sinh: “wish I wish”

hoặc “I wish I”.

Máy một trạng thái

frog said that toad likes frog STOP P(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048

Trong đó STOP là trạng thái dừng.

Xếp hạng văn bản

 “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12

 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 =

0.0000000000120 = 12 · 10-12

 P(string|Md2 ) > P(string|Md1 )  Thứ tự xếp hạng: d2 d1

Nội dung chính

 Mô hình sinh  Các giả thuyết cơ bản  Thử nghiệm

Xác suất sinh chuỗi từ

 Giả thuyết Unigram:  Xác suất sinh một từ là độc lập với xác suất sinh các từ

còn lại:

 Giả thuyết đa thức:

Xác suất phù hợp truy vấn

 Query likelihood language model  Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d

phù hợp với truy vấn q.

 Theo luật Bayes

 P(q) là hằng số;  Giả sử P(d) là đồng nhất;

Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản dsinh truy vấn q.

Giả thuyết Unigram và phân bố đa thức

𝐾𝑞 =

𝐿𝑞! 𝑡𝑓𝑡1,𝑞! 𝑡𝑓𝑡2,𝑞! … 𝑡𝑓𝑡𝑀,𝑞!

Trong đó Kq là hệ số đa thức – là hằng số với một câu truy vấn qxác định, có thể bỏ qua trong xếp hạng.

Ước lượng sử dụng khả năng cực đại

 Hàm xếp hạng:

𝑝(𝑡|𝑀𝑑)

𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑡∈𝑞

𝑅𝑎𝑛𝑘 𝑑, 𝑞 =

𝑝(𝑡|𝑀𝑑)𝑡𝑓𝑡,𝑞

𝑡 𝑑𝑢𝑦 𝑛ℎấ𝑡 ∈𝑞

Maximum likelihood estimation:

𝑝 𝑡 𝑀𝑑 =

𝑡𝑓𝑡,𝑑 𝐿𝑑

Nếu dkhông chứa một từ truy vấn tthì Rank(d, q) = 0

==> Cần làm mịn để tránh giá trị 0.

Mô hình bộ dữ liệu

 Tương tự văn bản, xác suất bộ dữ liệu sinh từ t:

𝑝 𝑡 𝑀𝐶 =

𝑐𝑓𝑡,𝐶 𝐿𝐶

 MC là mô hình sinh xác định trên bộ dữ liệu C  𝐿𝐶 = 𝑑∈𝐶 𝐿𝑑, là số từ trong bộ dữ liệu

Làm mịn tuyến tính

 Linear interpolation  Kết hợp mô hình văn bản và mô hình bộ dữ liệu

p(t|d) = λp(t|Md) + (1 - λ)P(t|Mc)

+ (1 − λ)

𝑤𝑡,𝑑 = λ

𝑡𝑓𝑡,𝑑 𝐿𝑑

𝑐𝑓𝑡,𝐷 𝐿𝐷

Tổng hợp các giả thuyết

 Giả thuyết Unigram: Unigram Assumption  Phân bố đa thức: Multinomial distribution  Làm mịn tuyến tính: Linear interpolation  Ước lượng khả năng cực đại: Maximum Likelihood

Estimation (MLE)

+ (1 − λ)

𝑡𝑓𝑡,𝑑 𝐿𝑑

𝑐𝑓𝑡,𝐶 𝐿𝐶

𝑅𝑎𝑛𝑘 𝑞 𝑑 = 𝑡∈𝑉

Giá trị tham số

 Sử dụng λlớn có xu hướng trả về văn bản chứa tất

cả từ truy vấn  Hiệu ứng sử dụng điều kiện AND

 Giá trị λnhỏ thích hợp cho xử lý truy vấn dài

 Hiệu ứng sử dụng điều kiện OR

 Cần tùy chỉnh λđể đạt được chất lượng cao.

Giả thuyết mô hình ngôn ngữ

 Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn.  Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng.

Nội dung chính

 Mô hình sinh  Các giả thuyết cơ bản  Thử nghiệm

Thử nghiệm của Ponte và Croft

 Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm

này…

 …Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế

Ví dụ 1

 Bộ dữ liệu: d1 và d2  d1: Jackson was one of the most talented entertainers of all

time

 d2: Michael Jackson anointed himself King of Pop  Truy vấn q: Michael Jackson  Sử dụng mô hình như trên slide 14 với λ= 1/2

Ví dụ 1

 Rank(q|d1) = [(0/11 + 1/18)/2] · [(1/11 + 2/18)/2] ≈ 0.003  Rank(q|d2) = [(1/7 + 1/18)/2] · [(1/7 + 2/18)/2] ≈ 0.013

d2 được xếp hạng cao hơn d1

Ví dụ 2

 Bộ dữ liệu: d1 và d2  d1 : Xerox reports a profit but revenue is down  d2: Lucene narrows quarter loss but decreases further  Truy vấn q: revenue down  Sử dụng mô hình như trên slide 14 với λ = 1/2

Ví dụ 2

 P(q|d1) = [(1/8 + 2/16)/2] · [(1/8 + 1/16)/2]  P(q|d1) = 1/8 · 3/32 = 3/256  P(q|d2) = [(1/8 + 2/16)/2] · [(0/8 + 1/16)/2] =  P(q|d2) = 1/8 · 1/32 = 1/256  Xếp hạng d2 cao hơn d1

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc

(IT4853) Tìm kiếm và trình diễn thông tin

Giảng viên

Nội dung chính

Mô hình sinh văn bản

Máy một trạng thái

Xếp hạng văn bản

Nội dung chính

Xác suất sinh chuỗi từ

Xác suất phù hợp truy vấn

Giả thuyết Unigram và phân bố đa thức

Ước lượng sử dụng khả năng cực đại

Mô hình bộ dữ liệu

Làm mịn tuyến tính

Tổng hợp các giả thuyết

Giá trị tham số

Giả thuyết mô hình ngôn ngữ

Nội dung chính

Thử nghiệm của Ponte và Croft

Ví dụ 1

Ví dụ 1

Ví dụ 2

Ví dụ 2

Có thể bạn quan tâm

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok