Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc
lượt xem 7
download
Cùng tìm hiểu Mô hình ngôn ngữ nằm trong bài 11 thuộc bộ bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 do TS.Nguyễn Bá Ngọc biên soạn. Với các vấn đề chính như: Mô hình sinh; mô hình sinh văn bản; máy một trạng thái; xếp hạng văn bản;...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc
- (IT4853) Tìm kiếm và trình diễn thông tin Mô hình ngôn ngữ
- Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2
- Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 3
- Mô hình sinh văn bản Máy trạng thái hữu hạn I wish I wish I wish I wish . . . Không thể sinh: “wish I wish” hoặc “I wish I”. 4
- Máy một trạng thái frog said that toad likes frog STOP P(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 Trong đó STOP là trạng thái dừng. 5
- Xếp hạng văn bản “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1 6
- Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 7
- Xác suất sinh chuỗi từ Giả thuyết Unigram: Xác suất sinh một từ là độc lập với xác suất sinh các từ còn lại: Giả thuyết đa thức: 8
- Xác suất phù hợp truy vấn Query likelihood language model Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d phù hợp với truy vấn q. Theo luật Bayes P(q) là hằng số; Giả sử P(d) là đồng nhất; Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản d sinh truy vấn q. 9
- Giả thuyết Unigram và phân bố đa thức 𝐿𝑞 ! 𝐾𝑞 = 𝑡𝑓𝑡1,𝑞 ! 𝑡𝑓𝑡2,𝑞 ! … 𝑡𝑓𝑡𝑀 ,𝑞 ! Trong đó Kq là hệ số đa thức – là hằng số với một câu truy vấn q xác định, có thể bỏ qua trong xếp hạng. 10
- Ước lượng sử dụng khả năng cực đại Hàm xếp hạng: 𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑝(𝑡|𝑀𝑑 ) 𝑡∈𝑞 𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑝(𝑡|𝑀𝑑 )𝑡𝑓𝑡,𝑞 𝑡 𝑑𝑢𝑦 𝑛ℎấ𝑡 ∈𝑞 𝑡𝑓𝑡,𝑑 Maximum likelihood estimation: 𝑝 𝑡 𝑀𝑑 = 𝐿𝑑 Nếu d không chứa một từ truy vấn t thì Rank(d, q) = 0 ==> Cần làm mịn để tránh giá trị 0. 11
- Mô hình bộ dữ liệu Tương tự văn bản, xác suất bộ dữ liệu sinh từ t: 𝑐𝑓𝑡,𝐶 𝑝 𝑡 𝑀𝐶 = 𝐿𝐶 MC là mô hình sinh xác định trên bộ dữ liệu C 𝐿𝐶 = 𝑑∈𝐶 𝐿𝑑 , là số từ trong bộ dữ liệu 12
- Làm mịn tuyến tính Linear interpolation Kết hợp mô hình văn bản và mô hình bộ dữ liệu p(t|d) = λp(t|Md) + (1 - λ)P(t|Mc) 𝑡𝑓𝑡,𝑑 𝑐𝑓𝑡,𝐷 𝑤𝑡,𝑑 =λ + (1 − λ) 𝐿𝑑 𝐿𝐷 13
- Tổng hợp các giả thuyết Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả năng cực đại: Maximum Likelihood Estimation (MLE) 𝑡𝑓𝑡,𝑑 𝑐𝑓𝑡,𝐶 𝑅𝑎𝑛𝑘 𝑞 𝑑 = λ + (1 − λ) 𝐿𝑑 𝐿𝐶 𝑡∈𝑉 14
- Giá trị tham số Sử dụng λ lớn có xu hướng trả về văn bản chứa tất cả từ truy vấn Hiệu ứng sử dụng điều kiện AND Giá trị λ nhỏ thích hợp cho xử lý truy vấn dài Hiệu ứng sử dụng điều kiện OR Cần tùy chỉnh λ để đạt được chất lượng cao. 15
- Giả thuyết mô hình ngôn ngữ Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn. Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng. 16
- Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 17
- Thử nghiệm của Ponte và Croft Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm này… …Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế 18
- Ví dụ 1 Bộ dữ liệu: d1 và d2 d1: Jackson was one of the most talented entertainers of all time d2: Michael Jackson anointed himself King of Pop Truy vấn q: Michael Jackson Sử dụng mô hình như trên slide 14 với λ = 1/2 19
- Ví dụ 1 Rank(q|d1) = [(0/11 + 1/18)/2] · [(1/11 + 2/18)/2] ≈ 0.003 Rank(q|d2) = [(1/7 + 1/18)/2] · [(1/7 + 2/18)/2] ≈ 0.013 d2 được xếp hạng cao hơn d1 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Tìm kiếm và trình diễn thông tin: Giới thiệu môn học
7 p | 7 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 17: Quảng cáo và SPAM
28 p | 3 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 15: Vấn đề tìm kiếm trên Web
27 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 14: Phân cụm văn bản (2)
22 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 13: Phân cụm văn bản
44 p | 9 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 12: Phân lớp văn bản (2)
24 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản
31 p | 1 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 10: Các phương pháp xây dựng chỉ mục ngược
33 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 9: Nén chỉ mục ngược
33 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 8: Đánh giá kết quả tìm kiếm (2)
24 p | 11 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 7: Đánh giá kết quả tìm kiếm
42 p | 4 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 6: Mô hình ngôn ngữ
27 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 5: Mô hình nhị phân độc lập
37 p | 8 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 4: Mô hình không gian vec-tơ
31 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 3: Xử lý từ truy vấn
41 p | 12 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Thực hiện truy vấn trên chỉ mục ngược
26 p | 4 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 1: Phương pháp tìm kiếm Boolean
30 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 20: Phân tích liên kết, HITS
19 p | 5 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn