Bài giảng Tìm kiếm và trình diễn thông tin - Bài 5: Mô hình nhị phân độc lập
lượt xem 1
download
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 5: Mô hình nhị phân độc lập. Bài này cung cấp cho sinh viên những nội dung gồm: ứng dụng lý thuyết xác suất trong tìm kiếm; mô hình nhị phân độc lập; mô hình (Okapi) BM25;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tìm kiếm và trình diễn thông tin - Bài 5: Mô hình nhị phân độc lập
- IT4853 Tìm kiếm và trình diễn thông tin Bài 5. Mô hình nhị phân độc lập IIR.C11. Probabilistic information retrieval Bộ môn Hệ thống thông tin Viện CNTT & TT
- Nội dung chính Ứng dụng lý thuyết xác suất trong tìm kiếm Mô hình nhị phân độc lập Mô hình (Okapi) BM25 2
- Lý thuyết xác suất trong tìm kiếm thông tin Không bảo toàn Nhu cầu thông Biểu diễn ngữ nghĩa tin người dùng logic truy vấn So sánh Văn bản trả về không chắc chắn là văn bản phù hợp Văn bản Biểu diễn logic văn bản Có thể ứng dụng lý thuyết xác suất trong tìm kiếm thông tin. 3
- Lý thuyết xác suất trong tìm kiếm thông tin (2) Bài toán tìm kiếm thông tin: Cho một câu truy vấn và một biểu diễn của bộ dữ liệu văn bản, hệ thống phải xác định liệu văn bản có đáp ứng nhu cầu thông tin hay không; Mô hình Boolean lựa chọn những văn bản thỏa mãn biểu thức truy vấn; mô hình không gian vec-tơ xếp hạng theo độ tương đồng cosine. Hệ thống tìm kiếm nắm bắt nhu cầu thông tin người dùng ở mức độ không chắc chắn, và không chắc chắn về khả năng văn bản đáp ứng nhu cầu thông tin; Lý thuyết xác suất là nền tảng suy diễn trong điều kiện không chắc chắn nói chung, và đưa ra quyết định văn bản là văn bản phù hợp trong các mô hình dựa trên xác suất nói riêng. 4
- Tổng quan các mô hình xác suất Các mô hình xác suất cổ điển: Nguyên tắc xếp hạng xác suất Mô hình nhị phân độc lập, BestMatch25(Okapi) Tìm kiếm văn bản sử dụng mạng Bayes; Các mô hình ngôn ngữ Hướng nghiên cứu mới, hiệu năng cao; Phương pháp xác suất là một trong những phương pháp đã tồn tại từ lâu nhưng vẫn là đề tài nóng trong tìm kiếm thông tin hiện đại. 5
- Xếp hạng xác suất Ký hiệu Rd, q: là một biến nhị phân ngẫu nhiên: Rd,q = 1 nếu d phù hợp với q; Rd,q = 0, nếu ngược lại. Theo phương pháp xếp hạng xác suất, các văn bản được trả về theo thứ tự giảm dần giá trị xác suất văn bản phù hợp với truy vấn: P(R=1|d, q). 6
- Nguyên tắc xếp hạng xác suất PRP giản lược : Thứ tự giảm dần xác suất văn bản phù hợp với truy vấn là thứ tự tối ưu cho danh sách kết quả tìm kiếm. PRP đầy đủ: IIR 11.2 Nguyên tắc xếp hạng xác suất: PRP: The Probability Ranking Principle 7
- Trọng số từ “Từ xuất hiện trong những văn bản đã biết là phù hợp phải có trọng số cao hơn so với trọng số của từ đó trong trường hợp không biết những văn bản phù hợp này.” “Có thể xây dựng cách tính trọng số từ dựa trên giả thuyết về phân bố từ vựng và luật Bayes.” [Van Rijsbergen] Xếp hạng xác suất: Probabilistic Ranking 8
- Nội dung chính Ứng dụng lý thuyết xác suất trong tìm kiếm Mô hình nhị phân độc lập Mô hình (Okapi) BM25 9
- Lý thuyết xác suất căn bản Quy tắc nhân xác suất (luật chuỗi): p( A,B)=p( A∧B) p( A,B)=p( A|B) p( B ) p( A,B)=p( B|A ) p( A ) Luật Bayes p ( B|A ) p( A ) p( A|B )= p( B ) 10
- Lý thuyết xác suất căn bản (2) Quy tắc phân tích xác suất (luật phân tích): p( B)=p( A,B)+p( A ,B ) Kết hợp luật Bayes và luật phân tích p( A|B )= [ p (B|A ) ∑ p (B|X ) p( X ) p( A ) Giống quá trình cập nhật xác suất: ] + Bắt đầu với xác suất tiền nghiệm p(A); + Suy diễn xác suất p(A|B) sau khi quan sát B trong hai trường hợp xuất hiện A hoặc không. 11
- Lý thuyết xác suất căn bản (3) Cơ hội (Odds): p( A ) p( A ) O( A )= = p( A ) 1− p( A ) Liên hệ giữa O và p 12
- Mô hình nhị phân độc lập Nhị phân: Văn bản được biểu diễn như vec- tơ nhị phân đánh dấu sự xuất hiện của từ ⃗ x 1 ,…,x n ) d=( xi = 1 nếu thuật ngữ thứ i xuất hiện trong d, 0 nếu ngược lại Độc lập: Sự xuất hiện của mỗi từ trong văn bản là độc lập với những từ còn lại; Những văn bản khác nhau có thể có cùng một biểu diễn vec-tơ. 13
- Mô hình nhị phân độc lập (1) Cho truy vấn q Với mỗi văn bản d cần tính p(R=1|q, d) Chỉ quan tâm tới thứ hạng Sử dụng cơ hội (Odds) và luật Bayes p( R=1|q ) p ( d|R=1, q ) p( R=1|q,d ) p(d|q ) O( R|q,d )= = p( R=0|q,d ) p ( R= 0|q ) p ( d|R=0, q ) p(d|q ) 14
- Mô hình nhị phân độc lập (2) p( R=1|q,d ) p( R=1|q ) p( d|R=1, q ) O( R|q,d )= = ⋅ p( R=0|q,d ) p ( R=0|q ) p(d|R= 0,q ) Hằng số với một truy vấn Cần xác định Sử dụng giả thuyết độc lập n p (d|R=1, q ) p( x i|R=1, q ) =∏ p (d|R= 0, q ) i=1 p( x i|R= 0,q ) n p( x i|R=1, q ) O( R|q,d )=O ( R|q )⋅∏ i=1 p( x i|R=0, q ) 15
- Mô hình nhị phân độc lập (3) n p( x i|R=1, q ) O( R|q,d )=O ( R|q )⋅∏ i=1 p( x i|R=0, q ) Vì xi chỉ nhận giá trị 1 hoặc 0 p( x i =1|R= 1,q ) p( x i =0|R= 1,q ) O( R|q,d )=O( R|q )⋅∏ ∏ p( x =0|R= 0, q ) x i=1 p ( x =1|R= 0, q ) i x i=0 i Đặt: pi =p( x i =1|R= 1,q ); r i =p( x i =1|R=0, q ); Giả sử với thuật ngữ không có trong truy vấn thì pi = ri ¿¿ 16
- Các đại lượng xác suất cơ bản pi =p( x i =1|R= 1,q ) 1− pi =p ( xi =0|R=1, q ) r i =p( x i =1|R=0, q ) 1−r i =p( x i=0|R=0, q ) 17
- Mô hình nhị phân độc lập (4) q i =1 x i =0 ∏ Từ truy vấn có Từ truy vấn không trong văn bản có trong văn bản q i =1 x i =0 ∏ pi ( 1−r i ) 1− p i O( R|q,d )=O ( R|q )⋅ ∏ ⋅∏ r i ( 1− pi ) q =1 1−r i x i =q =1 i i Từ truy vấn có trong văn bản Tất cả từ truy 18 vấn
- Mô hình nhị phân độc lập (5) pi (1−r i ) 1− p i O( R|q,d )=O ( R|q )⋅ ∏ ⋅∏ x =q =1 r i (1− pi ) q =1 1−r i i i i Hằng số với một truy vấn Đại lượng duy nhất cần xác định cho mục đích xếp hạng Hàm xếp hạng pi ( 1−r i ) p i ( 1−r i ) Rank ( d,q )=log ∏ r i (1− pi ) = ∑ log r i (1− pi ) x i =q =1 xi =q =1 i i 19
- Mô hình nhị phân độc lập (6) Kết quả tìm kiếm được xác định dựa trên Rank p ( 1−r ) p (1−r ) i i i i RSV (d,q )=log ∏ r i ( 1− pi ) = ∑ log r i ( 1− pi ) x i =q =1 xi =q =1 i i p i (1−r i ) RSV (d,q )= ∑ ci ; c i =log xi =q =1 i r i (1− pi ) ci có vai trò như trọng số thuật ngữ trong mô hình này Tính ci ntn từ bộ dữ liệu sẵn có. 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Tìm kiếm và trình diễn thông tin: Giới thiệu môn học
7 p | 7 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 17: Quảng cáo và SPAM
28 p | 3 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 15: Vấn đề tìm kiếm trên Web
27 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 14: Phân cụm văn bản (2)
22 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 13: Phân cụm văn bản
44 p | 9 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 12: Phân lớp văn bản (2)
24 p | 4 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản
31 p | 1 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 10: Các phương pháp xây dựng chỉ mục ngược
33 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 9: Nén chỉ mục ngược
33 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 8: Đánh giá kết quả tìm kiếm (2)
24 p | 9 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 7: Đánh giá kết quả tìm kiếm
42 p | 4 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 6: Mô hình ngôn ngữ
27 p | 5 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 4: Mô hình không gian vec-tơ
31 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 3: Xử lý từ truy vấn
41 p | 12 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Thực hiện truy vấn trên chỉ mục ngược
26 p | 4 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 1: Phương pháp tìm kiếm Boolean
30 p | 6 | 1
-
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 20: Phân tích liên kết, HITS
19 p | 5 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn