
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Hoàng Anh Việt
lượt xem 1
download

Bài giảng "Xử lý ngôn ngữ tự nhiên" Chương 4 - Phân tích cú pháp, được biên soạn gồm các nội dung chính sau: Bài toán phân tích cú pháp Tiếng Việt; Mô hình khử nhập nhằng PCFG; Kết quả kiểm thử;...Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Hoàng Anh Việt
- Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com
- Nội dung 2 1. Bài toán phân tích cú pháp Tiếng Việt 2. Mô hình khử nhập nhằng PCFG 3. Kết quả kiểm thử 11/1/13
- 3 1. Bài toán phân tích cú pháp Tiếng Việt 11/1/13
- 1.1Bài toán phân tích cú pháp (1) 4 ¨ Định nghĩa ¤ Phân tích cú pháp là nhằm phân tích một câu thành những thành phần văn phạm có liên quan với nhau và được thể hiện thành cây cú pháp 11/1/13
- Bài toán phân tích cú pháp (2) 5 ¨ Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên. ¨ Phân tích cú pháp là một quá trình phức tạp: - Số lượng mẫu dùng để phân tích phải rất lớn. - Luật văn phạm phải đầy đủ - Không thể bao trùm hết ngôn ngữ tự nhiên. - Thời gian phân tích lớn. - Không tương đương 1-1 giữa câu phát ngôn và cây phân tích cú pháp. 11/1/13
- 1.2. Quy trình phân tích cú pháp cơ bản 6 Văn phạm xây dựng bằng tay, phạm vi thông tin nhỏ, mất nhiều Kết quả: có thể có nhiều cây phân thời gian và công Parse tích sức. Cau cần phan tích 11/1/13
- 1.3. văn phạm 7 ¨ Văn phạm là gì ? ¤ Là một tập các qui tắc về cấu tạo từ và các qui tắc về cách liên kết các từ lại thành một câu ¨ Định nghĩa ¤ Văn phạm G được định nghĩa như là một bộ bốn G=(N,T,S,R) ¤ N : tập các kí hiệu không kết thúc, còn được gọi là biến ¤ T : tập các kí hiệu kết thúc. Ở đây chính là các từ. ¤ S Є V : được gọi là kí hiệu (biến) khởi đầu ¤ R : tập hữu hạn các luật sinh. 11/1/13
- Ví dụ văn phạm phi ngữ cảnh 8 Tập kết thúc T = { Tôi, xe, nhìn, chiếc, với, ống nhòm } Tập không kết thúc N = { S, NP, VP, PP, N, V, P } Luật R = { SàNP VP, NPàTôi, NPà N N, Nàchiếc, NPàNP PP, Nà xe, Nàống nhòm, VPàV NP, VPàVP PP, PPà P NP, V à nhìn, Pàvới T1 T2 S S NP VP NP VP V NP W1 VP PP W1 NP PP V NP P NP N N P NP N N N N N N Tôi nhìn chiếc xe với chiếc ống nhòm Tôi nhìn chiếc xe với chiếc ống nhòm 11/1/13
- Ví dụ văn phạm phi ngữ cảnh 9 T3 S NP VP W2 V NP N N Tôi nhìn chiếc xe ÄVới câu W1 thì chọn cây phân tích nào? ÄKhả năng phân tích đối với mỗi một câu? 11/1/13
- 1.4.Những khó khăn khi phân tích cú pháp 10 ¨ Nhập nhằng mức từ vựng ¤ ví dụ “Tôi với quả bóng ở trên cao” ¨ Nhập nhằng mức cấu trúc ¤ “MộtĐộng từ đàn ông và một người đàn bà già” người Liên từ 1. “[người đàn ông] và [người đàn bà già]” 2. “[người đàn ông và người đàn bà] già” Ä Nhập nhằng là vấn đề lớn, mục tiêu là lấy được một nghĩa phù hợp nhất ứng với một câu 11/1/13
- 1.5. Vấn đề và giải pháp 11 ¨ Vấn đề: Làm sao để chọn được một cây phân tích cú pháp phù hợp nhất ứng với một câu đầu vào? ¨ Giải pháp: ¤ Mô hình gán nhãn: n Giảiquyết nhập nhằng mức từ vựng n Đã được áp dụng cho tiếng Việt ¤ Mô hình thống kê xác suất PCFG n Giảiquyết nhập nhằng mức luật n Mô hình này mới chỉ được áp dụng với tiếng Anh. 11/1/13
- 12 2. Mô hình thống kê PCFG 11/1/13
- 2.1 Định nghĩa: PCFG ( Probabilistic Content - Free Grammar) 13 ¨ CFG G‘ = (T, N, R, S) được mở rộng thêm với Φ -> PCFG G= (T, N, R, S, Φ) ¨ Φ là quy tắc mà thêm vào mỗi luật trong R một xác suất ¨ Với tập các luật có cùng một vế trái thì tổng xác suất của chúng là 1. Dạng: ∑Φ(A → γ ) = 1 A 11/1/13
- Vi dụ PCFG 14 T, N, R,S đã biết, các luật được thêm vào một xác suất Φ(S → NP VP) = 1 Đối với ký hiệu NP: Φ(NP → Tôi) = 1/3 Φ(NP → N N) = 1/3 Xác suất của các luật sinh tạo bởi NP Φ(NP → NP PP) = 1/3 có tổng là 1 Φ(N→ chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1 11/1/13
- 2.2. Các giả định đối với PCFG 15 Giả sử: Xác suất của một nhánh cây con không chú ý đến : S ¤ Vị trí của nó trong toàn cây phân tích ¤ Các ký hiệu kết thúc nằm A ngòai suy diễn ¤ Các ký hiệu không kết thúc w1...wi-1 wi...wj wj+1...wn nằm ngoài. 11/1/13
- 2.3 Xác suất 16 ØXác suất của một cây phân tích T cho một câu W: tích số của xác suất tất cả các luật sử dụng trong cây đó: P(W,T1) P(W , T ) = ∏ Φ( A → γ ) P(W,T2) ( A→ ∈T ) γ P(X,TX) Ø Xác suất của một câu : Tổng xác suất của tất cả các cây phân tích có thể cho câu đó: P(W,T1) P(W,T2) P(X,TX) 11/1/13
- Xác suất của cây T1 17 T1 Φ(S → NP VP) = 1 S Φ(NP → Tôi) = 1/3 NP VP Φ(NP → N N) = 1/3 VP PP W1 Φ(NP → NP PP) = 1/3 V NP P NP Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 N N N N Φ(N → ống nhòm) = 1/3 tôi nhìn chiếc xe với chiếc ống nhóm Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 P(W1, T1)= 1 * 1/3 * 1/2 * 1/2 * 1 * 1/3 Φ(V → nhìn) = 1 Φ(P → với) = 1 * 1/3* 1/3 * 1 * 1 * 1/3 * 1/3 * 1/3 = 1/8748 11/1/13
- Xác suất của cây T2 Φ(S → NP VP) = 1 Φ(NP → tôi) = 1/3 18 S Φ(NP → N N) = 1/3 T2 Φ(NP → NP PP) = 1/3 NP VP V NP Φ(N → chiếc) = 1/3 W1 Φ(N → xe) = 1/3 NP PP Φ(N → ống nhòm) = 1/3 N N P NP Φ(VP → V NP) = 1/2 N N Φ(VP → VP PP) = 1/2 tôi nhìn chiếc xe với chiếc ống nhòm Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1 P(W1, Ψ2)=1/13122= 1*1/3*1/2*1*1/3*1/3*1/ 3*1/3*1*1*1/3*1/3*1/3 11/1/13
- Chọn cây phân tích phù hợp nhất 19 T1 T2 S S NP VP NP VP V NP W1 VP PP W1 NP PP V NP P NP Det N P NP Det N Det N Det N Tôi nhìn chiếc xe với chiếc ống nhòm tôi nhìn chiếc xe với chiếc ống nhòm P(W1, T1)=1/8748 Chọn giá trị max P(W1, Ti) à T1 là cây tốt hơn P(W1, T2)=1/13122 11/1/13
- 2.4. Xây dựng PCFG 20 ¨ Sử dụng bộ ngữ liệu bao gồm các cây đã phân tích cú pháp - TreeBank ¨ Sử dụng các cây phân tích cho các câu chuẩn của tập ngữ liệu : ¤ Liệt kê tất cả các cây ¤ Tính tổng số lần xuất hiện của mỗi luật ¤ Tính tổng số lần xuất hiện của mỗi ký tự không kết thúc ¤ Xác suất của một luật khi ấy được tính bằng : Φ(A →γ)= C(A →γ)/C(A) 11/1/13

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
14 p |
181 |
13
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
8 p |
135 |
11
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
9 p |
103 |
10
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 3 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
7 p |
108 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
6 p |
106 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 5 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
12 p |
105 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 7 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
7 p |
146 |
7
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 1 - Lê Thanh Hương
13 p |
132 |
5
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 1 - Viện Công nghệ Thông tin và Truyền thông
50 p |
46 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5b - Viện Công nghệ Thông tin và Truyền thông
41 p |
38 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 2 - Viện Công nghệ Thông tin và Truyền thông
20 p |
63 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 6 - Viện Công nghệ Thông tin và Truyền thông
67 p |
41 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a - Viện Công nghệ Thông tin và Truyền thông
117 p |
38 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 9 - Viện Công nghệ Thông tin và Truyền thông
74 p |
34 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 0 - Hoàng Anh Việt
7 p |
1 |
1
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Hoàng Anh Việt
45 p |
2 |
1
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Hoàng Anh Việt
32 p |
2 |
1


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
