intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Hoàng Anh Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:40

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên" Chương 4 - Phân tích cú pháp, được biên soạn gồm các nội dung chính sau: Bài toán phân tích cú pháp Tiếng Việt; Mô hình khử nhập nhằng PCFG; Kết quả kiểm thử;...Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Hoàng Anh Việt

  1. Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com
  2. Nội dung 2 1.  Bài toán phân tích cú pháp Tiếng Việt 2.  Mô hình khử nhập nhằng PCFG 3.  Kết quả kiểm thử 11/1/13
  3. 3 1.  Bài toán phân tích cú pháp Tiếng Việt 11/1/13
  4. 1.1Bài toán phân tích cú pháp (1) 4 ¨  Định nghĩa ¤  Phân tích cú pháp là nhằm phân tích một câu thành những thành phần văn phạm có liên quan với nhau và được thể hiện thành cây cú pháp 11/1/13
  5. Bài toán phân tích cú pháp (2) 5 ¨  Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên. ¨  Phân tích cú pháp là một quá trình phức tạp: -  Số lượng mẫu dùng để phân tích phải rất lớn. -  Luật văn phạm phải đầy đủ -  Không thể bao trùm hết ngôn ngữ tự nhiên. -  Thời gian phân tích lớn. -  Không tương đương 1-1 giữa câu phát ngôn và cây phân tích cú pháp. 11/1/13
  6. 1.2. Quy trình phân tích cú pháp cơ bản 6 Văn phạm xây dựng bằng tay, phạm vi thông tin nhỏ, mất nhiều Kết quả: có thể có nhiều cây phân thời gian và công Parse tích sức. Cau cần phan tích 11/1/13
  7. 1.3. văn phạm 7 ¨  Văn phạm là gì ? ¤  Là một tập các qui tắc về cấu tạo từ và các qui tắc về cách liên kết các từ lại thành một câu ¨  Định nghĩa ¤  Văn phạm G được định nghĩa như là một bộ bốn G=(N,T,S,R) ¤  N : tập các kí hiệu không kết thúc, còn được gọi là biến ¤  T : tập các kí hiệu kết thúc. Ở đây chính là các từ. ¤  S Є V : được gọi là kí hiệu (biến) khởi đầu ¤  R : tập hữu hạn các luật sinh.   11/1/13
  8. Ví dụ văn phạm phi ngữ cảnh 8 Tập kết thúc T = { Tôi, xe, nhìn, chiếc, với, ống nhòm } Tập không kết thúc N = { S, NP, VP, PP, N, V, P } Luật R = { SàNP VP, NPàTôi, NPà N N, Nàchiếc, NPàNP PP, Nà xe, Nàống nhòm, VPàV NP, VPàVP PP, PPà P NP, V à nhìn, Pàvới T1 T2 S S NP VP NP VP V NP W1 VP PP W1 NP PP V NP P NP N N P NP N N N N N N Tôi nhìn chiếc xe với chiếc ống nhòm Tôi nhìn chiếc xe với chiếc ống nhòm 11/1/13
  9. Ví dụ văn phạm phi ngữ cảnh 9 T3 S NP VP W2 V NP N N Tôi nhìn chiếc xe ÄVới câu W1 thì chọn cây phân tích nào? ÄKhả năng phân tích đối với mỗi một câu? 11/1/13
  10. 1.4.Những khó khăn khi phân tích cú pháp 10 ¨  Nhập nhằng mức từ vựng ¤  ví dụ “Tôi với quả bóng ở trên cao” ¨  Nhập nhằng mức cấu trúc ¤  “MộtĐộng từ đàn ông và một người đàn bà già” người Liên từ 1.  “[người đàn ông] và [người đàn bà già]” 2.  “[người đàn ông và người đàn bà] già” Ä Nhập nhằng là vấn đề lớn, mục tiêu là lấy được một nghĩa phù hợp nhất ứng với một câu 11/1/13
  11. 1.5. Vấn đề và giải pháp 11 ¨  Vấn đề: Làm sao để chọn được một cây phân tích cú pháp phù hợp nhất ứng với một câu đầu vào? ¨  Giải pháp: ¤  Mô hình gán nhãn: n  Giảiquyết nhập nhằng mức từ vựng n  Đã được áp dụng cho tiếng Việt ¤  Mô hình thống kê xác suất PCFG n  Giảiquyết nhập nhằng mức luật n  Mô hình này mới chỉ được áp dụng với tiếng Anh. 11/1/13
  12. 12 2. Mô hình thống kê PCFG 11/1/13
  13. 2.1 Định nghĩa: PCFG ( Probabilistic Content - Free Grammar) 13 ¨  CFG G‘ = (T, N, R, S) được mở rộng thêm với Φ -> PCFG G= (T, N, R, S, Φ) ¨  Φ là quy tắc mà thêm vào mỗi luật trong R một xác suất ¨  Với tập các luật có cùng một vế trái thì tổng xác suất của chúng là 1. Dạng: ∑Φ(A → γ ) = 1 A 11/1/13
  14. Vi dụ PCFG 14 T, N, R,S đã biết, các luật được thêm vào một xác suất Φ(S → NP VP) = 1 Đối với ký hiệu NP: Φ(NP → Tôi) = 1/3 Φ(NP → N N) = 1/3 Xác suất của các luật sinh tạo bởi NP Φ(NP → NP PP) = 1/3 có tổng là 1 Φ(N→ chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1 11/1/13
  15. 2.2. Các giả định đối với PCFG 15 Giả sử: Xác suất của một nhánh cây con không chú ý đến : S ¤  Vị trí của nó trong toàn cây phân tích ¤  Các ký hiệu kết thúc nằm A ngòai suy diễn ¤  Các ký hiệu không kết thúc w1...wi-1 wi...wj wj+1...wn nằm ngoài. 11/1/13
  16. 2.3 Xác suất 16 ØXác suất của một cây phân tích T cho một câu W: tích số của xác suất tất cả các luật sử dụng trong cây đó: P(W,T1) P(W , T ) = ∏ Φ( A → γ ) P(W,T2) ( A→ ∈T ) γ P(X,TX) Ø Xác suất của một câu : Tổng xác suất của tất cả các cây phân tích có thể cho câu đó: P(W,T1) P(W,T2) P(X,TX) 11/1/13
  17. Xác suất của cây T1 17 T1 Φ(S → NP VP) = 1 S Φ(NP → Tôi) = 1/3 NP VP Φ(NP → N N) = 1/3 VP PP W1 Φ(NP → NP PP) = 1/3 V NP P NP Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 N N N N Φ(N → ống nhòm) = 1/3 tôi nhìn chiếc xe với chiếc ống nhóm Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 P(W1, T1)= 1 * 1/3 * 1/2 * 1/2 * 1 * 1/3 Φ(V → nhìn) = 1 Φ(P → với) = 1 * 1/3* 1/3 * 1 * 1 * 1/3 * 1/3 * 1/3 = 1/8748 11/1/13
  18. Xác suất của cây T2 Φ(S → NP VP) = 1 Φ(NP → tôi) = 1/3 18 S Φ(NP → N N) = 1/3 T2 Φ(NP → NP PP) = 1/3 NP VP V NP Φ(N → chiếc) = 1/3 W1 Φ(N → xe) = 1/3 NP PP Φ(N → ống nhòm) = 1/3 N N P NP Φ(VP → V NP) = 1/2 N N Φ(VP → VP PP) = 1/2 tôi nhìn chiếc xe với chiếc ống nhòm Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1 P(W1, Ψ2)=1/13122= 1*1/3*1/2*1*1/3*1/3*1/ 3*1/3*1*1*1/3*1/3*1/3 11/1/13
  19. Chọn cây phân tích phù hợp nhất 19 T1 T2 S S NP VP NP VP V NP W1 VP PP W1 NP PP V NP P NP Det N P NP Det N Det N Det N Tôi nhìn chiếc xe với chiếc ống nhòm tôi nhìn chiếc xe với chiếc ống nhòm P(W1, T1)=1/8748 Chọn giá trị max P(W1, Ti) à T1 là cây tốt hơn P(W1, T2)=1/13122 11/1/13
  20. 2.4. Xây dựng PCFG 20 ¨  Sử dụng bộ ngữ liệu bao gồm các cây đã phân tích cú pháp - TreeBank ¨  Sử dụng các cây phân tích cho các câu chuẩn của tập ngữ liệu : ¤  Liệt kê tất cả các cây ¤  Tính tổng số lần xuất hiện của mỗi luật ¤  Tính tổng số lần xuất hiện của mỗi ký tự không kết thúc ¤  Xác suất của một luật khi ấy được tính bằng : Φ(A →γ)= C(A →γ)/C(A) 11/1/13
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2