intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Hoàng Anh Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:32

3
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên" Chương 2 - Tách từ tiếng Việt, được biên soạn gồm các nội dung chính sau: Tiếng Việt – Đặc điểm và tính chất; Các phương pháp tách từ;...Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Hoàng Anh Việt

  1. Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com 2011
  2. Nội dung chương 02 2   ¨  Tiếng Việt – Đặc điểm và tính chất ¨  Các phương pháp tách từ ¤  Từ điển ¤  Aaaaaa ¨  Demo 9/6/11
  3. Yêu cầu 3 ¨  Sinh viên cần có kiến thức: ¤  Lýthuyết tính toán / Chương trình dịch ¤  Xác suất thống kê 9/6/11
  4. Tiếng Việt 4 ¨  Các nghiên cứu về Tiếng Việt: ¤  Nước ngoài: n  Thompson (1965) n  Shum (1965) n  Beatty (1990) ¤  Việt Nam: n  Nguyễn Tài Cẩn (1975) n  Hồ Lê (1992) n  Nguyễn Kim Thản (1997) n  Diệp Quang Ban (1999) 9/6/11
  5. Thompson (1965) 5 Cấu trúc cụm danh từ tiếng Việt của Thompson 9/6/11
  6. Shum (1965) 6 Cấu trúc cụm danh từ tiếng Việt của Shum Nom à NP Mod Trong đó: NP à Nu N Dem Nom : Chủ ngữ NP à Pron Mod :bổ ngữ NP à Npr Nu : Số đếm Nu à PL CL Dem : Chỉ định từ Nu à Q CL Pron : Đại từ Nu à Num CL Npr : Danh từ riêng N à N’ N” N: Danh từ N’: Danh từ phân loại 9/6/11 PL : số nhiều Q: Lượng tử
  7. Beatty (1990) 7 Cấu trúc cụm danh từ tiếng Việt của Beatty 9/6/11
  8. Nguyễn Tài Cẩn (1975) 8 Phần đầu Phần trung tâm   Phần sau Ví dụ: Ba người này Cả hai tỉnh nhỏ ấy Tất cả những cái chủ trương chính xác đó Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần : 9/6/11
  9. Nguyễn Tài Cẩn (1975) 9 ¨  Phần trung tâm: cấu tạo bởi 2 thành phần chính: T1T2 ¤  Có đầy đủ : T1T2, ví dụ : con mèo (này) ¤  Dạng thiếu T1 : -T2, ví dụ : - mèo (này) ¤  Dạng thiếu T2: T1-, ví dụ : con – (này) ¨  Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) : ¤  Định tố “cái”, ví dụ : cái cậu học sinh ấy ¤  Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy ¤  Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái cậu học sinh ấy 9/6/11
  10. Hồ Lê (1992) 10 Số lượng từ D1 D2 Sự kiện từ Đại từ chỉ định (trừ đại từ chỉ định) Trong đó: D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng, …; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc…. D2: gồm những danh từ còn lại. Ví dụ: - Con mèo đen lớn rồi - Cô y tá - Phía ngoài sân 9/6/11
  11. Diệp Quang Ban (1999) 11 Phần phụ trước Phần phụ trung tâm Phần phụ sau -3 -2 -1 0 1 2 Ví dụ: tất cả những con mèo đen ấy -3 -2 -1 0 1 2 - vị trí 0 là vị trí của danh từ chính - vị trí -1 là vị trí của từ chỉ xuất cái - vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba...; mỗi, từng, mọi…; những, các, một…; mấy - vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả… - vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi…. - vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia… 9/6/11
  12. Các hướng tiếp cận 12 ¨  Tiếp cận dựa trên từ điển ¨  Tiếp cận theo phương pháp thống kê ¨  Tiếp cận theo phép lai 9/6/11
  13. Các phương pháp 13 ¨  So khớp từ dài nhất (Longest Matching) ¨  Học dựa trên sự cải biến (Transformation-based Learning – TBL) ¨  Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) ¨  Độ hỗn loạn cực đại (Maximum Entropy – ME) ¨  Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models- HMM) ¨  Học máy sử dụng vectơ hỗ trợ (Support Vector Machines) ¨  ... 9/6/11
  14. Từ điển tiếng Việt 14 ¨  Theo thống kê trên trang Vdict.com Tần suất xuất hiện độ dài từ trong từ điển Từ điển tiếng Việt 9/6/11
  15. Mã hóa từ điển 15 ¨  Mỗi mục từ bao gồm thông tin: ¤  Từ ¤  Từ loại ¨  Nhằm tốn ít bộ nhớ và thuận tiện cho tìm kiếm Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang, các từ lại được sắp theo vần ABC. 9/6/11
  16. Dựa Từ Điển 16 ¨  So khớp từ trái sang (*) Học sinh/ học sinh/ học ¨  So khớp từ phải sang Học / sinh học /sinh học ¨  Kết hợp cả hai ??? 9/6/11
  17. Automat tách từ Tiếng Việt 17 ¨  Một bài toán trong automat là nhận diện chuỗi w có thuộc về ngôn ngữ L hay không. ¨  Chuỗi nhập được xử lý tuần tự từng ký hiệu một từ trái sang phải ¨  Trong quá trình thực thi, automat cần phải nhớ thông tin đã qua xử lý 9/6/11
  18. Ví dụ Automat 18 9/6/11
  19. Ví dụ Automat Tiếng Anh 19 9/6/11
  20. Automat Tiếng Việt 20 1. Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt 2. Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt. 3. Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể. 9/6/11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2