
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Hoàng Anh Việt
lượt xem 1
download

Bài giảng "Xử lý ngôn ngữ tự nhiên" Chương 2 - Tách từ tiếng Việt, được biên soạn gồm các nội dung chính sau: Tiếng Việt – Đặc điểm và tính chất; Các phương pháp tách từ;...Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Hoàng Anh Việt
- Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com 2011
- Nội dung chương 02 2 ¨ Tiếng Việt – Đặc điểm và tính chất ¨ Các phương pháp tách từ ¤ Từ điển ¤ Aaaaaa ¨ Demo 9/6/11
- Yêu cầu 3 ¨ Sinh viên cần có kiến thức: ¤ Lýthuyết tính toán / Chương trình dịch ¤ Xác suất thống kê 9/6/11
- Tiếng Việt 4 ¨ Các nghiên cứu về Tiếng Việt: ¤ Nước ngoài: n Thompson (1965) n Shum (1965) n Beatty (1990) ¤ Việt Nam: n Nguyễn Tài Cẩn (1975) n Hồ Lê (1992) n Nguyễn Kim Thản (1997) n Diệp Quang Ban (1999) 9/6/11
- Thompson (1965) 5 Cấu trúc cụm danh từ tiếng Việt của Thompson 9/6/11
- Shum (1965) 6 Cấu trúc cụm danh từ tiếng Việt của Shum Nom à NP Mod Trong đó: NP à Nu N Dem Nom : Chủ ngữ NP à Pron Mod :bổ ngữ NP à Npr Nu : Số đếm Nu à PL CL Dem : Chỉ định từ Nu à Q CL Pron : Đại từ Nu à Num CL Npr : Danh từ riêng N à N’ N” N: Danh từ N’: Danh từ phân loại 9/6/11 PL : số nhiều Q: Lượng tử
- Beatty (1990) 7 Cấu trúc cụm danh từ tiếng Việt của Beatty 9/6/11
- Nguyễn Tài Cẩn (1975) 8 Phần đầu Phần trung tâm Phần sau Ví dụ: Ba người này Cả hai tỉnh nhỏ ấy Tất cả những cái chủ trương chính xác đó Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần : 9/6/11
- Nguyễn Tài Cẩn (1975) 9 ¨ Phần trung tâm: cấu tạo bởi 2 thành phần chính: T1T2 ¤ Có đầy đủ : T1T2, ví dụ : con mèo (này) ¤ Dạng thiếu T1 : -T2, ví dụ : - mèo (này) ¤ Dạng thiếu T2: T1-, ví dụ : con – (này) ¨ Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) : ¤ Định tố “cái”, ví dụ : cái cậu học sinh ấy ¤ Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy ¤ Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái cậu học sinh ấy 9/6/11
- Hồ Lê (1992) 10 Số lượng từ D1 D2 Sự kiện từ Đại từ chỉ định (trừ đại từ chỉ định) Trong đó: D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng, …; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc…. D2: gồm những danh từ còn lại. Ví dụ: - Con mèo đen lớn rồi - Cô y tá - Phía ngoài sân 9/6/11
- Diệp Quang Ban (1999) 11 Phần phụ trước Phần phụ trung tâm Phần phụ sau -3 -2 -1 0 1 2 Ví dụ: tất cả những con mèo đen ấy -3 -2 -1 0 1 2 - vị trí 0 là vị trí của danh từ chính - vị trí -1 là vị trí của từ chỉ xuất cái - vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba...; mỗi, từng, mọi…; những, các, một…; mấy - vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả… - vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi…. - vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia… 9/6/11
- Các hướng tiếp cận 12 ¨ Tiếp cận dựa trên từ điển ¨ Tiếp cận theo phương pháp thống kê ¨ Tiếp cận theo phép lai 9/6/11
- Các phương pháp 13 ¨ So khớp từ dài nhất (Longest Matching) ¨ Học dựa trên sự cải biến (Transformation-based Learning – TBL) ¨ Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) ¨ Độ hỗn loạn cực đại (Maximum Entropy – ME) ¨ Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models- HMM) ¨ Học máy sử dụng vectơ hỗ trợ (Support Vector Machines) ¨ ... 9/6/11
- Từ điển tiếng Việt 14 ¨ Theo thống kê trên trang Vdict.com Tần suất xuất hiện độ dài từ trong từ điển Từ điển tiếng Việt 9/6/11
- Mã hóa từ điển 15 ¨ Mỗi mục từ bao gồm thông tin: ¤ Từ ¤ Từ loại ¨ Nhằm tốn ít bộ nhớ và thuận tiện cho tìm kiếm Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang, các từ lại được sắp theo vần ABC. 9/6/11
- Dựa Từ Điển 16 ¨ So khớp từ trái sang (*) Học sinh/ học sinh/ học ¨ So khớp từ phải sang Học / sinh học /sinh học ¨ Kết hợp cả hai ??? 9/6/11
- Automat tách từ Tiếng Việt 17 ¨ Một bài toán trong automat là nhận diện chuỗi w có thuộc về ngôn ngữ L hay không. ¨ Chuỗi nhập được xử lý tuần tự từng ký hiệu một từ trái sang phải ¨ Trong quá trình thực thi, automat cần phải nhớ thông tin đã qua xử lý 9/6/11
- Ví dụ Automat 18 9/6/11
- Ví dụ Automat Tiếng Anh 19 9/6/11
- Automat Tiếng Việt 20 1. Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt 2. Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt. 3. Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể. 9/6/11

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
14 p |
181 |
13
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 2 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
8 p |
135 |
11
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
9 p |
103 |
10
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 5 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
12 p |
105 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 3 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
7 p |
108 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
6 p |
106 |
9
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 7 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
7 p |
146 |
7
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 1 - Lê Thanh Hương
13 p |
132 |
5
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 2 - Viện Công nghệ Thông tin và Truyền thông
20 p |
63 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 6 - Viện Công nghệ Thông tin và Truyền thông
67 p |
41 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a - Viện Công nghệ Thông tin và Truyền thông
117 p |
38 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 9 - Viện Công nghệ Thông tin và Truyền thông
74 p |
34 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 1 - Viện Công nghệ Thông tin và Truyền thông
50 p |
46 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5b - Viện Công nghệ Thông tin và Truyền thông
41 p |
38 |
3
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Hoàng Anh Việt
45 p |
2 |
1
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Hoàng Anh Việt
40 p |
1 |
1
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 0 - Hoàng Anh Việt
7 p |
1 |
1


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
