intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Hoàng Anh Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:45

3
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên" Chương 1 - Giới thiệu tổng quan về Xử lý ngôn ngữ tự nhiên; được biên soạn gồm các nội dung chính sau: Tổng quan; Các hướng nghiên cứu trong Xử lý ngôn ngữ; Những khó khăn trong Xử lý ngôn ngữ; Các ứng dụng cụ thể;...Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 1 - Hoàng Anh Việt

  1. Giảng viên: Hoàng Anh Việt hoanganhviet@gmail.com 2011
  2. Nội dung chương 01 2   ¨  Tổng quan ¨  Các hướng nghiên cứu trong XLNN ¨  Những khó khăn trong XLNN ¨  Các ứng dụng cụ thể 9/6/11
  3. Tổng quan 3 9/6/11
  4. Máy tính trung tâm- Trí tuệ ảo 4 9/6/11
  5. Ngôn ngữ tự nhiên 5 ¨  Ngôn ngữ dùng giao tiếp hằng ngày C++, java, c#? 9/6/11
  6. Xử lý ngôn ngữ tự nhiên (NLP) 6 ¨  Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy" máy tính hiểu được ý nghĩa và tương tác, giao tiếp bằng chính ngôn ngữ con người. ¨  Kết quả trên thế giới >> Việt Nam. ¨  ‘Xử lý tiếng Việt’ phải do người Việt thực hiện. 9/6/11
  7. Chúng ta nên quan tâm NLP? 7 ¨  Xu hướng: ¤  Lượng lớn tri thức tồn tại ở dạng ngôn ngữ tự nhiên trên các thiết bị điện tử, máy tính ¤  Các phương tiện giao tiếp giữa con người ngày càng đóng vai trò quan trọng. Trong đó máy tính là trung gian. 9/6/11
  8. Tiềm năng 8 ¨  Ngành công nghiệp IT (Số liệu năm 2005): ¤  Yahoo, Google, AltaVista ($100-$1,000) mil./yr. à Information Retrieval ¤  Monster.com, HotJobs.com (Job finders) – a market expected to reach $4,5 billions in 2004 à Information Extraction + Information Retrieval ¤  Systran powers Babelfish AltaVista, (€ 24 mil./yr.) à Machine Translation ¤  Ask Jeeves ($60 mil./yr.) à Question Answering ¨  Nghiên cứu ¤  Các tập đoàn, công ty lớn có phòng thí nghiệm NLP: n  IBM, Microsoft, AT&T, Xerox, Sun, etc. ¤  Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học. 9/6/11
  9. Thế giới thương mại 9 9/6/11 Slide from: Speech and Language Processing Jurafsky and Martin !
  10. Google Translate Slide from: Speech and Language Processing Jurafsky and Martin !
  11. Google Translate Slide from: Speech and Language Processing Jurafsky and Martin !
  12. Web Q/A Slide from: Speech and Language Processing Jurafsky and Martin !
  13. Xây dựng Máy tính trung tâm – Trí tuệ ảo 13 ¨  Các thử thách chính: ¤  Nhận dạng giọng nói ¤  Hiểu ngôn ngữ tự nhiên ¤  Truy vấn, trích rút thông tin ¤  Suy luận ¤  Sinh tiếng nói. ¤  … 9/6/11
  14. Các chủ đề nghiên cứu 14 ¨  Các ứng dụng ¨  Các mức phân tích ¨  Các bài toán con ¨  Các thuật toán và cách tiếp cận 9/6/11
  15. Các chủ đề nghiên cứu 15 ¨  Các Ứng dụng: ¤  Phân loại văn bản (Classify text into categories) ¤  Đánh chỉ số và tìm kiếm (Index and search large texts) ¤  Dịch tự động (Automatic translation) ¤  Hiểu tiếng nói (Speech understanding): n  Hiểu nội dung hội thoại qua điện thoại. ¤  Khai phá thông tin (Information extraction) n  Trích rút các thông tin quan trọng ¤  Tóm tắt văn bản (Automatic summarization) n  Cô đọng 1 quyển sách trên một trang giấy ¤  Hỏi đáp (Question answering) ¤  Thu tri thức (Knowledge acquisition) ¤  Sinh ngôn ngữ (Text generations / dialogs) ¤  Kiểm tra cú pháp văn bản (grammar checking) ¨  … 9/6/11
  16. NLP trong Computer Science Computers Databases Artificial Intelligence Algorithms Networking Robotics Natural Language Processing Search Information Machine Language Retrieval Translation Analysis Semantics Parsing
  17. Nhiệm vụ của NLP Language Language Computer Understanding Generation
  18. Các chủ đề nghiên cứu 18 ¨  Các bài toán con: ¤  Tách từ ¤  Gán nhãn từ loại ¤  Phân cụm từ ¤  Phân tích cú pháp ¤  Phân giải nhập nhằng ¤  Phân tích ngữ nghĩa ¤  Phân tích thực nghĩa ¤  … ¨  Các thuật toán và phương pháp tiếp cận: ¤  Dựa từ điển, tập ngữ liệu (corpus) ¤  Dựa trên tri thức ¤  Thống kê ¤  Học máy 9/6/11 ¤  ….
  19. Các chủ đề nghiên cứu 19 ¨  Các mức phân tích: ¤  Phonology (âm vị): Âm, chữ cái và cách phát âm ¤  Morphology (hình thái học): Cách từ được xây dựng, các tiền tố và hậu tố cũng như thành tố chính. ¤  Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo nên cấu trúc của câu. ¤  Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm từ, câu. ¤  Discourse (Diễn ngôn): Quan hệ giữa các ý hoặc các câu. ¤  Pragmatic (Thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp ¤  World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm 9/6/11
  20. NLP thực sự khó? 20 ¨  Máy tính thiếu: ¤  Trithức ¤  Khả năng suy luận ¤  Kinh nghiệm ¨  Những thực tế khó khăn tại Việt Nam: ¤  Bản thân ngôn ngữ: nhiều NHẬP NHẰNG ¤  Thiếu các tập ngữ liệu cần thiết ¤  Nghiên cứu rời rạc ¤  Chưa nhiều ứng dụng thực tế n  Baomoi.com, VnDOCR 9/6/11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
114=>0