intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Các kỹ thuật học sâu và ứng dụng: Bài 5 - TS. Nguyễn Vinh Tiệp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:33

2
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Các kỹ thuật học sâu và ứng dụng - Bài 5: Học sâu trong xử lý ngôn ngữ tự nhiên Word2Vec là chuyên đề đi sâu vào ứng dụng học sâu trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP). Bài giảng giới thiệu tổng quan về NLP và đặc biệt tập trung vào mô hình Word2Vec, một kỹ thuật tạo biểu diễn vector cho từ. Mời các bạn cùng tham khảo bài giảng để biết thêm chi tiết!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Các kỹ thuật học sâu và ứng dụng: Bài 5 - TS. Nguyễn Vinh Tiệp

  1. ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CS431 – CÁC KỸ THUẬT HỌC SÂU VÀ ỨNG DỤNG Bài 05 Học sâu trong xử lý ngôn ngữ tự nhiên Word2Vec TS. Nguyễn Vinh Tiệp Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 10/10/2023 1
  2. NỘI DUNG 1. Xử lý ngôn ngữ tự nhiên (NLP) 2. Học sâu trong xử lý ngôn ngữ tự nhiên 3. Word2Vec 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 2
  3. Xử lý ngôn ngữ tự nhiên (NLP) ● Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực nghiên cứu kết hợp Khoa học máy tính (CS), Trí tuệ nhân tạo (AI) và Ngôn ngữ học ● Mục tiêu: Máy tính có thể hiểu được ngôn ngữ của con người 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 3
  4. NLP – Thách thức ● Sự mơ hồ - “Ông già đi nhanh quá” ● Ngôn ngữ không chuẩn - "M0ther ui, hum n4i con hk zia, k0n f4i h0k th3m" ● Thành ngữ - “Ra ngô ra khoai” ● Phụ thuộc vào bối cảnh và kiến thức thực tế 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 4
  5. NLP – Ứng dụng ● Kiểm tra chính tả (Spelling checking) ● Phát hiện thư rác (Spam detection) ● Gán nhãn từ loại (Part-of-speech tagging) ● Nhận dạng các đối tượng tên riêng (Named entity recognition) ● Tìm kiếm từ khóa (Keyword search) ● Tìm kiếm từ đồng nghĩa (Synonym search) 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 5
  6. NLP – Ứng dụng ● Phân tích cảm xúc - Khai thác ý kiến (Sentiment analysis - Opinion mining) ● Nhận dạng tham chiếu (Coreference resolution) ● Phân loại nghĩa của từ (Word sense disambiguation) ● Phân tích cú pháp (Parsing) ● Dịch máy (Machine Translation) ● Khai thác thông tin (Information Extraction) 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 6
  7. NLP – Ứng dụng ● Trả lời câu hỏi (Question Answering) ● Diễn giải (Paraphrase) ● Tóm tắt (Summarization) ● Hệ thống hội thoại nói (Spoken Dialog System) 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 7
  8. NỘI DUNG 1. Xử lý ngôn ngữ tự nhiên (NLP) 2. Học sâu trong xử lý ngôn ngữ tự nhiên 3. Word2Vec 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 8
  9. Học sâu trong xử lý ngôn ngữ tự nhiên ● Học sâu (DL) là một nhánh của Học máy (ML) ● Hầu hết các phương pháp Machine Learning truyền thống đều hoạt động tốt nhờ các tính năng được thiết kế để giải quyết một vấn đề cụ thể ● Hình minh họa đặc trưng bài toán nhận dạng thực thể cho địa danh và tên tổ chức (Finkel, 2010) 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 9
  10. Học sâu trong xử lý ngôn ngữ tự nhiên ● Học sâu là một nhánh của Representation Learning tập trung vào việc học cách biểu diễn dữ liệu (đặc trưng) ● Học sâu sử dụng Mạng thần kinh (neural network) nhiều lớp để tìm hiểu các cách biểu diễn khác nhau của dữ liệu "thô“ ● Deep Learning phát triển nhờ: ● Dữ liệu lớn ● Máy tính (CPU/GPU) ● Các mô hình/thuật toán cải tiến 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 10
  11. Học sâu trong xử lý ngôn ngữ tự nhiên ● Thông thường, các đặc trưng thường quá cụ thể đối với vấn đề, không đầy đủ và mất nhiều thời gian để thiết kế và xác minh. ● Các đặc trưng học được dễ dàng thích ứng với vấn đề ● Học sâu có thể học từ dữ liệu chưa được gắn nhãn (văn bản thô) và từ dữ liệu được gắn nhãn 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 11
  12. Học sâu trong xử lý ngôn ngữ tự nhiên ● Deep NLP = Deep Learning + NLP ● Sử dụng representation learning và học sâu để giải quyết các bài toán NLP ● Mang lại sự tiến bộ vượt bậc trong những năm gần đây về nhiều mặt: ● Lời Nói, Từ, Cú Pháp, Ngữ Nghĩa ● Một phần lời nói, Nhận dạng các đối tượng tên riêng, Phân tích cú pháp ● Dịch máy, Phân tích tình cảm, Tác nhân đối thoại, Trả lời câu hỏi 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 12
  13. Biểu diễn từ ● Dưới đây là 7 từ "gần" nhất (có độ tương đồng cosine cao nhất) với từ "ếch" sau khi các vectơ được học bằng mô hình Global Vector: ● Ếch ● con cóc ● Litoria ● họ leptodactylidaerana ● con thằn lằn ● eleutherodactylus 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 13
  14. Phân tích cảm xúc Recursive Neural Network (Socher et al, 2013, Empirical Method for Natural Language Prorcessing EMNLP) 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 14
  15. Đối thoại & tạo phản hồi Chức năng trả lời thông minh trên Google Inbox/GMail. Neural Language Model 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 15
  16. Dịch máy ● Các khía cạnh khác nhau trong các phương pháp truyền thống (trực tiếp, cú pháp, ngữ nghĩa) ● Các mô hình dịch máy truyền thống thường rất lớn và phức tạp. ● Sử dụng kiến trúc Recurrent Neural Network (RNN) để encode câu input thành một vector rồi decode vector đó thành câu output. 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 16
  17. NỘI DUNG 1. Xử lý ngôn ngữ tự nhiên (NLP) 2. Học sâu trong xử lý ngôn ngữ tự nhiên 3. Word2Vec 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 17
  18. Word2Vec - Outline ● Giới thiệu chung về các phương pháp biểu diễn từ ● Giới thiệu chung về Word2Vec ● Mô hình Bag-of-words (CBOW) ● Mô hình skip-gram ● Độ tương tự cosin ● Kết quả ● Learned vector of phrases 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 18
  19. Word2Vec ● Biểu diễn từ bằng vector rất quan trọng khi áp dụng vào máy học ● Các kỹ thuật thường được sử dụng: ○ N-grams ○ Bag-of-words BOW ○ 1-of-N, one-hot coding ○ Latent Semantic Analysis (LSA) ○ Latent Dirichlet Allocation (LDA) ○ Distributed Representation 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 19
  20. Word2Vec "Bag of words" (BOW) representation Distributed Representation 10/10/2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
86=>2