Giới thiệu tài liệu
Bài giảng giới thiệu về một số ứng dụng của học sâu (deep learning) trong xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Phần đầu tiên tập trung vào tổng quan về NLP, các phương pháp biểu diễn từ và văn bản, cũng như giới thiệu các thư viện NLP và một số mô hình đã được huấn luyện sẵn.
Đối tượng sử dụng
Bài giảng này phù hợp với sinh viên, nhà nghiên cứu và kỹ sư quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên và muốn tìm hiểu về các ứng dụng của học sâu trong lĩnh vực này.
Nội dung tóm tắt
Bài giảng này cung cấp cái nhìn tổng quan về ứng dụng của học sâu trong xử lý ngôn ngữ tự nhiên. Mở đầu bằng việc định nghĩa NLP và các cấp độ phân tích ngôn ngữ như hình thái học, cú pháp, ngữ nghĩa, diễn ngôn, thực chứng và tri thức thế giới. Bài giảng cũng liệt kê một số ứng dụng chính của NLP như nhận dạng giọng nói, khai phá văn bản, phân loại và tóm tắt văn bản, mô hình hóa chủ đề, hỏi đáp, gia sư ngôn ngữ, chỉnh sửa ngữ pháp và dịch máy.
Tiếp theo, bài giảng đi sâu vào các phương pháp biểu diễn từ và văn bản, bắt đầu với WordNet và những hạn chế của nó, sau đó giới thiệu biểu diễn one-hot và vấn đề của biểu diễn này. Giải pháp được đề xuất là học để mã hóa sự tương đồng trong các biểu diễn vector. Bài giảng giới thiệu biểu diễn từ bằng ngữ cảnh của nó và khái niệm word vector (word embeddings). Phương pháp Word2vec được trình bày chi tiết, bao gồm cả skip-gram model và continuous bag of words (CBOW). Các vấn đề liên quan đến tính toán trong Word2vec và giải pháp negative sampling cũng được đề cập.
Cuối cùng, bài giảng giới thiệu thư viện Gensim và cách sử dụng các mô hình đã được huấn luyện sẵn. Một số mô hình pretrained như BERT và XLNet cũng được giới thiệu, kèm theo các liên kết đến Github và bài báo gốc.