Giới thiệu tài liệu
Bài giảng giới thiệu về mạng hồi quy (RNN) và các biến thể của nó, tập trung vào khả năng xử lý dữ liệu chuỗi có độ dài thay đổi. Bài giảng bao gồm các kiến thức cơ bản về RNN, lan truyền ngược theo thời gian (BPTT), và các kiến trúc mạng LSTM và GRU, cùng với một số ứng dụng thực tế.
Đối tượng sử dụng
Sinh viên và người học quan tâm đến xử lý ngôn ngữ tự nhiên, học máy và các ứng dụng liên quan đến chuỗi dữ liệu.
Nội dung tóm tắt
Bài giảng này trình bày một cách toàn diện về mạng hồi quy (RNN) và các ứng dụng của nó trong việc xử lý dữ liệu chuỗi.
1. **Bài toán dự đoán chuỗi:** Giới thiệu về các bài toán dự đoán với đầu vào và đầu ra là chuỗi có kích thước thay đổi, bao gồm phân loại văn bản, mô hình ngôn ngữ, sinh mô tả ảnh và dịch máy. RNN có khả năng xử lý các bài toán này bằng cách duy trì trạng thái ẩn, cho phép mạng "ghi nhớ" thông tin từ các bước trước đó trong chuỗi.
2. **Mạng hồi quy thông thường:** Trình bày cấu trúc cơ bản của RNN, cách mạng được "duỗi" theo thời gian, và các công thức toán học liên quan đến việc tính toán trạng thái ẩn và đầu ra. RNN thông thường sử dụng các hàm kích hoạt như tanh hoặc sigmoid.
3. **Lan truyền ngược theo thời gian (BPTT):** Giải thích phương pháp huấn luyện RNN, trong đó mạng được xem như một mạng feed-forward lớn sau khi duỗi. Gradient được tính toán tại mỗi bản sao của trọng số trong mạng duỗi và sau đó được cộng lại để cập nhật trọng số.
4. **Mạng LSTM và GRU:** Giới thiệu các kiến trúc mạng phức tạp hơn như LSTM và GRU, được thiết kế để khắc phục vấn đề triệt tiêu gradient trong RNN thông thường. LSTM sử dụng "cell state" để lưu trữ thông tin dài hạn, trong khi GRU kết hợp "cell state" và hidden state.
5. **Các ứng dụng:** Trình bày một số ứng dụng thực tế của RNN, bao gồm phân loại chuỗi, mô hình hóa ngôn ngữ (character RNN), sinh mô tả ảnh và dịch máy (sequence-to-sequence).