intTypePromotion=1

Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:24

0
66
lượt xem
12
download

Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn Thạc sĩ "Nghiên cứu tóm tắt văn bản tự động và ứng dụng" Chương 1: Khái quát bài toán tóm tắt văn bản; chương 2: Một số nghiên cứu về tóm tắt văn bản; chương 3: Mạng nơ ron nhân tạo; chương 4: Xây dựng hệ thống tóm tắt văn bản theo hướng tóm lược, chương 5: Thử nghiệm và đánh giá. Mời các bạn cùng tham khảo đề tài.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> NGUYỄN VIẾT HẠNH<br /> <br /> NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br /> ỨNG DỤNG<br /> <br /> Ngành: Công nghệ thông tin<br /> Chuyên ngành: Kỹ thuật phần mềm<br /> Mã số: 60480103<br /> <br /> TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br /> <br /> HÀ NỘI - 2018<br /> <br /> 2<br /> MỤC LỤC<br /> <br /> MỤC LỤC ............................................................................................................................................... 2<br /> DANH MỤC HÌNH VẼ ........................................................................................................................... 4<br /> MỞ ĐẦU................................................................................................................................................. 6<br /> CHƯƠNG 1: KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN .............................................................. 7<br /> 1.1. Bài toán tóm tắt văn bản tự động ................................................................................................... 7<br /> 1.2. Các hướng tiếp cận tóm tắt văn bản. .............................................................................................. 7<br /> CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN ......................................................... 7<br /> 2.1. Tóm tắt văn bản theo hướng trích chọn. ........................................................................................ 7<br /> 2.2. Tóm tắt văn bản theo hướng tóm lược ........................................................................................... 8<br /> CHƯƠNG 3: MẠNG NƠ RON NHÂN TẠO ........................................................................................... 9<br /> 3.1. Mạng nơ ron nhân tạo ANN .......................................................................................................... 9<br /> 3.1.1. Cấu trúc mạng nơ ron nhân tạo................................................................................................... 9<br /> 3.1.2. Hoạt động của mạng ANN ......................................................................................................... 9<br /> 3.2. Mạng nơ ron hồi quy RNN ......................................................................................................... 10<br /> 3.3. Mạng nơ ron có nhớ LSTM......................................................................................................... 10<br /> CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƯỚNG TÓM LƯỢC............. 12<br /> 4.1. Quy trình tóm tắt theo hướng tóm lược sử dụng mạng LSTM...................................................... 12<br /> 4.2. Xây dựng bộ dữ liệu cho tóm tắt văn bản tiếng Việt .................................................................... 12<br /> 4.3. Word Embedding........................................................................................................................ 13<br /> 4.3.1. Embedding dựa trên tần xuất xuất hiện của từ. ......................................................................... 13<br /> 4.3.1.1. Count vector ......................................................................................................................... 13<br /> 4.3.1.2. Phương pháp vector hóa TF-IDF ........................................................................................... 14<br /> 4.3.2. Word2Vec ............................................................................................................................... 14<br /> 4.3.2.1. CBOW (Continuous Bag of Word) ........................................................................................ 14<br /> 4.3.2.2. Mô hình Skip-gram ............................................................................................................... 15<br /> 4.4. Xây dựng mô hình ...................................................................................................................... 15<br /> CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ ...................................................................................... 17<br /> 5.1. Môi trường thử nghiệm ............................................................................................................... 17<br /> 5.2. Quá trình thử nghiệm .................................................................................................................. 18<br /> 5.2.1. Huấn luyện .............................................................................................................................. 18<br /> 5.2.2. Thử nghiệm ............................................................................................................................. 18<br /> 5.2.2.1. Thử nghiệm 1. ....................................................................................................................... 18<br /> 5.2.2.4. Thử nghiệm 4. ....................................................................................................................... 20<br /> <br /> 3<br /> KẾT LUẬN ........................................................................................................................................... 22<br /> TÀI LIỆU THAM KHẢO ...................................................................................................................... 23<br /> <br /> 4<br /> DANH MỤC HÌNH VẼ<br /> Hình 2.1. Mô hình sequence-to-sequence với cơ chế attention .................................................................. 8<br /> Hình 2.2. Ví dụ văn bản tóm tắt được sinh bởi mô hình pointer-generator networks .................................. 9<br /> Hình 3.2. Nguyên lý hoạt động của mạng ANN ........................................................................................ 9<br /> Hình 3.3. Đồ thị của các hàm kích hoạt phổ biến và đạo hàm của chúng. ................................................ 10<br /> Hình 3.5. Cấu trúc mạng RNN tiêu biểu ................................................................................................. 10<br /> Hình 3.7. Kiến trúc mạng LSTM ............................................................................................................ 11<br /> Hình 4.1. Mô hình bài toán tóm tắt văn bản ............................................................................................ 12<br /> Hình 4.2. Quy trình thực hiện tóm tắt văn bản tiếng Việt với LSTM ....................................................... 12<br /> Hình 4.4. Ma trận M được xây dựng theo phương pháp Count vector ..................................................... 13<br /> Hình 4.5. Cách hoạt động của CBOW .................................................................................................... 14<br /> Hình 4.6. Mô hình Skip-gram................................................................................................................. 15<br /> Hình 4.12. Mô hình bộ mã hóa-giải mã .................................................................................................. 15<br /> Hình 4.13. Kiến trúc mô hình tóm tắt văn bản tiếng việt sử dụng LSTM ................................................. 16<br /> Hình 5.7. So sánh chất lượng mô hình trên các tập dữ liệu tiếng Việt ...................................................... 20<br /> <br /> 5<br /> DANH MỤC BẢNG<br /> <br /> Bảng 5.1. Đánh giá độ chính xác trên tập 11490 bài báo tiếng Anh ......................................................... 19<br /> Bảng 5.2. So sánh một số mô hình học sâu cho tóm tắt văn bản tóm lược ............................................... 19<br /> Bảng 5.5. Thử nghiệm chất lượng mô hình trên các tập dữ liệu tiếng Việt............................................... 20<br /> <br />
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2