ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
NGUYỄN VIẾT HẠNH<br />
<br />
NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br />
ỨNG DỤNG<br />
<br />
Ngành: Công nghệ thông tin<br />
Chuyên ngành: Kỹ thuật phần mềm<br />
Mã số: 60480103<br />
<br />
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br />
<br />
HÀ NỘI - 2018<br />
<br />
2<br />
MỤC LỤC<br />
<br />
MỤC LỤC ............................................................................................................................................... 2<br />
DANH MỤC HÌNH VẼ ........................................................................................................................... 4<br />
MỞ ĐẦU................................................................................................................................................. 6<br />
CHƯƠNG 1: KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN .............................................................. 7<br />
1.1. Bài toán tóm tắt văn bản tự động ................................................................................................... 7<br />
1.2. Các hướng tiếp cận tóm tắt văn bản. .............................................................................................. 7<br />
CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN ......................................................... 7<br />
2.1. Tóm tắt văn bản theo hướng trích chọn. ........................................................................................ 7<br />
2.2. Tóm tắt văn bản theo hướng tóm lược ........................................................................................... 8<br />
CHƯƠNG 3: MẠNG NƠ RON NHÂN TẠO ........................................................................................... 9<br />
3.1. Mạng nơ ron nhân tạo ANN .......................................................................................................... 9<br />
3.1.1. Cấu trúc mạng nơ ron nhân tạo................................................................................................... 9<br />
3.1.2. Hoạt động của mạng ANN ......................................................................................................... 9<br />
3.2. Mạng nơ ron hồi quy RNN ......................................................................................................... 10<br />
3.3. Mạng nơ ron có nhớ LSTM......................................................................................................... 10<br />
CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƯỚNG TÓM LƯỢC............. 12<br />
4.1. Quy trình tóm tắt theo hướng tóm lược sử dụng mạng LSTM...................................................... 12<br />
4.2. Xây dựng bộ dữ liệu cho tóm tắt văn bản tiếng Việt .................................................................... 12<br />
4.3. Word Embedding........................................................................................................................ 13<br />
4.3.1. Embedding dựa trên tần xuất xuất hiện của từ. ......................................................................... 13<br />
4.3.1.1. Count vector ......................................................................................................................... 13<br />
4.3.1.2. Phương pháp vector hóa TF-IDF ........................................................................................... 14<br />
4.3.2. Word2Vec ............................................................................................................................... 14<br />
4.3.2.1. CBOW (Continuous Bag of Word) ........................................................................................ 14<br />
4.3.2.2. Mô hình Skip-gram ............................................................................................................... 15<br />
4.4. Xây dựng mô hình ...................................................................................................................... 15<br />
CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ ...................................................................................... 17<br />
5.1. Môi trường thử nghiệm ............................................................................................................... 17<br />
5.2. Quá trình thử nghiệm .................................................................................................................. 18<br />
5.2.1. Huấn luyện .............................................................................................................................. 18<br />
5.2.2. Thử nghiệm ............................................................................................................................. 18<br />
5.2.2.1. Thử nghiệm 1. ....................................................................................................................... 18<br />
5.2.2.4. Thử nghiệm 4. ....................................................................................................................... 20<br />
<br />
3<br />
KẾT LUẬN ........................................................................................................................................... 22<br />
TÀI LIỆU THAM KHẢO ...................................................................................................................... 23<br />
<br />
4<br />
DANH MỤC HÌNH VẼ<br />
Hình 2.1. Mô hình sequence-to-sequence với cơ chế attention .................................................................. 8<br />
Hình 2.2. Ví dụ văn bản tóm tắt được sinh bởi mô hình pointer-generator networks .................................. 9<br />
Hình 3.2. Nguyên lý hoạt động của mạng ANN ........................................................................................ 9<br />
Hình 3.3. Đồ thị của các hàm kích hoạt phổ biến và đạo hàm của chúng. ................................................ 10<br />
Hình 3.5. Cấu trúc mạng RNN tiêu biểu ................................................................................................. 10<br />
Hình 3.7. Kiến trúc mạng LSTM ............................................................................................................ 11<br />
Hình 4.1. Mô hình bài toán tóm tắt văn bản ............................................................................................ 12<br />
Hình 4.2. Quy trình thực hiện tóm tắt văn bản tiếng Việt với LSTM ....................................................... 12<br />
Hình 4.4. Ma trận M được xây dựng theo phương pháp Count vector ..................................................... 13<br />
Hình 4.5. Cách hoạt động của CBOW .................................................................................................... 14<br />
Hình 4.6. Mô hình Skip-gram................................................................................................................. 15<br />
Hình 4.12. Mô hình bộ mã hóa-giải mã .................................................................................................. 15<br />
Hình 4.13. Kiến trúc mô hình tóm tắt văn bản tiếng việt sử dụng LSTM ................................................. 16<br />
Hình 5.7. So sánh chất lượng mô hình trên các tập dữ liệu tiếng Việt ...................................................... 20<br />
<br />
5<br />
DANH MỤC BẢNG<br />
<br />
Bảng 5.1. Đánh giá độ chính xác trên tập 11490 bài báo tiếng Anh ......................................................... 19<br />
Bảng 5.2. So sánh một số mô hình học sâu cho tóm tắt văn bản tóm lược ............................................... 19<br />
Bảng 5.5. Thử nghiệm chất lượng mô hình trên các tập dữ liệu tiếng Việt............................................... 20<br />
<br />