Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:181

Thêm vào BST

Báo xấu

29
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ "Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu" trình bày các nội dung chính sau: Tổng quan về tóm tắt văn bản; Các kiến thức nền tảng; Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút; Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược; Phát triển các phương pháp tóm tắt đa văn bản.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

LỜI CAM ĐOAN Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác. Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định. Hà Nội, ngày tháng năm 2022 Nghiên cứu sinh Lưu Minh Tuấn NGƯỜI HƯỚNG DẪN KHOA HỌC
LỜI CẢM ƠN Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô. Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS. TS. Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS. TS. Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án. Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất. Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình. Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay. Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân. Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!
MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................ iv DANH MỤC CÁC BẢNG....................................................................................... vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................ ix DANH MỤC KÝ HIỆU TOÁN HỌC .................................................................... xi MỞ ĐẦU .................................................................................................................... 1 Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN ......................................... 11 1.1. Giới thiệu về tóm tắt văn bản .............................................................. 11 1.1.1. Giới thiệu bài toán tóm tắt văn bản .................................................. 11 1.1.2. Phân loại bài toán tóm tắt văn bản ................................................... 12 1.1.3. Các bước thực hiện trong tóm tắt văn bản ....................................... 13 1.1.4. Một số đặc trưng của văn bản .......................................................... 13 1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động ................... 14 1.2.1. Phương pháp dựa trên độ tương tự về nội dung .............................. 14 1.2.2. Phương pháp dựa trên độ tương quan phù hợp ................................ 14 1.2.3. Phương pháp ROUGE ..................................................................... 15 1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản ......... 18 1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở ................ 20 1.4.1. PageRank ......................................................................................... 20 1.4.2. TextRank .......................................................................................... 20 1.4.3. LexRank ........................................................................................... 20 1.4.4. Lead-Based ...................................................................................... 21 1.5. Các bộ dữ liệu thử nghiệm .................................................................. 21 1.5.1. Các bộ dữ liệu văn bản tiếng Anh .................................................... 21 1.5.2. Các bộ dữ liệu văn bản tiếng Việt .................................................... 24 1.6. Kết luận chương 1 ................................................................................. 25 Chương 2. CÁC KIẾN THỨC NỀN TẢNG ........................................................ 27 2.1. Các kỹ thuật học sâu cơ sở ................................................................... 27 2.1.1. Mạng Perceptron nhiều lớp .............................................................. 27 2.1.2. Mạng nơ ron tích chập ..................................................................... 28 2.1.3. Mạng nơ ron hồi quy........................................................................ 30 2.1.4. Các biến thể của RNN...................................................................... 31 2.1.5. Mô hình chuỗi sang chuỗi cơ bản .................................................... 35 2.1.6. Cơ chế chú ý .................................................................................... 36 2.1.7. Cơ chế tự chú ý và mô hình Transformer ........................................ 39 2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước .... 42 2.2.1. Mã hóa từ ......................................................................................... 42 i
2.2.2. Phương pháp Word2Vec .................................................................. 42 2.2.3. Mô hình BERT ................................................................................. 44 2.2.4. Các phiên bản chủ yếu của mô hình BERT ..................................... 47 2.3. Kỹ thuật học tăng cường Q-Learning ................................................. 49 2.3.1. Học tăng cường Q-Learning ............................................................ 49 2.3.2. Thuật toán học tăng cường Deep Q-Learning ................................. 50 2.4. Tìm kiếm Beam ..................................................................................... 51 2.5. Phương pháp độ liên quan cận biên tối đa ......................................... 51 2.6. Kết luận chương 2 ................................................................................. 53 Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT ........................................................................................... 54 3.1. Giới thiệu bài toán và hướng tiếp cận ................................................. 54 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS ................................................................................. 56 3.2.1. Giới thiệu mô hình ........................................................................... 56 3.2.2. Mô hình tóm tắt văn bản đề xuất ..................................................... 56 3.2.3. Thử nghiệm mô hình ........................................................................ 59 3.2.4. Đánh giá và so sánh kết quả ............................................................. 63 3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS .............................................................................................................................. 64 3.3.1. Giới thiệu mô hình ........................................................................... 64 3.3.2. Mô hình tóm tắt văn bản đề xuất ..................................................... 64 3.3.3. Thử nghiệm mô hình ........................................................................ 67 3.3.4. Đánh giá và so sánh kết quả ............................................................. 71 3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS..................................................................................... 71 3.4.1. Giới thiệu mô hình ........................................................................... 71 3.4.2. Mô hình tóm tắt văn bản đề xuất ..................................................... 72 3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường ........................... 74 3.4.4. Thử nghiệm mô hình ........................................................................ 75 3.4.5. Đánh giá và so sánh kết quả ............................................................. 78 3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút đề xuất.................................................................................................................. 79 3.6. Kết luận chương 3 ................................................................................. 80 Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC ........................................................................................... 82 4.1. Giới thiệu bài toán và hướng tiếp cận ................................................. 82 4.2. Mô hình tóm tắt cơ sở ........................................................................... 84 4.2.1. Mô hình seq2seq của mô hình ......................................................... 84 ii
4.2.2. Cơ chế chú ý áp dụng trong mô hình ............................................... 85 4.2.3. Mạng sao chép từ - sinh từ ............................................................... 86 4.2.4. Cơ chế bao phủ ................................................................................ 87 4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87 4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình ................................. 88 4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất ................... 89 4.4. Thử nghiệm mô hình ............................................................................ 89 4.4.1. Các bộ dữ liệu thử nghiệm ............................................................... 89 4.4.2. Tiền xử lý dữ liệu ............................................................................. 90 4.4.3. Thiết kế thử nghiệm ......................................................................... 90 4.5. Đánh giá và so sánh kết quả ................................................................. 91 4.6. Kết luận chương 4 ................................................................................. 93 Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94 5.1. Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận................ 94 5.2. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS ................................................................................. 95 5.2.1. Giới thiệu mô hình ........................................................................... 95 5.2.2. Các thành phần chính của mô hình .................................................. 96 5.2.3. Mô hình tóm tắt đa văn bản đề xuất ............................................... 100 5.2.4. Thử nghiệm mô hình và kết quả .................................................... 104 5.2.5. So sánh và đánh giá kết quả ........................................................... 107 5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước ................................................. 110 5.3.1. Đặt vấn đề ...................................................................................... 110 5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS 110 5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr 121 5.4. Kết luận chương 5 ............................................................................... 132 KẾT LUẬN ........................................................................................................... 133 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .......................................... 136 TÀI LIỆU THAM KHẢO.................................................................................... 137 PHỤ LỤC .................................................................................................................. 1 Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ ......................... 1 Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm ...................... 3 Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm .................... 9 iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Ý nghĩa tiếng Việt AMDS Abstractive Multi-Document Tóm tắt đa văn bản hướng Summarization tóm lược ASDS Abstractive Single-Document Tóm tắt đơn văn bản hướng Summarization tóm lược Beam Beam Search Thuật toán tìm kiếm Beam BERT Bidirectional Encoder Representation Mô hình biểu diễn mã hóa from Transformers hai chiều từ Transformer BERT-Tiny Mô hình BERT thu nhỏ biGRU Bidirectional Gated Recurrent Unit Mạng GRU 2 chiều biLSTM Bidirectional Long Short Term Mạng LSTM 2 chiều Memory BPTT Backpropagation Through Time Thuật toán lan truyền ngược liên hồi CNN Covolutional Neural Network Mạng nơ ron tích chập DE Document Embedding Mã hóa văn bản Decoder Decoder Bộ giải mã DeepQL Deep Q-Learning Thuật toán học tăng cường dựa trên mạng nơ ron sâu EMDS Extractive Multi-Document Tóm tắt đa văn bản hướng Summarization trích rút Encoder Encoder Bộ mã hóa ESDS Extractive Single-Document Tóm tắt đơn văn bản hướng Summarization trích rút GLUE General Language Understanding Đánh giá hiểu ngôn ngữ Evaluation chung GRU Gated Recurrent Unit Mô hình đơn vị hồi quy có kiểm soát 1 chiều ILP Interger Linear Programming Quy hoạch tuyến tính nguyên IR Information Retrieval Tìm kiếm thông tin LCS Longest Common Subsequence Dãy con chung lớn nhất LDA Latent Dirichlet Allocation Mô hình chủ đề ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn LSTM Long Short Term Memory Mô hình mạng bộ nhớ ngắn hạn dài hạn 1 chiều mBERT BERT multilingual Mô hình BERT đa ngôn ngữ mds multi-document summaryzation Tóm tắt đa văn bản MLP Multi Layer Perceptron Mạng Perceptron nhiều lớp MMR Maximal Marginal Relevance Độ liên quan cận biên tối đa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên iv
OOV Out Of Vocabulary Không có trong bộ từ vựng PE Position Embedding Mã hóa vị trí PG Pointer – Generator Mô hình mạng Pointer – Generator PhoBERT Mô hình tối ưu của BERT hỗ trợ cho tiếng Việt PT Pre-trained Huấn luyện trước RL Reinforcement Learning Học tăng cường RNN Recurent Neural Network Mạng nơ ron hồi quy RoBERTa Mô hình tối ưu của BERT hỗ trợ cho tiếng Anh ROUGE Recall-Oriented Understudy for Độ đo Rouge Gisting Evaluation SE Sentence Embedding Mã hóa câu seq2seq Sequence to sequence Mô hình chuỗi sang chuỗi SQuAD Stanford Question Answering Dataset Bộ dữ liệu hỏi đáp của Stanford SVM Support Vector Machine Mô hình máy véc tơ hỗ trợ TF-IDF Term Frequency – Inverse Document Trọng số của từ (mức độ Frequency quan trọng của từ) trong văn bản của một tập văn bản TTVB Tóm tắt văn bản warmup warmup Quá trình huấn luyện ban đầu (số bước) với tỉ lệ học nhỏ WE Word Embedding Mã hóa từ v
DANH MỤC CÁC BẢNG Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh ................... 12 Bảng 1.2. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt ................... 12 Bảng 1.3. Phương pháp phân chia bộ dữ liệu CNN/Daily Mail .............................. 21 Bảng 1.4. Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail............... 22 Bảng 1.5. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản ............................................................................. 22 Bảng 1.6. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 ...................... 23 Bảng 1.7. Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 ................................................................................................................. 23 Bảng 1.8. Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi ........................... 24 Bảng 1.9. Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV ................. 25 Bảng 1.10. Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs ............................. 25 Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng .................................................................................................................................. 60 Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 61 Bảng 3.3. Kết quả thử nghiệm của các mô hình xây dựng. Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng ................................ 61 Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN ..................................................... 62 Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ................................................. 63 Bảng 3.6. So sánh và đánh giá hiệu quả các phương pháp. Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng.................................................................................................................. 63 Bảng 3.7. Các kết quả thử nghiệm của các mô hình xây dựng ................................ 69 Bảng 3.8. Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng...................................................................... 69 Bảng 3.9. Một mẫu tóm tắt trên bộ dữ liệu CNN ..................................................... 70 Bảng 3.10. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ............................................... 70 Bảng 3.11. So sáng và đánh giá hiệu quả của các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng ..................................................................................................... 71 Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning................................................................... 74 vi
Bảng 3.13. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng .................................................................................................................................. 76 Bảng 3.14. Kết quả thử nghiệm của các mô hình xây dựng ..................................... 77 Bảng 3.15. Một mẫu tóm tắt trên bộ dữ liệu CNN ................................................... 77 Bảng 3.16. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ............................................... 78 Bảng 3.17. So sánh và đánh giá kết quả các phương pháp...................................... 78 Bảng 3.18. So sánh đánh giá độ chính xác của 3 mô hình đề xuất .......................... 79 Bảng 3.19. So sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất ................ 80 Bảng 4.1. Kết quả thử nghiệm của các mô hình trên bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] ......................................................... 91 Bảng 4.2. Kết quả thử nghiệm của các mô hình trên bộ dữ liệu Baomoi. Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] ................................................................. 91 Bảng 4.3. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu CNN/Daily Mail ............. 92 Bảng 4.4. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu Baomoi ........................... 93 Bảng 5.1. Giá trị của các tham số sử dụng khi thử nghiệm các mô hình. Ký hiệu ‘-‘ biểu diễn mô hình không sử dụng các tham số tương ứng ..................................... 105 Bảng 5.2. Kết quả thử nghiệm các mô hình xây dựng trên hai bộ dữ liệu ............. 106 Bảng 5.3. Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007 ................................................................................................................................ 106 Bảng 5.4. So sánh và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng ................... 107 Bảng 5.5. Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mô hình đề xuất và con người ...................................................................................... 109 Bảng 5.6. Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của mô hình đề xuất và con người ................................................................................ 109 Bảng 5.6. Giá trị các siêu tham số và thời gian huấn luyện mô hình. Warmup là quá trình huấn luyện ban đầu với tỷ lệ học nhỏ để hiệu chỉnh cơ chế chú ý ................ 118 Bảng 5.7. Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi ...................................... 118 Bảng 5.8. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS chưa được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng ..................................................................... 118 Bảng 5.9. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng .......................................................................... 119 Bảng 5.10. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 ................................. 119 vii
Bảng 5.11. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV ............................. 120 Bảng 5.12. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng ............ 120 Bảng 5.13. Giá trị các siêu tham số và thời gian huấn luyện các mô hình ............ 128 Bảng 5.14. Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản trên các bộ dữ liệu CNN/Daily Mail và Baomoi ............................................................................ 129 Bảng 5.15. Kết quả thử nghiệm các mô hình xây dựng trên bộ dữ liệu DUC 2004 và Corpus_TMV .......................................................................................................... 129 Bảng 5.16. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 ................................. 130 Bảng 5.17. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV ............................. 131 Bảng 5.18. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng ............ 131 viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Các bước thực hiện trong tóm tắt văn bản ................................................ 13 Hình 1.2. Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản .. 19 Hình 2.1. Mô hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79] .............................. 27 Hình 2.2. Một kiến trúc CNN cho bài toán phân loại ảnh [84] ................................ 28 Hình 2.3. Tính toán với phương thức Average Pooling và Max Pooling [82] ......... 29 Hình 2.4. Mô hình mạng nơ ron hồi quy [87] .......................................................... 30 Hình 2.5. Kiến trúc tổng quan một tế bào nhớ LSTM (nguồn: [Internet]) .............. 31 Hình 2.6. Chi tiết tế bào nhớ LSTM [91] ................................................................. 32 Hình 2.7. Kiến trúc tổng quan của mạng biLSTM [88] ........................................... 33 Hình 2.8. Minh họa biLSTM ở 3 bước (t-1), t và (t+1) [91] .................................... 34 Hình 2.9. Chi tiết tế bào nhớ GRU [89] ................................................................... 35 Hình 2.10. Mô hình mạng chuỗi sang chuỗi [92] ..................................................... 36 Hình 2.11. Mô hình minh họa cơ chế chú ý sinh từ mục tiêu yt từ câu nguồn ( x1 , x2 ,....xT ) [93] ...................................................................................................... 37 Hình 2.12. Mô hình Transformer [97] ...................................................................... 40 Hình 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97] ................ 41 Hình 2.14. Mô hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [101] .................................................................................................................................. 42 Hình 2.15. Mô hình CBoW với nhiều từ làm ngữ cảnh để dự đoán từ tiếp theo [101] .................................................................................................................................. 43 Hình 2.16. Mô hình Skip-Gram [101] ...................................................................... 43 Hình 2.17. Kiến trúc mô hình BERT [102] .............................................................. 44 Hình 2.18. Biểu diễn đầu vào của mô hình BERT [102] ......................................... 45 Hình 2.19. Mô hình biểu diễn các bước chưng cất được huấn luyện trước của các mô hình BERT thu nhỏ [111] ................................................................................... 49 Hình 2.20. Mô hình học tăng cường ......................................................................... 49 Hình 3.1. Khung xử lý chung cho các mô hình tóm tắt đơn văn bản hướng trích rút đề xuất....................................................................................................................... 55 Hình 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS .................................................................................................................................. 57 Hình 3.3. Kiến trúc mạng MLP đề xuất của mô hình .............................................. 58 Hình 3.4. Mô hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS ............. 64 ix
Hình 3.5. Kiến trúc lớp Convolution với k-Max Pooling (k = 2) ............................ 66 Hình 3.6. Kiến trúc mô hình Encoder-Decoder đề xuất ........................................... 66 Hình 3.7. Mô hình tóm tắt văn bản hướng trích rút mBERT- Tiny_seq2seq_DeepQL_ESDS ................................................................................ 72 Hình 3.8. Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning....... 75 Hình 4.1. Mô hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] ..................... 84 Hình 4.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS .................................................................................................................................. 89 Hình 5.1. Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí tương đối của câu .................................................................................................................... 100 Hình 5.2. Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí câu ....... 101 Hình 5.3. Mô hình sử dụng thuật toán phân cụm K-means kết hợp MMR và vị trí câu ........................................................................................................................... 102 Hình 5.4. Mô hình sử dụng thuật toán phân cụm K-means kết hợp Centroid-based, MMR và vị trí câu .................................................................................................. 103 Hình 5.5. Mô hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS ...................................................................................... 104 Hình 5.6. Minh họa phương pháp PG-MMR (k=2) [147] ...................................... 113 Hình 5.7. Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS ................................................................................................................................ 114 Hình 5.8. Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS........................................................................................ 116 Hình 5.9. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_CNN_ESDS ................................................................................................................................ 122 Hình 5.10. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_TF-IDF_ASDS .... 123 Hình 5.11. Mô hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS ...................... 124 Hình 5.12. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre- trained Ext_Abs_ASDS đề xuất (MMR áp dụng trên từng văn bản) ..................... 124 Hình 5.13. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre- trained Ext_Abs_ASDS với phương pháp MMR áp dụng trên tập đa văn bản ..... 125 Hình 5.14. Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất Ext_Abs_AMDS-mds-mmr ............................................................................ 126 x
DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa AT Ma trận chuyển vị của ma trận A A-1 Ma trận nghịch đảo của ma trận A [A; B] Ghép 2 ma trận A và ma trận B exp(x) Hàm ex f  x Hàm số 1 biến f theo biến x log(x) logarit tự nhiên của số thực dương x Tập hợp các số thực n Không gian véc tơ n chiều xi Phần tử thứ i của véc tơ x x Chuẩn (norm) của véc tơ x x 2 Chuẩn cấp 2 của véc tơ x [x;y] Ghép 2 véc tơ x và véc tơ y xi
MỞ ĐẦU 1. Bối cảnh nghiên cứu Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội,... là những nguồn dữ liệu văn bản to lớn. Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học,... Các nội dung văn bản này tăng lên theo cấp số nhân hàng ngày. Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mình mong muốn. Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm. Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm. Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều. Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người. Trên thực tế, con người cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1]. Để giải quyết các vấn đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắt văn bản tự động. Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3]. Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cần phải đọc toàn bộ văn bản. Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệm được nhiều thời gian và công sức. Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản. Tóm tắt đơn văn bản sinh ra bản tóm tắt từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập các văn bản đầu vào. Các hệ thống tóm tắt văn bản tự động này được phát triển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược.  Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt. Phương pháp này bao gồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút các câu có điểm cao. Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phương pháp chủ yếu sau:  Phương pháp dựa trên thống kê: Trích rút các câu và các từ quan trọng từ văn bản nguồn dựa trên phân tích thống kê của tập các đặc trưng. Các hệ thống dựa trên phương pháp thống kê [4,5] thực hiện cho điểm câu bằng cách chọn và tính toán một số đặc trưng thống kê, sau đó gán các trọng số cho chúng và gán điểm cuối cùng cho mỗi câu trong văn bản được xác định bởi biểu thức trọng số - đặc trưng (nghĩa là tất cả điểm của các đặc trưng đã chọn được tính toán và tính tổng để thu 1
được điểm của mỗi câu). Bên cạnh đó, hệ thống Lead [6] chọn các câu đưa vào bản tóm tắt dựa vào trình tự thời gian đã cho kết quả khá cao.  Phương pháp dựa trên khái niệm: Trích xuất các khái niệm từ một đoạn văn bản từ các cơ sở tri thức bên ngoài như WordNet [7], Wikipedia,... Sau đó, độ quan trọng của các câu được xác định dựa trên các khái niệm được lấy từ cơ sở tri thức bên ngoài thay vì các từ. Các hệ thống này thực hiện cho điểm các câu bằng cách trích xuất các khái niệm của một văn bản từ cơ sở tri thức bên ngoài, xây dựng một véc tơ khái niệm hoặc mô hình đồ thị để chỉ ra mối quan hệ giữa khái niệm và câu rồi áp dụng một thuật toán xếp hạng để cho điểm các câu như trong [8].  Phương pháp dựa trên chủ đề: Phương pháp này dựa vào việc xác định chủ đề chính của văn bản. Có một số phương pháp biểu diễn chủ đề phổ biến là phương pháp dựa trên từ chủ đề, tần suất xuất hiện của từ (TF), trọng số thể hiện mức độ quan trọng của từ (TF-IDF), chuỗi từ vựng [9,10]. Các bước xử lý chung của các hệ thống tóm tắt trích rút dựa trên chủ đề bao gồm chuyển đổi văn bản đầu vào thành một biểu diễn trung gian, nắm bắt các chủ đề đã đề cập trong văn bản đầu vào và gán điểm mức độ quan trọng cho mỗi câu trong văn bản đầu vào theo biểu diễn của nó.  Phương pháp dựa trên trọng tâm hay phân cụm câu: Trong phương pháp này, hệ thống tóm tắt trích rút đa văn bản xác định các câu trọng tâm và quan trọng nhất trong một cụm sao cho chúng chứa các thông tin quan trọng liên quan đến cụm chủ đề chính [11,12,13]. Trọng tâm của câu được xác định bằng cách sử dụng trọng tâm của các từ. Cách phổ biến để xác định trọng tâm của từ là tìm tâm của cụm văn bản trong không gian véc tơ. Trọng tâm của một cụm bao gồm các từ có điểm trọng số TF-IDF lớn hơn một giá trị ngưỡng xác định trước.  Phương pháp dựa trên đồ thị: Phương pháp này sử dụng đồ thị dựa trên câu để biểu diễn một văn bản hoặc cụm văn bản. Phương pháp biểu diễn này đã được sử dụng phổ biến cho các hệ thống tóm tắt trích rút như: LexRank [11], TextRank [14]. Trong hệ thống LexRank [11], các câu được cho điểm bằng cách biểu diễn các câu của văn bản sử dụng một đồ thị vô hướng sao cho mỗi nút trong đồ thị biểu diễn một câu từ văn bản đầu vào, trọng số của cạnh kết nối là độ tương tự ngữ nghĩa giữa hai câu tương ứng (sử dụng độ tương tự cosine) và sử dụng một thuật toán xếp hạng để xác định độ quan trọng của từng câu. Các câu được xếp hạng dựa trên điểm LexRank giống như thuật toán PageRank [15] chỉ khác là đồ thị LexRank là đồ thị vô hướng.  Phương pháp dựa trên ngữ nghĩa: Phân tích ngữ nghĩa tiềm ẩn (LSA - Latent Semantic Analysis) là kỹ thuật học không giám sát biểu diễn ngữ nghĩa của văn bản dựa trên sự đồng xuất hiện của các từ được quan sát. Các bước cho điểm câu của các hệ thống tóm tắt trích rút dựa trên LSA [16,17] bao gồm: tạo ma trận đầu vào (ma trận từ - câu) và áp dụng phương pháp phân tích giá trị suy biến (SVD - Singular Value Decomposition) cho ma trận đầu vào để xác định mối quan hệ giữa các từ và các câu.  Phương pháp dựa trên học máy: Phương pháp này chuyển bài toán tóm tắt văn bản thành bài toán phân loại văn bản có giám sát. Hệ thống học bởi các mẫu học để phân loại một câu của văn bản đánh giá thuộc về lớp “được chọn” hoặc lớp “không được chọn” sử dụng một tập các văn bản huấn luyện (tập các văn bản và các bản tóm tắt tham chiếu tương ứng do con người tạo ra). Trong các hệ thống tóm tắt dựa 2
trên học máy [18,19,20], các bước thực hiện cho điểm câu bao gồm: trích xuất các đặc trưng từ văn bản đã tiền xử lý và đưa các đặc trưng đã trích xuất vào một mạng nơ ron để nhận được điểm đầu ra.  Phương pháp dựa trên học sâu: Trong [21], Kobayashi và cộng sự đề xuất một hệ thống tóm tắt sử dụng độ tương tự mức văn bản dựa trên các mã hóa từ (nghĩa là các biểu diễn phân bố của từ). Mã hóa của một từ biểu diễn ý nghĩa của nó. Một văn bản được coi như một “túi câu” và một câu được coi như một “túi từ”. Nhiệm vụ được cụ thể hóa như bài toán tối đa hóa một hàm được xác định bởi tổng âm của các khoảng cách lân cận gần nhất trên các phân bố mã hóa (tức là một tập các mã hóa từ trong một văn bản). Kobayashi và cộng sự chỉ ra rằng độ tương tự mức văn bản có thể xác định những nghĩa phức tạp hơn độ tương tự mức câu. Chen và Nguyen [22] đã đề xuất một hệ thống tóm tắt văn bản tự động sử dụng kỹ thuật học tăng cường và mô hình chuỗi sang chuỗi với kiến trúc bộ mã hóa - giải mã sử dụng mạng nơ ron hồi quy. Các đặc trưng quan trọng được chọn bằng kỹ thuật mã hóa mức câu sau đó các câu tóm tắt được trích rút. Bên cạnh đó, phải kể đến một số hệ thống như [23,24,25,26,27], các hệ thống này đã sử dụng các kỹ thuật học sâu hiệu quả để tạo bản tóm tắt cuối cùng. Các hệ thống tóm tắt hướng trích rút này có ưu điểm là thực thi đơn giản, nhanh và cho độ chính xác cao vì phương pháp này thực hiện trích rút trực tiếp các câu để người đọc có thể đọc bản tóm tắt với các thuật ngữ chính xác có trong văn bản gốc. Tuy nhiên, phương pháp cận này có những hạn chế cần cần quan tâm như: Vấn đề dư thừa thông tin trong một số câu tóm tắt, các câu được trích rút có thể dài hơn mức trung bình, vấn đề xung đột về thời gian trong bài toán tóm tắt đa văn bản vì các bản tóm tắt trích rút được chọn từ nhiều văn bản đầu vào khác nhau, thiếu ngữ nghĩa và tính liên kết trong các câu tóm tắt vì liên kết không chính xác giữa các câu.  Tóm tắt văn bản hướng tóm lược: Phương pháp tiếp cận này biểu diễn văn bản đầu vào ở dạng trung gian, sau đó sinh bản tóm tắt với các từ và câu khác với các câu trong văn bản nguồn [28]. Các hệ thống tóm tắt hướng tóm lược sinh ra bản tóm tắt bằng cách hiểu các khái niệm chính trong văn bản đầu vào sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, sau đó diễn giải văn bản để diễn đạt các khái niệm đó với số từ ít hơn và sử dụng ngôn ngữ rõ ràng [29,30]. Một hệ thống tóm tắt tóm lược có thể bao gồm các nhiệm vụ xử lý chính sau: Biểu diễn ngữ nghĩa văn bản và sử dụng các kỹ thuật sinh ngôn ngữ tự nhiên để sinh bản tóm tắt gần với các bản tóm tắt của con người tạo ra [31]. Các nghiên cứu theo phương pháp tiếp cận này có thể chia thành các loại chính sau:  Phương pháp dựa trên cấu trúc: Phương pháp này sử dụng cấu trúc được xác định trước như đồ thị, cây, luật, mẫu,… để phát triển hệ thống tóm tắt tóm lược. Các hệ thống tóm tắt tóm lược sử dụng cấu trúc đồ thị được đề xuất như [32,33,34,35], trong các hệ thống này mỗi nút biểu diễn cho một từ và thông tin vị trí được liên kết với các nút. Các cung có hướng biểu diễn cấu trúc của câu. Các hệ thống dựa trên cấu trúc cây xác định các câu tương tự nhau, sau đó dựa trên các câu này để sinh bản tóm tắt tóm lược. Các câu được biểu diễn thành một cấu trúc giống như cấu trúc cây, sử dụng bộ phân tích cú pháp để xây dựng cây phụ thuộc là các biểu diễn dạng cây sử dụng nhiều cho văn bản. Sau đó, một số nhiệm vụ được thực hiện để xử lý cây như tỉa cây, chuyển đổi cây thành dạng chuỗi,... để sinh bản tóm tắt cuối cùng. Kurisinkel và cộng sự [36] đề xuất một hệ thống tóm tắt đa văn bản tóm lược dựa 3
trên phân tích cú pháp văn bản đầu vào để xây dựng một tập gồm tất cả các cây phụ thuộc cú pháp. Trong khi đó, hệ thống dựa trên luật [37] yêu cầu xác định các luật để phát hiện các khái niệm quan trọng trong văn bản đầu vào, sau đó sử dụng các khái niệm này để sinh ra bản tóm tắt.  Phương pháp dựa trên ngữ nghĩa: Biểu diễn văn bản đầu vào bằng các biểu diễn ngữ nghĩa như các mục thông tin, đồ thị ngữ nghĩa,..v...v..., rồi cung cấp các biểu diễn ngữ nghĩa này cho hệ thống sinh ngôn ngữ tự nhiên sử dụng các danh từ và động từ để sinh ra bản tóm tắt tóm lược cuối cùng [38].  Phương pháp dựa trên học sâu: Mô hình seq2seq đã tạo ra các mô hình tóm tắt hướng tóm lược hiệu quả trong tóm tắt văn bản [39]. Mô hình với bộ mã hóa - giải mã sử dụng mạng nơ ron hồi quy với cơ chế chú ý (attention) đã đạt được kết quả cao cho tóm tắt văn bản ngắn. Tuy nhiên, các phương pháp học sâu gặp phải một số vấn đề như: các từ hoặc cụm từ sinh ra bị lặp lại và không xử lý được vấn đề thiếu từ trong bộ từ vựng. Một số nghiên cứu khác cũng đã sử dụng kỹ thuật học sâu kết hợp với các kỹ thuật khác để tạo ra các hệ thống tóm tắt tóm lược hiệu quả như [40,41,42,43]. Ưu điểm của các phương pháp tóm tắt hướng tóm lược là sinh ra các bản tóm tắt tốt hơn với các từ có thể không có trong văn bản gốc bằng cách sử dụng các biểu diễn dựa trên diễn giải, nén. Bản tóm tắt được sinh ra gần với bản tóm tắt thủ công của con người hơn, có thể ngắn hơn so với các phương pháp trích rút vì câu sinh ra đã giảm được các thông tin dư thừa. Tuy nhiên, trong thực tế, việc sinh một bản tóm tắt tóm lược có chất lượng tốt là rất khó khăn. Các hệ thống tóm tắt tóm lược có chất lượng tốt rất khó phát triển vì các hệ thống này yêu cầu sử dụng kỹ thuật sinh ngôn ngữ tự nhiên mà kỹ thuật này vẫn là một lĩnh vực đang được nghiên cứu phát triển hiện nay. Hầu hết các bản tóm tắt tóm lược đều gặp phải vấn đề lặp từ và không xử lý được vấn đề thiếu từ trong bộ từ vựng một cách thích hợp. Ngoài ra, một phương pháp tiếp cận khác là tóm tắt văn bản dựa trên kỹ thuật nén câu [44,45] cũng đã đạt được những kết quả nhất định. Phương pháp tiếp cận này thực hiện liên kết các câu được rút gọn để tạo ra một văn bản tóm tắt ngắn hơn, ngữ pháp chấp nhận được, đảm bảo được mức độ mạch lạc về nội dung và ý nghĩa của văn bản nguồn. Các phương pháp nén câu thường sử dụng các kỹ thuật học có giám sát, bộ từ vựng phù hợp, phân tích ngôn ngữ dựa trên cây cú pháp [46,47] và kỹ thuật học không giám sát như [45,48]. Các nghiên cứu về kỹ thuật nén câu cũng cho thấy vai trò của phương pháp tiếp cận này trong tóm tắt văn bản. Tuy nhiên, các phương pháp nén câu yêu cầu chi phí xây dựng kho dữ liệu huấn luyện lớn, các bộ dữ liệu liên quan đến bộ từ vựng phù hợp được thực thi bởi chuyên gia ngôn ngữ trong thời gian dài và độ phức tạp tính toán cao nên các mô hình tóm tắt văn bản sử dụng các kỹ thuật nén câu thường yêu cầu chi phí cao. Bên cạnh đó, chất lượng của bản tóm tắt tạo ra phụ thuộc rất nhiều vào chất lượng của các kỹ thuật nén câu được sử dụng. Đối với tiếng Việt, do tính phức tạp và đặc thù riêng của ngôn ngữ nên các nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế. Hầu hết các nghiên cứu là các đề tài tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài nghiên cứu khoa học cấp trường, cấp bộ [49,50,51]. Các nghiên cứu được công bố dưới hình thức các bài báo khoa học cho tóm tắt văn bản tiếng Việt còn ít [52,53,54,55,56]. Các nghiên cứu này phần lớn dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản và chủ 4
yếu dựa vào các đặc trưng của câu như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự,... để chọn ra các câu quan trọng theo tỉ lệ trích rút nên chất lượng văn bản tóm tắt chưa cao, có thể kể đến như: tóm tắt văn bản tiếng Việt sử dụng cấu trúc diễn ngôn [52], tóm tắt văn bản sử dụng các phương pháp truyền thống [53], sử dụng giải thuật di truyền để tóm tắt văn bản [54], trích rút câu sử dụng phương pháp máy véc tơ hỗ trợ để đưa vào bản tóm tắt [56]. Mô hình seq2seq kết hợp với cơ chế chú ý để thực hiện tóm tắt văn bản như trong [57]. Bên cạnh đó, do chưa có các kho ngữ liệu đủ lớn được công bố chính thức phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết các thử nghiệm đều dựa trên các kho ngữ liệu tự xây dựng nên việc đánh giá kết quả của các nghiên cứu cũng cần được xem xét kỹ lưỡng. Như vậy, có thể nhận thấy các hệ thống tóm tắt văn bản tự động còn nhiều hạn chế, chính những hạn chế này làm phát sinh những thách thức cần giải quyết đồng thời mở ra các hướng nghiên cứu mới cho bài toán tóm tắt văn bản, đó là:  Thách thức liên quan đến tóm tắt đa văn bản: Tóm tắt đa văn bản là bài toán phức tạp với nhiều vấn đề cần giải quyết như dư thừa thông tin, trình tự thời gian và sắp xếp lại các câu.  Thách thức liên quan đến các ngôn ngữ được hỗ trợ tóm tắt: Hầu hết các hệ thống tóm tắt văn bản tự động đều tập trung vào tóm tắt văn bản tiếng Anh. Đối với các ngôn ngữ khác, các nghiên cứu còn hạn chế và chất lượng của các hệ thống tóm tắt văn bản tự động hiện có cũng cần được cải thiện. Do đó, cần phải phát triển và cải tiến các hệ thống tóm tắt cho các ngôn ngữ không phải tiếng Anh.  Thách thức liên quan đến phương pháp tóm tắt văn bản: Hầu hết các nghiên cứu hiện nay đều tập trung vào phương pháp tóm tắt hướng trích rút, do đó cần nghiên cứu đề xuất và cải thiện các hệ thống tóm tắt dựa trên phương pháp tóm tắt hướng tóm lược và phương pháp tóm tắt hỗn hợp.  Thách thức liên quan đến các đặc trưng thống kê và ngôn ngữ: Cần phát hiện thêm mới các đặc trưng thống kê và ngôn ngữ cho các từ, các câu cho các hệ thống để có thể trích xuất ngữ nghĩa các câu chính từ văn bản nguồn. Bên cạnh đó, vấn đề xử lý trọng số thích hợp cho các đặc trưng mới này cũng là một vấn đề quan trọng quyết định chất lượng của bản tóm tắt cuối cùng.  Thách thức liên quan đến việc sử dụng các kỹ thuật học sâu và vấn đề thiếu dữ liệu thử nghiệm cho các mô hình: Do các mô hình học sâu thường có kiến trúc phức tạp, khối lượng xử lý tính toán lớn nên các hệ thống tóm tắt cũng đòi hỏi tài nguyên lớn để thực thi. Bên cạnh đó, các mô hình học sâu yêu cầu lượng dữ liệu huấn luyện lớn để đảm bảo chất lượng của bản tóm tắt đầu ra nhưng thực tế hiện nay các dữ liệu này khan hiếm (hoặc nếu có thì cũng không đủ lớn) để huấn luyện các mô hình. Đây là một thách thức nghiên cứu quan trọng khi xây dựng các hệ thống tóm tắt văn bản tự động sử dụng các kỹ thuật hiện đại với một lượng dữ liệu huấn luyện nhỏ.  Thách thức liên quan đến chất lượng của bản tóm tắt sinh ra: Bản tóm tắt cần đạt được sự cân bằng giữa khả năng đọc, tỷ lệ nén và chất lượng tóm tắt tốt. Các hệ thống tóm tắt văn bản tự động hiện tại rất khó đạt được tỷ lệ nén cao để tóm tắt các văn bản dài như tiểu thuyết, sách,… nên cần phải cải thiện chất lượng bản tóm tắt về ngữ nghĩa do các từ không rõ nghĩa, từ đồng nghĩa hoặc từ nhiều nghĩa gây ra.  Thách thức liên quan đến phương pháp đánh giá bản tóm tắt tạo ra: Đánh giá bản tóm tắt (tự động hoặc thủ công) là một nhiệm vụ khó khăn, đó là khó khăn trong việc xác định và sử dụng một độ đo tiêu chuẩn có độ tin cậy cao để đánh giá 5
các bản tóm tắt được sinh ra từ hệ thống tóm tắt văn bản tự động có đủ tốt hay không và rất khó khăn để tìm ra một bản tóm tắt lý tưởng vì hệ thống tóm tắt văn bản tự động có thể tạo ra các bản tóm tắt tốt khác với các bản tóm tắt do con người tạo ra. Con người và hệ thống có thể chọn các câu khác nhau cho các bản tóm tắt trích rút và có thể diễn giải các bản tóm tắt tóm lược theo một cách hoàn toàn khác nên các phương pháp đánh giá thủ công không phù hợp với các loại tóm tắt. Do đó, cần có các phương pháp đánh giá tự động các bản tóm tắt do các hệ thống tóm tắt sinh ra. Hầu hết các nghiên cứu đã cố gắng phát triển mới và cải tiến các phương pháp tóm tắt văn bản hiện có nhằm tạo ra các hệ thống tóm tắt văn bản hiệu quả. Các phương pháp tóm tắt văn bản này thường là trích rút hoặc tóm lược áp dụng cho tóm tắt đơn văn bản và tóm tắt đa văn bản. Do đó, việc nghiên cứu, phát triển các mô hình tóm tắt văn bản hiệu quả là rất cần thiết và có ý nghĩa to lớn. 2. Động lực thúc đẩy Từ bối cảnh nghiên cứu đã phân tích trên, nghiên cứu sinh nhận thấy bài toán tóm tắt văn bản tự động đóng một vai trò quan trọng trong xử lý ngôn ngữ tự nhiên cũng như khai phá dữ liệu văn bản và đặt ra nhiều thách thức cho việc phát triển các phương pháp tóm tắt văn bản hiệu quả. Mặc dù, hàng năm các nhà nghiên cứu đã đề xuất phát triển được một số giải pháp mới hoặc cải tiến các giải pháp hiện có để nâng cao hiệu quả và độ chính xác cho các mô hình tóm tắt văn bản nhưng các bản tóm tắt được sinh ra của các mô hình vẫn khác xa so với các bản tóm tắt do con người tạo ra. Một trong các nguyên nhân đó là dữ liệu thử nghiệm cho các mô hình tóm tắt của bài toán tóm tắt văn bản. Vấn đề thiếu dữ liệu hay dữ liệu bị nhiễu làm cho hiệu quả tóm tắt của các mô hình tóm tắt chưa cao. Bên cạnh đó, vấn đề biểu diễn dữ liệu văn bản đầu vào cũng đóng vai trò quan trọng quyết định hiệu quả của các mô hình tóm tắt. Một lý do khác có vai trò quan trọng không kém là phần lớn các nghiên cứu về tóm tắt văn bản hiện nay được thực hiện cho tóm tắt văn bản tiếng Anh, các nghiên cứu về bài toán tóm tắt văn bản tiếng Việt còn khiêm tốn. Do đó, việc nghiên cứu phát triển các mô hình tóm tắt văn bản hiệu quả áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt càng có ý nghĩa to lớn, nhất là trong bối cảnh các kỹ thuật học máy, các mô hình học sâu và các kỹ thuật hiện đại khác đang được phát triển mạnh như hiện nay. Chính vì những lý do đó, đề tài “Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu” được đặt ra hết sức cấp thiết và có tính ứng dụng cao trong thực tiễn. 3. Đối tượng và phạm vi nghiên cứu  Đối tượng nghiên cứu:  Các đặc trưng của văn bản.  Các bộ dữ liệu thử nghiệm cho tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt.  Các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt. 6
 Các kỹ thuật áp dụng trong tóm tắt văn bản như: Các phương pháp véc tơ hóa văn bản, các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước, cơ chế chú ý, kỹ thuật tìm kiếm, phương pháp loại bỏ thông tin trùng lặp.  Các phương pháp đánh giá độ chính xác của văn bản tóm tắt.  Phạm vi nghiên cứu:  Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút.  Đề xuất mô hình tóm tắt đơn văn bản hướng tóm lược.  Đề xuất các mô hình tóm tắt đa văn bản hướng trích rút.  Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược. Các mô hình tóm tắt văn bản đề xuất này đều được áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt. 4. Mục tiêu nghiên cứu Luận án nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản cho tóm tắt văn bản tiếng Anh và tiếng Việt. Cụ thể:  Nghiên cứu đề xuất các đặc trưng quan trọng sử dụng cho các mô hình tóm tắt văn bản.  Nghiên cứu các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước để véc tơ hóa văn bản cho các mô hình tóm tắt văn bản.  Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược áp dụng tóm tắt cho tóm tắt văn bản tiếng Anh và tiếng Việt.  Đề xuất mô hình tóm tắt đa văn bản hướng trích rút cho tóm tắt văn bản tiếng Anh và tiếng Việt.  Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các mô hình tóm tắt đơn văn bản được huấn luyện trước. 5. Phương pháp nghiên cứu  Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt.  Nghiên cứu các hướng tiếp cận tóm tắt văn bản tiếng Anh và tiếng Việt liên quan, trong đó tập trung vào các hướng tiếp cận hiện đại.  Phân tích ưu điểm, nhược điểm của các phương pháp tóm tắt hiện tại để đề xuất các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt hiệu quả.  Nghiên cứu lựa chọn phương pháp đánh giá hiệu quả của các mô hình tóm tắt văn bản.  Cài đặt thử nghiệm một số phương pháp tóm tắt văn bản hiện có, các mô hình tóm tắt đề xuất trên các bộ dữ liệu thử nghiệm.  Đánh giá và so sánh kết quả thử nghiệm của các mô hình để đề xuất các mô hình tóm tắt hiệu quả. 6. Nội dung nghiên cứu 7